LLM-as-a-Judge · BERTScore · Reprodutível

Avalie a confiabilidade do seu chatbot LLM¶

Framework open-source em Python para medir precisão factual, consistência semântica e robustez de qualquer chatbot baseado em LLM — de forma automatizada, comparável e reprodutível.

Começar agora Ver no GitHub

Envie cenários de teste, deixe um modelo-juiz avaliar as respostas com apoio de métricas computacionais e receba relatórios estruturados — pronto para rodar como quality gate na sua pipeline de CI.

Três dimensões de confiabilidade¶

Precisão factual

O chatbot responde corretamente? As respostas são comparadas com um ground truth verificável, com cenários-armadilha para flagrar alucinação.

Banco de cenários
Consistência semântica

A mesma pergunta, feita de formas diferentes, recebe a mesma resposta? O framework envia reformulações e compara as saídas entre si.

Como avaliamos
Robustez

A qualidade se mantém diante de ruído, typos e inputs adversariais? As variantes são comparadas com a resposta original.

Validação humana

Comece em 2 minutos¶

InstalarConfigurar (config.yaml)Rodar

pip install llm-eval-unb

provider:
  type: gemini
  model: gemini-2.0-flash
  api_key: ${GEMINI_API_KEY}
judge:
  provider:
    type: gemini
    model: gemini-2.0-flash
    api_key: ${GEMINI_API_KEY}
dimensions: [factual, consistency, robustness]
output_dir: results/

export GEMINI_API_KEY=...      # sua chave por variável de ambiente
llm-eval run --config config.yaml
# → results/report.md  +  results/report.json

Pronto para CI

O mesmo comando vira um quality gate que barra regressões de qualidade em cada pull request. Veja o guia de calibração do gate.

Por onde seguir¶

Guia rápido

Do zero a um relatório de confiabilidade em três passos.

Abrir
Configuração

Referência completa do config.yaml: provider, juiz, dimensões e saída.

Abrir
Providers

Gemini, Mistral e o provider HTTP genérico para qualquer endpoint.

Abrir
Avaliação

LLM-as-a-Judge (rubrica 1–5) e métricas computacionais como o BERTScore.

Abrir
Quality gate em CI

Calibre quando e como o gate falha na sua pipeline.

Abrir
Validação humana

Protocolo de concordância humano × juiz e os templates de anotação.

Abrir

O llm-eval nasceu como Trabalho de Conclusão de Curso em Engenharia de Software na Universidade de Brasília (UnB), preenchendo uma lacuna prática: aplicar, de forma sistemática e acessível, métricas e critérios de avaliação de LLMs.