LLM-as-a-Judge · BERTScore · Reprodutível
Avalie a confiabilidade do seu chatbot LLM¶
Framework open-source em Python para medir precisão factual, consistência semântica e robustez de qualquer chatbot baseado em LLM — de forma automatizada, comparável e reprodutível.
Envie cenários de teste, deixe um modelo-juiz avaliar as respostas com apoio de métricas computacionais e receba relatórios estruturados — pronto para rodar como quality gate na sua pipeline de CI.
Três dimensões de confiabilidade¶
-
Precisão factual
O chatbot responde corretamente? As respostas são comparadas com um ground truth verificável, com cenários-armadilha para flagrar alucinação.
-
Consistência semântica
A mesma pergunta, feita de formas diferentes, recebe a mesma resposta? O framework envia reformulações e compara as saídas entre si.
-
Robustez
A qualidade se mantém diante de ruído, typos e inputs adversariais? As variantes são comparadas com a resposta original.
Comece em 2 minutos¶
Pronto para CI
O mesmo comando vira um quality gate que barra regressões de qualidade em cada pull request. Veja o guia de calibração do gate.
Por onde seguir¶
-
Guia rápido
Do zero a um relatório de confiabilidade em três passos.
-
Configuração
Referência completa do
config.yaml: provider, juiz, dimensões e saída. -
Providers
Gemini, Mistral e o provider HTTP genérico para qualquer endpoint.
-
Avaliação
LLM-as-a-Judge (rubrica 1–5) e métricas computacionais como o BERTScore.
-
Quality gate em CI
Calibre quando e como o gate falha na sua pipeline.
-
Validação humana
Protocolo de concordância humano × juiz e os templates de anotação.
O llm-eval nasceu como Trabalho de Conclusão de Curso em Engenharia de Software
na Universidade de Brasília (UnB), preenchendo uma lacuna prática: aplicar,
de forma sistemática e acessível, métricas e critérios de avaliação de LLMs.