Ir para o conteúdo

LLM-as-a-Judge · BERTScore · Reprodutível

Avalie a confiabilidade do seu chatbot LLM

Framework open-source em Python para medir precisão factual, consistência semântica e robustez de qualquer chatbot baseado em LLM — de forma automatizada, comparável e reprodutível.

Envie cenários de teste, deixe um modelo-juiz avaliar as respostas com apoio de métricas computacionais e receba relatórios estruturados — pronto para rodar como quality gate na sua pipeline de CI.

Três dimensões de confiabilidade

  •  Precisão factual


    O chatbot responde corretamente? As respostas são comparadas com um ground truth verificável, com cenários-armadilha para flagrar alucinação.

    Banco de cenários

  •  Consistência semântica


    A mesma pergunta, feita de formas diferentes, recebe a mesma resposta? O framework envia reformulações e compara as saídas entre si.

    Como avaliamos

  •  Robustez


    A qualidade se mantém diante de ruído, typos e inputs adversariais? As variantes são comparadas com a resposta original.

    Validação humana

Comece em 2 minutos

pip install llm-eval-unb
provider:
  type: gemini
  model: gemini-2.0-flash
  api_key: ${GEMINI_API_KEY}
judge:
  provider:
    type: gemini
    model: gemini-2.0-flash
    api_key: ${GEMINI_API_KEY}
dimensions: [factual, consistency, robustness]
output_dir: results/
export GEMINI_API_KEY=...      # sua chave por variável de ambiente
llm-eval run --config config.yaml
# → results/report.md  +  results/report.json

Pronto para CI

O mesmo comando vira um quality gate que barra regressões de qualidade em cada pull request. Veja o guia de calibração do gate.

Por onde seguir

  •  Guia rápido


    Do zero a um relatório de confiabilidade em três passos.

    Abrir

  •  Configuração


    Referência completa do config.yaml: provider, juiz, dimensões e saída.

    Abrir

  •  Providers


    Gemini, Mistral e o provider HTTP genérico para qualquer endpoint.

    Abrir

  •  Avaliação


    LLM-as-a-Judge (rubrica 1–5) e métricas computacionais como o BERTScore.

    Abrir

  •  Quality gate em CI


    Calibre quando e como o gate falha na sua pipeline.

    Abrir

  •  Validação humana


    Protocolo de concordância humano × juiz e os templates de anotação.

    Abrir


O llm-eval nasceu como Trabalho de Conclusão de Curso em Engenharia de Software na Universidade de Brasília (UnB), preenchendo uma lacuna prática: aplicar, de forma sistemática e acessível, métricas e critérios de avaliação de LLMs.