Avaliações
Visão Geral
O que é uma Avaliação?
Avaliações são uma técnica essencial para garantir que seus fluxos de IA sejam confiáveis e estáveis. Elas determinam se seu produto de IA permanecerá como uma prova de conceito frágil ou se evoluirá para um fluxo robusto, pronto para produção. As avaliações são cruciais tanto durante a fase de construção quanto após a implantação em ambiente de produção.
O núcleo de uma avaliação consiste em passar um conjunto de dados de teste pelo seu fluxo de IA. Esse conjunto contém múltiplos casos de teste, cada um com entradas de exemplo para o fluxo — e geralmente também com saídas esperadas.
Com as avaliações, você pode:
- Testar seu fluxo de IA com entradas variadas, compreendendo seu comportamento em casos extremos
- Fazer alterações com tranquilidade, evitando introduzir problemas não intencionais em outras partes do sistema
- Comparar o desempenho entre diferentes modelos ou prompts
O vídeo abaixo explica o que é uma avaliação, por que ela é útil e como funciona:
Por que precisamos de avaliações?
Modelos de IA são fundamentalmente diferentes de código tradicional. Código é determinístico — podemos raciocinar sobre seu comportamento. Já os LLMs (modelos de linguagem grandes) são "caixas-pretas", o que torna difícil prever ou inferir seu comportamento. Por isso, você precisa medir seu desempenho alimentando o modelo com dados e observando suas saídas.
Somente após testar o modelo com uma variedade de entradas que reflitam fielmente todos os casos extremos encontrados em produção é que você poderá ter confiança na estabilidade do seu modelo.
Dois tipos de avaliação
Avaliação leve (antes da implantação)
Construir um conjunto de dados limpo e abrangente é difícil. Na fase inicial de desenvolvimento, normalmente basta gerar alguns poucos exemplos. Esses exemplos permitem que você refine iterativamente o fluxo de IA até alcançar um estado publicável (ou de prova de conceito). Você pode comparar visualmente os resultados e ter uma ideia inicial da qualidade do fluxo, sem precisar definir métricas formais de avaliação.
Avaliação baseada em métricas (após a implantação)
Após a implantação, torna-se mais fácil construir conjuntos de dados mais ricos e representativos a partir dos registros reais de execução em produção. Quando você identifica um bug, pode adicionar a entrada que causou o problema ao seu conjunto de dados. Ao corrigir esse bug, é fundamental executar novamente o fluxo de IA com todo o conjunto de dados — isso é um tipo de teste de regressão, usado para verificar se a correção não afetou negativamente outras funcionalidades.
Como o número de casos de teste costuma ser grande demais para inspeção manual, as avaliações utilizam métricas (valores numéricos que representam características específicas) para medir a qualidade das saídas. Isso também permite acompanhar mudanças na qualidade ao longo do tempo, entre diferentes execuções.
Comparação entre os dois tipos de avaliação
| Avaliação leve (antes da implantação) | Avaliação baseada em métricas (após a implantação) | |
|---|---|---|
| Melhoria de desempenho por iteração | Alto | Baixo |
| Tamanho do conjunto de dados | Pequeno | Grande |
| Origem dos dados | Gerado manualmente / Gerado por IA / Outros | Registros de execução em produção / Gerado por IA / Outros |
| Saída produzida | Obrigatória | Obrigatória |
| Saída esperada | Opcional | Geralmente obrigatória |
| Métricas de avaliação | Opcionais | Obrigatórias |
Saiba mais
- Avaliação leve: ideal para avaliar seu fluxo de IA durante o desenvolvimento, usando casos de teste selecionados manualmente.
- Avaliação baseada em métricas: adequada para avaliações avançadas em ambientes de produção, onde métricas e pontuações são usadas para manter a performance e a correção em grandes conjuntos de dados.
- Dicas e problemas comuns: aprenda como configurar casos específicos de avaliação e como evitar armadilhas frequentes.