Évaluations

Présentation

Qu’est-ce qu’une évaluation ?

L’évaluation est une technique essentielle pour garantir la fiabilité et la stabilité de vos workflows IA. Elle détermine si votre produit IA reste un simple prototype fragile ou devient un workflow de production robuste et opérationnel. L’évaluation est cruciale, tant pendant la phase de construction que après le déploiement en production.

Au cœur de l’évaluation se trouve un jeu de données de test contenant plusieurs cas de test. Chaque cas inclut des exemples d’entrées destinées à votre workflow, et souvent aussi les résultats attendus.

Grâce à l’évaluation, vous pouvez :

Tester votre workflow avec des entrées variées pour comprendre son comportement dans des cas limites.
Modifier en toute confiance, sans risquer de casser involontairement d’autres parties du système.
Comparer les performances entre différents modèles ou différentes formulations d’invites.

La vidéo suivante explique ce qu’est une évaluation, pourquoi elle est utile et comment elle fonctionne :

Pourquoi faire des évaluations ?

Les modèles d’IA diffèrent fondamentalement du code classique. Le code est déterministe : on peut en prédire le comportement. En revanche, les grands modèles de langage (LLM) sont des « boîtes noires », ce qui rend leur comportement difficile à anticiper. Par conséquent, vous devez mesurer leurs performances en leur fournissant des données en entrée et en observant leurs sorties.

Vous ne pourrez avoir confiance en la stabilité de votre modèle qu’après l’avoir testé avec une grande variété d’entrées représentatives de tous les cas limites susceptibles de survenir en production.

Deux types d’évaluations

Évaluation légère (avant déploiement)

Constituer un jeu de données propre et exhaustif est difficile. Pendant la phase initiale de développement, il suffit souvent de générer quelques exemples seulement. Ces exemples vous permettent d’itérer rapidement sur votre workflow jusqu’à atteindre un état publiable (ou un prototype fonctionnel). Vous pouvez comparer visuellement les résultats et vous faire une première impression qualitative sur la qualité du workflow, sans avoir besoin de métriques formelles.

Évaluation basée sur des métriques (après déploiement)

Une fois le workflow déployé, il devient plus facile de constituer un jeu de données plus riche et plus représentatif à partir des exécutions réelles en production. Lorsque vous identifiez un bogue, vous pouvez ajouter l’entrée correspondante à votre jeu de données. Il est alors crucial, lors de la correction du bogue, de relancer le workflow sur l’ensemble du jeu de données : il s’agit d’un test de non-régression, qui permet de vérifier que la correction n’a pas introduit d’effets secondaires ailleurs.

Comme le nombre de cas de test devient trop important pour être inspecté manuellement un par un, l’évaluation utilise des métriques (valeurs numériques représentant une caractéristique spécifique) pour mesurer la qualité des sorties. Cela vous permet également de suivre l’évolution de la qualité entre différentes exécutions.

Comparaison des deux types d’évaluation

	Évaluation légère (avant déploiement)	Évaluation basée sur des métriques (après déploiement)
Amélioration des performances à chaque itération	Importante	Modeste
Taille du jeu de données	Petite	Grande
Source du jeu de données	Généré manuellement / par IA / autre	Exécutions en production / générées par IA / autre
Résultat réel	Obligatoire	Obligatoire
Résultat attendu	Optionnel	Généralement obligatoire
Métriques d’évaluation	Optionnelles	Obligatoires

Pour aller plus loin

Évaluation légère : idéale pendant le développement pour évaluer votre workflow IA à l’aide de cas de test sélectionnés manuellement.
Évaluation basée sur des métriques : adaptée aux scénarios avancés où vous utilisez des scores et des métriques sur de grands jeux de données afin de maintenir la performance et l’exactitude en production.
Astuces et problèmes courants : découvrez comment configurer des cas d’évaluation spécifiques et éviter les erreurs fréquentes.

Présentation​

Qu’est-ce qu’une évaluation ?​

Pourquoi faire des évaluations ?​

Deux types d’évaluations​

Évaluation légère (avant déploiement)​

Évaluation basée sur des métriques (après déploiement)​

Comparaison des deux types d’évaluation​

Pour aller plus loin​