AI Glossary: Évaluation De L'IA Terms & Definitions

Saturation de la référence

La saturation des benchmarks fait référence au point où l'ajout de plus de benchmarks n'apporte pas d'améliorations significatives dans l'évaluation des performances.

BIG-Bench

BB

BIG-Bench est une suite de références conçue pour évaluer la performance de grands modèles linguistiques dans diverses tâches.

BigBench-Hard

BB-Dur

BigBench-Hard est une référence exigeante pour évaluer les modèles d'IA sur diverses tâches de traitement du langage naturel (NLP) et de raisonnement complexe.

Jeu de données CIFAR-100

Le jeu de données CIFAR-100 est une collection de 60 000 images couleur 32x32 dans 100 classes pour la recherche en apprentissage automatique.

Distance Fréchet Inception

FID

La Distance d'Inception de Fréchet (FID) mesure la qualité des images générées en comparant leur distribution à celle des images réelles.

HumanEval

IL

HumanEval est une référence pour évaluer les modèles d'IA en programmation à l'aide de tâches de codage.

Score global

Le score global est une métrique composite reflétant la performance d'un modèle d'IA selon plusieurs critères d'évaluation.

Évaluation de l'IA