Explorez 7 termes d'IA dans l’évaluation de l’IA
La saturation des benchmarks fait référence au point où l'ajout de plus de benchmarks n'apporte pas d'améliorations significatives dans l'évaluation des performances.
BIG-Bench est une suite de références conçue pour évaluer la performance de grands modèles linguistiques dans diverses tâches.
BigBench-Hard est une référence exigeante pour évaluer les modèles d'IA sur diverses tâches de traitement du langage naturel (NLP) et de raisonnement complexe.
Le jeu de données CIFAR-100 est une collection de 60 000 images couleur 32x32 dans 100 classes pour la recherche en apprentissage automatique.
La Distance d'Inception de Fréchet (FID) mesure la qualité des images générées en comparant leur distribution à celle des images réelles.
HumanEval est une référence pour évaluer les modèles d'IA en programmation à l'aide de tâches de codage.
Le score global est une métrique composite reflétant la performance d'un modèle d'IA selon plusieurs critères d'évaluation.