Explorer 4 termes d'IA dans le Benchmarking
La référence ARC (Défi d'Abstraction et de Raisonnement) est une suite d’évaluation pour tester les modèles d’IA en fonction de leurs capacités de raisonnement et de compréhension.
GLUE est une référence pour évaluer les modèles de compréhension du langage naturel dans diverses tâches.
MMLU signifie Massive Multitask Language Understanding, une référence pour évaluer les modèles linguistiques d'IA.
TruthfulQA est une référence pour évaluer la véracité des réponses générées par l'IA.