AI Glossary: Évaluation De L'IA Terms & Definitions

Précision de référence

La précision de référence est la précision minimale qu'un modèle doit atteindre pour être considéré comme efficace.

Saturation de la référence

La saturation des benchmarks fait référence au point où l'ajout de plus de benchmarks n'apporte pas d'améliorations significatives dans l'évaluation des performances.

BIG-Bench Lite

BBL

BIG-Bench Lite est une référence pour évaluer de grands modèles linguistiques en utilisant un ensemble diversifié de tâches.

Métrique du Score Bleu

BLEU

La métrique du Score Bleu évalue la qualité du texte généré par machine par rapport à des textes de référence.

Évaluation des capacités

CE

Capability Evaluation assesses an AI system's performance and effectiveness in specific tasks or functions.

Score CIDEr

CIDEr

Le score CIDEr est une métrique d’évaluation des modèles de légendes d’images basée sur le consensus avec des légendes générées par des humains.

Boucle de raisonnement circulaire

Une boucle de raisonnement circulaire se produit lorsqu'une conclusion est déduite à partir de prémisses qui supposent que la conclusion est vraie.

Évaluation comparative

L’évaluation comparative évalue la performance des systèmes d’IA en les comparant entre eux selon des métriques définies.

Métriques de la Matrice de Confusion

Les métriques de la matrice de confusion évaluent la performance d'un modèle de classification en utilisant des indicateurs clés comme la précision, le rappel, et le score F1.

Groupe témoin

Un groupe témoin est un groupe de référence utilisé dans les expériences pour comparer avec le groupe de traitement.

Plis de validation croisée

Plis CV

Les plis de validation croisée sont des sous-ensembles de données utilisés pour valider les modèles d'apprentissage automatique, améliorant leur fiabilité et leur performance.

Derive de données

La dérive de données se produit lorsque les propriétés statistiques des données changent au fil du temps, ce qui affecte la performance du modèle.

Mode Dégenéré

Le Mode Dégénéré désigne un état dans les systèmes d'IA où la performance se dégrade ou ne répond pas aux attentes.

Déviation de déploiement

La déviation de déploiement fait référence à la divergence des modèles d'IA par rapport à leurs conditions d'entraînement après le déploiement.

Ensemble de développement

Un ensemble de développement est un sous-ensemble de données utilisé pour affiner les modèles d'IA pendant le processus de formation.

Taux d'erreur égal

Le taux d'erreur égal (EER) est une métrique utilisée pour évaluer la performance des systèmes biométriques.

Analyse des erreurs

L'analyse des erreurs consiste à examiner les erreurs commises par les modèles d'IA pour améliorer leur performance et leur fiabilité.

Taux d'erreur

Le taux d'erreur mesure la fréquence des prédictions incorrectes faites par un modèle d'IA par rapport au nombre total de prédictions.

Évaluer l'IA

Évaluer l'IA consiste à analyser les systèmes d'IA pour garantir leur efficacité, leur précision et leur conformité aux objectifs visés.

Jeu d’évaluation

Evaluation gaming involves using game-based methods to assess AI systems' performance and behavior.

F-Mesure

F1

La mesure F est une métrique utilisée pour évaluer la performance des modèles de classification, en équilibrant précision et rappel.

Calibration de la factualité

La calibration de la factualité garantit que le contenu généré par l'IA est conforme aux faits du monde réel.

Mode de défaillance

Un mode de défaillance est une manière spécifique par laquelle un système ou un composant peut échouer, affectant sa fonctionnalité ou ses performances.

Faux Positif

FP

Un faux positif en IA fait référence à un résultat incorrect où un modèle identifie à tort un résultat positif.

Taux de faux positifs

FPR

The False Positive Rate measures the proportion of incorrect positive predictions in a model's output.

Falsifiabilité

La falsifiabilité se réfère à la capacité d'une théorie à être prouvée fausse par des preuves.

Écart de Fidélité

L'écart de fidélité fait référence à la différence entre la performance attendue et la performance réelle dans les systèmes d'IA.

Validation croisée en pli

La validation croisée en pli est une technique pour évaluer comment les résultats d'une analyse statistique se généraliseront à un ensemble de données indépendant.

Évaluation de l'IA