AI Glossary: Ensembles De Données IA Terms & Definitions

Artefacts d'annotation

Les artefacts d'annotation sont des matériaux complémentaires qui améliorent la compréhension dans les ensembles de données d'IA.

Jeu de données CIFAR-100

Le jeu de données CIFAR-100 est une collection de 60 000 images couleur 32x32 dans 100 classes pour la recherche en apprentissage automatique.

CoLA

CoLA signifie Corpus of Linguistic Acceptability, un ensemble de données pour évaluer les modèles linguistiques.

Corpus

Un corpus est une collection de textes écrits ou parlés utilisés pour l’analyse linguistique.

Données de crowdsourcing

Le crowdsourcing de données consiste à recueillir des informations auprès d’un grand groupe de personnes, souvent via des plateformes en ligne.

Acquisition de données

L'acquisition de données est le processus de collecte et de mesure d'informations provenant de diverses sources pour l'analyse et la prise de décision.

Collecte de données

La collecte de données est la collecte systématique d'informations pour l'analyse et la prise de décision dans divers domaines, en particulier l'IA.

Curations de données

La curation de données est le processus de gestion et de maintenance des données pour garantir leur qualité, leur accessibilité et leur utilisabilité.

Ensemble de données

Un ensemble de données est une collection de points de données liés, généralement organisé dans un format structuré pour l'analyse et le traitement.

Distillation de jeux de données

La distillation de jeux de données est une méthode pour créer des jeux de données plus petits et plus efficaces qui conservent les informations essentielles pour l'entraînement des modèles d'IA.

Corpus Europarl

Contrat de performance énergétique

Le corpus Europarl est un ensemble de données multilingue provenant des débats du Parlement européen, utile pour les tâches de traitement du langage.

Matrice de Caractéristiques

Une matrice de caractéristiques organise les attributs des données pour les modèles d'apprentissage automatique, facilitant l'analyse et l'évaluation.

Risque d'homogénéisation

Le risque d'homogénéisation désigne la perte potentielle de diversité dans les modèles d'IA en raison de jeux de données d'entraînement uniformes.

Jeu de données ImageNet

ImageNet est un grand ensemble de données pour la reconnaissance d'objets visuels utilisé en apprentissage automatique et en vision par ordinateur.

Données déséquilibrées

Les données déséquilibrées se produisent lorsque les classes dans un ensemble de données ne sont pas représentées de manière égale, ce qui conduit souvent à des prédictions biaisées du modèle.

Données Incomplètes

Les données incompletes se réfèrent à des informations manquantes ou indisponibles dans les ensembles de données utilisés pour l'analyse et l'entraînement des modèles d'IA.

Données conformes

Les données conformes (inliers) désignent les points de données qui respectent la distribution attendue dans un ensemble de données.

Déséquilibre des étiquettes

Le déséquilibre des labels fait référence à la répartition inégale des classes dans un ensemble de données utilisé pour entraîner des modèles d'IA.

Données étiquetées

Les données étiquetées sont des informations annotées utilisées pour entraîner des modèles d'apprentissage automatique, leur permettant d'apprendre des motifs et de faire des prédictions.

Stratégie d'étiquetage

Une stratégie d'étiquetage définit comment les données sont annotées pour entraîner des modèles d'IA, influençant leur performance et leur précision.

Langue à faibles ressources

Les langues à ressources faibles sont des langues avec peu de données pour entraîner des modèles d'IA par rapport aux langues largement parlées.

Carrière de modèles

Une carrière de modèle est un ensemble de données d'objets 3D utilisés pour entraîner et tester des modèles d'apprentissage automatique en graphisme et modélisation 3D.

Corpus monolingue

Un corpus monolingue est une collection de textes dans une seule langue utilisée pour l’analyse linguistique.

Données multi-sources

Les données multi-sources se réfèrent à des données collectées à partir de plusieurs origines pour améliorer l'analyse et les insights.

Nouvelles données

Les nouvelles données désignent des informations fraîches recueillies pour l'entraînement des modèles d'IA, améliorant leur performance et leur précision.

Étiquette bruyante

Les étiquettes bruyantes sont des annotations incorrectes ou trompeuses dans les ensembles de données d'entraînement pour les modèles d'apprentissage automatique.

Données observées

Les données observées se réfèrent aux informations collectées par mesure directe ou observation dans divers domaines.

Base de Connaissances Ouverte

OKB

Une base de connaissances ouverte est une plateforme collaborative pour partager des informations structurées et des connaissances, souvent utilisée dans les applications d'IA.

Ensembles de données IA