Explorez 36 termes liés à l'IA dans AI Datasets
Les artefacts d'annotation sont des matériaux complémentaires qui améliorent la compréhension dans les ensembles de données d'IA.
Le jeu de données CIFAR-100 est une collection de 60 000 images couleur 32x32 dans 100 classes pour la recherche en apprentissage automatique.
CoLA signifie Corpus of Linguistic Acceptability, un ensemble de données pour évaluer les modèles linguistiques.
Un corpus est une collection de textes écrits ou parlés utilisés pour l’analyse linguistique.
Le crowdsourcing de données consiste à recueillir des informations auprès d’un grand groupe de personnes, souvent via des plateformes en ligne.
L'acquisition de données est le processus de collecte et de mesure d'informations provenant de diverses sources pour l'analyse et la prise de décision.
La collecte de données est la collecte systématique d'informations pour l'analyse et la prise de décision dans divers domaines, en particulier l'IA.
La curation de données est le processus de gestion et de maintenance des données pour garantir leur qualité, leur accessibilité et leur utilisabilité.
Un ensemble de données est une collection de points de données liés, généralement organisé dans un format structuré pour l'analyse et le traitement.
La distillation de jeux de données est une méthode pour créer des jeux de données plus petits et plus efficaces qui conservent les informations essentielles pour l'entraînement des modèles d'IA.
Le corpus Europarl est un ensemble de données multilingue provenant des débats du Parlement européen, utile pour les tâches de traitement du langage.
Une matrice de caractéristiques organise les attributs des données pour les modèles d'apprentissage automatique, facilitant l'analyse et l'évaluation.
Le risque d'homogénéisation désigne la perte potentielle de diversité dans les modèles d'IA en raison de jeux de données d'entraînement uniformes.
ImageNet est un grand ensemble de données pour la reconnaissance d'objets visuels utilisé en apprentissage automatique et en vision par ordinateur.
Les données déséquilibrées se produisent lorsque les classes dans un ensemble de données ne sont pas représentées de manière égale, ce qui conduit souvent à des prédictions biaisées du modèle.
Les données incompletes se réfèrent à des informations manquantes ou indisponibles dans les ensembles de données utilisés pour l'analyse et l'entraînement des modèles d'IA.
Les données conformes (inliers) désignent les points de données qui respectent la distribution attendue dans un ensemble de données.
Le déséquilibre des labels fait référence à la répartition inégale des classes dans un ensemble de données utilisé pour entraîner des modèles d'IA.
Les données étiquetées sont des informations annotées utilisées pour entraîner des modèles d'apprentissage automatique, leur permettant d'apprendre des motifs et de faire des prédictions.
Une stratégie d'étiquetage définit comment les données sont annotées pour entraîner des modèles d'IA, influençant leur performance et leur précision.
Les langues à ressources faibles sont des langues avec peu de données pour entraîner des modèles d'IA par rapport aux langues largement parlées.
Une carrière de modèle est un ensemble de données d'objets 3D utilisés pour entraîner et tester des modèles d'apprentissage automatique en graphisme et modélisation 3D.
Un corpus monolingue est une collection de textes dans une seule langue utilisée pour l’analyse linguistique.
Les données multi-sources se réfèrent à des données collectées à partir de plusieurs origines pour améliorer l'analyse et les insights.
Les nouvelles données désignent des informations fraîches recueillies pour l'entraînement des modèles d'IA, améliorant leur performance et leur précision.
Les étiquettes bruyantes sont des annotations incorrectes ou trompeuses dans les ensembles de données d'entraînement pour les modèles d'apprentissage automatique.
Les données observées se réfèrent aux informations collectées par mesure directe ou observation dans divers domaines.
Une base de connaissances ouverte est une plateforme collaborative pour partager des informations structurées et des connaissances, souvent utilisée dans les applications d'IA.