AI Glossary: AI-Datensätze Terms & Definitions

Annotationsartefakte

Annotationsartefakte sind ergänzende Materialien, die das Verständnis in KI-Datensätzen verbessern.

CIFAR-100-Datensatz

Der CIFAR-100-Datensatz ist eine Sammlung von 60.000 32x32-Farbabbildungen in 100 Klassen für die maschinelle Lernforschung.

CoLA

CoLA steht für das Corpus of Linguistic Acceptability, ein Datensatz zur Bewertung linguistischer Modelle.

Korpus

Ein Korpus ist eine Sammlung von geschriebenen oder gesprochenen Texten, die für linguistische Analysen verwendet werden.

Crowdsourcing-Daten

Crowdsourcing-Daten beinhalten das Sammeln von Informationen von einer großen Gruppe von Menschen, oft über Online-Plattformen.

Datenbeschaffung

Datenakquise ist der Prozess des Sammelns und Messens von Informationen aus verschiedenen Quellen für Analyse und Entscheidungsfindung.

Datenerhebung

Datenerfassung ist die systematische Sammlung von Informationen für Analyse und Entscheidungsfindung in verschiedenen Bereichen, insbesondere KI.

Datenkuration

Datenkuratierung ist der Prozess der Verwaltung und Pflege von Daten, um deren Qualität, Zugänglichkeit und Nutzbarkeit sicherzustellen.

Datensatz

Ein Datensatz ist eine Sammlung verwandter Datenpunkte, die typischerweise in einem strukturierten Format für Analyse und Verarbeitung organisiert sind.

Dataset-Destillation

Dataset Distillation ist eine Methode zur Erstellung kleinerer, effizienterer Datensätze, die wesentliche Informationen für das Training von KI-Modellen bewahren.

Europarl-Korpus

EPC

Der Europarl-Korpus ist ein mehrsprachiger Datensatz mit Verhandlungsprotokollen des Europäischen Parlaments, der für Sprachverarbeitungsaufgaben nützlich ist.

Feature-Matrix

Eine Merkmalsmatrix organisiert Datenmerkmale für maschinelle Lernmodelle und unterstützt Analyse und Bewertung.

Homogenisierungsrisiko

Homogenisierungsrisiko bezieht sich auf den möglichen Verlust an Vielfalt in KI-Modellen aufgrund einheitlicher Trainingsdatensätze.

ImageNet-Datensatz

ImageNet ist ein großer Datensatz für die visuelle Objekterkennung, der in der maschinellen Lern- und Computer-Vision-Forschung verwendet wird.

unausgewogene Daten

Ungleichgewichtige Daten liegen vor, wenn die Klassen in einem Datensatz nicht gleichmäßig vertreten sind, was oft zu voreingenommenen Modellvorhersagen führt.

Unvollständige Daten

Unvollständige Daten beziehen sich auf fehlende oder nicht verfügbare Informationen in Datensätzen, die für Analyse und KI-Modelltraining verwendet werden.

Inlier-Daten

Inlier-Daten sind Datenpunkte, die der erwarteten Verteilung in einem Datensatz entsprechen.

Label-Ungleichgewicht

Label-Ungleichgewicht bezieht sich auf die ungleiche Verteilung von Klassen in einem Datensatz, der für das Training von KI-Modellen verwendet wird.

Gelabelte Daten

Gelabelte Daten sind annotierte Informationen, die zum Trainieren von maschinellen Lernmodellen verwendet werden, damit diese Muster erkennen und Vorhersagen treffen können.

Labeling-Strategie

Eine Labeling-Strategie legt fest, wie Daten für das Training von KI-Modellen annotiert werden, und beeinflusst deren Leistung und Genauigkeit.

Low-Resource-Sprache

Ressourcenarme Sprachen sind Sprachen mit begrenzten Daten für das Training von KI-Modellen im Vergleich zu weit verbreiteten Sprachen.

Modell-Mine

Eine Modell-Bergwerk ist ein Datensatz von 3D-Objekten, die zum Trainieren und Testen von maschinellen Lernmodellen in der 3D-Grafik und -Modellierung verwendet werden.

Monolingualer Korpus

Ein monolinguales Korpus ist eine Sammlung von Texten in einer einzigen Sprache, die für linguistische Analysen verwendet wird.

Daten aus mehreren Quellen

Mehrquellen-Daten beziehen sich auf Daten, die aus mehreren Quellen gesammelt werden, um Analysen und Erkenntnisse zu verbessern.

Neue Daten

Neue Daten beziehen sich auf frische Informationen, die für das Training von KI-Modellen gesammelt werden, um Leistung und Genauigkeit zu verbessern.

Rauschetikett

Noisy Labels sind falsche oder irreführende Anmerkungen in Trainingsdatensätzen für maschinelles Lernen.

Beobachtete Daten

Beobachtete Daten sind Informationen, die durch direkte Messung oder Beobachtung in verschiedenen Bereichen gesammelt wurden.

Offene Wissensdatenbank

OKB

Eine Open Knowledge Base ist eine kollaborative Plattform zum Teilen von strukturierten Informationen und Wissen, die häufig in KI-Anwendungen verwendet wird.