AI Glossary: Datensätze Terms & Definitions

BoolQ

BoolQ ist ein Datensatz zur Bewertung von maschinellen Lernmodellen bei Ja/Nein-Fragen, die auf Passagen basieren.

C4-Datensatz

C4

Der C4-Datensatz ist ein groß angelegter, kuratierter Datensatz zum Trainieren von Sprachmodellen, der aus Webinhalten abgeleitet ist.

CIFAR

CIFAR ist ein weit verbreitetes Datenset, das häufig zum Trainieren von maschinellen Lernmodellen in Aufgaben der Computer Vision verwendet wird.

SuperGLUE

COCO ist ein groß angelegter Datensatz für Bilderkennung, Segmentierung und Bildbeschriftung in KI-Anwendungen.

CoNLL 2003

CoNLL 2003 ist ein Datensatz, der zur Bewertung von Named Entity Recognition-Systemen im Bereich der natürlichen Sprachverarbeitung verwendet wird.

DROP-Datensatz

ABLEGEN

Ein DROP-Dataset ist eine Sammlung von Daten, die zum Trainieren von KI-Modellen verwendet werden und sich auf Denk- und Problemlösungsaufgaben konzentrieren.

DuReader

DR

DuReader ist ein groß angelegtes chinesisches Leseverständnis-Dataset, das für das Training von KI-Modellen entwickelt wurde.

HotpotQA

HPQA

HotpotQA ist ein Benchmark-Datensatz zur Bewertung von KI-Modellen bei Multi-Hop-Frage-Antwort-Aufgaben.

JaQuAD

**JaQuAD**

JaQuAD ist ein Datensatz, der für die Bewertung von Frage-Antwort-Systemen mit natürlicher Sprache entwickelt wurde.

KorQuAD

KorQuAD ist ein koreanischer Sprachdatensatz für Frage-Antwort-Aufgaben im Bereich der natürlichen Sprachverarbeitung.

LAION-400M

LAION-400M ist ein groß angelegter Datensatz, der 400 Millionen Bild-Text-Paare für KI-Training und Forschung enthält.

LAION-5B

LAION-5B ist ein groß angelegter Datensatz zum Trainieren von KI-Modellen, bestehend aus 5 Milliarden Bild-Text-Paaren.

LFW-Datensatz

LFW

Der LFW-Datensatz ist eine Sammlung von gekennzeichneten Gesichtsbilden, die für die Forschung im Bereich der Gesichtserkennung verwendet werden.

MNIST

MNIST ist ein Datensatz handgeschriebener Ziffern, der zum Trainieren von Bildverarbeitungssystemen verwendet wird.

MNIST-Ziffer

MNIST

MNIST Digit bezieht sich auf handgeschriebene Ziffern in einem Standard-Datensatz, der zum Trainieren von Bildverarbeitungssystemen verwendet wird.

MS COCO

MS COCO ist ein groß angelegter Datensatz für Bilderkennung und Segmentierung in der KI-Forschung.

MUMFORD-Datensatz

MUMFORD

Der MUMFORD-Datensatz ist eine Sammlung annotierter Bilder zur Bewertung von maschinellen Lernmodellen bei Aufgaben der Computer Vision.

Open Images Datensatz

OID

Der Open Images Dataset ist eine große Sammlung annotierter Bilder zum Trainieren von Computer-Vision-Modellen.

OpenWebText

OWT

OpenWebText ist ein Datensatz, der für das Training von KI-Sprachmodellen mit Inhalten aus dem Internet entwickelt wurde.

RACE-Datensatz

RENNEN

Der RACE-Datensatz ist ein groß angelegter Datensatz zur Bewertung des Leseverständnisses bei KI-Modellen.

Der Haufen

The Pile ist ein großer Datensatz, der für das Training von KI-Sprachmodellen verwendet wird und aus vielfältigen Internettexten besteht.

TriviaQA

TQA

TriviaQA ist ein groß angelegter Datensatz zum Trainieren von KI-Modellen für die offene Beantwortung von Fragen anhand von Trivia-Fragen.

Visuelles Genome

VG

Visual Genome ist ein groß angelegtes Datenset zum Trainieren von KI im Bereich Bildverständnis und visueller Schlussfolgerung.

Waymo Open Dataset

WOD

Der Waymo Open Dataset ist ein groß angelegter Datensatz für die Forschung im Bereich autonomer Fahrzeuge, mit vielfältigen Sensordaten und gekennzeichneten Szenarien.