AI Glossary: KI-Benchmarking Terms & Definitions

Benchmark-Sättigung

Benchmark-Sättigung bezieht sich auf den Punkt, an dem das Hinzufügen weiterer Benchmarks keine signifikanten Verbesserungen bei der Leistungsbewertung mehr bringt.

BIG-Bench

BB

BIG-Bench ist eine Benchmark-Suite, die entwickelt wurde, um die Leistung großer Sprachmodelle bei verschiedenen Aufgaben zu bewerten.

BigBench-Hard

BB-Hart

BigBench-Hard ist ein herausfordernder Benchmark zur Bewertung von KI-Modellen bei vielfältigen NLP-Aufgaben und komplexem Denken.

CIFAR-100-Datensatz

Der CIFAR-100-Datensatz ist eine Sammlung von 60.000 32x32-Farbabbildungen in 100 Klassen für die maschinelle Lernforschung.

Fréchet Inception Distance

FID

Fréchet Inception Distance (FID) misst die Qualität generierter Bilder, indem er deren Verteilung mit echten Bildern vergleicht.

HumanEval

ER

HumanEval ist eine Benchmark zur Bewertung von KI-Programmiermodellen anhand von Codierungsaufgaben.

Gesamtnote

Der Gesamtscore ist eine zusammengesetzte Metrik, die die Leistung eines KI-Modells anhand mehrerer Bewertungskriterien widerspiegelt.