Entdecken Sie 7 KI-Begriffe im KI-Benchmarking
Benchmark-Sättigung bezieht sich auf den Punkt, an dem das Hinzufügen weiterer Benchmarks keine signifikanten Verbesserungen bei der Leistungsbewertung mehr bringt.
BIG-Bench ist eine Benchmark-Suite, die entwickelt wurde, um die Leistung großer Sprachmodelle bei verschiedenen Aufgaben zu bewerten.
BigBench-Hard ist ein herausfordernder Benchmark zur Bewertung von KI-Modellen bei vielfältigen NLP-Aufgaben und komplexem Denken.
Der CIFAR-100-Datensatz ist eine Sammlung von 60.000 32x32-Farbabbildungen in 100 Klassen für die maschinelle Lernforschung.
Fréchet Inception Distance (FID) misst die Qualität generierter Bilder, indem er deren Verteilung mit echten Bildern vergleicht.
HumanEval ist eine Benchmark zur Bewertung von KI-Programmiermodellen anhand von Codierungsaufgaben.
Der Gesamtscore ist eine zusammengesetzte Metrik, die die Leistung eines KI-Modells anhand mehrerer Bewertungskriterien widerspiegelt.