KI-Glossar: Benchmarking-Begriffe & Definitionen

ARC Benchmark

ARC

Der ARC Benchmark ist eine Sammlung zur Bewertung von KI-Modellen basierend auf ihren Denk- und Verstehensfähigkeiten.

GLUE ist ein Benchmark zur Bewertung von Modellen für das Verständnis natürlicher Sprache in verschiedenen Aufgaben.

MMLU steht für Massive Multitask Language Understanding, ein Benchmark zur Bewertung von KI-Sprachmodellen.

TQA

TruthfulQA ist ein Benchmark zur Bewertung der Wahrhaftigkeit KI-generierter Antworten.