Erkunde 4 KI-Begriffe im Benchmarking
Der ARC Benchmark ist eine Sammlung zur Bewertung von KI-Modellen basierend auf ihren Denk- und Verstehensfähigkeiten.
GLUE ist ein Benchmark zur Bewertung von Modellen für das Verständnis natürlicher Sprache in verschiedenen Aufgaben.
MMLU steht für Massive Multitask Language Understanding, ein Benchmark zur Bewertung von KI-Sprachmodellen.
TruthfulQA ist ein Benchmark zur Bewertung der Wahrhaftigkeit KI-generierter Antworten.