ベンチマーキングにおける4つのAI用語を探る
ARCベンチマークは、推論能力と理解力に基づいてAIモデルを評価するためのスイートです。
GLUEは、さまざまなタスクにわたる自然言語理解モデルを評価するためのベンチマークです。
MMLUは、「Massive Multitask Language Understanding」の略で、AI言語モデルを評価するためのベンチマークです。
TruthfulQAは、AIが生成した回答の真実性を評価するためのベンチマークです。