ベンチマーク

ベンチマークにおける4つのAI用語を探る

ランダム

ARCベンチマーク

ARCベンチマークは、推論能力と理解力に基づいてAIモデルを評価するためのスイートです。

GLUE

GLUEは、さまざまなタスクにわたる自然言語理解モデルを評価するためのベンチマークです。

MMLU

MMLUは、「Massive Multitask Language Understanding」の略で、AI言語モデルを評価するためのベンチマークです。

真実QA

TruthfulQAは、AIが生成した回答の真実性を評価するためのベンチマークです。

Back to All Terms

コントロール + /