Evaluación comparativa

Explore 4 AI terms in Evaluación comparativa

Aleatorio

Benchmark ARC

ARC Benchmark es una suite para evaluar modelos de IA en función de sus habilidades de razonamiento y comprensión.

PEGAMENTO

GLUE es un punto de referencia para evaluar modelos de comprensión del lenguaje natural en varias tareas.

MMLU

MMLU significa Comprensión del Lenguaje Multitarea Masiva, un estándar para evaluar modelos de lenguaje de IA.

TruthfulQA

TruthfulQA es un punto de referencia para evaluar la veracidad de las respuestas generadas por IA.

Back to All Terms

oEmbed (JSON) + /