Explora 4 términos de IA en Benchmarking
ARC Benchmark es una suite para evaluar modelos de IA en función de sus habilidades de razonamiento y comprensión.
GLUE es un punto de referencia para evaluar modelos de comprensión del lenguaje natural en varias tareas.
MMLU significa Comprensión del Lenguaje Multitarea Masiva, un estándar para evaluar modelos de lenguaje de IA.
TruthfulQA es un punto de referencia para evaluar la veracidad de las respuestas generadas por IA.