AI Glossary: Evaluación De IA Terms & Definitions

Saturación de Benchmark

La saturación de benchmarks se refiere al punto en el que agregar más puntos de referencia no produce mejoras significativas en la evaluación del rendimiento.

BIG-Bench

BB

BIG-Bench es un conjunto de pruebas diseñado para evaluar el rendimiento de grandes modelos de lenguaje en diversas tareas.

BigBench-Difícil

BB-Difícil

BigBench-Hard es un benchmark desafiante para evaluar modelos de IA en diversas tareas de procesamiento de lenguaje natural y razonamiento complejo.

Conjunto de datos CIFAR-100

El conjunto de datos CIFAR-100 es una colección de 60,000 imágenes en color de 32x32 en 100 clases para investigación en aprendizaje automático.

Distancia de Fréchet Inception

FID

La Distancia de Inception de Fréchet (FID) mide la calidad de las imágenes generadas comparando su distribución con la de imágenes reales.

HumanEval

ÉL

HumanEval es un punto de referencia para evaluar modelos de programación de IA mediante tareas de codificación.

Puntuación Total

La Puntuación General es una métrica compuesta que refleja el rendimiento de un modelo de IA en múltiples criterios de evaluación.

Evaluación de IA