AI Glossary: Evaluación De IA Terms & Definitions

Precisión de referencia

La precisión de referencia es la precisión mínima que un modelo debe lograr para considerarse efectivo.

Saturación de Benchmark

La saturación de benchmarks se refiere al punto en el que agregar más puntos de referencia no produce mejoras significativas en la evaluación del rendimiento.

BIG-Bench Lite

BBL

BIG-Bench Lite es un punto de referencia para evaluar grandes modelos de lenguaje utilizando un conjunto diverso de tareas.

Métrica de puntuación Bleu

BLEU

La métrica Bleu Score evalúa la calidad del texto generado por máquina en comparación con textos de referencia.

Evaluación de Capacidades

CE

Capability Evaluation assesses an AI system's performance and effectiveness in specific tasks or functions.

Puntuación CIDEr

CIDEr

La puntuación CIDEr es una métrica para evaluar modelos de generación de subtítulos de imágenes basada en el consenso con subtítulos generados por humanos.

Bucle de razonamiento circular

Un bucle de razonamiento circular ocurre cuando una conclusión se deriva de premisas que asumen que la conclusión es verdadera.

Evaluación Comparativa

La evaluación comparativa valora el rendimiento de los sistemas de IA comparándolos entre sí usando métricas definidas.

Métricas de Matriz de Confusión

Las métricas de la Matriz de Confusión evalúan el rendimiento de modelos de clasificación usando indicadores clave como precisión, exactitud, recall y puntuación F1.

Grupo de Control

Un grupo de control es un grupo de referencia utilizado en experimentos para comparar con el grupo de tratamiento.

Pliegues de Validación Cruzada

Pliegues de CV

Los Pliegues de Validación Cruzada son subconjuntos de datos utilizados para validar modelos de aprendizaje automático, mejorando su fiabilidad y rendimiento.

Deriva de datos

La deriva de datos ocurre cuando las propiedades estadísticas de los datos cambian con el tiempo, afectando el rendimiento del modelo.

Modo Degenerado

El Modo Degenerado se refiere a un estado en los sistemas de IA donde el rendimiento se degrada o no cumple con las expectativas.

Deriva de Despliegue

La Deriva de Despliegue se refiere a la divergencia de los modelos de IA respecto a sus condiciones de entrenamiento después del despliegue.

Conjunto de desarrollo

Un conjunto de desarrollo es un subconjunto de datos utilizado para ajustar finamente los modelos de IA durante el proceso de entrenamiento.

Tasa de Error Igual

La Tasa de Error Igual (EER) es una métrica utilizada para evaluar el rendimiento de los sistemas biométricos.

Análisis de errores

El análisis de errores implica examinar los errores cometidos por los modelos de IA para mejorar su rendimiento y fiabilidad.

Tasa de Error

La Tasa de Error mide la frecuencia de predicciones incorrectas realizadas por un modelo de IA en comparación con el total de predicciones.

Evaluando IA

La evaluación de IA implica valorar los sistemas de IA para garantizar su efectividad, precisión y alineación con los objetivos previstos.

Evaluación en Juegos

Evaluation gaming involves using game-based methods to assess AI systems' performance and behavior.

Medida F

F1

La Medida F (F-Measure) es una métrica utilizada para evaluar el rendimiento de modelos de clasificación, equilibrando precisión y recuperación.

Calibración de la factualidad

La calibración de factualidad (Factuality calibration) asegura que el contenido generado por IA esté alineado con hechos del mundo real.

Modo de fallo

Un modo de fallo es una forma específica en la que un sistema o componente puede fallar, afectando su funcionalidad o rendimiento.

Falso Positivo

FP

Un falso positivo en IA se refiere a un resultado incorrecto donde un modelo identifica incorrectamente un resultado positivo.

Tasa de Falsos Positivos

FPR

The False Positive Rate measures the proportion of incorrect positive predictions in a model's output.

Falsabilidad

La falsabilidad se refiere a la capacidad de una teoría para ser refutada por evidencia.

Brecha de fidelidad

La Brecha de Fidelidad se refiere a la diferencia entre el rendimiento esperado y el real en sistemas de IA.

Validación Cruzada por Pliegues

La Validación Cruzada en Pliegues es una técnica para evaluar cómo se generalizarán los resultados de un análisis estadístico a un conjunto de datos independiente.

Evaluación de IA