AI Glossary: Conjuntos De Datos De IA Terms & Definitions

Artefactos de anotación

Los artefactos de anotación son materiales complementarios que mejoran la comprensión en conjuntos de datos de IA.

Conjunto de datos CIFAR-100

El conjunto de datos CIFAR-100 es una colección de 60,000 imágenes en color de 32x32 en 100 clases para investigación en aprendizaje automático.

CoLA

CoLA significa Corpus of Linguistic Acceptability, un conjunto de datos para evaluar modelos lingüísticos.

Corpus

Un corpus es una colección de textos escritos o hablados utilizados para análisis lingüístico.

Datos de crowdsourcing

La recopilación de datos mediante crowdsourcing implica obtener información de un gran grupo de personas, a menudo a través de plataformas en línea.

Adquisición de datos

La adquisición de datos es el proceso de recopilar y medir información de varias fuentes para análisis y toma de decisiones.

Recopilación de datos

La recopilación de datos es la recopilación sistemática de información para análisis y toma de decisiones en diversos campos, especialmente la IA.

Curación de Datos

La curación de datos es el proceso de gestionar y mantener los datos para garantizar su calidad, accesibilidad y usabilidad.

Conjunto de datos

Un conjunto de datos es una colección de puntos de datos relacionados, generalmente organizados en un formato estructurado para análisis y procesamiento.

Destilación de conjuntos de datos

La Destilación de Conjuntos de Datos es un método para crear conjuntos de datos más pequeños y eficientes que retienen información esencial para entrenar modelos de IA.

Corpus Europarl

Ingeniería, Procura y Construcción

El Europarl Corpus es un conjunto de datos multilingüe de las sesiones del Parlamento Europeo, útil para tareas de procesamiento del lenguaje.

Matriz de Características

Una matriz de características organiza las características de los datos para modelos de aprendizaje automático, ayudando en el análisis y evaluación.

Riesgo de Homogeneización

El Riesgo de Homogeneización se refiere a la posible pérdida de diversidad en los modelos de IA debido a conjuntos de datos de entrenamiento uniformes.

Conjunto de Datos ImageNet

ImageNet es un conjunto de datos grande para el reconocimiento visual de objetos utilizado en investigaciones de aprendizaje automático y visión por computadora.

Datos Desequilibrados

Los datos desequilibrados ocurren cuando las clases en un conjunto de datos no están representadas de manera igualitaria, lo que a menudo conduce a predicciones sesgadas del modelo.

Datos incompletos

Los datos incompletos se refieren a información faltante o no disponible en conjuntos de datos utilizados para análisis y entrenamiento de modelos de IA.

Datos enlier

Los datos enlier se refieren a puntos de datos que cumplen con la distribución esperada en un conjunto de datos.

Desequilibrio en las Etiquetas

El desequilibrio de etiquetas se refiere a la distribución desigual de clases en un conjunto de datos utilizado para entrenar modelos de IA.

Datos etiquetados

Los datos etiquetados son información anotada utilizada para entrenar modelos de aprendizaje automático, permitiéndoles aprender patrones y hacer predicciones.

Estrategia de Etiquetado

Una estrategia de etiquetado define cómo se anotan los datos para entrenar modelos de IA, influyendo en su rendimiento y precisión.

Lengua de Recursos Limitados

Los idiomas de bajos recursos son idiomas con datos limitados para entrenar modelos de IA en comparación con los idiomas más hablados.

Cantera de Modelos

Una cantera de modelos es un conjunto de datos de objetos 3D utilizados para entrenar y probar modelos de aprendizaje automático en gráficos y modelado 3D.

Corpus monolingüe

Un corpus monolingüe es una colección de textos en un solo idioma utilizado para análisis lingüístico.

Datos de Múltiples Fuentes

Los datos de múltiples fuentes se refieren a datos recopilados de múltiples orígenes para mejorar el análisis y las ideas.

Datos Nuevos

Los Datos Nuevos se refieren a información fresca recopilada para entrenar modelos de IA, mejorando el rendimiento y la precisión.

Etiqueta ruidosa

Las etiquetas ruidosas son anotaciones incorrectas o engañosas en conjuntos de datos de entrenamiento para modelos de aprendizaje automático.

Datos Observados

Los datos observados se refieren a la información recopilada mediante medición u observación directa en diversos campos.

Base de Conocimiento Abierta

OKB

Una base de conocimientos abierta es una plataforma colaborativa para compartir información estructurada y conocimientos, a menudo utilizada en aplicaciones de IA.

Conjuntos de datos de IA