Explora 36 términos de IA en Conjuntos de Datos de IA
Los artefactos de anotación son materiales complementarios que mejoran la comprensión en conjuntos de datos de IA.
El conjunto de datos CIFAR-100 es una colección de 60,000 imágenes en color de 32x32 en 100 clases para investigación en aprendizaje automático.
CoLA significa Corpus of Linguistic Acceptability, un conjunto de datos para evaluar modelos lingüísticos.
Un corpus es una colección de textos escritos o hablados utilizados para análisis lingüístico.
La recopilación de datos mediante crowdsourcing implica obtener información de un gran grupo de personas, a menudo a través de plataformas en línea.
La adquisición de datos es el proceso de recopilar y medir información de varias fuentes para análisis y toma de decisiones.
La recopilación de datos es la recopilación sistemática de información para análisis y toma de decisiones en diversos campos, especialmente la IA.
La curación de datos es el proceso de gestionar y mantener los datos para garantizar su calidad, accesibilidad y usabilidad.
Un conjunto de datos es una colección de puntos de datos relacionados, generalmente organizados en un formato estructurado para análisis y procesamiento.
La Destilación de Conjuntos de Datos es un método para crear conjuntos de datos más pequeños y eficientes que retienen información esencial para entrenar modelos de IA.
El Europarl Corpus es un conjunto de datos multilingüe de las sesiones del Parlamento Europeo, útil para tareas de procesamiento del lenguaje.
Una matriz de características organiza las características de los datos para modelos de aprendizaje automático, ayudando en el análisis y evaluación.
El Riesgo de Homogeneización se refiere a la posible pérdida de diversidad en los modelos de IA debido a conjuntos de datos de entrenamiento uniformes.
ImageNet es un conjunto de datos grande para el reconocimiento visual de objetos utilizado en investigaciones de aprendizaje automático y visión por computadora.
Los datos desequilibrados ocurren cuando las clases en un conjunto de datos no están representadas de manera igualitaria, lo que a menudo conduce a predicciones sesgadas del modelo.
Los datos incompletos se refieren a información faltante o no disponible en conjuntos de datos utilizados para análisis y entrenamiento de modelos de IA.
Los datos enlier se refieren a puntos de datos que cumplen con la distribución esperada en un conjunto de datos.
El desequilibrio de etiquetas se refiere a la distribución desigual de clases en un conjunto de datos utilizado para entrenar modelos de IA.
Los datos etiquetados son información anotada utilizada para entrenar modelos de aprendizaje automático, permitiéndoles aprender patrones y hacer predicciones.
Una estrategia de etiquetado define cómo se anotan los datos para entrenar modelos de IA, influyendo en su rendimiento y precisión.
Los idiomas de bajos recursos son idiomas con datos limitados para entrenar modelos de IA en comparación con los idiomas más hablados.
Una cantera de modelos es un conjunto de datos de objetos 3D utilizados para entrenar y probar modelos de aprendizaje automático en gráficos y modelado 3D.
Un corpus monolingüe es una colección de textos en un solo idioma utilizado para análisis lingüístico.
Los datos de múltiples fuentes se refieren a datos recopilados de múltiples orígenes para mejorar el análisis y las ideas.
Los Datos Nuevos se refieren a información fresca recopilada para entrenar modelos de IA, mejorando el rendimiento y la precisión.
Las etiquetas ruidosas son anotaciones incorrectas o engañosas en conjuntos de datos de entrenamiento para modelos de aprendizaje automático.
Los datos observados se refieren a la información recopilada mediante medición u observación directa en diversos campos.
Una base de conocimientos abierta es una plataforma colaborativa para compartir información estructurada y conocimientos, a menudo utilizada en aplicaciones de IA.