AI Glossary: Calidad De Datos Terms & Definitions

Aprendizaje automático centrado en los datos

DCML

El aprendizaje automático centrado en los datos se enfoca en mejorar el rendimiento del modelo mediante la mejora de la calidad y relevancia de los datos en lugar de optimizar únicamente los algoritmos.

Limpieza de datos

La limpieza de datos es el proceso de identificar y corregir errores o inconsistencias en conjuntos de datos.

Curación de Datos

La curación de datos es el proceso de gestionar y mantener los datos para garantizar su calidad, accesibilidad y usabilidad.

Enriquecimiento de Datos

El enriquecimiento de datos mejora los datos existentes añadiendo contexto valioso de fuentes externas.

Armonización de Datos

La armonización de datos es el proceso de integrar datos de diferentes fuentes para garantizar coherencia y usabilidad.

Fuga de Datos

La fuga de datos ocurre cuando información del conjunto de datos externo al entrenamiento se usa inadvertidamente en el entrenamiento del modelo.

Linaje de datos

El linaje de datos se refiere al seguimiento de los datos a medida que se mueven a través de varios procesos, asegurando la integridad y el cumplimiento de los datos.

Perfilado de Datos

La perfilación de datos implica analizar los datos para entender su estructura, calidad y relaciones.

Procedencia de datos

DP

La procedencia de los datos se refiere a la historia y origen de los datos, detallando sus fuentes y transformaciones.

Calidad de datos

La calidad de los datos se refiere a la precisión, coherencia y fiabilidad de los datos utilizados en IA y análisis.

Puerta de Calidad de Datos

DQG

Una Puerta de Calidad de Datos es un proceso que asegura que los datos cumplen con estándares específicos de calidad antes de su uso.

Redundancia de Datos

La redundancia de datos se refiere a la duplicación innecesaria de datos dentro de una base de datos o sistema de almacenamiento.

Limpieza de datos

La limpieza de datos es el proceso de limpiar y validar datos para garantizar precisión y calidad.

Estandarización de datos

La estandarización de datos es el proceso de transformar datos a un formato común para coherencia y precisión.

Validación de datos

La validación de datos garantiza la precisión y calidad de los datos mediante verificaciones y restricciones antes del procesamiento.

Veracidad de los datos

La veracidad de los datos se refiere a la precisión, fiabilidad y veracidad de los datos utilizados en IA y análisis.

Resolución de entidades

ER

La Resolución de Entidades es el proceso de identificar y fusionar registros que se refieren a la misma entidad del mundo real en diferentes conjuntos de datos.

Conjunto de datos de estándar de oro

GSD

Un Conjunto de Datos de Estándar de Oro es una colección altamente precisa y confiable de datos utilizada para entrenar y evaluar modelos de IA.

Estrategia de imputación

Una estrategia de imputación es un método utilizado para rellenar datos faltantes en conjuntos de datos para mejorar la precisión del análisis.

Datos incompletos

Los datos incompletos se refieren a información faltante o no disponible en conjuntos de datos utilizados para análisis y entrenamiento de modelos de IA.

Ruido en las Etiquetas

LN

El ruido en las etiquetas se refiere a inexactitudes o errores en las etiquetas asignadas a los datos en tareas de aprendizaje automático.

Transición de Ruido en Etiquetas

LNT

La transición de ruido en las etiquetas se refiere al proceso de etiquetado incorrecto de datos en aprendizaje automático, afectando el entrenamiento del modelo.

Fallo en la Compresión Sin Pérdida

La falla en compresión sin pérdida ocurre cuando los datos no pueden comprimirse sin perder información.

Datos Faltantes

Los datos faltantes se refieren a la ausencia de valores en un conjunto de datos, afectando el análisis y el rendimiento del modelo.

Imputación de valores faltantes

La imputación de valores faltantes es un método para rellenar los vacíos en conjuntos de datos para análisis y modelado.

Valor NaN

NaN

NaN (No es un Número) representa valores numéricos indefinidos o no representables en la computación.

Datos ruidosos

Los datos ruidosos se refieren a información inexacta o irrelevante que puede distorsionar el análisis y los modelos de aprendizaje automático.

Etiquetas ruidosas

NL

Las etiquetas ruidosas se refieren a anotaciones incorrectas o engañosas en los datos de entrenamiento que pueden obstaculizar el rendimiento del modelo de aprendizaje automático.