AI Glossary: Visión Por Computadora Terms & Definitions

Visión 3D

3DV

La visión 3D se refiere a la capacidad de percibir la profundidad y la distancia en un espacio tridimensional utilizando información visual.

Reconocimiento de acciones

RA

El reconocimiento de acciones es el proceso de identificar acciones específicas en datos de video utilizando técnicas de IA.

Albumentaciones

Ninguno

Albumentations es una biblioteca de Python para la augmentación de imágenes en aprendizaje profundo, mejorando el entrenamiento del modelo con diversas transformaciones de imágenes.

AlphaPose

AP

AlphaPose es un marco de trabajo en tiempo real para la estimación de poses humanas utilizando técnicas de aprendizaje profundo.

Caja de anclaje

AB

Una caja de anclaje es una caja delimitadora predefinida utilizada en modelos de detección de objetos para ayudar a identificar y localizar objetos en las imágenes.

Regresión de Cajas de Anclaje

La regresión de cajas de anclaje es una técnica utilizada en la detección de objetos para refinar las cajas delimitadoras propuestas.

ArcFace

ArcFace es un algoritmo de reconocimiento facial que mejora la precisión utilizando la distancia angular para la representación de características.

Convolución Atrous

CA

La convolución atrous es un tipo de convolución que utiliza filtros dilatados para capturar características a múltiples escalas en redes neuronales.

Mecanismo de Atención

SOY

Un mecanismo de atención ayuda a los modelos de IA a centrarse en las partes relevantes de los datos de entrada, mejorando el rendimiento en tareas como traducción y reconocimiento de imágenes.

Agrupación de Atención

AP

La agrupación de atención es una técnica en IA utilizada para resumir información de varias características de entrada enfocándose en las partes relevantes.

Agrupación Promedio

Pool Promedio

La agrupación promedio reduce el tamaño de los mapas de características tomando el valor promedio de las subregiones.

Modelo de bolsa de palabras en visión por computadora

BoW

Un modelo que representa imágenes como colecciones de características visuales para análisis y clasificación.

BLIP

BLIP es un modelo que combina procesamiento de visión y lenguaje para tareas como la descripción de imágenes y respuestas a preguntas visuales.

Detección de blobs

La detección de blobs identifica regiones en las imágenes que difieren en propiedades como intensidad o color respecto a las áreas circundantes.

Detección de límites

BD

La detección de límites identifica bordes o transiciones en imágenes o datos, lo cual es crucial para el reconocimiento de objetos y el análisis de imágenes.

Coordenadas de Caja Delimitadora

Las coordenadas de la caja delimitadora definen la ubicación y tamaño de un objeto en una imagen o espacio 3D.

Enrutamiento de Redes de Cápsulas

El enrutamiento de redes de cápsulas es una técnica en aprendizaje profundo que mejora la forma en que las redes neuronales procesan jerarquías espaciales en los datos.

Red neuronal de cápsulas

CapsNet

Una red neuronal de cápsulas es una arquitectura avanzada que mejora la capacidad de reconocer patrones y jerarquías espaciales.

Cascade R-CNN

Cascade R-CNN es un marco avanzado de detección de objetos que mejora la precisión usando múltiples etapas de redes de propuestas de regiones.

CenterNet

TC

CenterNet es un marco de detección de objetos que detecta objetos como puntos, simplificando el proceso de detección.

CIFAR

CIFAR es un conjunto de datos ampliamente utilizado para entrenar modelos de aprendizaje automático en tareas de visión por computadora.

Conjunto de datos CIFAR-100

El conjunto de datos CIFAR-100 es una colección de 60,000 imágenes en color de 32x32 en 100 clases para investigación en aprendizaje automático.

Conjunto de datos Cityscapes

CS

Un gran conjunto de datos para entrenar a la IA a entender escenas urbanas y segmentar objetos en entornos citadinos.

Mapa de activación de clase

CAM

Los Mapas de Activación de Clase (CAMs) visualizan cómo las CNNs se enfocan en áreas específicas de la imagen para la clasificación.

Mapeo de Activación de Clase

CAM

El mapeo de activación de clase destaca las regiones importantes de la imagen para las predicciones del modelo de aprendizaje profundo.

CLIP

CLIP

CLIP es un modelo de IA que conecta imágenes y texto para una mejor comprensión e interpretación.

Mecanismo de Co-Atención

Co-Atención

Un mecanismo de co-atención permite que los modelos se enfoquen en dos conjuntos de entradas simultáneamente, mejorando su comprensión y representación.

COCO

COCO es un conjunto de datos a gran escala para reconocimiento de imágenes, segmentación y generación de leyendas en aplicaciones de IA.

Visión por computadora