AI Glossary: Visão Computacional Terms & Definitions

Visão 3D

3DV

A Visão 3D refere-se à capacidade de perceber profundidade e distância em um espaço tridimensional usando informações visuais.

Reconhecimento de Ações

RA

O Reconhecimento de Ações é o processo de identificar ações específicas em dados de vídeo usando técnicas de IA.

Albumentações

Nenhum

Albumentations é uma biblioteca Python para aumento de imagens em aprendizado profundo, aprimorando o treinamento de modelos com diversas transformações de imagem.

AlphaPose

AP

AlphaPose é uma estrutura de estimativa de pose humana em tempo real usando técnicas de aprendizado profundo.

Caixa de Ancoragem

AB

Uma caixa âncora é uma caixa delimitadora predefinida usada em modelos de detecção de objetos para ajudar a identificar e localizar objetos em imagens.

Regressão de Caixa Âncora

Regressão de Caixa Âncora é uma técnica usada na detecção de objetos para refinar caixas delimitadoras propostas.

ArcFace

ArcFace é um algoritmo de reconhecimento facial que melhora a precisão ao usar a distância angular para a representação de características.

Convolução Atrous

AC

A convolução atrous é um tipo de convolução que usa filtros dilatados para capturar características em múltiplas escalas em redes neurais.

Mecanismo de Atenção

AM

Um mecanismo de atenção ajuda os modelos de IA a focar nas partes relevantes dos dados de entrada, melhorando o desempenho em tarefas como tradução e reconhecimento de imagens.

Pooling de Atenção

AP

Pooling de Atenção é uma técnica em IA usada para resumir informações de várias características de entrada, focando nas partes relevantes.

Pooling Médio

Pool Médio

A pooling média reduz o tamanho dos mapas de características ao calcular o valor médio de sub-regiões.

Modelo de saco de palavras em visão computacional

BoW

Um modelo que representa imagens como coleções de características visuais para análise e classificação.

BLIP

BLIP é um modelo que combina processamento de visão e linguagem para tarefas como legendagem de imagens e respostas a perguntas visuais.

Detecção de Blob

A detecção de blobs identifica regiões em imagens que diferem em propriedades como intensidade ou cor das áreas ao redor.

Detecção de Limites

BD

A detecção de limites identifica arestas ou transições em imagens ou dados, sendo crucial para o reconhecimento de objetos e análise de imagens.

Coordenadas de Caixa Delimitadora

As coordenadas da caixa delimitadora definem a localização e o tamanho de um objeto em uma imagem ou espaço 3D.

Roteamento de Redes de Cápsulas

O Roteamento de Rede de Cápsulas é uma técnica de aprendizado profundo que melhora como redes neurais processam hierarquias espaciais nos dados.

Rede neural de cápsulas

CapsNet

Uma rede neural de cápsulas é uma arquitetura avançada que aprimora a capacidade de reconhecer padrões e hierarquias espaciais.

Cascade R-CNN

O Cascade R-CNN é uma estrutura avançada de detecção de objetos que melhora a precisão usando múltiplas etapas de redes de propostas de regiões.

CenterNet

CT

CenterNet é uma estrutura de detecção de objetos que identifica objetos como pontos, simplificando o processo de detecção.

CIFAR

CIFAR é um conjunto de dados amplamente utilizado para treinar modelos de aprendizado de máquina em tarefas de visão computacional.

Conjunto de Dados CIFAR-100

O conjunto de dados CIFAR-100 é uma coleção de 60.000 imagens coloridas de 32x32 em 100 classes para pesquisa em aprendizado de máquina.

Conjunto de Dados Cityscapes

CS

Um grande conjunto de dados para treinar IA a entender cenas urbanas e segmentar objetos em ambientes de cidade.

Mapa de Ativação de Classe

CAM

Mapas de Ativação de Classe (CAMs) visualizam como as CNNs focam em áreas específicas da imagem para classificação.

Mapeamento de Ativação de Classe

CAM

O mapeamento de ativação de classe destaca regiões importantes da imagem para as previsões do modelo de aprendizado profundo.

CLIP

CLIP é um modelo de IA que conecta imagens e texto para melhor compreensão e interpretação.

Mecanismo de Co-Atenção

Co-Atenção

Um mecanismo de coatenção permite que os modelos foquem em dois conjuntos de entradas simultaneamente, aprimorando sua compreensão e representação.

COCO

COCO é um conjunto de dados de grande escala para reconhecimento de imagens, segmentação e legendagem em aplicações de IA.