Explore 300 termos de IA em Visão Computacional
A Visão 3D refere-se à capacidade de perceber profundidade e distância em um espaço tridimensional usando informações visuais.
O Reconhecimento de Ações é o processo de identificar ações específicas em dados de vídeo usando técnicas de IA.
Albumentations é uma biblioteca Python para aumento de imagens em aprendizado profundo, aprimorando o treinamento de modelos com diversas transformações de imagem.
AlphaPose é uma estrutura de estimativa de pose humana em tempo real usando técnicas de aprendizado profundo.
Uma caixa âncora é uma caixa delimitadora predefinida usada em modelos de detecção de objetos para ajudar a identificar e localizar objetos em imagens.
Regressão de Caixa Âncora é uma técnica usada na detecção de objetos para refinar caixas delimitadoras propostas.
ArcFace é um algoritmo de reconhecimento facial que melhora a precisão ao usar a distância angular para a representação de características.
A convolução atrous é um tipo de convolução que usa filtros dilatados para capturar características em múltiplas escalas em redes neurais.
Um mecanismo de atenção ajuda os modelos de IA a focar nas partes relevantes dos dados de entrada, melhorando o desempenho em tarefas como tradução e reconhecimento de imagens.
Pooling de Atenção é uma técnica em IA usada para resumir informações de várias características de entrada, focando nas partes relevantes.
A pooling média reduz o tamanho dos mapas de características ao calcular o valor médio de sub-regiões.
Um modelo que representa imagens como coleções de características visuais para análise e classificação.
BLIP é um modelo que combina processamento de visão e linguagem para tarefas como legendagem de imagens e respostas a perguntas visuais.
A detecção de blobs identifica regiões em imagens que diferem em propriedades como intensidade ou cor das áreas ao redor.
A detecção de limites identifica arestas ou transições em imagens ou dados, sendo crucial para o reconhecimento de objetos e análise de imagens.
As coordenadas da caixa delimitadora definem a localização e o tamanho de um objeto em uma imagem ou espaço 3D.
O Roteamento de Rede de Cápsulas é uma técnica de aprendizado profundo que melhora como redes neurais processam hierarquias espaciais nos dados.
Uma rede neural de cápsulas é uma arquitetura avançada que aprimora a capacidade de reconhecer padrões e hierarquias espaciais.
O Cascade R-CNN é uma estrutura avançada de detecção de objetos que melhora a precisão usando múltiplas etapas de redes de propostas de regiões.
CenterNet é uma estrutura de detecção de objetos que identifica objetos como pontos, simplificando o processo de detecção.
CIFAR é um conjunto de dados amplamente utilizado para treinar modelos de aprendizado de máquina em tarefas de visão computacional.
O conjunto de dados CIFAR-100 é uma coleção de 60.000 imagens coloridas de 32x32 em 100 classes para pesquisa em aprendizado de máquina.
Um grande conjunto de dados para treinar IA a entender cenas urbanas e segmentar objetos em ambientes de cidade.
Mapas de Ativação de Classe (CAMs) visualizam como as CNNs focam em áreas específicas da imagem para classificação.
O mapeamento de ativação de classe destaca regiões importantes da imagem para as previsões do modelo de aprendizado profundo.
CLIP é um modelo de IA que conecta imagens e texto para melhor compreensão e interpretação.
Um mecanismo de coatenção permite que os modelos foquem em dois conjuntos de entradas simultaneamente, aprimorando sua compreensão e representação.
COCO é um conjunto de dados de grande escala para reconhecimento de imagens, segmentação e legendagem em aplicações de IA.