AI Glossary: Vision Par Ordinateur Terms & Definitions

Vision 3D

3DV

La vision 3D fait référence à la capacité de percevoir la profondeur et la distance dans un espace tridimensionnel en utilisant des informations visuelles.

Reconnaissance d'actions

RA

La reconnaissance d'action est le processus d'identification d'actions spécifiques dans des données vidéo à l'aide de techniques d'IA.

Albumentations

Aucune

Albumentations est une bibliothèque Python pour l'augmentation d'images en apprentissage profond, améliorant la formation des modèles avec diverses transformations d'images.

AlphaPose

AP

AlphaPose est un cadre d'estimation de la pose humaine en temps réel utilisant des techniques d'apprentissage profond.

Boîte d'ancrage

AB

Une boîte d'ancrage est une boîte de délimitation prédéfinie utilisée dans les modèles de détection d'objets pour aider à identifier et localiser les objets dans les images.

Régression de boîte d'ancrage

La régression de boîte d'ancrage est une technique utilisée en détection d'objets pour affiner les boîtes englobantes proposées.

ArcFace

ArcFace est un algorithme de reconnaissance faciale qui améliore la précision en utilisant la distance angulaire pour la représentation des caractéristiques.

Convolution atrous

Climatisation

La convolution atrous est un type de convolution qui utilise des filtres dilatés pour capturer des caractéristiques multi-échelles dans les réseaux neuronaux.

Mécanisme d'attention

AM

Un mécanisme d'attention aide les modèles d'IA à se concentrer sur les parties pertinentes des données d'entrée, améliorant ainsi les performances dans des tâches comme la traduction et la reconnaissance d'images.

Regroupement par attention

AP

Le regroupement par attention est une technique en IA utilisée pour résumer l'information provenant de diverses caractéristiques d'entrée en se concentrant sur les parties pertinentes.

Pooling moyen

Pool moyen

Le pooling moyen réduit la taille des cartes de caractéristiques en prenant la valeur moyenne des sous-régions.

Modèle de sac de mots en vision par ordinateur

BoW

Un modèle qui représente les images comme des collections de caractéristiques visuelles pour l’analyse et la classification.

BLIP

BLIP est un modèle qui combine la vision et le traitement du langage pour des tâches telles que la légende d'images et la réponse à des questions visuelles.

Détection de blobs

La détection de blobs identifie des régions dans des images qui diffèrent en propriétés telles que l'intensité ou la couleur par rapport aux zones environnantes.

Détection de frontières

BD

La détection de frontières identifie les bords ou transitions dans les images ou les données, ce qui est crucial pour la reconnaissance d'objets et l'analyse d'images.

Coordonnées de la boîte englobante

Les coordonnées de la boîte englobante définissent la localisation et la taille d'un objet dans une image ou un espace 3D.

Routage de réseau capsule

Le routage des réseaux de capsules est une technique en apprentissage profond qui améliore la façon dont les réseaux neuronaux traitent les hiérarchies spatiales dans les données.

Réseau neuronal de capsules

CapsNet

Un réseau neuronal de capsules est une architecture avancée de réseau neuronal qui améliore la capacité à reconnaître des motifs et des hiérarchies spatiales.

Cascade R-CNN

Cascade R-CNN est un cadre avancé de détection d'objets qui améliore la précision en utilisant plusieurs étapes de réseaux de propositions régionales.

CenterNet

CT

CenterNet est un cadre de détection d'objets qui détecte les objets comme des points, simplifiant ainsi le processus de détection.

CIFAR

CIFAR est un ensemble de données largement utilisé pour entraîner des modèles d'apprentissage automatique dans les tâches de vision par ordinateur.

Jeu de données CIFAR-100

Le jeu de données CIFAR-100 est une collection de 60 000 images couleur 32x32 dans 100 classes pour la recherche en apprentissage automatique.

Jeu de données Cityscapes

CS

Un grand ensemble de données pour entraîner l'IA à comprendre les scènes urbaines et segmenter les objets dans les environnements citadins.

Carte d’activation de classe

CAM

Les cartes d'activation de classe (CAM) visualisent la manière dont les CNN se concentrent sur des zones spécifiques de l'image pour la classification.

Cartographie d'activation de classe

CAM

La cartographie d'activation de classe met en évidence les régions importantes de l'image pour les prédictions du modèle d'apprentissage profond.

CLIP

CLIP est un modèle d'IA qui relie les images et le texte pour une meilleure compréhension et interprétation.

Mécanisme de co-attention

Co-attention

Un mécanisme de co-attention permet aux modèles de se concentrer simultanément sur deux ensembles d'entrées, améliorant leur compréhension et leur représentation.

COCO

COCO est un ensemble de données à grande échelle pour la reconnaissance d'images, la segmentation et la légende dans les applications d'IA.

Vision par ordinateur