Explorez 300 termes d'IA en Vision par Ordinateur
La vision 3D fait référence à la capacité de percevoir la profondeur et la distance dans un espace tridimensionnel en utilisant des informations visuelles.
La reconnaissance d'action est le processus d'identification d'actions spécifiques dans des données vidéo à l'aide de techniques d'IA.
Albumentations est une bibliothèque Python pour l'augmentation d'images en apprentissage profond, améliorant la formation des modèles avec diverses transformations d'images.
AlphaPose est un cadre d'estimation de la pose humaine en temps réel utilisant des techniques d'apprentissage profond.
Une boîte d'ancrage est une boîte de délimitation prédéfinie utilisée dans les modèles de détection d'objets pour aider à identifier et localiser les objets dans les images.
La régression de boîte d'ancrage est une technique utilisée en détection d'objets pour affiner les boîtes englobantes proposées.
ArcFace est un algorithme de reconnaissance faciale qui améliore la précision en utilisant la distance angulaire pour la représentation des caractéristiques.
La convolution atrous est un type de convolution qui utilise des filtres dilatés pour capturer des caractéristiques multi-échelles dans les réseaux neuronaux.
Un mécanisme d'attention aide les modèles d'IA à se concentrer sur les parties pertinentes des données d'entrée, améliorant ainsi les performances dans des tâches comme la traduction et la reconnaissance d'images.
Le regroupement par attention est une technique en IA utilisée pour résumer l'information provenant de diverses caractéristiques d'entrée en se concentrant sur les parties pertinentes.
Le pooling moyen réduit la taille des cartes de caractéristiques en prenant la valeur moyenne des sous-régions.
Un modèle qui représente les images comme des collections de caractéristiques visuelles pour l’analyse et la classification.
BLIP est un modèle qui combine la vision et le traitement du langage pour des tâches telles que la légende d'images et la réponse à des questions visuelles.
La détection de blobs identifie des régions dans des images qui diffèrent en propriétés telles que l'intensité ou la couleur par rapport aux zones environnantes.
La détection de frontières identifie les bords ou transitions dans les images ou les données, ce qui est crucial pour la reconnaissance d'objets et l'analyse d'images.
Les coordonnées de la boîte englobante définissent la localisation et la taille d'un objet dans une image ou un espace 3D.
Le routage des réseaux de capsules est une technique en apprentissage profond qui améliore la façon dont les réseaux neuronaux traitent les hiérarchies spatiales dans les données.
Un réseau neuronal de capsules est une architecture avancée de réseau neuronal qui améliore la capacité à reconnaître des motifs et des hiérarchies spatiales.
Cascade R-CNN est un cadre avancé de détection d'objets qui améliore la précision en utilisant plusieurs étapes de réseaux de propositions régionales.
CenterNet est un cadre de détection d'objets qui détecte les objets comme des points, simplifiant ainsi le processus de détection.
CIFAR est un ensemble de données largement utilisé pour entraîner des modèles d'apprentissage automatique dans les tâches de vision par ordinateur.
Le jeu de données CIFAR-100 est une collection de 60 000 images couleur 32x32 dans 100 classes pour la recherche en apprentissage automatique.
Un grand ensemble de données pour entraîner l'IA à comprendre les scènes urbaines et segmenter les objets dans les environnements citadins.
Les cartes d'activation de classe (CAM) visualisent la manière dont les CNN se concentrent sur des zones spécifiques de l'image pour la classification.
La cartographie d'activation de classe met en évidence les régions importantes de l'image pour les prédictions du modèle d'apprentissage profond.
CLIP est un modèle d'IA qui relie les images et le texte pour une meilleure compréhension et interprétation.
Un mécanisme de co-attention permet aux modèles de se concentrer simultanément sur deux ensembles d'entrées, améliorant leur compréhension et leur représentation.
COCO est un ensemble de données à grande échelle pour la reconnaissance d'images, la segmentation et la légende dans les applications d'IA.