AI Glossary: Maschinelles Sehen Terms & Definitions

3D-Vision

3DV

3D-Vision bezieht sich auf die Fähigkeit, Tiefe und Entfernung in einem dreidimensionalen Raum mithilfe visueller Informationen wahrzunehmen.

Aktionserkennung

AR

Action Recognition ist der Prozess der Identifizierung spezifischer Aktionen in Videodaten mithilfe von KI-Techniken.

Albumentations

Keine

Albumentations ist eine Python-Bibliothek für Bildaugmentationen im Deep Learning und verbessert das Modelltraining durch vielfältige Bildtransformationen.

AlphaPose

AP

AlphaPose ist ein Echtzeit-Framework zur Schätzung menschlicher Posen unter Verwendung von Deep-Learning-Techniken.

Ankerbox

AB

Eine Ankerbox ist eine vordefinierte Begrenzungsbox, die in Objekterkennungsmodellen verwendet wird, um Objekte in Bildern zu identifizieren und zu lokalisieren.

Anker-Box-Regressions

Anker-Box-Regressions ist eine Technik, die bei der Objekterkennung verwendet wird, um vorgeschlagene Begrenzungsrahmen zu verfeinern.

ArcFace

ArcFace ist ein Gesichtserkennungsalgorithmus, der die Genauigkeit durch die Verwendung des Winkelabstands zur Merkmalsdarstellung verbessert.

Atrous-Konvolution

AC

Atrous-Konvolution ist eine Art der Konvolution, die dilatierte Filter verwendet, um Multi-Skalen-Features in neuronalen Netzwerken zu erfassen.

Aufmerksamkeitsmechanismus

AM

Ein Aufmerksamkeitsmechanismus hilft KI-Modellen, sich auf relevante Teile der Eingabedaten zu konzentrieren, was die Leistung bei Aufgaben wie Übersetzung und Bilderkennung verbessert.

Aufmerksamkeits-Pooling

AP

Aufmerksamkeits-Pooling ist eine Technik in der KI, die verwendet wird, um Informationen aus verschiedenen Eingabefunktionen zusammenzufassen, indem sie sich auf relevante Teile konzentriert.

Durchschnittspooling

Durchschnittspool

Durchschnittliches Pooling reduziert die Größe von Merkmalskarten, indem es den Durchschnittswert von Unterregionen nimmt.

Bag-of-Words-Modell in der Computer Vision

BoW

Ein Modell, das Bilder als Sammlungen visueller Merkmale zur Analyse und Klassifikation darstellt.

BLIP

BLIP ist ein Modell, das visuelle und sprachliche Verarbeitung für Aufgaben wie Bildbeschriftung und visuelle Fragebeantwortung kombiniert.

Blob-Erkennung

Die Blob-Erkennung identifiziert Bereiche in Bildern, die sich in Eigenschaften wie Intensität oder Farbe von den umliegenden Bereichen unterscheiden.

Randdetektion

BD

Die Randdetektion identifiziert Kanten oder Übergänge in Bildern oder Daten, was für die Objekterkennung und Bildanalyse entscheidend ist.

Koordinaten des Begrenzungsrahmens

Die Koordinaten des Begrenzungsrahmens definieren die Lage und Größe eines Objekts in einem Bild oder Raum.

Routing in Capsule-Netzwerken

Die Routing-Methode im Capsule-Netzwerk ist eine Technik im Deep Learning, die verbessert, wie neuronale Netzwerke räumliche Hierarchien in Daten verarbeiten.

Kapazitätsneuronales Netzwerk

CapsNet

Ein Capsule-Neuronales Netzwerk ist eine fortschrittliche Architektur neuronaler Netzwerke, die die Fähigkeit zur Erkennung von Mustern und räumlichen Hierarchien verbessert.

Cascade R-CNN

Cascade R-CNN ist ein fortschrittliches Framework zur Objekterkennung, das die Genauigkeit durch mehrere Stufen von Region Proposal Networks verbessert.

CenterNet

CT

CenterNet ist ein Objekterkennungsrahmen, der Objekte als Punkte erkennt und so den Erkennungsprozess vereinfacht.

CIFAR

CIFAR ist ein weit verbreitetes Datenset, das häufig zum Trainieren von maschinellen Lernmodellen in Aufgaben der Computer Vision verwendet wird.

CIFAR-100-Datensatz

Der CIFAR-100-Datensatz ist eine Sammlung von 60.000 32x32-Farbabbildungen in 100 Klassen für die maschinelle Lernforschung.

Cityscapes-Datensatz

CS

Ein großer Datensatz zum Trainieren von KI, um städtische Szenen zu verstehen und Objekte in Stadtumgebungen zu segmentieren.

Klassenaktivierungskarte

CAM

Class Activation Maps (CAMs) visualisieren, wie CNNs sich auf bestimmte Bildbereiche für die Klassifikation konzentrieren.

Klassen-Aktivierungskarte

CAM

Klassen-Aktivierungskarten heben wichtige Bildregionen für Vorhersagen von Deep-Learning-Modellen hervor.

CLIP

CLIP ist ein KI-Modell, das Bilder und Text verbindet, um ein besseres Verständnis und eine bessere Interpretation zu ermöglichen.

Co-Attention-Mechanismus

Co-Aufmerksamkeit

Ein Co-Attention-Mechanismus ermöglicht es Modellen, sich gleichzeitig auf zwei Eingabemengen zu konzentrieren, wodurch ihr Verständnis und ihre Repräsentation verbessert werden.

SuperGLUE

COCO ist ein groß angelegter Datensatz für Bilderkennung, Segmentierung und Bildbeschriftung in KI-Anwendungen.