Entdecken Sie 300 KI-Begriffe in der Computer Vision
3D-Vision bezieht sich auf die Fähigkeit, Tiefe und Entfernung in einem dreidimensionalen Raum mithilfe visueller Informationen wahrzunehmen.
Action Recognition ist der Prozess der Identifizierung spezifischer Aktionen in Videodaten mithilfe von KI-Techniken.
Albumentations ist eine Python-Bibliothek für Bildaugmentationen im Deep Learning und verbessert das Modelltraining durch vielfältige Bildtransformationen.
AlphaPose ist ein Echtzeit-Framework zur Schätzung menschlicher Posen unter Verwendung von Deep-Learning-Techniken.
Eine Ankerbox ist eine vordefinierte Begrenzungsbox, die in Objekterkennungsmodellen verwendet wird, um Objekte in Bildern zu identifizieren und zu lokalisieren.
Anker-Box-Regressions ist eine Technik, die bei der Objekterkennung verwendet wird, um vorgeschlagene Begrenzungsrahmen zu verfeinern.
ArcFace ist ein Gesichtserkennungsalgorithmus, der die Genauigkeit durch die Verwendung des Winkelabstands zur Merkmalsdarstellung verbessert.
Atrous-Konvolution ist eine Art der Konvolution, die dilatierte Filter verwendet, um Multi-Skalen-Features in neuronalen Netzwerken zu erfassen.
Ein Aufmerksamkeitsmechanismus hilft KI-Modellen, sich auf relevante Teile der Eingabedaten zu konzentrieren, was die Leistung bei Aufgaben wie Übersetzung und Bilderkennung verbessert.
Aufmerksamkeits-Pooling ist eine Technik in der KI, die verwendet wird, um Informationen aus verschiedenen Eingabefunktionen zusammenzufassen, indem sie sich auf relevante Teile konzentriert.
Durchschnittliches Pooling reduziert die Größe von Merkmalskarten, indem es den Durchschnittswert von Unterregionen nimmt.
Ein Modell, das Bilder als Sammlungen visueller Merkmale zur Analyse und Klassifikation darstellt.
BLIP ist ein Modell, das visuelle und sprachliche Verarbeitung für Aufgaben wie Bildbeschriftung und visuelle Fragebeantwortung kombiniert.
Die Blob-Erkennung identifiziert Bereiche in Bildern, die sich in Eigenschaften wie Intensität oder Farbe von den umliegenden Bereichen unterscheiden.
Die Randdetektion identifiziert Kanten oder Übergänge in Bildern oder Daten, was für die Objekterkennung und Bildanalyse entscheidend ist.
Die Koordinaten des Begrenzungsrahmens definieren die Lage und Größe eines Objekts in einem Bild oder Raum.
Die Routing-Methode im Capsule-Netzwerk ist eine Technik im Deep Learning, die verbessert, wie neuronale Netzwerke räumliche Hierarchien in Daten verarbeiten.
Ein Capsule-Neuronales Netzwerk ist eine fortschrittliche Architektur neuronaler Netzwerke, die die Fähigkeit zur Erkennung von Mustern und räumlichen Hierarchien verbessert.
Cascade R-CNN ist ein fortschrittliches Framework zur Objekterkennung, das die Genauigkeit durch mehrere Stufen von Region Proposal Networks verbessert.
CenterNet ist ein Objekterkennungsrahmen, der Objekte als Punkte erkennt und so den Erkennungsprozess vereinfacht.
CIFAR ist ein weit verbreitetes Datenset, das häufig zum Trainieren von maschinellen Lernmodellen in Aufgaben der Computer Vision verwendet wird.
Der CIFAR-100-Datensatz ist eine Sammlung von 60.000 32x32-Farbabbildungen in 100 Klassen für die maschinelle Lernforschung.
Ein großer Datensatz zum Trainieren von KI, um städtische Szenen zu verstehen und Objekte in Stadtumgebungen zu segmentieren.
Class Activation Maps (CAMs) visualisieren, wie CNNs sich auf bestimmte Bildbereiche für die Klassifikation konzentrieren.
Klassen-Aktivierungskarten heben wichtige Bildregionen für Vorhersagen von Deep-Learning-Modellen hervor.
CLIP ist ein KI-Modell, das Bilder und Text verbindet, um ein besseres Verständnis und eine bessere Interpretation zu ermöglichen.
Ein Co-Attention-Mechanismus ermöglicht es Modellen, sich gleichzeitig auf zwei Eingabemengen zu konzentrieren, wodurch ihr Verständnis und ihre Repräsentation verbessert werden.
COCO ist ein groß angelegter Datensatz für Bilderkennung, Segmentierung und Bildbeschriftung in KI-Anwendungen.