AI Glossary: KI-Inferenz Terms & Definitions

Cloud TPU

Cloud TPU ist ein spezieller Hardware-Beschleuniger für maschinelles Lernen, der von Google entwickelt wurde, um Leistung und Effizienz zu steigern.

Exakte Inferenz

Exakte Inferenz ist eine statistische Methode, die die genauen Wahrscheinlichkeiten von Ergebnissen in einem probabilistischen Modell berechnet.

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite ist ein leichtgewichtiges KI-Modell, das sich auf effiziente Datenverarbeitung und Inferenzaufgaben konzentriert.

Inferenzbudget

Inference-Budget bezieht sich auf die Beschränkungen der Rechenressourcen, die bei der Inferenz eines KI-Modells verwendet werden.

Inferenzphase

Die Inferenzphase ist der Zeitraum, in dem KI-Modelle Vorhersagen oder Entscheidungen auf Basis neuer Daten treffen.

Inferenzsteuerung

Inference-Steering ist eine Technik, um den Entscheidungsprozess von KI-Modellen während der Inferenz zu lenken und zu optimieren.

Modellausführung

Modellexecution bezieht sich auf den Prozess, ein trainiertes KI-Modell auszuführen, um Vorhersagen oder Entscheidungen auf Basis neuer Daten zu treffen.

Modell-Hardware

Modellhardware bezieht sich auf die physischen Geräte, die zur Ausführung von KI-Modellen verwendet werden, einschließlich CPUs, GPUs und spezieller Beschleuniger.

Modell-Inferenz

Modelleinferenz ist der Prozess, ein trainiertes KI-Modell zu verwenden, um Vorhersagen auf Basis neuer Daten zu treffen.

Modellinstanziierung

Modellinstanziierung ist der Prozess, eine Instanz eines maschinellen Lernmodells mit vordefinierten Parametern und Konfigurationen zu erstellen.

Modellantwort

Eine Modellantwort ist eine vordefinierte Ausgabe, die von einem KI-System basierend auf Eingabedaten generiert wird.

Modellserver

Ein Model Server ist eine Plattform, die KI-Modelle für Inferenzzwecke bereitstellt und Anwendungen ermöglicht, diese Modelle aus der Ferne zu nutzen.

Modellgeschwindigkeit

Model Speed bezeichnet die Zeit, die ein KI-Modell benötigt, um Vorhersagen nach dem Training zu machen.

o1-mini

Das o1-mini ist ein kompaktes, effizientes KI-Modell, das für Inferenz und Anwendungen auf Geräten in verschiedenen Bereichen entwickelt wurde.

Offline-Inferenz

Offline-Inferenz ist der Prozess, bei dem KI-Modelle auf vorab gesammelten Daten ohne Echtzeit-Interaktion ausgeführt werden.

Inferenz auf dem Gerät

On-Device-Inferenz bezieht sich auf das Ausführen von KI-Modellen direkt auf einem Gerät, ohne auf Cloud-Ressourcen angewiesen zu sein.

Online-Inferenz

Online-Inferenz bezieht sich auf den Prozess, Vorhersagen in Echtzeit mit einem trainierten KI-Modell zu machen.

Optimierte Inferenz

Optimierte Inferenz bezieht sich auf den Prozess, die Effizienz und Leistung von AI-Modellen während ihrer Entscheidungsphase zu verbessern.

Ausgabeerzeugung

Die Ergebnisgenerierung bezieht sich auf den Prozess der Erzeugung von Ergebnissen aus einem KI-Modell, wie Text, Bilder oder Ton.

Ausgabestatus

Der Ausgabestatus bezieht sich auf das endgültige Ergebnis, das von einem KI-Modell nach der Verarbeitung der Eingabedaten erzeugt wird.

Parallele Inferenz

Parallele Inferenz ist eine Technik in der KI, bei der mehrere Inferenzvorgänge gleichzeitig verarbeitet werden, um Geschwindigkeit und Effizienz zu verbessern.

Parameterausgabe

Parameter output refers to the results or values produced by a model's parameters during AI inference or training.

Parameterzustand

Parameterzustand bezeichnet die aktuellen Werte der Parameter in einem KI-Modell während des Trainings oder der Inferenz.

TensorRT

TRT

TensorRT ist eine Hochleistungs-Bibliothek für Deep-Learning-Inferenz, die von NVIDIA entwickelt wurde.