AI Glossary: KI-Bewertungsmetriken Terms & Definitions

Absoluter Fehler

AE

Der Absolute Fehler misst die Differenz zwischen einem vorhergesagten Wert und dem tatsächlichen Wert und zeigt die Genauigkeit eines Modells an.

Akaike-Informationskriterium

KI

Das Akaike-Informationskriterium (AIC) hilft bei der Bewertung der Qualität statistischer Modelle.

Asymmetrischer Verlust

Asymmetrischer Verlust bezieht sich auf eine Verlustfunktion, die Fehler je nach Art oder Schwere unterschiedlich bestraft in Vorhersagemodellen.

Durchschnittliche Präzisionswertung

AP-Wert

Average Precision Score measures the accuracy of a model's predictions in classification tasks, balancing precision and recall.

Grundlinien-Genauigkeit

Die Grundlinien-Genauigkeit ist die minimale Genauigkeit, die ein Modell erreichen muss, um als effektiv zu gelten.

Bayessches Informationskriterium

BIC

Das Bayesian Information Criterion (BIC) ist ein statistisches Werkzeug zur Modellwahl.

BERTScore

BERTScore ist eine Bewertungsmetrik für die Verarbeitung natürlicher Sprache, die BERT-Embeddings verwendet, um die Textähnlichkeit zu beurteilen.

Bleu Score Metrik

BLEU

Die Bleu-Score-Metrik bewertet die Qualität maschinell erzeugter Texte im Vergleich zu Referenztexten.

Brier-Score

Der Brier-Score misst die Genauigkeit probabilistischer Vorhersagen und quantifiziert die mittleren quadrierten Differenzen zwischen vorhergesagten und tatsächlichen Ergebnissen.

CIDEr-Score

CIDEr

Der CIDEr-Score ist eine Metrik zur Bewertung von Bildbeschriftungsmodellen, basierend auf dem Konsens mit von Menschen erstellten Beschriftungen.

Vergleichende Bewertung

Vergleichende Bewertung beurteilt die Leistung von KI-Systemen, indem sie diese anhand definierter Metriken miteinander vergleicht.

Vertrauensgrenzen

Konfidenzintervalle sind statistische Grenzen, die Unsicherheit bei Vorhersagen oder Schätzungen quantifizieren.

Vertrauenswürdigkeitspunktzahl

CS

A Confidence Score quantifies the certainty of an AI model's predictions.

Metriken der Verwirrungsmatrix

Konfusionsmatrix-Metriken bewerten die Leistung eines Klassifikationsmodells anhand wichtiger Indikatoren wie Genauigkeit, Präzision, Recall und F1-Score.

Divergenz-Metrik

Eine Divergenzmetrik quantifiziert den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen im maschinellen Lernen.

Earth Mover’s Distance

EMD

Earth Mover's Distance (EMD) quantifies the difference between two probability distributions over a region.

Epistemische Demutskala

EHS

The Epistemic Humility Score measures an AI's ability to recognize and express uncertainty in its knowledge.

Gleichfehlerquote

EER

Die Equal Error Rate (EER) ist eine Metrik zur Bewertung der Leistung biometrischer Systeme.

F-Messung

F1

F-Messung ist eine Metrik zur Bewertung der Leistung von Klassifikationsmodellen, die Präzision und Rückruf ausbalanciert.

F-Wert

F1

F-Wert ist ein statistisches Maß, das verwendet wird, um die Genauigkeit von binären Klassifikationsmodellen zu bewerten.

Falsche Akzeptanzrate

WEIT

Die Rate falscher Akzeptanz misst die Wahrscheinlichkeit, dass ein System einen unbefugten Benutzer fälschlicherweise als autorisiert erkennt.

Falsch-Entdeckungsrate

FDR

Die False-Discovery-Rate (FDR) ist der Anteil der falschen Positivbefunde unter allen positiven Ergebnissen bei statistischen Hypothesentests.

Falsch-Negativ

Ein falsch negatives Ergebnis liegt vor, wenn ein Test fälschlicherweise keine Anwesenheit einer tatsächlich vorhandenen Bedingung anzeigt.

Falsch-Positiv-Rate

FPR

The False Positive Rate measures the proportion of incorrect positive predictions in a model's output.

Falsche Ablehnungsrate

FRR

Die Rate falscher Ablehnungen (FRR) misst den Prozentsatz der unbefugten Benutzer, die vom System fälschlicherweise akzeptiert werden.

Prognosefehler

Prognosefehler bezeichnet die Differenz zwischen vorhergesagten und tatsächlichen Werten in prädiktiven Modellen.

Fréchet Inception Distance

FID

Fréchet Inception Distance (FID) misst die Qualität generierter Bilder, indem er deren Verteilung mit echten Bildern vergleicht.

Hamming-Verlust

Hamming Loss misst die Fraktion der falschen Labels bei Multi-Label-Klassifikationsaufgaben.