AI Glossary: KI-Sicherheit Terms & Definitions

Agentenzusammenbruch

Agentenzusammenbruch bezeichnet einen Fehler in KI-Systemen, bei dem Agenten aufhören, effektiv zu funktionieren, oft aufgrund von Ausrichtungsproblemen.

KI-Risiko

Das Risiko künstlicher Intelligenz bezieht sich auf potenzielle negative Folgen, die sich aus der Entwicklung und dem Einsatz von künstlichen Intelligenzsystemen ergeben können.

Ausrichtungs-Taxonomie

AT

Ein Rahmenwerk, das KI-Systeme basierend auf ihrer Übereinstimmung mit menschlichen Werten und Absichten kategorisiert.

Anthropisch

Anthropic bezieht sich auf Konzepte oder Prinzipien im Zusammenhang mit menschlicher Existenz und den Implikationen für KI-Sicherheit und Ethik.

Korrigierbarkeit

Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.

Gefährliche Fähigkeiten

DC

Fähigkeiten von KI, die Risiken für Sicherheit, Privatsphäre oder ethische Standards darstellen.

Dunkles Wissen

Dunkles Wissen bezieht sich auf die Erkenntnisse und Strategien, die durch adversarisches Lernen und Angriffe in KI-Systemen gewonnen werden.

Täuschende Ausrichtung

DA

Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.

Ausfallmodus

Ein Fehlermodus ist eine spezifische Art, in der ein System oder eine Komponente ausfallen kann, was seine Funktionalität oder Leistung beeinträchtigt.

Fehlalarm

Ein Fehlalarm in KI bezieht sich auf eine Situation, in der ein Alarm ausgelöst wird, ohne dass eine echte Bedrohung oder ein echtes Ereignis vorliegt.

Ziel-Fehlgeneralisation

Ziel-Missgeneralisation tritt auf, wenn KI-Systeme unbeabsichtigte Ziele verfolgen, weil sie ihre Ziele falsch interpretieren.

Halluzination AI

Halluzination AI bezieht sich auf Fälle, in denen KI falsche oder irreführende Informationen mit Überzeugung generiert.

Halluzinations-Kaskade

Die Halluzinations-Kaskade bezieht sich auf einen kumulativen Effekt in KI, bei dem anfängliche Ungenauigkeiten zu weiteren fehlerhaften Ausgaben führen.

Abwägung zwischen Nützlichkeit und Harmlosigkeit

Der Kompromiss zwischen Nützlichkeit und Harmlosigkeit ist ein Gleichgewicht zwischen nützlicher Unterstützung durch KI und den Risiken, Schaden zu verursachen.

Menschliche Überwachung

Hallo

Menschliche Aufsicht bezieht sich auf die Einbindung von Menschen bei der Überwachung und Steuerung von KI-Systemen, um ethische und genaue Entscheidungen sicherzustellen.

Innere Ausrichtung

KI

Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.

Intelligenz-Explosion

Eine Intelligenzexplosion bezieht sich auf eine schnelle Zunahme der Fähigkeiten künstlicher Intelligenz, die oft zu Superintelligenz führt.

Jailbreak-Prompting

Jailbreak-Prompting bezieht sich auf Techniken, die das Verhalten von KI über die vorgesehenen Schutzmaßnahmen hinaus manipulieren.

Mesa-Optimierung

MO

Die Mesa-Optimierung bezieht sich auf KI-Systeme, die ihr eigenes Verhalten oder ihre Ziele auf Weisen optimieren, die ursprünglich nicht von ihren Schöpfern beabsichtigt waren.

Modellabgleich

Modellabgleich stellt sicher, dass KI-Systeme in einer Weise arbeiten, die mit menschlichen Werten und Absichten übereinstimmt.

Modellrobustheit

Modellrobustheit bezieht sich auf die Fähigkeit eines maschinellen Lernmodells, die Leistung trotz Änderungen in den Eingabedaten oder der Umgebung aufrechtzuerhalten.

Modellsicherheit

Die Modellsicherheit bezieht sich auf die Gewährleistung der Zuverlässigkeit und Sicherheit von KI-Modellen während Entwicklung und Einsatz.

Open AI

OpenAI ist eine Forschungsorganisation für KI, die sich auf die Entwicklung sicherer und nützlicher künstlicher Intelligenz konzentriert.

Ausserhalb-des-Verteilungs-Beispiel

Ein Out-of-Distribution-Probe ist ein Datenpunkt, der nicht der Verteilung des Trainings eines Modells entspricht.

Äußere Ausrichtung

OA

Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.