Entdecken Sie 25 KI-Begriffe in der KI-Sicherheit
Agentenzusammenbruch bezeichnet einen Fehler in KI-Systemen, bei dem Agenten aufhören, effektiv zu funktionieren, oft aufgrund von Ausrichtungsproblemen.
Das Risiko künstlicher Intelligenz bezieht sich auf potenzielle negative Folgen, die sich aus der Entwicklung und dem Einsatz von künstlichen Intelligenzsystemen ergeben können.
Ein Rahmenwerk, das KI-Systeme basierend auf ihrer Übereinstimmung mit menschlichen Werten und Absichten kategorisiert.
Anthropic bezieht sich auf Konzepte oder Prinzipien im Zusammenhang mit menschlicher Existenz und den Implikationen für KI-Sicherheit und Ethik.
Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.
Fähigkeiten von KI, die Risiken für Sicherheit, Privatsphäre oder ethische Standards darstellen.
Dunkles Wissen bezieht sich auf die Erkenntnisse und Strategien, die durch adversarisches Lernen und Angriffe in KI-Systemen gewonnen werden.
Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.
Ein Fehlermodus ist eine spezifische Art, in der ein System oder eine Komponente ausfallen kann, was seine Funktionalität oder Leistung beeinträchtigt.
Ein Fehlalarm in KI bezieht sich auf eine Situation, in der ein Alarm ausgelöst wird, ohne dass eine echte Bedrohung oder ein echtes Ereignis vorliegt.
Ziel-Missgeneralisation tritt auf, wenn KI-Systeme unbeabsichtigte Ziele verfolgen, weil sie ihre Ziele falsch interpretieren.
Halluzination AI bezieht sich auf Fälle, in denen KI falsche oder irreführende Informationen mit Überzeugung generiert.
Die Halluzinations-Kaskade bezieht sich auf einen kumulativen Effekt in KI, bei dem anfängliche Ungenauigkeiten zu weiteren fehlerhaften Ausgaben führen.
Der Kompromiss zwischen Nützlichkeit und Harmlosigkeit ist ein Gleichgewicht zwischen nützlicher Unterstützung durch KI und den Risiken, Schaden zu verursachen.
Menschliche Aufsicht bezieht sich auf die Einbindung von Menschen bei der Überwachung und Steuerung von KI-Systemen, um ethische und genaue Entscheidungen sicherzustellen.
Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.
Eine Intelligenzexplosion bezieht sich auf eine schnelle Zunahme der Fähigkeiten künstlicher Intelligenz, die oft zu Superintelligenz führt.
Jailbreak-Prompting bezieht sich auf Techniken, die das Verhalten von KI über die vorgesehenen Schutzmaßnahmen hinaus manipulieren.
Die Mesa-Optimierung bezieht sich auf KI-Systeme, die ihr eigenes Verhalten oder ihre Ziele auf Weisen optimieren, die ursprünglich nicht von ihren Schöpfern beabsichtigt waren.
Modellabgleich stellt sicher, dass KI-Systeme in einer Weise arbeiten, die mit menschlichen Werten und Absichten übereinstimmt.
Modellrobustheit bezieht sich auf die Fähigkeit eines maschinellen Lernmodells, die Leistung trotz Änderungen in den Eingabedaten oder der Umgebung aufrechtzuerhalten.
Die Modellsicherheit bezieht sich auf die Gewährleistung der Zuverlässigkeit und Sicherheit von KI-Modellen während Entwicklung und Einsatz.
OpenAI ist eine Forschungsorganisation für KI, die sich auf die Entwicklung sicherer und nützlicher künstlicher Intelligenz konzentriert.
Ein Out-of-Distribution-Probe ist ein Datenpunkt, der nicht der Verteilung des Trainings eines Modells entspricht.
Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.