AI Glossary: KI-Ausrichtung Terms & Definitions

Agentenzusammenbruch

Agentenzusammenbruch bezeichnet einen Fehler in KI-Systemen, bei dem Agenten aufhören, effektiv zu funktionieren, oft aufgrund von Ausrichtungsproblemen.

Ausgerichtete KI

Aligned AI bezieht sich auf künstliche Intelligenzsysteme, die darauf ausgelegt sind, mit menschlichen Werten und Zielen übereinzustimmen.

Ausrichtungssteuer

Alignment Tax bezeichnet die zusätzlichen Kosten, die entstehen, um sicherzustellen, dass KI-Systeme mit menschlichen Werten und Ethik übereinstimmen.

Anthropische Unsicherheit

Anthropic Uncertainty bezieht sich auf die Unsicherheit bezüglich menschlicher Präferenzen und Werte bei der Gestaltung von KI-Systemen.

Überlegene Ausrichtung

Überlegene Ausrichtung stellt sicher, dass KI-Systeme menschliche Werte durch kollaborative Entscheidungsprozesse widerspiegeln.

Ziel-Fehlgeneralisation

Ziel-Missgeneralisation tritt auf, wenn KI-Systeme unbeabsichtigte Ziele verfolgen, weil sie ihre Ziele falsch interpretieren.

Abwägung zwischen Nützlichkeit und Harmlosigkeit

Der Kompromiss zwischen Nützlichkeit und Harmlosigkeit ist ein Gleichgewicht zwischen nützlicher Unterstützung durch KI und den Risiken, Schaden zu verursachen.

Intelligenz-Explosion

Eine Intelligenzexplosion bezieht sich auf eine schnelle Zunahme der Fähigkeiten künstlicher Intelligenz, die oft zu Superintelligenz führt.

Umgekehrtes Belohnungsdesign

Inverse Reward Design ist eine Technik im Reinforcement Learning, die darauf abzielt, unbeabsichtigtes Verhalten in KI-Systemen zu verhindern.

Modellabgleich

Modellabgleich stellt sicher, dass KI-Systeme in einer Weise arbeiten, die mit menschlichen Werten und Absichten übereinstimmt.

Superalignment

SA

Superalignment bezieht sich auf fortschrittliche KI-Systeme, die perfekt mit menschlichen Werten und Absichten übereinstimmen.