AI安全に関する25のAI用語を探る
Agent Collapseは、AIシステムにおいてエージェントが効果的に機能しなくなる故障を指し、しばしば整合性の問題によります。
AIリスクとは、人工知能システムの開発と展開に伴う潜在的な悪影響を指します。
人間の価値観や意図に基づいてAIシステムを分類する枠組み。
アンソロピックは、人間の存在に関連する概念や原則、そしてそれがAIの安全性と倫理に与える影響を指します。
Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.
安全性、プライバシー、倫理基準にリスクをもたらすAIの能力。
ダークナレッジは、AIシステムにおける敵対的学習や攻撃から得られる洞察と戦略を指します。
Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.
故障モードとは、システムやコンポーネントが故障し、その機能や性能に影響を与える特定の方法です。
AIにおける誤報とは、実際には脅威や出来事が発生していないにもかかわらず、アラームが作動する状況を指します。
目標の誤一般化は、AIシステムが目標の誤解釈により意図しない目的を追求する場合に発生します。
幻覚AIとは、AIが自信を持って誤った情報や誤解を招く情報を生成する事例を指します。
幻覚カスケードは、AIにおいて最初の不正確さがさらなる誤った出力を引き起こす連鎖的な効果を指します。
Helpful-Harmlessnessトレードオフは、AIが有用な支援を提供することと害を引き起こすリスクとのバランスです。
人間の監督は、倫理的かつ正確な意思決定を確保するために、AIシステムの監視と指導に人間が関与することを指します。
Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.
インテリジェンス爆発は、人工知能の能力が急速に向上し、超知能に達することを指します。
Jailbreak Promptingは、AIの動作を意図しない安全策を超えて操作する技術を指します。
メサ最適化は、AIシステムが元々の設計者の意図しない方法で自らの行動や目的を最適化することを指します。
モデル整合性は、AIシステムが人間の価値観や意図と一致して動作することを保証します。
モデルの堅牢性とは、入力データや環境の変化にもかかわらず、機械学習モデルが性能を維持できる能力を指します。
モデルの安全性は、開発と展開中のAIモデルの信頼性とセキュリティを確保することです。
OpenAIは、安全で有益な人工知能の開発に焦点を当てたAI研究組織です。
分布外サンプルとは、モデルの訓練分布に適合しないデータポイントのことです。
Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.