AIアラインメントにおける11のAI用語を探る
Agent Collapseは、AIシステムにおいてエージェントが効果的に機能しなくなる故障を指し、しばしば整合性の問題によります。
アラインドAIは、人間の価値観や目標に沿うように設計された人工知能システムを指します。
アラインメント税は、AIシステムを人間の価値観や倫理に沿わせるためにかかる追加コストを指します。
Anthropic Uncertaintyは、AIシステム設計における人間の嗜好や価値観に関する不確実性を指します。
Deliberative Alignmentは、協働的な意思決定プロセスを通じてAIシステムが人間の価値観を反映することを保証します。
目標の誤一般化は、AIシステムが目標の誤解釈により意図しない目的を追求する場合に発生します。
Helpful-Harmlessnessトレードオフは、AIが有用な支援を提供することと害を引き起こすリスクとのバランスです。
インテリジェンス爆発は、人工知能の能力が急速に向上し、超知能に達することを指します。
Inverse Reward Designは、AIシステムにおける意図しない行動を防ぐことを目的とした強化学習の技術です。
モデル整合性は、AIシステムが人間の価値観や意図と一致して動作することを保証します。
スーパーアラインメントは、人間の価値観や意図と完全に一致した高度なAIシステムを指します。