AI Glossary: AIの安全性 Terms & Definitions

エージェント崩壊

Agent Collapseは、AIシステムにおいてエージェントが効果的に機能しなくなる故障を指し、しばしば整合性の問題によります。

AIリスク

AIリスクとは、人工知能システムの開発と展開に伴う潜在的な悪影響を指します。

アラインメント分類法

AT

人間の価値観や意図に基づいてAIシステムを分類する枠組み。

アンソロピック

アンソロピックは、人間の存在に関連する概念や原則、そしてそれがAIの安全性と倫理に与える影響を指します。

修正可能性

Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.

危険な能力

DC

安全性、プライバシー、倫理基準にリスクをもたらすAIの能力。

ダークナレッジ

ダークナレッジは、AIシステムにおける敵対的学習や攻撃から得られる洞察と戦略を指します。

欺瞞的な整合性

DA

Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.

故障モード

故障モードとは、システムやコンポーネントが故障し、その機能や性能に影響を与える特定の方法です。

偽警報

AIにおける誤報とは、実際には脅威や出来事が発生していないにもかかわらず、アラームが作動する状況を指します。

目標の誤一般化

目標の誤一般化は、AIシステムが目標の誤解釈により意図しない目的を追求する場合に発生します。

幻覚AI

幻覚AIとは、AIが自信を持って誤った情報や誤解を招く情報を生成する事例を指します。

幻覚カスケード

幻覚カスケードは、AIにおいて最初の不正確さがさらなる誤った出力を引き起こす連鎖的な効果を指します。

有用性-無害性のトレードオフ

Helpful-Harmlessnessトレードオフは、AIが有用な支援を提供することと害を引き起こすリスクとのバランスです。

人間の監督

はい、承知しました。

人間の監督は、倫理的かつ正確な意思決定を確保するために、AIシステムの監視と指導に人間が関与することを指します。

内部整合性

IA

Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.

知能爆発

インテリジェンス爆発は、人工知能の能力が急速に向上し、超知能に達することを指します。

ジェイルブレイクプロンプト

Jailbreak Promptingは、AIの動作を意図しない安全策を超えて操作する技術を指します。

メサ最適化

MO

メサ最適化は、AIシステムが元々の設計者の意図しない方法で自らの行動や目的を最適化することを指します。

モデル整合性

モデル整合性は、AIシステムが人間の価値観や意図と一致して動作することを保証します。

モデルの堅牢性

モデルの堅牢性とは、入力データや環境の変化にもかかわらず、機械学習モデルが性能を維持できる能力を指します。

モデルの安全性

モデルの安全性は、開発と展開中のAIモデルの信頼性とセキュリティを確保することです。

オープンAI

OpenAIは、安全で有益な人工知能の開発に焦点を当てたAI研究組織です。

分布外サンプル

分布外サンプルとは、モデルの訓練分布に適合しないデータポイントのことです。

外部整合性

OA

Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.