AI Glossary: 強化学習 Terms & Definitions

アクションモデル学習

AML

アクションモデル学習は、AIにおいて特定の環境内でのアクションの結果を予測することに焦点を当てた手法です。

アクション選択

AS

アクション選択は、AIが特定の状況で最適な行動を決定する過程です。

アクション値関数

Q関数

強化学習において、Action Value Functionは特定の状態で特定の行動を取った場合の期待報酬を評価します。

アクター-クリティック

自己相関

アクター-クリティックは、方策と価値関数の手法を組み合わせた強化学習のアプローチです。

エージェント環境相互作用

AEI

AIエージェントとその環境との相互作用は、意思決定と学習に影響を与えます。

AlphaZero

AS

AlphaStarは、DeepMindによって開発されたAIで、プロレベルのStarCraft IIのプレイを実現し、高度な強化学習技術を示しています。

バッチRL

Batch Reinforcement Learning（Batch RL）は、エージェントが固定された経験のデータセットから学習する方法です。

ボルツマン探索

Boltzmann Explorationは、強化学習において探索と利用のバランスを取る方法です。

組み合わせバンディット

CB

組合せバンディットは、複数の選択肢が同時に利用可能なときに意思決定を支援するアルゴリズムの一種です。

コンテキストバンディット

CB

コンテキストバンディットは、報酬を最大化するために文脈情報に基づいて意思決定を行う機械学習モデルです。

連続アクションスペース

連続的なアクション空間は、意思決定タスクにおいて無限の範囲のアクションから選択できることを意味します。

クレジット割り当て問題

キャップ

AIにおけるCredit Assignment Problemは、どの行動が結果に責任を持つかを特定する課題です。

批評エージェント

カリフォルニア

Critic Agentは、AIモデルのパフォーマンスを評価し、その決定にフィードバックを提供します。

累積報酬

累積報酬は、強化学習においてエージェントが一定期間に受け取る総報酬です。

深層決定論的方策勾配

DDPG

Deep Deterministic Policy Gradientは、連続アクション空間における強化学習で使用されるアルゴリズムです。

深層Q学習

DQL

Deep Q-Learningは、Q学習と深層ニューラルネットワークを組み合わせて意思決定を最適化する強化学習アルゴリズムです。

深層Qネットワーク

DQN

Deep Q-Networkは、深層学習とQ学習を組み合わせて意思決定を学習するAIの一種です。

密な報酬

DR

Dense rewardは、強化学習において頻繁にフィードバックを提供し、より早い学習と性能向上を促します。

決定論的ポリシー

AIにおける決定論的ポリシーは、特定の環境内の各状態に対して特定の行動を定義します。

決定論的方策勾配

DPG

強化学習における方法で、連続的な行動空間のために勾配を用いて方針を最適化します。

離散行動空間

離散的行動空間は、AIを有限の行動セットに制限します。

分布的強化学習

DRL

分布強化学習は、単なる期待値ではなく、将来の報酬の分布を学習することに焦点を当てています。

分布的RL

DRL

分布強化学習は、可能な将来の報酬の全分布を予測することに焦点を当てており、その期待値だけでなく全体を学習します。

ドメインランダム化

DR

ドメインランダム化は、トレーニング環境を変化させることでモデルの堅牢性を向上させるAIの技術です。

ダブルディープQネットワーク

DDQN

ダブルディープQネットワーク（DDQN）は、意思決定タスクの安定性と性能を向上させる高度な強化学習モデルです。

ダブルQ学習

DQL

ダブルQラーニングは、Qラーニングの改良版で、価値関数推定の過大評価バイアスを減らします。

データ品質を向上させる

リプレイバッファ

DQNリプレイバッファは、深層強化学習において学習効率を向上させるために経験を保存します。

デュエリングQネットワーク

DQN

Dueling Q-Networksは、並列のアクション価値推定を通じて強化学習を改善します。