AI Glossary: Apprentissage Par Renforcement Terms & Definitions

Apprentissage du modèle d'action

LBC (Lutte contre le blanchiment d'argent)

L'apprentissage du modèle d'action est une méthode en IA qui se concentre sur la prédiction des résultats des actions dans un environnement donné.

Sélection d'action

AS

La sélection d'action est le processus par lequel une IA détermine la meilleure action à entreprendre dans une situation donnée.

Fonction de valeur d'action

Fonction Q

La fonction de valeur d'action évalue la récompense attendue pour prendre une action spécifique dans un état donné en apprentissage par renforcement.

Acteur-Critique

Climatisation

L'Acteur-Critique est une approche d'apprentissage par renforcement combinant les méthodes de politique et de fonction de valeur.

Interaction entre l'agent et son environnement

AEI

L'interaction entre un agent d'IA et son environnement, influençant la prise de décision et l'apprentissage.

AlphaStar

AS

AlphaStar est une intelligence artificielle développée par DeepMind pour jouer à StarCraft II au niveau professionnel, mettant en avant des techniques avancées d'apprentissage par renforcement.

Apprentissage par renforcement par lots

L'apprentissage par renforcement par lots (Batch RL) est une méthode où un agent apprend à partir d'un ensemble fixe d'expériences.

Exploration de Boltzmann

L'exploration de Boltzmann est une méthode pour équilibrer exploration et exploitation en IA, notamment en apprentissage par renforcement.

Bandit combinatoire

CB

Un bandit combinatoire est un type d'algorithme qui aide à prendre des décisions lorsque plusieurs options sont disponibles simultanément.

Bandit contextuel

CB

Un bandit contextuel est un modèle d'apprentissage automatique qui prend des décisions en fonction d'informations contextuelles pour maximiser les récompenses.

Espace d'action continue

Un espace d'action continu permet à l'IA de choisir parmi une gamme infinie d'actions possibles dans des tâches de prise de décision.

Problème d'attribution de crédit

CAP

Le problème d'attribution de crédit en IA concerne le défi de déterminer quelles actions sont responsables d'un résultat.

Agent Critique

CA

Un agent critique évalue la performance d'un modèle d'IA en fournissant des retours sur ses décisions.

Récompense cumulative

La récompense cumulative est la récompense totale qu'un agent reçoit au fil du temps en apprentissage par renforcement.

Gradient de politique déterministe profond

DDPG

Le Deep Deterministic Policy Gradient est un algorithme utilisé en apprentissage par renforcement pour les espaces d'actions continus.

Apprentissage par renforcement profond (Deep Q-Learning)

DQL

Le Q-Learning Profond est un algorithme d'apprentissage par renforcement qui combine Q-learning avec des réseaux neuronaux profonds pour optimiser la prise de décision.

Réseau de Q-apprentissage profond

DQN

Le réseau de Q-apprentissage profond est un type d'IA qui apprend à prendre des décisions en combinant l'apprentissage profond avec le Q-learning.

Récompense dense

DR

Une récompense dense fournit des retours fréquents dans l'apprentissage par renforcement, facilitant un apprentissage plus rapide et de meilleures performances.

Politique déterministe

Une politique déterministe en IA définit une action spécifique pour chaque état dans un environnement donné.

Gradient de Politique Déterministe

DPG

Une méthode en apprentissage par renforcement qui optimise les politiques en utilisant des gradients pour des espaces d'actions continus.

Espace d'Action Discret

Un espace d'actions discret limite l'IA à un ensemble fini d'actions.

Apprentissage par renforcement distributionnel

RL

L'apprentissage par renforcement distributionnel se concentre sur l'apprentissage de la distribution des récompenses futures plutôt que sur des valeurs attendues.

RL distributionnel

RL

L'apprentissage par renforcement distributionnel se concentre sur la prédiction de la distribution complète des récompenses futures possibles, plutôt que sur leur valeur attendue.

Randomisation de domaine

DR

La Randomisation de Domaine est une technique utilisée en IA pour améliorer la robustesse des modèles en faisant varier les environnements d'entraînement.

Réseau de Q-apprentissage profond double

DDQN

Un Double Deep Q-Network (DDQN) est un modèle avancé d'apprentissage par renforcement qui améliore la stabilité et la performance dans les tâches de prise de décision.

Apprentissage par Q double

DQL

Double Q-Learning est une amélioration du Q-Learning qui réduit le biais de surestimation dans les estimations de la fonction de valeur.

Mémoire tampon de rejouement DQN

Buffer de répétition

Un buffer de répétition DQN stocke des expériences pour améliorer l'efficacité de l'apprentissage dans l'apprentissage par renforcement profond.

Réseau Q-Duel

DQN

Les réseaux Q à duel améliorent l'apprentissage par renforcement via des estimations parallèles de la valeur d'action.