AI Glossary: Aprendizaje Por Refuerzo Terms & Definitions

Aprendizaje de modelos de acción

AML

El aprendizaje de modelos de acción es un método en IA que se centra en predecir los resultados de las acciones dentro de un entorno dado.

Selección de acción

AS

La selección de acción es el proceso mediante el cual una IA determina la mejor acción a tomar en una situación dada.

Función de Valor de Acción

Función Q

La Función de Valor de Acción evalúa la recompensa esperada por tomar una acción específica en un estado dado en el aprendizaje por refuerzo.

Actor-Crítico

CA

Actor-Critic es un enfoque de aprendizaje por refuerzo que combina métodos de política y función de valor.

Interacción entre Agente y Entorno

AEI

La interacción entre un agente de IA y su entorno, que influye en la toma de decisiones y el aprendizaje.

AlphaStar

AS

AlphaStar es una IA desarrollada por DeepMind para jugar a StarCraft II a nivel profesional, mostrando técnicas avanzadas de aprendizaje por refuerzo.

Aprendizaje por lotes (Batch RL)

El Aprendizaje por refuerzo por lotes (Batch RL) es un método en el que un agente aprende a partir de un conjunto fijo de experiencias.

Exploración de Boltzmann

La exploración de Boltzmann es un método para equilibrar la exploración y la explotación en IA, particularmente en aprendizaje por refuerzo.

Bandido Combinatorio

CB

Un bandido combinatorio es un tipo de algoritmo que ayuda a tomar decisiones cuando hay múltiples opciones disponibles simultáneamente.

Bandido Contextual

CB

Un bandido contextual es un modelo de aprendizaje automático que toma decisiones basadas en información contextual para maximizar las recompensas.

Espacio de acción continua

Un espacio de acción continuo permite a la IA seleccionar entre un rango infinito de acciones posibles en tareas de toma de decisiones.

Problema de Asignación de Crédito

CAP

El problema de asignación de crédito en IA se refiere al desafío de determinar qué acciones son responsables de un resultado.

Agente Crítico

CA

Un Agente Crítico evalúa el rendimiento de un modelo de IA proporcionando retroalimentación sobre sus decisiones.

Recompensa acumulada

La recompensa acumulada es la recompensa total que un agente recibe a lo largo del tiempo en el aprendizaje por refuerzo.

Gradiente de Políticas Determinísticas Profundas

DDPG

El Gradiente de Políticas Determinísticas Profundas es un algoritmo utilizado en aprendizaje por refuerzo para espacios de acción continuos.

Aprendizaje Profundo Q

DQL

El Deep Q-Learning es un algoritmo de aprendizaje por refuerzo que combina Q-learning con redes neuronales profundas para optimizar la toma de decisiones.

Red Q Profunda

DQN

Deep Q-Network es un tipo de IA que aprende a tomar decisiones combinando aprendizaje profundo con Q-learning.

Recompensa densa

DR

Una recompensa densa proporciona retroalimentación frecuente en el aprendizaje por refuerzo, ayudando a un aprendizaje más rápido y a un mejor rendimiento.

Política determinista

Una política determinista en IA define una acción específica para cada estado en un entorno dado.

Gradiente de Política Determinista

DPG

Un método en aprendizaje por refuerzo que optimiza políticas utilizando gradientes para espacios de acción continuos.

Espacio de Acción Discreto

Un espacio de acciones discretas restringe a una IA a un conjunto finito de acciones.

Aprendizaje por refuerzo distribucional

DRL

El aprendizaje por refuerzo distribucional se centra en aprender la distribución de las recompensas futuras en lugar de solo los valores esperados.

RL Distribucional

DRL

El Aprendizaje por Refuerzo Distribucional se centra en predecir la distribución completa de las posibles recompensas futuras, en lugar de solo su valor esperado.

Aleatorización de dominio

DR

La aleatorización del dominio es una técnica utilizada en IA para mejorar la robustez de los modelos variando los entornos de entrenamiento.

Red Profunda Doble Q-Network

DDQN

Una Red de Q-Valor Profunda Doble (DDQN) es un modelo avanzado de aprendizaje por refuerzo que mejora la estabilidad y el rendimiento en tareas de toma de decisiones.

Aprendizaje Q-Doble

DQL

El Aprendizaje Q-Doble es una mejora del Aprendizaje Q que reduce el sesgo de sobreestimación en las estimaciones de la función de valor.

Búfer de Repetición DQN

Búfer de Repetición

Un búfer de repetición DQN almacena experiencias para mejorar la eficiencia del aprendizaje en el aprendizaje profundo por refuerzo.

Red Q-Duelling

DQN

Las Redes Q de Doble Lucha mejoran el aprendizaje por refuerzo mediante estimaciones paralelas del valor de acción.