AI Glossary: Aprendizado Por Reforço Terms & Definitions

Aprendizado de modelo de ação

AML

Aprendizado de modelos de ação é um método em IA que foca em prever os resultados de ações dentro de um ambiente.

Seleção de Ações

COMO

A seleção de ação é o processo pelo qual uma IA determina a melhor ação a tomar em uma determinada situação.

Função de Valor de Ação

Função Q

A Função de Valor de Ação avalia a recompensa esperada por tomar uma ação específica em um determinado estado no aprendizado por reforço.

Ator-Crítico

AC

Actor-Critic é uma abordagem de aprendizado por reforço que combina métodos de política e função de valor.

Interação do Ambiente do Agente

AEI

A interação entre um agente de IA e seu ambiente, influenciando a tomada de decisão e o aprendizado.

AlphaStar

COMO

AlphaStar é uma IA desenvolvida pela DeepMind para jogar StarCraft II em nível profissional, demonstrando técnicas avançadas de aprendizado por reforço.

RL em Lote

Aprendizado por Reforço em Lote (Batch Reinforcement Learning - Batch RL) é um método onde um agente aprende a partir de um conjunto fixo de experiências.

Exploração de Boltzmann

A Exploração Boltzmann é um método para equilibrar exploração e exploração em IA, especialmente em aprendizado por reforço.

Bandido Combinatório

CB

Um bandido combinatório é um tipo de algoritmo que ajuda a tomar decisões quando várias opções estão disponíveis simultaneamente.

Bandit Contextual

CB

Um bandido contextual é um modelo de aprendizado de máquina que toma decisões com base em informações contextuais para maximizar recompensas.

Espaço de Ação Contínuo

Um espaço de ação contínuo permite que a IA selecione de uma faixa infinita de ações possíveis em tarefas de tomada de decisão.

Problema de Atribuição de Crédito

CAP

O Problema de Atribuição de Crédito na IA refere-se ao desafio de determinar quais ações são responsáveis por um resultado.

Agente Crítico

CA

Um Agente Crítico avalia o desempenho de um modelo de IA fornecendo feedback sobre suas decisões.

Recompensa Acumulada

Recompensa cumulativa é a recompensa total que um agente recebe ao longo do tempo em aprendizado por reforço.

Gradiente de Política Determinística Profunda

DDPG

Deep Deterministic Policy Gradient é um algoritmo usado em aprendizado por reforço para espaços de ação contínuos.

Aprendizado por Reforço Profundo (Deep Q-Learning)

DQL

Q-Learning Profundo é um algoritmo de aprendizado por reforço que combina Q-learning com redes neurais profundas para otimizar a tomada de decisão.

Rede Neural Q Profunda

DQN

A Rede Neural Q Profunda é um tipo de IA que aprende a tomar decisões combinando aprendizado profundo com Q-learning.

Recompensa Densa

DR

Uma recompensa densa fornece feedback frequente no aprendizado por reforço, auxiliando um aprendizado mais rápido e um desempenho aprimorado.

Política Determinística

Uma política determinística em IA define uma ação específica para cada estado em um determinado ambiente.

Gradiente de Política Determinística

DPG

Um método de aprendizado por reforço que otimiza políticas usando gradientes para espaços de ação contínuos.

Espaço de Ação Discreto

Um espaço de ação discreto restringe uma IA a um conjunto finito de ações.

Aprendizado por Reforço Distribucional

DRL

Aprendizado por Reforço Distribucional foca em aprender a distribuição de recompensas futuras, em vez de apenas valores esperados.

RL Distribucional

DRL

O Aprendizado por Reforço Distribucional foca em prever a distribuição completa de possíveis recompensas futuras, ao invés de apenas seu valor esperado.

Randomização de Domínio

DR

A Randomização de Domínio é uma técnica usada em IA para melhorar a robustez dos modelos, variando os ambientes de treinamento.

Rede Neural Q de Duplo Profundo

DDQN

Uma Rede Q-Deep Dupla (DDQN) é um modelo avançado de aprendizado por reforço que melhora a estabilidade e o desempenho em tarefas de tomada de decisão.

Aprendizado por Q-Duplo

DQL

Double Q-Learning é uma melhoria do Q-Learning que reduz o viés de superestimação nas estimativas da função de valor.

Buffer de Replay DQN

Buffer de Reprodução

Um Buffer de Replay DQN armazena experiências para melhorar a eficiência do aprendizado em aprendizado por reforço profundo.

Rede Q-Dupla

DQN

Redes Q de Combate (Dueling Q-Networks) melhoram o aprendizado por reforço por meio de estimativas paralelas de valor de ação.