AI Glossary: Verstärkendes Lernen Terms & Definitions

Aktionsmodell-Lernen

AML

Aktionsmodelllernen ist eine Methode in der KI, die sich auf die Vorhersage der Ergebnisse von Aktionen in einer gegebenen Umgebung konzentriert.

Aktionsauswahl

ALS

Aktionsauswahl ist der Prozess, bei dem eine KI die beste Aktion in einer bestimmten Situation bestimmt.

Aktionswertfunktion

Q-Funktion

Die Aktionswertfunktion bewertet die erwartete Belohnung für das Ausführen einer bestimmten Aktion in einem bestimmten Zustand im Reinforcement Learning.

Schauspieler-Kritiker

AC

Actor-Critic ist ein Ansatz des Reinforcement Learning, der Policy- und Wertfunktion-Methoden kombiniert.

Agent-Umwelt-Interaktion

AEI

Die Interaktion zwischen einem KI-Agenten und seiner Umwelt, die Entscheidungsfindung und Lernen beeinflusst.

AlphaStar

ALS

AlphaStar ist eine KI, die von DeepMind entwickelt wurde, um StarCraft II auf professionellem Niveau zu spielen, und zeigt fortschrittliche Verstärkungslernen-Techniken.

Batch RL

Batch Reinforcement Learning (Batch RL) ist eine Methode, bei der ein Agent aus einem festen Datensatz von Erfahrungen lernt.

Boltzmann-Exploration

Boltzmann-Exploration ist eine Methode zur Balance zwischen Exploration und Ausbeutung in KI, insbesondere im Reinforcement Learning.

Kombinatorischer Bandit

CB

Ein kombinatorischer Bandit ist eine Art Algorithmus, der bei Entscheidungen hilft, wenn mehrere Optionen gleichzeitig zur Verfügung stehen.

Kontextueller Bandit

CB

Ein kontextueller Bandit ist ein maschinelles Lernmodell, das Entscheidungen auf der Grundlage von Kontextinformationen trifft, um Belohnungen zu maximieren.

Kontinuierlicher Aktionsraum

Ein kontinuierlicher Aktionsraum erlaubt es der KI, aus einer unendlichen Vielzahl möglicher Aktionen bei Entscheidungsaufgaben auszuwählen.

Credit-Assignment-Problem

KAPPE

Das Credit Assignment Problem in der KI bezieht sich auf die Herausforderung, zu bestimmen, welche Aktionen für ein Ergebnis verantwortlich sind.

Kritiker-Agent

CA

Ein Kritiker-Agent bewertet die Leistung eines KI-Modells, indem er Feedback zu seinen Entscheidungen gibt.

Kumulative Belohnung

Kumulative Belohnung ist die Gesamtbelohnung, die ein Agent im Laufe der Zeit im Reinforcement Learning erhält.

Tiefe deterministische Politikgradienten

DDPG

Deep Deterministic Policy Gradient ist ein Algorithmus, der im Reinforcement Learning für kontinuierliche Aktionsräume verwendet wird.

Deep Q-Learning

DQL

Deep Q-Learning ist ein Verstärkungslernalgorithmus, der Q-Learning mit tiefen neuronalen Netzwerken kombiniert, um Entscheidungsprozesse zu optimieren.

Deep Q-Netzwerk

DQN

Deep Q-Netzwerk ist eine Art von KI, die lernt, Entscheidungen zu treffen, indem sie Deep Learning mit Q-Learning kombiniert.

Dichte Belohnung

DR

Eine dichte Belohnung bietet im Reinforcement Learning häufiges Feedback, was ein schnelleres Lernen und eine verbesserte Leistung fördert.

Deterministische Politik

Eine deterministische Politik in der KI definiert eine bestimmte Aktion für jeden Zustand in einer gegebenen Umgebung.

Deterministischer Policy-Gradient

DPG

Eine Methode im Reinforcement Learning, die Politiken mithilfe von Gradienten für kontinuierliche Aktionsräume optimiert.

Diskreter Aktionsraum

Ein diskreter Aktionsraum beschränkt eine KI auf eine endliche Menge von Aktionen.

Verteilungsbasiertes Reinforcement Learning

DRL

Distributional Reinforcement Learning konzentriert sich auf das Lernen der Verteilung zukünftiger Belohnungen anstatt nur auf erwartete Werte.

Verteilungsbasierte RL

DRL

Verteilungsbasierte Verstärkungslernen (Distributional Reinforcement Learning) konzentriert sich darauf, die vollständige Verteilung möglicher zukünftiger Belohnungen vorherzusagen, anstatt nur ihren Erwartungswert.

Domänen-Randomisierung

DR

Die Domänen-Randomisierung ist eine Technik, die im Bereich der KI verwendet wird, um die Robustheit von Modellen durch Variierung der Trainingsumgebungen zu verbessern.

Double Deep Q-Netzwerk

DDQN

Ein Double Deep Q-Network (DDQN) ist ein fortschrittliches Reinforcement-Learning-Modell, das die Stabilität und Leistung bei Entscheidungsaufgaben verbessert.

Doppeltes Q-Learning

DQL

Double Q-Learning ist eine Verbesserung des Q-Learning, die die Überschätzungs-Bias bei der Schätzung der Wertfunktion reduziert.

DQN-Wiedergabepuffer

Replay-Puffer

Ein DQN-Wiedergabepuffer speichert Erfahrungen, um die Lernfähigkeit im Deep Reinforcement Learning zu verbessern.

Duelendes Q-Netzwerk

DQN

Duelende Q-Netzwerke verbessern das Verstärkungslernen durch parallele Schätzung der Aktionswerte.