Bandit contextuel
Un bandit contextuel est un type de machine algorithme d'apprentissage that addresses decision-making problems where an agent must choose from a set of actions based on the context it observes. The key feature of contextual bandits is that they incorporate additional information (context) about the environment ou situation dans leur processus de prise de décision.
Dans un problème de bandit typique, l'agent est confronté à un dilemme : il peut explorer de nouvelles actions pour découvrir leurs récompenses potentielles ou exploiter des actions connues qui ont déjà donné de bons résultats. Les bandits contextuels étendent ce cadre en tenant compte d'informations contextuelles, telles que les caractéristiques des utilisateurs, les variables environnementales ou les interactions précédentes, pour prendre des décisions plus éclairées.
Par exemple, dans un en ligne système de recommandation, a contextual bandit might recommend different products to users based on their browsing history, demographics, or preferences. The algorithm learns which recommendations yield the highest engagement or sales, adapting its strategy over time to maximize overall rewards.
The learning process in contextual bandits often involves balancing exploration (trying new actions) and exploitation (using the best-known actions). Techniques like epsilon-greedy, UCB (Bornes de confiance supérieures), et l'Échantillonnage de Thompson sont couramment utilisés pour gérer ce compromis.
Contextual bandits are widely applied in various fields, including online advertising, personalized content delivery, Tests A/B, and healthcare, where the goal is to optimize decisions based on real-time data and feedback.