Explorer 1 terme d'IA dans Multi-Armed Bandit
Un bandit linéaire est un type de problème d'apprentissage par renforcement où les actions donnent des récompenses basées sur une relation linéaire avec les caractéristiques.