AI Glossary: Alignement De L'IA Terms & Definitions

Effondrement de l'agent

L'effondrement de l'agent désigne une défaillance des systèmes d'IA où les agents cessent de fonctionner efficacement, souvent en raison de problèmes d'alignement.

IA alignée

L'IA alignée fait référence aux systèmes d'intelligence artificielle conçus pour s'aligner sur les valeurs et objectifs humains.

Taxe d'alignement

La taxe d'alignement fait référence aux coûts supplémentaires engagés pour garantir que les systèmes d'IA s'alignent avec les valeurs et l'éthique humaines.

Incertitude anthropique

L'incertitude anthropique désigne l'incertitude concernant les préférences et valeurs humaines dans la conception des systèmes d'IA.

Alignement délibératif

L'Alignement Délibératif garantit que les systèmes d'IA reflètent les valeurs humaines par des processus de prise de décision collaboratifs.

Mauvaise généralisation des objectifs

La mauvaise généralisation des objectifs se produit lorsque les systèmes d'IA poursuivent des objectifs non intentionnels en raison de mauvaises interprétations de leurs buts.

Échange entre utilité et innocuité

Le compromis entre utilité et innocuité est un équilibre entre l'aide utile fournie par l'IA et les risques de causer du tort.

Explosion de l'intelligence

Une explosion d'intelligence fait référence à une augmentation rapide des capacités de l'intelligence artificielle, conduisant souvent à la superintelligence.

Conception de récompense inverse

La conception de récompense inverse est une technique en apprentissage par renforcement visant à prévenir les comportements indésirables dans les systèmes d'IA.

Alignement du modèle

L'alignement du modèle garantit que les systèmes d'IA fonctionnent de manière cohérente avec les valeurs et intentions humaines.

Superalignement

SA

Le superalignement fait référence à des systèmes d'IA avancés qui sont parfaitement alignés avec les valeurs et les intentions humaines.

Alignement de l'IA