AI Glossary: Sécurité De L'IA Terms & Definitions

Effondrement de l'agent

L'effondrement de l'agent désigne une défaillance des systèmes d'IA où les agents cessent de fonctionner efficacement, souvent en raison de problèmes d'alignement.

Risque lié à l'IA

Le risque lié à l'IA fait référence aux conséquences négatives potentielles découlant du développement et du déploiement de systèmes d'intelligence artificielle.

Taxonomie d'alignement

À

Un cadre classant les systèmes d'IA en fonction de leur alignement avec les valeurs et intentions humaines.

Anthropique

Anthropic fait référence à des concepts ou principes liés à l'existence humaine et aux implications pour la sécurité et l'éthique de l'IA.

Corrigibilité

Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.

Capacité Dangereuse

DC

Capacités de l'IA qui présentent des risques pour la sécurité, la vie privée ou les normes éthiques.

Connaissance obscure

La connaissance obscure fait référence aux idées et stratégies acquises par l'apprentissage et les attaques adverses dans les systèmes d'IA.

Alignement Trompeur

AD

Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.

Mode de défaillance

Un mode de défaillance est une manière spécifique par laquelle un système ou un composant peut échouer, affectant sa fonctionnalité ou ses performances.

Alarme false

Une fausse alerte en IA fait référence à une situation où une alarme est déclenchée sans qu'une menace ou un événement réel ne se produise.

Mauvaise généralisation des objectifs

La mauvaise généralisation des objectifs se produit lorsque les systèmes d'IA poursuivent des objectifs non intentionnels en raison de mauvaises interprétations de leurs buts.

IA hallucination

L'IA hallucination fait référence aux cas où l'IA génère des informations fausses ou trompeuses avec confiance.

Cascade d'hallucination

La cascade d'hallucination fait référence à un effet composé en IA où des inexactitudes initiales conduisent à des sorties erronées supplémentaires.

Échange entre utilité et innocuité

Le compromis entre utilité et innocuité est un équilibre entre l'aide utile fournie par l'IA et les risques de causer du tort.

Supervision humaine

HO

La supervision humaine fait référence à l'implication des personnes dans la surveillance et l'orientation des systèmes d'IA pour garantir une prise de décision éthique et précise.

Alignement interne

IA

Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.

Explosion de l'intelligence

Une explosion d'intelligence fait référence à une augmentation rapide des capacités de l'intelligence artificielle, conduisant souvent à la superintelligence.

Incitation au jailbreak

La technique de jailbreak consiste à manipuler le comportement de l'IA au-delà des protections prévues.

Optimisation de Mesa

MO

L'optimisation de Mesa fait référence aux systèmes d'IA qui optimisent leur propre comportement ou leurs objectifs de manière non prévue par leurs créateurs.

Alignement du modèle

L'alignement du modèle garantit que les systèmes d'IA fonctionnent de manière cohérente avec les valeurs et intentions humaines.

Robustesse du Modèle

La robustesse des modèles fait référence à la capacité d'un modèle d'apprentissage automatique à maintenir ses performances malgré des changements dans les données d'entrée ou l'environnement.

Sécurité du modèle

La sécurité des modèles concerne la garantie de la fiabilité et de la sécurité des modèles d’IA lors de leur développement et déploiement.

Open AI

OpenAI est une organisation de recherche en IA axée sur le développement d'une intelligence artificielle sûre et bénéfique.

Échantillon hors distribution

Un échantillon hors-distribution est un point de données qui ne conforme pas à la distribution d'entraînement d'un modèle.

Alignement externe

OA

Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.

Sécurité de l'IA