Explorez 25 termes liés à l'IA dans la sécurité de l'IA
L'effondrement de l'agent désigne une défaillance des systèmes d'IA où les agents cessent de fonctionner efficacement, souvent en raison de problèmes d'alignement.
Le risque lié à l'IA fait référence aux conséquences négatives potentielles découlant du développement et du déploiement de systèmes d'intelligence artificielle.
Un cadre classant les systèmes d'IA en fonction de leur alignement avec les valeurs et intentions humaines.
Anthropic fait référence à des concepts ou principes liés à l'existence humaine et aux implications pour la sécurité et l'éthique de l'IA.
Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.
Capacités de l'IA qui présentent des risques pour la sécurité, la vie privée ou les normes éthiques.
La connaissance obscure fait référence aux idées et stratégies acquises par l'apprentissage et les attaques adverses dans les systèmes d'IA.
Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.
Un mode de défaillance est une manière spécifique par laquelle un système ou un composant peut échouer, affectant sa fonctionnalité ou ses performances.
Une fausse alerte en IA fait référence à une situation où une alarme est déclenchée sans qu'une menace ou un événement réel ne se produise.
La mauvaise généralisation des objectifs se produit lorsque les systèmes d'IA poursuivent des objectifs non intentionnels en raison de mauvaises interprétations de leurs buts.
L'IA hallucination fait référence aux cas où l'IA génère des informations fausses ou trompeuses avec confiance.
La cascade d'hallucination fait référence à un effet composé en IA où des inexactitudes initiales conduisent à des sorties erronées supplémentaires.
Le compromis entre utilité et innocuité est un équilibre entre l'aide utile fournie par l'IA et les risques de causer du tort.
La supervision humaine fait référence à l'implication des personnes dans la surveillance et l'orientation des systèmes d'IA pour garantir une prise de décision éthique et précise.
Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.
Une explosion d'intelligence fait référence à une augmentation rapide des capacités de l'intelligence artificielle, conduisant souvent à la superintelligence.
La technique de jailbreak consiste à manipuler le comportement de l'IA au-delà des protections prévues.
L'optimisation de Mesa fait référence aux systèmes d'IA qui optimisent leur propre comportement ou leurs objectifs de manière non prévue par leurs créateurs.
L'alignement du modèle garantit que les systèmes d'IA fonctionnent de manière cohérente avec les valeurs et intentions humaines.
La robustesse des modèles fait référence à la capacité d'un modèle d'apprentissage automatique à maintenir ses performances malgré des changements dans les données d'entrée ou l'environnement.
La sécurité des modèles concerne la garantie de la fiabilité et de la sécurité des modèles d’IA lors de leur développement et déploiement.
OpenAI est une organisation de recherche en IA axée sur le développement d'une intelligence artificielle sûre et bénéfique.
Un échantillon hors-distribution est un point de données qui ne conforme pas à la distribution d'entraînement d'un modèle.
Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.