AI Glossary: Seguridad En IA Terms & Definitions

Colapso del agente

El Colapso de Agentes se refiere a una falla en sistemas de IA donde los agentes dejan de funcionar eficazmente, a menudo debido a problemas de alineación.

Riesgo de IA

El riesgo de IA se refiere a las posibles consecuencias negativas que surgen del desarrollo y despliegue de sistemas de inteligencia artificial.

Taxonomía de Alineación

DC

Un marco que categoriza los sistemas de IA en función de su alineación con los valores e intenciones humanas.

Anthropic

Anthropic se refiere a conceptos o principios relacionados con la existencia humana y las implicaciones para la seguridad y ética de la IA.

Corrigibilidad

Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.

Capacidad Peligrosa

DA

Capacidades de la IA que representan riesgos para la seguridad, la privacidad o los estándares éticos.

Conocimiento Oscuro

El Conocimiento Oscuro se refiere a las ideas y estrategias obtenidas del aprendizaje y ataques adversariales en sistemas de IA.

Alineación Engañosa

SEOFAI » Fuente de Categorías de Seguridad de IA

Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.

Modo de fallo

Un modo de fallo es una forma específica en la que un sistema o componente puede fallar, afectando su funcionalidad o rendimiento.

Falsa alarma

Una alarma falsa (false alarm) en IA se refiere a una situación en la que se activa una alarma sin que ocurra una amenaza o evento genuino.

Malgeneralización de objetivos

La mala generalización de objetivos ocurre cuando los sistemas de IA persiguen objetivos no deseados debido a interpretaciones erróneas de sus metas.

IA de alucinaciones

La IA de alucinaciones se refiere a casos en los que la IA genera información falsa o engañosa con confianza.

Cascada de alucinaciones

La cascada de alucinaciones se refiere a un efecto acumulativo en la IA donde las inexactitudes iniciales conducen a resultados erróneos adicionales.

Compensación entre utilidad y harmlessness

La compensación entre utilidad y peligrosidad es un equilibrio entre que AI brinde asistencia útil y los riesgos de causar daño.

Supervisión Humana

SEOFAI » Fuente de Categorías de Seguridad de IA

La Supervisión Humana se refiere a la participación de las personas en la supervisión y orientación de los sistemas de IA para garantizar decisiones éticas y precisas.

Alineación Interna

SEOFAI » Fuente de Categorías de Seguridad de IA

Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.

Explosión de la inteligencia

Una explosión de inteligencia se refiere a un aumento rápido en las capacidades de la inteligencia artificial, que a menudo conduce a la superinteligencia.

Prompts para desbloqueo

La Promoción Jailbreak se refiere a técnicas que manipulan el comportamiento de AI más allá de las salvaguardas previstas.

Optimización de Mesa

SEOFAI » Fuente de Categorías de Seguridad de IA

La optimización de mesa se refiere a sistemas de IA que optimizan su propio comportamiento u objetivos de maneras no previstas originalmente por sus creadores.

Alineación del modelo

La alineación del modelo asegura que los sistemas de IA operen de manera coherente con los valores e intenciones humanas.

Robustez del modelo

La robustez del modelo se refiere a la capacidad de un modelo de aprendizaje automático para mantener su rendimiento a pesar de cambios en los datos de entrada o en el entorno.

Seguridad del Modelo

La seguridad del modelo se refiere a garantizar la fiabilidad y seguridad de los modelos de IA durante su desarrollo y despliegue.

Open AI

Open AI es una organización de investigación en IA centrada en desarrollar inteligencia artificial segura y beneficiosa.

Muestra fuera de distribución

Una muestra fuera de distribución es un punto de datos que no se ajusta a la distribución de entrenamiento de un modelo.

Alineación Externa

SEOFAI » Fuente de Categorías de Seguridad de IA

Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.

Seguridad en IA

Colapso del agente

Riesgo de IA

Taxonomía de Alineación

Anthropic

Corrigibilidad

Capacidad Peligrosa

Conocimiento Oscuro

Alineación Engañosa

Modo de fallo

Falsa alarma

Malgeneralización de objetivos

IA de alucinaciones

Cascada de alucinaciones

Compensación entre utilidad y harmlessness

Supervisión Humana

Alineación Interna

Explosión de la inteligencia

Prompts para desbloqueo

Optimización de Mesa

Alineación del modelo

Robustez del modelo

Seguridad del Modelo

Open AI

Muestra fuera de distribución

Alineación Externa