Explora 25 términos de IA en Seguridad de IA
El Colapso de Agentes se refiere a una falla en sistemas de IA donde los agentes dejan de funcionar eficazmente, a menudo debido a problemas de alineación.
El riesgo de IA se refiere a las posibles consecuencias negativas que surgen del desarrollo y despliegue de sistemas de inteligencia artificial.
Un marco que categoriza los sistemas de IA en función de su alineación con los valores e intenciones humanas.
Anthropic se refiere a conceptos o principios relacionados con la existencia humana y las implicaciones para la seguridad y ética de la IA.
Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.
Capacidades de la IA que representan riesgos para la seguridad, la privacidad o los estándares éticos.
El Conocimiento Oscuro se refiere a las ideas y estrategias obtenidas del aprendizaje y ataques adversariales en sistemas de IA.
Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.
Un modo de fallo es una forma específica en la que un sistema o componente puede fallar, afectando su funcionalidad o rendimiento.
Una alarma falsa (false alarm) en IA se refiere a una situación en la que se activa una alarma sin que ocurra una amenaza o evento genuino.
La mala generalización de objetivos ocurre cuando los sistemas de IA persiguen objetivos no deseados debido a interpretaciones erróneas de sus metas.
La IA de alucinaciones se refiere a casos en los que la IA genera información falsa o engañosa con confianza.
La cascada de alucinaciones se refiere a un efecto acumulativo en la IA donde las inexactitudes iniciales conducen a resultados erróneos adicionales.
La compensación entre utilidad y peligrosidad es un equilibrio entre que AI brinde asistencia útil y los riesgos de causar daño.
La Supervisión Humana se refiere a la participación de las personas en la supervisión y orientación de los sistemas de IA para garantizar decisiones éticas y precisas.
Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.
Una explosión de inteligencia se refiere a un aumento rápido en las capacidades de la inteligencia artificial, que a menudo conduce a la superinteligencia.
La Promoción Jailbreak se refiere a técnicas que manipulan el comportamiento de AI más allá de las salvaguardas previstas.
La optimización de mesa se refiere a sistemas de IA que optimizan su propio comportamiento u objetivos de maneras no previstas originalmente por sus creadores.
La alineación del modelo asegura que los sistemas de IA operen de manera coherente con los valores e intenciones humanas.
La robustez del modelo se refiere a la capacidad de un modelo de aprendizaje automático para mantener su rendimiento a pesar de cambios en los datos de entrada o en el entorno.
La seguridad del modelo se refiere a garantizar la fiabilidad y seguridad de los modelos de IA durante su desarrollo y despliegue.
Open AI es una organización de investigación en IA centrada en desarrollar inteligencia artificial segura y beneficiosa.
Una muestra fuera de distribución es un punto de datos que no se ajusta a la distribución de entrenamiento de un modelo.
Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.