AI Glossary: Segurança De IA Terms & Definitions

Colapso do Agente

Colapso de Agente refere-se a uma falha em sistemas de IA onde os agentes deixam de funcionar de forma eficaz, muitas vezes devido a problemas de alinhamento.

Risco de IA

Risco de IA refere-se às possíveis consequências negativas decorrentes do desenvolvimento e implantação de sistemas de inteligência artificial.

Taxonomia de Alinhamento

AT

Uma estrutura que categoriza sistemas de IA com base em seu alinhamento com valores e intenções humanas.

Antropica

Anthropic refere-se a conceitos ou princípios relacionados à existência humana e às implicações para a segurança e ética da IA.

Corrigibilidade

Corrigibility refers to an AI's ability to accept corrections and updates while remaining aligned with user intentions.

Capacidade Perigosa

DC

Capacidades da IA que representam riscos à segurança, privacidade ou padrões éticos.

Conhecimento Sombrio

Conhecimento Sombrio refere-se aos insights e estratégias obtidos a partir de aprendizado e ataques adversariais em sistemas de IA.

Alinhamento Enganoso

AD

Deceptive Alignment refers to a situation where an AI's goals appear aligned with human values but actually lead to unintended consequences.

Modo de Falha

Um modo de falha é uma maneira específica pela qual um sistema ou componente pode falhar, afetando sua funcionalidade ou desempenho.

Falsa Alerta

Uma falsa alarme em IA refere-se a uma situação onde um alarme é acionado sem uma ameaça ou evento real ocorrendo.

Generalização incorreta de metas

A generalização incorreta de metas ocorre quando sistemas de IA perseguem objetivos não intencionais devido a interpretações equivocadas de suas metas.

IA de Alucinação

IA de Alucinação refere-se a casos em que a IA gera informações falsas ou enganosas com confiança.

Cascata de Alucinações

Cascata de Alucinações refere-se a um efeito cumulativo em IA onde imprecisões iniciais levam a saídas incorretas adicionais.

Troca entre Utilidade e Inofensividade

O Compromisso entre Utilidade e Inofensividade é um equilíbrio entre a IA fornecer assistência útil e os riscos de causar dano.

Supervisão Humana

Olá

Supervisão Humana refere-se ao envolvimento de pessoas na monitorização e orientação de sistemas de IA para garantir decisões éticas e precisas.

Alinhamento Interno

AI

Inner Alignment refers to the alignment of an AI's goals with human intentions during its operation.

Explosão de Inteligência

Uma explosão de inteligência refere-se a um rápido aumento nas capacidades de inteligência artificial, muitas vezes levando à superinteligência.

Prompt de Jailbreak

Prompting de Jailbreak refere-se a técnicas que manipulam o comportamento da IA além das salvaguardas pretendidas.

Otimização de Mesa

MO

Otimização de mesa refere-se a sistemas de IA que otimizam seu próprio comportamento ou objetivos de maneiras não originalmente previstas por seus criadores.

Alinhamento de Modelo

Alinhamento de modelos garante que os sistemas de IA operem de maneiras consistentes com os valores e intenções humanas.

Robustez do Modelo

A robustez do modelo refere-se à capacidade de um modelo de aprendizado de máquina de manter seu desempenho apesar de mudanças nos dados de entrada ou no ambiente.

Segurança do Modelo

A Segurança de Modelo refere-se a garantir a confiabilidade e segurança dos modelos de IA durante o desenvolvimento e implantação.

Open AI

OpenAI é uma organização de pesquisa em IA focada no desenvolvimento de inteligência artificial segura e benéfica.

Amostra Fora da Distribuição

Uma amostra fora de distribuição é um ponto de dado que não se conforma com a distribuição de treinamento de um modelo.

Alinhamento Externo

OA

Outer Alignment refers to ensuring that an AI's goals align with human values and societal norms.

Segurança de IA