AI Glossary: Avaliação De IA Terms & Definitions

Precisão de Linha de Base

A precisão de linha de base é a precisão mínima que um modelo deve alcançar para ser considerado eficaz.

Saturação de Benchmark

A saturação de benchmarks refere-se ao ponto em que adicionar mais benchmarks não resulta em melhorias significativas na avaliação de desempenho.

BIG-Bench Lite

BBL

BIG-Bench Lite é uma referência para avaliar grandes modelos de linguagem usando um conjunto diversificado de tarefas.

Métrica de Pontuação Bleu

BLEU

A Métrica de Pontuação Bleu avalia a qualidade do texto gerado por máquina em comparação com textos de referência.

Avaliação de Capacidades

CE

Capability Evaluation assesses an AI system's performance and effectiveness in specific tasks or functions.

Pontuação CIDEr

CIDEr

A pontuação CIDEr é uma métrica para avaliar modelos de legendas de imagens com base no consenso com legendas geradas por humanos.

Loop de Raciocínio Circular

Um ciclo de raciocínio circular ocorre quando uma conclusão é derivada de premissas que assumem que a conclusão é verdadeira.

Avaliação Comparativa

A Avaliação Comparativa avalia o desempenho de sistemas de IA comparando-os entre si usando métricas definidas.

Métricas de Matriz de Confusão

Métricas de Matriz de Confusão avaliam o desempenho de modelos de classificação usando indicadores-chave como acurácia, precisão, recall e pontuação F1.

Grupo de Controle

Um grupo de controle é um grupo de referência usado em experimentos para comparação com o grupo de tratamento.

Conjuntos de Validação Cruzada

Dobras de CV

As Divisões de Validação Cruzada são subconjuntos de dados usados para validar modelos de aprendizado de máquina, aumentando sua confiabilidade e desempenho.

Desvio de Dados

O desvio de dados ocorre quando as propriedades estatísticas dos dados mudam ao longo do tempo, afetando o desempenho do modelo.

Modo Degenerado

Modo Degenerado refere-se a um estado em sistemas de IA onde o desempenho diminui ou não atende às expectativas.

Desvio de Implantação

Drift de Implantação refere-se à divergência dos modelos de IA de suas condições de treinamento após a implantação.

Conjunto de Desenvolvimento

Um conjunto de desenvolvimento é um subconjunto de dados usado para ajustar finamente os modelos de IA durante o processo de treinamento.

Taxa de Erro Equivalente

EER

A Taxa de Erro Igual (EER) é uma métrica usada para avaliar o desempenho de sistemas biométricos.

Análise de Erros

A análise de erros envolve examinar os erros cometidos por modelos de IA para melhorar seu desempenho e confiabilidade.

Taxa de Erro

A Taxa de Erro mede a frequência de previsões incorretas feitas por um modelo de IA em relação ao total de previsões.

Avaliação de IA

Avaliar IA envolve a análise de sistemas de IA para garantir eficácia, precisão e alinhamento com os objetivos pretendidos.

Avaliação em Jogos

Evaluation gaming involves using game-based methods to assess AI systems' performance and behavior.

Medida F

F1

Medida-F é uma métrica usada para avaliar o desempenho de modelos de classificação, equilibrando precisão e recall.

Calibração de Factualidade

Calibração de Factualidade garante que o conteúdo gerado por IA esteja alinhado com fatos do mundo real.

Modo de Falha

Um modo de falha é uma maneira específica pela qual um sistema ou componente pode falhar, afetando sua funcionalidade ou desempenho.

Falso Positivo

FP

Um falso positivo em IA refere-se a um resultado incorreto onde um modelo identifica incorretamente um resultado positivo.

Taxa de Positivos Falsos

FPR

The False Positive Rate measures the proportion of incorrect positive predictions in a model's output.

Falsificabilidade

Falsificabilidade refere-se à capacidade de uma teoria ser provada falsa por evidências.

Lacuna de Fidelidade

A Lacuna de Fidelidade refere-se à diferença entre o desempenho esperado e o real em sistemas de IA.

Validação Cruzada em Fold

Validação Cruzada em Fold é uma técnica para avaliar como os resultados de uma análise estatística se generalizarão para um conjunto de dados independente.