Explore 169 termos de IA em Avaliação de IA
A precisão de linha de base é a precisão mínima que um modelo deve alcançar para ser considerado eficaz.
A saturação de benchmarks refere-se ao ponto em que adicionar mais benchmarks não resulta em melhorias significativas na avaliação de desempenho.
BIG-Bench Lite é uma referência para avaliar grandes modelos de linguagem usando um conjunto diversificado de tarefas.
A Métrica de Pontuação Bleu avalia a qualidade do texto gerado por máquina em comparação com textos de referência.
Capability Evaluation assesses an AI system's performance and effectiveness in specific tasks or functions.
A pontuação CIDEr é uma métrica para avaliar modelos de legendas de imagens com base no consenso com legendas geradas por humanos.
Um ciclo de raciocínio circular ocorre quando uma conclusão é derivada de premissas que assumem que a conclusão é verdadeira.
A Avaliação Comparativa avalia o desempenho de sistemas de IA comparando-os entre si usando métricas definidas.
Métricas de Matriz de Confusão avaliam o desempenho de modelos de classificação usando indicadores-chave como acurácia, precisão, recall e pontuação F1.
Um grupo de controle é um grupo de referência usado em experimentos para comparação com o grupo de tratamento.
As Divisões de Validação Cruzada são subconjuntos de dados usados para validar modelos de aprendizado de máquina, aumentando sua confiabilidade e desempenho.
O desvio de dados ocorre quando as propriedades estatísticas dos dados mudam ao longo do tempo, afetando o desempenho do modelo.
Modo Degenerado refere-se a um estado em sistemas de IA onde o desempenho diminui ou não atende às expectativas.
Drift de Implantação refere-se à divergência dos modelos de IA de suas condições de treinamento após a implantação.
Um conjunto de desenvolvimento é um subconjunto de dados usado para ajustar finamente os modelos de IA durante o processo de treinamento.
A Taxa de Erro Igual (EER) é uma métrica usada para avaliar o desempenho de sistemas biométricos.
A análise de erros envolve examinar os erros cometidos por modelos de IA para melhorar seu desempenho e confiabilidade.
A Taxa de Erro mede a frequência de previsões incorretas feitas por um modelo de IA em relação ao total de previsões.
Avaliar IA envolve a análise de sistemas de IA para garantir eficácia, precisão e alinhamento com os objetivos pretendidos.
Evaluation gaming involves using game-based methods to assess AI systems' performance and behavior.
Medida-F é uma métrica usada para avaliar o desempenho de modelos de classificação, equilibrando precisão e recall.
Calibração de Factualidade garante que o conteúdo gerado por IA esteja alinhado com fatos do mundo real.
Um modo de falha é uma maneira específica pela qual um sistema ou componente pode falhar, afetando sua funcionalidade ou desempenho.
Um falso positivo em IA refere-se a um resultado incorreto onde um modelo identifica incorretamente um resultado positivo.
The False Positive Rate measures the proportion of incorrect positive predictions in a model's output.
Falsificabilidade refere-se à capacidade de uma teoria ser provada falsa por evidências.
A Lacuna de Fidelidade refere-se à diferença entre o desempenho esperado e o real em sistemas de IA.
Validação Cruzada em Fold é uma técnica para avaliar como os resultados de uma análise estatística se generalizarão para um conjunto de dados independente.