AI Glossary: Avaliação De IA Terms & Definitions

Saturação de Benchmark

A saturação de benchmarks refere-se ao ponto em que adicionar mais benchmarks não resulta em melhorias significativas na avaliação de desempenho.

BB

BIG-Bench é uma suíte de benchmarks projetada para avaliar o desempenho de grandes modelos de linguagem em diversas tarefas.

BB-Hard

BigBench-Hard é uma referência desafiadora para avaliar modelos de IA em tarefas diversas de PLN e raciocínio complexo.

O conjunto de dados CIFAR-100 é uma coleção de 60.000 imagens coloridas de 32x32 em 100 classes para pesquisa em aprendizado de máquina.

FID

A Distância de Fréchet Inception (FID) mede a qualidade das imagens geradas comparando sua distribuição com imagens reais.

ELE

HumanEval é uma referência para avaliar modelos de programação de IA usando tarefas de codificação.

A Pontuação Geral é uma métrica composta que reflete o desempenho de um modelo de IA em múltiplos critérios de avaliação.