Explore 7 termos de IA em Benchmarking de IA
A saturação de benchmarks refere-se ao ponto em que adicionar mais benchmarks não resulta em melhorias significativas na avaliação de desempenho.
BIG-Bench é uma suíte de benchmarks projetada para avaliar o desempenho de grandes modelos de linguagem em diversas tarefas.
BigBench-Hard é uma referência desafiadora para avaliar modelos de IA em tarefas diversas de PLN e raciocínio complexo.
O conjunto de dados CIFAR-100 é uma coleção de 60.000 imagens coloridas de 32x32 em 100 classes para pesquisa em aprendizado de máquina.
A Distância de Fréchet Inception (FID) mede a qualidade das imagens geradas comparando sua distribuição com imagens reais.
HumanEval é uma referência para avaliar modelos de programação de IA usando tarefas de codificação.
A Pontuação Geral é uma métrica composta que reflete o desempenho de um modelo de IA em múltiplos critérios de avaliação.