Explore 4 termos de IA em Benchmarking
O Benchmark ARC é uma suíte para avaliar modelos de IA com base em suas habilidades de raciocínio e compreensão.
GLUE é uma referência para avaliar modelos de compreensão de linguagem natural em várias tarefas.
MMLU significa Massive Multitask Language Understanding, um benchmark para avaliar modelos de linguagem de IA.
TruthfulQA é uma referência para avaliar a veracidade das respostas geradas por IA.