Avaliação comparativa

Explore 4 AI terms in Avaliação comparativa

Aleatório

Benchmark ARC

O Benchmark ARC é uma suíte para avaliar modelos de IA com base em suas habilidades de raciocínio e compreensão.

GLUE é uma referência para avaliar modelos de compreensão de linguagem natural em várias tarefas.

MMLU significa Massive Multitask Language Understanding, um benchmark para avaliar modelos de linguagem de IA.

TruthfulQA é uma referência para avaliar a veracidade das respostas geradas por IA.