CIDEr (Avaliação de Descrição de Imagens baseada em Consenso)
CIDEr stands for Consensus-based Imagem Description Avaliação. It is a metric specifically designed to assess the quality of captions generated by visão computacional models for images. Unlike traditional metrics that may focus solely on exact word matches, CIDEr evaluates how well the generated captions align with human-written reference captions in terms of semantic content.
A métrica CIDEr funciona medindo o consenso entre as legendas geradas e um conjunto de legendas de referência. Ela faz isso calculando a similaridade de n-gramas (sequências contíguas de n itens de uma amostra de texto) entre a legenda gerada e as legendas de referência. Os n-gramas são ponderados com base na sua frequência no conjunto de legendas de referência, o que significa que frases mais comuns contribuem mais para a pontuação.
CIDEr é particularmente útil em tarefas como legendagem de imagens because it accounts for variations in phrasing and expresses the degree to which the generated captions convey similar information to what human annotators would provide. A higher CIDEr score indicates a better alignment with human judgment, making it a popular choice for evaluating machine-generated text in visual tasks.
No geral, CIDEr é uma ferramenta fundamental no campo de processamento de linguagem natural and computer vision, helping researchers and developers improve their models by providing a more nuanced understanding of caption quality.