O CIDEr (Consensus-based Imagem Description Avaliação) Score é uma métrica de avaliação specifically designed to assess the quality of image captions generated by aprendizado de máquina models, particularly in the context of legendagem de imagens tasks. It was developed to address limitations of other metrics like BLEU and ROUGE, which do not effectively capture the quality of descriptions based on human consensus.
A pontuação CIDEr funciona comparando uma legenda gerada com um conjunto de legendas de referência criadas por humanos. Ela avalia o consenso de n-gramas (sequências contíguas de n itens de uma amostra de texto) nas legendas geradas e nas legendas de referência, enfatizando a importância das palavras que aparecem com frequência nas legendas anotadas por humanos. Isso significa que a métrica não considera apenas a correção das palavras usadas, mas também sua relevância e adequação de acordo com o julgamento humano.
The CIDEr Score is calculated using a term frequency-inverse document frequency (TF-IDF) weighting scheme, which helps to ensure that the evaluation is sensitive to the uniqueness of the n-grams present in the reference captions. The resulting score ranges from 0 to 1, with higher scores indicating better alignment with human descriptions. This metric is particularly useful in tasks where the diversity and richness of language are important, such as in generating descriptive captions for images in multimedia applications.
Overall, the CIDEr Score serves as a valuable tool for researchers and developers in the field of processamento de linguagem natural and computer vision, as it helps to quantify the performance of image captioning models in a way that reflects human-like understanding and expression.