AI Glossary: What Is CIDEr Score? Definition & Meaning

Das CIDEr (Consensus-based Bild Description Bewertung) Score ist eine Bewertungsmetrik specifically designed to assess the quality of image captions generated by maschinellem Lernen models, particularly in the context of Bildbeschriftung tasks. It was developed to address limitations of other metrics like BLEU and ROUGE, which do not effectively capture the quality of descriptions based on human consensus.

Der CIDEr-Score funktioniert, indem er eine generierte Beschriftung mit einer Reihe von Referenzbeschriftungen vergleicht, die von Menschen erstellt wurden. Er bewertet den Konsens von n-Grammen (kontinuierliche Sequenzen von n Elementen aus einem Textmuster) in den generierten und den Referenzbeschriftungen und legt dabei besonderen Wert auf Wörter, die häufig in menschlich annotierten Beschriftungen vorkommen. Das bedeutet, dass die Metrik nicht nur die Korrektheit der verwendeten Wörter berücksichtigt, sondern auch deren Relevanz und Angemessenheit nach menschlichem Urteil.

The CIDEr Score is calculated using a term frequency-inverse document frequency (TF-IDF) weighting scheme, which helps to ensure that the evaluation is sensitive to the uniqueness of the n-grams present in the reference captions. The resulting score ranges from 0 to 1, with higher scores indicating better alignment with human descriptions. This metric is particularly useful in tasks where the diversity and richness of language are important, such as in generating descriptive captions for images in multimedia applications.

Overall, the CIDEr Score serves as a valuable tool for researchers and developers in the field of der Verarbeitung natürlicher Sprache and computer vision, as it helps to quantify the performance of image captioning models in a way that reflects human-like understanding and expression.