AI Glossary: Multimodal Learning Terms & Definitions

Audio-Visual Fusion

AVF

Audio-Visual Fusion combines audio and visual data to enhance understanding and experience in multimedia applications.

Cross-modal grounding links information across different sensory modalities, enhancing AI's understanding of context and meaning.

EF

Early Fusion is a technique in AI where multiple data modalities are combined at the initial stage of processing.

Modality refers to the different ways information can be represented or processed in AI, particularly in multimodal systems.

The modality gap refers to the differences in data representations across various modalities in AI systems.