AI Glossary: What Is Multi-Query Attention (MQA)? Definition & Meaning

Attention Multi-Query

Multi-Query Attention (MQA) est une variante spécialisée de la mécanisme d'attention commonly used in intelligence artificielle, particularly in traitement du langage naturel and vision par ordinateur. The main purpose of MQA is to enhance efficiency when processing multiple queries simultaneously.

Dans les mécanismes d'attention traditionnels, chaque requête peut indépendamment prêter attention à un ensemble de clés et de valeurs, ce qui entraîne des coûts computationnels importants, surtout lorsqu'il s'agit de gérer un grand nombre de requêtes. L'attention multi-requête résout ce problème en permettant à plusieurs requêtes de partager le même ensemble de clés et de valeurs, réduisant ainsi la charge computationnelle globale.

La architecture of MQA involves several key components. First, it uses a single set of keys and values that are computed once and can be reused across different queries. This shared approach minimizes the redundancy that typically arises when each query computes its own keys and values. As a result, MQA can maintain high performance while operating more efficiently, making it particularly valuable in tasks that require processing large datasets or real-time applications.

Multi-Query Attention has been effectively applied in various state-of-the-art models, including those used for traduction automatique, image recognition, and other tasks that benefit from quick retrieval of information. By leveraging this mechanism, AI systems can deliver faster responses and manage resources more effectively, which is crucial in environments where speed and efficiency are paramount.