AI Glossary: What Is Minibatch K-Means (MBK-Means)? Definition & Meaning

K-means par mini-lots

Minibatch K-Moyennes is an algorithm used in unsupervised apprentissage automatique for clustering large datasets. It is a variant of the traditional K-Means algorithm that improves efficiency by processing smaller, random subsets of data called minibatches.

Dans le K-Means standard, l'algorithme parcourt l'ensemble dataset to update the cluster centroids, which can be time-consuming, especially for large datasets. Minibatch K-Means addresses this issue by randomly selecting a small batch of samples at each iteration. This reduces the computational load and makes it possible to work with larger datasets that may not fit into memory.

Les étapes principales de Minibatch K-Means sont similaires à celles du K-Means traditionnel :

Initialisation : Choisissez le nombre de clusters (K) et initialisez les centroïdes de cluster de manière aléatoire.
Sélection de Minibatch : Sélectionnez aléatoirement un petit sous-ensemble de points de données de l'ensemble.
Attribution : Assignez chaque point du minibatch au centroïde de cluster le plus proche.
Mise à jour : Mettez à jour les centroïdes en fonction des points assignés dans le minibatch.

Ce processus est répété pour plusieurs itérations jusqu'à ce que la convergence soit atteinte, c'est-à-dire que les centroïdes ne changent pas de manière significative entre les itérations. Le résultat est un ensemble de clusters qui peuvent regrouper efficacement des points de données similaires.

Minibatch K-Means is particularly useful in scenarios where speed and scalability are essential, such as traitement de données en temps réel and large-scale machine learning applications. It strikes a balance between accuracy and computational efficiency, making it a popular choice in the field of data science.