AI Glossary: What Is Minibatch K-Means (MBK-Means)? Definition & Meaning

Mini-lote K-Means

Minibatch K-Medias is an algorithm used in unsupervised aprendizaje automático for clustering large datasets. It is a variant of the traditional K-Means algorithm that improves efficiency by processing smaller, random subsets of data called minibatches.

En K-Means estándar, el algoritmo itera sobre todo el dataset to update the cluster centroids, which can be time-consuming, especially for large datasets. Minibatch K-Means addresses this issue by randomly selecting a small batch of samples at each iteration. This reduces the computational load and makes it possible to work with larger datasets that may not fit into memory.

Los pasos principales de Minibatch K-Means son similares a los del K-Means tradicional:

Inicialización: Elegir el número de clusters (K) e inicializar los centroides de los clusters de forma aleatoria.
Selección de Minibatch: Seleccionar aleatoriamente un pequeño subconjunto de puntos de datos del conjunto de datos.
Asignación: Asignar cada punto en el minibatch al centroide de cluster más cercano.
Actualización: Actualizar los centroides en función de los puntos asignados en el minibatch.

Este proceso se repite durante varias iteraciones hasta que se alcanza la convergencia, lo que significa que los centroides no cambian significativamente entre iteraciones. El resultado es un conjunto de clusters que pueden agrupar eficazmente puntos de datos similares.

Minibatch K-Means is particularly useful in scenarios where speed and scalability are essential, such as procesamiento de datos en tiempo real and large-scale machine learning applications. It strikes a balance between accuracy and computational efficiency, making it a popular choice in the field of data science.