En la práctica, dada una partición inicial en K clusters, la técnica se basa en el siguiente algoritmo iterativo: 1. Cálculo de las posiciones de los centroides x(k ) de los K clusters. 2. Para cada objeto, cálculo de su distancia a los K centroides , 2 i(k) e . 3. Reasignación de cada objeto al cluster cuyo centroide es el más próximo. Es un hecho destacable que la solución (partición) final depende de la configuración inicial de los clusters elegida, siendo posible la convergencia a un mínimo local de TESS. Una opción recomendable y que suele ofrecer buenos resultados es la de realizar un análisis cluster jerárquico y elegir como partición inicial la obtenida con un nivel de disimilaridad que aplicado al árbol ultramétrico conduzca al número de grupos deseado.
Pavitt 1995
La información provista por X
paneles de datos o clúster agrupado por el método de k-mean, tiene como objetivo dividir los puntos en K
grupos para minimizar la suma de cuadrados desde los puntos hasta el centro del clúster asignado. Como mínimo todos los centros del clúster están en la media de sus conjuntos de Voronoi (el conjunto de puntos de datos más cercano al centro del clúster).
El algoritmo de \cite{Hartigan_1979} es usado por default. En este sentido, algunos autores usan k-means para referirse a un algoritmo específico en lugar del método general: más comúnmente el algoritmo dado por, pero aveces es provisto por \cite{j1967}, pero tambien por \cite{Lloyd_1982} y \cite{Edwards_1965}. El algoritmo de Hartigan-Wong generalmente hace un mejor trabajo que los anteriores, pero probando varios experimentos aleatorios comienza (nstart
> 1) es comúnmente recomendado. En casos raros, cuando algunos de los puntos (filas de x
) son extremadamente cercanos, el algoritmo puede no converger en la etapa "Transferencia rápida", señalizando una advertencia (y devolviendo ifault = 4
). El ligero redondeo de los datos puede ser aconsejable en ese caso.