Análisis de Conglomerados No Jerárquicos

El análisis de conglomerados, denominado cluster analisys en inglés, es una técnica Multivariante que permite agrupar los casos o variables de un archivo de datos en función del parecido osimilaridad existente entre ellos.

El análisis de conglomerado como técnica de agrupación de variables, es muy similar al análisis factorial, pero, en tanto que la factorización es poco flexible en algunos de sus supuestos (linealidad, normalidad, variables cuantitativas, etc.) y siempre se estima de la misma manera la matriz de distancias, la aglomeración es menos restrictiva en sus supuestos (no requiere linealidad, ni simetría, permite variables categóricas, etc.) y

admite varios métodos de estimación de la matriz de distancias.

Como una técnica de agrupación de casos, el análisis de conglomerados es similar al análisis discriminante. Sin embargo, mientras que el análisis discriminante efectúa la clasificación tomando como referencia un criterio o variable dependiente (los grupos de clasificación), el análisis de conglomerados permite detectar el número óptimo de grupos y su composición únicamente a partir de la similaridad existente entre los casos; además, el análisis de conglomerados no asume ninguna distribución específica para las variables. Por simplicidad, en este capítulo se comienza exponiendo la agrupación de casos.

El software SPSS dispone de dos tipos de análisis de conglomerados: el análisis de conglomerados jerárquico (que ya analizamos en el curso precedente) y el análisis de conglomerados de K medias. Este segundo método permite procesar un número ilimitado de casos, pero sólo permite utilizar un método de aglomeración y requiere que se proponga previamente el número de conglomerados que se desea obtener.

El análisis de conglomerados de K medias es un método de agrupación de casos que se basa en las distancias existentes entre ellos en un conjunto de variables (este método de aglomeración no permite agrupar variables).

El análisis de conglomerado de K medias es especialmente útil cuando se dispone de un gran número de casos. Existe la posibilidad de utilizar la técnica de manera exploratoria, clasificando los casos e iterando para encontrar la ubicación de los centroides, o sólo como técnica de clasificación, agrupando los casos a partir de centroides conocidos suministrados por el usuario. Cuando se utiliza como técnica exploratoria, es habitual que el usuario desconozca el número idóneo de conglomerados, por lo que es conveniente repetir el análisis con distinto número de conglomerados y comparar las soluciones obtenidas; en estos casos también puede utilizarse el método de análisis de conglomerados jerárquico con una submuestra de casos.

Para ejemplificar lo que anteriormente se ha dicho, procedemos ahora a realizar un ejercicio con el programa SPSS, versión 11.5 en español.

 

El análisis de conglomerados es un procedimiento estadístico de clasificación que pretende identificar grupos relativamente homogéneos de casos (o de variables) basándose en las características seleccionadas. Dentro del análisis de conglomerados están los procedimientos jerárquicos y los no jerárquicos. En esta práctica estudiaremos los procedimientos no jerárquicos, concretamente el método de las K-medias de MacQueen.

El análisis de conglomerados de las K-medias sólo clasificar a los casos de la matriz de datos, no a las variables.

César Pérez López dice que “el algoritmo de las K-medias, el más importante desde los puntos de vista conceptual y práctico, parte también de unas medias arbitrarias y, mediante pruebas sucesivas, contrasta el efecto que sobre la varianza residual tiene la asignación de cada uno de los casos a cada uno de los grupos. El valor mínimo de varianza determina una configuración de nuevos grupos con sus respectivas medias. Se asignan otra vez todos los casos a estos nuevos centroides en un proceso que se repite hasta que ninguna transferencia puede ya dismimuir la varianza residual; o se alcance otro criterio de parada: un número limitado de pasos de interacción o, simplemente, que la diferencia obtenida entre los centroides de dos pasos consecutivos sea menor que un valor prefijado. El procedimiento configura los grupos maximizando, a su vez, la distancia entre sus centros de gravedad. Como la varianza total es fija, minimizar la residual hace máxima la factorial o intergrupos. Y puesto que minimizar la varianza residual es equivalente a conseguir que sea mínima la suma distancias al cuadrado desde los casos a la media del cluster al que van a ser asignados, es esta distancia euclídeaal cuadrado la utilizada por el método. Como se comprueban los casos secuencialmente para ver su influencia individual, el cálculo puede verse afectado por el orden de los mismos en la tabla; pese a lo cual es el algoritmo que mejores resultados produce. Otras variantes propuestas a este método llevan a clasificaciones muy similares. Como cualquier otro método de clasificación no jerárquica, proporciona una solución final única para el número de clusters elegido, a la que se llegará con menor número de interacciones cuanto más cerca estén las ‘medias’ de arranque de las que van a ser finalmente obtenidas. Los programas automáticos seleccionan generalmente estos primeros valores, tantos como grupos se pretenda formar, entre los puntos más separados de la nube”.

¿Te gustó? Pues comparte ;-)
Este sitio usa cookies para personalizar el contenido y los anuncios, ofrecer funciones de redes sociales y analizar el tráfico. Ninguna cookie será instalada a menos que se desplace exprésamente más de 600px. Leer nuestra Política de Privacidad y Política de Cookies. Las acepto | No quiero aprender cursos gratis. Sácame