1692063336.cluster 2013.pdf

Análisis de Cluster. • Se puede organizar 6 entidades de muestreo en clases discretas, tal que la similitud dentro del grupo sea maximizada y la similitud entre ...
1MB Größe 14 Downloads 70 vistas
Análisis de Cluster

1

2 3

• Se puede organizar 6

entidades de muestreo en clases discretas, tal que la similitud dentro del grupo sea maximizada y la similitud entre grupos sea minimizada (maximizar la disimilitud) de acuerdo algún criterio.

4 5 6

Un gradiente y una especie

Un gradiente y varias especies

¿Se diferencian las comunidades?

1. “Escuela organísmica" (Clements, 1916 y Tansley) superorganismo", “cuasiorganismo” con límites discretos organización cerrada.

¿Se diferencian las comunidades?

2. “Concepto individualista (Gleason & Whittaker) organización abierta.

Características resaltantes de las técnicas de análisis de cluster • La redundancia de los datos se resume al reducir la información

sobre el cjto total de las N entidades a la información sobre g grupos de entidades cercanamente similares (donde se espera que g sea mucho más pequeña que N).

• Identificar los outliers para dejarlos solos o en grupos “clusters”

pequeños, los cuales podrían luego ser omitidos.

• Eliminar ruidos del cjto de datos multivariados agrupando las

entidades más cercanas sin requerir exacta similitud.

• Evaluar las relaciones dentro de un cjto simple de variables sin intentar hacer definiciones de las relaciones entre un cjto de variables independientes con una o más variables dependientes.

Análisis de cluster: el conjunto de datos Cjto único de variables sin distinción entre variables independientes y dependientes. Variables contínuas, categóricas o de conteos usualmente en la misma escala.

Cada entidad de muestra debe ser medida sobre el mismo cjto de variables.

Puede haber menos muestras (filas) que la cantidad de variables (columnas) (matriz no tiene rango total).

Análisis de cluster: el conjunto de datos

Datos ecológicos en dos vías: ¾ parámetros ambientales por sitios ¾ parámetros de nichos por especie ¾ características ambientales por especie ¾ características por especímenes por muestras de especies.

Agrupamientos jerarquizados (AJ) • AJ combina entidades similares en clases o grupos y arregla a los grupos jerárquicamente. • AJ revela relaciones expresadas entre las entidades clasificadas

• Limitaciones:

¾ Para cjtos de datos grandes las jerarquías son problemáticas porque una jerarquía con más de 50 entidades es difícil graficar o interpretar. ¾ Las técnicas AJ tienen una desventaja ya que no proveen relocalización de entidades que pueden haber sido pobremente clasificadas en un estado temprano de análisis.

Agrupamiento jerárquico aglomerativo politético (AJAP)

• Las técnicas AJAP usan la información sobre

todas las variables (por ej., politéticas).

• Cada entidad es inicialmente asignada

como un cluster individual. AJAP aglomera aquellos en un jerarquía de mayores a mayores clusters hasta finalmente un cluster simple que contiene todas las entidades. • Hay diferentes medidas de ensamblaje y

algoritmos de fusión; consecuentemente, existe una profusión de técnicas AJAP.

Agrupamiento jerárquico aglomerativo politético (AJAP) Supuestos: • Básicamente ninguno, aquí, la propuesta de AJAP es descriptiva. •Ciertas medidas de ensamblaje (por ej, distancia euclidiana) asumen que las variables están no correlacionadas dentro de los grupos. • Requerimientos de tamaño de muestra. Básicamente ninguno.

Agrupamiento jerárquico aglomerativo politético (AJAP)

Procesos en dos estados 1- Matriz de ensamblaje • Primer paso es calcular una matriz de distancia de disimilitud de la matriz de datos originales. 2- Estrategia de fusión • El segundo paso es agrupar las entidades sucesivamente para construir clusters cada vez más grandes en jerarquía. • La elección de una estrategia de fusión particular depende principalmente de los objetivos del investigador. • Todas las estrategias de fusión son similares en cuanto a elegir las dos primeras entidades más similares (menos disimiles). Luego las estrategias difieren con respecto a fusionar las siguientes entidades en clusters.

Matriz de ensamblaje: matriz de distancia de disimilitud de la matriz de datos originales. • La selección de una medida de distancia depende de la naturaleza de las variables (cualitativa, cuantitativa), de la escala de medición (nominal, ordinal, intervalo, cociente) y del conocimiento del objeto de estudio. ¾ Datos métricos (continuos, escala por intervalos y/o cocientes)

pueden usarse medidas de distancia como la de Manhattan o la Euclídea.

¾ Datos cualitativos o atributos discretos son más apropiadas las distancias basadas en medidas de similitud o asociación. ¾ Para el agrupamiento de variables cuantitativas son recomendadas

medidas de distancia basadas en coeficientes de correlación.

Agrupamiento jerárquico aglomerativo politético (AJAP)

El proceso de Fusión (vecino más cercano- distancia euclidiana)

Combina sitios 1 y 2

Combina sitios 4 y 5

Agrupamiento jerárquico aglomerativo politético (AJAP)

El proceso de Fusión (vecino más cercano- distancia euclidiana)

Combina sitio 6 y cluster 4-5.

Combina sitios 3 y cluster 1-2

Combina cluster 1-2-3 con cluster 4-5-6

Agrupamiento jerárquico aglomerativo politético (AJAP)

Tabla aglomerativa • Muestra la secuencia de aglomeración y los valores de

disimilitud correspondientes a las cuales las entidades y clusters se combinan para formar nuevos clusters. • Note que los valores de disimilitud variarán dependiendo

sobre la estrategia de fusión y medida de ensamblaje usada.

Agrupamiento jerárquico aglomerativo politético (AJAP)

Dendrograma • El gráfico similar a un árbol donde

está la secuencia de aglomeración en la cual las entidades están enumeradas (identificadas) a lo largo de un eje y el nivel de disimilitud a la cual cada fusión de clusters ocurren sobre el otro eje.

Agrupamiento jerárquico aglomerativo politético (AJAP)

Tabla miembro cluster y gráfico • La tabla miembro cluster

identifica en cual cluster cada entidad pertenece a cualquier cantidad especificada de clusters.

• Gráfico Icicle es similar a un

histograma se coloca el miembro del cluster en relación a la cantidad de clusters, en las cuales las entidades son enumeradas (identificadas) entre un eje y la cantidad de clusters (nivel) a lo largo del otro eje.

Agrupamiento jerárquico aglomerativo politético (AJAP) Propiedades de fusión • Conservación del espacio:

el proceso de fusión preserva las propiedades del espacio original de ensamblaje interentidades (A). • Distorsión del espacio:

el proceso de fusión distorsiona las propiedades del espacio de ensamblaje original inter-entidades. •B) efecto “cadena” •C) Entidades individuales forman grupos.

Agrupamiento jerárquico aglomerativo politético (AJAP) Propiedades de fusión • Espacio-Contracción- los grupos aparecen

en formación, para moverse más cerca de las entidades remanentes, la elección que una entidad individual se agregará a un cluster preexistente es tal que actúa como q un núcleo de un nuevo grupo se incrementa (“cadena”). • Espacio- Dilatación: los grupos

aparecen resistir sobre formación y crecimiento, las entidades individuales no se unen a grupos sino más bien a formar núcleos de nuevos grupo.

Agrupamiento jerárquico aglomerativo politético (AJAP)

Estrategias de fusión Cadena Simple (Vecino más cercano, nearest neighbor): • La disimilitud de las entidades al

cluster es definida igual a su disimilitud a la entidad más cercana a ese cluster, cuando dos clusters aglomeran, su disimilitud es igual a al de la dismilitud más pequeña para cualquier par de entidades con una en cada cluster.

Estrategia espacio contraido: tiende a

producir clusters dispersos, los cuales aglomeran rápidamente entidades muy disimiles. Separación de cluster difícil

Más usado en taxonomía numérica. Detecta estructuras agrupadas irregular y enlongadas (cadenas).

Agrupamiento jerárquico aglomerativo politético (AJAP)

Estrategias de fusión Cadena completa (vecino más lejano, fuerthest neighbor): •La disimilitud de las entidades a un cluster es igual a su disimilitud a la entidad más lejana en ese cluster. Cuando dos clusters aglomeran, sus disimilitudes será igual a la disimilitud mayor para cualquier par de entidades con uno en cada cluster. Minimiza las disimilitudes entre vecinos.

Estrategia espacio dilantante. Produce clusters de entidades muy similares con aglomeración suave. Los grupos son movidos lejos del otro.

Sirve para identificar clusters distintivos pero no para revelar su estructura subyacente. Sensible a valores extremos.

Agrupamiento jerárquico aglomerativo politético (AJAP)

Estrategias de fusión Cadena centroide (centroide no agrupado, pares no pesados, UPGC): • Válido sólo con datos métricos. La

disimilitud de la entidad al cluster es igual a su disimilitud al centroide cluster; cuando 2 clusters fusionan, sus disimilitudes es igual a la disimilitud entre centroides clusters. • Estrategia conservación de espacio, pero la fusión puede tomar lugar a disimilitud más baja que una fusión a priori; las distorsiones de tamaño de grupo ocurren porque el centroide de dos clusters fusionados es pesado hacia el grupo mayor.

Datos métricos. Resiste datos extremos. AL depender de tamaño de grupo no es muy útil.

Agrupamiento jerárquico aglomerativo politético (AJAP)

Estrategias de fusión Cadena mediana (centroide agrupado por pares pesados, WPGC): • Similar a la cadena de centroide

excepto que los “centroides” de grupos nuevamente fusionados son posicionados a la mediana entre grupos viejos de centroides.

Estrategia de conservar el espacio: pero “inversiones” pueden ocurrir, aunque no hay dependencia del tamaño de grupo.

Presupone una matriz con dist. Euclidea. No hay dependencia de tamaño grupal.

Agrupamiento jerárquico aglomerativo politético (AJAP)

Estrategias de fusión Cadena promedio (promedio grupal de pares no pesados, UPGA): • La disimilitud de entidad a un cluster es

igual al promedio de las distancias entre la entidad y cada pto en el cluster, cuando se fusionan 2 clusters, su disimilitud es igual al promedio de las distancias entre cada entidad en un cluster con cada entidad en otro cluster.

Estrategia de conservación de espacio: maximiza la correlación cofenética, no invierte y elimina la dependencia de tamaño grupal.

Muy usado. Tiende a producir grupos de igual varianza. No depende tamaño grupal

Estrategias de fusión

Estrategias de fusión

Estrategias de fusión

Considerar examinar cambios grandes entre fusiones en el dendrograma y evaluar cambios en su interpretación.

Agrupamiento jerárquico aglomerativo politético (AJAP) Correlación cofenética • Correlación múltiple entre disimilitudes de entrada (en la matriz de

disimilitud) y las disimilitudes salidas implicadas por el dendrograma resultante (utilizando el nivel más bajo requerido) para unir cualquier para entidad dada en el dendrograma. • Mide cuan bueno es la cantidad final de clusters (dados en el

dendrograma) con respecto a la estructura original de los datos observados. • Valores >0.75 son considerados buenos.

Agrupamiento jerárquico aglomerativo politético (AJAP)

Evaluando la solución cluster Correlación cofenética rc = 0.89 (basado sobre distancia euclidea y ligadura de vecino más cercano)