Conjunto de datos multivariados Matriz de datos de doble entrada
Fuentes - Applied Multivariate Statistics for Ecology and Conservation Course website: http://www.umass.edu/landeco/teaching/multivariate/multivariate.html Dr. Hui-Yu Wang and Brad Timm - MacGarical et al., 2000. Multivariate Statistic for wildlife and Ecology research
Matriz de datos de doble entrada
1 2 3 4 5
Matriz datos doble entrada Sitios X especie
6
Representación geométrica • Cada sitio puede ser representado por un
punto en un espacio p dimensional basado sobre sus valores medidos a lo largo de sus ejes p especies.
• La colección de puntos forma un
“nube de datos” en este espacio p dimensional
• La forma y dispersión de esta nube de datos contiene información ecológica
Ensamblaje ecológico
1 2 3 4 5 6
¿Cuán similar (o disimilar) es cada sitio entre sí?
Ensamblaje ecológico Disimilitud
Similitud Es la caracterización del cociente de la cantidad de atributos que dos objetos comparten comparadas con la lista total de atributos entre ellos. P objetos que son idénticos tienen similitud 1 y los que no tienen nada en común , similitud 0.
La disimilitud es el complemento de la similitud, y es la caracterización de la cantidad de atributos que dos objetos no comparten comparados a la lista total de atributos entre ellos. La disimilitud puede ser calculada como 1 – similitud.
Ambos con rango 0 - 1
Distancia ecológica
• Distancia es una concepción geométrica de la distancia entre objetos en un espacio dimensional definido por las mediciones sobre los atributos.
• La medición de proximidad varía
entre medidas de distancia
Distancia ecológica versus disimilitud • Aunque en la práctica distancia y disimilitud son indistintas,
presentan diferentes propiedades.
• Disimilitudes contienen los extremos [0, 1]. Por ej., unas parcelas
no tienen especies en común, entonces no son más disímiles.
• Las distancias no contienen a los bordes superiores. Por ej., las
parcelas que no tienen especies en común tienen distancias que dependen del número y abundancia de especies en las parcelas, por eso es una variable.
La transformación del ensamblaje Matriz original de datos
6x4
Matriz de disimilitud
Espacio disimilitud
6x6
• La matriz de ensamblaje
contiene un coeficiente de ensamblaje para cada par de entidades. Resultado es una matriz de ensamblaje de entidad por entidad
Matriz original de datos
Matriz de disimilitud
• Hay una gran cantidad
de medidas de ensamblaje para elegir
• La elección de un coeficiente depende del tipo de datos, la cuestión
ecológica o el tipo de análisis.
• Cuando la escala de medición es tal que podrían usarse diversos
coeficientes, la elección es una preferencia personal.
• Es una ventaja tratar diferentes medidas y ver los resultados
desde un criterio ecológico.
Pla, Casanoves, Di Rienzo, Trelew, 2009
Distancia euclidiana
• Primero, los datos se estandarizan
para remover diferencias debido a la unidad y escala de medición. • Pueden ser aplicados a datos de
cualquier escala.
• Tiene verdaderas propiedades
métricas y es usado en ordenación de autovector (eigenvector) .
• A menudo, tiene pobre performance
en aplicaciones ecológicas debido a varios problemas:
¾ Se asume que las variables están
no correlacionadas (no siempre es así). ¾ Enfatiza los outliers o
valores extremos.
¾ Pierde sensibilidad más
rápidamente que otras medidas de dist. Cuando la heterogeneidad aumenta. ¾ Medida de distancia no proporcional.
Distancia Manhattan o City - block
• Las mayores medidas de disimilitud
ecológicas son del tipo Manhattan. • Comparadas a la DE, le dan
menos peso a los outliers (no están diferencias al cuadrado). • Comparada a DE, retienen la
sensibilidad al incrementar la heterogeneidad en el cjto de datos. • No es para distancias no
proporcionales.
Coeficientes de distancias proporcionales • Por ej porcentaje de disimilitud
(distancia de Sorensen o dist. De Bray Curtis).
• Distancia City- Block se mide
expresada como proporciones de la máxima distancia posible. • Sin embargo, si dos comunidades no comparten especies en común, tienen la máxima disimilitud de uno.
Coeficientes de distancia proporcionales
Variaciones en porcentaje de disimilitud
Distancia Sorensen a Bray- Curtis
Distancia Jaccard
Distancia Kulczynski
Coeficientes de distancia proporcionales (DP) • DP es comúnmente usado con datos de
abundancia de especies, pero pueden ser aplicados a datos de cualquier escala (por ej, datos presencia/ ausencia) • Comparado con DE, DP da menos
peso a los outliers.
• Comparado con DE, DP retiene
sensibilidad al incrementar la heterogeneidad en los datos.
• A diferencia de DE y CB, DP es máximo cuando no hay especies compartidas. • Pero DP no es “métrico” por eso no
es compatible en muchos análisis (AD, ACC).
Distancia de correlación
• Uso limitado para datos de comunidad,
pero ideal en datos multivariados y relaciones lineales. • Se relaciona con coeficientes de
correlación.
Distancia de correlación
• Gral/ sólo útiles cuando la similitud
en “forma de perfiles” en promedio es más importante que el promedio en “niveles de perfiles”, porque la distancia de correlación es cero cuando 2 perfiles están paralelos, no importa de cuan lejos están unos de otros en los datos en el espacio.
Distancia Mahalanobis
• Distancia entre grupos. (comúnmente
usado en análisis discriminante).
• Tiene en cuenta las correlaciones
entre variables si no hay independencia.
• DM inversamente pesa la distancia
entre grupos de centroides por la varianza, así la distancia es mayor en el caso B que en el caso A, aún aunque los centroides son equidistantes en hiperespacio.
Coeficientes de asociación • Aplicado a datos categóricos. Datos
binarios (0 ausente-1 presente)
• Medidas de concordancia entre dos
filas representan 2 entidades muestrales.
• La mayoría de las medidas para
datos binarios (presencia/ausencia) • Diferentes coeficientes de
asociación enfatizan diferentes aspectos de la concordancia entre muestras. a: comunes a j y k b: presentes en k y ausentes en J C: presentes en j y ausentes en k D: atributos ausentes en ambas muestras
Elección de un coeficiente de distancia • Disponibilidad de múltiples
elecciones , pero no todas, en programas de computación. • Compatibilidad: medidas de City
Block no es compatible en muchos procedimientos multivariados (AD, ACC). • Base teórica: muy pobre,
distancia euclidiana vs City Block en espacio de especies. • Criterio intuitivo: efectos outliers,
sensibilidad con incremento de la heterogeneidad.