Distancia euclidiana

Distancia ecológica. • Distancia es una concepción geométrica de la distancia entre objetos en un espacio dimensional definido por las mediciones sobre los.
865KB Größe 25 Downloads 148 vistas
Conjunto de datos multivariados Matriz de datos de doble entrada

Fuentes - Applied Multivariate Statistics for Ecology and Conservation Course website: http://www.umass.edu/landeco/teaching/multivariate/multivariate.html Dr. Hui-Yu Wang and Brad Timm - MacGarical et al., 2000. Multivariate Statistic for wildlife and Ecology research

Matriz de datos de doble entrada

1 2 3 4 5

Matriz datos doble entrada Sitios X especie

6

Representación geométrica • Cada sitio puede ser representado por un

punto en un espacio p dimensional basado sobre sus valores medidos a lo largo de sus ejes p especies.

• La colección de puntos forma un

“nube de datos” en este espacio p dimensional

• La forma y dispersión de esta nube de datos contiene información ecológica

Ensamblaje ecológico

1 2 3 4 5 6

¿Cuán similar (o disimilar) es cada sitio entre sí?

Ensamblaje ecológico Disimilitud

Similitud Es la caracterización del cociente de la cantidad de atributos que dos objetos comparten comparadas con la lista total de atributos entre ellos. P objetos que son idénticos tienen similitud 1 y los que no tienen nada en común , similitud 0.

La disimilitud es el complemento de la similitud, y es la caracterización de la cantidad de atributos que dos objetos no comparten comparados a la lista total de atributos entre ellos. La disimilitud puede ser calculada como 1 – similitud.

Ambos con rango 0 - 1

Distancia ecológica

• Distancia es una concepción geométrica de la distancia entre objetos en un espacio dimensional definido por las mediciones sobre los atributos.

• La medición de proximidad varía

entre medidas de distancia

Distancia ecológica versus disimilitud • Aunque en la práctica distancia y disimilitud son indistintas,

presentan diferentes propiedades.

• Disimilitudes contienen los extremos [0, 1]. Por ej., unas parcelas

no tienen especies en común, entonces no son más disímiles.

• Las distancias no contienen a los bordes superiores. Por ej., las

parcelas que no tienen especies en común tienen distancias que dependen del número y abundancia de especies en las parcelas, por eso es una variable.

La transformación del ensamblaje Matriz original de datos

6x4

Matriz de disimilitud

Espacio disimilitud

6x6

• La matriz de ensamblaje

contiene un coeficiente de ensamblaje para cada par de entidades. Resultado es una matriz de ensamblaje de entidad por entidad

Matriz original de datos

Matriz de disimilitud

• Hay una gran cantidad

de medidas de ensamblaje para elegir

• La elección de un coeficiente depende del tipo de datos, la cuestión

ecológica o el tipo de análisis.

• Cuando la escala de medición es tal que podrían usarse diversos

coeficientes, la elección es una preferencia personal.

• Es una ventaja tratar diferentes medidas y ver los resultados

desde un criterio ecológico.

Pla, Casanoves, Di Rienzo, Trelew, 2009

Distancia euclidiana

• Primero, los datos se estandarizan

para remover diferencias debido a la unidad y escala de medición. • Pueden ser aplicados a datos de

cualquier escala.

• Tiene verdaderas propiedades

métricas y es usado en ordenación de autovector (eigenvector) .

• A menudo, tiene pobre performance

en aplicaciones ecológicas debido a varios problemas:

¾ Se asume que las variables están

no correlacionadas (no siempre es así). ¾ Enfatiza los outliers o

valores extremos.

¾ Pierde sensibilidad más

rápidamente que otras medidas de dist. Cuando la heterogeneidad aumenta. ¾ Medida de distancia no proporcional.

Distancia Manhattan o City - block

• Las mayores medidas de disimilitud

ecológicas son del tipo Manhattan. • Comparadas a la DE, le dan

menos peso a los outliers (no están diferencias al cuadrado). • Comparada a DE, retienen la

sensibilidad al incrementar la heterogeneidad en el cjto de datos. • No es para distancias no

proporcionales.

Coeficientes de distancias proporcionales • Por ej porcentaje de disimilitud

(distancia de Sorensen o dist. De Bray Curtis).

• Distancia City- Block se mide

expresada como proporciones de la máxima distancia posible. • Sin embargo, si dos comunidades no comparten especies en común, tienen la máxima disimilitud de uno.

Coeficientes de distancia proporcionales

Variaciones en porcentaje de disimilitud

Distancia Sorensen a Bray- Curtis

Distancia Jaccard

Distancia Kulczynski

Coeficientes de distancia proporcionales (DP) • DP es comúnmente usado con datos de

abundancia de especies, pero pueden ser aplicados a datos de cualquier escala (por ej, datos presencia/ ausencia) • Comparado con DE, DP da menos

peso a los outliers.

• Comparado con DE, DP retiene

sensibilidad al incrementar la heterogeneidad en los datos.

• A diferencia de DE y CB, DP es máximo cuando no hay especies compartidas. • Pero DP no es “métrico” por eso no

es compatible en muchos análisis (AD, ACC).

Distancia de correlación

• Uso limitado para datos de comunidad,

pero ideal en datos multivariados y relaciones lineales. • Se relaciona con coeficientes de

correlación.

Distancia de correlación

• Gral/ sólo útiles cuando la similitud

en “forma de perfiles” en promedio es más importante que el promedio en “niveles de perfiles”, porque la distancia de correlación es cero cuando 2 perfiles están paralelos, no importa de cuan lejos están unos de otros en los datos en el espacio.

Distancia Mahalanobis

• Distancia entre grupos. (comúnmente

usado en análisis discriminante).

• Tiene en cuenta las correlaciones

entre variables si no hay independencia.

• DM inversamente pesa la distancia

entre grupos de centroides por la varianza, así la distancia es mayor en el caso B que en el caso A, aún aunque los centroides son equidistantes en hiperespacio.

Coeficientes de asociación • Aplicado a datos categóricos. Datos

binarios (0 ausente-1 presente)

• Medidas de concordancia entre dos

filas representan 2 entidades muestrales.

• La mayoría de las medidas para

datos binarios (presencia/ausencia) • Diferentes coeficientes de

asociación enfatizan diferentes aspectos de la concordancia entre muestras. a: comunes a j y k b: presentes en k y ausentes en J C: presentes en j y ausentes en k D: atributos ausentes en ambas muestras

Elección de un coeficiente de distancia • Disponibilidad de múltiples

elecciones , pero no todas, en programas de computación. • Compatibilidad: medidas de City

Block no es compatible en muchos procedimientos multivariados (AD, ACC). • Base teórica: muy pobre,

distancia euclidiana vs City Block en espacio de especies. • Criterio intuitivo: efectos outliers,

sensibilidad con incremento de la heterogeneidad.