Análisis discriminante

Tasa de error por validación cruzada (jackknife): Se lleva al extremo la idea de la tasa de frecuencia relativa de error. Dato a dato: 1. Se excluye el dato. 2.
1MB Größe 56 Downloads 41 vistas
Discriminación entre grupos

Discriminación entre grupos • ¿Son los grupos significativamente diferentes? ¾ Multivariate Analysis of Variance (MANOVA)

¾ Multi-Response Permutation Procedures (MRPP) ¾ Analysis of Group Similarities (ANOSIM) ¾ Mantel’s Test (MANTEL) • ¿Cómo diferenciar los grupos? ¿Cuáles variables

distinguen mejor a los grupos? ¾ Análisis Discriminante (AD) ¾ Classification and Regression Trees (CART) ¾ Regresión logística (RL) ¾ Análisis de especies indicadora (ISA)

Ejemplo 1:

En un estudio del estadístico y genetista Sir Ronald A. Fisher se utilizaron cuatro características de los sépalos y pétalos para identificar 150 lirios de las especies iris setosa, iris versicolor e iris virginica. En este problema encontramos que hay tres grupos, lo que dificulta la utilización del método de Fisher. Tendremos que combinar dos reglas para clasificar la especie de nuevos ejemplares de lirios

Ejemplo 2. esclerosis múltiple:

Características importantes del análisis discriminante

• Opera sobre conjuntos de datos para los cuales hay grupos datos

predefinidos

• Se evalúan relaciones dependientes entre un conjunto de variables

discriminantes y una variable agrupadora para intentar definir la relación entre variables independientes y dependientes.

• Predice la pertenencia de grupo en muestras futuras, muestras

de grupos desconocidos sobre la base de las características de clasificación.

Características importantes del análisis discriminante

• Extrae gradientes subyacentes dominantes de variación (funciones canónicas) entre grupos de entidades muestreales (ej, especies, sitios, observaciones) de una cjto de observaciones multivariadas, tal que la variación entre grupos es maximizada y variación dentro grupos es minimizada a lo largo del gradiente.

• Reduce la dimensionalidad de cjto de datos multivariados de las variables originales en un cjto menor de dimensiones compuestas (funciones canónicas) con mínima pérdida de información.

Analogía con regresión y ANAVA Extensión de regresión: • Una combinación lineal de medidas de dos o más variables independientes (y usualmente continuas) que se utiliza para describir o predecir el comportamiento de una variable dependiente categórica simple. • la situación de investigación define las categorías de grupo como dependientes sobre las variables discriminantes. • Las muestras representan una muestra aleatoria simple (N) de una mezcla de dos o más poblaciones distintivas (por ej, grupos). • Una muestra simple es graficada en la cual el miembro grupal es desconocido a priori al muestrear.

Analogía con regresión y ANAVA Extensión ANAVA: • La variable independiente es categórica y define a los miembros del grupo (típicamente controlado por el diseño experimental) y poblaciones (por ej., grupos) son comparados al vector de medidas de dos o más variables dependientes (y usualmente continuas). • Cada situación de investigación define las variables discriminantes que dependen de los grupos. • Las muestras representan muestras aleatorias separadas independientes (N1, N2, ..., NG) de dos o más poblaciones distintivas (por ej, grupos). • Cada miembro grupal es “conocido” a priori al muestrear y las muestras están graficadas para cada población separadamente.

Análisis canónico de discriminación (ACD) • ACD testea y describe las relaciones entre dos o más grupos de entidades basadas sobre un cjto de dos o más variables discriminativas (identificar los bordes entre grupos de entidades).

• ACD involucra derivar combinaciones lineales (funciones canónicas) de dos o más variables discrminativas que discriminen mejor entre los grupos definidos a priori (maximizar el cociente F).

• Cada entidad de muestreo tiene una puntuación canónica compuesta sobre cada eje y los centroides grupales que indican la mayor localización típica de cada entidad de un grupo particular.

Se espera la separación significativa de grupos y maximizar la interpretación ecológica de los ejes..

Análisis discriminante

El proceso analítico • Conjunto de datos

• Supuestos • Requerimientos de tamaño de la muestra • derivación de las funciones canónicas • Evaluación de la importancia de las funciones canónicas. • Interpretación de las funciones canónicas. • Validación de las funciones canónicas.

Análisis discriminante: cjto de los datos

• Una variable agrupadora categórica y dos o más variables

discriminantes de conteo y /o categóricas, contínuas.

• Variables de conteo, categóricas, contínua (preferentemente todas contínuas). •Grupos de muestras deberían ser mutuamente excluyentes. • Sin datos perdidos. • Tamaño muestreal grupal necesita ser el mismo. • Mínimo de dos muestras por grupo y al menos dos o más muestras que la cantidad de variables.

Análisis discriminante: Conjunto de datos Datos ecológicos en dos vías: ¾ Especies por ambiente ¾ Presencia/ausencia de especies por ambiente. ¾ Comportamiento por ambiente ¾ estado de vida/sexo por ambiente/comportamiento ¾ grupos de suelo por ambiente. ¾ Demos de cría por morfología.

Clasificación en Discriminante Métodos Paramétricos: Criterio de validación cuando cada grupo es normal multivariado • Fisher’s linear discriminant functions: Deriva una combinación

lineal de las variables originales para cada grupo y clasifica la muestra en un grupo con mayor puntuación. • Distancia Mahalanobis (Quadratic discriminant analysis):

Medida de distancia en un espacio multidimensional de cada entidad a cada grupo de centroide y clasifica cada entidad en el grupo más “cerrado”. • distancia Canonica: Computa las puntuaciones para cada

entidad primero y luego clasifica cda entidad dentro del grupo con más cerrado puntuación canónica (centroide).

Visión geométrica del análisis discriminante • Los ejes canónicos son

derivados para maximizar la separación de los tres grupos.

Análisis discriminante

Dos lados del mismo punto Análisis canónico de discriminación: • Provee un test (MANAVA) de diferencias grupales y

simultáneamente describe como los grupos difieren, esto es, cuales variables mejor cuantifican las diferencias grupales.

Clasíficación Provee una clasificación de muestras en grupos, la cual vuelve a describir como está bien clasificado el miembro del grupo y pueda ser predicho. La función de clasificación puede ser usada para predecir miembros grupales de muestras adicionales para la cual el miembro del grupo es desconocido.

ENFOQUE DE FISHER: encontrar una buena función discriminante que sea una combinación lineal de las variables originales. Cuando aplicamos la función a un dato nuevo nos dice a que grupo pertenece. Geométricamente: Se busca una buena dirección sobre la que proyectar los datos de los grupos conocidos y de los que queremos clasificar. Se clasifica en función de qué grupo está más cerca en esa dirección. Una buena dirección tiene que: ─ Separar bien las medias ─ Teniendo en cuenta la variabilidad El nuevo dato se clasifica dentro del grupo con la media más próxima en la proyección

REGLA DE FISHER para Dos grupos con matrices de covarianzas iguales (Σ1=Σ2) Buscamos una buena función/combinación lineal de las variables originales/dirección sobre la que proyectar los datos:

f(x)=a1x1+…+apxp

al proyectar los datos

Maximizar la variabilidad entre grupos Minimizar la variabilidad dentro del grupo Encontrar la solución a

Función canónica discriminante

Ejemplo de esclerosis múltiple:

Regla de clasificación: clasificamos a xo como individuo sano si:

Ejemplo: esclerosis múltiple Función canónica discriminante

Ejemplo: esclerosis múltiple Puntuación canónica discriminante

Ejemplo: esclerosis múltiple

¿Cómo evaluar si la clasificación es buena? La clasificación será buena si: 1. Aplicamos una buena regla 2. Las variables son buenas, separan claramente a los individuos de los distintos grupos

Diremos que una REGLA DE CLASIFICACIÓN es ÓPTIMA cuando comete el menor número de errores posibles en la clasificación El método de clasificación de FISHER es ÓPTIMO cuando: 1. La distribución de los datos es NORMAL 2. Las matrices de covarianzas son iguales en los dos grupos

Tasa de error aparente: Se aplica la regla para clasificar todos los datos de la muestra de entrenamiento y se cuentan los casos en los que la clasificación es errónea.

Tasa de error aparente = Datos mal clasificados/ Tamaño de la muestra Con la muestra de entrenamiento hemos construido la regla de clasificación y ahora comprobamos cuantos datos de la muestra de entrenamiento se clasifican mal.

El 95,7% de los SANOS (PACIENTE=0) se clasifica correctamente, 66 de 69 El 75,9% de los ENFERMOS (PACIENTE=1) se clasifican correctamente, 22 de 29 Tasa de error aparente = (3+7) / 98 = 10 2%

Tasa de frecuencia relativa de error: Se divide la muestra de entrenamiento en dos partes, con una se construye la regla y con la otra se calcula la tasa como la proporción de estos datos que están mal clasificados (no la calcula el SPSS).

Se pierde mucha información en el cálculo de la regla. Es INEFICIENTE

Tasa de error por validación cruzada (jackknife): Se lleva al extremo la idea de la tasa de frecuencia relativa de error. Dato a dato: 1. Se excluye el dato 2. Se construye la regla con los restantes 3. Se clasifica el que hemos dejado fuera La probabilidad de error se estima como la proporción de veces que al excluir un dato, éste se clasifica mal.

Es menos optimista que la tasa de error aparente y más eficiente que la tasa de frecuencia relativa de error.

Tasa de error aparente = (3+7) / 98 = 10,2% Tasa de error por validación cruzada = (5+8) / 98 = 13 26%

AD: supuestos

• Uso descriptivo de AD no requiere supuestos. Sin embargo, la

eficacia de AD depende sobre que bien ciertos supuestos.

• Uso inferencial de AD requiere de supuestos:

Evidencia de que algunos de aquellos supuestos pueden ser violados sin grandes cambios en los correctos resultados de clasificación. Cuanto más grande es el tamaño muestreal más robusto el análisis de los supuestos.

AD: supuestos 1. Matrices de igualdad de varianza/covarianza (homogeneidad)

El AD asume que los grupos tienen igual dispersión (por ej., la estructura dentro del grupo de varianza/covarianza es la misma para todos los grupos. • Varianzas de las variables discriminantes debería ser la

misma en las poblaciones respectivas.



AD: supuestos

Consecuencias de las distribuciones multivariadas no normales (asociada a heterogeneidad de varianzas) •Tests de significancia inválidos • Distorsiona las probabilidades a posteriori de miembro grupal (no necesariamente minimiza la cantidad de mal clasificados). • EN múltiple CAD, segundo y subsecuente ejes canónicos no son estrictamente independientes (ortogonal). Las últimas funciones canónicas ( asociadas con eigenvalues más pequeños) a menudo se parecerán a las funciones anteriores pero con cargas canónicas más pequeñas.

AD: supuestos Diagnosis multicolinealidad – correlaciones de a pares • DA es afectada por multicolinealidad, que se refiere a dependencias

múltiples lineales (altas correlaciones) entre variables del cjto de datos. •Luego de calcular todas las correlaciones de a pares los valores r>0.7 sugieren potenciales problemas de multicolinealidad y es necesario extraer una del par de variables.

AD: supuestos

Linealidad Variables cambian linealmente a lo largo de gradientes subyacentes y sus relaciones se combinan en una forma lineal para crear las funciones canónicas.

AD: supuestos Consecuencias de la nolinealidad • Patrones no lineales reales no serán detectados a menos que se hagan transformaciones no lineales que pueden ser aplicados al modelo tales que las relaciones tengan una rutina computacional lineal.

AD: supuestos

Diagnosis de linealidad

• diagramas de

dispersión de variables discrminantes.

•Luego diagramas de dispersión de funciones canónicas.

AD: consideraciones acerca de tamaño de muestra

Reglas generales • Mínimo de al menos dos o más muestras (filas) que

variables (columnas)

• Mínimo de las menos dos muestras (filas) por grupo.

• Las muestras para cada grupo deben asegurarse de tal manera

que se estimen con precisión las medias y dispersiones. Cada grupo , n ≥ (3 *P)

Derivando las funciones canónicas

Stepwise Criteria – Wilks’s Lambda • El procedimiento de Wilks's Lambda selecciona la variable a cada

paso que minimice el estadístico total Wilks' lamda dado con un criterio de F.

¾Wilks Lambda (estadìstico de diferenciación). Lambda se aproxima a cero si dos grupos están bien separados.

Derivación de las funciones canónicas

Eigenvalues y Eigenvectors Perspectiva geométrica: • Eigenvalues igual al cociente entre las desviaciones estándar entre y dentro del grupo sobre las variables discriminantes lineales las cuales son definidas como eigenvectors

Limitaciones del análisis discriminante • Supuestos parámetricos (normalidad multivariada, igualdad de

matrices covarianza) y supuesto de linealidad son particulares y si no se cumplen se reduce la efectividad de AD cuando la estructura de los datos grupales es compleja. ¾ Otros procedimientos (por ej. CART) pueden mejorar bajo aquellas condiciones..

Salida de Infostat

Salida de infostat. Archivo IRIS

Salida de infostat. Archivo IRIS