Fco. Javier Burguillo Universidad de Salamanca

1 Fco. Javier Burguillo Universidad de SalamancaTema 10 I...
Author: Susana Pinto Velázquez
0 downloads 0 Views

1 Fco. Javier Burguillo Universidad de SalamancaTema 10 Introducción a las técnicas de “Análisis Multivariante” Fco. Javier Burguillo Universidad de Salamanca Todos los gráficos y algunos ejemplos están basadas en el Paquete Estadístico SIMFIT cuyo autor es el Profesor W.G. Bardsley de la Universidad de Manchester (U.K.) y que se puede descargar gratuitamente en Alguna diapositiva está inspirada en algún pequeño material de Internet cuyo autor no recuerdo y agradezco, otras son personales de nueva creación.

2 Análisis multivarianteObjetivo: estudio de varias variables simultáneamente: X1 X2 X3 X4 X5 Objeto 1 12 34 126 0.1 0.7 Objeto 2 24 36 32 0.5 0.3 Objeto 3 100 5 240 0.4 0.2 ...... .... ... Hay 2 tipos de técnicas: 1) Métodos con variable dependiente y variables independientes Hay una variable que “depende” de otras que se miden como “independientes o predictoras”.Tienen un interés predictivo. 2) Métodos con sólo variables independientes No se distingue entre variables dependientes e independientes, todas son independientes.Tienen un interés descriptivo en el sentido de clasificar objetos en función de las variables.

3 Métodos con variable dependiente (y)X1 X2 X4 Objeto 1 12 34 126 0.1 0.7 Objeto 2 24 36 32 0.5 0.3 Objeto 3 100 5 240 0.4 0.2 ...... .... ... Regresión lineal múltiple Regresión logística binaria

4 Regresión lineal múltiple por mínimos cuadradosLa regresión lineal simple Se puede explicitar cada parámetro, solución única, método exacto Ahora: la regresión lineal múltiple Tratamiento matemático análogo a regresión lineal simple. Se puede explicitar cada parámetro, solución única, método exacto

5 Ejemplo de regresión lineal múltipleLa aplicación importante es estimar “Masa” tumoral para un caso nuevo

6 Regresión logística binaria1=vivo variables: X1 , X2 , X3 , p(1) = probabilidad de que y = 1 y(i) 0=muerto La aplicación importante es estimar p(1) para un caso nuevo: (ej: p(1) = 0.73 de sobrevivir)

7 Métodos con sólo variables independientesa) No se conocen los grupos de los objetos Análisis de componentes principales (PCA) Análisis de clusters Métodos biplot Jerárquicos K-medias Escalamiento multidimensional (MDS) X1 X2 X3 X4 X5 Objeto 1 12 34 126 0.1 0.7 Objeto 2 24 36 32 0.5 0.3 Objeto 3 100 5 240 0.4 0.2 ...... .... ... Class discovery b) Sí que se conocen los grupos de los objetos MANOVA Análisis discriminante KNN SVM PAM PLS Variables canónicas Grupo X2 X3 X4 X5 Objeto 1 1 34 126 0.1 0.7 Objeto 2 36 32 0.5 0.3 Objeto 3 2 5 240 0.4 0.2 Objeto 4 23 45 37 Class prediction

8 Análisis de clusters X1 X2 X3 XmMétodos con sólo variables independientes Análisis de clusters X1 X2 X3 Xm Objeto 1 12 34 126 ... 0.7 Objeto 2 24 36 32 0.3 Objeto 3 100 5 240 0.2 ...... .... Objeto n 27 77 54 0.8 Dada una serie de “n” objetos y “m” variables X1, X2,…, Xm, el propósito es clasificar los objetos en grupos (clusters) según la similitud (menor distancias) entre ellos: Procedimientos: Aglomerativos o divisivos Jerárquicos Supervisados (k-medias)

9 Análisis jerárquico de clusters (panorámica)Datos de 20 pacientes Los 20 pacientes se agrupan (dendrograma) CML ALL AML RCML 4 grupos X1 X2 X3 …. Paciente 1 12 34 15 7.0 Paciente 2 24 36 32 3.1 Paciente 3 10 5 21 2.2 ...... .... ... ¿Transformar variables? Sin transformar Métrica distancia entre objetos Algoritmo de unión de clusters

10 Etapas de un análisis de clusters tipo “aglomerativo jerárquico”(variables cuantitativas) Transformar las variables si fuera necesario. 2) Elegir una medida de distancia entre objetos. 3) Elegir un algoritmo para unir (fusionar) grupos. 4) Decidir el número final de clusters e interpretarlos.

11 Etapa 1) Transformación de variables para uniformar sus escalas(sólo variables cuantitativas) No transformar si las variables están medidas en las mismas unidades. Normalizar variables a media = 0 y desviación estándar = 1: 3) Aplicar raíz cuadrada a las variables. 4) Hacer el logaritmo de las variables.

12 2a) Elegir una medida de distancia entre objetosDistancia ciudad (city block): 2 variables (plano) Distancia Euclidia : 2 variables (plano) Distancia Euclidia al cuadrado. Disimilaridad de Bray-Curtis (en %).

13 2b) Calcular la matriz de distanciasX1 X2 X3 X4 X5 Objeto 1 12 34 126 ... 0.7 Objeto 2 24 36 32 0.3 Objeto 3 100 5 240 0.2 ...... .... Objeto 5 27 77 54 0.8 Objeto 1 2 3 4 5 6 10 9 8 Matriz de distancias Matriz de distancias

14 Vecino más próximo (single link) Vecino más lejano (complete link)3) Algoritmos de unión (fusión) de clusters El primer cluster consiste en “n” clusters de 1 objeto cada uno, el algoritmo los va fusionando por pasos hasta llegar a un último cluster que contiene los “n” objetos. Cluster 1 Cluster 2 Cluster 3 Vecino más próximo (single link) Centroide más cercano Vecino más lejano (complete link) ¿Qué criterio se sigue para ir fusionando los clusters? Hay otros como: Promedio de grupo

15 Ejemplo del algoritmo “vecino más próximo”Objeto 1 2 3 4 5 6 10 9 8 Dendrograma (árbol) Matriz distancias Distancia entre clusters Cluster 1,2,3,4,5 2 (1, 2), 3, 4, 5 3 (1, 2), 3, (4, 5) 4 (1, 2), (3, 4, 5) 5 (1, 2, 3, 4, 5) Distancia entre 4 y (rama) Distancia entre 1 y (rama)

16 Algoritmos de unión (fusión) de clusters (cont.)Método de la distancia por promedio del grupo Cluster A Cluster B 1 3 4 Y análogamente: 2 5 6 7 Cluster C 8 …etc

17 Ejemplo del algoritmo “promedio de grupo”Objeto 1 2 3 4 5 Dendrograma (árbol) 1 2 2 3 6 5 4 10 9 4 5 9 8 5 3 Distance matrix Distancia entre clusters Cluster 1,2,3,4,5 2 (1, 2), 3, 4, 5 3 (1, 2), 3, (4, 5) 4.5 (1, 2), (3, 4, 5) 7.8 (1, 2, 3, 4, 5)

18 ¿Por donde “cortar” el dendrograma¿Por donde “cortar” el dendrograma? o “el problema del número de grupos” Análisis de 20 pacientes Los 20 pacientes se agrupan (dendrograma) 2 grupos CML ALL AML RCML 4 grupos 3 grupos X1 X2 X3 …. Paciente 1 12 34 15 7.0 Paciente 2 24 36 32 3.1 Paciente 3 10 5 21 2.2 ...... .... ... ¿Transformar variables? Sin transformar Métrica distancia entre objetos Algoritmo de unión de clusters

19 Ojo: un dendrograma depende de la transformación de los datos, tipo de distancia y algoritmo de fusión Estandarizados, distancia euclidia, vecino más próximo Sin transformar, distancia euclidia, vecino más próximo Estandarizados, distancia ciudad, promedio de grupo

20 Ejemplo cluster jerárquico con datos de lirios (1/3)Fisher estudió 150 muestras de lirios del campo y a todos les midió la longitud y la anchura del sépalo y la longitud y anchura del pétalo.

21 Ejemplo cluster jerárquico con datos de lirios (2/3)Matriz de distancias:

22 Ejemplo cluster jerárquico con datos de lirios (3/3)Dendrograma:

23 Multi Dimensional Scaling (MDS) (1/3)Se parte de: matriz de distancias (ej.datos de lirios)

24 Multi Dimensional Scaling (MDS) (2/3)Fundamento Matemático - Se trata de calcular unas coordenadas principales que permita visualizar las distancias entre los casos, a modo de mapa, normalmente en 2D. - Para calcular estas coordenadas se construye una matriz E dada por: - A continuación se hace una descomposición de esa matriz para encontrar sus eigenvalores y eigenvectores. La proporción de variabilidad capturada por cada dimensión viene dada por: “n” es el número de casos “k” es el número de dimensiones principales (2) “li” es el eigenvalor de la dimensión “i” - Finalmente se eligen las 2 primeras dimensiones (coordenadas principales) y se hace la representación gráfica 2D a modo de mapa.

25 Multi Dimensional Scaling (MDS) (3/3)Resultado con los datos anteriores de lirios Especie 1 Especie 3 Especie 2

26 Análisis de clusters por K medias (ejemplo)Es un análisis de clusters de tipo supervisado (no jerárquico). El número de clusters que se desea tiene que decidirse a priori. Análisis de 20 pacientes CML ALL AML Se representan los 3 clusters Caso X1 X2 X3 X4 X5 1 12 34 126 0.1 0.7 2 24 36 32 0.5 0.3 3 100 5 240 0.4 0.2 ...... .... ... Se proponen k centroides (3 por ej.) centroide X1 X2 X3 X4 X5 1 12 34 126 0.1 0.7 2 24 36 32 0.5 0.3 3 100 5 240 0.4 0.2 El algoritmo itera

27 Fundamento de Clusters por K-medias1) Imaginemos “n” objetos a clasificar en base a “m” variables 2) Elegimos un procedimiento para decidir las estimas iniciales de los k centroides (semillas): El investigador elige los k centroides. Seleccionar k objetos al azar k primeros objetos Semilla 2 Semilla 1 Semilla 3 3) Elegir un algoritmo para reasignar los objetos a los clusters hasta alcanzar un criterio de convergencia.

28 Métodos con sólo variables independientesa. Cuando no se conocen los grupos de los objetos

29 Análisis por “Componentes Principales” (Ejemplo de Jesús López Fidalgo)15 variables autoperimetría laser (campo visual) 3-4 componentes principales Caso X1 X2 X3 X4 X5 X X15 1 12 34 2 3 4 24 36 .. .... Caso CP1 CP2 CP3 1 2.1 1.4 1.6 2 3 4 -1.4 -1.5 .. 162 pacientes Reducir las 15 variables - Estas CPi explicarán la mayor variabilidad de las variables originales - Las CPi se construyen incorreladas entre ellas

30 Extracción de las componentes principalesTransformación = Untransformed Tipo de matriz = Correlation matrix Tipo de puntuación = Standardised scores Eigenvalores Proporción Acumulativa CP E CP E CP E CP E CP E CP E CP E CP E CP E CP E CP E CP E CP E CP E CP E CP1 CP2 CP3 CP4 Se extraen 4 componentes: CP1, CP2, CP3 y CP4

31 Contribución de las variables originales a CP1 y CP2

32 Representación de los casos bajo CP1 y CP2 (puntuaciones o scores en CP1 y CP2)Los 162 pacientes

33 Representación Biplot: ¿Cómo surge?Imaginemos “2” variables medidas sobre “n” sujetos, ¿se pueden representar a la vez variables y sujetos? : X1 (Talla) X2 (Peso) Si 27 29 33 16 12 38 21 22 25 2 4 5 9 7 X1 X2 Sujeto 1 12 34 Sujeto 2 24 36 Sujeto 3 10 5 ...... .... ...

34 ¿Cómo generalizarlo a más variables?: La representación Biplot¿Cómo representar simultáneamente “m” variables y “n” sujetos? X1 X2 X3 Xm Sujeto 1 12 34 126 0.7 Sujeto 2 24 36 32 0.3 Sujeto 3 10 5 240 0.2 ...... .... ... Sujeto n 1) No es posible representar, tal cual están, más de 3 variables (3D). 2) Se recurre a extraer la información mediante 2 o 3 componentes o ejes ficticios (Biplot 2D o 3D), obtenidos por descomposición de la matriz original en valores singulares (SVD). Var 1 Var 5 Var 4 Var 2 Var 3 Sujeto 2 Sujeto 5 Sujeto 6 Sujeto 3 Sujeto 1 Sujeto 4

35 Representación Biplot (Interpretación)A partir del gráfico Biplot se puede reconocer: La variabilidad en las variables (desviación estándar), ya que a mayor longitud del vector mayor dispersión en la variable. Var 1 Var 5 Var 4 Var 2 Var 3 Sujeto 2 Sujeto 5 Sujeto 6 Sujeto 3 Sujeto 1 Sujeto 4 La correlación entre variables, ya que 2 vectores formando un ángulo pequeño se interpretan como variables bastante correlacionadas positivamente. Vectores perpendiculares se refieren a variables con correlación nula y vectores contrarios a variables correlacionadas negativamente. Agrupaciones de casos: casos próximos tiene valores parecidos de las variables.

36 Ejemplo: Biplot para variedades de liriosFisher estudió 150 muestras de lirios del campo y a todos les midió la longitud y la anchura del sépalo y la longitud y anchura del pétalo.

37 Datos centralizados a media 0 y Biplot con énfasis en columnas

38 Biplot (fundamento matemático)1) Se tiene una matriz X de n filas por m columnas: 2) Se hace una descomposición en valores singulares (SVD): 3) Nos quedamos con la aproximación Y dada por los 2 primeros valores singulares: 4) Esta aproximación se puede escribir de 3 formas: Biplot simétrico Biplot con énfasis en filas Biplot con énfasis en columnas

39 Métodos con sólo variables independientesb. Cuando si se conocen los grupos de los objetos

40 Ahora si se conocen los grupos de los objetosObjetivo: Estudiar las diferencias entre grupos y predecir el grupo de nuevas muestras. MANOVA Grupo X2 X3 X4 X5 Objeto 1 1 34 126 0.1 0.7 Objeto 2 36 32 0.5 0.3 Objeto 3 2 5 240 0.4 0.2 Objeto 4 23 45 37 Análisis en variables canónicas Análisis discriminante PLS

41 MANOVA (ANOVA de varias variables)Imaginemos que se miden 4 variables en 3 grupos: H0 : No hay diferencia entre los vectores de medias de las 4 variables en los 3 grupos: Grupo X1 X2 X3 X4 Objeto 1 Grupo 1 34 126 0.1 0.7 Objeto 2 36 32 0.5 0.3 Objeto 3 52 24 0.4 0.2 Objeto 4 Grupo 2 21 25 39 Objeto 5 16 12 15 18 Objeto 6 29 33 Objeto 7 Grupo 3 23 13 Objeto 8 26 Objeto 9 22 67 H1 : al menos hay 2 vectores de medias que difieren significativamente de un grupo a otro.

42 MANOVA (Ejemplo: datos de lirios de Fisher )VARIABLE VARIABLE 2 VARIABLE 3 VARIABLE 4 GROUP E E E E-01 GROUP E E E E+00 GROUP E E E E+00 POOLED MEAN E E E E+00 ¿Hay diferencias entre estos vectores de medias?

43 MANOVA (datos de lirios de Fisher (cont.) )VARIABLE VARIABLE 2 VARIABLE 3 VARIABLE 4 GROUP E E E E-01 GROUP E E E E+00 GROUP E E E E+00 POOLED MEAN E E E E+00 ¿Hay diferencias entre estos vectores de medias? Para decidirlo existen diferentes tests estadísticos: Statistic Value Transform deg.free. p Wilks lambda E E Reject H0 Roys largest root E+01 Lawley-Hotelling T E E Reject H0 Pillais trace E+00 Como p < 0.01 se concluye que al menos 2 vectores de medias si difieren

44 MANOVA: ¿Hay igualdad de perfiles?MANOVA H0: selected group profiles are equal Hotelling T^2 = E+03 Test statistic S = E+02 Numerator DOF = Denominator DOF = P(F >= S) = Reject H0 at 1% sig.level

45 Análisis por variables canónicasGrupo X1 X2 X3 X4 Objeto 1 1 34 126 0.1 0.7 Objeto 2 36 32 0.5 0.3 …. Objeto 3 2 5 240 0.4 0.2 Objeto 4 23 45 37 Imaginemos: Se han medido varias variables en diferentes objetos de 2 grupos. Objetivos: Para discriminar entre los grupos todo lo posible se busca una combinación lineal de las variables que maximice la la relación de la variabilidad “entre” grupos respecto a la variabilidad “intra” grupos (unas nuevas variables canónicas) Para 2 variables y 2 grupos: Dirección de máxima separación x1 x2

46 Análisis por variables canónicas (Ejemplo: Lirios de Fisher)Grupo variables Muestras a asignar ? ? ?

47 Análisis por variables canónicas (Fundamento matemático)Correlations Eigenvalues Proportions Chi-sq. NDOF p Canonical variate means -7.608E E-01 1.825E E-01 5.783E E-01 Canonical coefficients -8.294E E-02 -1.534E E+00 2.201E E-01 2.810E E+00 CV1 CV2

48 Asignación de objetos a grupos por Análisis Discriminante (ejemplo datos lirios) 1/2Distancias de Mahalanobis al cuadrado de los controles (covarianzas iguales y S pooled) Grupo variables Muestras a asignar ? ? ? Distancias de Mahalanobis al cuadrado de cada nuevo caso respecto a las medias de los grupos

49 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (1/9)Ejemplo adaptado de: Abdi, H. (2010). Partial least squares regression and projection on latent structure regression (PLS regression). DOI /WICS.051/WIREs Comp Stat/ 6.

50 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (2/9)Matrix X of predictors E E E E+00 E E E E+00 E E E E+00 E E E E+00 E E E E+00 Matrix Y of reponses E E E+00 E E E+00 E E E+00 E E E+00 E E E+00

51 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (3/9)Porcentajes de varianza capturada para X e Y

52 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (4/9)Puntuaciones de los casos para las X según las componentes 1 (t1) y 2 (t2)

53 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (5/9)Cargas (loadings) para las X en las componentes 1 (p1) y 2 (p2)

54 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (6/9)Puntuaciones de los casos para las Y según las componentes 1 (u1) y 2 (u2)

55 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (7/9)Cargas (loadings) para las Y en las componentes 1 (c1) y 2 (c2)

56 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (8/9)Y-real frente a Y-estimada por el modelo de PLS Y-real Y-estimada

57 Asignación de objetos a grupos por “partial least squares” (PLS): Ejemplo con vinos (9/9)Test set to predict 2 wines using their predictor values 2 4 E E E E+00 E E E E+00

58 Fundamento matemático de la técnica PLS[1] H.Lohninger: Teach/Me Data Analysis, Springer-Verlag, Berlin-New York-Tokyo, 1999