Apuntes del Dr. Pablo Inchausti Estadística Descriptiva

1 Apuntes del Dr. Pablo Inchausti Estadística Descriptiva...
Author: Ana Mora Montero
0 downloads 0 Views

1 Apuntes del Dr. Pablo Inchausti Estadística DescriptivaUniversidad de la República Centro Universitario Regional del Este Introducción a la Probabilidad y Estadística Estadística Descriptiva Apuntes del Dr. Pablo Inchausti

2 Primeras bases en el uso de R: entrar y salir del programa, pedir ayuda, creación de variables.Inicien R apretando el ícono correspondiente con el mouse. Tres formas de terminar la sesión de R: escribir q() Esta es la interfase del usuario de R y por ahora la única ventana activa.

3 Hagamos algunas operaciones simples :45+50 1*2*3*4*5 log(sqrt(3.897)) ¿qué pasa si se olvidan del ultimo paréntesis o si escriben Log en lugar de log? 1+2*3 (1+2)* ¿cuál es la diferencia? Sólo para aclarar: el símbolo [1] en cada respuesta indica que el resultado es considerado por R como un vector de un solo elemento. Hay un número realmente enorme de funciones predefinidas en R. Para utilizarlas hay que conocer la sintaxis de cada función: rnorm (n, mean, std) produce n valores de una fdp normal con media mean y desviación standard std: rnorm (10000,0,1) Pedir ayuda para una función: ?rnorm abre el archivo file:///C:/PROGRA~1/R/R-29~1.2/library/stats/html/Normal.html en una pantalla separada en el navegador web.

4 Creación de variables en R:n < (la variable n tiene el valor 91) x <- 10+sqrt(rnorm(1,0,1)) (¿qué valor tiene la variable x?) x2 <- (4+sqrt(rnorm(1,mean=5.1, sd=1)))/27 (¿qué significa lo escrito?) Para VISUALIZAR los objetos (variables) en memoria: ls() Para BORRAR DEFINITIVAMENTE los objetos en memoria: rm(obj) La instrucción rm(list=ls()) borra a TODOS los objetos en memoria. Atención: después de borrado NO hay vuelta atrás tipo CTRL-Z. Hay que recrear los objetos de nuevo viendo la secuencia de comandos ejecutados con las flechas  del teclado. Para limpiar la pantalla visible: ctrl-l

5 Principales tipos de objetos en R: creación y uso de vectores, factores, matrices, dataframes.La lista exhaustiva de tipos de objetos en R es: array list Cada objeto en R tiene dos atributos: su tipo (type) y su longitud (length) o número de elementos.

6 Población estadística: es la colección exhaustiva de TODOS los valores posibles u potenciales de una variable aleatoria. Los análisis estadísticos buscan caracterizar (diversos aspectos; mas tarde veremos cuáles) una población estadística y buscar relaciones (por ej. asociaciones) entre dos o mas poblaciones estadísticas. En casi todos los casos realistas, es virtualmente IMPOSIBLE cuantificar todos los valores posibles de una variable aleatoria pues ello requiere medir a TODOS los individuos de una población. La alternativa es tomar MUESTRAS: selección de individuos a los que se mide la(s) variable(s) aleatoria(s) de interés para el estudio. Las muestras constituyen subconjuntos de valores de una variable aleatoria que permiten caracterizar una (o más) población(es) estadística(s) segun cuántas variables aleatorias se midan. Aunque cada muestra es completamemnte circunstancial, bajo ciertas condiciones se puede(n) utilizarla(s) para caracterizar una población estadística.

7 definen una jerarquía cualitativa.Escala de medición de las variables y sus consecuencias. En estadística las variables alatorias se clasifican según la escala de medición: CUALITATIVA (denotan grupos) CUANTITATIVAS (denotan magnitudes) CATEGORICA: define clases o grupos. ORDINAL: definen una jerarquía cualitativa. DISCRETAS: conteos CONTINUAS: valores Las escalas de medición conforman una jerarquía creciente en la que cada nivel de la clasificación contiene al anterior. Los métodos de estadística descriptiva e inferencial que se utilizan dependen estrictamente de las escalas de medición de las variables.

8 Ejemplo de datos (que utilizaremos luego):En este set de datos hay 60 filas (casos) y 12 columnas (variables): 3 variables CATEGORICAS que identifican grupos (AC) 1 variable ORDINAL (D): fuerza de la corriente 8 variables CUANTITATIVAS (EL): 4 hábitat, 4 biológicas

9 Representación gráfica de los datos:Para tabular los datos de cada variable es necesario definir clases o grupos. Dos casos posibles: Variables categóricas y ordinales: los grupos son definidos naturalmente. Ej. Río (0,1), Transecta (1,2,3), Lugar(A1C10), FuerzaCorriente (1,2,3,4) Variables cuantitativas continuas: hay que definir el número de grupos según un criterio (no así para las variables cuantitativas discretas). Para discretizar una variable continua, hay que definir dos aspectos relacionados: el número de intervalos k, el ancho de los intervalos h (en general, es el mismo para todos). Si Si h= Min Max

10 Dos criterios generales para definir el número de intervalos k son:Criterio de Sturges: k= log2(n)+1 Dos criterios generales para definir el ancho de los intervalos, h son: Criterio de Scott: Criterio de Freedman-Diaconis: (n: número de datos, IQR: rango intercuartílico, s: desviación standard) Estos criterios generales son guías (y no reglas fijas) para decidir k y h. Es recomendable probar varios de ellos para asegurarse que la forma del histograma resultante no cambia mucho según el criterio escogido para escoger k o h. Una vez definido k, se obtiene h Dado h, los límites de los intervalos se obtienen: min+h, min+2h, etc. Una vez definidos los intervalos de clase, se procede a contar el número de valores de la muestra en cada intervalo: frecuencias absolutas.

11 Cálculo de las frecuencias relativas:La suma de las frecuencias absolutas es igual al número de datos de cada variable Histograma

12 Para comparar gráficamente muestras de distinto tamaño, es necesario utilizar histogramas de frecuencias relativas. Frecuencia relativa: proporción de valores en cada intervalo de clase.

13 n1=60 y n2= 266 Dos distribuciones que parecían diferentes en escala absoluta (tamaños de muestra muy diferentes), son en realidad muy similares en sus frecuencias relativas.

14 Histograma de frecuencias relativas acumuladas:Concepto e interpretación de Percentiles de una distribución de datos Percentil de una distribución: valor que define una proporción de valores que son inferiores en la muestra. Distribución de frecuencias acumulada: Histograma de frecuencias relativas acumuladas:

15 Percentiles de una distribución:El 67% de los valores de la variable Arena Media son inferiores a mm (el intervalo cuya Marca de clase es 1.057) Se puede también calcular el valor de Arena Media que define el 90% de los valores de esta variable: Percentil 90.

16 Distribución de ingresos individuales en Uruguay (2010)Los percentiles más frecuentemente usados son: Cuartiles: dividen la distribución de datos en 4 partes iguales. El 2do cuartil es la mediana (lo veremos mas tarde). Quintiles: dividen la distribución de datos en 5 partes iguales. Ej. 1er y 5to quintiles de la distribución de ingreso. Distribución de ingresos individuales en Uruguay (2010)

17 Cálculo de histogramas de frecuencias absoluta y relativa.Partiendo del archivo de datos en Excel o Calc: Variables categóricas o de clasificación: definen grupos.

18 Resultado: datos practico 2.csvSalvar la hoja “Datos” en un archivo con formato csv. Nombre del archivo: datos practico 2 Resultado: datos practico 2.csv

19 Indicar el directorio de trabajo (donde están los datos)Iniciar Rcmdr require(Rcmdr) Indicar el directorio de trabajo (donde están los datos) Importar el archivo “datos practico 2.csv” creando un data frame:

20 Examinar la estructura del data frame recién creado:str(datos) Verificación: str(datos) Histograma de frecuencias absolutas:

21 El código escrito en la “output window” fue:Hist(datos$ArenaMed, scale="frequency", breaks="Sturges", col="darkgray") El histograma se puede cambiar y mejorar incluyendo: Hist(datos$ArenaMed, scale="frequency", breaks="Sturges", col=“darkblue“, main=“”, ylab=“Frecuencia absoluta”, xlab=“Arena fina (diámetro)”, cex.axis=1.2, cex.lab=1.5) (más detalles en el próximo práctico)

22 El histograma de frecuencias relativas:Trabajar 5 minutos para cambiar el aspecto de este gráfico (más detalles en el próximo práctico)

23 Otro ejemplo: par(mfrow=c(2,2))Hist(datos$ArenaMed, scale="percent", breaks=5, col="darkgray") Hist(datos$ArenaMed, scale="percent", breaks=10, col="darkgray") Hist(datos$ArenaMed, scale="percent", breaks=15, col="darkgray") Hist(datos$ArenaMed, scale="percent", breaks=20, col="darkgray")

24 2) Cálculo de medidas de tendencia central y de dispersión a partir de datos originales.Para calcular los estadísticos descriptivos básicos: Ello genera el código: Para pedir ayuda: ?numSummary ¿Interpretación?

25 También se pueden calcular estadísticos descriptivos por grupo:Media, mediana, cuartiles, desv. standard, CV, etc. para cada uno de los dos ríos. ¿Interpretación?

26 Estimación de estadísticos descriptivos de los datos a partir de datos originales y agrupados.Una descripción cuantitativa de datos incluye: Tendencia central: valor “típico” o “característico” Dispersión: alrededor de un valor central. Forma de la distribución: simétrica/asimétrica, curtosis. Asociación entre variables: cuando hay dos o mas variables. Estos estadísticos (*) pueden ser calculados a partir de los datos originales o a partir de un histograma de frecuencias absolutas o relativas. (*) Estadísticos: valores de un atributo calculado a partir de los datos de una muestra. Ej. la media aritmética.

27 2) Principales medidas de tendencia central: media aritmética, mediana y moda y sus interpretacionesai:centro de cada intervalo de clase. Frecuentemente utilizada como medida de tendencia central. Problemas de la media aritmética: Afectada por valores extremos de los datos {1,2,3} media=2 {1,2,3,40} media =11.5 No es adecuada para distribuciones asimétricas.

28 Mediana: valor que divide una muestra ordenada en dos mitades.Datos sin agrupar (originales): Ej 1: {1,20,52,78,481} n=5, Me = X(5+1)/2= 52 Ej 2: {1,20,52,78} n=4, Ventajas: no es afectada por datos extremos, adecuada para distribuciones asimétricas. Desventajas: ausencia de buenas medidas de dispersión y de conexiones teóricas con métodos estadísticos

29 Partiendo de un histograma de frecuencias relativas acumuladas:Datos agrupados: Partiendo de un histograma de frecuencias relativas acumuladas: x FA FR FrAc 0-10 2 0.04 10-20 12 0.24 0.28 20-30 22 0.44 0.72 30-40 8 0.16 0.88 40-50 6 0.12 1 20 50/2 14 10 22 FA Ac hasta Int anterior a Me. Lím inf inter. medianal Ancho intervalos FA Int Me.

30 FA clase posterior a modal FA clase anterior a modalModa: valor mas frecuente de una serie de datos. Datos sin agrupar (originales): simplemente contar cual valor se repite con mas frecuencia. Una distribución puede ser plurimodal. Datos agrupados: Lím inf inter. modal 20 12 8 10 FA clase posterior a modal FA clase anterior a modal x FA 0-10 2 10-20 12 20-30 22 30-40 8 40-50 6

31 Comparación de las medidas de tendencia central:Para distribuciones simétricas: Media ≈ Me ≈ Mo Para distribuciones asimétricas: Mo < Me < Media (sesgo positivo: cola derecha más larga) Existen índices para cuantificar el sesgo o asimetría de de una distribución que son de escasa utilidad y no serán discutidos aquí. ¿Qué medida de tendencia central utilizar? Para distribuciones simétricas: media aritmética. Para distribuciones asimétricas: mediana

32 Media ponderada, media armónica y media geométrica: uso e interpretación.La media ponderada permite dar un peso o importancia diferencial a cada valor o a cada muestra. 62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98 81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 94, 95, 96, 97, 98, 99 n1=20 n2=30 Media=80 Media=90 La media de TODOS los valores= 85 La media geométrica es la mejor caracterización de la tendencia central de procesos multiplicativos como el crecimiento poblacional, las tasas de interés, etc.

33 Ej. Una población cuya abundancia en años consecutivos es {100,180,210,300} ha crecido a las tasas de {1.80, 1.167, 1.429} por año. La media aritmética de la tasa de crecimiento es (o 46.5%). Comenzando con 100 individuos, en tres años debería haber 100*(1.465)3=314 individuos. La media geométrica es = En tres años debería haber 100*(1.443)3=300 individuos. La media aritmética siempre SOBRE-ESTIMA el promedio de procesos multiplicativos cuya caracterización requiere el uso de la media geométrica. Media armónica: es el inverso del la media aritmética de los inversos de los valores. La media armónica utilizada para obtener el valor promedio más adecuado de tasas o velocidades (1/tiempo) y rendimientos (x/tiempo). Es mas influenciada por los valores pequeños de la variable.

34 4) Medidas de dispersión: definición, uso e interpretación de varianza y desviación standard, rango, coeficiente de variación y amplitud inter-percentil. Las medidas de tendencia central sólo dan una caracterización parcial de los datos y no son correctamente interpretables en ausencia de medidas de dispersión.

35 Las medidas de dispersión caracterizan precisamente la dispersión alrededor de una medida de tendencia central. 1) Rango = Max – Min de los valores. Poco útil en general. 2) Varianza: dispersión cuadrática de los valores alrededor de la media aritmética. 62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98 Media=80 S2= 67.4 S= 8.2 Atención: la varianza NO tiene las mismas unidades de la variable original  Desviación standard: S = √S2

36 3) Coeficiente de variación: es una medida de la variabilidad relativa y adimensional de una variable o conjunto de datos. El CV no tiene unidades y permite comparar variables medidas en cualquier escala. 4) Amplitud intercuartil: diferencia entre 1er y 3er cuartil de los datos. Posición 1er cuartil: n=20/4: 5to valor Posición 3er cuartil: n=20*3/4: 15vo valor Posición 3er cuartil: si n=21*3/415.75 valor: ( )=79.218

37 Indicar el directorio de trabajo (donde están los datos)Antes que nada, los datos: Iniciar Rcmdr require(Rcmdr) Indicar el directorio de trabajo (donde están los datos) Importar el archivo “datos practico 2.csv” creando un data frame:

38 Examinar la estructura del data frame recién creado:str(datos) Verificación: str(datos) Convertir variables si necesario: Verificación: str(datos)

39 a) Gráfico XY: dos variables numéricas.1) Introducción a los gráficos en R. a) Gráfico XY: dos variables numéricas.

40 Otras opciones en el mismo gráfico: Muchas posibilidades para escoger!scatterplot(Uca.uruguayensis~ArenaMed, reg.line=lm, smooth=TRUE, spread=TRUE, boxplots='xy', span=0.5, cex=1.2, cex.axis=1.3, cex.lab=1.5, data=data) Muchas posibilidades para escoger! ?scatterplot

41 Exploración visual de los datos:Recta de regresión lineal entre las variables. Curva “suavizada” de tendencia general Curva “suavizada” de tendencia general de los valores extremos de los datos Hagan el mismo gráfico para Heteromastus.similis vs Arena Media y muestren los dos gráficos en una sola hoja. Box-whiskers plots (lo veremos mas tarde) Comenten los resultados

42 Para modificar el gráfico se puede editar el texto: scatterplot(Uca.uruguayensis~ArenaMed, reg.line=lm, smooth=TRUE, spread=TRUE, boxplots='xy', span=0.5, cex=1.2, cex.axis=1.3, cex.lab=1.5, data=data) scatterplot(Uca.uruguayensis~ArenaMed, lwd.smooth=2, col=“blue”, smooth=TRUE, spread=TRUE, boxplots='xy', span=0.5, cex=1.2, cex.axis=1.5, cex.lab=1.3, data=data) Cambien los símbolos de los gráficos haciendo pch=… Los símbolos de los gráficos en R:

43 Mismo gráfico pero separando los datos según el factor “Río”:scatterplot(Uca.uruguayensis~ArenaMed | Río, reg.line=lm, smooth=TRUE, spread=TRUE, boxplots='xy', span=0.5, by.groups=TRUE, data=data)

44 b) Gráfico “Box-whiskers”: variable numérica vs factor.Variación del contenido de Arena Media según la Intensidad de la corriente mediana 1er y 3er cuartiles Cambien el color de las barras, el tamaño de las letras de los ejes, y otras cosas que deseen. CI 95% (aprox) boxplot(ArenaMed~FuerzaCorriente, ylab="ArenaMed", data=data, xlab="FuerzaCorriente“)

45 Otro gráfico XY: matplot(data$ArenaMed, data[, c("ArenaFina")], type="b", lty=1, ylab="", pch=1) plot(data$ArenaMed, data$ArenaFina, type="p", ylab="Arena Fina", pch=19, cex=1.5, col="red")

46 Otros comandos básicos son:Trabajen con todos estos atributos (y los de la siguiente diapositiva) para alterar el gráfico inicial a través de cambios en algunos de estos atributos.

47 Hay 657 colores en R: colors()

48 Hay 655 colores en R: colors(460)

49 C) Gráfico de medias e IC: variable numérica vs factor.plotMeans(data$Barro, data$FuerzaCorriente, error.bars="conf.int", level=0.95) Cambien los símbolos, colores y las leyendas de los ejes, etc.

50 Principales tipos de gráficos posibles en R:

51 UNA VEZ QUE UN GRÁFICO HA SIDO REALIZADO, diversos parámetros pueden cambiar muchos atributos del mismo: Estos parámetros NO tienen efecto y/o producen un error a menos que exista un gráfico en la pantalla gráfica (graphics device)

52 Para graficar una función cualquiera: x=seq(0,1000, 0.01) genera los valores x plot(x, (100*x)/(50+x), type="l", lwd=3) hace el gráfico deseado Para guardar un gráfico en un archivo png: png(file=“mi gráfico.png", width = , height= , units=“cm”,….) plot(1:10) el gráfico que se desea guardar dev.off() desconecta el device png y vuelve a la visualización por defecto (i.e. en la pantalla). También puede utilizarse el comando: saveplot(filename ="mi gráfico", type = "wmf", "emf", "png", "jpg", "jpeg", "bmp", "tif", "tiff", "ps", "eps", "pdf”, device=dev.cur()) Si la ventana gráfica está abierta, también puede utilizarse : El archivo será guardado en el directorio de trabajo.

53 D) Tabulación cruzada y gráfico “mosaico”:Es una tabla de múltiple entrada en cuyas celdas se muestran el número de casos para cada combinación de factores. mosaicplot(Survived~Class+Sex, data=Titanic, col=TRUE, cex.axis=0.8, xlab="Clase", ylab="Sexo") Permite visualizar y detectar la asociación entre variables categóricas. ¿CONCLUSIONES?

54 Es difícil interpretar el gráfico anterior sin conocer los totales (supervivientes + muertos) por clase y sexo. Una forma de calcular estos totales es: mosaicplot(~Sex+Class+ Survived, data= Titanic, color = TRUE, cex.axis=0.8, xlab=“Sexo", ylab=“Clase") ¿CONCLUSIONES?

55 Hay una gran cantidad de gráficos útiles y sofisticados que pueden hacerse con librerías especializadas como MASS y lattice que no serán discutidos en este curso por no ser necesarios para el mismo.