Estadística espacial y temporal*

1 Estadística espacial y temporal*Carlos Reynoso UNIVERSI...

Author: Víctor Maidana Escobar

0 downloads 3 Views

1 Estadística espacial y temporal*Carlos Reynoso UNIVERSIDAD DE BUENOS AIRES * Introducción al curso y desarrollo del Módulo 1

2 Objetivos Proporcionar comprensión básica de las herramientas estadísticas convencionales del espacio y el tiempo, y en particular de sus alcances y limitaciones. Concientizar sobre la problematicidad inherente a herramientas que proporcionan (por definición) información sesgada y estática, ligada a supuestos de normalidad, homogeneidad y monotonía. Informar sobre formas alternativas de elaborar conocimiento y permitir la intervención en asuntos temporales y espaciales.

3 Módulo 1 – Estadísticas convencionalesArgumentos, conceptos y límites de las estadísticas convencionales. Problemas fundamentales: distribuciones normales vs Ley de Potencia. Dilemas de la prueba estadística de la hipótesis nula. Justificación del modelado complejo como alternativa y complemento del modelado estadístico clásicos. Demarcación: ciencias de la complejidad vs pensamiento complejo. Principales algoritmos de la complejidad. Herramientas de estado de arte y su uso en proyectos de misión crítica a escala real.

4 Módulo 2 – Estadísticas temporalesEstadísticas de la temporalidad. Dinámica no lineal y series temporales complejas en ciencias humanas. Modelos espaciales/temporales en geografía humana. Modelos de cambio y transiciones de fase. Criticalidad auto-organizada. Modelado complejo de procesos temporales: sincronización y control de caos. Significación y etiología de las medidas de análisis de recurrencia. Estado del arte y perspectivas. Ejercicios de análisis y diagnosis de series temporales con análisis de recurrencia. Ejercicios de dinámica no lineal aplicada a la hidrodinámica, modelado hidrológico y problemáticas análogas.

5 Módulo 3 – Estadísticas de la espacialidadGeoestadística clásica y geoestadística de la complejidad. Conceptos fundamentales y programas de cálculo y modelado. Problemas y alcances del modelado a escala regional. Ejercicios de contrastación entre análisis clásicos y complejos.

6 Módulo 4 – Estadísticas reticularesEstadísticas reticulares de la sociedad, el espacio y el tiempo. Redes sociales y redes espaciales. Alcances y limitaciones de la estadística reticular basada en presunciones de normalidad. Práctica razonada en análisis, medición y estadísticas reticulares.

7 Agenda de la presentaciónTipificación de modelos Modelos estadísticos en la teoría y en la práctica La estadística como herramienta de la retórica Falacias, paradojas y técnicas de prevaricación Dilemas de la prueba estadística de la hipótesis nula Estadísticas robustas y no paramétricas Complejidad estadística como proyecto en construcción 

8 Secuencia del desarrollo estadísticoEstadísticas convencionales Estadísticas descriptivas Inferencia estadística y proyección Reconocimiento de patrones Prueba estadística de la hipótesis nula Doble inflexión: frecuentista y bayesiana Estadísticas robustas – estadísticas no paramétricas Geoestadísticas (1960s, G. Matheron) Geocomputación (1990s)

9 Tipificación de modelos

10 Estadísticas Estadísticas en general Estadísticas espacialesPresunciones de normalidad No robustas, paramétricas Estadísticas espaciales Presunciones de homogeneidad Estadísticas temporales Presunciones de monotonía Análisis de series temporales Series temporales no lineales Presentación separada Transiciones de fase

11 Estadísticas – Demasiadas cosasConceptos y técnicas de muestreo Estadísticas descriptivas Medidas de tendencia central Teoremas del límite central (TLC / CLT) Probabilidad Distribuciones de probabilidad (PDF) Multiplicidad de distribuciones Regresión lineal simple y múltiple Análisis de frecuencia acumulativa, intervalos de confianza Descubrimiento de patrones Patrones espaciales, atractores, minería de datos, minería de Web

12 Introducción a la estadística

13 Distribución normal Cerca del 68% del conjunto se encuentra a 1 desviación estándar de la media, 95 a 2 y 99,7 a 3 Las desviaciones que excedan 2 veces la DE se considerarán significativas Regla de ,7 Mal llamada “curva de Bell”

14 Distribución normal Igual que el resto de las estadísticas, no es una matemática antigua Se remonta a Friedrich Gauss y por eso se la llama gaussiana Exaltada por el antropólogo Francis Galton:

15 Distribución normal Consolidada en ciencias sociales por Émile Durkheim: Sociología: Ciencia para distinguir los estados normales de los estados patológicos Anomia = falta de normalidad Crimen = una “desviación” Suicidio = varía en función inversa al grado de integración en la pauta normal

16 Distribución normal Exaltada por Karl Marx, también basado en Adolphe Quételet:

17 Estaturas “normales” Datos de Nassim Taleb:

18 Mandelbrot & Hudson

19 Necesidad de poner estadísticas en contextoMuestreo como necesidad técnica Transfiguración de una muestra probablemente sesgada en una “muestra representativa” Tener en cuenta la crítica de Kruskal Técnicas construidas a mano

20 Estadística no computacionalJohan Wakefield, Bayesian and frequentist regression methods, Springer, 2013, p. viii: Las limitaciones de la estadística lineal se confunden con las posibilidades de la estadística en general

21 Fundamentación normal de la NHSTRequisito de muestreo aleatorio ¿De dónde viene el 5%?

22 Fundamentación normal de la NHST

23 Parámetros no robustos

24 http://www. lanacion. com

25 Modelos de contraste de atributosAmos Tversky (1977) Hallazgo importante: El contexto o marco de referencia modifica la similitud entre los conceptos. Este es el truco de muchas encuestas de predicción electoral. Cuando vayan a elaborar una encuesta, ya saben. Ejemplo de comparación: ¿Qué países son más parecidos? AUSTRIA Suecia 49% Polonia 15% Hungría 36% AUSTRIA Suecia 14% Noruega 26% Hungría 60%

26 Teorema de Arrow http://www. infobae

27 Teorema de Arrow http://www. infobae

28 Teorema de Arrow http://www. infobae

29 Teorema de Arrow http://en. wikipedia

30 Más casos

31 Más todavía

32 Y continúa…

33 Y continúa…

34 No hay diferencia…

35 Usos perversos de la NHST

36 Premios Nobel Ig®

38 Ley de potencia Independiente de escala = No hay valores normales, ni una media, ni una escala característica La dispersión de los valores puede ser de orden astronómico

39 Escenarios independientes de escalaLeyes de Pareto, Gutenberg-Richter, Omori, Zipf, Richardson Citas bibliográficas entre miembros de la comunidad académica, colaboraciones en reportes de investigación Relaciones sexuales (!!), agendas telefónicas Nexos sintácticos entre palabras en un texto o discurso Clientelismo, influencia Alianzas tecnológicas Relaciones entre actores de cine Sinapsis neuronales Contactos entre personas de una organización Cadenas alimentarias Conexiones entre organismos vinculados al metabolismo o proteínas reguladoras Propagación de enfermedades y virus informáticos Alternativa al concepto de epidemiología de las representaciones (Dan Sperber)

40 Diversidad de distribucionesBenford, Benini, Benktander, Bernoulli, beta, binomial, binomial negativa, de Bose-Einstein, Bradford, Bull, Burr, Cantor, Cauchy (o Breit-Wigner, o Lorentz), Champernowne, Chernoff, chi cuadrado, de Davis, Dirichlet, doble gamma, doble Weibull, de Erlang, exponencial, geométrica, de Gauss, Gibrat, Gompertz, gamma, Heaps, hiperexponencial, hipergeométrica, de Horton, Kleiber, Kumaraswamy, Laplace, Lévy, logarítmica, logística, lognormal, Lotka, de Moyal, multinormal, de Nakagami, Pareto, Poisson, Pólya, Rademacher, Rayleigh, Rice, secante hiperbólica, de Wigner o semicircular, Skellam, de Student, triangular, uniforme, de von Misses, Wald, Wallenius, Yule-Simon, zeta, los tres tipos de valor extremo (Gumbel, Fréchet, Weibull) y por supuesto la distribución de Zipf, Zipf/Mandelbrot o LP Casi no hay tests de no-normalidad

41 Abundante bibliografía

42 Ejemplo – Distribución logística (1/2)Promovida por Joseph Berkson (1938) Afirmaba que el cigarrillo no causaba cáncer de pulmón Distribución simétrica pero de cola pesada Biología/ecología – Crecimiento de especies en competencia Epidemiología – Dispersión [spreading] de epidemias Mercadeo – Difusión de ventas de nuevos productos Energía – Difusión y sustitución de fuentes energéticas primarias (curva de Hubbert) Hidrología – Distribución de descargas de ríos (o régimen de lluvias) en el largo plazo

43 Ejemplo – Distribución logística (2/2)

44 Dilemas de la estadística en general

45 Dilemas de la estadística en generalFalta de fundamentación lógica y matemática Problemas específicos de dominio Diferentes lógicas en lo espacial y temporal Autocorrelación Falta de robustez Teorema de Arrow Ley de Weber-Fechner-Stevens (conocida por Bateson) Nelson Goodman Similitudes, diferencias, analogías Explosión combinatoria Cantidades precisas, cualidades inciertas Umberto Eco – Charles Hockett (prevaricación) 

46 Prevaricación (1/2)

47 Prevaricación (2/2)

48 Catálogo de problemas Problema del límite [boundary]Efecto del borde [edge] Efecto de forma Problema de escala Problema de la autocorrelación espacial [pattern problem] Waldo Tobler y la primera ley de la geografía Problema del cambio de soporte (COSP) Promediación por captura a diferentes escalas Falacia ecológica Falacia locacional Cada actor se sitúa en un solo sitio Nadie “vive” en los lugares más atestados Oficinas, estadios, ferrocarriles, malls Problema de la Unidad Areal Modificable (MAUP) →

50 Problemas de estadística espacial

51 Problema de la Unidad Areal Modificable (MAUP)Stan Openshaw

52 Problema de la Unidad Areal Modificable (MAUP) /1/2)Descubierto por Gehlke y Biehl (1934) y descripto por Stan Openshaw (1984) Vinculado a problemas de autocorrelación espacial y a la falacia ecológica Doble problema Problema de escala Problema de agregación No hay reglas, ni estándares, ni convenciones internacionales para orientar la agregación de datos espaciales.

53 Problema de la Unidad Areal Modificable (MAUP) (2/2)Los resultados derivados de datos recolectados en áreas pequeñas pueden ser diferentes si la recolección es sobre áreas más grandes P. ej. diversidad ecológica Personas, viviendas, edificios, manzanas, barrios, zonas urbanas, regiones, partidos, provincias, zonas geográficas, países, confederaciones.

54 Problema de la Unidad Areal Modificable (MAUP)Hay un número inmenso de organizaciones areales posibles, arrojando resultados diversos en cualquier medición. No es sólo un problema técnico sino un problema conceptual inevitable. Yule y Kendall (1950s) basados en Gehlke y Biehl (1934) demostraron que se puede producir cualquier correlación entre 0 y 1 meramente eligiendo un tamaño adecuado de la unidad areal

55 Catástrofres de la presunción de normalidadFalta de robustez de los parámetros de la estadística paramétrica Insuficiencia de los modelos de normalidad en su propio terreno La normalidad como horizonte de posibilidades de las consultoras financieras La “falsa medida del hombre” como matriz de referencia universal Escamoteo de la diversidad de distribuciones Ocultamiento de los fracasos históricos 

56 El indicador del agujero de ozono como outlier

57 El agujero de ozono Los métodos computacionales programados para identificar y suprimir outliers son responsables de haber retrasado la investigación sobre el agujero de ozono durante años (desde 1976 a 1985, por lo menos) por considerar que las desviaciones del 10% por debajo de la normalidad (180 unidades de Dobson) detectadas por los instrumentos TOMS del satélite Nimbus 7 se debían a errores en la toma y filtrado de datos. Revisados los programas del satélite y eliminados los filtros, se comprobó que el agujero venía siendo detectado por los sensores satelitales desde mucho antes sin que nadie hiciera nada al respecto (Farman, Gardiner y Shanklin 1985). Véase descargo de Friedrich Pukelsheim (“mito urbano”)

58 Efectos colaterales no significativosLaboratorios Merck Anti-inflamatorio Rofecoxib (marca Vioxx) Entre 5 y 8 casos fatales que no se manifestaron en el grupo de control 4,95% de significancia En el mejor escenario, poco menos de muertes cada cajas !! Desde 2005 se revirtió la jurisprudencia La Corte Suprema de USA, Wall Street Journal, etc., menos retrógrados que ciertos antropólogos

59 Prueba estadística de la hipótesis nula (NHST)

60 Prueba estadística de la Hipótesis Nula (1/24)Prehistoria – Arbuthnott (1710) Prueba estadística de la existencia de Dios. Mayor proporción de nacimientos de hombres que de mujeres en Londres durante 82 años

61 Prueba estadística de la Hipótesis Nula (2/24)Prehistoria – Ysydro Edgeworth (1885) Se preguntaba si “las diferencias observadas entre las estaturas medias de 2315 criminales y la estatura media de 8585 adultos británicos de sexo masculino es significante”. Por influencia de Edgewoth se habla también de prueba estadística de significancia.

62 Prueba estadística de la Hipótesis Nula (3/24)Ronald Fisher Statistical methods for the research worker (1925) The design of experiments (1935)

63 Prueba estadística de la Hipótesis Nula (4/24)Ronald Fisher Es posible argumentar desde las observaciones a las hipótesis. Para lograrlo, se define primero una hipótesis nula. La HN se ve des-probada si la muestra estimada se desvía de la media de la distribución de muestreo por una cantidad mayor a la de un criterio especificado, llamado el nivel de significancia o valor crítico de p, el cual se sugiere se fije en un valor del 5%. La prueba fisheriana de significancia se centra en el rechazo de la hipótesis nula.

64 Prueba estadística de la Hipótesis Nula (5/24)Neyman y Pearson (1930s en adelante) Introducen la Hipótesis Alternativa No hablan de significancia, sino de Prueba de Hipótesis Introducen los tipos de error I y II

65 Prueba estadística de la Hipótesis Nula (6/24)Errores de tipo I y II

66 Prueba estadística de la Hipótesis Nula (7/24)Clifford Geertz, Conocimiento Local Tipificación al revés de lo correcto No corresponde hablar de “aceptar” hipótesis sino de rechazar vs no poder rechazar la hipótesis nula Tampoco el investigador está condenado a equivocarse, ni es posible situarse “entre” un error y otro

67 Prueba estadística de la Hipótesis Nula (8/24)Resumen de Fisher vs Neyman-Pearson:

68 Prueba estadística de la Hipótesis Nula (9/24)Supongamos que en 20 intentos hemos obtenido 14 caras y 6 cruces El valor de p sería la probabilidad de que se obtengan por lo menos 14 caras en 20 intentos La probabilidad se puede calcular de diversas formas. P. ej. por coeficientes binomiales

69 Prueba estadística de la Hipótesis Nula (10/24)Como la distribución binomial es simétrica para una moneda de dos caras, el valor de p para un test de doble cola es simplemente el doble del valor obtenido en la ecuación 0,0576… x 2 = 0,1152 Como este valor de p excede a 0,05, la observación es consistente con la HN, esto es, con la afirmación de que el resultado observado puede deberse solamente al azar. Aunque la moneda no cayó en forma pareja, no nos es posible rechazar la HN al nivel del 5%. Si lo hiciéramos, incurriríamos en lo que en una prueba de hipótesis sería un error de Tipo I

70 Prueba estadística de la Hipótesis Nula (11/24)La lógica de las pruebas de significancia o hipótesis es inválida Jacob Cohen (1994) Este primer razonamiento sería válido (modus tollens, negación del antecedente negando el consecuente) Pero el razonamiento es probabilístico: Otro caso de la misma falacia sería:

71 Prueba estadística de la Hipótesis Nula (12/24)La falacia es bien conocida desde los tiempos de How to Lie with Statistics (Darrel Huff, 1974: 75 y ss.) El libro de estadísticas más vendido en la segunda mitad del siglo XX Otro ejemplo a considerar:

72 Prueba estadística de la Hipótesis Nula (13/24)Otra falacia estadística implicada en la prueba estadística de la HN tiene nombre: Afirmación del consecuente: P → Q Q  P Negar la HN no implica afirmar cualquier otra (la contranula HN) Como decía Bateson, afirmación y negación operan a distintos niveles de tipificación

73 Prueba estadística de la Hipótesis Nula (14/24)Afirmación del consecuente en versión Neyman-Pearson Paul Meehl lo expone claramente:

74 Prueba estadística de la Hipótesis Nula (15/24)Hipótesis nula – Significado Fisher: La HN nunca se prueba ni se establece, sino que es posiblemente des-probada en el curso de la experimentación. Puede decirse que cada experimento sólo existe con el propósito de dar a los hechos la oportunidad de des-probar [disproving] la hipótesis nula.

75 Prueba estadística de la Hipótesis Nula (16/24)Hipótesis nula – Críticas: Joseph Berkson (2003): La evidencia ordinaria no toma esta forma. Con el corpus delicti delante nuestro no decimos “Hay evidencia contra la hipótesis de que nadie está muerto”. Decimos, más bien, que “Evidentemente alguien ha sido asesinado” Crítica usual: la HN casi nunca es verdad Hay empero papers y sitios de Web que reivindican la mala fama de la hipótesis nula La prueba de Arbuthnott, el creacionismo y su “diseño inteligente”, el triángulo de las Bermudas

76 Prueba estadística de la Hipótesis Nula (17/24)Hipótesis nula – Críticas – Trivialidad Fred Guthery – HN en ecología:

77 Prueba estadística de la Hipótesis Nula (18/24)Hipótesis Nula – Más críticas Jakob Cohen (“The earth is round: p<0.5”) Nil hypothesis – Refutación sin riesgos David Bakan:

78 Prueba estadística de la Hipótesis Nula (19/24)Carlos Reynoso (2011)

79 Prueba estadística de la Hipótesis Nula (20/24)Qué significa el valor de p? El tema está para la chacota: “Criteria for selecting a significance level: On the sacredness of .05” (Labovitz 1968), “The sacredness of .05: A note concerning the uses of statistical levels of significance in social science” (Skipper, Guenther y Nash 1970), “Confidence intervals rather than p values: estimation rather than hypothesis testing” (Gardner y Altman 1986), “The irreconcilability of P values and evidence” (Berger y Sellke 1987), “The end of the p value?” (Evans, Mills y Dawson 1988), “A picture is worth a thousand p values: On the irrelevance of hypothesis testing in the microcomputer age” (Loftus 1993), “The earth is round (p< .05)” (Cohen 1994), “Toward evidence-based medical statistics: 1. The p value fallacy” (Goodman 1999), “What your statistician never told you about P-values” (Blume y Peipert 2003), “Incongruence between test statistics and p values in medical papers” (García-Berthou y Alcaraz 2004), “A farewell to p-values?” (Moran y Solomon 2004), “A dirty dozen: Twelve P-value misconceptions” (Goodman 2008), “Exposing the P value fallacy to young residents” (Sestini y Rossi 2009) y “Much ado about the p value” (van der Pas 2010).

80 Prueba estadística de la Hipótesis Nula (21/24)Valor de p: Se define como la probabilidad de observar eventos tanto o más extremos que los que se manifiestan en los datos observados en caso que la hipótesis nula fuera verdad. Si es suficientemente pequeño (típicamente p 0.05) puede decirse que los datos proporcionan evidencia contra la HN, la que convendría rechazar. No mide la probabilidad de que la HN sea falsa

81 Prueba estadística de la Hipótesis Nula (22/24)Percepciones erróneas: Cuestionario de Gigerenzer y otros (2004)

82 Prueba estadística de la Hipótesis Nula (23/24)Porcentajes de respuestas erróneas:

83 Prueba estadística de la Hipótesis Nula (24/24) - ConclusionesHay dictámenes de la Corte Suprema de USA que desestiman la NHST. Todavía vigente en políticas editoriales de journals científicos. La bibliografía crítica no ha puesto el acento en los supuestos estadísticos que la soportan. Recomendación pragmática: Especificar los datos de la NHST con el menor valor de p posible Pero asentar las reservas frente al método y a los supuestos en que se funda.

84 Tópicos pendientes Estadísticas de la complejidadDe la geoestadística a la geocomputación Demarcación de métodos de complejidad Algoritmos de la complejidad Presentaciones separadas

86 Recursos bibliográficos

87 Sobre estadísticas no paramétricas

88 Sobre muestreo (otra ciencia oscura)

89 Referencias

95 Referencia primaria http://carlosreynoso. com

96 Carlos Reynoso UNIVERSIDAD DE BUENOS AIRES http://carlosreynoso.com.ar¿Preguntas? Carlos Reynoso UNIVERSIDAD DE BUENOS AIRES

Estadística espacial y temporal*

Recommend Documents