Controversias metodológicas y didácticas sobre la inferencia estadística Carmen Batanero y Carmen Díaz Universidad de Granada, España.

1 Controversias metodológicas y didácticas sobre la infer...
Author: Consuelo Villanueva Ortiz de Zárate
0 downloads 2 Views

1 Controversias metodológicas y didácticas sobre la inferencia estadística Carmen Batanero y Carmen Díaz Universidad de Granada, España

2 2/41 La estadística en la investigación empírica Las ciencias empíricas usan la inferencia estadística para mostrar efectos en variables de interés El uso e interpretaración de la inferencia se ha criticado durante 60 años (e.g. Yates, 1951; Morrison & Henkel, 1970; Harlow, Mulaik, & Steiger, 1997; Kline, 2004) Esta controversia crece: en sociedades como APA o AERA (Wilkinson et al, 1999;, Batanero, 2000; Hager, 2000;Kline, 2004) Resumiremos el debate y algunas conclusiones para la enseñanza

3 3/41 Resumen 1.Algunos errores en la interpretación de los tests estadísticos 2.Cuestiones filosóficas y psicológicas 3.Controversia sobre los tests estadísticos 4.Enseñanza y aprendizaje de la inferencia

4 4/41 Errores frecuentes en los tests estadísticos 1. Interpretaración del nivel de significación  =P(rechazar H 0 / H 0 cierta) ( Birnbaum, Falk, Pollard & Richardson, Vallecillos, Lecoutre & Lecoutre...) Item 1: Un nivel de significación de 5% significa que, en promedio, 5 de cada 100 veces que rechazamos la hipótesis nula, estaremos equivocados (cierto /falso). Item 2: Un nivel de significación del 5% significa que, en promedio, 5 de cada 100 veces que la hipótesis nula es cierta, la rechazaremos (cierto/ falso). Justifica tu respuesta.

5 5/41 La probabilidad de que la hipótesis nula sea cierta cuando ha sido rechazada, o la probabilidad de que la hipótesis nula sea cierta, no se pueden calcular en inferencia clásica (Seidenfel, Cabriá, Hackings) Estas probabilidades se pueden calcular en inferencia Bayesiana, donde son probabilidades subjetivas y no frecuenciales

6 6/41 Krauss & Wasner, 2002 Supongamos que obtienes un resutado significativo. C uál es tu conclusión ? Has mostrado la falsedad de la hipótesis nula Encontraste la probabilidad de que la hipótesis nula sea cierta Has probado tu hipótesis experimental Si rechazaste la hipótesis puedes calcular la probabilidad de una decisión equivocada Al repetir tu experimento, se repetirán tus resultados

7 7/41

8 8/41 2. Pensar que el p-valor es la probabilidad de que el resultado se deba al azar Un resultado significativo puede deberse a otros factores (ej. los estudiantes del grupo experimentoal podrían haber estudiado más que sus compañeros). Acá vemos la importancia del control experimental para asegurar que todas las condiciones (excepto el tipo de enseñanza) se mantienen constantes en los dos grupos.

9 9/41 3. Comparaciones Múltiples Creer en la conservación del nivel de significación cuyo tests sucesivos se llevan a cabo en el mismo conjunto de datos. Si hacemos 100 comparaciones en el mismo conjunto de datos usando en todas el nivel de significación.05, alrededor de 5 de los 100 tests serán significativos por azar, incluso si la hipótesis nula es cierta. Esto hace difícil interpretar los resultados (White, 1980; Moses, 1992).

10 10/41 4. El uso de.05 y.01 como nivel de significación no tiene justificación matemática Fisher (1935) sugirió seleccionar un nivel de significación del 5% como convenio para reconocer un resultado significativo. Más tarde Fisher (1956) consideró que un investigador debe seleccionar el nivel de signifcación de acuerdo a las circunstancias, y sugirió publicar el p-valor exacto obtenido en cada experimento particular, lo que, de hecho, implica establecer el nivel de significación después del experimento. Sin embargo, hoy el uso de.05 y.01 es general y se toma como criterio de significación práctica o para aceptar trabajos para publicación. No se da la misma importancia al error tipo II

11 11/41 Algunas cuestiones filosóficas 1. Razonamiento inductivo: Conclusión más amplia que las premisas –4, 9, 16, 25 son suma de dos números primos, ¿es todo cuadrado perfecto suma de números primos? 2. Razonamiento deductivo; Conclusión incluída en la premisa, se justifica lógicamente –En un triángulo la suma de los ángulos es 180º No podemos construir un triángulo rectángulo con un ángulo obtuso Hasta ahora, la estadística no ha dado una justificación completa al razonamiento inductivo

12 12/41 Contraste de hipótesis y prueba por contradicción Prueba por contradicción A implica no B Entonces, si B se presenta, A es falso Contraste estadístico A implica que B es muy improbable B se presenta, es muy improbable que A sea cierta? (Solo 2% de las mujeres sanas tiene una mamografía positiva. Una mamografía es positiva, ¿tiene la mujer necesariamente cáncer de pecho?)

13 13/41 La logica híbrida de los tests (Gigerenzer) Dos visiones de los tests que se confuden o mezclan Para Fisher el test de significación es una regla de razonamiento inductivo: Un p-valor indica para él la fuerza de la evidencia en contra de la hipótesis Para Neyman y Person, el contraste estadístico es un criterio de decisión entre dos posibles acciones La práctica actual de los tests estadísticos mezcla elementos de Neyman-Pearson (es un proceso de decisión) y de Fisher (es un proceso inferencial, donde los datos se usan para proporcionar evidencia a favor de la hipótesis).

14 14/41 Explicaciones psicológicas (Gigerenzer) Superego (Neyman-Pearson): prescriben lo que debe hacerse y no da libertad a los investigadores Ego ( Fisher): Lo que conviene al investigador: establecer una hipótesis alternativa difusa o no establecerla antes de recoger los datos, interpretación epistémica de la probabilidad of error Id: interpretación Bayesiana del resultado: el deseo oculto en que el investigador está interesado

15 15/41 Ilusión de la prueba probabilística por contradicción, ilusión de alcanzar la improbabilidad (Falk & Greenbaum) Creer que la hipótesis nula se vuelve improbable al obtener un restulado significativo Se basa en una generalización incorrecta del razonamiento lógico La gente piensa que puede controlar el azar mediante cálculos matemáticos

16 16/41 Lenguaje y la fallacia de la condicional transpuesta (Diaconis & Friedman) Qué significa P(error tipo I) ? “La hipótesis nula es cierta" “La hipótesis nula es rechazada" “Rechazamos la hipótesis nula auque es cierta” “La hipótesis nula es cierta, a pesar que la hemos rechazado” “La hipótesis nula es cierta y la rechazamos” “La frase “error tipo I” no expresa un condicional

17 17/41 Controversia sobre los tests estadísticos 1. La hipótesis nula nunca es cierta y por tanto los tests estadísticos son inválidos, al basarse en una premisa falza Nuestro razonamiento es como sigue: Un resultado significativo es improbable si H 0   e =  c es cierta Ocurre un resultado significativo O H 0   e =  c es falsa o hemos obtenido un resultado improbable

18 18/41 Lo que afirmamos en el test es que un resultado significativo es improbable, si la hipótesis fuese cierta. Esta es una propiedad matemática de la distribución muestral, que no cambia si la hipótesis es cierta o falsa

19 19/41 2. La hipótesis alternativa no nos indica la magnitud del efecto. La significación estadística no informa sobre la significación práctica de los datos Cuando el fin de la investigación es estimar el efecto, los contrastes estadísticos debieran completarse con intervalos de confianza y análisis de la potencia

20 20/41 3. La elección del nivel de signifcación es arbitraria; Por tanto algunos datos pueden ser significativos a un nival dado y no a otro nivel diferente Hay aquí una diferencia con un “procedimiento matemático” ; siempre hay cierta subjetividad Algunos investigadores aconsejan informar del p- valor exacto al publicar el trabajo. También se recomienda elegir el nivel de significación antes de mirar a los datos Además del p-valor, debiéramos informar del tamaño de la muestra y del tamaño del efecto

21 21/41 4. La significación estadística no informa de la probabilidad de que la hipótesis sea cierta La probabilidad de que la hipótesis sea cierta no tiene sentido en inferencia clásical (enfoque frecuencial) Ej: H 0   e =  c o H 0   e   c No tiene sentido decir que  e =  c un tanto por ciento de veces

22 22/41 Este problema tambíén ocurre con los intervalos de confianza Solo nos dan el porcentaje de intervalos de confianza no incluirán al parámetro

23 23/41 5. Los errorres tipo I y tipo II están inversamente relacionados. Los investigadores ignoran el error tipo II y dan demasiada atención al error tipo I No es posible disminuir a la vez las dos probabilidades de error a menos que aumentemos el tamaño de la muestra El investigador debe valorar cuál tipo de error es más importante para él y estudiar la potencia del test

24 24/41 El enfoque Bayesiano (Lecoutre, Poitevineau, Rouanet, Albert, Berry, Bernardo, etc. ) Dados los datos muestrales y’ = (y 1,..., y n ) y p(y/  ) la distribución de probabilidad que depende de los parámetros  = (  1,...,  k ). En inferencia Bayesiana el parámetro se considera una variable aleatoria con distribución a priori p(  ). Mediante el teorema de Bayes actualizamos nuestra información sobre  calculando la distribución a posteriori p(  /y)

25 25/41 Por tanto, es posible dar sentido tanto a la probabilidad de una hipótesis p(q) como a la probabilidad de una hipótesis dados los datos p(q|y) También podemos usar p(q|y) para calcular la “probabildad de que el parámetro esté en un intervalo, dados los datos” Estas probabilidades son subjetivas y no frecuenciales, aunque pueden usarse distribuciones iniciales no informativas Además el efecto de la distribución a priori se corrige al aumentar la muestra

26 26/41

27 27/41 Implicaciones para la Enseñanza y Aprendizaje de la Inferencia Hay tres niveles relacionados en la controversia sobre los tests estadísticos (Ito): –La disputa dentro de la estadística: ¿Cuál método de inferencia es más adecuado al razonamiento inductivo? –La controversia en las aplicaciones ¿Qué métodos estadísticos y estándares hemos de exigir al publicar un trabajo de investigación? –La controversia en la enseñanza: ¿Qué inferencia enseñar y cómo?

28 28/41 Hay un claro problema educativo en este debate Los tests estadísticos son objetos complejos, puesto que su comprensión requiere integrar pares de objetos relacionados (pero diferentes) –Población /muestra –Parámetro /estadístico –Hipótesis nula y alternativa –Región critica y de aceptación –Errores Tipo I y II –nivel de significación, potencia,.... No tenemos muchas investigaciones sobre enseñanza de la inferencia

29 29/41 Tendencia a reformar la enseñanza El software, fácil de usar y potente, permite una enseñanza más activa, basada en resolución de problemas, con datos reales y simulación (Biehler, Chauchat, Oriol y Regnier) Aumenta la preocupacion didáctica (e.g. Moore, 1997). ¿Menos teoría y más aplicaciones? ¿Cuáles son los desafios para los profesores?

30 30/41 1. Debate filosófico Diferentes visiones de la aleatoriedad, probabilidad e inferencia que continúan hoy dia (Borovcnik & Peard, 1996). Estas concepciones se reflejan en el currículo: –Solo Análisis Exploratorio de datos –Inferencia clásica o bayesiana –Resampling methods –Solo estadística matemática ¿Qué enoque es mejor para cada tipo de estudiante? ¿Cuál es la mejor forma de introducir un determinado enfoque?

31 31/41 2.Fronteras difusas del pensamiento estadístico avanzado El pensamiento matemático avanzado requiere el conocimiento de cálculo y ágebra; nosotros tenemos que enseñar inferencia avanzada sin formalización En la enseñanza secundaria, el curriculo comienza a introducir nociones de inferencia (Parzysz, Chaput, Henry) Muchas personas tienen que usar la inferencia, pero no tienen una base estadística o matemática suficiente ¿Cuál seria el mínimo formalismo requerido para enseñar inferencia? ¿Cómo usar los ordenadores y otros recursos para apoyar una comprensión intutiva de los conceptos básicos de inferencia?

32 32/41 3. Necesidad de mejorar la intuición estocástica La intuición estocástica incorrecta tiene serias implicaciones en muchas actividades humanas: votaciones, inversión, juicios, medicina, investtigación, juego (ludopatía) ¿Por qué la enseñanza actual de la estadística no ayuda a corregir las intuiciones erróneas de los estudiantes? ¿Debiéramos incluir principios de filosfía y psicología en la enseñanza de la inferencia?

33 33/41 La estadística es sólo una parte del proceso de inferencia científica, y sin embargo se enseña separada de dicho proceso Los estudiantes saben aplicar un procedimiento pero no saben cuál procedimiento aplicar (Pimenta, 2006) Deberíamos ser conscientes que nuestro objetivo no es convertir a los estudiantes en “estadísticos aficionados” sino prepararlos para trabajar en colaboración con profesionales estadísticos

34 34/41 http://www.maths.otago.ac.nz/icots7