1 Análisis de Datos para Investigaciones Educativas
2 La estadística, como rama de la Matemática, trata del desarrollo y aplicación de métodos y técnicas para la colección, tabulación, análisis e interpretación de un conjunto de datos, de modo que la “inseguridad” de las conclusiones basadas en los datos, se puedan evaluar a través de las probabilidades
3 Una vez que se define el objetivo de lainvestigación en la que es necesario aplicar métodos estadísticos, es fundamental tener en cuenta los aspectos siguientes: ¿Cuáles son los sujetos u objetos de estudio? ¿Qué indicadores van a ser estudiados? ¿Cuál es el alcance de la investigación?
4 Universo o población: Es una colección de individuos u objetos que poseen al menos una característica común. Los términos universo y población suelen usarse indistintamente. Muestra: Es una parte o subconjunto cualquiera de la población. La selección y el estudio de una muestra, tienen por objetivo, la extracción de conclusiones que sean válidas para el universo del cual se obtuvo dicha muestra, por lo que es imprescindible que esta sea representativa de la población.
5 El uso del muestreo se hace necesario, cuando se está en presencia de una población infinita o de poblaciones finitas de gran tamaño, o cuando en una población se hace necesario analizar su calidad. La alternativa de realizar un muestreo es generalmente favorable pues significa un ahorro en tiempo, recursos y esfuerzos.
6 Tipos de muestras: Si el objetivo es determinar valores estimados de parámetros específicos o verificar hipótesis en relación con las características de una o más poblaciones, es recomendable utilizar el muestreo probabilístico. Si el objetivo es solo exploratorio, con poco interés en la generalización de resultados a la población, se recomienda utilizar un muestreo no probabilístico.
7 En una muestra probabilística todos los elementos de la población tienen la misma posibilidad de ser seleccionados y las mismas se obtienen definiendo las características de la población, el tamaño de la muestra y aplicando una selección aleatoria de las unidades de análisis. Dentro de estas se encuentran: muestra aleatoria simple, muestra probabilística estratificada, muestra probabilística por racimos, entre otras.
8 Ejemplo No.1 Se quiere investigar el desarrollo de lashabilidades investigativas de los estudiantes de una carrera, en una Facultad: Si el objetivo es estudiar dicho indicador por cada uno de los años de la carrera, entonces el muestreo recomendable es el aleatorio simple por cada año. Si el objetivo es estudiar dicho indicador a nivel de facultad, entonces el muestreo recomendable es el muestreo aleatorio estratificado, donde los estratos son cada uno de los años de la carrera.
9 Las muestras no probabilísticas, dependen fundamentalmente de la toma de decisiones de una persona o grupo de personas, presuponen un procedimiento de selección informal y poco arbitrario. Estas pueden ser entre otras : muestras de sujetos voluntarios muestra de expertos muestra de sujetos-tipos muestra por cuotas
10 Ejemplo No.2 Sujetos que voluntariamente, acceden a participar en un estudio que monitorea la eficiencia de un nuevo método de enseñanza o la aplicación de un criterio de expertos
11 RECOLECCIÓN DE DATOS. ESCALAS DE MEDICIÓN Y TIPOS DE DATOS.¿Cuál es la forma idónea de recolectar los datos? ¿Qué instrumento de medición se va a emplear? Los requisitos de un instrumento de medición son los siguientes: Confiabilidad: Grado en que su aplicación repetida al mismo sujeto u objeto, produce resultados similares. Validez: Grado en que un instrumento mide la variable que se pretende medir. Entre los instrumentos de medición de uso más frecuente en las investigaciones en la educación están: escalas de aptitudes, encuestas, análisis de contenido, observación, pruebas estandarizadas, etc.
12 ¿Qué datos se van a analizar?Los tipos de datos, se clasifican en: Datos cualitativos, por ejemplo: Resultados de una evaluación (B, R, M) Datos cuantitativos, por ejemplo: Peso y Talla.
13 Las principales escalas de medición de datos son:Nominal: Los valores de la variable son nombres o símbolos que no guardan ninguna relación de orden. Por ejemplo, centro de procedencia de estudiantes que ingresan a las universidades, sexo, causas de poco rendimiento escolar. Los datos que se miden en este tipo de escala siempre suelen ser de tipo cualitativo. Ordinal: Los valores de la variable pueden ser números o símbolos que permiten distinguir un orden, pero no es posible identificar cuan próximo o alejados se encuentran los valores diferentes de la variable. Los datos que se miden en este tipo de escalas suelen ser tanto cualitativos como cuantitativos. Por ejemplo, evaluaciones de un examen, nivel de satisfacción de un cliente.
14 Las principales escalas de medición de datos son: (cont)De Intervalo: Además de que indican orden, es posible establecer la distancia entre un valor y otro. Los datos que suelen medirse en esta escala se denominan datos continuos, como por ejemplo los que se refieren a magnitudes de temperatura y otros. De razón: Cuando una escala tiene todas las características de una escala de intervalo y además tiene un punto cero real en su origen. Ejemplo: estatura, tiempo.
15 Otra forma de clasificar las mediciones de unconjunto de datos es teniendo en cuenta el tipo de variable, estas pueden ser clasificadas en discretas o continuas, a saber: Variable discreta: Es aquella cuyo conjunto de valores es a lo sumo numerable. Variables continuas: Es aquella que puede tomar todos los valores de un intervalo real
16 MÉTODOS DE ANÁLISIS DE UN CONJUNTO DE DATOSCuando se va a analizar un conjunto de datos es necesario tener en cuenta los siguientes aspectos: Decidir que métodos estadísticos son apropiados para analizar los datos. Realizar el análisis requerido. Interpretar los resultados del análisis realizado.
17 Los principales métodos estadísticos de un conjunto de datos son: Estadística Descriptiva y Estadística Inferencial. Los métodos de la Estadística Descriptiva, como su nombre lo dice, tienen como objetivo realizar un análisis descriptivo de un conjunto de datos, valores o puntuaciones. Este análisis incluye: métodos tabulares, métodos gráficos, cálculos de descriptores numéricos y análisis de asociación entre dos variables. Si el objetivo que se pretende con la investigación, es realizar una generalización del comportamiento de los indicadores estudiados, a la población, entonces es recomendable utilizar los métodos de la Estadística Inferencial, aunque se recomienda realizar previamente el análisis descriptivo de los datos.
18 ELEMENTOS DE ESTADÍSTICA DESCRIPTIVAEn el caso de datos discretos se recomienda sean ordenados de menor a mayor. Los datos continuos suelen agruparse y clasificarse, las clases en las que son agrupados son intervalos de valores y se denominan intervalos de clases. En los datos cuantitativos las clases son las cantidades, mientras que en los restantes tipos de datos las clases son categorías de clasificación.
19 ALGUNAS RECOMENDACIONES PARA LA DETERMINACIÓN DE LOS INTERVALOS DE CLASES SON:La cantidad de clases (k) a seleccionar, según la cantidad de datos, es la siguiente: Cantidad de datos (n) menos de 50 de 50 a 100 de 100 a 250 más de 250 Cantidad de clases (k) de 5 a 7 de 6 a 10 de 7 a 12 de 10 a 20
20 ALGUNAS RECOMENDACIONES PARA LA DETERMINACIÓN DE LOS INTERVALOS DE CLASES SON:2- En caso de datos continuos o sobre cantidades, es frecuente seleccionar las clases con igual amplitud (h) y se puede determinar a través de la expresión: donde Xmáx es el mayor valor y Xmín es el menor valor, de los datos.
21 DISTRIBUCIÓN DE FRECUENCIASCuando la distribución de frecuencias es mostrada en forma de tabla se denomina tabla de frecuencias, la forma gráfica de la distribución de frecuencias para variables continuas es denominada histograma de frecuencia y/o polígono de frecuencias. Las tablas e histogramas de frecuencias pueden ser de diversos tipos, siendo las más usuales las de frecuencia absoluta, frecuencia relativa, frecuencia acumulada absoluta y frecuencia acumulada relativa. En el caso de datos en escala nominal, se suele utilizar el gráfico de pastel y se emplea el diagrama de barras, para datos medidos en escalas ordinales.
22 Ejemplo No.3 Se está interesado en estudiar las causas que másinciden en la desmotivación por una carrera, para ello se identifican 5 causas que son las siguientes: No le gusta la carrera Las asignaturas no los motivan. Métodos de enseñanza tradicional Falta de comunicación entre los estudiantes Poca bibliografía para profundizar conocimientos
23 Ejemplo No.3 Causas Cantidad estudiantes Por ciento 15 30% 5 10% 1224% 4 8 16% 10 20% Como se observa la causa número 1 (no le gusta la carrera) es la que con más frecuencia está presente en esta investigación.
24 Ejemplo No.4 A continuación se muestra la tabla de frecuencias, en por ciento, de las calificaciones de un grupo de estudiantes y el diagrama de barras correspondiente Calif Cantidad estudiantes Por ciento E 15 30.00 MB 5 10.00 B 12 24.00 R 8 16.00 M 10 20.00
25 DESCRIPTORES NUMÉRICOS DE UN CONJUNTO DE DATOSLos descriptores numéricos de un conjunto de datos, son aquellos valores que brindan información sobre sus características globales. Dentro de estos se encuentran: Medidas de tendencia central: Son valores numéricos que caracterizan de forma global la tendencia central de los datos. Los descriptores de medidas de tendencia central más frecuentemente utilizados son: Media aritmética (promedio de los datos), Mediana (dato que ocupa la posición central), Moda (valor más frecuente) Medidas de variación: Son valores numéricos que caracterizan la dispersión de los datos en general y alrededor del promedio en particular. Los descriptores de variación más frecuentemente utilizados son: Varianza (promedio de las desviaciones cuadráticas de cada dato con respecto a su media), Desviación estándar (raíz cuadrada positiva de la varianza), Rango o amplitud (es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos)
26 Diagrama o Principio de ParetoEl denominado Principio de Pareto establece que en muchos fenómenos o procesos, cada ocurrencia de un cierto efecto E es debido a r factores o causas C1, C2,...,Cr, de los cuales solo unas pocas son responsables de la inmensa mayoría de las veces que ocurre el efecto E; a este grupo de factores o causas se les suele denominar los pocos esenciales, mientras que al resto se les denominan los muchos triviales.
27 Ejemplo No.5 Un colectivo de profesores de una SecundariaBásica está interesado en identificar cuales son las causas más frecuentes que puedan incidir en el bajo rendimiento académico de los estudiantes de un grado en la asignatura de Matemática, para ello se realizaron encuestas y entrevistas a especialistas y los resultados son los siguientes:
28 Causas Frecuencia C1 – Problemas en la asistencia a clases 10 C2 – Lejanía a la escuela 4 C3 – Incumplimiento del estudio independiente 35 C4 – Problemas de atención familiar 2 C5 – Poca motivación por la asignatura 27 C6 – Insuficiente alcance de objetivos del grado precedente
29 La tabla de frecuencias se muestra a continuación, con las frecuencias absolutas ordenadas de mayor a menor. Causas Frecuencia Abs % % acum. C3 35 43.75% C5 27 33.75% 77.50% C1 10 12.50% 90.00% C2 4 5.00% 95.00% C4 2 2.50% 97.50% C6 100.00% Total 80
30 Gráficamente
31 Análisis de asociaciónPor ejemplo, se tiene interés en investigar, si en la población de jóvenes entre 15 y 20 años existe relación entre su interés por estudiar carreras universitarias y el nivel de escolaridad de sus padres o si existe relación entre la cantidad de errores tabulados en un examen de Química y las dificultades en la modelación de problemas contenidos en la mencionada evaluación. Para ello se determinan los llamados coeficientes de correlación. El coeficiente de correlación es una expresión Matemática que depende de los datos de las variables a correlacionar X e Y. Veamos algunos de estos:
32 Coeficiente de ContingenciaDa una medida del grado de asociación entre dos variables medidas en escala al menos nominal. Para ello se construye la llamada tabla de contingencia, que a continuación se expone.
33 Se tienen dos variables X e Y, las cuales pueden tomar m y n valores respectivamente, entonces se tiene la tabla Y X Y1 Y2 … Yn X1 O11 O12 ... O1n Suma de la fila 1 X2 O21 O22 O2n Suma de la fila 2 Xm Om1 Om2 Omn Suma de la Fila m Suma de la columna 1 columna 2 columna n Suma total
34 Coeficiente de Contingenciadonde Oij es la frecuencia absoluta observada ij - ésima para todo i = 1, 2, ...m y j = 1, 2, ...n. Su frecuencia esperada es: es la suma de las frecuencias absolutas de la fila i-ésima es la suma de las frecuencias absolutas de la columna j – ésima. El coeficiente de contingencia: donde
35 Ejemplo No.6 Con el objetivo de conocer el desarrollo de habilidadesinvestigativas de los estudiantes de una carrera de ciencias técnicas, se ha diseñado una encuesta en la que se pregunta, entre otros aspectos, lo siguiente: 1- ¿En qué medida el Proyecto Integrador contribuyó al desarrollo de tus habilidades para enfrentar tareas de investigación?: Mucho________ Poco_________ Nada_____ No sé______ 2- ¿Cómo se seleccionó el problema de investigación desarrollado en el Proyecto Integrador? ___ Me lo asignaron, sin otra alternativa ___ Lo identificaste en una Fábrica o Empresa ___ Lo ofertaron en la Facultad y tuve la posibilidad de seleccionarlo ___ Me lo propuso el tutor ___ Otra vía
36 Uno de los aspectos de interés en esta investigación, esconocer el grado de asociación entre la forma de seleccionar el proyecto integrador y la valoración que hacen los estudiantes, de la contribución de este proyecto a su formación investigativa. Los resultados tabulados en esta encuesta son los siguientes: Valores Observados Forma 5 4 3 2 total 1 15.00 3.00 0.00 18 9.00 13.00 16.00 2.00 40 5.00 7.00 8.00 10.00 30 17.00 20 1.00 6.00 25.00 32 Total 140
37 La tabla de valores esperados es la siguiente:forma 5 4 3 2 Total 1 3.86 5.14 18 8.57 11.43 40 6.43 30 4.29 5.71 20 6.86 9.14 32 140 X2 = C = 0.70 Por tanto hay una alta correlación, entre la forma de seleccionar el problema de investigación desarrollado en el Proyecto Integrador y la valoración que dan los estudiantes, acerca de cómo ha contribuido al desarrollo de sus habilidades, para enfrentar tareas de investigación.
38 Coeficiente de correlación Permite hallar la correlación entre dos variables X e Y medidas en escala nominal binarias, es decir, ambas variables solo pueden tomar dos valores: 0 y 1, la información que se tiene para ambas variables es éxito o fracaso, presencia o ausencia, cierto o falso.
39 Ejemplo No. 7 Cálculo del coeficiente de correlación Se tiene una muestra de 50 estudiantes y se quiere investigar el grado de asociación entre el hábito de lectura y la preferencia por las carreras de letras. X: Hábito de lectura. Posibles respuestas: Sí (a la que le identifica con 1) ó No (a la que se identifica con 0). Y: Preferencia por las carreras de letras: Posibles respuestas: Sí (a la que le identifica con 1) ó No (a la que se identifica con 0).
40 Los resultados se muestran en la siguiente tablaY: X Total 1 15 10 25 5 20 30 50 La cantidad total de estudiantes que se hace corresponder a los pares ordenados (1, 1), (1, 0), (0, 1) y (0, 0) se denota por las letras A, B, C y D, respectivamente. Por tanto para el ejemplo: A = 15, B = 10, C = 5 y D = 20. Cálculo del coeficiente de correlación:
41 Coeficiente de correlación Biserial PuntualPermite hallar la correlación entre una variable X medida en escala nominal binaria y una variable Y continua.
42 Ejemplo No.8: Cálculo del coeficiente de correlación biserial puntualA una muestra de 16 estudiantes se le aplicó una encuesta en la que se le pregunta, entre otros aspectos, si tienen inclinación por las ciencias exactas o no y se quiere determinar el grado de asociación de esta variable con los resultados del examen de Física. Los resultados son los siguientes: Inclinación por las ciencias exactas Resultados del examen de Física Promedio de las calificaciones Sí 92.75 No 85.875
43 Coeficiente de correlación de rangos de SpearmanSe utiliza cuando las variables están medidas al menos en una escala ordinal. Coeficiente de correlación de Pearson Se utiliza para datos continuos, medidos en escala de intervalos o de razón.
44 ELEMENTOS DE ESTADÍSTICA INFERENCIAL.
45 Diseños pre – experimentales o experimentales: son de utilidad en las investigaciones en la educación Estudio de casos de una sola medición: Consiste en aplicar un tratamiento a un grupo determinado y después aplicar una medición para ver el comportamiento de las variables definidas en la investigación. Por ejemplo: Se propone la introducción de una nueva variante didáctica en una asignatura y después se aplica una medición a la (o las) variable(s) respuesta, como puede ser la cantidad de errores en una evaluación o el promedio de calificación en el grupo, etc, con el objetivo de ver si mejoraron los resultados en cuanto a la calidad de la docencia una vez introducida la nueva variante didáctica. Diseño de preprueba – postprueba con un solo grupo: Consiste en aplicar una prueba antes de realizar un determinado tratamiento, con el objetivo de diagnosticar el estado inicial de ciertas cualidades, que son las que se pretenden formar mediante la aplicación del mismo, o para no considerar en el grupo aquellos sujetos que no poseen los requisitos mínimos o los que ya tienen dichas cualidades. Posteriormente se aplica el tratamiento al grupo seleccionado y una vez concluido el experimento, se toman mediciones de la (o las) variable(s) respuesta y se comparan los resultados de estas, antes y después del tratamiento. Ejemplo: Se pretende introducir métodos de la enseñanza problémica en una determinada asignatura.
46 Diseño con postprueba únicamente y grupo de control: Este diseño incluye dos grupos, uno llamado grupo experimental, al cual se le aplica el tratamiento y el otro se denomina grupo de control, al cual no se le aplica el tratamiento. Por ejemplo, se pretende proponer una nueva variante didáctica en una asignatura, en este caso la variable independiente es la variante didáctica que tiene dos valores: la nueva variante y la variante tradicional. Al terminar la fase experimental que corresponda se aplica una prueba a ambos grupos y se miden las variables dependientes, se define si existen diferencias significativas entre un método y otro. Diseño con preprueba – postprueba y grupo de control: Es la aplicación del diseño de preprueba – postprueba, teniendo en cuenta un grupo experimental, al que se le aplica el tratamiento y un grupo de control, al que no se le aplica el tratamiento.
47 Métodos de la estadística inferencialEstimación de parámetros: De forma puntual o por intervalos, en cualquiera de los casos se estima un parámetro, indicándose el nivel de riesgo o probabilidad de sobrepasar el error máximo preestablecido Prueba de hipótesis: Una hipótesis en el contexto de la estadística inferencial es una proposición con respecto a uno o varios parámetros y lo que se pretende a través de una prueba de hipótesis, es determinar si esta es consistente con los datos obtenidos en la muestra.
48 A su vez, los métodos de la Estadística Inferencial se dividen enEstadística paramétrica: La distribución de la variable dependiente se supone conocida, el nivel de medición de las variables dependientes es en una escala de intervalo o de razón. Estadística no paramétrica: No requiere de presupuestos acerca de la forma de la distribución poblacional y las variables no necesariamente deben estar medidas en una escala de intervalo o de razón. Dócima o prueba de hipótesis: Un objetivo frecuente en una investigación empírica es contrastar una hipótesis, seleccionando la más simple, capaz de explicar la realidad observada. La razón es que una hipótesis simple es más fácil de contrastar empíricamente y descubrir sus deficiencias, lo que permite aprender de los datos con mayor rapidez y seguridad.
49 Sin embargo, una hipótesis en el contexto de la estadísticainferencial es una proposición respecto a uno o varios parámetros y lo que el investigador hace a través de la prueba de hipótesis es determinar si esta es consistente con los datos obtenidos en la muestra, o sea que las hipótesis estadísticas no son más que la transformación de las hipótesis de investigación, nulas y alternativas en símbolos estadísticos. Estas se clasifican en: Hipótesis estadísticas de estimación. Hipótesis estadísticas de correlación. Hipótesis estadísticas de la diferencia de medidas u otros valores.
50 Por ejemplo ¿Ha mejorado el rendimiento académico de los estudiantes al introducir las TICs en el proceso de Enseñanza-Aprendizaje? ¿Existe alguna relación entre la formación y desarrollo de las habilidades científico – investigativas y las estrategias de aprendizaje? ¿Tienen mayor permanencia en la enseñanza superior, los estudiantes que ingresan directamente de los preuniversitarios que los que ingresan por otras vías?
51 Se identifican dos tipos de errores que pueden cometerse al hacer la evaluación de una de las hipótesis Rechazar una hipótesis que es verdadera. Aceptar una hipótesis que es falsa. La metodología necesaria para desarrollar una prueba de hipótesis estadística tiene su basamento en la teoría de las Probabilidades, para profundizar en esto puede consultar la bibliografía recomendada en este material o cualquier libro que incluya los temas de la teoría de las probabilidades y estadística inferencial.
52 ACTIVIDADES A continuación se presentan algunas actividades que se sugieren para profundizar en la temática objeto de estudio.
53 Identifique un problema de su interés en su área de actuación en la que se requiera recolección de información y su presentación en TABLAS e HISTOGRAMAS de FRECUENCIAS. Identifique: Variable a estudiar. Identifique que tipo de dato correspondiente a cada variable. Escala correspondiente a cada tipo de dato y rango de valores de cada variable. Describa el procedimiento mediante el cual se obtiene la información. Interprete los resultados.
54 Identifique un problema vinculado a su actividad profesional que usted considere pueda ser utilizado el principio de PARETO para su estudio y perfeccionamiento Defina la variable que caracteriza su problema y la forma de operacionarla o cuantificarla. Describa un procedimiento para obtener las posibles causas que inciden en el efecto considerado. Al recopilar la información, construya la tabla original de frecuencia a partir de los datos. Argumente si es válido o no el principio de PARETO. Identifique las causas esenciales y las triviales. Proponga un plan de medidas para mejorar el efecto estudiado. Suponga que haya aplicado el plan de medidas, repita el procedimiento anterior solicitado e interprete los resultados argumentando la efectividad o no de las medidas.
55 Seleccione un experimento (fundamentalmente de tipo educativo en una publicación científica) y realice un resumen del trabajo experimental tomando como referente las respuestas a las siguientes preguntas: ¿Cuál es el planteamiento del problema? ¿Cuál es la hipótesis o pregunta científica que se pretende probar o responder a través de resultados experimentales? ¿Cuáles son las variables a medir? d) ¿Cuántos grupos se incluyen en el experimento? e) ¿Cuál es el diseño elegido por los autores o el autor? f) Caracterizar la selección de la muestra teniendo en cuenta: unidades de medición, población, tamaño de muestra, tipo de muestra, procedimiento para seleccionar la muestra. g) Caracterizar un instrumento de medición utilizado en el trabajo experimental. h) Caracterizar la forma de codificación y registro de los datos del instrumento utilizado.
56 Identifique un problema de investigación y formule la hipótesis o pregunta de investigación de manera tal que su estudio requiera el uso de un diseño experimental y proponga el mismo.
57 BIBLIOGRAFÍA Cué Muñiz, J. L y otros, (1987). Estadística, Universidad de la Habana, Cuba Freund John E, (1977), Estadística Elemental Moderna, Edición Revolucionaria. Gravetter F y Wallnam L. (1999), Essential of statistics for the behavioral sciences, Brooks/Cole Publishing Company, USA. Hernández Sampieri R y otros, (19), Metodología de la Investigación, Editorial Mc Graw – Hill Mark Sirkin R.(1995), Statistics for the social sciences, SAGE Publications. Inc, USA. Siegel S. (1970). Diseño experimental no paramétrico, Edición Revolucionaria, Cuba. Wayne Daniel, (1981). Estadística con aplicaciones a las Ciencias Sociales y a la Educación, Editorial Mc Graw – Hill Latinoamérica, Bogotá, Colombia. CD Estadís, (2000), Multimedia, 1ra. Editorial, LTA, Colombia.
58