1 ANALISIS DE DATOS EN CIENCIAS SOCIALES MANEJO DEL PAQUETE SPSSMercedes Fernández Liporace Alejandro Castro Solano Colaboradora Docente: Ma. Alejandra Carreras Universidad de Buenos Aires
2 Investigación científicaPlanteo de problemas de investigación Descubrimiento de la organización de los fenómenos, relaciones entre ellos, leyes que las regulan Procedimiento para alcanzar un conocimiento riguroso y objetivo de la realidad: replicable, contrastable empíricamente y comunicable Relevancia y transferencia
3 Circuito de una investigaciónProblema Teoría Conceptos Hipótesis Datos (empiria)
4 Fases de una investigaciónPlanteo del problema Búsqueda de antecedentes teóricos y empíricos Formulación de objetivos e hipótesis Diseño Recogida y análisis de datos Interpretación, discusión y generalización de resultados Transferencia de conocimientos y de tecnología
5 Planteo del problema Pregunta para la que no hay respuesta Requisitos:Resoluble Claro, sin ambigüedades Circunscripto Contrastable empíricamente Implica apelar a conocimientos anteriores (marco teórico y antecedentes empíricos)
6 Objetivos Son el “qué” de la investigación “¿Qué se va a hacer?”Generales y específicos Determinan el tipo de estudio desde el principio Exploratorio Descriptivo Correlacional De diferencias entre grupos Explicativo
7 Hipótesis “¿Qué resultado se espera obtener?”Afirmaciones que establecen relaciones entre variables Posible explicación o descripción del problema. Debe ser contrastable empíricamente Hipótesis de trabajo e hipótesis nula Hipótesis alternativa e hipótesis rival plausible No siempre se dispone de HIPÓTESIS (según tipo de estudio)
8 Diseño Plan estructurado de acción para intentar responder al problemaAspectos que intervienen: objetivos, naturaleza del problema y de las hipótesis, variables, universo, unidades de análisis, muestreo, instrumentos, procedimiento y análisis de datos Tiene que ver con la estrategia científica de partida: Observacional Selectiva Cuasiexperimental Experimental
9 Recogida y análisis de datosDeterminada por el diseño (procedimiento) Estadística: amplio cuadro de herramientas al servicio del método científico Estadística Descriptiva e Inferencial Paso previo: Análisis Exploratorio Elección de la prueba estadística: nº de variables, papel, nivel de medición, distribución
10 Interpretación de resultadosEn ciencia no hay verdades absolutas: los resultados deben expresarse en términos probabilísticos Margen de error Significación () Deben relacionarse con los antecedentes y preverse sus implicaciones prácticas. Actitud prospectiva y predictiva Aceptación o rechazo de la hipótesis de trabajo A LA LUZ DEL MARCO TEORICO
11 Generalización de resultadosDeterminar a qué población es posible generalizar los resultados (muestreo) Problema de la representatividad de la muestra: * Sujetos * Contexto Validez Externa Validez Ecológica
12 Redacción del informe Oportunidad de replicaciónRequisitos: completo, conciso, preciso, claro, gramaticalmente correcto y ameno Responder breve y claramente a los objetivos planteados
13 Apartados de una comunicación científicaMarco Teórico y antecedentes General y específicos Si corresponde Estudio y diseño Variables e instrumentos Sujetos y muestreo Procedimiento y análisis de datos Hallazgos en detalle Relectura de resultados a la luz del marco teórico Introducción Planteo del problema Objetivos Hipótesis Método Resultados Discusión Referencias y Anexos
14 Estadística
15 Variables Toda característica o dimensión de un sujeto (u objeto) susceptible de adoptar distintos valores o nombres Criterios clasificatorios Nivel de medida (Stevens, 1951): Nominales o cualitativas Ordinales o semicuantitativas Intervalo Razón Cuantitativas Su papel en la investigación Independientes (predictores) Dependientes (criterio)
16 Variables nominales o cualitativasLos números no implican cantidad ni orden o jerarquía, sino cualidad, categorías, función identificatoria (sexo, estado civil, lugar de residencia). Dicotómicas o politómicas Ejemplos: nacionalidad sexo 1. argentino masc 2. boliviano fem 3. chileno 4. peruano
17 Variables ordinales Los números reflejan jerarquía, no cantidad del atributo Establecen relaciones de orden (mayor o menor) No existe una unidad de medida objetiva Es un nivel semicuantitativo Ejemplo: En su opinión, la calidad pedagógica de este docente es….. * Totalmente inadecuada (1) * Algo inadecuada (2) * Bastante adecuada (3) * Muy adecuada (4) * Totalmente adecuada (5)
18 Variables cuantitativas, métricas o de escalaIntervalos Unidad de medida objetiva pero no cero absoluto o “ausencia de atributo” Ejemplos: TEMPERATURA o C.I. Razones Existencia de un cero absoluto Ejemplo: NIVEL DE INGRESOS Niveles de medida débiles y fuertes
19 Análisis de datos Análisis descriptivo Análisis inferencialAnálisis exploratorio
20 Análisis exploratorio
21 Razones para examinar los datosSeguridad activa: Procedimiento de recogida de datos Seguridad pasiva: Problema I: los datos no son buenos Archivo de datos: depuración de errores e incoherencias. Problema II: falta de respuesta Tamaño de la muestra (potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar) Problema III: casos anómalos Elección de la prueba o estadístico adecuado; tratamiento de outliers Problema IV: herramientas estadísticas adecuadas Comprobación de supuestos paramétricos: pruebas paramétricas vs. no paramétricas.
22 Depuración de errores e incoherenciasEstimación de la calidad de los datos Cálculo de la cantidad de errores que pueden contener, antes de proceder a su análisis ¿CÓMO? Selección de una muestra de datos Comprobación de cuántos errores existen en ella Estimación del total de errores en la muestra total Decidir si es preciso revisar la matriz total o asumir el error encontrado
23 Valores perdidos o missingsSe corre grave riesgo en dos sentidos: Reducción excesiva del tamaño de la muestra (disminución de la potencia de los contrastes) Sesgo en los resultados si los missings no se distribuyen aleatoriamente (ingresos) Si la ausencia de información es pequeña y al azar, es posible analizar los datos directamente
24 Identificación de missingsIdentificar los sujetos con muchos missings Identificar las variables con muchos missings
25 Pertinencia de la sustituciónEN VARIABLES CLAVE: Dividir la muestra en dos grupos: los que responden (1) y los que no responden a esa variable (2) (Recodificar en una nueva variable) Eliminar los casos missing de manera completa EN VARIABLES SECUNDARIAS: Mantener los missings si no exceden un porcentaje razonable Imputación de missings
26 El boxplot
27 Comprobación de supuestosElegir la prueba estadística adecuada en cada caso Pruebas paramétricas y no paramétricas Ejemplos: t de Student y Anova U de Mann-Withney y 2
28 ¿Cuáles son esos SUPUESTOS?LINEALIDAD: relación lineal entre las variables analizadas ALEATORIEDAD o independencia de las medidas: que los sujetos hayan sido seleccionados al azar NORMALIDAD: que la VD se distribuya normalmente HOMOCEDASTICIDAD u homogeneidad de varianzas: que los distintos grupos posean una variabilidad similar
29 Comprobación de supuestosNORMALIDAD: prueba K-S HOMOCEDASTICIDAD: prueba de Levenne ALEATORIEDAD: prueba de las Rachas LINEALIDAD: gráfico de dispersión y correlación Se asume que se cumplen los supuestos, salvo que las pruebas sean significativas (p< 0.05)
30 Normalidad
31 Si los supuestos no se cumplenDOS ALTERNATIVAS: Recurrir a una prueba no paramétrica o TRANSFORMAR LA VARIABLE
32 Análisis estadístico Tipo de estudio OBJETIVOSDescriptivo Inferencial Exploratorio Descriptivo Correlacional De diferencias entre grupos Explicativos
33 Estadística descriptivaObjetivo: resumir e ilustrar en forma sencilla el comportamiento de un conjunto de datos Frecuencias (f, f% y fa) Descriptivos Medidas de tendencia central Medidas de variabilidad Medidas de posición Medidas de distribución Tablas con descriptivos y/o % Gráficos
34 Frecuencias
35 Edades y estudios
36 Descriptivos más utilizados (tendencia central, dispersión, posición)
37 Comparación de medias
38 Estadística inferencialObjetivos: Estimación de parámetros Contrastes de hipótesis Correlacionales De diferencias entre grupos Paramétricos No paramétricos
39 Regresión Permite la predicción del comportamiento de una variable (criterio), basándonos en otra variable (predictor) R2: C.Determinación (proporción de la variación de Y explicada por la variación de x; utilidad del modelo) Sig: signif del modelo de predicción
40 Correlación Cuantifica la intensidad y sentido de la relación entre dos variables No implica causalidad Implica asociación Afectada por los errores de medición
41 Supuestos cumplidos
42 Prueba t para grupos independientes
43 ANOVA One Way
44 VD ordinal nominal o cuantitativa sin supuestos
45 Prueba t para grupos independientes
46 Mann - Whitney
47 X2
48 Kruskall Wallis One Way