1 Repaso de estadística descriptivaDr. Isaac Leobardo Sánchez Juárez
2
3 Variables y gráficas Capítulo 1
4 Estadística La estadística se ocupa de los métodos científicos que se utilizan para recolectar, organizar, resumir, presentar y analizar datos así como para obtener conclusiones válidas y tomar decisiones razonables. El término estadística también se usa para denotar los datos o los números que se obtienen de esos datos; por ejemplo, los promedios.
5 Universo y muestra A todo un grupo de características de individuos u objetos lo denominamos universo y una parte de dicho grupo lo llamamos muestra. Las poblaciones pueden ser finitas o infinitas. Finitas son por ejemplo todos los pernos producidos por una fábrica en un día. Mientras que infinitas es la población que consta de todos los resultados (cara o cruz) que se pueden obtener lanzando una y otra vez una moneda.
6 Variables discretas y continuasUna variable es un símbolo; por ejemplo, X, Y, H, x o B, que puede tomar cualquiera de los valores determinados conjunto al que se le conoce como dominio de la variable. A una variable que sólo puede tomar un valor se le llama constante. Una variable que puede tomar cualquiera de los valores entre dos números dados es una variable continua; de lo contrario es una variable discreta. Ejemplo: La cantidad N de hijos que tiene una familia puede tomar los valores 0, 1, 2, 3,…, pero no puede tomar valores como 2.5; ésta es una variable discreta.
7 Funciones Si a cada valor que puede tomar la variable X le corresponde un valor de una variable Y, se dice que Y es función de X y se escribe Y=f(X) para indicar esta dependencia funcional. La variable X es la variable independiente y la variable Y es la variable dependiente. La dependencia (o correspondencia) funcional entre variables puede describirse mediante una tabla. Pero también puede indicarse mediante una ecuación que relaciona las variables, por ejemplo, Y=2X-3, a partir de la cual podemos determinar el valor de Y que corresponde a diversos valores de X.
8 Coordenadas rectangularesEn la figura 1 se muestra un diagrama de dispersión con 4 puntos. Este diagrama de dispersión está formado por dos rectas mutuamente perpendiculares llamadas ejes X y Y. El eje X es horizontal y el Y es vertical. Estos dos ejes se cortan en un punto llamado origen. Estas dos rectas dividen al plano XY en 4 regiones que se denotan I, II, III y IV, a las que se les conoce como primero, segundo, tercero y cuarto cuadrantes. Al eje de las X lo conocemos como abscisa y al de la Y como ordenada. Las ideas anteriores pueden ampliarse construyendo un eje Z a través del origen y perpendicular al plano XY. En este caso las coordenadas de cada punto se denotan (X,Y,Z).
9 Figura 1
10 Figura 2
11 Gráficas Una gráfica es una representación visual de la relación entre las variables. En estadística, dependiendo de la naturaleza de los datos y del propósito que se persiga, se emplean distintos tipos de gráficas: gráficas de barras, de pastel, pictogramas, etc.
12 Ecuaciones Las ecuaciones son expresiones de la forma A=B, donde A es el miembro izquierdo de la ecuación y B es el lado derecho. Si se aplican las mismas operaciones a ambos lados de una ecuación se obtienen ecuaciones equivalentes. Así, si a ambos miembros de una ecuación se suma o resta un mismo número se obtiene una ecuación equivalente; también, si ambos lados se multiplican por un mismo número o se dividen entre un mismo número, con excepción de la división entre cero que no es válida, se obtiene una ecuación equivalente.
13 Ecuaciones Dada la ecuación 2X+3=9, se resta 3 a ambos lados: 2X+3-3=9-3 o 2X=6. Se dividen ambos miembros entre 2; 2X/2=6/2 o X=3. Este valor de X es una solución de la ecuación dada, como puede verse sustituyendo X por 3, con lo que se obtiene 2(3)+3=9, o 9=9 que es una identidad. Al proceso de obtener las soluciones de una ecuación se le conoce como resolver la ecuación. Las ideas anteriores pueden extenderse a hallar soluciones de dos ecuaciones en dos incógnitas, de tres ecuaciones en tres incógnitas, etc. A tales ecuaciones se les conoce como ecuaciones simultáneas.
14 Desigualdades Los símbolos < y > significan “menor que” y “mayor que”, respectivamente. Los símbolos ≤ y ≥ significan “menor o igual a” y “mayor o igual a”, respectivamente. Todos estos símbolos se conocen como símbolos de desigualdad. A las relaciones en las que intervienen signos de desigualdad se les llama desigualdades. Así como se habla de miembros de una ecuación, también se habla de miembros de una desigualdad. Por lo tanto, en la desigualdad 4 < Y ≤ 6, los miembros son 4 Y y 6.
15 Logaritmos Si x > 0, b > 0 y b ≠ 1, y=logbx si y solo si logby=x. Un logaritmo es un exponente. Es la potencia a la que hay que elevar la base b para obtener el número del que se busca el logaritmo. Las dos bases más utilizadas son el 10 y la e, que es igual a … A los logaritmos base 10 se les llama logaritmo comunes y se escriben log10x o simplemente log(x). A los logaritmos base e se les llama naturales y se escriben ln(x).
16 Propiedades de los logaritmosLas propiedades más importantes de los logaritmos son las siguientes: 1. logbMN=logbM + logbN 2. logbM/N=logbM – logbN 3. logbMp=plogbM
17 Ecuaciones logarítmicasPara resolver ecuaciones logarítmicas: 1. Todos los logaritmos se aíslan en un lado de la ecuación. 2. La suma o diferencias de logaritmos se expresan como un solo logaritmo. 3. La ecuación obtenida en el paso 2 se expresa en forma exponencial. Se resuelve la ecuación obtenida en el paso 3. Se verifican las soluciones.
18 Ecuaciones logarítmicasLog4(x+5)=3. Primero, se expresa esta ecuación en forma exponencial como x+5=43=64. A continuación se despeja x como sigue, x=64- 5=59. Por último se verifica la solución, log4(59+5)=log4(64)=3 ya que 43=64.
19 Ecuaciones logarítmicasResuelva la ecuación logarítmica siguiente log(6y-7)+logy=log(5). La suma de logaritmos se reemplaza como el logaritmo del producto, log(6y-7)y=log(5). Se iguala (6y-7)y y 5. El resultado es 6y2-7y=5 o y2-7y-5=0. Se factoriza esta ecuación cuadrática como (3y-5)(2y+1)=0. Las soluciones son y=5/3 y y=-1/2. El -1/2 se descarta como solución, ya que los logaritmos de números negativos no están definidos. Y=5/3 demuestra ser una solución cuando se sustituye en la ecuación original. Por lo tanto, la única solución es y=5/3.
20 Distribuciones de frecuenciasCapítulo 2
21 Datos en bruto Los datos en bruto son los datos recolectados que aún no se han organizado. Por ejemplo, las estaturas de 100 estudiantes tomados de la lista alfabética de una universidad.
22 Ordenaciones Ordenación se le llama a los datos numéricos en bruto dispuestos en orden creciente o decreciente de magnitud. A la diferencia entre el número mayor y el número menor se le conoce como rango de los datos. Por ejemplo, si la estatura mayor en los 100 estudiantes es 74 pulgadas (in) y la menos es 60 in, el rango es 74 – 60 = 14 in.
23 Distribuciones de frecuenciaAl organizar una gran cantidad de datos en bruto, suele resultar útil distribuirlos en clases o categorías y determinar la cantidad de datos que pertenece a cada clase; esta cantidad se le conoce como la frecuencia de clase. A la disposición tabular de los datos en clases con sus respectivas frecuencias de clase se le conoce como distribución de frecuencias o tabla de frecuencias.
24 Distribuciones de frecuenciaTabla 2.1 La primera clase (o categoría) consta de las estaturas que van de 60 hasta 62 in. Como hay cinco estudiantes cuyas estaturas pertenecen a esta clase, la frecuencia de clase correspondiente es 5. Estatura (in) Cantidad de estudiantes 60-62 5 63-65 18 66-68 42 69-71 27 72-74 8 Total 100
25 Intervalos de clase y límites de claseAl símbolo que representa una clase, como 60-62, se le conoce como intervalo de clase. A los números de los extremos, 60 y 62, se les conoce como límites de clase; el número menor (60) es el límite inferior de clase, y el número mayor (62) es el límite superior de clase. Los términos clase e intervalo de clase se suelen usar indistintamente, aunque el intervalo de clase en realidad es un símbolo para la clase. Un intervalo de clase que, por lo menos teóricamente, no tenga indicado el límite de clase superior o el límite de clase inferior, se conoce como intervalo de clase abierto. Por ejemplo, al considerar grupos de edades de personas, un intervalo que sea “65 años o mayores” es un intervalo de clase abierto.
26 Fronteras de clase Si las estaturas se registran a la pulgada más cercana, el intervalo de clase comprende teóricamente todas las mediciones desde hasta in. Estos números que se indican brevemente mediante los números 59.5 y 62.5 son las fronteras de clase o límites de clase reales; el menor de los números (59.5) es la frontera inferior de clase y el número mayor (62.5) es la frontera superior de clase. En la práctica, las fronteras de clase se obtienen sumando el límite superior de un intervalo de clase al límite inferior del intervalo de clase inmediato superior y dividiendo entre 2. En la tabla anterior, las clases pueden ser , , etc. Para evitar ambigüedades cuando se usa esta notación, las fronteras de clase no deben coincidir con las observaciones.
27 Tamaño o amplitud de un intervalo de claseEl tamaño, o la amplitud, de un intervalo de clase es la diferencia entre sus fronteras superior e inferior. Si en una distribución de frecuencia todos los intervalos de clase tienen la misma amplitud, esta amplitud común se denota c. En este caso, c, es igual a la diferencia entre dos límites inferiores de clases sucesivas o entre dos límites superiores de clases sucesivas. Por ejemplo, en los datos de la tabla, el intervalo de clase c= = =3.
28 La marca de clase La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites de clase inferior y superior y dividiendo entre 2. Así, la marca de clase del intervalo es (60+62)/2=61. A la marca de clase también se le conoce como punto medio de clase.
29 Reglas generales para formar una distribución de frecuencias1. En el conjunto de los datos en bruto, se determina el número mayor y el número menor y se halla, así, el rango (la diferencias entre los números mayor y menor). 2. Se divide el rango en una cantidad adecuada de intervalos de clase de una misma amplitud. Si esto no es posible, se usan intervalos de clase de diferentes amplitudes o intervalos de clase abiertos. La cantidad de intervalos suele ser de 5 a 20, dependiendo de los datos. Los intervalos de clase, también suelen elegirse de manera que las marcas de clase coincidan con los datos observados. Esto tiende a disminuir el error de agrupamiento. En cambio, las fronteras de clase no deben coincidir con datos observados. 3. Se determina la cantidad de observaciones que caen dentro de cada intervalo; es decir, se encuentran las frecuencias de clase. Eviews realiza esto por nosotros (véase capítulo 4 del manual base).
30 Histogramas y polígonos de frecuenciasLos histogramas y los polígonos de frecuencia son dos representaciones gráficas de las distribuciones de frecuencias. 1. Un histograma o histograma de frecuencias consiste en un conjunto de rectángulos que tienen: a) sus bases sobre un eje horizontal (X), con sus centros coincidiendo con las marcas de clase de longitudes iguales a la amplitud del intervalo de clase, y b) áreas proporcionales a las frecuencias de clase. 2. Un polígono de frecuencias es una gráfica de línea que presenta las frecuencias de clase graficas contra las marcas de clase. Se puede obtener conectando los puntos medios de las partes superiores de los rectángulos de un histograma.
31 Histogramas y polígonos de frecuencias
32 Histogramas y polígonos de frecuencias
33 Distribuciones de frecuencias relativasLa frecuencia relativa de una clase es la frecuencia de la clase dividida entre la suma de las frecuencias de todas las clases y generalmente se expresa como porcentaje. Por ejemplo, en la tabla 2.1, la frecuencia relativa de la clase es 42/100=42%. Por supuesto, la suma de las frecuencias relativas de todas las clases es 1, o 100%. Si en la tabla 2.1 las frecuencias se sustituyen por frecuencias relativas, la tabla que se obtiene se una distribución de frecuencias relativas, distribución porcentual o tabla de frecuencias relativas. Las gráficas de las distribuciones de frecuencias relativas se obtienen a partir de los histogramas o polígonos de frecuencias, cambiando únicamente, en la escala vertical, las frecuencias por las frecuencias relativas y conservando la gráfica exactamente igual.
34 Distribuciones de frecuencias acumuladas y ojivasA la suma de todas las frecuencias menores que la frontera superior de un intervalo de clase dado se le llama frecuencia acumulada hasta ese intervalo de clase inclusive. Por ejemplo, en la tabla, la frecuencia acumulada hasta el intervalo de clase inclusive es =65, lo que significa que 65 estudiantes tienen una estatura menor a in. A una tabla en la que se presentan las frecuencias acumuladas se le llama distribución de frecuencias acumuladas. Se presenta en la siguiente tabla 2.2 para la distribución de las estaturas de los estudiantes de la tabla 2.1
35 Distribuciones de frecuencias acumuladas y ojivasEstatura (in) Cantidad de estudiantes Menos de 59.5 Menos de 62.5 5 Menos de 65.5 23 Menos de 68.5 65 Menos de 71.5 92 Menos de 74.5 100
36 Distribuciones de frecuencias acumuladas y ojivasUna gráfica que muestra las frecuencias acumuladas menores de cada frontera superior de clase respecto a cada frontera superior de clase se le conoce como gráfica de frecuencias acumuladas u ojiva.
37 Distribuciones de frecuencias acumuladas relativas y ojivas porcentualesLa frecuencia acumulada relativa o frecuencia acumulada porcentual es la frecuencia acumulada dividida entre la suma de todas las frecuencias (frecuencia total). Por ejemplo, la frecuencia acumulada relativa de las estaturas menores que 68.5 in es 65/100=0.65 o 65%, lo que significa que 65% de los estudiantes tienen estaturas menores a 68.5 in. Si en la tabla 2.2 se emplean las frecuencias acumuladas relativas en lugar de las frecuencias acumuladas, se obtiene una distribución de frecuencias acumuladas relativas y una gráfica de frecuencias acumuladas relativas.
38 Curvas de frecuencias y ojivas suavizadasSuele considerarse que los datos recolectados pertenecen a una muestra obtenida de una población grande. Como de esta población se pueden obtener muchas observaciones, teóricamente es posible (si son datos continuos) elegir intervalos de clase muy pequeños y, a pesar de eso, tener un número adecuado de observaciones que caigan en cada clase. De esta manera, cuando se tienen poblaciones grandes puede esperarse que los polígonos de frecuencias estén formados por una gran cantidad de pequeños segmentos de recta de manera que sus formas se aproximen a las de unas curvas, a las cuales se les llama curvas de frecuencias. Es razonable esperar que estas curvas teóricas puedan ser aproximadas suavizando los polígonos de frecuencias, esta aproximación mejorará a medida que aumenta la muestra.
39 Tipos de curvas de frecuenciasLas curvas de frecuencias que surgen toman ciertas formas:
40 Tipos de curvas de frecuencias1. Las curvas simétricas o en forma de campana se caracterizan porque las observaciones equidistantes del máximo central tienen la misma frecuencia. Las estaturas tanto de hombres como de mujeres adultos tienen distribuciones en forma de campana. 2. Las curvas que tienen colas hacia la izquierda se dice que son sesgadas hacia la izquierda. Las curvas de la cantidad de años que viven hombres y mujeres son sesgadas a la izquierda. Pocos mueren jóvenes y la mayoría muere entre los 60 y 80 años. En general, las mujeres viven en promedio diez años más que los hombres.
41 Tipos de curvas de frecuencias3. Las curvas que tiene colas hacia la derecha se dice que son sesgadas hacia la derecha. Las curvas de las edades a las que se casan tanto hombres como mujeres son sesgadas hacia la derecha. La mayoría se casa entre los veinte y los treinta años y pocos se casan alrededor de los cuarenta, cincuenta, sesenta o setenta años. 4. Las curvas que tienen aproximadamente las mismas frecuencias para todos sus valores se dice que son curvas distribuidas uniformemente. Por ejemplo, las máquinas dispensadoras de refresco lo hacen de manera uniforme entre 15.9 y 16.1 onzas.
42 Tipos de curvas de frecuencias5. Las curvas de frecuencias en forma de J o en forma de J inversa son curvas en las que el máximo se presenta en uno de sus extremos. 6. Las curvas de frecuencias en forma de U son curvas que tienen máximo en cada extremo y un mínimo en medio. 7. Las curvas bimodales son curvas que tienen dos máximos. 8. Las curvas multimodales tienen más de dos máximos.
43 Media, mediana, moda y otras medidas de tendencia centralCapítulo 3
44 Índices o subíndices El símbolo, Xj (que se lee “X subíndice j”) representa cualquiera de los N valores X1, X2, X3,…, XN que puede tomar la variable X. A la letra j que aparece en Xj representando a cualquiera de los números 1, 2, 3,…N se la llama subíndice o índice. En lugar de j se puede usar i, k, p, q o s.
45 Sumatoria El símbolo se emplea para denotar la suma de todas las Xj desde j=1 hasta j=N; por definición, Cuando no puede haber discusión, esta suma se denota simplemente como ∑X, ∑Xj o ∑jXj. El símbolo ∑ es la letra griega mayúscula sigma y denota suma.
46 Sumatoria Ejemplo 1 Ejemplo 2 Ejemplo 3 Si a, b y c son constantes
47 Promedio o medidas de tendencia centralUn promedio es un valor típico o representativo de un conjunto de datos. Como estos valores típicos tienden a encontrarse en el centro de los conjuntos de datos, ordenados de acuerdo con su magnitud, a los promedios se les conoce también como medidas de tendencia central. Se pueden definir varios tipos de promedios, los más usados son la media aritmética, la mediana, la moda, la media geométrica y la media armónica.
48 Media aritmética La media de un conjunto de N números X1, X2, X3,…,XN se denota así: X barra y está definida como 1) Ejemplo 4 La media aritmética de los números 8, 3, 5, 12 y 10 es
49 Media aritmética Si los números X1, X2,…XK se presentan f1, f2,…,fK veces, respectivamente (es decir, se presentan con frecuencias f1, f2,…,fK), su media aritmética es 2) Donde N=∑f es la suma de las frecuencias (es decir, la cantidad total de casos=.
50 Media aritmética Ejemplo 5Si 5, 8, 6 y 2 se presentan con frecuencias 3, 2, 4 y 1, respectivamente, su media aritmética es
51 Media aritmética ponderadaAlgunas veces, a los números X1, X2,…, XK se les asigna ciertos factores de ponderación (o pesos) w1, w2,…,wK, que dependen del significado o importancia que se les asigna a estos números. En este caso, a 3) Se le llama media aritmética ponderada.
52 Media aritmética ponderadaEjemplo 6 Si en una clase, al examen final se le da el triple de valor que a los exámenes parciales y un estudiante obtiene 85 en el examen final, y 70 y 90 en los dos exámenes parciales, su puntuación media es
53 Propiedades de la media aritmética1. En un conjunto de números, la suma algebraica de las desviaciones de estos números respecto a su media aritmética es cero. Ejemplo 7 Las desviaciones de los números 8, 3, 5, 12 y 10 de su media aritmética 7, 6, son , 3 – 7.6, 5 – 7.6, 12 – 7.6 y 10 – 7.6 o bien 0.4, -4.6, -2.6, 4.4 y 2.4, cuya suma algebraica es – =0. 2. En un conjunto de números Xj, la suma de los cuadrados de sus desviaciones respecto a un número a es un mínimo si y solo si
54 Propiedades de la media aritmética3. Si la media de f1 números es m1, la media de f2 números es m2,…, la media de fK números es mK, entonces la media de todos estos números es 4) Es decir, una media aritmética ponderada de todas las medias.
55 Propiedades de la media aritmética4. Si se cree o se supone que un número A (que puede ser cualquier número) es la media aritmética y si dj=Xj-A son las desviaciones de Xj de A, entonces las ecuaciones (1) y (2) se convierten respectivamente en 5) 6) Donde las ecuaciones anteriores se resumen en
56 Cálculo de la media aritmética para datos agrupadosCuando se presentan los datos en una distribución de frecuencias, se considera que todos los datos que caen en un intervalo de clase dado coinciden con la marca o punto medio del intervalo. Para datos agrupados, interpretando a las Xj como las marcas de clase, a las fj como las correspondientes frecuencias de clase, a A como cualquier marca de clase supuesta y dj=Xj-A como la desviación de Xj respecto de A, las ecuaciones 2 y 6 son válidas. A los cálculos empleando las ecuaciones 2 y 6 se les suele conocer como método largo y método abreviado, respectivamente.
57 Cálculo de la media aritmética para datos agrupadosSi todos los intervalos de clase son de una misma amplitud c, las desviaciones dj=Xj-A se pueden expresar como cuj, donde uj puede tener valores enteros positivos o negativos o cero (es decir, 0, ±1, ±2, ±3,…) con lo que ecuación 6 se convierte en Lo que es equivalente a la ecuación A esta ecuación se le conoce como método codificado para calcular la media. Observése que en el método codificado los valores de la variables X se transforman en valores de la variable u de acuerdo con X=A+cu
58 La mediana La mediana de un conjunto de números acomodados en orden de magnitud (es decir, en una ordenación) es el valor central o la media de los dos valores centrales. Ejemplo 8 La mediana del conjunto de números 3, 4, 5, 6, 8, 8, 8 y 10 es 6. Ejemplo 9 La mediana del conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 es 1/2(9+11)=10
59 La mediana En datos agrupados, la mediana se obtiene por interpolación, como se expresa por la ecuación Donde L1 es la frontera inferior de la clase mediana (es decir, de la clase que contiene la mediana). N número de datos (es decir, la frecuencia total). (∑f)1 suma de las frecuencias de todas las clases anteriores a la mediana. fmediana frecuencia de la clase mediana. c es la amplitud del intervalo de la clase mediana.
60 La mediana Geométricamente, la mediana es el valor de X (abscisa) que corresponde a una recta vertical que divide al histograma en dos partes que tienen la misma área. A este valor de X se le suele denotar
61 La moda La moda de un conjunto de números es el valor que se presenta con más frecuencia; es decir, es el valor más frecuente. Puede no haber moda y cuando la hay, puede no ser única. Ejemplo 10 La moda del conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12 y 18 es 9. Ejemplo 11 El conjunto 3, 5, 8, 10, 12, 15 y 16 no tiene moda. Ejemplo 12 El conjunto 2, 3, 4, 4, 4, 5, 5, 7, 7, 7 y 9 tiene dos modas 4 y 7, por lo que se llama bimodal.
62 La moda En el caso de datos agrupados, para los que se ha construido una curva de frecuencia que se ajuste a los datos, la moda es el valor (o los valores) de X que corresponden al punto (o puntos) máximos de la curva. A este valor de X se le suele denotar En una distribución de frecuencia o en un histograma la moda se puede obtener mediante la ecuación
63 La moda L1 es la frontera inferior de la clase modal (es decir, de la clase que contiene la moda). Δ1 exceso de frecuencia modal sobre la frecuencia en la clase inferior inmediata. Δ2 exceso de frecuencia modal sobre la frecuencia en la clase superior inmediata. c amplitud del intervalo de la clase modal.
64 Relación empírica entre la media, mediana y modaEn las curvas de frecuencias unimodales que son ligeramente sesgadas (asimétricas), se tiene la relación empírica siguiente media-moda=3(media-mediana) En las figuras que siguen se muestran las posiciones relativas de la media, mediana y moda en curvas de frecuencias sesgadas hacia la derecha o a la izquierda, respectivamente. En las curvas simétricas, la media, mediana y moda coinciden.
65 Relación empírica entre la media, mediana y moda
66 Media geométrica G La media geométrica G de N números positivos X1, X2, X3,…, XN es la raíz n-ésima del producto de los números: Ejemplo 13 La media geométrica de los números 2, 4 y 8 es
67 Media armónica H La media armónica H de un conjunto de N números X1, X2, X3,…,Xn es el recíproco de la media aritmética de los recíprocos de los números Puede expresarse también como
68 Media armónica H Ejemplo 14 La media armónica de los números 2, 4 y 8 es Si X1, X2, X3,…, son las marcas de clase de una distribución de frecuencias y f1, f2, f3,…, son sus frecuencias correspondientes, la media armónica es
69 Relación entre las medias aritmética, geométrica y armónicaLa media geométrica de un conjunto de números positivos X1, X2,…,XN es menor o igual que su media aritmética, pero mayor o igual que su media armónica. En símbolos La igualdad es válida sólo cuando todos los números X1, X2,…,XN son idénticos. Ejemplo 15 La media aritmética de los números 2, 4 y 8 es 4.67, su media geométrica es 4 y su media armónica es 3.45.
70 Raíz cuadrada media La raíz cuadrada media (RCM) o media cuadrática de un conjunto de número X1, X2,…,XN suele denotarse y se define Ejemplo La raíz cuadrada media del conjunto 1, 3, 4, 5 y 7 es
71 Cuartiles, deciles y percentilesEn un conjunto de datos en el que éstos se hallan ordenados de acuerdo con su magnitud, el valor de en medio (o media aritmética de los dos valores medios), que divide al conjunto en dos partes iguales, es la mediana. Continuando con esta idea se puede pensar en aquellos valores que dividen el conjunto de datos en cuatro partes iguales. Estos valores, denotados Q1, Q2 y Q3 son el primero, segundo y tercer cuartiles, respectivamente; el valor Q2 coincide con la mediana.
72 Cuartiles, deciles y percentilesDe igual manera, los valores que dividen al conjunto en diez partes iguales son los deciles y se denotan D1, D2,…,D9, y los valores que dividen al conjunto en 100 partes iguales son los percentiles y se les denota P1, P2,…,P99. El quinto decil y el percentil 50 coinciden con la mediana. Los percentiles 25 y 75 coinciden con el primero y tercer cuartiles, respectivamente. A los cuartiles, deciles, percentiles y otros valores obtenidos diviendo al conjunto de datos en partes iguales se les llama en conjunto cuantiles. Para el cálculo de estos valores cuando se tienen datos agrupados
73 Desviación estándar y otras medidas de dispersiónCapítulo 4
74 Dispersión o variaciónEl grado de dispersión de los datos números respecto a un valor promedio se llama dispersión o variación de los datos. Existen varias medidas de dispersión; las más usadas con el rango, la desviación media, el rango semiintercuartil, el rango percentil y la desviación estándar.
75 Rango El rango de un conjunto de números es la diferencia entre el número mayor y el número menor del conjunto. Ejemplo 1 El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12-2=10. Algunas veces el rango se da mediante el número menor y el número mayor; así, por ejemplo, en el caso del conjunto anterior, simplemente se indica 2 a
76 Desviación media La desviación media, o desviación promedio, de un conjunto de N números X1, X2,…,XN se abrevia DM y está definida así: Donde X barra es la media aritmética de los números y Xj-X es el valor absoluto de la desviación de Xj respecto de X barra.
77 Desviación media Ejemplo 2 Encuentre la desviación media del conjunto 2, 3, 6, 8, 11.
78 Desviación media Si X1, X2,…,XK se presentan con frecuencias f1, f2,…,fK, respectivamente, la desviación media puede expresarse como: Esta ecuación es útil para datos agrupados, donde las Xj representan las marcas de clase y las fj las correspondientes frecuencias de clase.
79 Rango semiintercuartilEl rango semiintercuartil o desviación cuartil, de un conjunto de datos se denota Q y está definido por: Donde Q1 y Q3 son el primero y tercer cuartiles en los datos. Algunas veces se usa el rango intercuartil Q3-Q1; sin embargo, el rango semiintercuartil es más usado como medida de dispersión.
80 Rango percentil 10-90 El rango percentil de un conjunto de datos está definido por Rango percentil 10-90=P90-P10 El rango semipercentil 10-90, ½(P90-P10), también puede usarse, pero no es muy común.
81 Desviación estándar La desviación estándar de un conjunto N de números X1, X2,…,XN se denota como s y está definida por Donde x representa la desviación de cada uno de los números Xj respecto a la media. Por lo tanto, s, es la raíz cuadrada de la media (RCM) de las desviaciones respecto de la media, o, la desviación raíz- media-cuadrado.
82 Desviación estándar Si X1, X2,…,XN se presentan con frecuencias f1, f2,…,fK, respectivamente, la desviación estándar puede expresarse como
83 Varianza La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar y, por lo tanto, corresponde al valor s2 en las ecuaciones anteriores. Cuando es necesario distinguir la desviación estándar de una población de la desviación estándar de una muestra, se suele emplear s para la última y σ (sigma) para la primera. De manera que s2 y σ2 son la varianza muestral y poblacional respectivamente.
84 Propiedades de la desviación estándar1. La desviación estándar se puede definir como Donde a es un promedio cualquiera además de la media aritmética. De todas las desviaciones estándar, la mínima es aquella en la que a=X barra.
85 Propiedades de la desviación estándar2. En las distribuciones normales se encuentra que: a) 68.27% de los casos está comprendido entre O sea una desviación estándar a cada lado de la media. b) 95.45% de los casos está comprendido entre O sea dos desviaciones estándar a cada lado de la media. c) 99.73% de los casos está comprendido entre O sea tres desviaciones estándar a cada lado de la media.
86 Propiedades de la desviación estándar
87 Propiedades de la desviación estándar3. Supóngase que dos conjuntos que constan de N1 y N2 números (o dos distribuciones de frecuencia con frecuencias totales N1 y N2) tienen varianzas s12 y s22, respectivamente, y una misma media X barra. Entonces, la varianza combinada de los dos conjuntos (o de las dos distribuciones de frecuencia) está dada por Obsérvese que ésta es una media aritmética ponderada de las dos varianzas. Esta ecuación puede generalizarse a tres o más conjuntos.
88 Propiedades de la desviación estándar4. El teorema de Chebyshev establece que para k >1, por lo menos (1- (1/k2))x100% de la distribución de probabilidad de cualquier variable está a no más de k desviaciones estándar de la media. En particular, para k=2, por lo menos (1-(1/22))x100% o bien 75% de los datos están en el intervalo (x-2S, x+2S); para k=3, por lo menos (1-(1/32))x100% u 89% de los datos están en el intervalo (x-3S, x-3S), y para k=4, por lo menos (1-(1/42))x100% o bien 93.75% de los datos está en el intervalo (x-4S, x-4S)
89 Relaciones empíricas entre las medidas de dispersiónPara las distribuciones moderadamente sesgadas, se tiene la relación empírica. Desviación media=4/3(desviación estándar) Rango semiintercuartil=2/3(desviación estándar) Esto es consecuencia de que en una distribución normal se encuentre que la desviación media y el rango semiintercuartil son iguales, respectivamente, a y veces la desviación estándar.
90 Dispersión absoluta y relativa; coeficiente de variaciónLa variación real determinada mediante la desviación estándar u otra medida de dispersión se le conoce como dispersión absoluta. Sin embargo, una variación o dispersión de 10 pulgadas (in) en una distancia de 1,000 pies (ft) tiene un significado muy diferente a la misma variación de 10 in en una distancia de 20 ft. Este efecto se puede medir mediante la dispersión relativa, que se define como
91 Dispersión absoluta y relativa; coeficiente de variaciónSi la dispersión absoluta es la desviación estándar (s) y el promedio es la media (X barra), entonces a la dispersión relativa se le llama coeficiente de variación o coeficiente de dispersión, se denota por V y es Por lo general se le expresa como porcentaje. V es independiente de las unidades que se emplean. V es útil cuando se trata de comparar distribuciones en las que las unidades son diferentes. Una desventaja es que no es útil cuando el valor de la media es cercano a cero.
92 Variable estandarizada; puntuaciones estándarA la variable que mide la desviación respecto a la media en términos de unidades de desviaciones estándar se le llama variable estandarizada y es una cantidad adimensional (es decir, independiente de las unidades empleadas) y está dada por Si las desviaciones respecto a la media se dan en términos de unidades de desviación estándar, se dice que las desviaciones se expresan en unidades o puntuaciones estándar. Las unidades estándar son de gran valor para comparar distribuciones.
93 Momentos, sesgo y curtosisCapítulo 5
94 Momentos Dados N valores X1, X2,…,XN que toma la variable X, se define la cantidad 1) A la que se le llama r-ésimo momento. El primer momento, en el que r=1 es la media aritmética
95 Momentos El r-ésimo momento respecto a la media se define comoSi r=1, entonces m1=0. Si r=2, entonces m2 es la varianza
96 Momentos El r-ésimo momento respecto a cualquier origen A se define de la siguiente manera Donde d=X-A son las desviaciones de las X respecto de A. Si A=0, la ecuación se reduce a la ecuación 1. Debido a esto a la ecuación 1 se le llama r-ésimo momento respecto de cero.
97 Momentos para datos agrupadosSi X1, X2,…,XK se presentan con frecuencias f1, f2,…,fK respectivamente, los momentos anteriores están dados por
98 Momentos para datos agrupadosDonde Estas expresiones se emplean para el cálculo de momentos de datos agrupados.
99 Sesgo El sesgo de una distribución es su grado de asimetría o el grado en el que se aleja de la simetría. Si una curva de frecuencias (polígono de frecuencias suavizado) de una distribución tiene una cola más larga hacia la derecha del máximo central que hacia la izquierda, se dice que la distribución es sesgada a la derecha, o que tienen un sesgo positivo. Si ocurre lo contrario, se dice que es sesgada a la izquierda o que tiene un sesgo negativo.
100 Sesgo En las distribuciones sesgadas, la media tiende a encontrarse del mismo lado que la cola más larga opuesto al de la moda. Por lo tanto, una medida de simetría (o sesgo) se obtiene mediante la diferencia: media-moda. Esta medida se puede hacer adimensional dividiendo entre una medida de dispersión, como la desviación estándar, lo que conduce a
101 Sesgo Para evitar el uso de la moda se puede utilizar la ecuación empírica del capítulo 3 y se define A las ecuaciones anteriores se les llama, primer coeficiente de sesgo de Pearson y segundo coeficiente de sesgo de Pearson.
102 Sesgo Otras medidas del sesgo, que se definen en términos de cuartiles y percentiles son:
103 Curtosis La curtosis indica qué tan puntiaguda es una distribución; esto por lo regular es en relación con la distribución normal. A una distribución que tiene un pico relativamente alto se la llama leptocúrtica, en tanto que si es relativamente aplastado se dice platicúrtica. Una distribución normal, que no es ni puntiaguda ni muy aplastada se la llama mesocúrtica.
104 Curtosis En una medida de la curtosis se emplea el cuarto momento respecto de la media, expresada en forma adimensional, esta medida se encuentra dada por: El cual suele denotar por b2. En las distribuciones normales b2=a4=3. A esto se debe que la curtosis suela definirse mediante (b2-3), que tiene signo positivo en una distribución leptocúrtica, negativo en una distribución platicúrtica y cero en las distribuciones normales (mesocúrtica).
105 Teoría necesaria de la probabilidadCapítulo 6
106 Definiciones de probabilidadSuponga que un evento E puede ocurrir en h de n maneras igualmente posibles. Entonces la probabilidad de que ocurra el evento (a la que se le llama éxito) se denota como La probabilidad de que no ocurra el evento (a la que se la llama fracaso) se denota como
107 Definiciones de probabilidadPor lo tanto
108 Definiciones de probabilidadCuando se lanza un dado, éste puede caer de seis maneras distintas Un evento E de que caiga un 3 o un 4 es
109 Definiciones de probabilidadY la probabilidad de E es 2/6 o bien 1/3. La probabilidad de no obtener un 3 o un 4 es 1-Pr {E}=2/3. Obsérvese que la probabilidad de un evento es un número entre 0 y 1. Si un evento no puede ocurrir su probabilidad es 0. En cambio, si se trata de un evento que tiene que ocurrir (es decir, que es seguro que ocurra) su probabilidad es 1.
110 Definiciones de probabilidadSi p es la probabilidad de que ocurra un evento, las posibilidades u oportunidades a favor de su ocurrencia son p:q (que se lee “p a q”); las posibilidades en contra de que ocurra son q:p. Por lo tanto, las posibilidades en contra de que en un solo lanzamiento de un dado caiga un 3 o un 4 son q:p=2/3:1/3=2:1 (es decir 2 a 1).
111 Definición de frecuencia relativaLa probabilidad estimada o probabilidad empírica de un evento es la frecuencia relativa de ocurrencia del evento cuando la cantidad de observaciones es muy grande. La probabilidad misma es el límite de esta frecuencia relativa a medida que la cantidad de observaciones aumentan de manera indefinida. Ejemplo: Si en 1,000 lanzamientos de una moneda se obtienen 529 caras, la frecuencia relativa con la que se obtienen caras es 529/1,000= Si en otros 1,000 lanzamientos se obtienen 493 caras, la frecuencia relativa en los 2,000 lanzamientos es ( )/2,000=0.51. De acuerdo con la definición estadística, cada vez se estaría más cerca de un número que representa la probabilidad de que caiga cara en un lanzamiento de una sola moneda. Según los resultados este número sería 0.5 a una cifra significativa.
112 Probabilidad condicional; eventos independientes y dependientesSi E1 y E2 son dos eventos, la probabilidad de que ocurra E2, dado que E1 ha ocurrido se denota Pr{E2|E1} o Pr{E2 dado E1} y se conoce como la probabilidad condicional de E2, dado que E1 ha ocurrido. Si la ocurrencia o no ocurrencia de E1 no afecta la probabilidad de ocurrencia de E2, entonces Pr{E2|E1}=Pr{E2} y se dice que E1 y E2 son eventos independientes, de lo contrario se dice que son eventos dependientes.
113 Probabilidad condicional; eventos independientes y dependientesSi se denota con E1E2 el evento de que “tanto E1 como E2 ocurran”, evento al que suele llamarse evento compuesto, entonces En particular
114 Probabilidad condicional; eventos independientes y dependientesEn general, si E1, E2, E3,…, En son n eventos independientes que tienen probabilidades p1, p2, p3,…,pn entonces la probabilidad de que ocurra E1 y E2 y E3 y … En es p1p2p3…pn. Ejemplo: Si la probabilidad de que A esté vivo en 20 años es 0.7 y la probabilidad de que B esté vivo en 20 años es 0.5, entonces la probabilidad de que ambos estén vivos en 20 años es (0.7)(0.5)=0.35.
115 Eventos mutuamente excluyentesSe dice que dos o más eventos son mutuamente excluyentes si la ocurrencia de uno cualquiera de ellos excluye la ocurrencia de los otros. Entonces, si E1 y E2 son eventos mutuamente excluyentes, Pr{E2E1}=0. Si E1 + E2 denotan el evento “ocurre E1 o E2 o ambos”, entonces
116 Eventos mutuamente excluyentesEn particular Por extensión se tiene que si E1, E2,…,En son n eventos mutuamente excluyentes que tienen probabilidades p1, p2,…, pn entonces la probabilidad de que ocurran E1 o E2… En es p1 + p2+ … pn.
117 Eventos mutuamente excluyentesSi E1 es el evento “de una baraja se extrae un as” y E2 es el evento “de una baraja se extrae un rey”, entonces Pr{E1}=4/52=1/13 y Pr{E2}=4/52=1/13, y la probabilidad de en una sola extracción se extrae un as o un rey es Ya que en una sola extracción o se extrae un as o se extrae un rey, y por lo tanto estos eventos son mutuamente excluyentes.
118 Distribuciones de probabilidadDiscretas Si una variable X toma un conjunto discreto de valores X1, X2,…,XK con probabilidades respectivas p1, p2,…pK, donde p1+p2+…+pK=1, esto se define como una distribución de probabilidad discreta de X. La función p(X), que tiene los valores p1, p2,…,pK para X=X1, X2,…XK, respectivamente se le llama función de probabilidad o función de frecuencias de X. Como X puede tomar ciertos valores con determinadas probabilidades, suele llamársele variable aleatoria discreta. A las variables aleatorias también se les conoce como variables estocásticas.
119 Distribuciones de probabilidadEjemplo: Se lanza un par de dados; sea X la suma de los puntos obtenidos en estos dos dados. La distribución de probabilidad es la que se muestra enseguida. Por ejemplo, la probabilidad de que la suma sea 5 es 4/36=1/9; así que de 900 veces que se lancen los dos dados se espera que en 100 la suma de los puntos sea 5. X 2 3 4 5 6 7 8 9 10 11 12 p(X) 1/36 2/36 3/36 4/36 5/36 6/36
120 Distribuciones de probabilidadContinua Las ideas anteriores pueden extenderse al caso en el que la variable X puede tomar un conjunto continuo de valores. El polígono de frecuencias relativas de la muestra se convierte en una curva continua cuya ecuación es Y=p(X). El área total limitada por el eje X, bajo esta curva, es igual a 1, y el área entre las recta X=a y X=b corresponde a la probabilidad de que X se encuentre entre a y b, lo que se denota como Pr(a< X
121 Distribuciones de probabilidadA p(X) se le conoce como función de densidad de probabilidad y cuando se da una de esta funciones se dice que define como una distribución de probabilidad continua para X; a la variable X suele llamársele variable aleatoria continua.
122 Teoría elemental del muestreoCapítulo 7
123 Teoría del muestreo La teoría del muestreo es el estudio de la relación que existe entre una población y las muestras que se obtienen de esa población. La teoría del muestreo se emplea en muchos contextos. Por ejemplo, en la estimación de cantidades poblacionales desconocidas (como la media y la varianza poblacionales), a las que se les conoce como parámetros poblacionales, a partir de las correspondientes cantidades muestrales (como la media y la varianza muestrales), a menudo conocidas como estadísticos muestrales.
124 Teoría del muestreo La teoría del muestreo también sirve para determinar si las diferencias que se observan entre dos muestras se deben a variaciones casuales o si son diferencias realmente significativas. Tales preguntas surgen, por ejemplo, cuando se tiene que decidir si un proceso de producción es mejor que otro. Para responder a estas preguntas se usan las llamadas pruebas de significancia o de hipótesis, fundamentales en la teoría de decisiones.
125 Teoría del muestreo En general, al estudio de las inferencias que se hacen acerca de una población, empleando muestras obtenidas de ella, y de las indicaciones de la exactitud de tales inferencias, mediante el uso de la teoría de la probabilidad, es a lo que se le llama inferencia estadística.
126 Muestras aleatorias y números aleatoriosPara que las conclusiones que se obtienen empleando la teoría del muestreo y la inferencia estadística sean válidas, las muestras deben elegirse de manera que sean representativas de la población. Al estudio de los métodos de muestreo y de los problemas relacionados con ellos se le conoce como diseño de experimentos.
127 Muestras aleatorias y números aleatoriosUna manera de obtener una muestra representativa es mediante un proceso llamado muestreo aleatorio, mediante el cual cada uno de los miembros de la población tiene la misma posibilidad de ser incluido en la muestra. Una técnica para obtener una muestra aleatoria consiste en asignarle, a cada miembro de la población, un número, escribir estos números en pedazos de papel, colocarlos en una urna y después extraer los números de la urna, teniendo cuidado de mezclar muy bien antes de cada extracción. Una alternativa a este método es usar una tabla de números aleatorios.
128 Muestreo con reposición y sin ellaSi se extrae un número de una urna, antes de extraer otro, el número puede ser devuelto a la urna (ser repuesto) o no. En el primer caso, el número puede ser extraído varias veces, en tanto que en el segundo caso sólo puede ser extraído una vez. A un muestreo en el que cada miembro de la población puede ser elegido más de una vez se le llama muestreo con reposición, en cambio, si sólo puede ser elegido una vez se llama muestreo sin reposición.
129 Muestreo con reposición y sin ellaUna población puede ser finita o infinita. Por ejemplo, si de una urna que contiene 100 canicas se extraen sucesivamente 10 canicas sin reposición, se está muestreando una población finita; en cambio, si se lanza una moneda 50 veces y se cuenta la cantidad de caras, se está muestreando de una población infinita. Una población finita que se muestrea con reposición puede considerarse teóricamente infinita, ya que se puede extraer cualquier cantidad de muestras sin agotar la población. Para fines prácticos, cuando se muestrea de una población finita pero muy grande, se puede considerar que el muestreo se hace de una población infinita.
130 Distribuciones muestralesConsiderénse todas las muestras de tamaño N que pueden extraerse de determinada población (ya sea con reposición o sin ella). Para cada muestra se pueden calcular diversos estadísticos (como media o desviación estándar), los cuales variarán de una muestra a otra. De esta manera se obtiene una distribución del estadístico de que se trate, a la que se le llama distribución muestral.
131 Distribuciones muestralesPor ejemplo, si el estadístico de que se trata es la media muestral, a la distribución que se obtiene se le llama distribución muestral de las medias o distribución muestral de la media. De igual manera se pueden obtener distribuciones muestrales de las desviaciones estándar, de las varianzas, de las medianas, de las proporciones, etcétera. A cada distribución muestral se le puede calcular su media, su desviación estándar, etc. Así, se puede hablar de la media, de la desviación estándar, de la distribución muestral de las medias, etc.
132 Distribución muestral de mediasSupóngase que de una población finita de tamaño Np > N se extraen, sin reposición, todas las muestras posibles de tamaño N. Si se denota μX y σX respectivamente, a la media y a la desviación estándar de una distribución muestral de las medias, y con μ y σ, respectivamente, a la media y la desviación estándar poblacionales, entonces
133 Distribución muestral de mediasSi la población es infinita, o si el muestreo se hace con reposición, las ecuaciones anteriores se reducen a
134 Distribución muestral de mediasSi el valor de N es grande (N ≥ 30), la distribución muestral de las medias es aproximadamente normal con media μX y desviación estándar σX, independientemente de la población (siempre y cuando la media y la varianza poblacionales sean finitas y el tamaño de la población sea por lo menos el doble del tamaño de la muestra). Si la población es infinita, este resultado es un caso especial del teorema del límite central de la teoría avanzada de la probabilidad, el cual muestra que la exactitud de la aproximación aumenta a medida que N aumenta. Esto suele indicarse diciendo que la distribución muestral es asintóticamente normal.
135 Distribución muestral de mediasSi la población está distribuida normalmente, la distribución muestral de las medias también es normal aun cuando el valor de N sea pequeño (es decir, N < 30).
136 Teoría de la estimación estadísticaCapítulo 8
137 Estimación de parámetrosUn problema importante de la inferencia estadística es la estimación de parámetros poblacionales, o simplemente parámetros (como, por ejemplo, la media y la varianza poblacionales), a partir de los correspondientes estadísticos muestrales, o simplemente estadísticos (por ejemplo, la media y la varianza muestrales). En este capítulo se analiza este problema.
138 Estimaciones insesgadasSi la media de la distribución muestral de un estadístico es igual al parámetro poblacional correspondiente se dice que el estadístico es un estimador insesgado del parámetro; si no es así, se dice que es un estimador sesgado. A los valores de estos estadísticos se les llama estimaciones insesgadas o sesgadas, respectivamente. Ejemplo 1 La media de la distribución muestral de las medias uX es u, la media poblacional. Por lo tanto, la media muestral X es una estimación insesgada de la media poblacional u.
139 Estimaciones insesgadasEjemplo 2 La media de la distribución muestral de las varianzas es Donde sigma al cuadrado es la varianza poblacional y N es el tamaño de la muestra. Por lo tanto, La varianza muestral s2 es una estimación sesgada de la varianza poblacional σ2. Empleando la varianza modificada
140 Estimaciones insesgadasSe encuentra que us2=σ2, de manera que s2 es una estimación insesgada de σ2. En el lenguaje de la esperanza matemática se puede decir que un estadístico es insesgado si su esperanza matemática es igual al correspondiente parámetro poblacional. Por lo tanto, X y s2 son insesgados, ya que
141 Estimaciones eficientesSi la distribución muestral de dos estadísticos tiene la misma media (o esperanza), entonces el estadístico que tiene la menor varianza se le llama estimador eficiente del parámetro correspondiente y al otro se le llama estimador ineficiente. A los valores de estos estadísticos se les llama estimaciones eficientes o ineficientes, respectivamente. Si se consideran todos los estadísticos cuya distribución muestral tiene una misma media, al estadístico que tiene la menor varianza suele llamársele estimador más eficiente o mejor del parámetro correspondiente.
142 Estimaciones eficientesEjemplo 3 Las distribuciones muestrales de la media y de la mediana tienen la misma media, a saber, la media poblacional. Sin embargo, la varianza de la distribución muestral de las medias es menor que la varianza de la distribución muestral de las medianas. Por lo tanto, la media muestral proporciona una estimación eficiente de la media poblacional, en tanto que la mediana muestral proporciona una estimación ineficiente de la media poblacional. De todos los estadísticos que estiman la media poblacional, la media muestral proporciona la mejor (o la más eficiente) estimación. En la práctica las estimaciones ineficientes suelen usarse debido a la relativa facilidad con que algunas de ellas pueden obtenerse.
143 Estimaciones puntuales y estimaciones por intervalo; su confiabilidadA una estimación de un parámetro poblacional que se da mediante un solo número se le llama estimación puntual del parámetro. A una estimación de una parámetro poblacional que se da mediante dos números, entre los cuáles se considera que debe estar el parámetro en cuestión, se le llama estimación por intervalo del parámetro en cuestión. Las estimaciones por intervalo dan la precisión, o exactitud, de la estimación y por esto se prefieren a las estimaciones puntuales.
144 Estimaciones puntuales y estimaciones por intervalo; su confiabilidadEjemplo 4 Si se dice que en la medición de una distancia se obtuvo como resultado 5.28 metros, se está dando una estimación puntual. En cambio, si se dice que la distancia es 5.28 ± 0.03 metros, se está dando una estimación por intervalo. La información sobre el error (precisión) de una estimación es su confiabilidad.
145 Estimación de parámetros poblacionales mediante un intervalo de confianzaSean μs y σs la media y la desviación estándar, respectivamente, de la distribución muestral de un estadístico S. Entonces, si la distribución muestral de S es aproximadamente normal (lo que se sabe es así para muchos estadísticos si el tamaño de la muestra es N ≥ 30), se puede esperar que exista un estadístico muestral S que se encuentre en los intervalos μs – σs a μs + σs, μs – 2σs a μs + 2σs o μs – 3σs a μs + 3σs, a %, 95.45% y 99.73% de las veces, respectivamente.
146 Estimación de parámetros poblacionales mediante un intervalo de confianzaDe igual manera, se puede hallar (o se puede tener la confianza de hallar) μs en los intervalos S – σs a S + σs, S – 2σs a S + 2σs o S – 3σs a S + 3σs a %, 95.45% y 99.73% de las veces, respectivamente. Debido a ello, a estos intervalos se les llama intervalos de confianza de 68.27%, 95.45% y % para estimar μs. A los números de los extremos de estos intervalos (S±σs, S±2σs, S±3σs) se les llama límites de confianza o límites fiduciales. De igual manera, S±1.96σs y S±2.58σs son los límites de confianza de 95% y de 99% (o de 0.95 y 0.99) para S. Al porcentaje de confianza se le suele llamar nivel de confianza. A los números 1.96 y 2.58, etc., que aparecen en los límites de confianza se les llama coeficientes de confianza y se denotan zc. A partir de los niveles de confianza se pueden encontrar los coeficientes de confianza y viceversa.
147 Intervalos de confianza para las mediasSi el estadísticos S es la media muestral X, entonces los límites de confianza de 95 y 99% para la estimación de la media poblacional μ están dados por X±1.96σX y X±2.58σX, respectivamente. En general los límites de confianza están dados por X±zcσX donde zc (que depende del nivel de confianza deseado) puede leerse en la tabla siguiente. Nivel de confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50% zc 3.00 2.58 2.05 2.00 1.96 1.645 1.28 1.00 0.6745
148 Intervalos de confianza para las mediasEmpleando los valores σx, se ve que los límites de confianza para la media poblacional están dados por Si el muestreo se hace ya sea de una población infinita o finita, pero con reposición, y están dados por Si el muestreo se hace sin reposición de una población de tamaño finito Np.
149 Intervalos de confianza para las mediasPor lo general no se conoce la desviación estándar poblacional σ; de manera que para obtener los límites de confianza anteriores, se usa la estimación muestral s. El resultado es satisfactorio si N ≥ 30. Si N < 30, la aproximación es pobre y se debe emplear la teoría del muestreo para muestras pequeñas.
150 Intervalos de confianza para proporcionesSi el estadístico S es la proporción de “éxitos” en una muestra de tamaño N obtenida de una población binomial en la que p es la proporción de éxitos (es decir, la probabilidad de éxito), entonces los límites de confianza para p están dados por P±zcσp, donde P es la proporción de éxitos en una muestra de tamaño N. Empleando los valores σp se ve que los límites de confianza para la proporción poblacional están dados por Si el muestreo se hace de una población infinita o de una población finita, pero con reposición
151 Intervalos de confianza para proporcionesY están dados por Si el muestreo se hace sin reposición y de una población finita de tamaño Np. Para calcular estos límites de confianza se emplea la estimación muestral P para p, la que por lo general resulta satisfactoria siempre que N ≥ 30.
152 Teoría estadística de la decisiónCapítulo 9
153 Decisiones estadísticasEn la práctica, con frecuencia se tienen que tomar decisiones acerca de una población con base en información muestral. A tales decisiones se les llama decisiones estadísticas. Por ejemplo, tal vez se tenga que decidir, con base en datos muestrales, si determinado suero es realmente eficaz en la curación de una enfermedad, si un método educativo es mejor que otro, o bien si una moneda está alterada o no.
154 Hipótesis estadísticasCuando se trata de tomar una decisión es útil hacer suposiciones (o conjeturas) acerca de la población de que se trata. A estas suposiciones, que pueden ser o no ciertas, se les llama hipótesis estadísticas. Estas hipótesis estadísticas son por lo general afirmaciones acerca de las distribuciones de probabilidad de las poblaciones.
155 Hipótesis nula En muchas ocasiones se formula una hipótesis estadística con la única finalidad de refutarla o anularla. Por ejemplo, si se quiere decidir si una moneda está cargada o no, se formula la hipótesis de que no está cargada (es decir, p=0.5, donde p es la probabilidad de cara). También si se quiere decidir si un método es mejor que otro, se formula la hipótesis de que no hay diferencia entre los dos (es decir, que cualquier diferencia que se observe se debe solo a las fluctuaciones del muestreo de una misma población). A estas hipótesis se les llama hipótesis nula y se denota H0.
156 Hipótesis alternativaA toda hipótesis que difiera de la hipótesis dada se le llama hipótesis alternativa. Por ejemplo, si una hipótesis es p=0.5, la hipótesis alternativa puede ser p=0.7, p ≠ 0.5 o p > 0.5. La hipótesis alternativa a la hipótesis nula se denota H1.
157 Pruebas de hipótesis y de significancia o reglas de decisiónSi se supone que una hipótesis es verdadera, pero se encuentra que los resultados que se observan en una muestra aleatoria difieren marcadamente de los resultados esperados de acuerdo con la hipótesis (es decir, esperados con base sólo en la casualidad empleando la teoría del muestreo), entonces se dice que las diferencias observadas son significativas y se estará inclinado a rechazar la hipótesis. Por ejemplo, si en 20 lanzamientos de una moneda se obtienen 16 caras, se estará inclinado a rechazar que la moneda es buena, aun cuando se puede estar equivocado. A los procedimientos que permiten determinar si las muestras observadas difieren significativamente de los resultados esperados, ayudando a decidir si se acepta o se rechaza la hipótesis, se les llama prueba de hipótesis, pruebas de significancia o reglas de decisión.
158 Errores tipo I y II Si se rechaza una hipótesis que debería aceptarse se dice que se comete un error tipo I. Si por otro lado, se acepta una hipótesis que debería rechazarse, se comete un error tipo II. En cualquiera de los casos ha habido una decisión errónea. Para que las reglas de decisión (o pruebas de hipótesis) sean buenas, deben diseñarse de manera que se minimicen los errores de decisión. Esto no es sencillo, ya que para cualquier tamaño dado de muestra, al tratar de disminuir un tipo de error suele incrementarse el otro tipo de error. En la práctica, un tipo de error puede ser más importante que el otro y habrá que sacrificar uno con objeto de limitar el más notable. La única manera de reducir los dos tipos de error es aumentando el tamaño de muestra, lo que no siempre es posible.
159 Nivel de significanciaCuando se prueba una determinada hipótesis, a la probabilidad máxima con la que se está dispuesto a cometer un error tipo I se le llama nivel de significancia de la prueba. Esta probabilidad acostumbra denotarse α y por lo general se especifica antes de tomar cualquier muestra para evitar que los resultados obtenidos influyan sobre la elección del valor de esta probabilidad.
160 Nivel de significanciaEn la práctica, se acostumbran los niveles de significancia de 0.05 o 0.01, aunque también se usan otros valores. Si por ejemplo, al diseñar la regla de decisión se elige el nivel de significancia 0.05, entonces existen 5 posibilidades en 100 de que se rechace una hipótesis que debía ser aceptada; es decir, se tiene una confianza de aproximadamente 95% de que se ha tomado la decisión correcta. En tal caso se dice que la hipótesis ha sido rechazada al nivel de significancia 0.05, lo que significa que la hipótesis tiene una probabilidad de 0.05 de ser errónea.
161 Pruebas empleando distribuciones normalesPara ilustrar las ideas presentadas, supóngase que de acuerdo con determinada hipótesis, la distribución muestral de un estadístico S es una distribución normal con media μs y desviación estándar σs. Por lo tanto, la distribución de la variable estandarizada (o puntuación z), dada por z=(S-μs)/σs, es la distribución normal estándar (media 0, varianza 1) que se muestra en la siguiente figura.
162 Pruebas empleando distribuciones normales
163 Pruebas empleando distribuciones normalesComo indica la figura, se puede tener una confianza del 95% en que si la hipótesis es verdadera, entonces la puntuación z del estadístico muestral real S estará entre y 1.96 (ya que el área bajo la curva normal entre estos dos valores es 0.95). Pero si se toma una sola muestra aleatoria y se encuentra que la puntuación z del estadístico se encuentra fuera del rango y 1.96, se concluye que si la hipótesis dada es verdadera, esto sólo puede ocurrir con una probabilidad de 0.05 (el total del área sombreada en la figura). En tal caso se dice que la puntuación z difiere en forma significativa de lo esperado de acuerdo con la hipótesis dada y se estará inclinado a rechazar esa hipótesis.
164 Pruebas empleando distribuciones normalesEl 0.05, que es el total del área sombreada, es el nivel de significancia de la prueba. Esta cantidad representa la probabilidad de estar equivocado al rechazar la hipótesis (es decir, la probabilidad de cometer un error tipo I). Por lo tanto, se dice que la hipótesis se rechaza al nivel de significancia 0.05 o que la puntuación z del estadístico muestral dado es significante al nivel 0.05.
165 Pruebas empleando distribuciones normalesEl conjunto de puntuaciones z que queda fuera del intervalo y constituye lo que se llama región crítica de la hipótesis, región de rechazo o región de significancia. Al conjunto de puntuaciones z que queda dentro del intervalo se le llama región de aceptación o región de no significancia. De acuerdo con las observaciones anteriores, se puede formular la siguiente regla de decisión (o prueba de hipótesis o de significancia): Rechazar la hipótesis al nivel de significancia 0.05, si la puntuación z del estadístico S se encuentra fuera del rango y Esto equivale a decir que el estadístico muestral observado es significante al nivel 0.05. Si no es así, se acepta la hipótesis.
166 Pruebas empleando distribuciones normalesDebido a que la puntuación z es tan importante en las pruebas de hipótesis, también se le conoce como el estadístico de prueba. Hay que hacer notar que también pueden emplearse otros niveles de significancia. Por ejemplo, si se emplea el nivel 0.01, el 1.96 empleado antes se sustituiría por También se puede emplear la tabla siguiente, ya que los niveles de significancia y de confianza suman 100%.
167 Pruebas empleando distribuciones normalesNivel de significancia, α 0.10 0.05 0.01 0.005 0.002 Valores críticos de z para pruebas de una cola -1.28 ó 1.28 ó 1.645 -2.33 ó 2.33 -2.58 ó 2.58 -2.88 ó 2.88 Valores críticos de z para pruebas de dos colas y 1.645 -1.96 y 1.96 -2.58 y 2.58 -2.81 y 2.81 -3.08 y 3.08
168 Pruebas de una y dos colasEn la prueba anterior interesaban los valores extremos del estadístico S, o de sus correspondientes puntuaciones z, a ambos lados de la media (es decir, en las dos colas de la distribución). Por lo tanto, a las pruebas de este tipo se les llama pruebas bilaterales o pruebas de dos colas. Sin embargo, hay ocasiones en las que interesan únicamente los valores extremos a un solo lado de la media (es decir, en una sola cola de la distribución); por ejemplo, cuando se prueba si un método es mejor que otro (que es distinto a probar si un método es mejor o peor que otro). A este tipo de pruebas se les llama pruebas unilaterales o pruebas de una cola. En estos casos la región crítica es una región en un solo lado de la distribución y su área es igual al nivel de significancia.
169 Ajuste de curvas y método de mínimos cuadradosCapítulo 10
170 Relación entre variablesCon frecuencia, en la práctica se encuentra que existen relaciones entre dos (o más) variables. Por ejemplo, el peso de los hombres adultos depende de alguna manera de su estatura; la circunferencia de un círculo depende de su radio y la presión de una masa de gas depende de su temperatura y volumen. Es útil expresar estas relaciones en forma matemática mediante una ecuación que conecte estas variables.
171 Ajuste de curvas Para hallar una ecuación que relacione las variables, el primer paso es obtener datos que muestren los valores de las variables que se están considerando. Por ejemplo, si X y Y denotan, respectivamente, la estatura y el peso de hombres y adultos, entonces en una muestra de N individuos se hallan las estaturas X1, X2,…,XN y los correspondientes pesos Y1, Y2,…YN. El paso siguiente es graficar los puntos (X1,Y1), (X2,Y2),…,(XN,YN) en un sistema de coordenadas rectangulares. Al conjunto de puntos obtenido se le llama diagrama de dispersión
172 Ajuste de curvas En el diagrama de dispersión es posible visualizar alguna curva cuya forma se aproxime a los datos. A esta curva se le llama curva de aproximación. Por ejemplo, en la figura uno que sigue los datos al parecer se aproximan adecuadamente mediante una línea recta; entonces se dice que entre las variables existe una relación lineal. En cambio, en la figura dos, aunque existe una relación entre las variables, esta relación no es lineal y por lo tanto se le llama relación no lineal. En general, al problema de hallar la ecuación de una curva de aproximación que se ajuste a un conjunto dado de datos se le conoce como ajuste de curvas.
173 Ajuste de curvas
174 Ajuste de curvas
175 Ecuaciones de curvas de aproximaciónComo referencia, a continuación se presentan varios de los tipos más comunes de curvas de aproximación. Todas las letras, excepto X y Y, representan constantes. A las variables X y Y se les llama variables independiente y variable dependiente, respectivamente, aunque estos papeles pueden intercambiarse.
176 La línea recta El tipo más sencillo de curva de aproximación es una línea recta, cuya ecuación puede escribirse como 1) Dados dos puntos cualesquiera (X1,Y1) y (X2,Y2) de la recta, se determinan las constantes a0 y a1. La ecuación que se obtiene es
177 La línea recta Donde Es la pendiente de la recta y representa el cambio o variación en Y dividido por un cambio o variación correspondiente en X. En la ecuación (1), la constante a1 es la pendiente m. La constante a0 que es el valor de Y cuando X=0, se conoce como la intersección con el eje Y
178 El método de mínimos cuadradosPara evitar el empleo del criterio personal para la construcción de rectas, parábolas u otras curvas de aproximación que se ajusten a un conjunto de datos, es necesario ponerse de acuerdo en una definición de la “recta de mejor ajuste”, la “parábola de mejor ajuste”, etc. Con objeto de dar una definición, considérese la figura enseguida, en la que los datos son los puntos (X1,Y1) y (X2,Y2),…, (XN,YN). Dado un valor de X, por ejemplo X1, entre el valor Y1 y el valor correspondiente determinado de acuerdo con la curva C habrá una diferencia. Como se muestra en la figura, esta diferencia se denota D1 y se llama desviación, el error o el residual y puede ser negativo, positivo o cero. De manera semejante se obtienen las desviaciones X2,…,XN correspondientes a cada valor D2,…,DN.
179
180 El método de mínimos cuadradosUna medida de la “bondad de ajuste” de la curva C a los datos es la cantidad D12+D22+…+DN2. Si esta cantidad es pequeña, el ajuste es bueno; si es grande, el ajuste es malo. De esta manera se llega a la definición siguiente: De todas las curvas que se aproximan a un conjunto dado de puntos, a la curva que tiene la propiedad de que D12+D22+…+DN2 sea la mínima se le llama curva de mejor ajuste.
181 El método de mínimos cuadradosUna curva que tiene esta propiedad se dice que se ajusta a los datos en el sentido de mínimos cuadrados y se le llama curva de mínimos cuadrados. De manera que una recta que tiene esta propiedad se dice que es una recta de mínimos cuadrados, una parábola que tiene esta propiedad es una parábola de mínimos cuadrados, etc. La definición anterior suele emplearse cuando X es la variable independiente y Y es la variable dependiente. Si X es la variable dependiente, la definición se modifica considerando desviaciones horizontales en lugar de desviaciones verticales, lo que equivale a intercambiar los ejes X y Y. Por lo general, estas dos definiciones llevan a curvas distintas de mínimos cuadrados.
182 La recta de mínimos cuadradosLa recta de mínimos cuadrados que aproxima el conjunto de puntos (X1,Y1), (X2,Y2),…,(XN,YN) tiene la ecuación 1) Donde las constantes a0 y a1 se determinan resolviendo las ecuaciones simultáneas 2)
183 La recta de mínimos cuadradosA las que se les denomina ecuaciones normales de la recta de mínimos cuadrados. Las constantes a0 y a1 de las ecuaciones anteriores pueden hallarse empleando las condiciones 3)
184 La recta de mínimos cuadradosPara recordar las ecuaciones normales (2) hay que observar que la primera ecuación se obtiene formalmente sumando ambos lados de la ecuación (1) y la segunda ecuación se obtiene multiplicando, primero, ambos lados de la ecuación (1) por X y después sumando. Obsérvese que no se trata de una deducción de las ecuaciones normales, sino simplemente de una manera que facilita recordarlas. Obsérvese también que en las ecuaciones (2) y (3) se ha empleado la notación abreviada.
185 La recta de mínimos cuadradosEl trabajo que implica hallar la recta de mínimos cuadrados puede reducirse transformando los datos de manera que x=X-X y y=Y-Ῡ. Entonces la ecuación de la recta de mínimos cuadrados puede escribirse de la manera siguiente 4)
186 La recta de mínimos cuadradosEn particular si X es tal que la sumatoria de X=0, la ecuación se convierte en 5) La ecuación (5) implica que y=0 para x=0; por lo tanto, la recta de mínimos cuadrados pasa por el punto (X,Y), al que se le llama el centroide o centro de gravedad de los datos.
187 La recta de mínimos cuadradosSi se considera que la variable X es la variable dependiente en lugar de la variable independiente, la ecuación (1) se modifica. Las ecuaciones anteriores son válidas cuando se intercambia X por Y, pero la recta de mínimos cuadrados que se obtiene no es la misma que la obtenida antes.
188 Regresión Con frecuencia se desea estimar el valor de la variable Y que corresponde a un valor dado de la variable X, basándose en los datos muestrales. Esto se hace estimando el valor de Y a partir de la curva de mínimos cuadrados ajustada a los datos muestrales. A la curva de mínimos cuadrados se le llama curva de regresión de Y en X, debido a que Y se estimar a partir de X. Si lo que se desea es estimar un valor de X a partir de un valor dado de Y, se emplea la curva de regresión de X en g, que es lo mismo que intercambiar las variables en el diagrama de dispersión, de manera que X sea la variable dependiente y Y sea la variable independiente. En este caso se sustituyen las desviaciones verticales, de la definición de la curva de mínimos cuadrados por desviaciones horizontales. En general, la recta o la curva de regresión de Y en X no es igual a la recta o a la curva de regresión de X en Y.
189