lunes, 13 de agosto de 2012

Pruebas de hipótesis para diferencias de medias


Al estudiar el consumo de gasolina de los vehículos repartidores de una empresa se encontró que el consumo medio de una muestra de  36 vehículos fue 9.7 km/l, mientras que el consumo medio de otra muestra de 32 vehículos aumento a 10.1/l  al emplear cierto aditivo. ¿El uso del aditivo mejora efectivamente el rendimiento, o la diferencia se debe a la variabilidad de la distribución de  medias muestrales?
El método que se emplea para estudiar si la diferencia entre las medias observadas en un par de muestras $\bar{x}_1$  y  $\bar{x}_2$se debe al azar o si es estadísticamente significante se basa en el hecho de que cuando los tamaños de las muestras son grandes ($n_1 \geq 30$ y  $n_2 \geq 30 $), la distribución de la variable aleatoria $\bar{x}_1 - \bar{x}_2$ es aproximadamente normal con media $\mu_1-\mu_2$ y desviación estándar
$ \sqrt[]{\frac{{\sigma_1}^2}{n_1}+\frac{{\sigma_2}^2}{n_2}}$
Donde $\mu_1, \mu_2, \sigma_1, \sigma_2 $ son las medias y desviaciones estándar de las dos poblaciones. A la desviación estándar de esta distribución se le llama el error estádar de la diferencia de las medias. Así, cuando $n_1 \geq 30 y  n_2 \geq 30 $ podemos probar la hipótesis nula $\mu_1=\mu_2, $ utilizando básicamente los mismos criterios que para pruebas de hipótesis para medias con muestras grandes, sólo que ahora
$z=\frac{\bar{x}_1-\bar{x}_2}{\sqrt[]{\frac{{\sigma_1}^2}{n_1}+\frac{{\sigma_2}^2}{n_2}}}  $
En la mayoría de las aplicaciones los valores de $\sigma_1$ y $\sigma_2$ son desconocidos y no se tiene otra alternativa que la de sustituir estos valores por $s_1$ y $s_2$, las desviaciones estándar de cada una de las muestras. Dependiendo si la hipótesis alternativa es $\mu_1=\mu_2, \mu_1 >  \mu_2   o  \mu_1 <  \mu_2$, los valores críticos están de nuevo dados por la siguiente tabla


Presentamos a continuación dos ejemplos con muestras grandes donde analizamos la diferencia de las medias.
a) Para estudiar si hay diferencia entre las alturas promedio de niños de 7 años de dos regiones del país, se realizo una muestra aleatoria en cada una de estas regiones. En la primer región el tamaño  de la muestra fue de $n_1=150$, y la media y desviación estándar observadas fueron $ \bar{x} = 122.3 cms $ y $s_1$= 6.1 cm; mientras que para la segunda región  los parámetros de la muestra fueron  $n_2$ = 180, $ \bar{x}_2$ = 123.9  cm y $s_2 = 6.3 cm$ ¿Con un nivel de significancia del 0.05 debemos rechazar la hipótesis nula $\mu_1 = \mu_2$ y aceptar la hipótesis  alternativa $\mu_1 \neq \mu_2 $?
Debemos rechazar la hipótesis nula si z < -1.96 o si  z > 1.96, donde
$z=\frac{\bar{x}_1-\bar{x}_2}{\sqrt[]{\frac{{\sigma_1}^2}{n_1}+\frac{{\sigma_2}^2}{n_2}}} =\frac{122.3-123.9}{\sqrt[]{\frac{{6.1}^2}{150}+\frac{{6.3}^2}{180}}} =\frac{-1.6}{\sqrt[]{0.469}} = -2.33$
Como -2.33  <  - 1.96, debemos rechazar la hipótesis nula; esto es, los datos de las muestras revelan que hay una diferencia en la altura media de los niños de las dos regiones.
b) Consideremos de nuevo el caso de la empresa que desea verificar si efectivamente el empleo de un aditivo para gasolina aumenta el rendimiento de los vehículos repartidores.  Si la media y desviación estándar de la muestra de 36 vehículos fueron $\bar{x}_1$= 9.7 km /l  y $s_1 = 0.9 km /l$, mientras que para la otra muestra de 32 vehículos con aditivo se obtuvieron $\bar{x}_2$= 10.1 km /l y $s_2$ = 0.85 km /l. ¿Con un nivel de significancia del 0.05 debemos rechazar la hipótesis nula $\mu_1 = \mu_2$ y aceptar la hipótesis alternativa $\mu_1  <  \mu_2$?

Como estamos interesados en saber si $\mu_1 < \mu_2$, es decir, si  $\mu_1 - \mu_2  <  0 $, debemos ahora rechazar la hipotesis nula únicamente si z  <  -1.645, donde ahora


$z=\frac{\bar{x}_1-\bar{x}_2}{\sqrt[]{\frac{{\sigma_1}^2}{n_1}+\frac{{\sigma_2}^2}{n_2}}} =\frac{9.7 -10.1}{\sqrt[]{\frac{{0.9}^2}{36}+\frac{{0.85}^2}{32}}} =\frac{-0.4}{\sqrt[]{0.045}} = -1.88$

Como -1.88 resultó menor que -1.645, debemos aceptar que el aditivo mejora el rendimiento de la gasolina.

Cuando los tamaños de las muestras son pequeños y las poblaciones pueden aproximarse con desviaciones estándar muy semejantes, las pruebas de hipótesis para diferencia de medias se basan en la distribución t, donde

$t=\frac{\bar{x}_1 - \bar{x}_2}{\sqrt[]{\frac{ (n_1-1)s_1 ^2+(n_2-1)s_2 ^2}{n_1+n_2-2}}(\frac{1}{n_1}+\frac{1}{n2})}$

Tiene $n_1 + n_2 -2 $ grados de libretas. Consideremos ejemplos para ilustrar el empleo de estas pruebas.
 
a) Con el fin de evaluar la eficacia de dos cursos de capacitación para montajes de motores en una planta automotriz, se sometió a dos grupos de empleados recién contratados a estos cursos. Una vez terminados los cursos se observo que en el grupo de $n_1$ = 12 empleados que tomo el primer curso, el tiempo promedio de montaje de un motor fue  $\bar{x}_1$ = 23.4 minutos y la desviación estándar fue $s_1$ =3.2 minutos. En el grupo de $n_2$ = 10 empleados que tomaron el segundo  curso se observó un tiempo medio de montaje  $\bar{x}_2$ =21.2 minutos  y la desviación estándar fue $s_2$=3.5 minutos ¿Con un nivel de significancia del 0.05 debemos rechazar la hipótesis nula $ \mu_1 = \mu_2$ y aceptar la hipótesis alternativa $ \mu_1 \neq \mu_2$?

Debemos primero determinar los valores críticos de esta prueba. Como se trata de una prueba bilateral, el nivel de significancia es de 0.05 y los grados de libertad vienen dados por $n_1 + n_2 -2 $ , debemos buscar en la tabla de valores de t el valor de t correspondiente  a la columna $t_0.025$ y al renglón 12+10-2 = 20. Este valor es 2.086, de modo que debemos rechazar la hipótesis $ \mu_1 =  \mu_2$ si t  < -2.086  ó  t > 2.086, donde
$t=\frac{\bar{x}_1 - \bar{x}_2}{\sqrt[]{\frac{ (n_1-1)s_1 ^2+(n_2-1)s_2 ^2}{n_1+n_2-2}}(\frac{1}{n_1}+\frac{1}{n2})} = \frac{23.4 - 21.2}{\sqrt[]{\frac{ (11)3.2 ^2+(9)3.5^2}{20}}(\frac{1}{12}+\frac{1}{10})} = 1.54 $
Como 1.54 < 2.086, entonces debemos aceptar la hipótesis de que $ \mu_1 = \mu_2$, esto es, que los dos cursos de capacitación tienen la misma eficiencia.
 
b) Un laboratorio desea conocer el efecto en el aumento de la dosis de un tratamiento de quimioterapia de cáncer pulmonar. En los 6 pacientes que fueron sometidos a una dosis de 12 ml se observó que después de dos meses  el volumen de sus tumores alcanzó un decremento promedio $ \bar{x}_1$ = 24 % con una desviación estándar $s_1$ = 4.6 %. Después de dos meses, en los 8 pacientes que recibieron una dosis de 18 ml se observó un decremento promedio $x_2$=27.9%  de sus tumores con una desviación estándar $s_2$ = 3.4 %. ¿Es posible concluir que el aumento de la dosis disminuye el volumen del temor con un nivel de significancia de 0.05?
Para determinar los valores críticos observamos primero que la prueba es unilateral ya que nos interesa probar si $\mu_1  <  \mu_2$. Por tanto debemos buscar en esta tabla el valor de t que aparece en la columna de $t_0.05$ y en el renglón  de 6 + 8 -2 =12. Como este valor es de 1.782, debemos aceptar $\mu_1   <   \mu_2$, es decir, $\mu_1    -   \mu_2$   <  0  si t  < -1.782. Ahora
$t=\frac{\bar{x}_1 - \bar{x}_2}{\sqrt[]{\frac{ (n_1-1)s_1 ^2+(n_2-1)s_2 ^2}{n_1+n_2-2}}(\frac{1}{n_1}+\frac{1}{n2})} = \frac{24-27.9}{\sqrt[]{\frac{ (5)4.3 ^2+(7)3.1^2}{12}}(\frac{1}{6}+\frac{1}{8})} = -1.97 $
 
Y como -1.97 < -1.782, el valor de t cae en la región de rechazo. La diferencia entre las medias muestra evidencia estadística de que al aumentar la dosis en 50% la reducción promedio del tumor aumenta.