Métodos Estadı́sticos de la Ingenierı́a Práctica 7: Contrastes de Hipótesis paramétricos y no paramétricos Área de Estadı́stica e Investigación Operativa Mariano Amo Salas y Licesio J. Rodrı́guez-Aragón Mayo 2010 Contenidos Práctica 7 . . . . . . . . . . . Contrastes de Hipótesis . . . . . . . . . . Contraste para dos proporciones. . . . . Contrastes unilaterales . . . . . . . . . . . Contraste de dos medias . . . . . . . . . . Ejemplo:. . . . . . . . . . . . . . . . . . . . . Contraste para muestras relacionadas . Contraste χ2 . . . . . . . . . . . . . . . . . . Kolmogorov-Smirnov . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3 4 5 6 7 8 9 10 11 Contenidos Práctica 7 Contrastes de Hipótesis para dos proporciones. Contrastes de Hipótesis para dos medias. Contraste para muestras relacionadas. Contraste χ2 . Contraste Kolmogorov-Smirnov. Ejercicios. Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 2 / 11 Contrastes de Hipótesis En la práctica anterior los contrastes de hipótesis comparaban la muestra con un valor asumido para la población. Este procedimiento comprueba si la muestra nos permite detectar diferencias significativas que nos lleven a rechazar la hipótesis nula H0 , o si por el contrario no nos lo permite. Esto implica el tener algún tipo de información acerca de la población. En muchas situaciones lo que necesitaremos será comparar dos parámetros: 2 proporciones o medias. Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 3 / 11 2 Contraste para dos proporciones Ejemplo: Un vendedor de teléfonos ha vendido 150 teléfonos de la marca 1 y ha tenido que tramitar fallos en perı́odo de garantı́a a 14 de ellos. Al mismo tiempo ha vendido 125 teléfonos de la marca 2 habiendo tramitado un total de 15 fallos en perı́odo de garantı́a. ¿Hay una evidencia estadı́stica que nos permita asegurar que el porcentaje de fallos para ambas marcas es distinto? En este caso consideraremos p̂1 la proporción de teléfonos con fallo del fabricante 1 y p̂2 del fabricante 2. El contraste que desearı́amos poder realizar serı́a: H 0 : p1 = p2 H1 : p1 6= p2 Este contraste puede interpretarse de la forma: H 0 : p1 − p2 = 0 H1 : p1 − p2 6= 0 Entonces el estadı́stico: p̂1 − p̂2 Z=q p̂(1 − p̂)( n11 + 1 n2 ) , para valores de n1 y n2 suficientemente grandes, Z sigue una distribución normal estándar N (0, 1). Siendo p̂ la proporción bajo la hipótesis nula, p1 = p2 = p, p̂ = n1 pˆ1 + n2 pˆ2 . n1 + n2 El contraste en R se realizará con la instrucción: >prop.test(prop,n,alt="two.sided") En nuestro caso: >prop<-c(14,15) >n<-c(150,125) >prop.test(prop,n,alt="two.sided") El p-valor nos indica la probabilidad de obtener un valor del estadı́stico Z como el obtenido, condicionado a la ocurrencia de H0 . Rechazaremos la hipótesis nula para valores p < 0.05. Además el comando de R nos proporciona un intervalo de confianza al 95% para la diferencia de ambas proporciones p1 − p2 . Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 4 / 11 3 Contrastes unilaterales En algunos casos, interesa contrastar las hipótesis: H 0 : p1 ≤ p2 H 1 : p1 > p2 especificando la hipótesis alternativa alt="greater", o bien: H 0 : p1 ≥ p2 H 1 : p1 < p2 especificando alt="less". Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 5 / 11 4 Contraste de dos medias Sean Xi , i = 1, . . . , nx e Yj , j = 1, . . . , ny muestras aleatorias de dos poblaciones. Si deseamos contrastar la igualdad de ambas poblaciones podremos plantear el contraste de hipótesis, H 0 : µx = µy H1 : µx 6= µy Si las dos muestras son independientes, entonces las medias muestrales X̄ y Ȳ son estimadores de µx y de µy . El estadı́stico T que se construye en este caso sigue una distribución t-de student. >t.test(x,y,alt="two.sided") El contraste de hipótesis respecto a la igualdad de medias de dos poblaciones, considera por defecto que las varianzas de ambas poblaciones son distintas. Si tenemos pruebas suficientes para considerar que las varianzas de ambas poblaciones son iguales: >t.test(x,y,alt="two.sided",var.equal=TRUE) El contraste puede ser también unilateral, considerando como hipótesis alternativas: H1 : µ1 > µ2 , alt="greater", o, H1 : µ1 < µ2 , alt="less". Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 6 / 11 Ejemplo: El fichero azt.Rdata contiene los niveles del antı́geno p24 en sangre para individuos tratados con el medicamento AZT en dosis de 300mg o 600mg. ¿Existen diferencias significativas en la respuesta a estas dosis de medicamento? >load("azt.Rdata") >boxplot(azt) >t.test(azt$d300mg,azt$d600mg,alt="two.sided") Influye el hecho de conocer que la varianza ha de ser igual para ambas poblaciones? var.test(azt$d300mg,azt$d600mg) >t.test(azt$d300mg,azt$d600mg,alt="two.sided", + var.equal=TRUE) >wilcox.test(azt$d300mg,azt$d600mg,alt="two.sided") Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 7 / 11 5 Contraste para muestras relacionadas En determinados casos las dos muestras que queremos comparar están relacionadas de alguna manera. El fichero pinzas.Rdata contiene el número de piezas que han roto 9 brazos robóticos durante una semana de trabajo. Además contiene el número de piezas que rompieron esos mismo 9 brazos después de haber recubierto las pinzas con una capa de goma antideslizante. El contraste de hipótesis en este caso: H 0 : µ1 = µ2 H1 : µ1 6= µ2 >t.test(pinzas$antes,pinzas$despues, + paired=TRUE,alt="two.sided") Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 8 / 11 Contraste χ2 Para los casos de variables categóricas, hemos visto cómo resumir los datos en una tabla de contingencia. El contraste χ2 nos permite contrastar la independencia o dependencia de dos variables categóricas. H0 : Las variables son independientes H1 : Las variables no son independientes El fichero controlc.Rdata contiene el resultado del proceso de control de calidad de 100 piezas (correcto o defectuoso). Estas piezas pueden haber sido fabricadas por 3 máquinas diferentes. ¿Hay alguna relación entre la calidad y la máquina que ha fabricado el producto? >load("controlc.Rdata") >contingencia<-table(controlc) >addmargins(contingencia) El contraste χ2 nos permite decidir acerca de la independencia de las variables: >chisq.test(contingencia) o >chisq.test(controlc$calidad, + controlc$fabricante) Para p-valores < 0.05 diremos que el contraste es significativo y no podremos asegurar la independencia de las variables. El contraste χ2 también sirve para determinar la homogeneidad, H0 : Las muestras provienen de la misma población H1 : Las muestras provienen de poblaciones distintas Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 9 / 11 6 Kolmogorov-Smirnov El contraste de Kolmogorov-Smirnov nos permite comprobar si una muestra sigue o no una distribución empı́rica determinada: H0 : Fmuestral = Fempirica H1 : Fmuestral 6= Fempirica >ks.test(x,"nombre",mean=..,sd=..) Donde nombre es la función de densidad de la distribución empı́rica a comprobar: pnorm, punif, pexp, pt, etc. Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 10 / 11 Ejercicios Ejercicio 7.1: El fichero azt.Rdata contiene los niveles del antı́geno p24 en sangre para individuos tratados con el medicamento AZT en dosis de 300mg o 600mg. Ejercicio 7.2: El fichero pinzas.Rdata contiene el número de piezas que han roto 9 brazos robóticos durante una semana de trabajo. Además contiene el número de piezas que rompieron esos mismo 9 brazos después de haber recubierto las pinzas con una capa de goma antideslizante. Ejercicio 7.3: El fichero Contaminacion.Rdata contiene una tabla de contingencia, en ella aparecen clasificadas una serie de medidas de la concentración de ozono, clasificadas por la temperatura ambiental a la que fueron tomadas. Métodos Estadı́sticos de la Ingenierı́a Práctica 7 – 11 / 11 7