Departamento de Ingeniería Informática Ingeniería Civil en Informática ESTADÍSTICA COMPUTACIONAL Pruebas de hipótesis para dos muestras (Parte 2) Clase 25 [email protected] mó[email protected] Departamento de Ingeniería Informática ¿Qué veremos en esta clase? Pruebas de hipótesis para dos muestras (Parte 2) • Introducción • Mediana poblacional entre dos muestras emparejadas. • Mediana poblacional entre dos muestras emparejadas. • Comparación de varianza. Contenidos 02 Tipos de estadística Estadística Inferencial Emplea: Teorema límite central Intervalos de confianza Error Muestreo Contraste de hipótesis Para: Inferir Concluir Extrapolar 03 Prever Predecir Estadística inferencial Estadística Inferencial Estimación puntual Intervalos de confianza Pruebas de hipótesis Regresión 04 Estadística inferencial 05 Estadística Inferencial – Pruebas de hipótesis – dos muestra Estadística inferencial Estadística Inferencial – Pruebas de hipótesis Resumen – Clase anterior Evaluación Supuesto de normalidad Test hipótesis Shapiro-Wilk Lillie (KolmogorovSmirnov) Anderson-Darling 06 Paramétricos Gráfico No paramétricos Una muestra QQplot Media Media y varianza poblacional conocida, o n>30 Z-test Varianza Media poblacional conocida y varianza desconocida o n<=30 T-test Chi squared Dos muestras Proporciones Z-test para proporciones binominales Media Pareadas Paired t-test Una muestra Varianza No pareadas Welch t-test F-test Barlett’s test Cramer-von Mises Breusch Pagan Test Pearson chi-square test Score Test Shapiro-Francia test Chi-squared test* Proporciones Test of Equal or Given Proportions Mediana Wilcoxon Rank Sum Test Varianza Chi-squared test Dos muestras Proporciones Sign test para proporciones binomiales Chi-square test (GoF) Mediana Pareada Wilcoxon Rank Sum Test Varianza No pareada Mann-Whitney U test Chi squared Levene’s test Proporciones Chi-squared test Estadística inferencial Estadística Inferencial – Pruebas de hipótesis – dos muestra El conjunto de datos incorporado llamado immer, se registra el rendimiento de cebada en los años 1931 y 1932 del mismo campo. Los datos de rendimiento se presentan en las columnas del marco de datos Y1 e Y2. Sin asumir que los datos tienen una distribución normal, pruebe a un nivel de significación de 0,05 si los rendimientos de cebada de 1931 y 1932 en el conjunto de datos immer tienen distribuciones de datos idénticas. > library("MASS") > head(immer) Loc Var Y1 Y2 UF M 81.0 80.7 UF S 105.4 82.3 UF V 119.7 80.4 UF T 109.7 87.2 UF P 98.3 84.2 W M 146.6 100.4 >boxplot(immer$Y1, immer$Y2,names = c(“1931",“1932")) >#109; 93 (medias) >#102.95;92,95 (mediana) >#28; 24 (sd) >#26%; 26% (coef_var) 07 wilcox.test(immer$Y1, immer$Y2, paired=TRUE) Wilcoxon signed rank test with continuity correction data: immer$Y1 and immer$Y2 V = 368.5, p-value = 0.005318 alternative hypothesis: true location shift is not equal to 0 Con un nivel de significancia de .05, concluimos que los rendimientos de cebada de 1931 y 1932 del conjunto de datos immer son poblaciones no idénticas. Estadística inferencial Estadística Inferencial – Pruebas de hipótesis – dos muestra Entre los datos del conjunto mtcars, se encuentra el consumo de combustible por kilómetro (mpg) de varios automóviles estadounidenses de 1974. Existe otra columna (am), que indica si los autos tienen transmisión automática (0) o manual (1). Sin suponer que los datos tienen una distribución normal, decida con un nivel de significancia de 0,05 si los datos de millaje de gasolina de las transmisiones manuales y automáticas en mtcars tienen una distribución de datos idéntica. >head(mtcars) Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive Hornet Sportabout Valiant mpg cyl disp 21.0 6 160 21.0 6 160 22.8 4 108 21.4 6 258 18.7 8 360 18.1 6 225 hp 110 110 93 110 175 105 drat 3.90 3.90 3.85 3.08 3.15 2.76 wt 2.620 2.875 2.320 3.215 3.440 3.460 qsec 16.46 17.02 18.61 19.44 17.02 20.22 vs am gear carb 0 1 4 4 0 1 4 4 1 1 4 1 1 0 3 1 0 0 3 2 >wilcox.test(mpg ~ am, data=mtcars) 1 0 3 1 Wilcoxon rank sum test with continuity correction >(mtcars$mpg, mtcars$am,names = c("Manual","Automático")) >#17.1; 24.4 (medias) – 0 y 1 >#17,3; 22,8 (mediana) – 0 y 1 >#3.8; 6.2 (sd) – 0 y 1 >#22%; 26% (coef_var) – 0 y 1 08 data: mpg by am W = 42, p-value = 0.001871 alternative hypothesis: true location shift is not equal to 0 Con un nivel de significancia de .05, concluimos que los datos de rendimiento de gasolina de las transmisiones manual y automática en mtcar son poblaciones no idénticas. Estadística inferencial Estadística Inferencial – Pruebas de hipótesis – dos muestra Entre los datos del conjunto mtcars, se encuentra el consumo de combustible por kilómetro (mpg) de varios automóviles estadounidenses de 1974. Existe otra columna (am), que indica si los autos tienen transmisión automática (0) o manual (1). Decida con un nivel de significancia de 0,05 si los datos presentan homocedasticidad. >head(mtcars) Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive Hornet Sportabout Valiant mpg cyl disp 21.0 6 160 21.0 6 160 22.8 4 108 21.4 6 258 18.7 8 360 18.1 6 225 hp 110 110 93 110 175 105 drat 3.90 3.90 3.85 3.08 3.15 2.76 wt 2.620 2.875 2.320 3.215 3.440 3.460 qsec 16.46 17.02 18.61 19.44 17.02 20.22 >(mtcars$mpg, mtcars$am,names = c("Manual","Automático")) >#17.1; 24.4 (medias) – 0 y 1 >#17,3; 22,8 (mediana) – 0 y 1 >#3.8; 6.2 (sd) – 0 y 1 >#22%; 26% (coef_var) – 0 y 1 09 vs am gear carb 0 1 4 4 0 1 4 4 1 1 4 1 1 0 3 1 0 0 3 2 1 0 3 1 F-test - varianza (2 poblaciones) 𝐻0 : 𝜎𝐴2 = 𝜎𝐴2 𝐻0 : 𝜎𝐴2 ≤ 𝜎𝐴2 𝐻0 : 𝜎𝐴2 ≥ 𝜎𝐴2 𝑆𝐴2 𝐹= 2 𝑆𝐵 > a0 = mtcars$mpg[which(mtcars$am==0)] > a1 = mtcars$mpg[which(mtcars$am==1)] > var.test(a0,a1) F test to compare two variances data: a0 and a1 F = 0.38656, num df = 18, denom df = 12, p-value = 0.06691 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.1243721 1.0703429 sample estimates: ratio of variances 0.3865615 El valor p de la prueba F es p = 0.06691, que es mayor que el nivel de significancia de 0,05. En conclusión, no existe una diferencia significativa entre las dos varianzas. Estadística inferencial Estadística Inferencial – Pruebas de hipótesis Resumen Evaluación Supuesto de normalidad Test hipótesis Shapiro-Wilk Lillie (KolmogorovSmirnov) Anderson-Darling 10 Paramétricos Gráfico No paramétricos Una muestra QQplot Media Media y varianza poblacional conocida, o n>30 Z-test Varianza Media poblacional conocida y varianza desconocida o n<=30 T-test Chi squared Dos muestras Proporciones Z-test para proporciones binominales Media Pareadas Paired t-test Una muestra Varianza No pareadas Welch t-test F-test Barlett’s test Cramer-von Mises Breusch Pagan Test Pearson chi-square test Score Test Shapiro-Francia test Chi-squared test* Proporciones Test of Equal or Given Proportions Mediana Wilcoxon Rank Sum Test Varianza Chi-squared test Dos muestras Proporciones Sign test para proporciones binomiales Chi-square test (GoF) Mediana Pareada Wilcoxon Rank Sum Test Varianza No pareada Mann-Whitney U test Chi squared Levene’s test Proporciones Chi-squared test Departamento de Ingeniería Informática Ingeniería Civil en Informática ESTADÍSTICA COMPUTACIONAL Pruebas de hipótesis para dos muestras (Parte 2) Clase 25 [email protected] mó[email protected]