Descargar el Manual II

Prácticas de Estadı́stica con R Parte II Escuela Técnica Superior Ing. Industrial y Quı́mica Universidad de Cantabria Fco Javier Glez Ortiz Curso 2007–2008 2 Índice general 3. Variables aleatorias 5 3.1. Variabilidad a corto plazo. Regularidad a la larga . . . . . . . . . . . . . . . . . . . . 5 3.1.1. Variabilidad a corto plazo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3.1.2. Variabilidad a largo plazo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.1.3. Concepto frecuentista de la probabilidad . . . . . . . . . . . . . . . . . . . . . 8 3.1.4. ¿Es siempre admisible el concepto clásico de probabilidad? . . . . . . . . . . 8 3.2. Simulación del problema del aniversario . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.3. Simulación del problema de los dados de Galileo . . . . . . . . . . . . . . . . . . . . 10 4. Distribuciones discretas y continuas 11 4.1. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.1.1. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.1.2. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.1.3. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.2. Distribución de la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 5. Bondad de Ajuste 17 5.1. Contraste Chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.1.1. ¿Es un dado regular? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.1.2. Bombardeo de Londres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.2. Contraste de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5.3. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5.3.1. Contraste de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5.4. Mas ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 7. Intervalos de confianza y contrastes de hipótesis 21 7.1. Intervalo de confianza de la media. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 7.2. Intervalos de confianza y contraste de la proporción. . . . . . . . . . . . . . . . . . . 24 3 4 ÍNDICE GENERAL 7.3. Intervalos de confianza y contraste de diferencia de dos medias: . . . . . . . . . . . . 25 7.4. Intervalos de confianza y contraste de diferencia de dos proporciones. . . . . . . . . . 27 Tema 3 Variables aleatorias 3.1. Variabilidad a corto plazo. Regularidad a la larga 3.1.1. Variabilidad a corto plazo: Simular 12 lanzamientos de un dado regular (no trucado), almacenando los resultados de los lanzamientos en la columna 1 (”dado_1”). Repetir el apartado anterior almacenando los resultados en la columna 2 (”dado_2”) y (”dado_3”). Dibujar diagramas de barras de los datos de las dos columnas. >barplot(table(LosDados$dado3)) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas iguales a 16 ? >table(LosDados$dado 3)/12 5 TEMA 3. VARIABLES ALEATORIAS 0 5 10 15 20 25 6 1 2 3 4 5 6 Figura 3.1: Diagrama de barras de tirada de un dado 120 veces 3.1.2. Variabilidad a largo plazo: Simular 1200 lanzamientos de un dado regular (no trucado), almacenando los resultados de los lanzamientos en la columna 4 (”dado_4”). El entorno gráfico nos impide obtener los 1200 datos, ¿como lo hacemos? Se puede entrar en el editor y avanzar páginas hasta la fila de datos 1200, e introducir en esta casilla un NA. Otra posibilidad desde la lı́nea de comandos, es escribir LosDados[1200,] <- c(NA,NA,NA) y a continuación simular el lanzamiento del cuarto dado. Y por supuesto lo más cómodo serı́a abrir un nuevo data.frame Repetir el apartado anterior almacenando los resultados en la columna 5 y 6 (”dado_5”) y (”dado_6”). Dibujar diagramas de barras de los datos de las dos columnas. >barplot(table(LosDados$dado_4)) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas iguales a 16 ? 3.1. VARIABILIDAD A CORTO PLAZO. REGULARIDAD A LA LARGA 7 Figura 3.2: Diagrama de barras de tirada de un dado 1200 veces ¡OJO! con el valor NA Por ejemplo si ejecutamos desde el resumen numérico y hay valores de NA no hay problemas, pero si lo realizamos desde la linea de comandos necesitamos algo ası́ como mean(LosDados$dado 1,na.rm=TRUE) pues mean(LosDados$dado 1) devuelve el valor NA. 8 TEMA 3. VARIABLES ALEATORIAS Otra posibilidad para evitar los valores omitidos y poder calcular con datos que incluyen un NA es, x[!is.na(x)] ya que, este comando elimina del vector x todos aquellos el mentos que sean NA o NaN. La función which(is.nan(x)) nos devolverá las posiciones de los elementos de x que toman el valor NaN. 3.1.3. Concepto frecuentista de la probabilidad La concepción frecuentista interpreta que la probabilidad de un suceso es el lı́mite de la frecuencia relativa de dicho suceso cuando el número de veces que se repite el experimento asociado tiende a infinito. Por ejemplo, que la probabilidad de sacar cruz al tirar una moneda es 0,5 significa que, en una sucesión de tiradas, la frecuencia relativa de las cruces obtenidas se ir aproximando paulatinamente a 0,5 según avanza la sucesión. Generamos un vector que represente la sucesión de tiradas; suponiendo n = 500 tiradas. dadoplot <- data.frame(caras=sample(c(0, 1), 500,replace=TRUE)) dadoplot$FA <- with(dadoplot, cumsum(caras)) plot (FR, type=’l’) abline (0.5, 0, col=’red’) Calculamos las frecuencias relativas de las cruces en cada tirada. Representamos la secuencia de frecuencias relativas acumuladas. Podemos añadir la ası́ntota, a la altura del valor teórico de la probabilidad p = 0,5 3.1.4. ¿Es siempre admisible el concepto clásico de probabilidad? Simular 120 lanzamientos de un dado en cuyo interior se han introducido asimétricamente bolas de acero, de forma que P (1) = 0,5; P (2) = 0,25; P (3) = 0,15; P (4) = 0,04 y P (5) = P (6) = 0,03. Almacenar los resultados de los lanzamientos en la variable dado7. 3.2. SIMULACIÓN DEL PROBLEMA DEL ANIVERSARIO 9 sample(1:6,120,replace=TRUE,c(0.5,0.25,0.15,0.04,0.03,0.03)) Repetir el apartado anterior almacenando los resultados en la columna dado8. Dibujar diagramas de puntos de los datos de las dos columnas. ¿Son aproximadamente iguales las frecuencias relativas de los 6 sucesos posibles? ¿A qué concepto de la probabilidad conduce este experimento aleatorio? 3.2. Simulación del problema del aniversario 1. Extraer1 una muestra con reemplazamiento de tamaño 40. “grupo.1 ” nacidos<-data.frame(grupo.1=sample(1:365, 40, repl=TRUE)) nacidos$grupo.2<-sample(1:365, 40, repl=TRUE) is.element(0,diff(nacidos$grupo.2)) 2. Analizar los datos repetidos de muestra.nac.40 y comprobar si hay dos personas con el mismo dı́a de nacimiento. 3. Extraer una muestra con reemplazamiento de tamaño 23, muestra.nac.23 y efectuar al misma comprobación que antes. 1 Para mantener el generador de números aleatorios, se puede utilizar el comando set.seed(21) 10 3.3. TEMA 3. VARIABLES ALEATORIAS Simulación del problema de los dados de Galileo 1. Cargar un conjunto nuevo de datos en R. Simular el lanzamiento de un dado 1000 veces variable dado.1 2. Realizar lo mismo para las columnas dado.2 y dado.3 3. Establecer en la columna suma, la suma de las tres dados. 4. Estimar la probabilidad de que la suma de los dados sea 10. 0.126 5. Estimar la probabilidad de que la suma de los dados sea 9. 0.118 Tema 4 Distribuciones discretas y continuas 4.1. Distribuciones de probabilidad El menú Distribuciones de R-Commander permite trabajar con todas las distribuciones estadı́sticas vistas en clase de teorı́a. Para cada una de ellas, se puede obtener: Cuantil El menor valor c tal que, para un probabilidad dada p, se cumple que P (x ≤ c) = p probabilidad Discretas: valores de la función masa de probabilidad. probabilidad acumulada Para un cuantil c dado, da el valor P (x ≤ c) (cola inferior) o bien P (x > c) (cola superior). gráfico Se representa la función de densidad (masa de probabilidad en las distribuciones discretas) o la función de distribución. muestra aleatoria Permite generar un juego de datos aleatorio especificando el número de muestras (número de filas) y el tamaño muestral (número de columnas). A cada uno de los nombres en R, se le añade por delante la letra d p q r 4.1.1. para para para para función de densidad (masa de probabilidad en discretas) función de distribución cuantil generar números aleatorios Binomial pbinom(c(45), size=100, prob=0.5, lower.tail=TRUE) 1. Sea X ∼ B(p = 0,5, n = 100), np = 50, npq = 25. Hallar: a) p(X ≤ 45), p(X ≤ 52) 0.1841 0.6914 11 p(X < 60) 0.9716 12 TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS b) Calcular las probabilidades anteriores con la aproximación binomial-normal. 0.1841 0.6915 0.9713 c) Calcular las probabilidades anteriores con la aproximación binomial-Poisson. 0.0 1 1 y analiza porqué es mala la aproximación utilizada. 4.1.2. Poisson P (X ≤ n) = n X e−λ k=0 λk k! ppois(c(2), lambda=0.5, lower.tail=TRUE) 2. La centralita telefónica de un hotel recibe un número de llamadas por minuto que sigue una ley de Poisson con parámetro λ = 0,5. Determinar la probabilidad de que en un minuto al azar: a) Se reciba una única llamada. 0.303 b) Se reciban un máximo de dos llamadas. 0.9856 c) La centralita quede bloqueada, sabiendo que no puede realizar más de 3 conexiones por 0.00175 minuto. 4.1.3. Normal pnorm(c(40), mean=50, sd=5, lower.tail=TRUE) 3. Sea X una variable aleatoria normal con µ = 50 y σ 2 = 25. Calcular: a) p(X ≤ 40) 0.02275 b) p(X > 35) 0.9986 p(X ≤ 60) 0.9772 p(40 < X < 60) 0.9544 p(X > 65) 0.0013 p(30 < X < 42) 0.05476 4.1. DISTRIBUCIONES DE PROBABILIDAD 13 Parámetros de N (µ; σ) Ejecutar en R el siguiente script y obervar el efecto del valor de los parámetros. x <- seq ( -6, 6, len=100 ) #% y <- cbind ( dnorm ( x, -2, 1 ), dnorm (x, 0, 2 ), #% dnorm ( x, 0, .5), dnorm ( x, 2, .3 ),#% dnorm ( x, -.5, 3 ) ) matplot ( x, y, type="l", col=1 ) legend ( -6, 1.3, paste( "mu =", c(-2,0,0,2,-.5),"; sigma =", c(1,2,.5,.3,3) ), lty=1:5, col=1, cex=.75 ) 0.0 0.2 0.4 0.6 y 0.8 1.0 1.2 mu = −2 ; sigma = 1 mu = 0 ; sigma = 2 mu = 0 ; sigma = 0.5 mu = 2 ; sigma = 0.3 mu = −0.5 ; sigma = 3 −6 −4 −2 0 x 2 4 6 14 TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS 4.2. Distribución de la media muestral 4. Abrir un fichero nuevo: a) Abrimos un nuevo conjunto de datos o data.frame de nombre media.muestra y generamos1 mediante muestreo aleatorio una muestra de tamaño 100 de la variable Altura de los alumnos de una población con distribución N (µ = 1, 75; σ = 0,05). media.muestra<-data.frame(rnorm(100, mean=1.75, sd=0.05)) b) Generar de esta forma 25 columnas, lo que supone 25 muestras aleatorias de la variable Altura. media.muestra<-data.frame(media.muestra,matrix(rnorm(2500,1.75,0.05),ncol =25)) c) Calcular las medias de las columnas C1-C25 y representarlas en un gráfico de puntos entre los valores 1.73 y 1.77 apply(media.muestra,2,mean) plot(apply(media.muestra,2,mean),ylim = c(1.73, 1.77)) abline(1.75,0,col=red”) x≈ 1.749595 d ) Calcular las desviaciones tı́picas de las columnas C1-C25 y representarlas en un gráfico de puntos entre los valores 0.04 y 0.06. Sx ≈ 0.04906891 e) Representa en diagramas de cajas las 15 primeras columnas. f ) Calcular una nueva columna con el promedio de las columnas C1-C25. Dar a esta columna el nombre de Media.n25 media.muestra$Media.n25 <- apply(media.muestra,1,mean) g) Representar el diagrama de cajas para comparar las columnas 1, 2 y 3 junto con la nueva variable Media.n25. ¿Que se aprecia frente a los histogramas anteriores? h) Calcular la media x25 de esta columna Media.n25 i ) ¿Qué se aprecia entre x25 y x j ) Calcular la desviación tı́pica Sx25 de la variable Media.n25 0.00978171 k ) ¿Qué se diferencia aprecia entre (redondear a 3 dı́gitos) SX 1 0.05 y para que coincidan los resultados aleatorios fijamos la misma semilla con set.seed(27) Sx25 0.01 4.2. DISTRIBUCIÓN DE LA MEDIA MUESTRAL 15 1.9 ● ● ● ● ● ● 1.7 ● ● 1.6 N(1.75;0.05) 1.8 ● ● ● ● ● ● ● X1 X2 X3 X4 X5 X6 X7 X8 X9 X11 X13 X15 Figura 4.1: Diagrama de las 15 muestras de la altura N (1,75; 0,05) TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS 1.90 16 1.75 1.65 1.70 ● ● ● 1.60 N(1.75;0.05) 1.80 1.85 ● ● X1 X2 X3 Media.n25 Figura 4.2: Boxplot de X1, X2 y X3 junto a x25 Tema 5 Bondad de Ajuste En el caso de contrastes de normalidad, se recomienda el uso del test de Shapiro-Wilk para muestras pequeñas n ≤ 50, mientras que si las muestras son grandes es preferible utilizar el test de Kolmogorov-Smirnov, salvo que los datos vengan dados en una distribución de frecuencias en cuyo caso emplearemos la distribución χ2 5.1. Contraste Chi-cuadrado La distancia χ2 entre la distribución de frecuencias observada en la muestra y la distribución de probabilidad especificada por la hipótesis nula se define como 2 χ = k X (ni − npi )2 i=1 npi = k X (Oi − Ei )2 i=1 Ei , (5.1) donde n1 , n2 , . . . , nk son las frecuencias absolutas de los k posibles resultados y p1 , p2 , . . . , pk son las probabilidades de dichos resultados si es cierta la hipótesis nula. 5.1.1. ¿Es un dado regular? Se lanza un dado 1200 veces y se obtienen los siguientes resultados: Xi Oi : frecuencia 1 175 2 215 1. Calcular el estadı́stico de contraste χ2 . 3 220 4 190 5 170 6 230 χ2g.l. 15.75 2. Hallar el nivel de significación (P-valor) de la prueba y decidir si se acepta que el dado es regular. P-valor 0.007595 Abrimos un conjunto de datos nuevo con dos columnas. En frec almacenamos las frecuencias observadas y en prob las probabilidades teóricas respectivas para cada cara del dado 61 . 17 18 TEMA 5. BONDAD DE AJUSTE >chisq.test(frec,p=prob) Chi-squared test for given probabilities data: frec X-squared = 15.75, df = 5, p-value = 0.007595 5.1.2. Bombardeo de Londres Durante la Segunda Guerra Mundial se dividió el mapa de Londres en cuadrı́culas de 1/4 km y se contó el número de bombas caı́das en cada cuadrı́cula durante un bombardeo alemán. Los resultados fueron: x: Impactos en cuadrı́cula Oi : frecuencia 0 229 1 211 2 93 3 35 4 7 5 1 Se quiere contrastar la hipótesis de que los datos siguen una distribución de Poisson. Se pide: 1. Diseñar las columnas adecuadas que registren las frecuencias observadas y las esperadas. lambda<-sum(fre*impac)/sum(fre) Calculamos las probabilidades de Poisson con londres$prob <- with(londres, round(dpois(0:5, lambda=0.9288194),4)) 2. Calcular el estadı́stico del contraste χ2 . >chisq.test(londres$fre.a[1:5],p=londres$prob[1:5]) data: londres$fre.a[1:5] X-squared = 1.0118, df = 4, p-value =0.908 3. Hallar el cuantil 0,95 de la distribución χ2g.l. y decidir si se acepta que los datos de la muestra se ajustan a la distribución teórica. 5.2. CONTRASTE DE SHAPIRO-WILK 5.2. 19 Contraste de Shapiro-Wilk Con Datos - Conjunto de datos en paquetes Leer conjunto de datos.. del paquete datasets cargar el fichero de nombre trees. 1. Efectuar el contraste de normalidad para la variable volumen de madera Volumen. Con Estadı́sticos Resúmenes. y Test de normalidad de Shapiro-Wilk. obtenemos W 0.8876 Como el p-value = 0.003579 rechazamos que sea una distribución normal. 2. Efectuar el contraste de normalidad para la variable logaritmo del volumen de madera Volumen. Con Estadı́sticos Resúmenes. y Test de normalidad de Shapiro-Wilk. obtenemos para la nueva variable log(Volume) W 0.9643 Como el p-value = 0.3766 aceptamos que el logaritmo del volumen sea normal. 5.3. Contraste de Kolmogorov-Smirnov 5.3.1. Contraste de normalidad Vamos a realizar el contraste de normalidad de la variable PESO del fichero pesoaltura.rdat. Dado que el número de individuos es grande, n = 100, se utilizará el test de KolmogorovSmirnov. 1. Con Datos - Cargar conjunto de datos ... incorporamos el fichero pesoaltura.rdat en Rcommander con el nombre de peso.altura. 2. Calculamos los estimadores de µ y σ attach(peso.altura) mean(PESO) sd(PESO) resultando x = 73,37 y sb = 12,69. 3. A continuación se contrastan las diferencias entre la función de distribución empı́rica muestral y la distribución teórica normal de parámetros, N (73,37; 12,69). Para ello se empleará el procedimiento ks.test. ks.test(PESO,pnorm,73.37,12.69) >ks.test(PESO,pnorm,73.37,12.69) One-sample Kolmogorov-Smirnov test data: PESO D = 0.136, p-value = 0.04939 alternative hypothesis: two-sided En este caso y para un α = 0,05 se rechaza la hipótesis de que los pesos sigan una distribución normal. 20 5.4. TEMA 5. BONDAD DE AJUSTE Mas ejemplos 1. Los siguientes datos corresponden a la duración de diez pilas de cierta marca en cientos de horas. i xi 1 0,023 2 0,406 3 0,538 4 1,267 5 2,343 6 2,563 7 3,334 8 3,491 9 5,088 10 5,587 Se quiere contrastar si la variable aleatoria duración de vida de las pilas se ajusta a una distribución de tipo exponencial. Se pide: a) Sabiendo que la función de distribución exponencial es FX (x) = 1 − e−α x , determinar su expresión si α se estima con α̂ = x̄−1 . b) Determinar la distancia de Kolmogorov. c) Concluir si los datos se ajustan a la distribución exponencial dada. α̂ 0.40584 D 0.2136 Tema 7 Intervalos de confianza y contrastes de hipótesis 7.1. Intervalo de confianza de la media. 44. Cargar (abrir) el conjunto de Datos ElPulso.rda. Se pide: a) Calcular el intervalo de confianza para el peso medio de todos los individuos con α = 0,05. Para realizar el contraste de la media o hallar el intervalo de confianza, se elige en el Menú, Medias->Test para una muestra 21 22 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS t.test(Pulso$Peso, alternative=’two.sided’, mu=0.0, conf.level=.95) One Sample t-test data: Pulso$Peso t = 58.6473, df = 91, p-value <2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 63.66709 68.13108 sample estimates: mean of x 65.89909 help(t.test) b) Calcular el intervalo de confianza para el peso medio de las mujeres con α = 0,05. En este caso, si se quiere trabajar con el data.frame habrı́a que crear una columna con los pesos de las mujeres dejando NA para los pesos de los hombres. A continuación se procederı́a como en el apartado anterior. Pero la forma más sencilla es recuperar el comando de t.test del apartado anterior e indicarle la variable adecuada. t.test(Peso[Sexo==’mujer’], alternative=’two.sided’, mu=0.0, conf.level=.95) intervalo 54.12-58.29 c) Estudios recientes afirman que la altura media de las mujeres de esta población es µ = 167 cm. A la vista de estos datos, ¿podemos aceptar dicha hipótesis? Como en el caso anterior para el intervalo, ahora indicamos el valor de µ a contrastar mu=167 t.test(Altura[Sexo==’mujer’], alternative=’two.sided’, mu=167, conf.level=.95) p-value 0.4273 Se observa que el p-valor obtenido es superior al nivel de significación fijado en α = 0,05, luego aceptarı́amos la hipótesis. d ) Calcular el intervalo de confianza para el Pulso1 medio de las mujeres que no fuman. t.test(Pulse1[Sexo==’mujer’ & Fumar==’no’],alternative=’two.sided’, mu=0.0, conf.level=.95) (70,36 − 78,83) e) Calcular el intervalo de confianza para la media del incremento del pulso (Pulso2-Pulso1) para los individuos que corrieron. t.test(increpulso[Correr==’corrio’], alternative=’two.sided’, mu=0.0, conf.level=.95) (13,74 − 24,08) 7.1. INTERVALO DE CONFIANZA DE LA MEDIA. 23 45. Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuya normalmente, con media 220 y desviación tı́pica 7.75. Se toma una muestra de 9 elementos y se obtiene: 203, 229, 215, 220, 223, 233, 208, 228, 209. Se pide: a) Contrastar la hipótesis µ = 220 y σ cualquiera. En la Ventana de instrucciones asignamos la variable resistencia con resistencia <- c(203, 229, 215, 220, 223, 233, 208, 228, 209) Como en el ejercicio anterior efectuamos el contraste t.test t.test(resistencia,alternative=’two.sided’,mu=220,conf.level=.95) Y obtenemos el resultado en la Ventana de resultados ————————————One Sample t-test ————————————data: resistencia$resis t = -0.6665, df = 7, p-value =0.5265 alternative hypothesis: true mean is not equal to 220 95 percent confidence interval: 208.6298 226.3702 sample estimates: mean of x 217.5 b) Contrastar la hipótesis σ = 7,75 y µ cualquiera. Este contraste no aparece entre las opciones de Rcommander, por ello vamos a utilizar las fórmulas. Calculamos el estadı́stico de contraste con (n − 1)b s2X ∼ χ2n−1 σ2 D <- (length(x)-1)*var(x)/7.75^2 Calculamos el nivel crı́tico (p-valor) de la distribución, es decir, el área que queda a la derecha de D, teniendo en cuenta que el estadı́stico del contraste sigue una Chi-cuadrado. pchisq(D,length(x)-1, ncp=0, lower.tail = FALSE)% Como p-value=0.06416552 aceptamos la hipótesis nula si el nivel de significación es 0.05. 24 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS 7.2. Intervalos de confianza y contraste de la proporción. 47. Cargar (abrir) el conjunto de Datos Pulso.rda y calcular el intervalo de confianza para la proporción pF de individuos que fuman con α = 0,05. Para realizar el contraste de la proporción o hallar el intervalo de confianza, se elige en el Menú, Proporciones->Test de Proporciones para una muestra > .Table <- xtabs( Fumar , data= Pulsaciones ) >.Table Fumar fuma no fuma 28 64 > prop.test(rbind(.Table), alternative=’two.sided’, p=.5, conf.level=.95, correct=FALSE) 1-sample proportions test without continuity correction data: rbind(.Table), null probability 0.5 X-squared = 14.087, df = 1, p-value = 0.0001746 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.2197369 0.4046427 sample estimates: p 0.3043478 prop.test(c(28),c(92) alternative=’two.sided’, p=.5, conf.level=.95, correct=FALSE) 7.3. INTERVALOS DE CONFIANZA Y CONTRASTE DE DIFERENCIA DE DOS MEDIAS:25 7.3. Intervalos de confianza y contraste de diferencia de dos medias: 52. Cargar (abrir) el conjunto de Datos Pulso.rda y determinar si hay diferencia significativa entre la altura media de hombres y mujeres con un nivel de significación α = 0,05. Si llamamos a la altura media de hombres µH y a la altura media de mujeres µM , se trata de realizar el contraste ) H0 ≡ µH = µM = µ0 H1 ≡ µH 6= µM Este ejercicio lo vamos a resolver de 2 formas. La primera acudimos en el Menú, a Medias->Test de para muestras indepeendientes. A continuación elegimos la variable explicada Altura desglosada por la variable de Grupos Sexo, dejando por defecto la opción de contraste Bilateral y también por defecto no suponer varianzas iguales (σ12 6= σ22 ) La salida en la Ventana de resultados nos dice que el p-value = 9.778e-15 muy inferior que el α = 0,05 que habı́amos fijado. Por ello se rechaza la igualdad de medias. A su vez, llegamos a la misma conclusión, si nos fijamos en que confidence interval: 10.80570 16.39458, no incluye el valor nulo. 26 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS > t.test(Altura~Sexo, alternative=’two.sided’, conf.level=.95, var.equal=FALSE, data=Pulsaciones) Welch Two Sample t-test data: Altura by Sexo t = 9.7007, df = 72.514, p-value = 9.778e-15 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 10.80570 16.39458 sample estimates: mean in group hombre mean in group mujer 179.7161 166.1160 El método anterior con menús requiere tener los valores de las dos variables en una misma columna y a su vez desglosada con otra columna que hace de factor. La segunda forma es más versátil. A partir del comando t.test de arriba bastarı́a escribir: t.test(Altura[Sexo==’hombre’],Altura[Sexo==’mujer’], var.equal=FALSE, alternative=’two.sided’, conf.level=.95, Teniendo en cuenta que la selección de las variables puede ser más complicado que las opciones que ofrece el Menú de Rcommander, la segunda forma es más flexible que la primera. 7.4. INTERVALOS DE CONFIANZA Y CONTRASTE DE DIFERENCIA DE DOS PROPORCIONES.27 7.4. Intervalos de confianza y contraste de diferencia de dos proporciones. 52. Cargar (abrir) el conjunto de Datos Pulso.rda y determinar si hay diferencia significativa entre la proporción de hombres y mujeres que fuman con un nivel de significación α = 0,05. Si llamamos a la proporción de hombres que fuman pF |H y a la proporción de mujeres que fuman pF |M , se trata de realizar el contraste H0 ≡ pF |H = pF |M = p0 ) H1 ≡ pF |H 6= pF |M Este ejercicio lo vamos a resolver de 2 formas. La primera acudimos en el Menú, a Proporciones->Test de Proporciones para dos muestras. A continuación elegimos la variable explicada Fumar desglosada por la variable de Grupos Sexo, dejando por defecto la opción de contraste Bilateral y también por defecto la aproximación normal La salida en la Ventana de resultados nos dice que el p-value = 0.2158 mayor que el α = 0,05 que habı́amos fijado. Por ello se acepta la igualdad de proporciones. A su vez, 28 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS llegamos a la misma conclusión, si nos fijamos en que confidence interval: -0.06398087 0.30859240, incluye el valor nulo, > .Table <- xtabs(~Sexo+Fumar, data=Pulsaciones) > rowPercents(.Table) Fumar Sexo fuma no fuma Total Count hombre 35.1 64.9 100 57 mujer 22.9 77.1 100 35 > prop.test(.Table, alternative=’two.sided’, conf.level=.95, correct=FALSE) 2-sample test for equality of proportions without continuity correction data: .Table X-squared = 1.5321, df = 1, p-value = 0.2158 alternative hypothesis: two.sided 95 percent confidence interval: -0.06398087 0.30859240 sample estimates: prop 1 prop 2 0.3508772 0.2285714 La segunda es hacer el recuento de las frecuencias respectivas, con: x1<-sum(Sexo==’hombre’ & Fumar==’fuma’);n1<-sum(Sexo==’hombre’) x2<-sum(Sexo==’mujer’ & Fumar==’fuma’);n2<-sum(Sexo==’mujer’) prop.test(c(x1,x2),c(n1,n2), alternative=’two.sided’, conf.level=.95, correct=FALSE) Teniendo en cuenta que el recuento de las variables puede ser más complicado que las opciones que ofrece el Menú de Rcommander, la segunda forma es más flexible que la primera.

Descargar el Manual II

Documentos relacionados

Productos

Apoyo

Descargar el Manual II

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib