Práctica II

R PRÁCTICA II Probabilidad-Variables Aleatorias Sección II.1 Probabilidad 15. En el fichero sintomas.dat se encuentran 9 columnas con los resultados de una estadı́stica médica. Cada columna corresponde a las siguientes variables: V1. Fumador V2.Ha viajado a Asia V3. Cancer de pulmón V4. Bronquitis % V5. Tuberculosis V6.Auscultación torácica normal V7. Doloren el pecho % V8. Rayos X normales V9. Edad Todos los campos, excepto el último, están codificados mediante un 1 si la respuesta es NO y 2 si la respuesta es SI. Importar dicho fichero de los ficheros de datos y responder a: a) Crear un gráfico de barras con la probabilidad de padecer cáncer de pulmón por franjas de edad de 10 años. b) Calcular la probabilidad de padecer cáncer de pulmón si tomamos un individuo de la franja de edad de 40 a 70 años. c) Calcular, para esa misma franja de edad: 1) la probabilidad de padecer cáncer de pulmón teniendo en cuenta que el paciente es fumador. 2) la probabilidad de padecer cáncer de pulmón dado que es fumador y siente dolor en el pecho. 3) la probabilidad de padecer cáncer de pulmón dado que NO es fumador y NO siente dolor en el pecho. 8 II.2. VARIABILIDAD A CORTO PLAZO. REGULARIDAD A LA LARGA 4) la probabilidad de padecer cáncer de pulmón dado que el paciente ha visitado Asia. d ) ¿Son los siguientes sucesos dependientes o independientes? 1) Haber visitado Asia y padecer tuberculosis. 2) Fumar y haber visitado Asia. 3) Fumar y padecer cáncer de pulmón. Sección II.2 Variabilidad a corto plazo. Regularidad a la larga 16. Variabilidad a corto plazo. Crear un data.frame nuevo de nombre dado.12. a) Simular 12 lanzamientos de un dado regular (no trucado), almacenando los resultados de los lanzamientos en la columna 1 (”dado_1”). dado.1<-sample(c(1:6),12,replace=TRUE) b) Repetir el apartado anterior almacenando los resultados en la columna 2 (”dado_2”) y (”dado_3”). c) Dibujar diagramas de barras de los datos de las tres columnas. barplot(table(dado.1)) d ) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas 1 iguales a ? 6 17. Variabilidad a largo plazo. Crear un data.frame nuevo de nombre dado.1200. Simular 1200 lanzamientos de un dado regular (no trucado), almacenando los resultados de los lanzamientos en la columna (”dado_4”). b) Repetir el apartado anterior almacenando los resultados en las columnas (”dado_5”) y (”dado_6”). c) Dibujar diagramas de barras de los datos de las dos columnas. d ) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas 1 iguales a ? 6 a) 18. ¿Es siempre admisible el concepto clásico de probabilidad? Simular 120 lanzamientos de un dado en cuyo interior se han introducido asimétricamente bolas de acero, de forma que P (1) = 0.5; P (2) = 0.25; P (3) = 0.15; P (4) = 0.04 y P (5) = P (6) = 0.03. Almacenar los resultados de los lanzamientos en la variable (”dado.trucado.120”). b) Dibujar diagramas de barras para la variable anterior. c) ¿Son aproximadamente iguales las frecuencias relativas de los 6 sucesos posibles? ¿A qué concepto de la probabilidad conduce este experimento aleatorio? a) Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 9 CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS Sección II.3 Concepto frecuentista de la probabilidad 19. La concepción frecuentista interpreta que la probabilidad de un suceso es el lı́mite de la frecuencia relativa de dicho suceso cuando el número de veces que se repite el experimento asociado tiende a infinito. Por ejemplo, que la probabilidad de sacar cruz al tirar una moneda es 0.5 significa que, en una sucesión de tiradas, la frecuencia relativa de las cruces obtenidas se irá aproximando paulatinamente a 0.5 según avanza la sucesión. a) Generamos un vector que represente la sucesión de tiradas; suponiendo n = 500 tiradas. b) Generamos otro vector F A con las frecuencias absolutas del número de cruces acumuladas hasta cada tirada. c) Calculamos las frecuencias relativas de las cruces en cada tirada. d) Representamos la secuencia de frecuencias relativas acumuladas. e) Podemos añadir la ası́ntota, a la altura del valor teórico de la probabilidad p = 0.5 Sección II.4 Simulación de experimentos aleatorios 20. Simular el problema del aniversario: a) Simular el nacimiento de 40 personas. muestra.nac.40 b) Analizar los datos repetidos de muestra.nac.40 y comprobar si hay dos personas con el mismo dı́a de nacimiento. c) Simular el nacimiento de 23 personas, muestra.nac.23 y efectuar la misma comprobación que antes. d) Simular el experimento anterior 2000 veces y estimar la probabilidad de que al menos dos personas de un grupo de 23 elegidos al azar cumplan años el mismo dı́a. num.veces<-2000 num.personas<-23 coinciden<-replicate(num.veces,is.element(0, diff(sort(sample(c(1:365),num.personas,replace=TRUE))))) frec<-sum(coinciden)/num.veces frec Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 10 II.4. SIMULACIÓN DE EXPERIMENTOS ALEATORIOS e) Compara los resultados obtenidos con la solución exacta. p=1− 21. 365 · 364 · 363 · · · (365 − n + 1) 365n Simular el problema de los dados de Galileo1 : a) Abrir un nuevo conjunto de datos o data.frame de nombre Galileo. Simular el lanzamiento de un dado 1000 veces.(C1=dado.1) b) Realizar lo mismo para las columnas (C2=dado.2) y (C3=dado.3) c) Establecer en la columna (C4=Suma) la suma de las tres dados. d ) Estimar la probabilidad de que la suma de los dados sea 10. e) Estimar la probabilidad de que la suma de los dados sea 9. f ) Realizar, con otra simulación los pasos anteriores y comparar los resultados Suma =10 g) Suma =9 Comparar con los resultados exactos P (sumen 9) = 1 25 = 0.116 63 P (sumen 10) = 27 = 0.125 63 galileo<-data.frame(dado.1=sample(1:6,1000,rep=TRUE)) Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 11 CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS Sección II.5 Distribuciones discretas y continuas más comunes 22. 23. 24. 25. 26. Una v.a. X binomial B(200; 0.4). Se pide: a) P (X < 71) P (X ≥ 90) b) P (X ≤ x) = 0.4 P (X ≥ x) = 0.8 FX (100) FX (75) La centralita telefónica de un hotel recibe un número de llamadas por minuto que sigue una ley de Poisson con parámetro λ = 0.5. Determinar la probabilidad de que en un minuto al azar: a) Se reciba una única llamada. b) c) Se reciban un máximo de dos llamadas. La centralita quede bloqueada, sabiendo que no puede realizar más de 3 conexiones por minuto. Sea X una variable aleatoria normal con µ = 50 y σ 2 = 25. Calcular: a) p(X ≤ 40) p(X ≤ 60) p(X > 65) b) p(X > 35) p(40 < X < 60) p(30 < X < 42) Una v.a. X se distribuye uniformemente en (2, 4). Se pide: a) P (X < 2.5) b) P (X ≤ x) = 0.4 P (X ≥ 3.2) P (X ≥ x) = 0.8 P (2.2 < X < 3.5) FX (2.7) Una v.a. X se distribuye de forma normal N (0; 1). Se pide: a) P (X < 1.2) b) P (X ≤ x) = 0.4 P (X ≥ 2.6) P (X ≥ x) = 0.8 Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz FX (1.5) FX (−0.7) 12 II.6. TEOREMA CENTRAL DEL LÍMITE Sección II.6 Teorema Central del Lı́mite En este apartado estudiaremos la distribución del promedio de variables independientes e idénticamente distribuidas y a través de los histogramas correspondientes analizaremos el comportamiento de estas distribuciones a medida que promediamos un número creciente de variables aleatorias. X= X1 + X2 + . . . + Xn n Teorema de central del lı́mite: Si X1 , . . . , Xn son variables aleatorias independientes con la misma media µ y la misma varianza σ 2 6= 0 y finita, la función de distribución de la variable aleatoria X1 + . . . + Xn σ X= −→ N µ, √ n n cuando n tiende a infinito. 27. Con este ejemplo ilustraremos que el promedio de la media muestral, E[X] = µ y la desviación σ tı́pica de la media muestral es D.T.[X] = √ . n a) Simula una v.a. normal N (0, σ = 4) de tamaño N = 1000 datos (este valor grande para aumentar la precisión) y calcula de ella su media y su desviación tı́pica. b) Simula 16 muestras de una población normal N (0, σ = 4) de tamaño N = 1000. X1 + X2 + . . . + X16 . 16 2) Calcula la desviación tı́pica de la variable X 16 1) Calcula la media X 16 = σ Comprueba que realmente se cumple que E[X] = µ y D.T.[X] = √ . n muestra.16 <- replicate(16, rnorm(1000,mean=0,sd=4)) medias.16<-apply(muestra.16,1,mean) mean(medias.16) sd(medias.16) 28. Simular y representar la media de un muestreo aleatorio simple de tamaño 2 (X1 , X2 ) de una distribución U (0, 1). a) Simular dos muestras muestras.2 de tamaño N = 1000 para obtener un histograma con bastante precisión muestra.2 <- replicate(2, runif(1000,min=0,max=1)) b) Construir el vector de medias media.2 medias.2<-apply(muestra.2,1,mean) c) Realiza el histograma. hist(medias.2,breaks=100) Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 13 CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS d) 29. 30. Añadir en el histograma una lı́nea vertical azul2 que represente el promedio del vector de medias obtenido. Representar con una lı́nea de puntos (lty=3) de color rojo (col=red”) la media de la población. A partir del ejercicio anterior, simular y representar la media de un muestreo aleatorio simple de tamaño 5, (X1 , X2 , · · · , X5 ) de una distribución U (0, 1). A partir del ejercicio anterior, simular y representar la media de un muestreo aleatorio simple de tamaño 30, (X1 , X2 , · · · , X30 ) de una distribución U (0, 1). muestra.30 <- replicate(30, runif(1000,min=0,max=1)) medias.30<-apply(muestra.30,1,mean) hist(medias.30,breaks=100,freq=FALSE) √ Le añadimos la curva normal para visualizar la comparación, N (µ, σ/ n) curve(dnorm(x,0.5,1/sqrt(360)),col="red",add=T,lwd=3) 31. 32. Realizar el ejercicio anterior para una distribución exponencial Ex(α = 2). Un sistema electrónico está dispuesto de forma que cuando falla el primer dispositivo E1 se activa automáticamente el segundo E2 , y ası́ sucesivamente hasta el En . Si el tiempo Ti hasta que falla Ei , para cualquier i, es de tipo exponencial con parámetro α = 0.1 hora−1 y T (n) = T1 + T2 + · · · + Tn es el tiempo total de funcionamiento de n dispositivos, hallar: a) P [T (1) > 12]. b) P [T (2) > 18]. c) P [T (30) > 350]. d) Calcular los apartados anteriores por simulación Soluciones 15. 22. 23. 24. 25. 26. 2 b) 0.0457172 c) 1)0.0964605; 2) 0.2150754;3) 0.0007471; 4) 0.0769230 a) 0.08439778-0.08572368-0.9983152 b) 78-75-0.2589559 a) 0.303 b) 0.9856 c) 0.00175 a) 0.02275- 0.9772- 0.0013 b) 0.9986 - 0.9544- 0.05476 a) 0.25- 0.4- 0.65 b) 2.8 - 2.4- 0.35 a) 0.8849303- 0.004661188- 0.9331928 b) -0.2533471 - −0.8416212 - 0.2419637 abline(v=mean(medias),col=.a zul”,lwd=3) Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 14

Práctica II

Documentos relacionados

Productos

Apoyo

Práctica II

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib