Práctica II

Anuncio
R PRÁCTICA
II
Probabilidad-Variables Aleatorias
Sección II.1
Probabilidad
15.
En el fichero sintomas.dat se encuentran 9 columnas con los resultados de una estadı́stica médica.
Cada columna corresponde a las siguientes variables:
V1. Fumador
V2.Ha viajado a Asia V3. Cancer de pulmón
V4. Bronquitis %
V5. Tuberculosis
V6.Auscultación torácica normal
V7. Doloren el pecho %
V8. Rayos X normales
V9. Edad
Todos los campos, excepto el último, están codificados mediante un 1 si la respuesta es NO y 2 si
la respuesta es SI. Importar dicho fichero de los ficheros de datos y responder a:
a)
Crear un gráfico de barras con la probabilidad de padecer cáncer de pulmón por franjas de
edad de 10 años.
b)
Calcular la probabilidad de padecer cáncer de pulmón si tomamos un individuo de la franja
de edad de 40 a 70 años.
c)
Calcular, para esa misma franja de edad:
1) la probabilidad de padecer cáncer de pulmón teniendo en cuenta que el paciente es fumador.
2) la probabilidad de padecer cáncer de pulmón dado que es fumador y siente dolor en el
pecho.
3) la probabilidad de padecer cáncer de pulmón dado que NO es fumador y NO siente dolor
en el pecho.
8
II.2. VARIABILIDAD A CORTO PLAZO. REGULARIDAD A LA LARGA
4) la probabilidad de padecer cáncer de pulmón dado que el paciente ha visitado Asia.
d ) ¿Son los siguientes sucesos dependientes o independientes?
1) Haber visitado Asia y padecer tuberculosis.
2) Fumar y haber visitado Asia.
3) Fumar y padecer cáncer de pulmón.
Sección II.2
Variabilidad a corto plazo. Regularidad a la larga
16.
Variabilidad a corto plazo.
Crear un data.frame nuevo de nombre dado.12.
a)
Simular 12 lanzamientos de un dado regular (no trucado), almacenando los resultados de los
lanzamientos en la columna 1 (”dado_1”).
dado.1<-sample(c(1:6),12,replace=TRUE)
b) Repetir el apartado anterior almacenando los resultados en la columna 2 (”dado_2”) y (”dado_3”).
c) Dibujar diagramas de barras de los datos de las tres columnas.
barplot(table(dado.1))
d ) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas
1
iguales a ?
6
17.
Variabilidad a largo plazo.
Crear un data.frame nuevo de nombre dado.1200.
Simular 1200 lanzamientos de un dado regular (no trucado), almacenando los resultados de
los lanzamientos en la columna (”dado_4”).
b) Repetir el apartado anterior almacenando los resultados en las columnas (”dado_5”) y (”dado_6”).
c) Dibujar diagramas de barras de los datos de las dos columnas.
d ) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas
1
iguales a ?
6
a)
18.
¿Es siempre admisible el concepto clásico de probabilidad?
Simular 120 lanzamientos de un dado en cuyo interior se han introducido asimétricamente bolas
de acero, de forma que P (1) = 0.5; P (2) = 0.25; P (3) = 0.15; P (4) = 0.04 y P (5) = P (6) =
0.03. Almacenar los resultados de los lanzamientos en la variable (”dado.trucado.120”).
b) Dibujar diagramas de barras para la variable anterior.
c) ¿Son aproximadamente iguales las frecuencias relativas de los 6 sucesos posibles? ¿A qué concepto de la probabilidad conduce este experimento aleatorio?
a)
Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz
9
CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS
Sección II.3
Concepto frecuentista de la probabilidad
19.
La concepción frecuentista interpreta que la probabilidad de un suceso es el lı́mite de la frecuencia
relativa de dicho suceso cuando el número de veces que se repite el experimento asociado tiende a
infinito.
Por ejemplo, que la probabilidad de sacar cruz al tirar una moneda es 0.5 significa que, en una
sucesión de tiradas, la frecuencia relativa de las cruces obtenidas se irá aproximando paulatinamente
a 0.5 según avanza la sucesión.
a)
Generamos un vector que represente la sucesión de tiradas; suponiendo n = 500 tiradas.
b)
Generamos otro vector F A con las frecuencias absolutas del número de cruces acumuladas
hasta cada tirada.
c)
Calculamos las frecuencias relativas de las cruces en cada tirada.
d)
Representamos la secuencia de frecuencias relativas acumuladas.
e)
Podemos añadir la ası́ntota, a la altura del valor teórico de la probabilidad p = 0.5
Sección II.4
Simulación de experimentos aleatorios
20.
Simular el problema del aniversario:
a)
Simular el nacimiento de 40 personas. muestra.nac.40
b)
Analizar los datos repetidos de muestra.nac.40 y comprobar si hay dos personas con el mismo
dı́a de nacimiento.
c)
Simular el nacimiento de 23 personas, muestra.nac.23 y efectuar la misma comprobación que
antes.
d)
Simular el experimento anterior 2000 veces y estimar la probabilidad de que al menos dos
personas de un grupo de 23 elegidos al azar cumplan años el mismo dı́a.
num.veces<-2000
num.personas<-23
coinciden<-replicate(num.veces,is.element(0,
diff(sort(sample(c(1:365),num.personas,replace=TRUE)))))
frec<-sum(coinciden)/num.veces
frec
Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz
10
II.4. SIMULACIÓN DE EXPERIMENTOS ALEATORIOS
e)
Compara los resultados obtenidos con la solución exacta.
p=1−
21.
365 · 364 · 363 · · · (365 − n + 1)
365n
Simular el problema de los dados de Galileo1 :
a)
Abrir un nuevo conjunto de datos o data.frame de nombre Galileo. Simular el lanzamiento de
un dado 1000 veces.(C1=dado.1)
b)
Realizar lo mismo para las columnas (C2=dado.2) y (C3=dado.3)
c) Establecer en la columna (C4=Suma) la suma de las tres dados.
d ) Estimar la probabilidad de que la suma de los dados sea 10.
e)
Estimar la probabilidad de que la suma de los dados sea 9.
f ) Realizar, con otra simulación los pasos anteriores y comparar los resultados
Suma =10
g)
Suma =9
Comparar con los resultados exactos
P (sumen 9) =
1
25
= 0.116
63
P (sumen 10) =
27
= 0.125
63
galileo<-data.frame(dado.1=sample(1:6,1000,rep=TRUE))
Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz
11
CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS
Sección II.5
Distribuciones discretas y continuas más comunes
22.
23.
24.
25.
26.
Una v.a. X binomial B(200; 0.4). Se pide:
a)
P (X < 71)
P (X ≥ 90)
b)
P (X ≤ x) = 0.4
P (X ≥ x) = 0.8
FX (100)
FX (75)
La centralita telefónica de un hotel recibe un número de llamadas por minuto que sigue una ley de
Poisson con parámetro λ = 0.5. Determinar la probabilidad de que en un minuto al azar:
a)
Se reciba una única llamada.
b)
c)
Se reciban un máximo de dos llamadas.
La centralita quede bloqueada, sabiendo que no puede realizar más de 3 conexiones por minuto.
Sea X una variable aleatoria normal con µ = 50 y σ 2 = 25. Calcular:
a)
p(X ≤ 40)
p(X ≤ 60)
p(X > 65)
b)
p(X > 35)
p(40 < X < 60)
p(30 < X < 42)
Una v.a. X se distribuye uniformemente en (2, 4). Se pide:
a)
P (X < 2.5)
b)
P (X ≤ x) = 0.4
P (X ≥ 3.2)
P (X ≥ x) = 0.8
P (2.2 < X < 3.5)
FX (2.7)
Una v.a. X se distribuye de forma normal N (0; 1). Se pide:
a)
P (X < 1.2)
b)
P (X ≤ x) = 0.4
P (X ≥ 2.6)
P (X ≥ x) = 0.8
Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz
FX (1.5)
FX (−0.7)
12
II.6. TEOREMA CENTRAL DEL LÍMITE
Sección II.6
Teorema Central del Lı́mite
En este apartado estudiaremos la distribución del promedio de variables independientes e idénticamente distribuidas y a través de los histogramas correspondientes analizaremos el comportamiento
de estas distribuciones a medida que promediamos un número creciente de variables aleatorias.
X=
X1 + X2 + . . . + Xn
n
Teorema de central del lı́mite: Si X1 , . . . , Xn son variables aleatorias independientes con la
misma media µ y la misma varianza σ 2 6= 0 y finita, la función de distribución de la variable
aleatoria
X1 + . . . + Xn
σ
X=
−→ N µ, √
n
n
cuando n tiende a infinito.
27.
Con este ejemplo ilustraremos que el promedio de la media muestral, E[X] = µ y la desviación
σ
tı́pica de la media muestral es D.T.[X] = √ .
n
a)
Simula una v.a. normal N (0, σ = 4) de tamaño N = 1000 datos (este valor grande para
aumentar la precisión) y calcula de ella su media y su desviación tı́pica.
b)
Simula 16 muestras de una población normal N (0, σ = 4) de tamaño N = 1000.
X1 + X2 + . . . + X16
.
16
2) Calcula la desviación tı́pica de la variable X 16
1) Calcula la media X 16 =
σ
Comprueba que realmente se cumple que E[X] = µ y D.T.[X] = √ .
n
muestra.16 <- replicate(16, rnorm(1000,mean=0,sd=4))
medias.16<-apply(muestra.16,1,mean) mean(medias.16) sd(medias.16)
28.
Simular y representar la media de un muestreo aleatorio simple de tamaño 2 (X1 , X2 ) de una
distribución U (0, 1).
a)
Simular dos muestras muestras.2 de tamaño N = 1000 para obtener un histograma con bastante
precisión
muestra.2 <- replicate(2, runif(1000,min=0,max=1))
b)
Construir el vector de medias media.2
medias.2<-apply(muestra.2,1,mean)
c) Realiza el histograma.
hist(medias.2,breaks=100)
Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz
13
CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS
d)
29.
30.
Añadir en el histograma una lı́nea vertical azul2 que represente el promedio del vector de
medias obtenido. Representar con una lı́nea de puntos (lty=3) de color rojo (col=red”) la
media de la población.
A partir del ejercicio anterior, simular y representar la media de un muestreo aleatorio simple de
tamaño 5, (X1 , X2 , · · · , X5 ) de una distribución U (0, 1).
A partir del ejercicio anterior, simular y representar la media de un muestreo aleatorio simple de
tamaño 30, (X1 , X2 , · · · , X30 ) de una distribución U (0, 1).
muestra.30 <- replicate(30, runif(1000,min=0,max=1))
medias.30<-apply(muestra.30,1,mean)
hist(medias.30,breaks=100,freq=FALSE)
√
Le añadimos la curva normal para visualizar la comparación, N (µ, σ/ n)
curve(dnorm(x,0.5,1/sqrt(360)),col="red",add=T,lwd=3)
31.
32.
Realizar el ejercicio anterior para una distribución exponencial Ex(α = 2).
Un sistema electrónico está dispuesto de forma que cuando falla el primer dispositivo E1 se activa
automáticamente el segundo E2 , y ası́ sucesivamente hasta el En . Si el tiempo Ti hasta que falla Ei ,
para cualquier i, es de tipo exponencial con parámetro α = 0.1 hora−1 y T (n) = T1 + T2 + · · · + Tn
es el tiempo total de funcionamiento de n dispositivos, hallar:
a)
P [T (1) > 12].
b)
P [T (2) > 18].
c)
P [T (30) > 350].
d)
Calcular los apartados anteriores por simulación
Soluciones
15.
22.
23.
24.
25.
26.
2
b) 0.0457172 c) 1)0.0964605; 2) 0.2150754;3) 0.0007471; 4) 0.0769230
a) 0.08439778-0.08572368-0.9983152 b) 78-75-0.2589559
a) 0.303 b) 0.9856 c) 0.00175
a) 0.02275- 0.9772- 0.0013 b) 0.9986 - 0.9544- 0.05476
a) 0.25- 0.4- 0.65 b) 2.8 - 2.4- 0.35
a) 0.8849303- 0.004661188- 0.9331928 b) -0.2533471 - −0.8416212 - 0.2419637
abline(v=mean(medias),col=.a zul”,lwd=3)
Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz
14
Descargar