Tema 2: Modelos de probabilidad

Anuncio
Tema 2: Modelos de probabilidad
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
1
Variables aleatorias
Intuitivamente una variable aleatoria (v.a.) X es una variable
numérica cuyo valor se determina al azar. Representa el resultado
de interés en un experimento aleatorio. Una v.a. se denota
mediante una letra mayúscula (X , Y ,. . . ) y su valor númerico
observado mediante letras minúsculas (x, y ,. . . ).
Ejemplo 2.1: Sea X un carácter fenotı́pico continuo o
cuantitativo, que depende del genotipo, del ambiente en el que se
haya desarrollado el individuo y de otros sucesos aleatorios que
hayan tenido lugar en el desarrollo del individuo. Por ejemplo, X
puede ser la estatura en cm de una estudiante de grado española.
Ejemplo 2.2: Consideremos la variable Y , cantidad de energı́a de
una molécula elegida al azar en un sistema aislado (con un número
fijo de moléculas y una energı́a total constante).
Ejemplo 2.3: Sea Z el porcentaje de la población afectada por
una enfermedad especı́fica en un paı́s elegido al azar.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
2
El espacio muestral Ω de un experimento aleatorio es el conjunto
de todos los resultados elementales que pueden obtenerse en dicho
experimento.
Ejemplo 2.1 (cont): Los valores habituales en la estatura de una
estudiante oscilan entre 155 cm y 175 cm. Es razonable pensar que
el espacio muestral esté contenido en el intervalo [50,200].
Ejemplo 2.4: Sea X el número de caras obtenidas al lanzar al aire
una moneda 10 veces. El espacio muestral es
Ejemplo 2.2 (cont.):
Ejemplo 2.3 (cont.):
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
3
Un suceso es un subconjunto del espacio muestral Ω.
Ejemplo 2.4 (cont.): Consideremos el suceso A=“Obtener un
número par de caras”.
Ejemplo 2.3 (cont.): Estamos interesados en el suceso B=“La
proporción de afectados por la enfermedad es inferior al 3 %”.
La probabilidad es una función P que, a cada suceso A, le hace
corresponder un número P(A) entre 0 y 1 y que verifica:
• P(Ω) = 1
• Si A1 , A2 , . .P
. , An , . . . son sucesos disjuntos, entonces
P(∪i Ai ) = i P(Ai ).
Ejemplo 2.5: Sea X el resultado obtenido al lanzar al aire un
dado. Entonces Ω =
. La probabilidad de obtener un
número impar en un lanzamiento es
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
4
Otras propiedades de la probabilidad son:
• P(Ac ) = 1 − P(A)
• P(∅) = 0, siendo ∅ el suceso vacı́o.
• Si A ⊂ B entonces P(A) ≤ P(B).
• Si A y B son dos sucesos cualesquiera (no necesariamente
disjuntos), entonces P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Dos sucesos A y B son independientes si la probabilidad de que se
den los dos sucesos, P(A ∩ B), es igual a P(A) · P(B).
Ejemplo 2.6: La frecuencia genética es la proporción de un alelo
en una población. En una población diploide se puede utilizar para
predecir las frecuencias de los correspondientes genotipos. Para un
modelo simple, con dos alelos A y a, denotemos por p la frecuencia
genética o probabilidad de A y por q = 1 − p la frecuencia genética
de a. Suponiendo apareamiento aleatorio respecto a este gen,
veamos que las frecuencias genéticas de A y a en la siguiente
generación son de nuevo p y q respectivamente (equilibrio de
Hardy-Weinberg).
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
5
Ejemplo 2.6 (cont.):
A
a
A
AA
aA
a
Aa
aa
Como el apareamiento es aleatorio (es decir, este locus génico no
es un factor influyente en la elección de pareja), las probabilidades
de los distintos genotipos en la segunda generación son
P(AA) = P(A) · P(A) = p 2
P(Aa) = P(A) · P(a) = pq
P(aA) = P(a) · P(A) = qp
P(aa) = P(a) · P(a) = q 2
Luego la frecuencia de cada alelo en la segunda generación es
1
1
1
1
P(A) = P(AA)+ P(Aa)+ P(aA) = p 2 + pq+ pq = p(p+q) = p
2
2
2
2
1
1
P(a) = P(aa) + P(Aa) + P(aA) = q 2 + pq = q(p + q) = q.
2
2
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
6
La probabilidad del suceso A condicionada por el suceso B (o dado
que sabemos que ha ocurrido el suceso B) se define como
P(A|B) =
P(A ∩ B)
.
P(B)
Los sucesos A y B son independientes si y sólo si P(A|B) = P(A).
Regla
S de la probabilidad total: Sean A1 , . . . , Am sucesos tales
que m
i=1 Ai = Ω y Ai ∩ Aj = ∅ para todo i 6= j. Entonces
P(B) =
m
X
P(B|Ai )P(Ai ).
i=1
Regla de Bayes: Sean A1 , . . . , Am sucesos tales que
y Ai ∩ Aj = ∅ para todo i 6= j. Entonces
Sm
i=1 Ai
=Ω
P(B|Aj )P(Aj )
P(Aj |B) = Pm
.
i=1 P(B|Ai )P(Ai )
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
7
Ejemplo 2.7: Una población está formada por tres grupos étnicos:
A (30 %), B (10 %) y C (60 %). Los porcentajes del carácter “ojos
claros” son 20 %, 40 % y 5 % respectivamente en cada grupo.
P(claros|A) = 0.2 P(claros|B) = 0.4 P(claros|C ) = 0.05
a) Calcular la probabilidad de que un individuo elegido al azar en
la población tenga los ojos claros.
Utilizamos la regla de la probabilidad total:
P(claros) =
b) Calcular la probabilidad de que un individuo de ojos oscuros sea
del grupo A.
Aplicamos la regla de Bayes:
P(A|oscuros) =
c) Si un individuo elegido al azar tiene los ojos claros, ¿a
qué grupo étnico es más probable que pertenezca?.
P(A|claros) =
P(B|claros) =
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
P(C |claros) =
Tema 2: Modelos de probabilidad
8
En general, nos interesa conocer la probabilidad P de los sucesos
correspondientes a una variable aleatoria X , es decir, conocer la
distribución de probabilidad de la v.a. X .
Ejemplo 2.1 (cont.): Queremos averiguar qué proporción de
estudiantes de grado españolas tiene una estatura inferior a 165
cm.
Ejemplo 2.3 (cont.): Para planificar su presupuesto sanitario cada
paı́s debe conocer (o aproximar) anualmente la probabilidad de que
un ciudadano padezca diversas enfermedades a lo largo de ese año.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
9
Los dos tipos más importantes de v.a.’s son: discretas y continuas.
Una v.a. X es discreta si sólo toma un número finito o numerable
de valores.
La distribución de probabilidad de una v.a. discreta X queda
caracterizada por la función de masa de X :
P(x) = P{X = x}
siendo x cualquier posible valor de X .
Ejemplo 2.4 (cont.):
Ejemplo 2.5 (cont.):
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
10
Ejemplo 2.8: Sea Y el número de hijos varones en una familia
con 4 hijos (suponemos equiprobabilidad de hombre-mujer):
0
1
2
3
4
y
P{Y = y } 0.0625 0.2500 0.3750 0.2500 0.0625
Hallar P{Y ≥ 2}.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
11
La media poblacional o esperanza de una v.a. discreta X , que tiene
como posibles valores x1 , . . . , xn , . . ., es
X
µ = E (X ) =
xi P(xi ).
i
Ejemplo 2.5 (cont.):
Ejemplo 2.8 (cont.):
La esperanza es una medida de centralización o de localización de
la v.a.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
12
Una medida de la dispersión de X en torno a su media µ es la
varianza de X
X
σ 2 = V (X ) = E [(X − µ)2 ] =
(xi − µ)2 P(xi ).
i
Se cumple que
σ 2 = E (X 2 ) − µ2 =
X
xi2 P(xi ) − µ2 .
i
Ejemplo 2.5 (cont.):
Ejemplo 2.8 (cont.):
La desviación tı́pica de X es σ =
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
p
V (X ).
Tema 2: Modelos de probabilidad
13
Una v.a. continua puede tomar una cantidad infinita no numerable
de valores. Intuitivamente puede tomar cualquier valor de un
intervalo (finito o infinito). No toma valores en puntos aislados.
Ejemplo 2.1 (cont.):
Ejemplo 2.3 (cont.):
Ejemplo 2.9: Z = Concentración de glucosa en sangre en un
análisis rutinario
La distribución de probabilidad de una v.a. continua X
está determinada por su función de densidad f : R −→ R, que
verifica:
• f (x) ≥ 0 para todo x ∈ R.
Z
•
f (x)dx = 1.
R
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
14
Z
Se cumple que P(A) = P{X ∈ A} =
f (x) dx.
A
Ejemplo 2.10: La proporción X de niños de dos años que se han
infectado por un cierto virus, en un paı́s elegido al azar, es una v.a.
con función de densidad
6x(1 − x) si 0 ≤ x ≤ 1
f (x) =
0
si x ∈
/ [0, 1].
La esperanza de una v.a. continua X con densidad f se calcula ası́
Z
µ = E (X ) =
x f (x) dx.
R
Ejemplo 2.10 (cont.):
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
15
La varianza de esa variable X es
2
σ = V (X )
2
Z
= E [(X − µ) ] =
= E (X 2 ) − µ2 =
ZR
(x − µ)2 f (x) dx
x 2 f (x) dx − µ2
R
Ejemplo 2.10 (cont.):
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
16
Modelos de probabilidad más comunes
En R
help(Distributions)
informa sobre la densidad (o función de masa), la función de
distribución, la función cuantı́lica y la generación de números
aleatorios para los modelos de probabilidad más habituales.
d
p
q
r
−→
−→
−→
−→
densidad o función de masa
función de distribución (o de probabilidad acumulada)
función cuantı́lica (quantile)
generación de una muestra aleatoria (random) del modelo
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
17
Distribución de Bernoulli
Una prueba de Bernoulli es un experimento aleatorio con sólo dos
posibles resultados (excluyentes): éxito (E) y fracaso (F), con
P(E) = p y P(F) = 1 − p.
Ejemplo 2.11: Lanzamos una moneda al aire y tomamos
E = Cara y F = Cruz.
Ejemplo 2.12: Un hombre y una mujer, cada uno con un gen
recesivo (azul) y uno dominante (marrón) para el color de los ojos,
tienen un niño. Se considera E = Niño ojos azules y F = Marrones.
Ejemplo 2.13: En una campaña para detección de diabetes se
realizan análisis de sangre a voluntarios. Si el nivel de glucosa
está por encima de 200 mg/dL, se realizan más pruebas para
confirmar si la persona es diabética. Si no, se considera que el
individuo está sano. Tomamos E = Diabético potencial con
P(E) = 0.03.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
18
La distribución de Bernoulli es la de la v.a.
1 si en la prueba Bernoulli sale éxito
X =
0 si sale fracaso
Lo denotamos X ∼ Bernoulli(p). Su función de masa es
Su esperanza y varianza son
E (X ) = p
y
V (X ) = p(1 − p).
Las pruebas de Bernoulli dan lugar a otros modelos de probabilidad
muy utilizados como la distribución binomial, la geométrica y la
binomial negativa.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
19
Distribución binomial
Realizamos n pruebas de Bernoulli independientes, con P(E) = p
en cada prueba. La distribución binomial B(n, p) es la distribución
de la v.a. X = “no de éxitos obtenidos en las n pruebas”. Su
función de masa es
n x
P{X = x} =
p (1 − p)n−x para x = 0, 1, . . . , n.
x
Su esperanza y varianza son
V (X ) = np(1 − p).
P
Observación: X se puede expresar como X = ni=1 Zi , donde
Zi ∼ Bernoulli(p) para i = 1, . . . , n.
E (X ) = np
y
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
20
Ejemplo 2.12 (cont.): Si la pareja ha tenido tres hijos en común,
¿cuál es la función de masa de la v.a. X = número de hijos con
ojos marrones?
Masa
0.0 0.1 0.2 0.3 0.4
x = seq(0,3)
Masa = dbinom(x,3,0.75)
plot(x,Masa,type="p",cex=3,pch=19,cex.axis=2,cex.lab=2)
0.0
0.5
1.0
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
1.5
x
2.0
2.5
3.0
Tema 2: Modelos de probabilidad
21
Ejemplo 2.13 (cont.): Se realizan análisis a 10 voluntarios y se
considera X = “no de potenciales diabéticos entre esos 10”.
0.8
0.6
0.4
0.2
0
0
2
4
6
8
10
¿Cuál es la probabilidad de que haya más de un diabético entre los
diez analizados?
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
22
Ejemplo 2.14: En un cierto paı́s la probabilidad de que una
persona que ha sufrido un cáncer de colon y recto tenga una
mutación en el gen p53 es del 60 %. Se toma una muestra de 5
pacientes con este tipo de cáncer. ¿Cuál es la probabilidad de que
como mucho uno de ellos tenga el gen mutado? ¿Cuál es el
número esperado de pacientes, de entre esos 5, que
tendrá mutación en el gen? ¿Cuál es la varianza?
n=5
p=0.6
pbinom(1,n,p)
[1] 0.08704
dbinom(0,n,p)+dbinom(1,n,p)
[1] 0.08704
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
23
Ejemplo 2.14 (cont.):
Valores = seq(0,n)
Masa = dbinom(Valores,n,p)
plot(Valores,Masa,type="h",col="black",
xlab="x",ylab="P{X=x}")
points(Valores,Masa,type="p",cex=2,pch=19)
title(main="Funcion de masa de B(5,0.6)")
0.20
0.15
0.00
0.05
0.10
P{X=x}
0.25
0.30
0.35
Funcion de masa de B(5,0.6)
0
1
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
2
3
x
Tema
4
5
2: Modelos de probabilidad
24
Distribución de Poisson
La v.a. X sigue una distribución de Poisson de parámetro λ
(λ > 0), y se denota X ∼ Poisson(λ), si tiene la función de masa
λx
P{X = x} = e −λ
para x = 0, 1, 2, . . .
x!
Entonces E (X ) = λ = V (X ).
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
25
La distribución de Poisson aparece como lı́mite de la binomial en el
siguiente sentido: B(n, p) −→ Poisson(λ) cuando n → ∞, p → 0 y
np → λ (ley de los sucesos raros).
En la práctica, si X ∼ B(n, p) con n ≥ 30, p < 0.1 y np < 5,
entonces
P{X = k} ' P{Y = k},
donde Y ∼ Poisson(λ) y λ = np.
Ejemplo 2.13 (cont.): Se realizan análisis de sangre a 100
voluntarios. ¿Cuál es la probabilidad de que como mucho 3 de ellos
sean potenciales diabéticos?
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
26
Ejemplo 2.15:
n = 30 ; p = 0.05
lambda = n*p
Valores = seq(0,n)
MasaBinomial = dbinom(Valores,n,p)
MasaPoisson = dpois(Valores,lambda)
plot(Valores,MasaPoisson,type="h",lwd=10,col="red",
xlab="x",ylab="P{X=x}")
lines(Valores,MasaBinomial,type="h",col="black")
points(Valores,MasaBinomial,type="p",cex=2,pch=19)
title(main="Funcion de masa de Binomial(30,0.05) (en negro) \n
y de Poisson(1.5) (en rojo)")
P{X=x}
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Funcion de masa de Binomial(30,0.05) (en negro)
y de Poisson(1.5) (en rojo)
0
5
10
15
20
25
30
x
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
27
•
•
•
•
•
•
La distribución de Poisson se utiliza a menudo como modelo
probabilı́stico para el número de sucesos independientes (llegadas,
accidentes, llamadas,. . . ) que se producen en una unidad de
tiempo o de espacio, cuando la tasa o frecuencia de esos sucesos
(es decir, el número medio o esperado de sucesos por unidad de
tiempo o espacio) es constante.
Número de llamadas telefónicas recibidas por una centralita en una
hora.
Número de mutaciones en un fragmento (de una longitud
especı́fica) de ADN después de una cierta cantidad de radiación.
Número de erratas por página en un libro.
Número de desintegraciones nucleares por unidad de tiempo en un
material radiactivo (la radiactividad en el mejor generador de
números aleatorios).
Número de potenciales excitatorios recibidos por el árbol dendrı́tico
de una neurona en un minuto
Número de entrecruzamientos que se producen durante la meiosis
en una region cromosómica especı́fica.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
28
Distribución de Boltzmann (Fı́sicoquı́mica: Termodinámica)
Consideremos un sistema aislado con un gran número de partı́culas
(átomos en un gas o moléculas en una solución) cuya energı́a
macroscópica constante denotamos por E y en un estado de
equilibrio térmico con temperatura T . Supongamos que las
partı́culas sólo pueden estar en una cantidad finita de niveles
microscópicos de energı́a: E1 , E2 , . . . , EN , con 0 ≤ Ei ≤ E para
1 ≤ i ≤ N. Entonces, se emplea la distribución de Boltzmann para
modelizar X , el nivel microscópico de energı́a de una partı́cula
elegida al azar en el sistema:
P{X = Ei } =
e −Ei /k T
,
Z (T )
P
−Ei /k T se
donde k es la constante de Boltzmann y Z (T ) = N
i=1 e
denomina función de partición.
Observemos que P{X = Ei } representa la proporción de partı́culas
del sistema que están en el nivel de energı́a Ei .
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
29
Distribución uniforme
Diremos que una v.a. X tiene distribución de probabilidad uniforme
en el intervalo [a, b], X ∼ U[a, b], si su función de densidad es

 1
si x ∈ [a, b]
f (x) =
b−a
 0
en caso contrario
a+b
Entonces E (X ) =
.
2
Distribución exponencial
Decimos que una v.a. continua X tiene distribución exponencial de
parámetro λ > 0, X ∼ exp(λ), si su función de densidad es
λe −λx si x > 0,
f (x) =
0
si x ≤ 0.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
30
•
•
•
•
•
•
•
La distribución exponencial es la del tiempo o la distancia entre
dos sucesos que tienen lugar a una tasa constante. Es decir, si el
número de sucesos por unidad de tiempo o distancia se modeliza
mediante una Poisson(λ), entonces el tiempo que pasa entre dos
de esos sucesos consecutivos sigue una exp(λ).
tiempo entre dos llamadas consecutivas recibidas en una centralita,
tiempo transcurrido entre la llegada de dos pacientes a un servicio
de urgencias,
tiempo hasta que una persona a la que se ha concedido un crédito
incurre en un impago,
tiempo que tarda una partı́cula radiactiva en desintegrarse
(datación de materia orgánica mediante la técnica del 14 C)
distancia entre mutaciones en un fragmento de ADN,
tiempo que tarda en averiarse una maquinaria desde que se arregla,
tiempo que tarda en morir un animal cuando la muerte no es
producto del envejecimiento, sino de un suceso aleatorio que
podrı́a suceder en cualquier momento.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
31
El parámetro 1/λ se puede considerar un “parámetro de
supervivencia”: si X ∼ exp(λ) representa el tiempo de
supervivencia o duración de un sistema biológico o mecánico,
entonces E (X ) = λ1 . También se cumple que V (X ) = λ12 .
densidad de la exp(λ)
2
λ=1/2
λ=1
λ=2
1.5
1
0.5
0
0
1
2
3
4
5
x
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
32
Ejemplo 2.16: El Carbono-14 es un elemento radiactivo con una
vida media de unos 5730 años. El tiempo (en años) que tarda en
decaer una partı́cula de 14 C sigue una distribución exponencial con
tasa de decaimiento 0.000121. Hallar la probabilidad de que una
partı́cula de 14 C tarde menos de 5730 años en decaer.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
33
Distribución normal
La v.a. continua X sigue una distribución N(µ, σ), normal de
parámetros µ y σ (−∞ < µ < ∞ y σ > 0), si su densidad es
"
#
1 x −µ 2
1
para todo x ∈ R.
f (x) = √ exp −
2
σ
σ 2π
Propiedades básicas:
• E (X ) = µ, V (X ) = σ 2
• f es una densidad simétrica respecto a µ, por lo que
P{X < µ − c} = P{X > µ + c} para toda constante c > 0.
• Si X ∼ N(µ, σ), entonces Z =
X −µ
∼ N(0, 1).
σ
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
34
1.0
= 0,
= 0,
= 0,
= −2,
0.8
2
= 0.2,
= 1.0,
2
= 5.0,
2
= 0.5,
2
μ,σ 2
0.6
0.4
0.2
0.0
−5
−4
−3
−2
−1
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
0
1
2
3
Tema 2: Modelos de probabilidad
4
5
35
p
• B(n, p) −→ N(np, np(1 − p)) cuando n → ∞ y p está fijo
(Teorema Central del Lı́mite).
• En general, para una v.a. X con cualquier distribución de
probabilidad, µ < ∞ y σ < ∞, el Teorema Central del Lı́mite σ
(TCL) establece que X̄ sigue aproximadamente una N µ, √ .
n
La aproximación de X̄ a la normal se considera válida para n ≥ 30
y es tanto mejor cuanto mayor es n.
Una versión general del TCL es la que explica que la distribución
de probabilidad de muchos caracteres cuantitativos (como la altura
o el peso) sea aproximadamente normal (lo que en Genética se
llama el modelo multifactorial). Estos rasgos dependen de varios
loci, cada uno de los cuales suma o resta una pequeña cantidad al
fenotipo. Además hay factores ambientales que también suman o
restan una pequeña variación al rasgo. La suma de todos estos
efectos aleatorios está bien modelizada por una normal.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
36
• Si X1 ∼ N(µ1 , σ1 ), . . . , Xn ∼ N(µn , σn ) sonq
independientes,
entonces X1 + . . . + Xn ∼ N(µ1 + · · · + µn , σ12 + · · · + σn2 ) y
q
X1 − X2 ∼ N(µ1 − µ2 , σ12 + σ22 ).
• Si X ∼ N(µ, σ) entonces
0.2
0.3
0.4
P{µ − σ < X < µ + σ}
= 0, 682
P{µ − 2σ < X < µ + 2σ} = 0, 954
P{µ − 3σ < X < µ + 3σ} = 0, 997
0.1
34.1%
2.1%
13.6%
2.1%
13.6%
0.1%
0.0
0.1%
34.1%
−3σ
−2σ
−1σ
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
µ
1σ
2σ
3σ
Tema 2: Modelos de probabilidad
37
Antes de suponer que la variable aleatoria X , de la que sólo
conocemos su muestra observada x1 , . . . , xn , sigue un modelo de
probabilidad especı́fico, debemos comprobar al menos gráficamente
que se trata de un modelo razonable para los datos.
Histograma y densidad para la normal(2,1)
0.0
0.0
0.1
0.1
0.2
0.2
0.3
0.3
0.4
0.4
Histograma y densidad para la exponencial(0.5)
0
2
4
6
8
x
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
0
1
2
x
Tema 2: Modelos de probabilidad
3
4
38
Código para el dibujo de la exponencial: (no es necesario mirarlo)
x = seq(0,10,0.1)
lambda = 0.5
d = dexp(x,rate=lambda)
n = 100
muestra = rexp(n,lambda)
hist(muestra,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="")
lines(x,d,type="l",lwd=3,col="red",xlab="",ylab="")
title(main=bquote(paste("Histograma y densidad para la exponencial(",.(
lambda),")")),xlab="x",ylab="",cex.lab=1.5,cex.main=1.5,font.main=1)
Código para el dibujo de la normal: (no es necesario mirarlo)
x = seq(-1,5,0.1)
mu = 2
sigma = 1
d = dnorm(x,mean=mu,sd=sigma)
n = 100
muestra = rnorm(n,mean=mu,sd=sigma)
hist(muestra,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="")
lines(x,d,type="l",lwd=3,col="red",xlab="",ylab="")
title(main=bquote(paste("Histograma y densidad para la normal(",.(mu)
,",",.(sigma),")")),xlab="x",ylab="",cex.lab=1.5,cex.main=1.5,font.
main=1)
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
39
Ejemplo 2.17: Una genetista pesó 28 corderos hembra al nacer.
Todos los corderos nacieron en abril, todos eran de la misma raza
(Rambouillet) y todos fueron nacimientos de un solo cordero (no
habı́a gemelos). La dieta y otras condiciones experimentales fueron
las mismas para todos los progenitores. Los pesos fueron:
4.3
5.5
5.4
5.8
5.2
5.3
5.5
6.1
6.2
4.0
3.6
4.9
6.7
4.9
5.8
4.5
5.3
5.2
5.6
4.8
4.9
4.9
5.0
5.4
4.7
5.3
5.2
4.7
0.5
0.6
0.7
Pesos de corderos al nacer
0.0
0.1
0.2
0.3
0.4
¿Con qué distribución de probabilidad modelizarı́as estos datos?
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
40
Ejemplo 2.18: El 18 de diciembre de 1997 nacieron 44 bebés en
un hospital de Brisbane, Australia. Las horas de nacimiento de los
44 bebés aparecieron en el periódico local. Los datos están
disponibles en http://thinkstats.com/babyboom.dat.
Consideramos los tiempos (en minutos) entre un nacimiento y el
siguiente.
0.015
0.020
Tiempos entre nacimientos
0.000
0.005
0.010
¿Con qué distribución de probabilidad modelizarı́as estos datos?
0
50
100
150
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 2: Modelos de probabilidad
41
A veces los datos no son gaussianos pero podemos aplicarles una
transformación para “aproximarlos a la hipótesis de normalidad”.
Ejemplo 2.19: Datos del Naval Construction Battalion Center
(NCBC) Superfund Site en Rhode Island. Se hicieron análisis
inorgánicos de aguas subterráneas de 17 pozos del NCBC Site. El
objetivo era analizar el nivel de ciertos contaminantes inorgánicos.
Los resultados del manganeso detectado fueron:
15.8, 28.2, 90.6, 1490, 85.6, 281, 4300, 199, 838,
777, 824, 1010, 1350, 390, 150, 3250, 259.
Log(Manganeso)
0.05
0.00
0e+00
2e−04
0.10
0.15
4e−04
0.20
0.25
6e−04
0.30
Manganeso
0
1000
2000
3000
4000
5000
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
2
3
4
5
6
7
8
Tema 2: Modelos de probabilidad
9
42
Descargar