Tema 2: Modelos de probabilidad Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 1 Variables aleatorias Intuitivamente una variable aleatoria (v.a.) X es una variable numérica cuyo valor se determina al azar. Representa el resultado de interés en un experimento aleatorio. Una v.a. se denota mediante una letra mayúscula (X , Y ,. . . ) y su valor númerico observado mediante letras minúsculas (x, y ,. . . ). Ejemplo 2.1: Sea X un carácter fenotı́pico continuo o cuantitativo, que depende del genotipo, del ambiente en el que se haya desarrollado el individuo y de otros sucesos aleatorios que hayan tenido lugar en el desarrollo del individuo. Por ejemplo, X puede ser la estatura en cm de una estudiante de grado española. Ejemplo 2.2: Consideremos la variable Y , cantidad de energı́a de una molécula elegida al azar en un sistema aislado (con un número fijo de moléculas y una energı́a total constante). Ejemplo 2.3: Sea Z el porcentaje de la población afectada por una enfermedad especı́fica en un paı́s elegido al azar. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 2 El espacio muestral Ω de un experimento aleatorio es el conjunto de todos los resultados elementales que pueden obtenerse en dicho experimento. Ejemplo 2.1 (cont): Los valores habituales en la estatura de una estudiante oscilan entre 155 cm y 175 cm. Es razonable pensar que el espacio muestral esté contenido en el intervalo [50,200]. Ejemplo 2.4: Sea X el número de caras obtenidas al lanzar al aire una moneda 10 veces. El espacio muestral es Ejemplo 2.2 (cont.): Ejemplo 2.3 (cont.): Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 3 Un suceso es un subconjunto del espacio muestral Ω. Ejemplo 2.4 (cont.): Consideremos el suceso A=“Obtener un número par de caras”. Ejemplo 2.3 (cont.): Estamos interesados en el suceso B=“La proporción de afectados por la enfermedad es inferior al 3 %”. La probabilidad es una función P que, a cada suceso A, le hace corresponder un número P(A) entre 0 y 1 y que verifica: • P(Ω) = 1 • Si A1 , A2 , . .P . , An , . . . son sucesos disjuntos, entonces P(∪i Ai ) = i P(Ai ). Ejemplo 2.5: Sea X el resultado obtenido al lanzar al aire un dado. Entonces Ω = . La probabilidad de obtener un número impar en un lanzamiento es Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 4 Otras propiedades de la probabilidad son: • P(Ac ) = 1 − P(A) • P(∅) = 0, siendo ∅ el suceso vacı́o. • Si A ⊂ B entonces P(A) ≤ P(B). • Si A y B son dos sucesos cualesquiera (no necesariamente disjuntos), entonces P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Dos sucesos A y B son independientes si la probabilidad de que se den los dos sucesos, P(A ∩ B), es igual a P(A) · P(B). Ejemplo 2.6: La frecuencia genética es la proporción de un alelo en una población. En una población diploide se puede utilizar para predecir las frecuencias de los correspondientes genotipos. Para un modelo simple, con dos alelos A y a, denotemos por p la frecuencia genética o probabilidad de A y por q = 1 − p la frecuencia genética de a. Suponiendo apareamiento aleatorio respecto a este gen, veamos que las frecuencias genéticas de A y a en la siguiente generación son de nuevo p y q respectivamente (equilibrio de Hardy-Weinberg). Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 5 Ejemplo 2.6 (cont.): A a A AA aA a Aa aa Como el apareamiento es aleatorio (es decir, este locus génico no es un factor influyente en la elección de pareja), las probabilidades de los distintos genotipos en la segunda generación son P(AA) = P(A) · P(A) = p 2 P(Aa) = P(A) · P(a) = pq P(aA) = P(a) · P(A) = qp P(aa) = P(a) · P(a) = q 2 Luego la frecuencia de cada alelo en la segunda generación es 1 1 1 1 P(A) = P(AA)+ P(Aa)+ P(aA) = p 2 + pq+ pq = p(p+q) = p 2 2 2 2 1 1 P(a) = P(aa) + P(Aa) + P(aA) = q 2 + pq = q(p + q) = q. 2 2 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 6 La probabilidad del suceso A condicionada por el suceso B (o dado que sabemos que ha ocurrido el suceso B) se define como P(A|B) = P(A ∩ B) . P(B) Los sucesos A y B son independientes si y sólo si P(A|B) = P(A). Regla S de la probabilidad total: Sean A1 , . . . , Am sucesos tales que m i=1 Ai = Ω y Ai ∩ Aj = ∅ para todo i 6= j. Entonces P(B) = m X P(B|Ai )P(Ai ). i=1 Regla de Bayes: Sean A1 , . . . , Am sucesos tales que y Ai ∩ Aj = ∅ para todo i 6= j. Entonces Sm i=1 Ai =Ω P(B|Aj )P(Aj ) P(Aj |B) = Pm . i=1 P(B|Ai )P(Ai ) Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 7 Ejemplo 2.7: Una población está formada por tres grupos étnicos: A (30 %), B (10 %) y C (60 %). Los porcentajes del carácter “ojos claros” son 20 %, 40 % y 5 % respectivamente en cada grupo. P(claros|A) = 0.2 P(claros|B) = 0.4 P(claros|C ) = 0.05 a) Calcular la probabilidad de que un individuo elegido al azar en la población tenga los ojos claros. Utilizamos la regla de la probabilidad total: P(claros) = b) Calcular la probabilidad de que un individuo de ojos oscuros sea del grupo A. Aplicamos la regla de Bayes: P(A|oscuros) = c) Si un individuo elegido al azar tiene los ojos claros, ¿a qué grupo étnico es más probable que pertenezca?. P(A|claros) = P(B|claros) = Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo P(C |claros) = Tema 2: Modelos de probabilidad 8 En general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable aleatoria X , es decir, conocer la distribución de probabilidad de la v.a. X . Ejemplo 2.1 (cont.): Queremos averiguar qué proporción de estudiantes de grado españolas tiene una estatura inferior a 165 cm. Ejemplo 2.3 (cont.): Para planificar su presupuesto sanitario cada paı́s debe conocer (o aproximar) anualmente la probabilidad de que un ciudadano padezca diversas enfermedades a lo largo de ese año. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 9 Los dos tipos más importantes de v.a.’s son: discretas y continuas. Una v.a. X es discreta si sólo toma un número finito o numerable de valores. La distribución de probabilidad de una v.a. discreta X queda caracterizada por la función de masa de X : P(x) = P{X = x} siendo x cualquier posible valor de X . Ejemplo 2.4 (cont.): Ejemplo 2.5 (cont.): Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 10 Ejemplo 2.8: Sea Y el número de hijos varones en una familia con 4 hijos (suponemos equiprobabilidad de hombre-mujer): 0 1 2 3 4 y P{Y = y } 0.0625 0.2500 0.3750 0.2500 0.0625 Hallar P{Y ≥ 2}. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 11 La media poblacional o esperanza de una v.a. discreta X , que tiene como posibles valores x1 , . . . , xn , . . ., es X µ = E (X ) = xi P(xi ). i Ejemplo 2.5 (cont.): Ejemplo 2.8 (cont.): La esperanza es una medida de centralización o de localización de la v.a. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 12 Una medida de la dispersión de X en torno a su media µ es la varianza de X X σ 2 = V (X ) = E [(X − µ)2 ] = (xi − µ)2 P(xi ). i Se cumple que σ 2 = E (X 2 ) − µ2 = X xi2 P(xi ) − µ2 . i Ejemplo 2.5 (cont.): Ejemplo 2.8 (cont.): La desviación tı́pica de X es σ = Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo p V (X ). Tema 2: Modelos de probabilidad 13 Una v.a. continua puede tomar una cantidad infinita no numerable de valores. Intuitivamente puede tomar cualquier valor de un intervalo (finito o infinito). No toma valores en puntos aislados. Ejemplo 2.1 (cont.): Ejemplo 2.3 (cont.): Ejemplo 2.9: Z = Concentración de glucosa en sangre en un análisis rutinario La distribución de probabilidad de una v.a. continua X está determinada por su función de densidad f : R −→ R, que verifica: • f (x) ≥ 0 para todo x ∈ R. Z • f (x)dx = 1. R Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 14 Z Se cumple que P(A) = P{X ∈ A} = f (x) dx. A Ejemplo 2.10: La proporción X de niños de dos años que se han infectado por un cierto virus, en un paı́s elegido al azar, es una v.a. con función de densidad 6x(1 − x) si 0 ≤ x ≤ 1 f (x) = 0 si x ∈ / [0, 1]. La esperanza de una v.a. continua X con densidad f se calcula ası́ Z µ = E (X ) = x f (x) dx. R Ejemplo 2.10 (cont.): Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 15 La varianza de esa variable X es 2 σ = V (X ) 2 Z = E [(X − µ) ] = = E (X 2 ) − µ2 = ZR (x − µ)2 f (x) dx x 2 f (x) dx − µ2 R Ejemplo 2.10 (cont.): Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 16 Modelos de probabilidad más comunes En R help(Distributions) informa sobre la densidad (o función de masa), la función de distribución, la función cuantı́lica y la generación de números aleatorios para los modelos de probabilidad más habituales. d p q r −→ −→ −→ −→ densidad o función de masa función de distribución (o de probabilidad acumulada) función cuantı́lica (quantile) generación de una muestra aleatoria (random) del modelo Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 17 Distribución de Bernoulli Una prueba de Bernoulli es un experimento aleatorio con sólo dos posibles resultados (excluyentes): éxito (E) y fracaso (F), con P(E) = p y P(F) = 1 − p. Ejemplo 2.11: Lanzamos una moneda al aire y tomamos E = Cara y F = Cruz. Ejemplo 2.12: Un hombre y una mujer, cada uno con un gen recesivo (azul) y uno dominante (marrón) para el color de los ojos, tienen un niño. Se considera E = Niño ojos azules y F = Marrones. Ejemplo 2.13: En una campaña para detección de diabetes se realizan análisis de sangre a voluntarios. Si el nivel de glucosa está por encima de 200 mg/dL, se realizan más pruebas para confirmar si la persona es diabética. Si no, se considera que el individuo está sano. Tomamos E = Diabético potencial con P(E) = 0.03. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 18 La distribución de Bernoulli es la de la v.a. 1 si en la prueba Bernoulli sale éxito X = 0 si sale fracaso Lo denotamos X ∼ Bernoulli(p). Su función de masa es Su esperanza y varianza son E (X ) = p y V (X ) = p(1 − p). Las pruebas de Bernoulli dan lugar a otros modelos de probabilidad muy utilizados como la distribución binomial, la geométrica y la binomial negativa. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 19 Distribución binomial Realizamos n pruebas de Bernoulli independientes, con P(E) = p en cada prueba. La distribución binomial B(n, p) es la distribución de la v.a. X = “no de éxitos obtenidos en las n pruebas”. Su función de masa es n x P{X = x} = p (1 − p)n−x para x = 0, 1, . . . , n. x Su esperanza y varianza son V (X ) = np(1 − p). P Observación: X se puede expresar como X = ni=1 Zi , donde Zi ∼ Bernoulli(p) para i = 1, . . . , n. E (X ) = np y Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 20 Ejemplo 2.12 (cont.): Si la pareja ha tenido tres hijos en común, ¿cuál es la función de masa de la v.a. X = número de hijos con ojos marrones? Masa 0.0 0.1 0.2 0.3 0.4 x = seq(0,3) Masa = dbinom(x,3,0.75) plot(x,Masa,type="p",cex=3,pch=19,cex.axis=2,cex.lab=2) 0.0 0.5 1.0 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo 1.5 x 2.0 2.5 3.0 Tema 2: Modelos de probabilidad 21 Ejemplo 2.13 (cont.): Se realizan análisis a 10 voluntarios y se considera X = “no de potenciales diabéticos entre esos 10”. 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 ¿Cuál es la probabilidad de que haya más de un diabético entre los diez analizados? Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 22 Ejemplo 2.14: En un cierto paı́s la probabilidad de que una persona que ha sufrido un cáncer de colon y recto tenga una mutación en el gen p53 es del 60 %. Se toma una muestra de 5 pacientes con este tipo de cáncer. ¿Cuál es la probabilidad de que como mucho uno de ellos tenga el gen mutado? ¿Cuál es el número esperado de pacientes, de entre esos 5, que tendrá mutación en el gen? ¿Cuál es la varianza? n=5 p=0.6 pbinom(1,n,p) [1] 0.08704 dbinom(0,n,p)+dbinom(1,n,p) [1] 0.08704 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 23 Ejemplo 2.14 (cont.): Valores = seq(0,n) Masa = dbinom(Valores,n,p) plot(Valores,Masa,type="h",col="black", xlab="x",ylab="P{X=x}") points(Valores,Masa,type="p",cex=2,pch=19) title(main="Funcion de masa de B(5,0.6)") 0.20 0.15 0.00 0.05 0.10 P{X=x} 0.25 0.30 0.35 Funcion de masa de B(5,0.6) 0 1 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo 2 3 x Tema 4 5 2: Modelos de probabilidad 24 Distribución de Poisson La v.a. X sigue una distribución de Poisson de parámetro λ (λ > 0), y se denota X ∼ Poisson(λ), si tiene la función de masa λx P{X = x} = e −λ para x = 0, 1, 2, . . . x! Entonces E (X ) = λ = V (X ). Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 25 La distribución de Poisson aparece como lı́mite de la binomial en el siguiente sentido: B(n, p) −→ Poisson(λ) cuando n → ∞, p → 0 y np → λ (ley de los sucesos raros). En la práctica, si X ∼ B(n, p) con n ≥ 30, p < 0.1 y np < 5, entonces P{X = k} ' P{Y = k}, donde Y ∼ Poisson(λ) y λ = np. Ejemplo 2.13 (cont.): Se realizan análisis de sangre a 100 voluntarios. ¿Cuál es la probabilidad de que como mucho 3 de ellos sean potenciales diabéticos? Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 26 Ejemplo 2.15: n = 30 ; p = 0.05 lambda = n*p Valores = seq(0,n) MasaBinomial = dbinom(Valores,n,p) MasaPoisson = dpois(Valores,lambda) plot(Valores,MasaPoisson,type="h",lwd=10,col="red", xlab="x",ylab="P{X=x}") lines(Valores,MasaBinomial,type="h",col="black") points(Valores,MasaBinomial,type="p",cex=2,pch=19) title(main="Funcion de masa de Binomial(30,0.05) (en negro) \n y de Poisson(1.5) (en rojo)") P{X=x} 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Funcion de masa de Binomial(30,0.05) (en negro) y de Poisson(1.5) (en rojo) 0 5 10 15 20 25 30 x Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 27 • • • • • • La distribución de Poisson se utiliza a menudo como modelo probabilı́stico para el número de sucesos independientes (llegadas, accidentes, llamadas,. . . ) que se producen en una unidad de tiempo o de espacio, cuando la tasa o frecuencia de esos sucesos (es decir, el número medio o esperado de sucesos por unidad de tiempo o espacio) es constante. Número de llamadas telefónicas recibidas por una centralita en una hora. Número de mutaciones en un fragmento (de una longitud especı́fica) de ADN después de una cierta cantidad de radiación. Número de erratas por página en un libro. Número de desintegraciones nucleares por unidad de tiempo en un material radiactivo (la radiactividad en el mejor generador de números aleatorios). Número de potenciales excitatorios recibidos por el árbol dendrı́tico de una neurona en un minuto Número de entrecruzamientos que se producen durante la meiosis en una region cromosómica especı́fica. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 28 Distribución de Boltzmann (Fı́sicoquı́mica: Termodinámica) Consideremos un sistema aislado con un gran número de partı́culas (átomos en un gas o moléculas en una solución) cuya energı́a macroscópica constante denotamos por E y en un estado de equilibrio térmico con temperatura T . Supongamos que las partı́culas sólo pueden estar en una cantidad finita de niveles microscópicos de energı́a: E1 , E2 , . . . , EN , con 0 ≤ Ei ≤ E para 1 ≤ i ≤ N. Entonces, se emplea la distribución de Boltzmann para modelizar X , el nivel microscópico de energı́a de una partı́cula elegida al azar en el sistema: P{X = Ei } = e −Ei /k T , Z (T ) P −Ei /k T se donde k es la constante de Boltzmann y Z (T ) = N i=1 e denomina función de partición. Observemos que P{X = Ei } representa la proporción de partı́culas del sistema que están en el nivel de energı́a Ei . Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 29 Distribución uniforme Diremos que una v.a. X tiene distribución de probabilidad uniforme en el intervalo [a, b], X ∼ U[a, b], si su función de densidad es 1 si x ∈ [a, b] f (x) = b−a 0 en caso contrario a+b Entonces E (X ) = . 2 Distribución exponencial Decimos que una v.a. continua X tiene distribución exponencial de parámetro λ > 0, X ∼ exp(λ), si su función de densidad es λe −λx si x > 0, f (x) = 0 si x ≤ 0. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 30 • • • • • • • La distribución exponencial es la del tiempo o la distancia entre dos sucesos que tienen lugar a una tasa constante. Es decir, si el número de sucesos por unidad de tiempo o distancia se modeliza mediante una Poisson(λ), entonces el tiempo que pasa entre dos de esos sucesos consecutivos sigue una exp(λ). tiempo entre dos llamadas consecutivas recibidas en una centralita, tiempo transcurrido entre la llegada de dos pacientes a un servicio de urgencias, tiempo hasta que una persona a la que se ha concedido un crédito incurre en un impago, tiempo que tarda una partı́cula radiactiva en desintegrarse (datación de materia orgánica mediante la técnica del 14 C) distancia entre mutaciones en un fragmento de ADN, tiempo que tarda en averiarse una maquinaria desde que se arregla, tiempo que tarda en morir un animal cuando la muerte no es producto del envejecimiento, sino de un suceso aleatorio que podrı́a suceder en cualquier momento. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 31 El parámetro 1/λ se puede considerar un “parámetro de supervivencia”: si X ∼ exp(λ) representa el tiempo de supervivencia o duración de un sistema biológico o mecánico, entonces E (X ) = λ1 . También se cumple que V (X ) = λ12 . densidad de la exp(λ) 2 λ=1/2 λ=1 λ=2 1.5 1 0.5 0 0 1 2 3 4 5 x Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 32 Ejemplo 2.16: El Carbono-14 es un elemento radiactivo con una vida media de unos 5730 años. El tiempo (en años) que tarda en decaer una partı́cula de 14 C sigue una distribución exponencial con tasa de decaimiento 0.000121. Hallar la probabilidad de que una partı́cula de 14 C tarde menos de 5730 años en decaer. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 33 Distribución normal La v.a. continua X sigue una distribución N(µ, σ), normal de parámetros µ y σ (−∞ < µ < ∞ y σ > 0), si su densidad es " # 1 x −µ 2 1 para todo x ∈ R. f (x) = √ exp − 2 σ σ 2π Propiedades básicas: • E (X ) = µ, V (X ) = σ 2 • f es una densidad simétrica respecto a µ, por lo que P{X < µ − c} = P{X > µ + c} para toda constante c > 0. • Si X ∼ N(µ, σ), entonces Z = X −µ ∼ N(0, 1). σ Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 34 1.0 = 0, = 0, = 0, = −2, 0.8 2 = 0.2, = 1.0, 2 = 5.0, 2 = 0.5, 2 μ,σ 2 0.6 0.4 0.2 0.0 −5 −4 −3 −2 −1 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo 0 1 2 3 Tema 2: Modelos de probabilidad 4 5 35 p • B(n, p) −→ N(np, np(1 − p)) cuando n → ∞ y p está fijo (Teorema Central del Lı́mite). • En general, para una v.a. X con cualquier distribución de probabilidad, µ < ∞ y σ < ∞, el Teorema Central del Lı́mite σ (TCL) establece que X̄ sigue aproximadamente una N µ, √ . n La aproximación de X̄ a la normal se considera válida para n ≥ 30 y es tanto mejor cuanto mayor es n. Una versión general del TCL es la que explica que la distribución de probabilidad de muchos caracteres cuantitativos (como la altura o el peso) sea aproximadamente normal (lo que en Genética se llama el modelo multifactorial). Estos rasgos dependen de varios loci, cada uno de los cuales suma o resta una pequeña cantidad al fenotipo. Además hay factores ambientales que también suman o restan una pequeña variación al rasgo. La suma de todos estos efectos aleatorios está bien modelizada por una normal. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 36 • Si X1 ∼ N(µ1 , σ1 ), . . . , Xn ∼ N(µn , σn ) sonq independientes, entonces X1 + . . . + Xn ∼ N(µ1 + · · · + µn , σ12 + · · · + σn2 ) y q X1 − X2 ∼ N(µ1 − µ2 , σ12 + σ22 ). • Si X ∼ N(µ, σ) entonces 0.2 0.3 0.4 P{µ − σ < X < µ + σ} = 0, 682 P{µ − 2σ < X < µ + 2σ} = 0, 954 P{µ − 3σ < X < µ + 3σ} = 0, 997 0.1 34.1% 2.1% 13.6% 2.1% 13.6% 0.1% 0.0 0.1% 34.1% −3σ −2σ −1σ Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo µ 1σ 2σ 3σ Tema 2: Modelos de probabilidad 37 Antes de suponer que la variable aleatoria X , de la que sólo conocemos su muestra observada x1 , . . . , xn , sigue un modelo de probabilidad especı́fico, debemos comprobar al menos gráficamente que se trata de un modelo razonable para los datos. Histograma y densidad para la normal(2,1) 0.0 0.0 0.1 0.1 0.2 0.2 0.3 0.3 0.4 0.4 Histograma y densidad para la exponencial(0.5) 0 2 4 6 8 x Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo 0 1 2 x Tema 2: Modelos de probabilidad 3 4 38 Código para el dibujo de la exponencial: (no es necesario mirarlo) x = seq(0,10,0.1) lambda = 0.5 d = dexp(x,rate=lambda) n = 100 muestra = rexp(n,lambda) hist(muestra,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="") lines(x,d,type="l",lwd=3,col="red",xlab="",ylab="") title(main=bquote(paste("Histograma y densidad para la exponencial(",.( lambda),")")),xlab="x",ylab="",cex.lab=1.5,cex.main=1.5,font.main=1) Código para el dibujo de la normal: (no es necesario mirarlo) x = seq(-1,5,0.1) mu = 2 sigma = 1 d = dnorm(x,mean=mu,sd=sigma) n = 100 muestra = rnorm(n,mean=mu,sd=sigma) hist(muestra,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="") lines(x,d,type="l",lwd=3,col="red",xlab="",ylab="") title(main=bquote(paste("Histograma y densidad para la normal(",.(mu) ,",",.(sigma),")")),xlab="x",ylab="",cex.lab=1.5,cex.main=1.5,font. main=1) Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 39 Ejemplo 2.17: Una genetista pesó 28 corderos hembra al nacer. Todos los corderos nacieron en abril, todos eran de la misma raza (Rambouillet) y todos fueron nacimientos de un solo cordero (no habı́a gemelos). La dieta y otras condiciones experimentales fueron las mismas para todos los progenitores. Los pesos fueron: 4.3 5.5 5.4 5.8 5.2 5.3 5.5 6.1 6.2 4.0 3.6 4.9 6.7 4.9 5.8 4.5 5.3 5.2 5.6 4.8 4.9 4.9 5.0 5.4 4.7 5.3 5.2 4.7 0.5 0.6 0.7 Pesos de corderos al nacer 0.0 0.1 0.2 0.3 0.4 ¿Con qué distribución de probabilidad modelizarı́as estos datos? 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 40 Ejemplo 2.18: El 18 de diciembre de 1997 nacieron 44 bebés en un hospital de Brisbane, Australia. Las horas de nacimiento de los 44 bebés aparecieron en el periódico local. Los datos están disponibles en http://thinkstats.com/babyboom.dat. Consideramos los tiempos (en minutos) entre un nacimiento y el siguiente. 0.015 0.020 Tiempos entre nacimientos 0.000 0.005 0.010 ¿Con qué distribución de probabilidad modelizarı́as estos datos? 0 50 100 150 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 2: Modelos de probabilidad 41 A veces los datos no son gaussianos pero podemos aplicarles una transformación para “aproximarlos a la hipótesis de normalidad”. Ejemplo 2.19: Datos del Naval Construction Battalion Center (NCBC) Superfund Site en Rhode Island. Se hicieron análisis inorgánicos de aguas subterráneas de 17 pozos del NCBC Site. El objetivo era analizar el nivel de ciertos contaminantes inorgánicos. Los resultados del manganeso detectado fueron: 15.8, 28.2, 90.6, 1490, 85.6, 281, 4300, 199, 838, 777, 824, 1010, 1350, 390, 150, 3250, 259. Log(Manganeso) 0.05 0.00 0e+00 2e−04 0.10 0.15 4e−04 0.20 0.25 6e−04 0.30 Manganeso 0 1000 2000 3000 4000 5000 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo 2 3 4 5 6 7 8 Tema 2: Modelos de probabilidad 9 42