DISTRIBUCIONES DE PROBABILIDAD •Concepto de variable aleatoria •Concepto y utilidad de las distribuciones de probabilidad •Distribución binomial y distribución de Poisson •Distribución normal CONCEPTO DE VARIABLE ALEATORIA Una variable aleatoria es una característica de los individuos de una población cuyo valor es impredecible, cambia de una sujeto a otro y también cambia dependiendo del momento en que la midamos (talla, cifras de tensión, de colesterol, etc). Si medimos una variable aleatoria en una población, los valores que encontremos los podemos ordenar en una tabla, en un gráfico de frecuencias o representarlos como una CURVA (DISTRIBUCION DE PROBABILIDAD). En el eje de abscisas (x) se representan los valores de la variable y en el de ordenadas (y) su frecuencia relativa . Si no conocemos la frecuencia de todos los valores pero sí sabemos cómo es la curva podemos averiguar la frecuencia teórica de esos valores. ES DECIR: Si conocemos qué tipo de distribución de probabilidad sigue una variable aleatoria en una población PODEMOS CALCULAR LAS PROBABILIDADES TEORICAS DE DETERMINADOS VALORES A TRAVES DE CALCULOS MATEMATICOS DE PROBABILIDAD. Por eso se llaman distribuciones de probabilidad. Por ejemplo: ¿Qué porcentaje de la población española sana tiene una talla inferior a 160 cm? ¿Qué porcentaje tiene unas cifras de colesterol mayores a 200 mg/dl) ¿Qué porcentaje tiene la tensión arterial sistólica por encima de 130 mm de Hg? DISTRIBUCIÓN BINOMIAL Distribución de probabilidad para variables discretas. Para eventos o experimentos que sólo pueden tener resultados binarios (muerte-supervivencia, éxito-fracaso, si-no….) Cada experimento está compuesto de un nº fijo de pruebas idénticas. Cada prueba es independiente. El resultado de una prueba no condiciona el resultado de ninguna otra. •En un estudio se averiguó que la probabilidad de supervivencia a 5 años en pacientes con tumor prostático localizado es de 0,8. •Como son sucesos complementarios, la probabilidad de muerte será 1-0,8=0,2 •Si tomamos un grupo de 2 pacientes puede pasar que: A-Los 2 sobrevivan: 0,8x0,8=0,64 B-Sobreviva el paciente 1 y muera el paciente 2: 0,8x0,2=0,16 C-Muera el paciente 1 y el 2 sobreviva : 0,2x0,8=0,16 D-Sobreviva uno de los dos y muera el otro (ocurra B o C): 0,16+0,16=0,32 E-Mueran los 2 pacientes: 0,2x0,2=0,04 •Cuando el grupo es tan pequeño los cálculos son sencillos pero si los cálculos se complican es más fácil aplicar la fórmula de la distribución binomial: P(X)= n! πX (1- π)n-X X !(n X )! X= nº de veces para el que queremos calcular la probabilidad n=nº de experimentos o pruebas π =probabilidad de que ocurra una de las 2 posibilidades (muerte-supervivencia, sí-no….) Para el ejemplo del tumor de próstata: ¿Cuál es la probabilidad de que uno de los dos pacientes sobreviva? P(X)= P(1)= n! πX (1- π)n-X X !(n X )! 2! (0,8)1 (1-0,8)2-1 =0,32 1! (2-1)! Si tenemos un grupo de 10 ¿cuál es la probabilidad de que 8 de los 10 pacientes sobreviva? P(8)= 10! 8! (10-8)! (0,8)8 (1-0,8)10-8 =0,302 •A veces no queremos saber la probabilidad de que X sea un nº determinado sino que X sea ≤ o ≥ a un nº. Probabilidad de que sobrevivan 5 pacientes o menos a los 5 años . Probabilidad de que sobrevivan 8 o más pacientes. •Para hacer estos cálculos también existen fórmulas (más complejas que la anterior) y tablas en las que podemos encontrar la probabilidad que buscamos. •Se llaman tablas de la distribución binomial acumulada y nos indican P(X ≤ x). Para el ejemplo del tumor de próstata : Probabilidad de supervivencia a 5 años: 0,8 (π =0,8). ¿Cuál es la probabilidad de que de un grupo de 10 sobrevivan 5 pacientes como mucho (5 o menos)? En la tabla de la distribución binomial acumulada aparece P(X≤x). Buscaríamos en la tabla: n=10 x=5 π =0,8 P=0,032 P=3,2% Para el ejemplo del tumor de próstata : Probabilidad de supervivencia a 5 años: 0,8 (π =0,8). ¿Cuál es la probabilidad de que en un grupo de 10 sobrevivan más de 8 pacientes? Buscaríamos en la tabla: n=10 x=8 π =0,8 Pero en la tabla de la distribución binomial acumulada aparece P(X ≤ x). Para el ejemplo P(X ≤ 8) =0,62. Si buscamos P(X > 8) sería lo complementario: 1- P(X ≤ 8). P(X > 8)= 1- P(X ≤ 8)= 1 – 0,62= 0,38 P=38% •También podemos calcular el valor esperado de X: lo llamamos Esperanza de X o E[X]. Diez individuos entran en contacto con un enfermo que puede transmitir la tuberculosis. La probabilidad de transmisión es de 0,10. ¿Cuántos de los 10 sujetos esperamos que se infecten? Si la probabilidad es de 0,10, esperaríamos que se infectaran el 10% de los sujetos expuestos, es decir 10 x 0,1=1. Por tanto la E[X] resulta de multiplicar el nº de pruebas por la probabilidad que conocemos E[X]=np (Lo mismo se puede calcular con una regla de 3) Para poder hacer cálculos utilizando la distribución binomial se tienen que dar las siguientes condiciones: La variable tiene que ser discreta. Resultados binarios (si-no…) Nº conocido de pruebas (n) Probabilidad (p) de que ocurra un resultado u otro conocida por estudios previos. ¿Podríamos utilizarla en el siguiente ejemplo? -Un alumno no ha estudiado nada pero se presenta a un examen de Psicología que consta de 10 preguntas de dos posibles respuestas (verdadero y falso). Contesta a todas las preguntas al azar. ¿Cuál es la probabilidad de que apruebe el examen? DISTRIBUCIÓN DE POISSON Distribución de probabilidad para variables discretas. Se considera un caso particular de la distribución binomial y se utiliza en aquellas situaciones en que la probabilidad de aparición de un fenómeno es muy pequeña. Para aplicar esta distribución para averiguar probabilidades tenemos que comprobar: Que la variable es discreta. Que los sucesos que estudiamos son independientes. Que la probabilidad del fenómeno estudiado sea pequeña. Para poder calcular la probabilidad que buscamos debemos conocer la media de ocurrencia del fenómeno. En una población determinada se ha observado que hay una media anual de 12 muertes por cáncer de pulmón al año. La variable nº de muertes es discreta y que un sujeto muera no condiciona la probabilidad de que otro muera (son sucesos independientes). La muerte por cáncer de pulmón en la población general se puede considerar un suceso raro y podemos aplicar la distribución de Poisson. Podemos calcular mediante fórmulas o tablas: la probabilidad de que en este año haya exactamente x muertes por cáncer de pulmón. Haya ≤ o ≥ de x muertes por cáncer de pulmón (utilizando la distribución de Poisson acumulada). En una población determinada se ha observado que hay una media anual de 12 muertes por cáncer de pulmón al año. μ = 12 ¿Cuál es la probabilidad de que este año haya más de 9 muertes por cáncer de pulmón en esta población? ¿Cuál es la probabilidad de que este año haya al menos 7 muertes por cáncer de pulmón en esta población? DISTRIBUCIÓN NORMAL O DE GAUSS Es la distribución de probabilidad más utilizada para variables continuas. Muy importante en Medicina porque la mayoría de los métodos estadísticos que utilizamos se apoyan en la distribución normal. F r e c u e n c i a Valores de la variable Es la distribución que con más frecuencia se da en las variables biológicas. Las variables aleatorias que siguen una distribución normal suelen ser el resultado de la acción de un gran número de factores que actúan de forma independiente y con influencias pequeñas Esto es lo que ocurre en las variables biológicas Por ejemplo, la talla de la población está influida por multitud de factores genéticos y medioambientales. Si en esa población hubiera una proporción importante de individuos con alguna alteración que afectara a la talla (por ejemplo malnutridos), no sería así porque este factor tendría una influencia mucho mayor sobre la talla que todos los demás. En cambio si estudiáramos una población de individuos con esa alteración sí seguiría una distribución normal. Propiedades de la distribución normal: -Curva simétrica de forma acampanada. -El centro (la mediana) es la media (μ). -Cuanto mayor es la desviación estándar (σ) más aplanada es la curva. -Entre los valores μ + σ y μ - σ se encuentra el 68% de los valores de la población. - Entre los valores μ + 2σ y μ - 2σ se encuentra el 95,5% de la población. - Entre los valores μ + 3σ y μ - 3σ se encuentra el 99,7% de la población. Si en una población la media de HDL es 48 mg/dl y la desviación típica es 12 mg/dl (y la variable sigue una distribución normal): El 95,5% de los individuos tienen las HDL entre: 48 - 2x12 y 48 + 2x12 o sea entre 24 y 72 mg/dl -En Medicina estas propiedades se suelen utilizar para establecer los valores “normales” o de referencia en las determinaciones analíticas. unidades valores referencia -El intervalo que se suele considerar “normal” es el que está entre μ + 2σ y μ - 2σ y que abarcaría el 95,5% de la población sana. -La μ y la σ se obtienen de estudios de determinaciones analíticas en la población sana. -Si un individuo tiene un valor por debajo de μ - 2σ o por encima de μ + 2σ, se considera que es inusualmente alto o bajo pero hay que tener en cuenta que hay casi un 5% de la población sana tiene valores por encima o por debajo de ese intervalo. -Valores por encima o por debajo del intervalo pueden ser normales en ese individuo en concreto y el médico debe valorar su importancia en función de otros hallazgos clínicos. -Inusual no es necesariamente sinónimo de patológico. Distribución normal tipificada -Si una variable aleatoria sigue una distribución normal y conocemos la media y la desviación típica podemos hacer cálculos de probabilidad. -Para ello se utiliza una tabla que está construida para una curva normal de μ =0 y σ=1 y se llama distribución normal tipificada. -Esta tabla nos indica la probabilidad de encontrar valores ≤ o > al que buscamos. -Para poder utilizar esta tabla tendremos que transformar la distribución normal que nos interese en la distribución normal tipificada. Este proceso se llama tipificación. z TABLA DE DISTRIBUCIÓN NORMAL TIPIFICADA N(0,1) P(Z ≤z) z Tipificación -Para tipificar cualquier distribución normal tenemos que restar a cada valor la media y el resultado dividirlo por la desviación típica. -Muestra de 3 individuos a los que medimos la talla: 174, 176 y 178 cm. La media será: 176 La desviación típica : 2 Si a cada valor le restamos la media: 174-176= -2 176-176= 0 178-176=2 Si ahora dividimos entre la desviación típica: -2/2= -1 0/2= 0 2/2= 1 -Hemos transformado la distribución original (174, 176, 178) en otra normal tipificada ( -1, 0, 1) de media 0 y desviación típica 1. -Esto lo podemos hacer con cualquier distribución normal y utilizar las tablas z (de la distribución tipificada) para hacer cálculos de probabilidad. -Sabemos por los datos de un estudio que la tensión arterial sistólica (TAs) de los individuos entre 40 y 65 años de una determinada ciudad sigue una distribución normal y es de media 130 y desviación típica 12. -Queremos averiguar qué porcentaje de individuos tienen esta cifra menor o = a 140 (cuál es la probabilidad de encontrar sujetos con la TAs ≤ 140 mm Hg). Tipificamos el valor que nos interesa: z= 140-130 =0,83 12 P(x ≤ 140) =P(z ≤ 0,83). Buscamos 0,83 en la tabla=0,7967. El 80% de los sujetos tienen la TAs igual o menor de 140. Por tanto el 20% están por encima de 140 mmHg. 130 140 Distribución original 0 0,83 Distribución tipificada ¿Qué porcentaje tiene la TAs igual o menor a 110? z= 110 – 130 12 110 = -1,7 130 -1,7 0 1,7 Si buscamos un valor < que la media, z será negativo y no aparece en esta tabla pero P(z ≤ -1,7)= P(z > 1,7) porque la curva es simétrica P(z > 1,7) = 0,0446 4,46% de los sujetos tienen la TAs por debajo o igual a 110 mm Hg. ¿Qué porcentaje de individuos tiene la TAs entre 110 y 140? Habría que restar al 100% , el % que está por encima de 140 y el que está por debajo de 110. 100 - 20= 80 80 - 4,46= 75,54 % tiene la TAs 110 130 140 entre 110 y 140 Si en una población la media de HDL es 48 mg/dl y la desviación típica es 12 mg/dl (y la variable sigue una distribución normal), ¿qué % de individuos tiene la HDL entre 24 y 72 mg/dl ?