Distribuciones de Probabilidad Continuas En el caso de variables aleatorias continuas, las funciones densidad de probabilidad más comunes y de uso más frecuente en inferencia estadística son: 1. 2. 3. 4. 5. Función de densidad de probabilidad Uniforme. Función de densidad de probabilidad Normal. Función de densidad de probabilidad Chi-cuadrado. Función de densidad de probabilidad T de Student. Función de densidad de probabilidad F de Snedecor. En el caso de variables aleatorias continuas, determinar un tipo de experimento que se pueda explicar con alguna de estas distribuciones ya no es tan sencillo. Cuando se tiene un conjunto de datos, producto de unas mediciones, existen formas aproximadas de determinar si ellos provienen de alguna distribución específica. Las cuatro distribuciones que se estudiaran a continuación se pueden considerar como las piedras angulares de lo que se denomina la teoría de la inferencia estadística. Para variables aleatorias continuas, la probabilidad de que esta se encuentre entre dos valores a y b cualesquiera corresponde al área debajo de la curva comprendida entre estos dos valores Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Recordemos que para variables aleatorias continuas la probabilidad en un punto siempre es igual a cero. Por esta razón la siguiente secuencia de igualdades se satisface siempre que X sea una v.a. continua, Función de distribución acumulada para variables aleatorias continúas Retomando lo estudiando en el capítulo de variables aleatorias continuas, la f.d.a es útil para determinar funciones de distribución de probabilidad de variables aleatorias continuas, así como para determinar el valor probabilístico que se tiene cuando una variable aleatoria alcanza un valor fijo. Definición. La función de distribución acumulada, la cual se denota por una variable aleatoria continua X, cuya función densidad de probabilidad es se define como, Esta función resulta ser continua en Si existe una función para todo x donde dicha derivada exista, entonces Función de Densidad de Probabilidad o f.d.p (en inglés p.d.f). de , tal que es llamada Por el teorema fundamental del cálculo se tiene que: ∫ Esta expresión quiere decir que para hallar la probabilidad de que la variable aleatoria X sea menor o igual a x se debe hallar la integral de la función densidad de probabilidad en los límites apropiados. Esta función tiene la propiedad de que cuando y cuando . Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z 1. Función de densidad de probabilidad Uniforme Este es el modelo de distribución de probabilidad más simple. Sea X una v.a continua definida en el intervalo la longitud de , en particular: ( ) es proporcional a . Diremos que X tiene una f.d.p uniforme en de X esté dada por: Además, , y escribimos La f.d.p { [ ] La f.d.a para X está dada por: [ ] { Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Distribución Uniforme (a, b). Ejemplo: La longitud de una bisagra para puertas es un v.a X, distribuida uniformemente en el intervalo (74.6 , 75.4). La f.d.p para la variable aleatoria X está dada por: { a. Calcule ∫ b. ¿Qué proporción de bisagras miden más de 75.0 mm? ∫ Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z c. ¿Cuál es la probabilidad de que la bisagra mida menos de 74.9 mm? ∫ 2. Función de densidad de probabilidad Normal Esta distribución juega un papel clave en el desarrollo de la inferencia estadística, pues muchas de las herramientas usadas en la toma de decisiones o en las pruebas de hipótesis, tienen su fundamento en esta distribución. Un gran número de estudios pueden ser aproximados usando una distribución normal. Algunas variables físicas, datos meteorológicos (temperatura, precipitaciones, presión atmosférica, etc.), mediciones en organismos vivos, notas o puntajes en pruebas de admisión o de aptitud, errores en instrumentación, proporciones de errores en diversos procesos, etc. Esta distribución es absolutamente simétrica alrededor de su media Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Densidad de probabilidad normal. Sea X una variable aleatoria continua. Se dice que X se distribuye como una normal con parámetros y (estos parámetros determinan el centro y la dispersión de la distribución y la caracterizan completamente), lo cual se escribe , si X tiene función densidad de probabilidad dada por, √ Por medio del cálculo se puede probar que realmente esta función es función de densidad de probabilidad. Además, es simétrica alrededor de . Tiene forma acampanada, el área bajo la curva (considerando todo el dominio de la v.a) siempre es igual a 1. La distribución normal cumple la siguiente regla: El intervalo contiene aproximadamente el 68% de las mediciones. El intervalo 2 contiene aproximadamente el 95% de las mediciones. El intervalo 3 contiene algo más del 99% de las mediciones. Esta regla se conoce como la regla empírica de la normal. Gráficamente, Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Si X es una v.a. normal con parámetros y , la probabilidad de que calcula así: ∫ √ se Para calcular probabilidades relacionadas con la normal se hace necesario utilizar tablas estándar de normalidad. Esto es porque las integrales que surgen en este tipo de problemas son extremadamente difíciles de resolver. Afortunadamente, Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z cualquier variable aleatoria normal se puede transformar en una normal con media = 0 y varianza = 1; esto se logra por medio de la siguiente transformación. Suponga que X es una variable aleatoria normal con parámetros y . La variable aleatoria Z, se define como: Pero ¿Es equivalente la probabilidad original a la obtenida con esta transformación? La respuesta es afirmativa, ya que, ∫ ∫ √ √ ∫ Una variable aleatoria X que se transforme de esta manera se dice que es una variable aleatoria estandarizada. Una vez una variable este estandarizada ya no es necesario resolver la integral ya que sus valores están tabulados. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Propiedades de la distribución de probabilidad Normal Estándar Usando el hecho de que la distribución normal estándar es simétrica con respecto al cero, es posible hacer algunas afirmaciones que en un momento dado pueden facilitar el uso de la tabla. Suponga que la variable ; las siguientes afirmaciones se cumplen, a. b. c. d. Ejemplo: La resistencia a la comprensión de una serie de muestras de cemento puede modelarse por medio de una distribución normal con una resistencia media de 6000 kg y una desviación estándar de 100 kg por centímetro cuadrado ¿Cuál es la probabilidad de que la resistencia de una muestra sea inferior a 6200 kg por centímetro cuadrado? Solución Sea X: Resistencia a la compresión de una muestra de cemento. Por la información del problema se sabe que . La probabilidad pedida es, Entonces, De esta forma se estandariza. Módulo: Fu da e tos de I fere cia Estadística ( ) Doce te: Gustavo Vale cia Z Ejemplo: Una encuesta realizada entre 1000 estaciones de gasolina en los estados unidos reveló que el precio por galón tiene aproximadamente una distribución normal con media $1.90 y desviación estándar $0.20. ¿Cuántas de estas estaciones cobran entre $1.50 y $2.30 por un galón de gasolina corriente? Solución Observe que el precio de $1.50 por galón está a dos desviaciones estándar abajo de la media y el precio de $2.30 está a dos desviaciones estándar arriba de la media. Por la regla empírica, 95.4% de los datos se encuentra entre dos desviaciones estándar de la media. Por lo tanto 0.954*1000=954 de las estaciones cobran entre $1.50 y $2.30 por galón de gasolina corriente en los estados unidos Ejemplo: Se observó durante un largo tiempo que la cantidad semanal gastada en el mantenimiento y en las reparaciones de cierto taller tiene aproximadamente una distribución normal con media de $400000 y desviación estándar de $20000. Si el presupuesto para la próxima semana es de $450000, ¿Cuál es la probabilidad de que los costos sean mayores que la cantidad presupuestada? Solución: Sea X=cantidad gastada en mantenimiento y reparación ( ) Por lo tanto, es muy improbable que los costos reales superen la cantidad presupuestada. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Ejemplo: Se puede ajustar una máquina de café de tal manera que llene los vasos con un promedio de onzas por vaso. Si la cantidad de onzas por vaso X se puede asumir que es una . Halle el valor de de tal manera que los vasos de ocho onzas se derramen con una probabilidad de 0.01. Solución: . Es claro que un Sea X = cantidad de onzas por vasos. Se sabe que vaso de ocho onzas se derramará si . Se debe hallar el valor de que garantice la siguiente condición: Normalizando se tiene que, ( ( ) ) Si se observa l atabla de la normal estándar, hay un valor abajo del cual el área es igual a 0.99 y tal valor es 2.33; por lo tanto el área arriba de 2.33 será 0.01; entonces, Despejando se obtiene que , es decir, la máquina de café debe ajustarse a un promedio de llenado de 7.301 para garantizar que los vasos de ocho onzas se derramen con una probabilidad de 0.01 Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Tabla de la Normal Estándar Entendido el concepto de transformar cualquier normal a una normal estándar, el problema se simplifica debido a que esta última se encuentra tabulada. Tarea 020 1. Calcule las siguientes probabilidades utilizando las talas de la normal estandarizada. a. b. c. d. e. 2. Identifique como se puede evaluar el supuesto de normalidad para cada uno de los siguientes casos: a. Modo gráfico (no aplica la generación de histograma) b. Método analítico (Pruebas no paramétricas) c. Por medio de R 3. Seleccione mínimo 50 datos de una variable de interés y utilice los tres caminos propuestos en el punto anterior para revisar el supuesto de normalidad y concluya si dicha variable cumple o no el supuesto. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Ejemplo: Usando una tabla de la normal estándar calcule las siguientes probabilidades: a. b. c. d. e. Solución: a. b. = c. d. e. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Evaluación del supuesto de normalidad. Cuando se está en presencia de una muestra aleatoria, es ciertamente importante determinar si proviene o no de una población la cual se distribuye normalmente. Existen pruebas gráficas y estadísticas para determinar si un conjunto de n datos sobre una variable proviene o no de una distribución normal. Método gráfico: Q-Q Plot o gráfico de normalidad. Este método compara los valores empíricos (o muestrales) de los cuartiles con los valores reales (o teóricos) de los cuartiles de una normal. Si los datos provienen de una distribución normal, el gráfico de los cuartiles empíricos contra los reales lucirá como una línea recta. Si los datos se distribuyen normalmente los puntos en el gráfico caen de manera muy aproximada sobre una línea recta con intercepto µ y pendiente σ. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Retomemos los datos de estudiantes de Quinto grado estudiando en los capítulos de estadística descriptiva. Quinto Grado Quinto Grado Peso en Kg. 20.6 21.4 23.5 24.5 25.3 26 Edad en años. 27.3 28 28.6 29.6 30.4 33.1 34.6 34.6 35 35.1 35.4 36.2 36.6 36.9 37 38.7 38.7 39.9 40.6 41 42 42 44.5 45.3 9 10 9 10 9 9 8 10 9 10 9 10 9 9 9 9 10 8 10 11 10 10 9 10 9 10 8 9 11 10 En R es posible realizar el gráfico Q-Q plot para cualquier variable cuantitativa. La siguiente figura ilustra este gráfico para la variable Peso. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z El siguiente es el código en R PESO <- c(33.1,35.4,36.6,45.3,37,38.7,23.5,34.6,44.5,41,35, 36.2,27.3,28.6,39.9,36.9,38.7,21.4,42,30.4,25.3,20.6,29.6, 42,26,24.5,35.1,40.6,28,34.6) qqnorm(PESO); qqline(PESO, col = 2) Esta gráfica nos podría dar entender que la variable Peso podría poseer un comportamiento normal debido a que muchos puntos se traslapan con la línea a lo largo de esta. Las siguientes figuras fueron generadas en el paquete estadístico IBM SPSS Statistic. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Esta gráfica nos podría dar entender que la variable Edad posiblemente no tenga un comportamiento normal debido a que muchos puntos son repetitivos sin permitir que se traslapen con la línea a lo largo de esta. Prueba de Normalidad Shapiro-Wilk (No Paramétrica) Para probar normalidad univariada este test es el que más se recomienda. Es de resaltar que este test no pertenece a la familia de tests de Kolmogorov. Si solo se dispone de tablas para comparar este estadístico, se recomienda su uso cuando el tamaño maestral es menor o igual a 50 aunque los paquetes estadísticos actuales están en capacidad de calcularlo para muestras más grandes. El alcance de este curso no abordará el cálculo analítico de esta prueba de normalidad, sin embargo, en el texto de Conover de estadística No Paramétrica se encuentra en detalle el desarrollo analítico. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Las hipótesis de esta prueba son: (Hipótesis nula): es una función de distribución normal, con media y varianza no especificadas. (Hipótesis alternativa): no es normal. Para la variable EDAD rechazo y para PESO no se puede rechazar Desde R es posible calcular el estadístico y valor p dela prueba Shapiro Wilk. > EDAD=c(9,10,9,10,9,9,10,10,9,9,10,9,8,10,9,10,11, + 9,10,11,9,10,9,9,9,8,10,10,8,10) > shapiro.test(EDAD) Shapiro-Wilk normality test data: EDAD W = 0.86, p-value = 0.001014 > PESO=c(33.1,35.4,36.6,45.3,37.0,38.7,23.5,34.6,44.5, + 41.0,35.0,36.2,27.3,28.6,39.9,36.9,38.7,21.4,42.0,30.4,25.3) > shapiro.test(PESO) Shapiro-Wilk normality test data: PESO W = 0.9582, p-value = 0.4811 Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Índice de Asimetría La asimetría de una distribución hace referencia al grado en que los datos se reparten por encima (derecha) y por debajo (izquierda) de la tendencia central. Índice de Curtosis La Curtosis hace referencia al grado de apuntamiento de la distribución. Podríamos mencionar que si el valor del índice de Asimetría es 0±0.5, se habla de una posible distribución normal aunque es indispensable apoyarse en otras verificaciones. Si el valor del índice de Curtosis es 0±0.5, se dice que los datos están muy bien distribuidos. Se pudiera pensar que si la media, mediana y moda de una variable presentaran valores muy similares, se dice que los datos se distribuyen normalmente. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Descriptivos Estadístico EDAD PESO Media 9,43 Intervalo de confianza para Límite inferior 9,14 la media al 95% Límite superior 9,72 Media recortada al 5% 9,43 Mediana 9,00 Varianza ,599 Desv. típ. ,774 Mínimo 8 Máximo 11 Rango 3 Amplitud intercuartil 1 Error típ. ,141 Asimetría -,001 ,427 Curtosis -,214 ,833 33,747 1,2645 Media Intervalo de confianza para Límite inferior 31,160 la media al 95% Límite superior 36,333 Media recortada al 5% 33,835 Mediana 35,050 Varianza 47,971 Desv. típ. 6,9261 Mínimo 20,6 Máximo 45,3 Rango 24,7 Amplitud intercuartil 11,2 Asimetría -,288 ,427 Curtosis -,895 ,833 Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z 3. Función de densidad de probabilidad Chi-cuadrado Este tipo de distribución se utiliza para modelar procesos que tienen que ver con tiempos de llegada, por ejemplo el tiempo que tarda una persona en una sala de espera de un hospital; observe que intuitivamente es razonable pensar que es más probable que transcurra un intervalo de tiempo entre minutos que un intervalo de tiempo pequeño comprendido entre minutos; también tiempos de espera grandes comprendidos entre son poco probables; gráficamente se puede visualizar lo anterior. Fuente: Juan C. Salazar., 2010. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de Colombia. Sede Medellín Esta distribución es sesgada a derecha (y por lo tanto no es simétrica) y puede considerarse como uno de los pilares sobre los que reposa la teoría de la inferencia estadística clásica ya que otras importantes distribuciones se pueden derivar a partir de ella y ella misma sirve para probar hipótesis. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Definición: Sea X una v.a continua. Se dice que X se distribuye como una chicuadrado con r grados de libertad, lo cual se denota variable , si su f.d.p está dada por: es llamada la función gamma, la cual se define como ∫ Para calcular probabilidades relacionadas con la distribución chi-cuadrado se cuenta con tablas que dependen de los grados de libertad y de paquetes estadísticos como R. Para entender intuitivamente el concepto de grado de libertad considere la siguiente situación: si se tienen tres casillas las cuales deben ser llenadas de manera que su suma sea 10 y de antemano se fijan dos números, solamente hay una elección posible para el tercer número, por lo que se considera que para completar la operación se tiene un grado de libertad; por ejemplo, el problema es llenar las tres casillas _+_+_=10, si se realiza 2+6+_=10 es claro que para la tercera casilla la única elección posible es el número 2; es decir, solo hay un grado de libertad en nuestra elección. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Uso de la Tabla de la distribución Chi-Cuadrado Usualmente, los libros de probabilidad incluyen tablas de esta distribución que pueden ser de cola inferior o de cola superior. A continuación se presenta la una imagen de cola superior: Ahora se verán algunos ejemplos para ilustrar su uso. EJEMPLO. Usando la tabla de la chi-cuadrado calcule las siguientes probabilidades: a. b. c. Tarea 021 1. Investigue la relación entre la distribución Chi-Cuadrado y la distribución Normal. 2. Investigue la relación entre la distribución Normal y la distribución Chi-Cuadrado. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z 4. Función de densidad de probabilidad T de Student Esta función se relaciona estrechamente con la normal estándar y la chi-cuadrado. Juega un papel importante en la teoría de la inferencia estadística. Para calcular probabilidades relacionadas con la t se utilizan unas tablas que dependen de los grados de libertad. Esta distribución de probabilidad surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Definición: Sea Z una variable aleatoria normal estándar y sea W una variable aleatoria chi-cuadrado con r grados de libertad. Entonces si Z y W son independientes, se dice que tiene una distribución t de Student con r grados de libertad. Un gráfico de la distribución t y de la normal estándar. √ Observe que las colas de la distribución t son mucho más alargadas que en la distribución normal. Valores muy extremos para la normal que tienen probabilidades muy pequeñas son valores con probabilidades significativas para la Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z distribución t. También a medida que se incrementan los grados de libertad de la t esta se parece mucho más a la normal estándar. Ejemplo: Usando la tabla de la t de Student calcule las siguientes probabilidades: a. b. Ejemplo: Usando la tabla de la t de Student calcule los valores de x a. b. que implica que y según la tabla corresponde a un valor de 5. Función de distribución de probabilidad F de Snedecor. Esta función se relaciona estrechamente con la chi-cuadrado. Juega un papel importante en la teoría de la inferencia estadística. Para calcular probabilidades relacionadas con la F se utilizan unas tablas que dependen de los grados de libertad. Definición: Sea una variable aleatoria chi-cuadrado con grados de libertad y sea una variable aleatoria chi-cuadrado con grados de libertad. Entonces si y son independientes, Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z Se dice que tiene una distribución F de Snedecor con numerador y grados de libertad en el denominador. grados de libertad en el Esta distribución no es simétrica y por lo tanto la tabla de la F no puede usarse de manera igual a la de la normal La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente en el análisis de varianza, en modelos lineales (por ejemplo los de regresión lineal) y los modelos lineales mixtos. Ejemplo: Usando la tabla de la F calcule las siguientes probabilidades a. b. Módulo: Fu da e tos de I fere cia Estadística Doce te: Gustavo Vale cia Z