AJUSTE DE DISTRIBUCIONES DE PROBABILIDAD CONTINUAS ESPECIALIZACIÓN EN INGENIERÍA HIDRÁULICA Y AMBIENTAL CONVENIO UNILLANOS Universidad Nacional de Colombia Sede Manizales-Universidad de los Llanos. Por: Blanca Adriana Botero Hernández. [email protected] Distribuciones de probabilidad Son modelos estadísticos de conjuntos de datos…modelos analíticos que representan la distribución de la frecuencia de variables aleatorias (1) . Variables aleatorias discretas: Representan datos por conteo: # de días con lluvia # de deslizamientos en una zona # de accidentes en una vía # de días con falla en el servicio de acueducto Distribuciones de probabilidad discretas Variables aleatorias continuas: Puede tomar valores en una escala continua, representan datos medidos, o datos producto de un modelo Temperaturas Conductivad hidráulica, Presiones Densidades… Distribuciones de probabilidad continuas (1) de Smith M J (2018) STATSREF: Statistical Analysis Handbook - a web-based statistics resource Modelos de distribuciones de probabilidad continuas Distribuciones de probabilidad continuas Distribución Normal 𝑓 𝑥 = 1 𝜎 2𝜋 𝑎 F a =න 1 𝑥−𝜇 2 −2 𝜎 𝑒 1 −∞ 𝜎 2𝜋 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞ 1 𝑥−𝜇 2 −2 𝜎 𝑒 𝑑𝑥 𝑝𝑎𝑟𝑎 − ∞ < 𝑎 < ∞ Esta distribución se simboliza como N(µ,σ2). µ = media, σ 2= varianza Tomada de (Dekking et al 2005) La distribución normal es un modelo para la distribución de frecuencias observadas de muchos eventos que ocurren naturalmente como la distribución de alturas o pesos de individuos de la misma espacie. O muchas variables naturales. F.M. Dekking, C. Kraaikamp, H.P. Lopuhaa y L.E. Meester. 2005.A Modern Introduction to Probability and Statistics. Understanding Why and How Distribuciones de probabilidad continuas Distribución normal estandar 1 𝑓 𝑧 = 2𝜋 𝑎 F a =න −∞ 1 −2𝑧 2 𝑒 1 2𝜋 𝑒 1 −2𝑧 2 𝑝𝑎𝑟𝑎 − ∞ < 𝑧 < ∞ 𝑑𝑧 𝑝𝑎𝑟𝑎 − ∞ < 𝑎 < ∞ Z es una variable que tiene μ=0 y σ=1 Una variable se puede estandarizar (x transformar en z) así 𝑧 = 𝑥−𝜇 𝜎 Distribuciones de probabilidad continuas Distribución Lognormal 𝑦 = ln(𝑥) 1 𝑓 𝑦 = 𝑥𝜎𝑦 2𝜋 𝑎 F a =න 0 1 𝑦−𝜇𝑦 2 − 𝑒 2 𝜎𝑦 1 𝑥𝜎𝑦 2𝜋 𝑝𝑎𝑟𝑎 0 < 𝑥 < ∞ 1 𝑦−𝜇 2 −2 𝜎 𝑦 𝑒 𝑑𝑥 𝑦 𝑝𝑎𝑟𝑎 0 < 𝑎 < ∞ 1 𝜇+2𝜎 2 𝜇 =𝑒 2 2 2 2𝜇+𝜎 𝜎 𝜎 =𝑒 (𝑒 − 1) Tomado de https://en.wikipedia.org/wiki/Log-normal_distribution Una variable se puede ajustar a una distribución Lognormal si se considera como un producto de pequeños factores independientes. F.M. Dekking, C. Kraaikamp, H.P. Lopuhaa y L.E. Meester. 2005.A Modern Introduction to Probability and Statistics. Understanding Why and How Distribuciones de probabilidad continuas Distribución Pareto 𝑥 − 𝑥0 𝐹 𝑥 =1− 1−𝑘 𝛼 f 𝑥 = 1 𝛼 1−𝑘 𝑥−𝑥0 𝛼 1 𝑘 α es el parámetro de escala, k es el parámetro de forma y 𝑥0 puede ser un parámetro de localización. 1 −1 𝑘 𝑠𝑖 𝑘 > 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥0 < 𝑥 < ∞ 𝛼 𝑠𝑖 𝑘 < 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥0 < 𝑥 < 𝑥0 + 𝑘 Distribuciones de probabilidad continuas Familia de distribuciones de Valor Extremo Generalizado (GEV) La teoría del valor extremo indica que la distribución de probabilidad de los valores extremos (máximo o mínimos) seleccionados de conjuntos de datos, independiente de como se distribuyan estos, convergen a una de las tres formas de distribuciones de valor extremo, llamadas tipo I, II y III, cuando el número de valores extremos seleccionados es grande. Estas tres formas (I, II y III) son casos especiales de una distribución llamada GEV F x =𝑒 − 𝑥−𝜇 1/𝑘 1−𝑘 𝛼 𝑥−𝜇 f x = 𝐹(𝑥) 1 − 𝑘 𝛼 1 𝑘 −1 𝑘 es el parámetro de forma, 𝜇 es el parámetro de localización y 𝛼 el parámetro de escala 𝛼 𝛼 Las tres formas I, II y III aparecen cuando k=0, k<0 entonces x>(𝜇+ 𝑘 ) y si k>0 entonces x<(𝜇 − 𝑘 ) Distribuciones de probabilidad continuas EV I ó Distribución Gumbel 1 − f x = 𝑒 𝛼 F x = 𝑒 −𝑒 − 𝑥−𝜇 𝛼 𝑒 −𝑒 𝑥−𝜇 𝛼 − 𝑥−𝜇 𝛼 𝑐𝑜𝑛 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞ 𝛼>0 Media = 𝜇 + 0.5772 𝛼 𝛼𝜋 2 Varianza= 6 En algunos textos la ecuación puede variar y los parámetros pueden ser simbolizados de forma diferente Distribuciones de probabilidad continuas EV II ó Distribución Frechet F x = 𝑥−𝜇 1/𝑘 − 1−𝑘 𝛼 𝑒 𝛼 𝜇+ ≤𝑥≤∞ 𝑘 𝑐𝑜𝑛 𝑘 < 0, 𝑝𝑎𝑟𝑎 𝑐𝑜𝑛 𝑘 > 0, 𝛼 𝑝𝑎𝑟𝑎 − ∞ ≤ 𝑥 ≤ 𝜇 + 𝑘 EV III ó Distribución Weibull F x = 𝑥−𝜇 1/𝑘 − 1−𝑘 𝛼 𝑒 Distribuciones de probabilidad continuas TCEV (Two Components Extreme Value) 𝜆1 y 𝜆2 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑓𝑜𝑟𝑚𝑎 población 1 y 2 respectivamente F x = −𝜃1 𝑥 −𝜆 𝑒 −𝜃2 𝑥 −𝜆 𝑒 1 2 𝑒 f x = 𝑒 −𝜆1 𝑒 −𝜃1 𝑥 −𝜆2 𝑒 −𝜃2 𝑥 𝜃1 y 𝜃2 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑒𝑠𝑐𝑎𝑙𝑎 población 1 y 2 respectivamente (𝜆1 𝜃1 𝑒 −𝜃1 𝑥 + 𝜆2 𝜃2 𝑒 −𝜃2 𝑥 ) Cuando los datos provienen de dos poblaciones o de dos procesos diferentes….por ejemplo crecidas ordinarias y extraordinarias que responden a dos fenómenos diferentes Distribuciones de probabilidad continuas Pearson tipo III 𝛽 𝑓 𝑥 = 𝛽−1 −𝜆(𝑥−𝜖) 𝜆 (𝑥 − 𝜖) 𝑒 Γ(𝛽) 𝑝𝑎𝑟𝑎 𝑥 ≥ 𝜖 𝑥 𝜆𝛽 (𝑥−𝜖)𝛽−1 𝑒 −𝜆(𝑥−𝜖) 𝑑𝑥 Γ(𝛽) F x = 𝜖 Es un sistema de siete distribuciones planteadas por Pearson. Donde se encuentra incluso la Normal como un caso especial. Una de las formas mas comunes es el tipo III. El cual es utilizado para representar la distribución de probabilidad de valores extremos con asimetría positiva LogPearson tipo III Si x sigue una distribución Pearson tipo III, entonces y=log(x) sigue una distribución logPearson 𝜆𝛽 (log 𝑥 − 𝜖)𝛽−1 𝑒 −𝜆(log 𝑥−𝜖) 𝑓 𝑥 = 𝑥Γ(𝛽) F x = log 𝑥 𝜆𝛽 (log 𝑥−𝜖)𝛽−1 𝑒 −𝜆(log 𝑥−𝜖) 𝑑𝑥 𝜖 𝑥Γ(𝛽) 𝑝𝑎𝑟𝑎 log 𝑥 ≥ 𝜖 Cuando la asimetría es muy positiva, se puede representar mejor por una LogPearson tipo III Ajuste de distribuciones… Método de los momentos para estimar los parámetros Método desarrollado por Pearson en 1902. Unos buenos estimativos de los parámetros de una función de distribución de probabilidad son aquellos para los cuales los momentos de la función de densidad de probabilidad son iguales a los momentos de la muestra ∞ 𝑥ҧ = 𝜇 = 𝐸 𝑥 = න 𝑥𝑓 𝑥 𝑑𝑥 −∞ 𝑠 2 = 𝜎 2 = 𝐸 (𝑥 − 𝜇)2 = 𝐸 𝑥 2 − 𝜇2 ∞ con 𝐸 𝑥 2 = −∞ 𝑥 2 𝑓 𝑥 𝑑𝑥 𝐶𝑠 = 𝛾 = 𝐸 (𝑥−𝜇)3 (𝜎 2 )3/2 = 𝐸 𝑥 3 −3𝜇𝐸 𝑥 2 +2𝜇3 (𝜎 2 )3/2 ∞ con 𝐸[𝑥 3 ] = −∞ 𝑥 3 𝑓 𝑥 𝑑𝑥 Fuente: Ven te Chow. Hidrología Aplicada Método de los momentos para estimar los parámetros Realizando este procedimiento para la f(x) de la distribución de interés se obtienen los parámetros. En la literatura se encuentran para muchas distribuciones estos momentos ya calculados, para otras la solución de la integral que define los momentos requiere de métodos numéricos y no se expresa de manera analítica Tomada de Ven Te Chow. Hidrología Aplicada. MAcGrawHil. Método de los momentos para estimar los parámetros Tomada de Ven Te Chow. Hidrología Aplicada. MAcGrawHil. Método de los momentos para estimar los parámetros PARETO 𝑥 − 𝑥0 𝐹 𝑥 =1− 1−𝑘 𝛼 f 𝑥 = 1 𝛼 1−𝑘 𝑥−𝑥0 𝛼 1 −1 𝑘 1 𝑘 𝜇 − 𝑥0 𝜎 𝑘= 2 2 −1 𝛼 = 𝜇 − 𝑥0 1 + 𝑘 𝑥0 =Umbral inferior conocido o cero 𝜃1 = TCEV F x =𝑒 𝜆1 = 𝑒 𝜇𝜃1−0.5772 −𝜆1 𝑒 −𝜃1 𝑥 −𝜆2 𝑒 −𝜃2 𝑥 f x = 𝑒 −𝜆1𝑒 −𝜃1 𝑥 −𝜆 𝑒 −𝜃2 𝑥 2 𝜋 6𝜎 (𝜆1 𝜃1 𝑒 −𝜃1𝑥 + 𝜆2 𝜃2 𝑒 −𝜃2𝑥 ) 𝜃2 𝜃 = 𝜃1 𝜆 = 𝜆2 𝜆1 𝜃 Aproximación de los parámetros Ajuste de distribuciones de probabilidad continuas Método de la máxima verosimilitud (MLE) La verosimilitud de una muestra de datos es la probabilidad de obtener ese conjunto particular de datos dado el modelo de probabilidad escogido Se basa en la teoría estadística que afirma que los mejores estimadores de los parámetros de una fdp son lo que maximizan la probabilidad conjunta de ocurrencia de una muestra observada (Chow, 194). La función de Verosimiltud (Likelihood) es una función proporcional a la función de densidad de probabilidad conjunta, que si se maximiza se pueden encontrar los parámetros mas adecuados para la fdp de la muestra 𝐿(𝑥1 , 𝑥2 , 𝑥3 ,… 𝑥𝑛 , Θ) = ς𝑛𝑖=1 𝑓(𝑥𝑖 , Θ), MLE consiste en encontrar Θ que maximiza 𝐿(𝑥1 , 𝑥2 , 𝑥3 ,… 𝑥𝑛 , Θ) o el logaritmo de la función LL. 𝐿𝐿(𝑥1 , 𝑥2 , 𝑥3 ,… 𝑥𝑛 , Θ) = σ𝑛𝑖=1 𝐿𝑛𝑓(𝑥𝑖 , Θ) Derivar la función LL, y maximizar, que operativamente será igual a encontrar el mínimo de la función (-LL). También se puede con un método de optimización ya programado, resolver el problema. (AFINS, R…) etc Ejemplos 1. Suponga que la temperatura promedio anual dada en el archivo, se distribuye según una normal. Obtenga -La función de distribución empírica y el ajuste de la función de distribución normal a sus datos. -La probabilidad de que la temperatura promedio anual en este sitio esté por debajo de 16°C. -La probabilidad de que la temperatura promedio anual en este sitio exceda los 20°C Pruebas de bondad de ajustes • Las pruebas de bondad de ajuste indican cuando es o no razonable asumir que un variable aleatoria se distribuye según una distribución específica • Buscan probar una hipótesis basados en un estadístico • Ho= Hipotesis nula: las muestra se distribuye según la distribución especificada Pruebas de bondad de ajustes TEST Chi-Cuadrado Especial para distribuciones discretas. Aunque se puede usar con distribuciones continuas Calcula el estadístico X2 de la muestra 𝑘 𝑜𝑖 − 𝑒𝑖 𝑥2 = 𝑒𝑖 2 𝑖 Donde 𝑜𝑖 es la frecuencia de observaciones en el i esimo intervalo de clase, 𝑒𝑖 es la frecuencia de observaciones en el i esimo intervalo de clase obtenida de la función de densidad a evaluar. 𝑒𝑖 = f(xi)n Si la variable es continua f(xi) (probabilidad de caer en el intervalo i) se calcula como: F(xsupi)-F(xinfi) 2 La Ho se rechaza si 𝑥 2 >= 𝑥1−𝑎 con v=k-p-1 grados de libertad, para un nivel de significancia 0.05. Se espera que por cada clase haya 5 valores para que esta prueba sea significante Ejemplo: Efectuar el Chi-cuadrado para los ajustes realizados a la distribución de Temperaturas. Pruebas de bondad de ajustes TEST Kolmogorv-Smirnov Prueba No paramétrica. Utiliza la F.D.A y es para distribuciones continuas Calcula el estadístico D de la muestra 𝐷 = 𝑚𝑎𝑥 𝐹. 𝐷. 𝐴 𝑒𝑚𝑝𝑖𝑟𝑐𝑎 𝑥 − 𝐹(𝑥) Ho se rechaza si D > Dα Ho no se rechaza si D <= Dα Donde α es el nivel de significancia, que es la probabilidad de equivocarse…(se verá mas adelante) P(rechazar H0 / H0 es cierta)= α El valor crítico Dα se ha tabulado para varios niveles de significancia y diferentes valores de n (ver anexos) Ejemplo: Efectuar el test de Kolmogorv Estimación de cuantiles Dada la probabilidad acumulada F(x), obtener el valor de la variable que tiene esa probabilidad (Cuantil ) Métodos para obtener los cuantiles: • Si la F(x) permite despejar la x, o presenta una ecuación para obtener x, dada F, se despeja el valor del cuantil. • Si la F(x) no tiene expresión analítica (Normal, Gamma, etc…) se utilizan métodos numéricos para obtener el cuantil, dada F(x). Para algunas funciones existen tablas o software que las incorporan (Excel, R) • Por el factor de frecuencia Estimación de cuantiles- Factor de Frecuencia La magnitud de una variable aleatoria puede representarse como: 𝑥𝑇 = 𝜇 + Δ𝑥𝑇 Δ𝑥𝑇 = 𝐾𝑇 𝜎 = 𝐾𝑇 𝑠 𝑥𝑇 = 𝜇 + 𝐾𝑇 𝑠 𝑇= 1 1−𝐹 𝑥 La media 𝜇 mas una desviación de la variable con respecto a la media Δ𝑥𝑇 La desviación de la variable con respecto a la media Δ𝑥𝑇 se puede aproximar al producto de la desviación estándar y un factor de frecuencia 𝐾𝑇 Ecuación para el cálculo de los cuantiles en función del factor de frecuencia 𝐾𝑇 , de la media y de la desviación de la variable. Para una distribución dada, se puede determinar una relacón entre 𝐾𝑇 y T (el período de retorno) en términos de una expresión matemática o una tabla. Ver documento pdf para explicación de Kt, para normal, Gumbel y Logpearson III Estimación de cuantiles- Resumen métodos Función de distribución Invertible (despejar cuantil dada F(x)) Programada Factor de Frecuencia Normal No Excel, R Si Lognormal No Excel, R Si Gamma No Excel, R Si Exponencial Si Excel, R No Pareto Si No No GEV Si No No Gumbel (GEV tipo I) Si No Si Frechet (GEV tipo II) Si No No Weibull (GEV tipo III) Si No No TCEV Si No No Pearson tipo III No No Si Log Pearson tipo III No No Si Pruebas de bondad de ajustes Q-Q plot Grafica los cuantiles obtenidos de la muestra y obtenidos de la distribución ajustada Ejemplos 2. Para la temperatura promedio anual dada en el archivo, ajuste también una función Gumbel. Aplique la prueba de bondad de ajuste de chi cuadrado y kolmogorov para determinar cual función se ajusta mejor a sus datos 3.Ajuste a los caudales del archivo una función lognormal. Calcule el caudal que tiene una probabilidad de excedencia del 2%., obtenga el ca • de Smith M J (2018) STATSREF: Statistical Analysis Handbook - a web-based statistics resource https://www.statsref.com/HTML/index.html. Sección 4.2 • R. E. Walpole, R. Myers, S. L. Myers Y K. Ye. Probabilidad y estadística para ingeniería y ciencias. Novena edición Pearson Educación, México, 2012. Capítulos 5 y 6 • Probabilidad y Estadística. Aplicaciones y Métodos. G, Canavos, 1988 • Fitting distributions with R. V, Ricci. Febrero 2005