Capítulo 5 REVISIÓN DE CONCEPTOS DE ESTADÍSTICA Y PROBABILIDAD 73 La planeación y el diseño de proyectos relacionados con el agua necesitan información de diferentes eventos hidrológicos que no son gobernados por leyes físicas y químicas conocidas, sino por las leyes de azar. Por ejemplo, el caudal de un río varía día a día y año tras año, y no puede predecirse exactamente cual será su valor en un período de tiempo cualquiera. En el caso del diseño de un puente, el estudio hidrológico determinaría la creciente asociada con una probabilidad crítica(se busca determinar el caso crítico), la cual se supone representa el riesgo para el puente. Esto solo puede determinarse a través del análisis probabilístico y estadístico basado en los registros hidrológicos del pasado. Es dable afirmar que la hidrología, en algunos casos, trata con variables aleatorias cuyo comportamiento no puede predecirse con certidumbre. El comportamiento de una variable aleatoria está descrito por una ley de probabilidades, la cual asigna medidas de probabilidad a posibles valores o rangos de ocurrencia de la variable aleatoria. Las variables aleatorias pueden ser discretas o continuas. Se dice que una variable aleatoria es discreta si ella sólo puede tomar valores específicos. Por ejemplo, si N denota el número de días lluviosos en el mes de diciembre, entonces N es una variable aleatoria discreta. En este caso, la ley de probabilidades asocia medidas de probabilidad a cada posible ocurrencia de la variable aleatoria. Una variable aleatoria es continua si puede tomar todos los valores en un rango de ocurrencia. Por ejemplo, si Q es una variable aleatoria que denota el valor de los caudales promedios diarios del río Magdalena, entonces Q 74 puede asumir cualquier valor y es entonces una variable aleatoria continua En este caso la ley de probabilidades asigna medidas de probabilidad a rangos de ocurrencia de la variable aleatoria. En el análisis probabilístico y estadístico en hidrología, se asume que la información histórica disponible de una variable hidrológica representa una muestra tomada de una población cuyas características se desconocen. En el análisis probabilístico se analizan posibles leyes de probabilidad que pueden describir el comportamiento de las variables de la población. En el análisis estadístico, se hacen inferencias sobre la variable (la población), usando la muestra. Por ejemplo, cuando se calcula una media con observaciones disponibles, se está infiriendo que la media calculada es la media de la población, lo cual no necesariamente es verdad, pues esto dependerá de la calidad de la información, del número de observaciones y otros aspectos. El hecho es que muchos fenómenos hidrológicos son erráticos, complejos y de naturaleza aleatoria, y solo pueden ser interpretados en un sentido probabilístico. Uno de los problemas más importantes en hidrología es la interpretación de registros de eventos pasados para inferir la ley de probabilidades de la variable hidrológica (población) de interés, procedimiento que en hidrología se conoce con el nombre de análisis de frecuencia. Por ejemplo supóngase que se tienen registros del caudal del río Magdalena durante un período de 50 años. Son factibles dos tipos de análisis: descriptivo y de inferencia. El primero se realiza sin ninguna referencia a su población, de la cual se tiene una muestra de 50 años. Consiste, básicamente, en calcular propiedades estadísticas, como media, varianza y otras. En el segundo, la muestra se analiza para inferir las propiedades de su población, lo cual ayudará a derivar las características probabilísticas del caudal. El primero es una aplicación de los métodos estadísticos que requieren poca 75 decisión y poco riesgo. El segundo involucra riesgos y requiere una total comprensión de los métodos empleados y el peligro involucrado en la predicción y estimación de las variables. Los objetivos básicos de la estadística en la hidrología son entre otros: 1) 2) 3) 4) 5) Interpretación de las observaciones Análisis de la calidad de la información Inferencia sobre el comportamiento de la variable Extracción del máximo de información de los registros Presentación de la información en gráficas, tablas, ecuaciones, que básicamente ayudan a la toma de decisiones en el planeamiento de los recursos hídricos. En resumen, el objetivo principal de la estadística en hidrología es obtener información de los fenómenos hidrológicos pasados y hacer inferencias acerca de su comportamiento en el futuro. 5.1 CONCEPTOS BÁSICOS 5.1.1 Concepto de probabilidad. La probabilidad de ocurrencia de un evento dado es igual a la relación entre el número de sucesos favorables m y el número de sucesos totales, n: P( X = x ) = m n La teoría de la probabilidad se basa en los siguientes axiomas: 76 (5.1) 1) La probabilidad de ocurrencia de un evento, Pi, siempre tiene un valor entre 0 y 1, así: 0 ≤ Pi ≤ 1 (5.2) . La probabilidad de un evento cierto es 1: α ∑P i =1 i =1 (5.3) 2) Si X1 y X2 son eventos independientes y mutuamente excluyentes, entonces: P( X 1 ∪ X 2 ) = P ( X 1 ) + P( X 2 ) (5.4) Dos eventos son independientes si la probabilidad de ocurrencia de uno no se ve afectada por la ocurrencia del otro,. y se dice que son mutuamente excluyentes cuando la ocurrencia de uno imposibilita la ocurrencia del otro. Los axiomas anteriores permiten la definición de conceptos importantes. Por ejemplo, si dos eventos X1 y X2 no son mutuamente excluyentes, la probablidad de que ocurra X1 u ocurra X2 está dada así: P( X 1 ∪ X 2 ) = P( X 1 ) + P ( X 2 ) − P( X 1 ∩ X 2 ) (5.5) La P( X 1 ∪ X 2 ) es llamada unión de probabilidades y se lee la probabilidad de X1 o X2. 77 La probabilidad de que dos eventos independientes ocurran de manera simultánea es el producto de las probabilidades individuales así: P( X 1 ∩ X 2 ) = P( X 1 ) × P( X 2 ) (5.6) La P( X 1 ∩ X 2 ) es llamada la probabilidad de intersección y se lee la probabilidad de X1 y X2. La probabilidad de que ocurra un evento X1 dado que ha ocurrido X2 se llama probabilidad condicional y se denota así: P( X 1 X2 ) = P( X1 ∩ X 2 ) P( X 2 ) (5.7) Ejemplo 5.1 Supóngase que el río Cauca alcanza cada invierno un nivel de creciente con una frecuencia relativa de 0.2. En el Cauca hay un puente cuya probabilidad de falla en los estribos es 0,3 y la experiencia muestra que cuando hay creciente, las probabilidades de esta falla suben a 0,5. Las probabilidades son: P(creciente) = P(C) = 0,2 P(no creciente) = P(C) = 0,8 P(falla) = P(F) = 0,3 P(no falla) = P(F) = 0,7 P (falla dada creciente) = P(F/C)= 0,5 Se desea conocer la probabilidad de falla del puente. Solución: El puente falla (queda inutilizado) cuando falla en los estribos o cuando hay creciente; esto se puede denotar así: 78 P( C ∪ F ) = P ( C ) + P ( F ) − P( C ∩ F ) Aplicando la ecuación 5.7 de probabilidad condicional: P( C ∩ F ) = P ( C ) × P( F ) C Reemplazando valores, se obtiene: P( C ∩ F ) = 0. 2 × .0.5 = 0.1 Al reemplazar este valor en la expresión de unión de probabilidades, se concluye finalmente que P(C∪F)=0.4 5.1.2 Período de retorno: Se define el período de retorno, Tr, de un evento de cierta magnitud como el tiempo promedio que transcurre entre la ocurrencia de ese evento y la próxima ocurrencia de ese evento con la misma magnitud. Se define también como el tiempo que transcurre para que un evento sea excedido o igualado, al menos una vez en promedio. Si P es la probabilidad de excedencia, se puede demostrar matemáticamente que: (5.8) 1 Tr = P 3 Por ejemplo, si un caudal de 8098 m /s es excedido en promedio una vez cada 10000 años, entonces su período de retorno, T r, es de 10000 años. 5.1.3 Concepto de riesgo. En el diseño de obras hidráulicas expuestas a grandes avenidas, es necesario considerar el riesgo asociado con el valor seleccionado para el diseño. Por lo común, el ingeniero diseña una obra para resistir una avenida de cierta magnitud. Se define el riesgo R de un diseño como la probabilidad de que la avenida para la cual se diseña la obra sea excedida. Se entiende que ésta es 79 una situación de riesgo, pues la obra se diseña para soportar cierta avenida máxima , y crecientes mayores le podrían hacer daño o incluso destruirla. El riego R puede entonces escribirse como: 1 R = 1 - (1 - )n (5.9) Tr La confiabilidad se define como el complemento del riesgo (Confiabilidad = 1-R). Se quiere que la obra tenga un riesgo pequeño de dañarse o, lo que es lo mismo, una alta confiabilidad. Ejemplo 5.2 ¿Qué período de retorno debe escoger un ingeniero en el diseño de un box-culvert, si se acepta solo el 10% de riesgo de avenida en una vida útil, n, de 25 años? Solución: Aplicando la ecuación 5.9 se tiene: R = 0.1 = 1 - (1 - 1 Tr ) 25 Reemplazando los valores de Tr y n se obtiene: TR = 238 años Ejemplo 5.3 Una presa por gravedad puede fallar por deslizamiento (A), por crecientes (B), o por ambas. Asumir que : 1) La probabilidad de falla por deslizamiento es dos veces la probabilidad de falla por creciente: P(A)=2 P(B) 80 2) La probabilidad de falla por deslizamiento, dado que ha habido creciente, es 0.8 -3 3) La probabilidad de falla de la presa es de 1*10 Determinar la probabilidad de que ocurra un deslizamiento, P(A). Solución: La presa queda inutilizada cuando se presenta una falla por deslizamiento o cuando hay una creciente, lo que puede expresarse como: P( A ∪ B ) = 0.001 = P( A ) + P( B ) − P( A ∩ B ) (1) Se tiene además que: P(A) = 2 P(B) (2) Reemplazando la (2) en la (1): 0.001 = 3P( B ) − P( A ∩ B ) (3) Se sabe que: P( A B ) = 0.8 = P( A∩B ) P( B ) Resolviendo simultáneamente la (3) y la (4), se obtiene: -4 P(A) = 9.1 * 10 81 (4) Ejemplo 5.4 De 1000 circuitos de tubería de acueducto en una ciudad, se reportan 15 contaminados con materias fecales; 5 tienen excesivas concentraciones de plomo (Pb) y entre éstos dos de ellos contaminados también por materias fecales. Se pregunta: a) b) c) d) Cuál es la probabilidad de que un sistema seleccionado al azar resulte con contaminación fecal? Suponiendo que un sistema se encuentre contaminado con materias fecales, cuál es la probabilidad de que también esté contaminado con plomo? Cuál es la probabilidad de que un sistema seleccionado al azar esté contaminado? Suponiendo que la probabilidad de contaminación hallada en el numeral anterior no es satisfactoria, y que se desea que no exceda de 0.01, ¿cuál es el valor permisible para la probabilidad de contaminación por materias fecales, asumiendo que el valor de la probabilidad condicional hallada en el numeral b aún se puede aplicar? Solución: Llamemos P(F) a la probabilidad de contaminación por materia fecal, P(Pb) a la probabilidad de contaminación por plomo y P(C) a la probabilidad de contaminación por plomo o por materia fecal. Se tiene entonces: a) P(F) = 17/1000 b) La probabilidad condicional P(Pb/F) puede expresarse como: P( Pb / F ) = P(Pb ∩ F) P(F) 82 y P(Pb) = 5/1000. Reemplazando, se obtiene que: P(PBI/F) = 2/17 c)Se pregunta en este numeral el valor de P(C); este valor establece la probabilidad de que un circuito esté contaminado con plomo o con materias fecales. Como hay 15 circuitos contaminados con materias fecales y 5 contaminados con plomo, se tiene entonces que: P(C) = 20/1000= 0.002 d) La probabilidad de contaminación C se puede expresar como: P( C) = P( F ∪ Pb ) − P( F ) + P( B ) − P( F ∩ Pb ) (1) y se conoce el valor de la probabilidad condicional: P( Pb / F ) = 2 / 17 = P( Pb ∩ F ) P( F ) (2) Resolviendo la (1) y la (2) simultáneamente se halla que: P(F) = 0.00567 5.2 DISTRIBUCIONES DE FUNCIONES DE PROBABILIDADES EN HIDROLOGIA Tal como se había mencionado anteriormente, el comportamiento de las variables aleatorias discretas o continuas se describe con la ley de probabilidades asociada, que asigna medidas de probabilidad a ocurrencias o a rangos de ocurrencia de la variable. Estas leyes de probabilidad reciben el nombre de funciones de distribuciones de probabilidad. Como notación, se representa por una letra mayúscula la variable aleatoria, y por una letra minúscula, un valor específico, una relación o una muestra de la variable. P(X = a) indica la probabilidad de que la variable aleatoria X tenga un valor de a; similarmente, P(a<X<b) indica la probabilidad que la variable aleatoria 83 X esté en el intervalo [a, b] .Si se conoce la probabilidad P(a<X<b) para todos los posibles valores de a y b, se dice que se conoce la distribución de probabilidades de la variable X. Si se tiene una muestra cuyas observaciones se asumen extraídas de una misma población (idénticamente distribuidas), ellas pueden presentarse como un histograma de frecuencias. Todo el rango disponible de la variable aleatoria se divide en intervalos discretos; se cuenta el número de observaciones que cae en cada intervalo, y el resultado se dibuja en un diagrama de barras como el mostrado en la Figura 3.1, que representa la precipitación promedio anual en una estación. FIGURA 5.1 Histograma de frecuencias. Supóngase que se tiene una variable continua y el ancho ∆x del intervalo que se usa para el histograma se escoge tan pequeño como sea posible; supóngase igualmente que se tiene el suficiente número de observaciones en cada intervalo, para que el histograma de frecuencia muestre variaciones suaves en todo el rango de valores. Si el número de observaciones ni en el intervalo i que cubre el rango [xi-∆x, xi] se divide por el número total de observaciones, N, el resultado se denomina función de frecuencia relativa fs (x): 84 f s ( xi ) = ni n (5.10) la cual es un estimado de P( xi -∆x<X<xi), la probabilidad de que la variable aleatoria X caiga en el intervalo [xi -∆x, xi]. El subíndice s indica que la función es calculada de los datos muestrales. La suma de los valores de las frecuencias relativas en un punto es la función de frecuencia acumulada, Fs(x),dada como: i FS ( xi ) = ∑ f S ( x j) (5.11) j= 1 Este es un estimado de P(X ≤ xi), la probabilidad acumulada de xi, o función acumulada de probabilidades. Las funciones de frecuencia relativa y frecuencia acumulada se definen para una muestra. Las funciones correspondientes a la población se obtienen en el y ∆x →0. En el límite, la función de frecuencia relativa límite cuando n→ dividida por el intervalo ∆x, se convierte en la función de densidad de probabilidades fX(x) (x) û[ f X (x) = lim f S n →∞ û[ → 0 (5.12) La función de frecuencia acumulada se convierte en la función acumulada de distribución de probabilidades FX(x) FX (x) = lim FS (x) n→ ∞ û[ → 0 85 (5.13) cuya derivada es la función de densidad de probabilidad: f X (x) = dFX (x) dx (5.14) Para un valor dado de la variable aleatoria X, Fx(x) es la probabilidad acumulada P(X ≤ x), y puede expresarse como la integral de la función de densidad para el rango X ≤ x. x P(X ≤ x) = FX (x) = ∫f X (u)du (5.15) −∞ en donde u es una variable de integración. Si se tiene la función de distribución acumulada para una variable X y se tiene un valor xA de esa variable, (ver Figura 5.2) se cumple que: FX (xA ) = P (X ≤ x A ) (5.16) Una forma bastante usada en hidrología para escribir el valor de una variable hidrológica asociada a cierto período de retorno es la de utilizar lo que se conoce como factor de frecuencia, K. En este caso, el valor de la variable se puede escribir como: X A = µ + Kσ 86 (5.17) K es la desviación típica de la variable Donde µ representa la media y hidrológica. XT es el valor de la variable aleatoria asociada a un ‘período de retorno T. Como se sabe: FX (XT ) = P (X ≤ XT ) = 1 - P (X > XT ) P(X XT ) representa la probabilidad de excedencia, la cual está relacionada con el período de retorno como: ; ) [ P( X ≥ X T ) = 1 T (5.18) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 5 6 7 8 9 x FIGURA 5.2 Distribución acumulada De donde: FX ( X T ) = 1 − 87 1 T 10 O: FX ( µ + σK ) = 1 − 1 T Y se obtiene finalmente: K= 1 −1 FX 1 − − 1 T 1 -1 FX ( ) representa el inverso de la distribución acumulada de probabilidades. -1 Por ejemplo, para obtener FX (1 - 1/T), se entra al gráfico 5.2 con el valor de 1-1/T al eje de probabilidades, y se lee en el otro eje el valor del inverso de la distribución acumulada de probabilidades. Lo que significa que el factor de frecuencia es función de la distribución de probabilidades y del período de retorno que se escoja. La función de densidad de probabilidades tiene las siguientes características cuando la variable aleatoria es continua: 1) ∞ ∫f X (x)dx = 1 (5.19) -∞ 2) b P(a ≤ X ≤ b) = ∫ f X (x)dx (5.20) a 3) b ∫ f X (x)dx = 0 (5.21) b Cuando la variable aleatoria es discreta las anteriores propiedades se pueden denotar así: 88 1) (5.22) ∑ f ( xi ) = 1 i 2) P( a ≤ X ≤ b ) = xi ≤b ∑ f (x ) xi ≥a i (5.23) 3) i= j P( X ≤ x j ) = ∑ f ( x i ) (5.24) i =1 Lo que implica que las probabilidades se definen solo como áreas bajo la función de densidad de probabilidades, FDP, entre límites finitos. Ejemplo 5.5 Hallar la función de distribución acumulada para una variable aleatoria que se define como el número de veces que se lanza una moneda, hasta que aparece cara. Solución: La probabilidad de que caiga cara en cualquier ensayo es ½ y es independiente de la probabilidad de que caiga sello. Si A es el evento de que caiga sello en el primer ensayo y B (es el evento) de que caiga sello en el segundo ensayo, la probabilidad que suceda A y B es: 89 P(AB) = P(A) + P(B) = (1/2) 2 Si hay x-1 ensayos, la probabilidad de que caiga sello en el ensayo (x-1) es x-1 (1/2) y la probabilidad de cara en el x-avo ensayo es: (1/2) x-1 ½ = (1/2) x se tiene entonces que: x P(X=x) Fx(x) 1 2 3 ½ ¼ 1/8 ½ ¾ 7/8 en donde x es el número de ensayos, P(X=x) es la probabilidad de ocurrencia de sello en todos los ensayos y FX(x) es la función de probabilidades acumulada. 5.3 MOMENTOS DE LAS DISTRIBUCIONES Las propiedades matemáticas de las distribuciones estadísticas pueden ser definidas en términos de los momentos de la distribución. Los momentos representan parámetros que tienen significado físico o geométrico. Se reconocerá fácilmente la analogía entre los momentos estadísticos y los momentos de área estudiados en mecánica de sólidos. El r-avo momento con relación al origen se define como: ∞ µr′ = ∫ xr f X (x)dx -∞ 90 (5.25) o en el caso discreto: n µr′ = ∑ xri f X (x i ) (5.26) i =1 El subíndice se usa para momentos respecto al origen. El primer momento con respecto al origen representa la media de la distribución. Los momentos pueden definirse con respecto a otro punto distinto al origen. Por ejemplo, el r-avo momento con respecto a la media se puede escribir como: ∞ µr = ∫ (x - µ ) f X (x)dx (5.27) µ r = ∑ f X ( x i )( x − µ )r (5.28) r -∞ n i =1 La primera de estas ecuaciones para el caso de una variable aleatoria continua y la segunda si la variable es discreta. Rara vez se necesita calcular más de tres momentos. Estos son usados para estimar los parámetros y describir las características de la distribución. 5.4 CARACTERISTICAS ESTADISTICAS BASICAS Uno de los usos de la estadística es extraer la información esencial de una muestra de datos, para determinar las características y el comportamiento de la población. Hay algunas características básicas, como la media, la varianza y otras que se pueden calcular o estimar utilizando la muestra de datos disponibles, para tratar de entender el comportamiento general de la población. 91 En general, las características estadísticas básicas se calculan como el valor esperado E de alguna función de una variable aleatoria. El valor esperado de una función g(X) de una variable aleatoria X se define como: E[g( X )] = ∞ ∫ g ( u )f X ( u )du (5.29) −∞ En donde fX (u) representa la función de distribución de probabilidades (FDP) de la variable X Las principales características son: - La media E: representa el valor esperado de la variable misma. Para una variable aleatoria X, la media E(X) es el primer momento con respecto al origen; es una medida de la tendencia central de la distribución: ∞ E(X) = µ = ∫ xf X (x)dx (5.30) -∞ El estimador de la media a partir de una muestra se puede escribir como: ˆ x = - 1 N ∑ xi N i =1 (5.31) La varianza K : mide la “variabilidad” de los datos, la dispersión de los mismos alrededor de la media. Es el segundo momento respecto a la media: 2 92 ∞ E[(X - µ ) ] = σ 2 = ∫ (x - µ ) f X (x)dx 2 2 (5.32) -∞ El estimador de la varianza a partir de una muestra está dado por: 2 σˆ x = - ∧ 1 N 2 ( − µ x i x ) ∑ N - 1 i =1 (5.33) La desviación estándar K: es una medida de la variabilidad con las mismas dimensiones que X; es la raíz cuadrada de la varianza y su K ∧ valor estimado se denota por σ . Mientras mayor sea la desviación estándar, mayor es la dispersión de los datos. ( ver Figura 5.3). - El coeficiente de variación CV: está definido por la relación de la desviación estándar y la media, y se puede escribir como: CV = σ µ (5.34) σˆ x ; es una medida adimensional de la variabilidad. µˆ x alrededor de la media. cuyo estimado es - Asimetría: la distribución de los valores de una distribución alrededor de la media se mide por la asimetría, la cual está dada por el tercer momento alrededor de la media: ∞ E[(X - µ ) ] = ∫ (x - µ ) f X (x)dx 3 3 -∞ 93 (5.35) FIGURA 5.3 Distribución de probabilidades con diferente desviación estándar. La asimetría se hace adimensional dividiendo la anterior ecuación por 3 y se obtiene así, el coeficiente de asimetría : K ? γ = El estimador de 1 σ 3 E[(x - µ )3 ] (5.36) ? está dado por: N ∧ x = N ∑ ( xi - ˆ x )3 (5.37) i =1 (N - 1)(N - 2) 1̂ x ? 3 ? Como se muestra en la Figura 5..4, para >0, asimetría positiva, los datos se concentran a la derecha y para <0, asimetría negativa, los datos se concentran a la izquierda. 94 γ<0 γ>0 fX ( x ) µ x FIGURA 5.4. Distribución de Probabilidades con Diferentes Coeficientes ? Ejemplo 5.6 En una estación pluviométrica se tienen precipitaciones promedias mensuales multianuales de un determinado mes, cuyas frecuencias absolutas se muestran en la tabla siguiente. Encontrar la precipitación promedia mensual. Frecuencia Intervalo en mm Absoluta 100-110 110-112 120-130 130-140 140-150 150-160 160-170 10 16 9 10 20 15 20 Solución: En total se tiene 100 valores, para cada intervalo se halla el valor medio o marca de clase y se le asigna una frecuencia relativa, la cual es la frecuencia 95 absoluta sobre el número total de valores (100). El valor medio de cada intervalo es xi y la frecuencia relativa es fx(xi). Se elabora entonces la tabla siguiente. F. relativa xi fx(xi) Intervalo clase (mm) Valor medio xi (mm) F. absoluta 100-110 105 10 0.1 10.5 110-120 115 16 0.16 18.4 120-130 125 9 0.09 11.25 130-140 135 10 0.1 13.5 140-150 145 20 0.2 29 150-160 155 15 0.15 23.25 160-170 165 20 0.2 33 fx(xi) Σ=100 Σ=138.90 Aplicando la ecuación 5.29 la media se puede expresar como: x = .xifx(xi)=138.9 mm. 5.5 DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS DISCRETAS El uso de estas distribuciones se restringe a aquellos eventos aleatorios en los cuales el resultado puede ser descrito solamente como un éxito o como un fracaso, esto es, solo hay dos eventos mutuamente excluyentes para un experimento. Además, los experimentos sucesivos son independientes y la 96 probabilidad permanece constante de ensayo a ensayo. Un ejemplo en hidrología sería la probabilidad de que un día sea lluvioso o seco. La distribuciones de este tipo más usadas en hidrología son la distribución binomial y la geométrica. 5.5.1 Distribución binomial. Consideramos como p la probabilidad de que el caudal máximo en un año en 3 un río exceda un valor de 1800 m /s .La probabilidad de no excederlo, q, es 1-p .Supóngase que se está considerando un período de 3 años. La probabilidad de excedencia en el año 3 y no en los años 1 y 2 es qqp, dado que los eventos son independientes año a año. La probabilidad de excedencia en cualquiera de los 3 años es pqq +qpq + qqp debido a que la excedencia pudo ocurrir en el 1o., 2o o en el 3o. año. La probabilidad de 2 excedencia en 3 años está dada como 3q p. La probabilidad de dos excedencias en 5 años es ppqqq, pqpqq1....qqqpp. Se puede ver que cada 3 2 uno de estos términos es q p ; el número de términos es igual al número de formas de arreglar dos items dentro de 5 items. Esto es (5/2) = 5x4/2 = 10 y 3 2 la probabilidad de tener dos excedencias en 5 años es (5/2)q p Puede generalizarse de tal manera que la probabilidad de x excedencias es n x n-x años está dada por (n/x)p q , lo que también puede expresarse así: P( X = x ) = n! p x (1 − p )n − x x! (n − x )! (5.38) expresión conocida como distribución binomial. Los parámetros de esta distribución son: µ = np σ 2 = np(1 − p) (q − p ) γ= npq 97 (5.39) Ejemplo 5.7 Como se dijo anteriormente, una creciente de Tr años de período de retorno se define como aquélla que tiene una probabilidad de excedencia de 1/Tr en cualquier año. Asumiendo que las máximas crecientes anuales son independientes, la distribución binomial permite resolver varios problemas prácticos en hidrología, así: a) Cuál es la probabilidad de que una creciente con un período de retorno de 50 años ocurra exactamente en ese período? Aplicando la ecuación 5.38 se tiene: P( X = 1) = b) 50 1 ( )1 (1 − 1 / 50) 49 = 0.37 3 50 Cuál es la probabilidad de que en 50 años se presenten 3 crecientes que igualen o excedan la de Tr =50 años? Con la misma ecuación anterior se tiene: P( X = 3 ) = c) 50 (1 / 50)3 (1 − 1 / 50)47 = 0.06 3 Cuál es la probabilidad de que una o más crecientes excedan el caudal con 50 años de período de retorno en ese mismo tiempo? La clave para contestar esta pregunta está en las palabras “una o más”. Como los eventos son independientes y mutuamente excluyentes, se puede escribir: P[una o más crecientes en 50 años] = 1 - P[no crecientes en 50 años] o lo que es lo mismo: P[una o más crecientes en 50 años]= 1 − 98 50 (1 / 50) 0 (1 − 1 / 50) 50 = 0.64 0 5.5.2 Distribución Geométrica. Cuando se construye una obra con un caudal de diseño determinado, es de interés para los diseñadores conocer cuántos años pasarán antes que este caudal de diseño sea igualado o excedido. Si p es la probabilidad de excedencia del caudal de diseño (1/Tr) , la probabilidad de falla en el n-avo año,P, es: P = (1 − p)n−1 p (5.40) Esta es la llamada distribución geométrica. La media y la varianza de la distribución geométrica son: 1 P (1 − P ) σ2 = P2 µ= (5.41) Ejemplo 5.9 El máximo nivel de la creciente anual de un río se denota por H (metros): Asumiendo que la función de densidad de probabilidad se describe como se muestra en la gráfica, determinar: a) La altura de inundación para un período de 20 años. b) Cuál es la probabilidad de que durante los próximos 20 años la altura hallada en el numeral anterior sea excedida al menos una vez?. c) Cuál es la probabilidad de que durante los próximos 5 años este valor sea excedido exactamente una vez? 99 F(H) 5 6 7 H(m) Solución: 66 a) El área bajo la función de densidad es 1, que equivale a P(5 H 7) =1. Para un caudal con un Tr de 20 años se cumple que: P( H ≥ H Tr=20 ) = 1 / 20 = 0.05 lo que significa que 0.05 es un área bajo la función de densidad y: P( H ≤ H Tr=20 ) = 1 − 0.05 = 0.95 y se plantea la siguiente relación: 0.05 = (7 − H Tr=20 )(0.95) 2 Despejando el valor de H, se obtiene finalmente: H Tr =20 = 6.9 m 100 b) Se puede escribir la siguiente ecuación: P(HTr=20 sea excedida al menos una vez) =1 - P(HTr=20 no sea excedida) Aplicando la ecuación 5.38 (binomial ) se puede escribir entonces: P(HTr=20 sea excedida al menos una vez) = 1 − 20 (0.05) 0 (0.95) 20 = 0.642 0 O sea que P(HTr=20 sea excedida al menos una vez) = 0.642 b) Aplicando también la ecuación 5.38, se tiene: 5 P( H Tr = 20 = 1) = (0.05)1 (0.95) 0.4 = 0.024 1 Ejemplo 5.9 Tres diques de control de inundaciones se construyen en una planicie por la cual corren dos ríos, tal como se muestra en la figura. Los diques se diseñan así: El dique I tiene un caudal de diseño con un período de retorno de 20 años. El dique II tiene un caudal de diseño con un período de retorno de 10 años El dique III tiene un caudal de diseño con un período de retorno de 25 años. Asumir que las crecientes en los ríos A y B son estadísticamente independientes y que las fallas de los diques I y III también lo son. a) Cuál es la probabilidad de inundación en un año cualquiera producida solamente por el río A. b) Cuál es la probabilidad de inundación de la planicie en un año? c) Cuál es la probabilidad de que no haya inundación en los próximos 4 años? 101 Solución: a)El río A puede producir inundación en la planicie si falla el dique I o si falla el dique II, lo que se puede expresar como: P(I ∪ II ) = P(I ) + P(II ) − P(I ∩ II ) P(I ∪ II ) = 0.05 + 0.1 − 0.1 × 0.05 = 0.145 b) La probabilidad de inundación se da por el río A o por el río B, lo que puede expresarse como: P( A ∪ B ) = P ( A ) + P( B ) − P ( A ∩ B ) P(A)=0.145, hallado en el numeral anterior y P(B) =1/25=0.04, lo que implica que: P( A ∪ B ) = 0.145 + 0.04 − 0.145 × 0.04 = 0.179 c) La probabilidad de inundación, P, en cualquier año, es 0.179, como se explicó en el numeral anterior, y la probabilidad ,q, de no inundación será entonces: q =1 -P =1 - 0.179 =0.821 y la probabilidad de no inundación en 4 años será entonces: 102 4 P(no inundación en 4 años) =(0.821) =0.454 Ejemplo 5.10 Un proyecto se diseña con un caudal que tiene un período de retorno de 10 años. Cuál es la probabilidad de que este caudal se presente por primera vez al quinto año de acabado el proyecto? Solución: Este es un ejemplo donde puede aplicarse la distribución geométrica, así: La probabilidad de excedencia, p, para este caso es : p =1/Tr=1/10=0.1 Entonces: P(probabilidad de inundación 5 año)=(0.1)(1-0.1) =0.06561 5.6. DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS CONTINUAS La mayoría de las variables hidrológicas son variables aleatorias continuas. Enseguida se describen brevemente las distribuciones de probabilidades más usadas en análisis de frecuencia de estas variables. 5.6.1 La distribución Normal La distribución Normal es una distribución simétrica en forma de campana, conocida también como Campana de Gauss. Es fundamental en el dominio de la estadística y la probabilidad. Una razón es que el teorema del límite 103 central establece que para varias condiciones muy generales, la distribución de la suma de un gran número de variables aleatorias puede aproximarse a la Normal, sin importar a qué distribución pertenezcan ellas mismas. Muchos procesos físicos pueden conceptualizarse como la suma de procesos individuales. Por otra parte, muchos procesos de inferencia estadística se basan en suposiciones de que la variable aleatoria se distribuye normalmente. Es por ello que la Normal encuentre tantas aplicaciones en hidrología: en pruebas de hipótesis, intervalos de confianza, etc. Una variable aleatoria X se distribuye de acuerdo con una distribución de probabilidades Normal si su FDP está dada como: f X ( x) = − 1 σ x 2π ( x −µ x )2 2σ 2x e (5.42) E K Los parámetros de la distribución son dos: la media, x, y la desviación estándar x. La asimetría de la distribución es cero. Esta distribución tiene una forma de campana simétrica, como se muestra en la Figura 5.5, por lo tanto la media, la moda y la mediana son iguales. Si se hace la siguiente transformación: µ = (x − µ x ) / σ x E se obtiene como FDP y como función acumulada de la variable : fu (u) = 1 -u2 e 2 2π 1 Fu (u) = 2π ∞ ∫e 2 -w 2 -∞ 104 (5.43) dµ FIGURA 5.5 Distribución normal. La variable u es llamada variable estandarizada, tiene media cero y desviación estándar uno. Debido a que la variable normal estandarizada tiene todos sus parámetros conocidos, existen tablas para encontrar la función acumulada de esa variable. La tabla 5.1 es una de ellas. Aunque la simetría de la distribución la hace inaplicable para valores extremos, la distribución Normal describe el comportamiento probabilístico de los valores medios bastante bien. La distribución normal se usa para: - Aproximar la distribución de probabilidades de errores aleatorios . - Comparar distribuciones: las propiedades de una muestra de variables no normales pueden compararse con las de variables normales. - Muchos estadísticos pueden ser normalmente distribuidos, como, por ejemplo, la media de la mayoría de las variables hidrológicas. 105 106 5.6.1.1 Estimación de parámetros Solo se presentará en estas notas la estimación de parámetros por el método de los momentos, que fue desarrollado en 1902 por Karl Pearson. El consideró que un buen estimativo de los parámetros de una distribución de probabilidades es aquél para el cual los momentos de la función de densidad de probabilidades son iguales a los momentos correspondientes de la muestra. Los estimadores de los parámetros de la distribución normal por el método de los momentos son: 1 N ∑ xi N i =1 (5.44) N 1 = ∑ ( x i − µˆ )1 / 2 N (5.45) µˆ = σˆ = 5.6.1.2 Factor de frecuencia Para la distribución normal, el factor de frecuencia está dado como: K= x - µ̂ σ (5.46) que es la misma variable reducida, definida por la ecuación (5.41). La magnitud de la variable XT para un período de retorno dado T puede encontrarse, utilizando el factor de frecuencia, con el siguiente procedimiento: 1 1 F u (K ) = 1 − ⇒ K = Fu−1 (1 − ) 1. T T 107 2. 3. 1 Usando el valor calculado de 1 − en la tabla 5.1, se lee el valor T -1 de x en la primera columna, que corresponde a K o F E (1- 1/T) Se calcula el valor buscado como: X T = µˆ + Kσˆ Ejemplo 5.11 Se tiene una estación con 30 años de datos de caudales medios anuales con 3 3 media de 117 m /s y desviación estándar de 94 m /s. ¿Si los datos se ajustan a una distribución Normal, cuál es el caudal correspondiente a un período de retorno, Tr, de 100 años?. Solución: En este caso se puede escribir: Fu(K) = 1 - 1/Tr = 0.99 -1 K = Fu (0.99) Con el valor de 0.99 en la tabla 5.1, se obtiene: K = 2.326 El valor asociado a Tr=100 se calcula como: 3 Q100 = µˆ Q + σˆ Q K = 117 + 94 x 2.326 = 335.6 m /s 5.6.1.3 Intervalos de confianza Cuando se desea hallar cualquier estadístico, por ejemplo la media, generalmente se dispone de una muestra de tamaño limitado. Se quiere saber qué tan cercano puede estar ese estimado al verdadero valor desconocido de la población. En otras palabras, se quisiera conocer con una cierta certeza (probabilidad) la franja de valores entre los cuales se encontraría el verdadero valor de la población. Si esa franja es grande, habrá mucha incertidumbre en el valor estimado de la 108 media, y si es pequeña, habrá, por el contrario, mucha confianza en ese valor estimado. Con ese fin se utilizan los llamados intervalos de confianza. E E Supóngase, por ejemplo, que se desea estimar la media de la población, . Asúmase que 1 y 2 son dos estadísticos (funciones de la muestra aleatoria) tales que: 1 < 2 y P( 1< < 2) = . Entonces [ 1 , 2] es llamado el intervalo de confianza para la media µ., es llamado el nivel de confianza (nivel de probabilidad) y 1 y 2 son llamados los límites de confianza inferior y superior, respectivamente. Esta definición puede extenderse al intervalo de estimación de un parámetro cualquiera o a una función del parámetro. E E E E E E E E E Se debe tener en cuenta que los intervalos de confianza y los límites de confianza son realmente variables aleatorias, ya que son funciones del tamaño de la muestra y de estimadores a su vez, función de muestras aleatorias. Como los tamaños de la muestra varían, los intervalos de confianza cambian de una muestra a otra. Mientras más estrecho es el intervalo de confianza, mejor es el procedimiento de estimación. Para el valor estimado asociado a un período de retorno cualquiera, los intervalos de confianza se calculan usando el error estándar, ST, el cual es una medida de la desviación estándar de la magnitud de un evento calculado a partir de una muestra respecto a la verdadera magnitud del evento. Se presentarán para todas las distribuciones, los intervalos de confianza para los diferentes cuantiles de la población. Para la distribución Normal, los límites de confianza para el verdadero valor de un cuantil asociado con un periodo de retorno T son: XT ± u1-α ST (5.47) en donde es el nivel de probabilidad, u1-α es el cuantil de la distribución Normal estandarizada para una probabilidad acumulada de 1-α y ST es el error estándar. 109 Cada distribución tiene expresiones para hallar el error estándar, por ejemplo, el de la distribución Normal es: ST = σˆ x N (1 + K / 2 )2 1 2 (5.48) Ejemplo 5.12 3 Los caudales medios anuales de un río con media 1.5 m /s y desviación 3 estandar de 0.6 m /s se distribuyen normalmente. ¿Cuál es la probabilidad de 3 que se produzca un caudal medio igual o menor a 1 m /s, en cualquier año?. Solución: Se tiene entonces que: P( X ≤ 1) = P(µ ≤ 1 − µˆ ) σˆ Reemplazando los valores: P(µ ≤ 1 − 1.5 ) = P(µ ≤ −0.83) 0.6 EU -0.83). Considerando la simetría de la En la tabla 5.1, se encuentra P( distribución normal (ver Figura 5.6 en donde A = B), se tiene: P(EU -0.83) = 1 - P(EU 0.83) = 1 - 0.797 = 0.203 110 FIGURA 5.6 Simetría de la distribución normal. Ejemplo 5.13 La escorrentía anual de una pequeña cuenca se distribuye normalmente con media de 356 mm y desviación estándar de 76.2 mm. Determinar la probabilidad de que la escorrentía anual sea menor que 280 mm en todos los tres siguientes años. Solución: P ≤ 280) = P(µ ≤ 280 − 356 ) = P(µ ≤ −0.997) 76.2 y: P(µ ≤ −0.997 ) = 1 − 0.8413 = 0.1587 La probabilidad de que sea menor en tres años consecutivos es: 0,1587 x 0,1587 x 0,1587 = 0,00399 5.6.2 Distribución Log Normal Consideremos un cálculo hipotético de la escorrentía en una cuenca. La escorrentía es el producto de varios factores aleatorios, como lluvia, área 111 contribuyente, pérdidas, coeficiente de evaporación, etc. En general, cuando la variable aleatoria X es el producto de un gran número de otras variables aleatorias, la distribución de los logaritmos de X puede aproximarse a la Normal, ya que los logaritmos de X son la suma de los logaritmos de los factores contribuyentes. Si se tiene una variable aleatoria X y ln X = Y se ajusta a una distribución Normal, se dice que la variable aleatoria X es lognormalmente distribuida. La función de densidad de esta distribución, si se asume que Y=loga(X), donde a es la base del logaritmo, es: ( 1 y - µy 1 f X (x) = exp 2 σ y x 2π 2 σ y ) 2 E es el parámetro de escala y K es el parámetro de forma. y y La forma de la distribución lognormal se muestra en la Figura 5.7. FIGURA 5.7 Distribución lognormal. 112 (5.49) Se ha demostrado que la distribución lognormal puede aplicarse en un amplio número de eventos hidrológicos, especialmente a aquellos casos en los cuales la variable tiene un límite inferior, la distribución empírica no es simétrica y los factores que causan los eventos son independientes y multiplicativos. Si la variable aleatoria X tiene un límite inferior xo diferente de cero, y la variable Z = X -xo sigue una distribución lognormal con dos parámetros, entonces X se ajusta a una distribución lognormal con tres parámetros. La función de densidad de esta distribución es: [ 1 ln (X - xo ) - µ y 1 f X (x) = exp 2π (X - xo )σ y σy 2 ] 2 (5.50) E K donde los parámetros y, y y xo son llamados los parámetros de escala, forma y localización respectivamente. La distribución lognormal con tres parámetros puede aplicarse a eventos con valores positivos o negativos, siempre que x ≥ x0; mientras que la lognormal con dos parámetros solo puede aplicarse a eventos con valores positivos. 5.6.2.1 Estimación de parámetros Para la distribución lognormal de dos parámetros, usando el método de momentos, los parámetros se pueden estimar como: µˆ Y = 1 N ∑ log a ( X i ) N i =1 1 N 2 σˆ Y = ∑ [log a ( X i ) − µˆ Y ] N i =1 (5.51) 12 (5.52) Para la distribución lognormal de tres parámetros, xo debe también estimarse. Una manera de estimar xo requiere que el coeficiente de asimetría sea 113 K K E E positivo. En este método, el segundo momento de Z = X - xo no depende de x0, esto es, ²z = ²x y z = x - x0, entonces el límite inferior xo se puede expresar como: Cv x (5.53) x0 = µx 1 Cv z Donde: Cv x = σx µx (5.54) σ Cv z = z µz Donde: (1- w ) 2/3 Cv z = [ ( w 1 w = - γˆ x + γˆ 2x + 4 2 en donde 1/3 ) ]; (5.55) γx > 0 1/2 ? es el coeficiente de asimetría de x. x Los parámetros de la distribución lognormal de dos parámetros también pueden estimarse con base en las relaciones entre los parámetros de la variable transformada µY y σY y los parámetros de la variable original µX y σX, dadas como: 1 2 µ Y = log a (µ X ) − σ Y (5.56) 2 1 2 σ 2 σ Y = log a 1 + X 2 µ X 114 (5.57) En este caso, se estiman µX y σX con los datos originales, y con las ecuaciones anteriores se estiman µY y σY los parámetros de la distribución lognormal. Ejemplo 5.14 Los caudales medios de un río en una estación hidrométrica han sido modelados con las siguientes distribuciones: 3 3 a) Normal con parámetros = 256.7 m /s y = 191 m /s b) Lognormal con parámetros y = 5.228 y y = 0.84 E E K K 3 Calcular la probabilidad de que el caudal medio esté entre 300 y 400 m /s Solución: a) Si se usa la Normal se tiene: P(3006Q6400)= FX(400)-FX(300) E Si se usa la variable estandarizada , se tiene entonces que: 400 - x 300 − x − Fu P(300UQU400)= F 1x 1x = Fu (u400) - Fu (u300) donde: E u300 = (300 - 256.7)/191 = 0.2267 con este valor, se va a la tabla 5.1 y se encuentra que Fx (0.2267) = 0.5871 y u400 = (400 - 256.7)/191 = 0.75 de la tabla 5.1, se tiene: Fx (0.75) = 0.7734 lo que implica que: 115 P(300UQU400)=0.7734 - 0.5871=0.1863 b) Si se usa la distribución lognormal: P(300UQU400)=FY(ln(400))-FY(ln(300)) ln(400 ) − µ Y ln (300) − µ Y − Fu = Fu σY σY y: ln(300) = 5.704 ln(400) = 5.99 se tiene entonces que: F (E5.99 ) = (5.99 - 5.228)/0.84 = 0.91 de la tabla 5.1 se tiene que F (0.91) = 0.8186 F (E5.704 )= (5.704 - 5.228)/0.84 = 0.564 de la tabla 5.1 se obtiene F(0.564) = 0.7123 se encuentra finalmente: E E E P(300 U Q U 400) = 0.8186 - 0.7123 = 0.106 K con las ecuaciones 5.56 y 5.57. Este ejemplo se puede resolver también calculando E yK Y Y a partir de E x y x 5.6.2.2 Factor de frecuencia Se utiliza el mismo factor de frecuencia que en la distribución Normal, excepto que este se aplica a los logaritmos de la variable y la ecuación, para un cuantil cualquiera XT queda: ln (XT ) = µ y + K σ y 1 en donde K = Fu −1 1 − T 116 (5.58) Si se quiere trabajar con la variable no transformada al campo logarítmico se tiene que: 2 1/2 ln (1 + Cv ) exp K T (ln (1 + Cv 2 )) - - 1 2 K= Cv (5.59) 1 -1 K T = Fu 1 - Tr (5.60) donde: 1 −1 Fu 1 − es el inverso de la función de distribución Normal estandarizada T acumulada y Cv es el coeficiente de variación 5.6.2.3 Intervalos de confianza En el campo transformado, los límites están dados por los de la distribución Normal como: ln (XT ) ± u1-α 2 ST (5.61) en donde: ST = δ σY N (5.62) y 1/2 2 δ = 1 + K T 2 117 (5.63) Ejemplo 5.15 Se tiene un río con caudales máximos anuales lognormalmente distribuidos, 3 3 con µ̂ x =15 m /s y σ̂ x =5 m /s; se da también µ̂Y =2.6554 y σ̂ Y =0.3246. Encontrar el caudal para un período de retorno de 100 años. ¿Si se tiene un período de retorno de 30 años de registro, cuáles son los límites de confianza para un de 10%?. Solución: El coeficiente de variación se calcula como: σˆ 5 Cv̂ = x = = 0.33 µˆ x 15 Para hallar KT, se procede así: Fu (K T ) = 1 - 1 = 1- TI 1 = 0.99 100 De la tabla 5.1: K T = Fµ−1 (0.99) = 2.33 El valor de K se puede calcular usando la ecuación (5.59) como: 2 1/2 ln (1 + 0. 33 ) exp 2.33 (ln (1 + 0. 332 )) - - 1 2 K= 0.333 K= 3.028 El valor asociado a un período de retorno de 100 años será: 3 XT = 15 + 5 x 3.028 = 30.14 m /s 118 Los límites de confianza se hallan así en el campo transformado: ln (XT ) ± u1-α 2 ST Se calcula primero δ con la ecuación (5.63) y luego ST con la ecuación (5.60), el resultado es: 1/2 2 δ = 1 + 2.33 = 1.93 2 0.3246 = 0.11 ST = 1.93 * 30 De la tabla 5.1, se lee: E =E 1- 0.95 =1.64 Por lo tanto: ln (30.28) ± 1.64 * 0.11 = 3.41 ± 0.1875 = [3.2225, 3.5975] 3.2225 3.5975 = [e ,e ] = [25.091, 36.5] 5.6.3 Distribución Gumbel Una familia importante de distribuciones usadas en el análisis de frecuencia hidrológico es la distribución general de valores extremos, la cual ha sido ampliamente utilizada para representar el comportamiento de crecientes y sequías. A partir de la distribución general de valores extremos, se pueden derivar tres tipos de distribuciones: la tipo I, comúnmente conocida como Gumbel, la tipo II y la tipo III, llamada también Weibull. Ellas difieren entre sí por el valor del parámetro de forma. La expresión general de la función de densidad de probabilidades para la distribución extrema tipo I o Gumbel es: 119 f X (x) = x -β 1 x - β exp - exp α α α (5.64) En donde α y βson los parámetros de la distribución. La distribución Gumbel tiene la forma mostrada en la figura 5.8. 5.6.3.1 Estimación de parámetros Por el método de momentos, los estimadores de los parámetros son: αˆ = 6 σˆ π βˆ = µ - 0.5772αˆ donde (5.65) (5.66) E y K son la media y la desviación estándar estimadas con la muestra. 5.6.3.2 Factor de frecuencia El factor de frecuencia para la distribución Gumbel es: K=- 6 {0.577 + ln[lnTr - ln(Tr - 1)]} π (5.67) donde TI es el período de retorno. 5.6.3.3 Intervalos de confianza Los límites de confianza por el método de momentos para un nivel de probabilidad son: X T ± u 1- α 2 S T 120 (5.68) FIGURA 5.8 Distribución Gumbel ST = δ σ N (5.69) δ = [1 + 1.1396K + 1.1 K 2 ] 1/2 (5.70) K es el factor de frecuencia de la distribución, dado por la ecuación 5.67. 5.6.4 Distribución Gamma Esta distribución ha sido una de las más usadas en hidrología. Como la mayoría de las variables hidrológicas son sesgadas, la función Gamma se utiliza para ajustar la distribución de frecuencia de variables tales como crecientes máximas anuales, caudales mínimos, volúmenes de flujo anuales y estacionales, valores de precipitaciones extremas y volúmenes de lluvia de corta duración. La función de distribución Gamma tiene dos o tres parámetros. La última función es llamada también Distribución Pearson tipo III. La distribución Gamma está relacionada con otras distribuciones muy conocidas como las distribuciones Chi-cuadrado y la exponencial negativa, que son casos particulares de la distribución Gamma. 121 La distribución Gamma de dos parámetros tiene una función de densidad de probabilidades de la forma: β -1 1 x - αx f X (x) = e | α | Γ (β ) α (5.71) Donde: U x < para > 0 < x U para < 0 y : son los parámetros de escala y forma, respectivamente, y "(:) es la 0 - función Gamma completa. : El parámetro siempre es mayor que cero, mientras que puede ser positivo o negativo. La función Gamma completa está dada por: ∞ Γ(β ) = ∫ zβ-1 e-z dz (5.72) 0 La distribución Gamma de tres parámetros tiene la siguiente función de densidad de probabilidades: β -1 1 x - xo x - xo f X (x) = exp | α | Γ (β ) α α U >0 U <0 y : son los parámetros de escala y forma, respectivamente, y x (5.73) Donde: para xo x < - < x xo para parámetro de localización. 122 o es el La Figura 5.9 muestra formas de la función de densidad de probabilidades Gamma para > 0. 5.6.4.1 Estimación de parámetros Para la distribución Gamma de dos parámetros, usando el método de los momentos, se tienen las siguientes expresiones (para sus parámetros). µ = αβ (5.74) σ 2 = α 2β (5.75) FIGURA 5.9 Distribución Gamma.( Varas, Bois, 1998) Los estimadores de los parámetros, por el método de momentos, son los siguientes: 1 βˆ = 2 Ĉ v (5.76) µˆ αˆ = βˆ 123 µ , σ y C v son la media, desviación estándar y coeficiente de variación calculados con la muestra, respectivamente. Para la distribución Gamma con tres parámetros o Pearson tipo III, los parámetros, por el método de momentos, pueden estimarse por: 2 βˆ = γˆ αˆ = σˆ 2 (5.77) γˆ 2 (5.78) ˆ X̂0 = µˆ − αˆ β γ es el coeficiente de asimetría calculado usando la muestra. (5.79) 5.6.4.2 Factor de frecuencia Si se define: 1 K T = Fu 1 - Tr el factor de frecuencia K tiene la siguiente forma: 2 (5.80) 3 4 γˆ 1 γˆ γˆ γˆ 2 K ≈ K T + (K t − 1) + (K T 3 − 6K T ) − (K T − 1) + K T 6 3 6 6 6 (5.81) 2 124 Para la distribución Pearson tipo III o Gamma de 3 parámetros, existen tablas, como la 5.2, que dan el factor de frecuencia en función del coeficiente de asimetría calculado con la muestra. 5.6.4.3 Intervalos de confianza Si se tiene que: X T ± u 1− α 2 S T σ ST = δ N (5.82) <=<(?,T ) y está tabulado para la Gamma de dos parámetros y para la Pearson tipo III. La tabla 5.3 da valores de <, para hallar el intervalo de r confianza de la distribución Pearson tipo III. 5.6.5 Distribución log Pearson Tipo III Si los logaritmos de la variable aleatoria X se ajustan a una distribución Pearson Tipo III, se dice que la variable aleatoria X se ajusta a una distribución Log Pearson Tipo III. Esta distribución es ampliamente usada en el mundo para el análisis de frecuencia de caudales máximos. Su función de densidad está dada por: β -1 1 ln(x) - y o - ln (x)- y o f x (x) = e α x α Γ (β ) α donde es el parámetro de escala, parámetro de localización. (5.83) : es el parámetro de forma y y 125 o el TABLA 5.2. VALORES DE KT PARA LA DISTRIBUCIÓN PEARSON III (ASIMETRÍA POSITIVA) Coeficiente Probabilidad de Excedencia de Asimetría 0.500 0.200 0.100 0.040 0.020 0.010 0.005 3.0 -0.396 0.420 1.180 2.278 3.152 4.051 4.970 2.9 -0.390 0.440 1.195 2.277 3.134 4.013 4.909 2.8 -0.384 0.460 1.210 2.275 3.114 3.973 4.847 2.7 -0.376 0.479 1.224 2.272 3.093 3.932 4.783 2.6 -0.368 0.499 1.238 2.267 3.071 3.889 4.718 2.5 -0.360 0.518 1.250 2.262 3.048 3.845 4.652 2.4 -0.351 0.537 1.262 2.256 3.023 3.800 4.584 2.3 -0.341 0.555 1.274 2.248 2.997 3.753 4.515 2.2 -0.330 0.574 1.284 2.240 2.970 3.705 4.444 2.1 -0.319 0.592 1.294 2.230 2.942 3.656 4.372 2.0 -0.307 0.609 1.302 2.219 2.912 3.605 4.298 1.9 -0.294 0.627 1.310 2.207 2.881 3.553 4.223 1.8 -0.282 0.643 1.318 2.193 2.848 3.499 4.147 1.7 -0.268 0.660 1.324 2.179 2.815 3.444 4.069 1.6 -0.254 0.675 1.329 2.163 2.780 3.388 3.990 1.5 -0.240 0.690 1.333 2.146 2.743 3.330 3.910 1.4 -0.225 0.705 1.337 2.128 2.706 3.271 3.828 1.3 -0.210 0.719 1.339 2.108 2.666 3.211 3.745 1.2 -0.195 0.732 1.340 2.087 2.626 3.149 3.661 1.1 -0.180 0.745 1.341 2.066 2.585 3.087 3.575 1.0 -0.164 0.758 1.340 2.043 2.542 3.022 3.489 0.9 -0.148 0.769 1.339 2.018 2.498 2.957 3.401 0.8 -0.132 0.780 1.336 1.993 2.453 2.891 3.312 0.7 -0.116 0.790 1.333 1.967 2.407 2.824 3.223 0.6 -0.099 0.800 1.328 1.939 2.359 2.755 3.132 0.5 -0.083 0.808 1.323 1.910 2.311 2.686 3.041 0.4 -0.066 0.816 1.317 1.880 2.261 2.615 2.949 0.3 -0.050 0.824 1.309 1.849 2.211 2.544 2.856 0.2 -0.033 0.830 1.301 1.818 2.159 2.472 2.763 0.1 -0.017 0.836 1.292 1.785 2.107 2.400 2.670 0.0 0.000 0.842 1.282 1.751 2.054 2.326 2.576 126 FIGURA 5.10 Distribución Log-Pearson Tipo III. (Salas, 1992). 5.6.5.1 Estimación de Parámetros Los estimadores de los parámetros por el método de los momentos son: 2 βˆ = γˆ y αˆ = σˆ y 2 γˆ y (5.84) 2 ŷ 0 = µˆ y − αˆ βˆ Donde µˆ y , σˆ y y γˆ son la media, desviación estándar y coeficiente de asimetría calculados usando los logaritmos de los datos, respectivamente. 5.6.5.2 Factor de frecuencia Si se cumple que Y= ln X, se tiene que: 127 YT = ln XT = µˆ y + K σˆ y (5.85) En donde µY y σy son la media y desviación estándar de los logaritmos de X, y K se obtiene de la tabla 5.2. TABLA 5.3 VALORES DE TIPO III ? 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 Tr=2 1.0801 1.0808 1.0830 1.0866 1.0913 1.0987 1.1073 1.1179 1.1304 1.1449 1.1614 1.1799 1.2003 1.2223 1.2157 1.2701 1.2952 1.3204 1.3452 1.3690 1.3913 < PARA LA DISTRIBUCION PEARSON Tr=5 1.1698 1.2006 1.2309 1.2609 1.2905 1.3199 1.3492 1.3785 1.4082 1.4385 1.4699 1.5030 1.5382 1.5764 1.6181 1.6643 1.7157 1.7732 1.8374 1.9091 1.9888 Tr=10 1.3748 1.4367 1.4989 1.5610 1.6227 1.6838 1.7441 1.8032 1.8609 1.9170 1.9714 2.0240 2.0747 2.1237 2.1711 2.2173 2.2627 2.3081 2.3541 2.4018 2.4525 Tr=20 1.6845 1.7810 1.8815 1.9852 2.0915 2.1998 2.3094 2.4198 2.5303 2.6403 2.7492 2.8564 2.9613 3.0631 3.1615 3.2557 3.3455 3.4303 3.5100 3.5844 3.6536 5.6.5.3 Intervalos de confianza Se utiliza la tabla 5.3 para hallar valores del parámetro 128 Tr=50 2.1988 2.3425 2.4986 2.6656 2.8423 3.0277 3.2209 3.1208 3.6266 3.8374 4.0522 4.2699 4.4996 4.7100 4.9301 5.1486 5.3644 5.5761 5.7827 5.9829 6.1755 Tr=100 2.6363 2.8168 3.0175 3.2365 3.4724 3.7238 3.9895 4.2684 4.5595 4.8618 5.1741 5.4952 5.8240 6.1592 6.4992 6.8427 7.1881 7.5339 7.8783 8.2196 8.5562 < y se cumple que: ST = δ σˆ y N (5.86) Los límite de confianza se pueden expresar como: ln X T ± µ 1− α / 2S T (5.87) 5.7 ANÁLISIS DE FRECUENCIA El análisis de frecuencia puede hacerse de dos maneras: usando los llamados factores de frecuencia o hallando la distribución empírica de los datos muestrales, por el método de "Plotting position" o posición de graficación. Como regla general, el análisis de frecuencia no debe realizarse para períodos cortos, menores de 10 años de registros. A continuación se describe brevemente los dos procedimientos propuestos para realizar el análisis de frecuencia. 5.7.1 Posición de graficación o"Plotting Position" La posición de graficación o” plotting posittion" trabaja con la probabilidad de excedencia asignada a cada valor de la muestra. Para determinar ésta, se han propuesto numerosos métodos empíricos. Si n es el número total de valores y m es el rango de un valor en una lista ordenada de mayor a menor (m = 1 para el valor máximo y m=n para el menor valor), la probabilidad de excedencia se puede obtener por medio de las siguientes expresiones: California: P= m n 129 (5.88) Weibull: m n +1 (5.89) 2m -1 2n (5.90) P= Hazen: P= La expresión acumulada de probabilidades más usada es la de Weibull. Con las anteriores ecuaciones, se halla la que se conoce como distribución empírica de una muestra. Luego se puede hacer un análisis para ajustar a la distribución empírica una de las distribuciones teóricas vistas anteriormente. La distribución acumulada de una variable puede ser representada gráficamente en un papel de probabilidad diseñado para la distribución. En este papel, las ordenadas representan el valor de x en una cierta escala y las abscisas representan la probabilidad de P(X >x) o P(X< x), el período de retorno o la variable reducida. Las escalas de las ordenadas y las abcisas son diseñadas de tal manera que cuando una muestra es de una población con esa distribución, la gráfica debe ajustarse a una línea recta. El propósito de este papel es "linealizar" las relaciones de probabilidad para que los datos puedan ser fácilmente dibujados y usados en extrapolación o propósitos de comparación. Se puede observar en las páginas siguientes los papeles de probabilidad correspondientes a las distribuciones Gumbel y Log-Normal. 5.7.2 Factores de frecuencia Ven te Chow propuso que toda muestra se puede ajustar a una expresión como la siguiente: X = µˆ + K σˆ (5.91) útil para el análisis de frecuencia hidrológico, donde K es el factor de frecuencia, µ es la media estimada y σ es la desviación estándar estimada. Cada distribución tiene su factor de frecuencia como se vio anteriormente. 130 131 132 5.8 BONDAD DE PROBABILIDADES AJUSTE DE UNA DISTRIBUCION DE En los numerales anteriores, se ha descrito el uso de varias distribuciones de probabilidad para estimar eventos con períodos de retorno mayores que los de los eventos históricos. Surge entonces el interrogante de cuál de estas distribuciones se debe utilizar para una muestra particular. No hay un acuerdo entre los hidrólogos acerca de cuál de las distribuciones debe usarse. Las pruebas para comprobar la bondad del ajuste son necesarias, pero no son suficientes para aceptar una distribución. Tal vez las dos pruebas de bondad de ajuste más utilizadas en hidrología son la Chi - Cuadrada y la Smirnov - Kolmogorov.Con estas pruebas se escogería con la muestra, la distribución de probabilidades que representa el comportamiento probabilístico de la población. Una prueba adicional puede hacerse calculando la suma de los cuadrados de las diferencias entre los valores observados y los calculados. Aunque los procedimientos estadísticos no pueden por sí solos determinar la mejor distribución de frecuencia, si pueden suministrar argumentos para escoger la distribución más adecuada. Por ejemplo, las distribuciones Pearson tipo III y Log-Pearson tipo III requieren la estimación del coeficiente de asimetría de datos muestrales. Esto puede ser una razón suficiente para preferir cualquier otra distribución, ya que este parámetro tiene un comportamiento muy sesgado, por lo cual se necesitaría una gran cantidad de registros para tener un estimado más o menos confiable, y dichos registros no se consiguen fácilmente en nuestro medio. Por otra parte, las distribuciones de dos parámetros tienen un valor fijo o ignoran la asimetría de la población, lo cual tampoco es conveniente. En resumen, no hay un procedimiento único para escoger la mejor distribución. Las pruebas estadísticas ayudan; el ajuste gráfico también puede contribuir; en definitiva, prima el juicio de quien esté haciendo el análisis. 133 5.8.1 Prueba Smirnov - Kolmogorov El estadístico Smirnov - Kolmogorov, D, considera la máxima desviación de la función de distribución de probabilidades empírica de la muestra, FE(x), de la función de distribución de probabilidades teórica, escogida , Fx (x), tal que: Dn = Max | FE(x) - Fx (x) | (5.92) La prueba requiere que el valor Dn calculado con la expresión anterior sea menor que el valor tabulado Dn para el nivel de probabilidad requerido. Esta prueba es fácil de realizar y comprende las siguientes etapas: El estadístico Dn es la máxima diferencia entre la función de distribución acumulada empírica de la muestra y la función de distribución acumulada teórica escogida.Se fija el nivel de probabilidad. Valores como 0.05 y 0.01 son los más usuales. El valor crítico Da de la prueba debe ser obtenido de tablas como la tabla 5.4. Este estadístico es función de α y n. Si el valor calculado Dn es mayor que Da, la hipótesis de que la distribución teórica escogida se ajusta adecuadamente al comportamiento probabilístico de la población debe rechazarse, de otra manera, se acepta esta hipótesis. 5.8.2 Prueba Chi Cuadrado La prueba Chi-cauadrado se usa también para determinar el grado de ajuste de una distribución de probabilidades teórica a una distribución empírica. Supongase que en una muestra se tengan una serie de posibles eventos E1, E2, ....Ek que ocurren con frecuencias observadas de O1, O2, .....Ok. Si se tiene una distribución teórica de probabilidades se espera que esos eventos ocurran con frecuencias e1, e2,....ek 134 TABLA 5.4 VALORES DE Dn N 5 10 15 20 25 30 35 40 45 50 N 50 =0.20 0.45 0.32 0.27 0.23 0.21 0.19 0.18 0.17 0.16 0.15 1.07 N =0.10 =0.05 =0.01 1.22 N 1.36 N 1.63 N 0.51 0.37 0.30 0.26 0.24 0.22 0.20 0.19 0.18 0.17 0.56 0.41 0.34 0.29 0.27 0.24 0.23 0.21 0.20 0.19 0.67 0.49 0.40 0.36 0.32 0.29 0.27 0.25 0.24 0.23 Se está interesado en conocer como difieren las frecuencias observadas de las frecuencias esperadas (halladas con una distribución teórica de probabilidades). Una medida de la discrepancia entre frecuencias observadas 2 y calculadas está dada por el estadístico así: P k (O − e ) 2 χ2 = ∑ i i ei i =1 (5.93) donde: ∑ Oi = ∑ ei P 2 P Si =0, significa que las distribucion teórica y empírica ajustan 2 exactamente, mientras que si 0, ellas difieren. La distribución de la 2 variable se puede asimilar a una distribución Chi-cuadrado con (k-n-1) grados de libertad, donde k es el número de intervalos y n es el número de 2 parámetros de la distribución teórica. La función está tabulada en muchos textos de estadística.Supóngase que la hipótesis Ho es aceptar que una distribución empírica se ajusta a una distribución Normal. Si el valor P P 135 P 2 P 2 calculado de por la ecuación 5.89 es mayor que algún valor crítico de ,con niveles de significancia de 0.05 o 0.01 ( el nivel de confianza se define como 1- , siendo frecuentemente utilizados niveles de confianza del 95%), se puede decir que las frecuencias observadas difieren significativamente de las frecuencias esperadas y entonces la hipótesis Ho se rechaza (para esos niveles de significancia). Si ocurre lo contrario, entonces se acepta. Este procedimiento es llamado la prueba de hipótesis Chi- cuadrado. Ejemplo 5.16 Se tienen los valores de temperatura mensual de una ciudad, mostrados en la tabla 5.5 . Se supone que estas temperaturas se ajustan a una distribución Normal. Usando la prueba Smirnov-Kolmogorov, verificar la validez de esta hipótesis. Solución: La media de la muestra es 76.4°F y la desviación estándar es 3.1 °F. Se fijan dos hipótesis: una hipótesis Ho estipula que la variable X es normalmente distribuida con los valores de la media y desviación estándar calculados anteriormente y la otra hipótesis alternativa, Ha, es lo contrario de ésta. Se puede fijar un intervalo de 1 °F y se hace la tabla 5.6 donde FE(T) es la frecuencia acumulada de la muestra, fT (t) es la frecuencia, FE(t)N es la distribución de probabilidades acumulada empírica y FT(t) es la distribución de probabilidades acumulada Normal (se halla utilizando el concepto de variable reducida u y usando la tabla 5.1) El mayor valor Dn es 0.0758. El valor Da obtenido de la tabla 5.5 para un del 90% es igual a 0.1963, lo cual significa que la hipótesis Ho puede aceptarse. 136 TABLA 5.5 Temperaturas en F Año Junio Julio Agosto 1944 77 77 77 1945 72 76 76 1946 76 78 74 1947 74 74 83 1948 78 80 76 1949 75 79 74 1950 75 73 70 1951 73 78 78 1952 82 81 77 1953 79 80 78 1954 78 83 80 1955 69 80 79 1956 74 77 77 1957 75 76 74 1958 72 76 74 1959 72 75 76 137 TABLA 5.6 Distribuciones de probabilidades empírica y Normal para la temperatura. T fT(t) FE(t) FE(t)N FT(t) FE(t)N -FT(t) 68 0 0 0 0.0035 0.0045 69 1 1 0.0208 0.0084 0.0124 70 1 2 0.0417 0.0197 0.022 71 0 2 0.0417 0.0409 0.0008 72 3 5 0.1042 0.0778 0.0264 73 2 7 0.1458 0.1357 0.0101 74 7 14 0.2917 0.2206 0.0711 75 4 18 0.3750 0.3264 0.0486 76 7 25 0.5208 0.488 0.0328 77 6 31 0.6458 0.5753 0.0705 78 6 37 0.7708 0.6950 0.0758 79 3 40 0.83333 0.7995 0.0338 80 4 44 0.9167 0.8770 0.0397 81 1 45 0.9375 0.9306 0.0069 Ejemplo 5.17 Se tienen los caudales máximos instantáneos de la estación RP-3 en el Río Murrí, en el departamento de Antioquia. Se desea encontrar el caudal de un período de retorno de 50 años hallado con las distribuciones Gumbel, Lognormal de dos parámetros y Log Pearson tipo III. 138 3 Año Q m /s 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 3239.0 3431.7 4577.9 3612.0 4151.8 1949.0 2342.9 1345.0 1862.2 1652.8 4220.0 4958.4 2664.9 1392.7 Solución Distribución Gumbel Aplicando la ecuación de Ven Te Chow se tiene que: Q Tr = 50 = µˆ + Kσˆ y: 3 µˆ = 2957.2 m /s 3 σˆ = 1234 .58 m /s De la ecuación 5.67 se halla el factor de frecuencia K=2.5924 Se tiene entonces que: 3 QTr=50=6158 m /s 139 Aplicando la ecuación 5.68 y 5.69 para hallar el error estandar, ST se obtiene que: 3 ST=1111.458 m /s Para =0.05 se obtiene de la tabla 5.1 que T0.95=1.645 y aplicando la ecuación 5.70 para los intervalos de confianza se obtiene finalmente que: (4329.37 UQTr=50=6158U7986.07) Distribución Log-Normal Con los logaritmos de los valores de caudales máximos instantáneos se obtiene que: µˆ y = 7.903 σˆ y = 0.4504 Aplicando la ecuación 5.59 para hallar el factor de frecuencia K y utilizando la tabla 5.1 se halla: K=2.055 De la ecuación 5.58: ln QTr=50=8.8286 y sacando el antilogaritmo : 3 QTr=50=6827 m /s Con las ecuaciones 5.62 y 5.63 se obtiene un error estandar ST=0.2123 Para un =0.05 se obtiene de la tabla 5.1 T (4814.4UQTr=50=6827U9679.84) Distribución Pearson Tipo III 140 0.95 =1.64. Finalmente : Se tiene que: µˆ = 2957.2 σˆ = 1234.6 γˆ = 0.1702 De la tabla 5.2 se obtiene el valor del factor de frecuencia K: K=2.144 y aplicando la ecuación de Ven TE Chow: 3 QTr=50=5604 m /s Con la ecuación 5.82 y con la tabla 5.3 se obtiene un error estandar ST=809.05 y los intervalos de confianza para =0.05 son entonces: (4273UQTr=50=5604U6934.9) 141