Evaluation of Measurement Data Supplement 1 to the “Guide to the Expression of Uncertainty in Measurement” – GUM Propagation of Distributions using a Monte Carlo Method ALGUNOS DATOS • 1977-79 Cuestionario del BIPM sobre incertidumbres • 1980 Recomendación INC-1 • 1981 Establecimiento del WG3 sobre incertidumbres bajo el ISO TAG4: BIPM, IEC, IFCC, ISO, IUPAC, IUPAP, OIML • 1993 Guide to the expression of uncertainty in measurement - GUM • 1995 Reimpresión de la GUM con correcciones mínimas •1997 Establecimiento del Joint Committee for Guides in Metrology JCGM – Reunión de ILAC en 1998 Documentos en preparación — Una introducción a la “Guide to the expression of uncertainty in measurement” y documentos relacionados Conceptos y principios básicos. — Suplemento 1 a la GUM “Propagation of distributions using a Monte Carlo Method” . — Suplemento 2 a la GUM “Models with any number of output quantities” Documentos en preparación — Suplemento 3 a la GUM “Modelling”. — The role of measurement uncertainty in deciding conformance to specified requirements. — Applications of the least-squares method. Supplement 1 to the GUM Propagation of distributions using a Monte Carlo Method OBJETIVO : Superar algunas limitaciones de la GUM , por ejemplo cuando : *La linearidad no es aplicable • El Teorema del Límite Central no es aplicable . • La fórmula de Welch-Satterthwaite no es aplicable •El modelo matemático es complejo •Cuando se necesita un intervalo de confianza con probabilidad estipulada CAPITULO 3 : Términos y Definiciones 3.1 DISTRIBUCION DE PROBABILIDAD Funcion que da la probabilidad de que una variable aleatoria tome algun valor dado o pertenezca a un conunto dado de valores. Nota.- La probabilidad sobre todo el conjunto de valores es igual a 1 . Pueden tomar la forma de una Funcion de Distribución (DF) o de una Función de Densidad de Probabilidad (PDF) 3.2 Función de Distribución Función que da para cada valor ε la probabilidad de que la variable aleatoria X sea menor o igual que ε . 3.3 Función de Densidad de Probabilidad PDF Derivada, cuando existe, de la Función de Distribución. 3.4 Distribución Normal Distribución de probabilidad de una variable aleatoria continua X que tiene la función de densidad de probabilidad: 3.5 Distribución t Distribución de probabilidad de una variable aleatoria continua X que tiene la función de densidad de probabilidad: 3.6 Expectación Propiedad de una variable aleatoria que para una variable aleatoria continua X caracterizada por una PDF es dada por : 3.7 Varianza Propiedad de una variable aleatoria que para una variable aleatoria continua X caracterizada por una PDF es dada por : 3.8 Desviación Estándar Raiz cuadrada positiva de la varianza : 3.10 Covarianza Propiedad de un par de variables aleatorias, que para dos variables aleatorias continuas X1 y X2 caracterizadas por una PDF conjunta Donde Es dada por 3.11Matriz de Incertidumbre Matriz de dimension N x N conteniendo en su diagonal los cuadrados de las incertidumbres estándar asociados con los estiamdos de las componentes de una magnitud vectorial Ndimensional , y en las posiciones fuera de la diagonal van las covarianzas asociadas con los pares de estimados. 3.11Matriz de Incertidumbre 3.12 Intervalo de Cobertura Intervalo conteniendo el valor de una magnitud con una probabildad establecida, basada en la información disponible. 3.13 Probabilidad de Cobertura Probabilidad de que el valor de una magnitud esté contenida dentro de un intervalo de cobertura especificado. 3.14 Longitud de un intervalo de cobertura El mayor valor menos el menor valor de un intervalo de cobertura. 3.15 Intervalo de Cobertura probabilisticamente simetrico Intervalo de cobertura para una magnitud tal que la probabilidad de que la magnitud sea menor que el mas pequeño valor del intervalo es igual a la probabilidad de que la magnitud sea mayor que el mas grande valor del intervalo 3.16 Intervalo de Cobertura más pequeño Intervalo de Cobertura para una magnitud con la mas pequeña longitud de todos los intervalos de Cobertura para dicha magnitud teniendo la misma probabilidad de Cobertura . 3.17 Propagación de Distribuciones Metodo usado para determinar la distribución de probabilidad para una magnitud de salida a partir de las distribuciones de probabilidad asignadas a las magnitudes de entrada de las cuales depende la magnitud de salida . 3.18 Marco de Incertidumbre de la GUM=GUMF Aplicación de la ley de propagación de la incertidumbre y la caracterización de la magnitud de salida por una distribución gauseana o por una distribucion t desplazada y a escala a fin de obtener un intervalo de cobertura. 3.19 Método de Monte Carlo Método para la propagación de distribuciones efectuando un muestreo aleatorio en las distribuciones de probabilidad. 3.20 Tolerancia Numerica Semiancho del intervalo mas corto conteniendo todos los numeros que pueden expresarse correctamente con un numero especificado de digitos decimales significativos. 4. CONVENCIONES Y NOTACIONES 4.1 Un modelo matemático de medicion de una magnitud escalar puede expresarse como una relacion funcional f : Donde Y es una magnitud de salida y X representa las N magnitudes de entrada Cada Xi se considera como una variable aleatoria con posibles valores ε y expectacion xi . Y es una variable aleatoria con posibles valores y expectacion y . 4.2 En lugar de los simbolos f ; F para denotar una PDF y una DF respectivamente, se usan los simbolos g ; G . Se los indizara apropiadamnente para denotar la magnitud involucrada. El simbolo f es reservado para el modelo matemático. 4.4 La PDF para X se denota como Donde ε es una variable que describe los posibles valores de X . X es considerada como una variable aleatoria con expectación E(X) y varianza V(X) 4.4 En el caso vectorial la PDF para X se denota como Donde es un vector variable que describe los posibles valores de la magnitud vectorial X . X es considerada como un vector variable con expectación vectorial y matriz de covarianza 4.9 El término “Ley de propagacion de la Incertidumbre” Se aplica al uso de una serie de Taylor con aproximación de primer orden al modelo. Si se usa ordenes mayores se cualifica apropiadamemte el término. 4.13 Los números se expresan de modo que indican la cantidad de digitos significativos . 4.15 Abreviaturas usadas . 5. PRINCIPIOS BASICOS 5.1 ETAPAS PRINCIPALES DE LA EVALUACION DE INCERTIDUMBRE A) FORMULACION 1) Definir la magnitud de salida Y (el mensurando) 2) Determinar las magnitudes de entrada de las cuales depende Y . 3) Desarrollar un modelo que relacione Y con X . 4) Sobre la base del conocimiento disponible asignar PDFs a las Xi . Si es necesario asignar PDFs conjuntas a aquellas Xi que no son independientes b) PROPAGACION Propagar las PDF de las Xi a traves del modelo para obtener la PDF para Y . c) RESUMEN Usando la PDF obtener: 1)La expectación de Y, tomada como un estimado y del mensurando . 2)La desviación estándar de Y, tomada como la incertidumbre estándar u(y) asociada a y 3)Un intervalo de cobertura que contenga a Y con una especificada probabilidad (probabilidad de cobertura) . 5.1.3 Los pasos en la etapa de Formulacion son hechas por el metrologo posiblemente con el soporte tecnico necesario. En este Suplemento se dan las orientaciones detalladas para las etapas de Propagacion y Resumen . 5.2 PROPAGACION DE DISTRIBUCIONES En este Suplemento se presenta una aproximación considerada generalmente eficiente para determinar numericamente (aproximacion numérica) la función de distribución G para Y: Se basa en la aplicación del método de Monte Carlo (MCM) como una implementacion de la propagación de distribuciones. 5.2 OBTENIENDO LA INFORMACION DEL RESUMEN 5.3.2 El intervalo de cobertura para Y puede determinarse a partir de Sea α cualquier valor numerico entre 0 y (1-p) Donde p es la probabilidad de cobertura requerida. Los puntos extremos del intervalo de cobertura 100p% para Y son 5.3.3 Al elegir se logra que el intervalo de cobertura definido por los quantiles sea un intervalo de cobertura al 100p% probabilisticamente simetrico . 5.3.4 Un valor numerico de α diferente de puede ser mas apropiado si la PDF es asimetrica. El intervalo de cobertura al 100p% mas corto podria usarse en este caso. Este tiene la propiedad de que para una PDF unimodal (de un solo pico) este intervalo contiene a la moda, el valor mas probable de Y. Se obtiene por el valor numerico de α que satisface ,si es unimodal y en general por el valor numerico de α tal que 5.3.5 El intervalo de cobertura al 100p% probabilisticamente simetrico y el mas corto intervalo de cobertura al 100p% son identicos si la PDF es simetrica , tal como lo es para las PDFs gauseanas y tipo t corridas y a escala usadas en el GUMF . Asi cualquiera de estos intervalos puede usarse. 5.3. 6 La figura 1 muestra la funcion de Distribucion correspondiente a una PDF asimetrica. Las lineas verticales punteadas marcan los puntos extremos del intervalo de cobertura probabilisticamente simetrico al 100p% y las lineas horizontales punteadas marcan los correspondientes puntos de probabilidad 0,025 y 0,0975 . Las lineas continuas marcan los puntos extremos del intervalo de cobertura mas corto al 95% y los correspondientes puntos de probabilidad, que son 0,006 y 0,956. Ls longitudes de estos intervalos son 1,76 unidades y 1,69 unidades respectivamente. . 5.4 IMPLEMENTACION DE LA PROPAGACION DE LAS DISTRIBUCIONES Puede hacerse de varias maneras: MCM tal como se presenta aquí se considera una herramienta poderosa para obtener representaciones numericas de la distribucion de la magnitud de salida (mensurando) mas que una simulación en sí misma. En el contexto de la etapa de propagación de la incertidumbre , el probelma a resolver es deterministico, no habiendo proceso fisicos aleatorios a ser simulados. 5.4.2 y 5.4.3 Para modelos lineales o linearizados y magnitudes de entrada con PDFs gauseanas esta aproxiamcion produce resultados consistentes con el GUMF. Sin embargo en casos donde la condiciones del GUMF no son aplicables o se duda de su aplicabilidad , la aproximación de este Suplemento puede generalmente esperarse que produzca un valido enunciado de incertidumbre . Una de sus bondades es que no hace suposiciones para lograr cada vez mejores aproximaciones. 5.4.4 En la figura 2 se ilustra el caso de la propagacion de PDFs para las tres magnitudes independientes de entrada Xi a traves del modelo para producir la PDF de la magnitud de salida Esta figura puede compararse con la figura 3 para la Ley de propagacion de la Incertidumbre. Las entradas son gauseana, triangular y gauseana respectivamente . La salida es asimetrica como generalmente surge para modelo no lineales o asimetricos. . 5.4.5 En la práctica solo para los casos simples puede implementarse la propagación de las distribuciones sin hacer aproximaciones . El GUMF implementa un metodo aproximado y el MCM otro. Para un pequeño pero importante grupo de problemas el GUMF es exacto. El MCM nunca es exacto pero es mas valido que el GUMF para una gran cantidad de problemas 5.5 REPORTANDO LOS RESULTADOS 5.5.1 Tipicamente los siguientes resultados deberian reportarse al usar la propagacion de distribuciones: 5.5.2 y ; u(y) y los puntos extremos del intervalo de coberura al 100p% para Y deberian ser reportados con una cantidad de digitos deciamles tal que el digito decimal menos significativo este en la mismo posicion con respecto al decimal de u(y) (igual que en la GUM)- Usualmente uno o dos digitos son adecuados para representar u(y) . Si los resultados van a usarse en calculos adicionales debe considerarse si es que hay que retener digitos adicionales. 5.7 CONDICIONES PARA LA APLICACION VALIDA DEL GUMF PARA MODELOS LINEALES El número total de grados de libertad asociado a uc(y) se calcula con la ecuación de WelchSatterthwaite G.2b de la pág. 127 de la GUM : ν eff = u N ∑ i=1 4 (y) 4 ui (y) c ν i 5.7.2 Se puede determinar un intervalo de cobertura en terminos de la informacion del GUMF bajo las sgtes condiciones: 5.7.3 Cuando las condiciones de 5.7.2 son validas los resultados de la aplicación del GUMF se espera que sean validos para los modelos lineales . Estas condiciones se aplican en muchas circunstancias. 5.9 APROXIMACION DE MONTE CARLO A LA PROPAGACION Y RESUMEN DE SUS ETAPAS 5.9.1 El MCM es una herramienta poderosa para aproximar numericamente la representacion de G, la funcion de distribucion de Y . La idea central consiste en muestrear repetidamente en las PDFs de las X i y evaluar el modelo matematico f en cada caso. 5.9.2 Puesto que G tiene toda la informacion conocida de Y , cualquier propiedad de Y tal como la expectacion, la varianza, y los intervalos de cobertura pueden obtenerse usando G . La calidad de estos calculos puede mejorarse aumentando el numero de veces que se muestrea las PDFs . 5.9.4 Si los diversos yr con r= 1,2,..... M representan M valores obtenidos al muestrear independientemente las PDF para Y, entonces la expectacion E(Y) y la varianza V(Y) pueden aproximarse usando los valores yr Sea MyD el numero de yr que son no mayores que yD el cual es un número prescrito cualquiera. La probabilidad Pr(Y<= yD) se aproxima por MyD / M. Asi los yr proveen una funcion de aproximacion paso a paso (como un histograma) a la funcion de distribucion 5.9.5 Cada yr se obtiene muestreando aleatoriamente en cada PDF para los Xi y evaluando el modelo en los valores muestreados para obtener G. La salida primaria del MCM son los yr arreglados en orden esctrictamente creciente. 5.9.6 Pasos del Metodo de Monte Carlo Si M=10 4 la aproximacion para E(Y) seria del orden del 1% y si M= 10 6 seria del orden del 0,1 % para E(Y) . 5.9. 7 La efectividad del MCM depende de que se use un valor suficientemente grande para M. 5.10 Condiciones para la aplicacion valida del MCM 6. FUNCIONES DE DENSIDAD DE PROBABILIDAD PARA LAS MAGNITUDES DE ENTRADA 6.1.5 Informacion relevante para la asignacion de PDFs a los Xi se encuentra en la GUM. 6.1.6 Una guia detallada para la asignacion de los PDFs individuales o conjuntos esta mas alla del alcance de este Suplemento. Pude usarse tambien el Teorema de Bayes y el Principio de Maxima Entropia. 6.4.2 Distribucion Rectangular 6.4.4 Distribucion Trapezoidal 6.4.5 Distribucion Triangular 6.4.7 Distribucion Gauseana 6.4.9 Distribuciones t 6.4.9 Distribuciones t 6.4.9 Distribuciones t 6.4.9 Distribuciones t 6.4.9 Distribuciones t 6.4.9 Distribuciones t 6.4.9 Distribuciones t 7 . IMPLEMENTACION DEL METODO DE MONTE CARLO 7.2 Numero de corridas M 7.2.2 Se debe elegir un valor de M que sea suficientemente grande comparado con 1/(1-p). M debe ser al menos 104 veces mayor que dicho valor . Se espera que G provea una representacion razonablemente discreta de en las regiones cercanas a los extremos del intervalo de cobertura al 100p% para Y . 7.2.3 Como no hay garantia que un número especifico preasignado sea suficiente, puede usarse un proceso que seleccione M adaptativamente, es decir, conforme las corridas progresan. 7.2.3 MUESTREO DE LAS DISTRIBUCIONES DE PROBABILIDAD Al implementar el MCM se obtienen M vectores de las PDFs Para las N magnitudes de entrada Xi . Si es apropiado debe usarse las PDFs conjuntas El anexo C da las recomendaciones para realizar este muestreo para las distribuciones mas comunes. Ver tambien 6.4 7.4 EVALUACION DEL MODELO 7.4.1 Al evaluar el modelo para cada uno de los M vectores donde el r-esimo vector contiene con obtenido de la PDF para Xi , se calcula ios respectivos valores para Y: 7.5 REPRESENTACION DISCRETA DE LA FUNCION DE DISTRIBUCION PARA LA MGNITUD DE SALIDA 7.5.1 Se sigue el sgte. proceso: 7.5.2 Al usar los yr para formar un histograma se forma una distribucion de frecuencia que al ser normalizada para tener area 1 provee una buena aproximacion a la forma de la PDF buscada 7.6 ESTIMACION DE LA MAGNITUD DE SALIDA Y SU INCERTIDUMBRE ESTANDAR ASOCIADA El estimado de y es el promedio de los yr : La incertidumbre estandar es estimada como la desviación estandar de la distribución: 7.7 INTERVALO DE COBERTURA PARA LA MAGNITUD DE SALIDA 7.7.1 Se puede determinar un intervalo de cobertura pra Y a partir de la representacion discreta de G en una manera analoga a lo explicado en 5.3.2 . 7.7.2 Sea q=pM un entero. De otro modo tomar q como la parte entera de pM+1/2 . Entonces es un intervalo de cobertura al 100p% para Y donde para cualquier r= 1,2,...M-q y El intervalo de cobertura probabilisticamente simetrico al 100p% se obtiene tomando: r= (M-q)/2 si (M-q)/2 es un entero O la parte entera de (M-q)/2 +1/2. El mas corto intervalo de cobertura al 100p% se obtiene determinando r* tal que : EJEMPLO 7.8.3 Si el modelo es simple y las magnitudes de entrada son independientes el tiempo total de computación es tipicamente de unos pocos egundos para M=106 usando una PC a varios GHz . 7.9 PROCEDIMIENTO ADAPTATIVO DE MONTE CARLO Las corridas deberian hacerse hasta que los varios resultados de interes se hayan estabilizado en un sentido estadistico. Esto se considera logrando que el doble de la desviación estandar asociada sea menor que la tolerancia numerica (ver 7.9.2) asociada con la incertidumbre estandar u(y) . 7.9.2 Tolerancia Numerica asociada con un Dato Numerico. Sea ndig el numero de digitos decimales significativos considerados con pleno sentido en un valor nuemrico z . La tolerancia numerica δ asociada con z se da como sigue: 7.9.3 OBJETIVO DEL PROCEDIMIENTO ADAPTATIVO El objetivo es suminstrar: a)Un estimado y de Y b)Una incertidumbre estandar asociada u(y) c)Los puntos extremos ylow yhigh de un intervalo de cobertura para Y correspondiente a una probabilidad de cobertura estipulada tal que cada uno de estos 4 valores pueda esperarse que cumpla con la tolerancia numerica requerida. 7.9.4 PROCEDIMIENTO ADAPTATIVO 9.- EJEMPLOS 9.2 MODELO ADITIVO Este ejemplo considera el modelo aditivo como un caso especial del modelo lineal generico considerado en la GUM, para 3 diferentes conjuntos de PDFs asignados a las Xi consideradas independientes. Las Xi y por consiguiente Y tienen dimension 1 . Para el primer grupo cada es una PDF gauseana (con Xi teniendo expectacion cero y desviacion estandar 1 ). Para el segundo grupo cada es una PDF rectangular (con Xi teniendo expectacion cero y desviacion estandar 1 ). El tercer grupo es igual al segundo excepto que la PDF para tiene una desviación estandar de 10 . 9.2.2 Xi Normalmente Distribuidas 9.2.2.1 Asigne una PDF gauseana a cada Xi . Los mejores estimados de los Xi son xi = 0 para i= 1,2,3,4 con incertidumbres asociadas u(xi)=1 9.2.2.2 Los resultados obtenidos se resumen en las primeras cinco columnas de la Tabla 2 con los resultados reportados con 3 dígitos significativos para facilitar su comparación. 9.2.2.3 La ley de propagacion de la Incertidumbre GUM da el estimado y=0,0 de Y , con una incertidumbre asociada u(y)= 2,0 usando una tolerancia numerica de dos digitos decimales significativos para u(y) (δ=0,05) . El intervalo de cobertura probabilisticamente simetrico para Y ,basado en un factor de cobertura de 1,96 es 9.2.2.4 La aplicacion del MCM con M=105 coridas da y=0,0 con u(y)= 2,0 y con un intervalo de cobertura al 95% probabilisticamente simetrico para Y de Se hicieron dos aplicacione adicionales del MCM con M= 106 corridas las cuales concordaron con estos resultados dentro de la tolerancia numerica usada. Estas dos aplicaciones adicionales (con diferentes muestreos aleatorios en las PDFs) se hicieron para demostar la variacion en los resultados obtenidos. El cuarto y el quinto valor de M (1,23 x 106 y 1,02 x 106 )son los numeros de las corridas para las dos aplicaciones adaptativas del MCM con el uso de una tolerancia numerica δ /5 . La fig. 6 muestra la PDF gauseana para Y resultante de la GUMF. Muestra tambien una de las aproximaciones (histograma) de M=106 valores del modelo para Y constituyendo la representacion discreta de G. Los puntos extremos del intervalo de cobertura al 95% probabilisticamente simetrico suministrados por ambos metodos se muestran en lineas verticales. La PDF y la aproximacion son visualmente indistinguibles asi como los respectivos intervalos de cobertura. Esto se esperaba para un numero suficientemente grande de M ya que todas las condiciones para la aplicacion del GUMF se cumplen. Como se espera para una PDF simetrica el intervalo toma su longitud mas corta cuando se localiza simetricamente con respceto a su expectacion. 9.2.3 Xi Rectangularmente Distribuidas 9.2.3.1 Asigne una PDF rectangular a cada Xi de modo que cada Xi tenga una expectacion de cero y una desviacion estandar de 1. 9.2.3.2 Los resultados obtenidos se resumen en las primeras cinco columnas de la Tabla 3. La solucion analitica para los extremos del intervalo de cobertura al 95% probabilisticamente simetrico se obtienen como se describe en el anexo E : La fig. 8 muestra la contraparte de la figura 6 . Puede verse algunas modesta diferencias entre las aproximaciones para las PDFs . El GUMF provee exactamente la misma PDF para Y cuando las Xi son gauseanas o rectangulares , ya que las expectaciones de estas magnitudes son identicas asi como sus desviaciones estandar . La PDF del MCM toma valores menores que los del GUMF en la vecindad de la expectación y en menor intensidad hacia las colas . Toma valores ligeramente mayores en los flancos. Los extremos de los intervalos de cobertura suministrados son otra vez visualmente indistinguibles 9.2.3.4 El intervalo de cobertura al 95% probabilisticamente simetrico determinado en el GUMF es en este caso ligeramente mas conservador que el obtenido analiticamente. 9.2.4 Xi Rectangularmente Distribuidas con diferentes anchos 9.2.4.1 Considere el ejemplo de 9.2.3 excepto que X4 tiene una desviacion estandar de 10 en vez de 1. La tabla 4 contiene los resultados obtenidos . Los numeros M tomados segun el metodo adaptativo son mucho mas pequeños que los que fueron para los dos casos previos de este ejemplo. La principal razon es que ahora δ=0,5 la tolerancia numerica requerida ,como antes, dos digitos decimales significativos para u(y) es diez veces el valor previo. Si los valores previos fueran usados M deberia estar en el orden de 100 veces mayor. 9.2.4.3 La fig. 9 muestra los extremos del intervalo de cobertura al 95% probabilisticamente simetrico para Y obtenido de estas aproximaciones. Las lineas verticales internas indican los extremos de dicho intervalo determinado por el MCM. Las lineas verticales externas indican los extremos de dicho intervalo determinado por el GUMF con un factor de cobertura k=1,96 . 9.2.4.5 El intervalo de cobertura al 95% probabilisticamente simetrico determinado en el GUMF es en este caso mas conservador que el obtenido usando el MCM. ANEXO C MUESTREO DE DISTRIBUCIONES DE PROBABILIDAD Se puede obtener un resultado aleatorio de cualquier función de distribución continua, estrictamente creciente, univariada a partir de un resultado aleatorio de una distribucion rectangular : La tabla C1 define aspectos relevantes para el funcionamiento de un pseudo generador de numeros aleatorios a partir de la distribucon rectangular R(0,1) especificando los parametros de netarda , entard –salida y salida con su determinación Un pseudo numero aleatorio x obtenido a partir de R(0,1) es dado por : x= a+ (b-a) z donde z es el pseudo numero aleatorio obtenido de R(0,1) C.3.2 TEST DE ALEATORIEDAD Cualquier pseudo generador de numeros aleatorios debe: C.3.3 Procedimiento para generar pseudonumeros aleatorios a partir de una distribucion rectangular C.3.3.1 El generador Wichmann-Hill ampliado es una combinacion de generadores congruenciales. Este nuevo generador combina 4 de estos generadores y tiene un periodo de 2 121 que es aceptable para cualquier aplicacion concebible . La Tabla C.2 define este generador Wichmann-Hill ampliado a partir de una distribucion R(0,1). En la hoja Excel adjunta se muestra un ejemplo de la aplicacion del uso de este Generador WichmannHill ampliado . GRACIAS POR SU ATENCION !