Análisis de datos y Estadística Avanzada Máster Interuniversitario de Astrofísica UCM+UAM Tema 3: Cálculo de errores Javier Gorgas y Nicolás Cardiel Departamento de Astrofísica y Ciencias de la Atmósfera Facultad de Ciencias Físicas Universidad Complutense de Madrid Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C 1 urso 2010/2011 1 / 78 C 2 urso 2010/2011 2 / 78 Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción Distinción entre errores e incertidumbres Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción C 3 urso 2010/2011 3 / 78 Distinción entre errores e incertidumbres Diferenciar entre errores e incertidumbres Aunque en la literatura científica normalmente se habla genéricamente de cálculo de errores, es muy útil distinguir entre errores e incertidumbres. Error: resultado de una medida menos el valor verdadero de la magnitud (¡este último es normalmente desconocido!). Error = Xmedida − Xreal Incertidumbre: parámetro ∆X asociado con el resultado de una medida, que caracteriza la dispersión de los valores que deberían atribuirse de forma razonable a la magnitud a medir. � con una cierta Xreal ∈ [Xmedida − ∆X, Xmedida + ∆X] ← probabilidad Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C 4 urso 2010/2011 4 / 78 Introducción Distinción entre errores e incertidumbres Errores, incertidumbres,. . . ¡El caos! Diferentes organizaciones han apoyado el desarrollo de una guía para la expresión de incertidumbres en las medidas: BIPM IEC IFCC ISO IUPAC IUPAP OIML Bureau International des Poids et Measures International Electrotechnical Comission International Federation of Clinical Chemistry International Organization of Standardization International Union of Pure and Applied Chemistry International Union of Pure and Applied Physics International Organization of Legal Metrology ⇒ GUM: Guide to the expression of Uncertainty in Measurement, http://www.bipm.org/en/publications/guides/gum.html (Bureau International des Poids et Measures) Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción C 5 urso 2010/2011 5 / 78 Distinción entre errores e incertidumbres Guide to the expression of Uncertainty in Measurement(*) Estructura de la GUM: Conceptos básicos. Recomendaciones. Procedimientos de evaluación. (*) El procedimiento de evaluación de incertidumbres presentado en la GUM, la ley de propagación de incertidumbres, es válido para modelos lineales (o linealizables). Sin embargo, en algunas ocasiones es necesario aplicar métodos más avanzados. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C 6 urso 2010/2011 6 / 78 Introducción Estandarizando la expresión de incertidumbres Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción C 7 urso 2010/2011 7 / 78 Estandarizando la expresión de incertidumbres GUM: ¿Incertidumbres aleatorias y sistemáticas? A la incertidumbre en el resultado de una medida contribuyen factores que pueden clasificarse en dos categorías: Categoría A: factores que pueden evaluarse utilizando métodos estadísticos (típicamente a partir de medidas repetidas). Categoría B: factores que deben ser evaluados por otros métodos, como por ejemplo la información procedente de la experiencia en la realización de medidas anteriores, de la calibración y comportamiento de los instrumentos de medida,. . . y del sentido común. Estas categorías no sustituyen a los adjetivos “aleatorio” y “sistemático”. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C 8 urso 2010/2011 8 / 78 Introducción Estandarizando la expresión de incertidumbres Evitar el uso de incertidumbre sistemática La incertidumbre de una corrección realizada sobre una medida para compensar de un efecto sistemático no es el error sistemático en el resultado de la medida debido a dicho efecto. Se trata más bien de una medida de la incertidumbre del resultado debido a un conocimiento incompleto del valor de la corrección. La incertidumbre asociada a la corrección de un efecto sistemático debe cuantificarse. Esto podrá realizarse siguiendo métodos estadísticos tradicionales (categoría A), o mediante cualquier otro tipo de evaluación (categoría B). Ejemplo de corrección sistemática, categoría B: desconocimiento absoluto de la distribución de los errores, salvo la cuantificación del intervalo [a− , a+ ] que, de forma práctica, tiene un ∼ 100% de probabilidades de contener a la corrección sistemática. En ese caso, la mejor estimación de la corrección será (a− + a+ )/2, y la desviación típica asociada vendrá dada por √ s = a/ 3, con a = (a+ − a− )/2. √ √ Si se supone una distribución triangular, se reduce en un factor 2, es decir s = a/ 6. Siguiendo con otro factor √ √ 2, podemos decir que s = a/ 12 para una normal en la que [a− , a+ ] contiene una área de 0.9995 � 1.0000. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción C 9 urso 2010/2011 9 / 78 Estandarizando la expresión de incertidumbres GUM: cuantifiación de incertidumbres El conocimiento sobre cualquier magnitud que participa en el proceso de medida es incompleto y debe expresarse como una distribución de probabilidad o función de densidad, (PDF, del inglés probability density function). Como mejor estimación de cada una de las magnitudes involucradas se utilizará el valor esperado a partir de la PDF: 8 X xi f (xi ) > > > < i µ = E(X) = Z ∞ > > > : x f (x) dx variable discreta (función de probabilidad) variable continua (función de densidad) −∞ Como estimación √de las incertidumbres se utilizará la desviación estándar (σ = + σ 2 ) deducida a partir de la PDF: 8 X 2 xi f (xi ) − µ2 > > > < i “ ” σ 2 = E (X − µ)2 = E(X 2 ) − µ2 = > Z ∞ > > : x2 f (x) dx − µ2 variable discreta variable continua −∞ Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 10 2010/2011 10 / 78 Introducción Estandarizando la expresión de incertidumbres GUM: expresión de incertidumbres Determinar la incertidumbre estándar combinada uc , teniendo en cuenta todas las fuentes de incertidumbre involucradas (típicamente mediante una suma cuadrática). Obtener una incertidumbre expandida U, a partir de la aplicación de un factor de cubrimiento k, es decir U = k uc , de forma que pueda afirmarse, con un elevado nivel de confianza, Xreal ∈ [Xmedida − U, Xmedida + U] Se recomienda k = 2 (que equivale a un nivel de confianza (1 − α) � 95.5% para una distribución normal). Justificar el uso de k �= 2. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción Curso 11 2010/2011 11 / 78 Estandarizando la expresión de incertidumbres GUM: ¿Qué es la probabilidad? (...) en contraste con la visión (clásica) basada en las frecuencias, la probabilidad debe entenderse como una medida del grado de credibilidad de que algo va a ocurrir. Es una definición más acorde con la visión bayesiana de probabilidad. Nota: auque en la definición anterior se dice textualmente “. . . de que algo va a ocurrir.”, no significa que sólo se refiera a eventos futuros. En realidad la frase se refiere más a que algo se probará que es, será o fue cierto. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 12 2010/2011 12 / 78 Introducción Cálculo de incertidumbres Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción Curso 13 2010/2011 13 / 78 Cálculo de incertidumbres CÁLCULO DE INCERTIDUMBRES Supongamos que una magnitud A depende de una serie de parámetros (X, Y, . . .) A = f (X, Y, . . .) Podemos estudiar la variación en A debida a variaciones en los parámetros haciendo un desarrollo en serie de Taylor »„ « „ « –2 ∂f ∂f 2 (δA) � δX + δY + . . . = ∂X ∂Y „ « „ « „ «„ « ∂f 2 ∂f 2 ∂f ∂f 2 2 = (δX) + (δY) + . . . + 2 (δX)(δY) + . . . ∂X ∂Y ∂X ∂Y • Se suele asumir que los parámetros (X, Y, . . .) no están correlacionados ⇒ (δX)(δY) = 0, . . . • Al suponer (δX, δY, . . .) pequeños ⇒ despreciamos derivadas de orden superior. • Como los valores reales de (X, Y, . . .) son desconocidos, se asume A = f (X, Y, . . .) Sustituyendo las variaciones en los parámetros (δX, δY, . . .) por la incertidumbres (∆X, ∆Y, . . .), se estima la incertidumbre en la magnitud A como „ «2 „ «2 ∂f (X, Y, . . .) ∂f (X, Y, . . .) (∆A)2 = (∆X)2 + (∆Y)2 + . . . ∂X ∂Y Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 14 2010/2011 14 / 78 Introducción Cálculo de incertidumbres ¿Cómo se suele determinar (X ± ∆X), (Y ± ∆Y),. . . ? • Si X se deduce de una serie de medidas (X1 , X2 , . . . , Xn ), típicamente se utiliza X= s ∆X = tα/2,n−1 √ , n n 1X Xi , n i=1 donde s= sP n i=1 (Xi − X)2 n−1 Por ejemplo, para un nivel de confianza del 95% (nivel de significación α = 0.05): t0.025,1 t0.025,2 t0.025,3 t0.025,4 t0.025,5 t0.025,10 t0.025,∞ = z0.025 12.8 4.30 3.18 2.78 2.57 2.23 1.96 • Si las medidas tienen errores distintos y conocidos, Pn wi Xi X = Pi=1 , donde n i=1 wi ∆X = tα/2,n−1 Precaución: pensar antes de eliminar puntos. Pn wi = 1/(∆Xi )2 1 i=1 w2i !1/2 So unexpected was the hole that for several years computers analysing ozone data had systematically thrown out the readings that should have pointed to its growth. New Scientist, 31 March 1988 Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción Curso 15 2010/2011 15 / 78 Cálculo de incertidumbres ¿Forma correcta de expresar un resultado? [medida] ± [incertidumbre] unidades Ejemplo: La medida la distancia entre la Tierra y la Luna en el momento de un eclipse total de Sol es D = 384971843 ± 124391 m Indicar cuál es el redondeo correcto: (a) D = (3.850 ± 0.001) × 108 m (b) D = (3.8497 ± 0.0012) × 108 m (c) D = (3.84972 ± 0.00124) × 108 m Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 16 2010/2011 16 / 78 Introducción Cálculo de incertidumbres ¿Forma correcta de expresar un resultado? [medida] ± [incertidumbre] unidades Ejemplo: La medida la distancia entre la Tierra y la Luna en el momento de un eclipse total de Sol es D = 384971843 ± 124391 m Indicar cuál es el redondeo correcto: (a) D = (3.850 ± 0.001) × 108 m (b) D = (3.8497 ± 0.0012) × 108 m (c) D = (3.84972 ± 0.00124) × 108 m (d) nos falta información (¿incertidumbre en la incertidumbre?) Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción Curso 17 2010/2011 17 / 78 Cálculo de incertidumbres ¿Cómo se estima la incertidumbre en la incertidumbre? Al estudiar la varianza de una población normal (¡sí, asumimos normalidad!), se ve que la hipótesis nula H0 : σ 2 = σ02 no se puede rechazar si (n − 1)s2 ∈ [χ21−α/2,n−1 , χ2α/2,n−1 ], σ02 donde χ2α/2,n−1 es la abcisa de la distribución χ2 con n − 1 grados de libertad que deja a su derecha un área de probabilidad igual a α/2 (y lo equivalente para χ1−α/2,n−1 ). Empleando esta relación, podemos expresar el cociente s/σ0 como s 2s 3 2 2 χ χ s 1−α/2,n−1 α/2,n−1 5. ∈4 , (1) σ0 n−1 n−1 Suponiendo que los valores de s/σ0 para diferentes muestras de tamaño n fijo siguen aproximadamente una distribución normal, podemos estimar la desviación típica de este cociente utilizando s s χ21−α/2,n−1 χ2α/2,n−1 inferior σs/σ = 0 n−1 zα/2 y superior σs/σ 0 = n−1 zα/2 , (2) donde distingimos entre el valor inferior y superior por la asimetría presente para valores de n pequeños. Para valores de n grandes se puede demostrar que los límites no dependen de α, σs/σ0 � (2n − 2)−1/2 . Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada (3) Curso 18 2010/2011 18 / 78 Introducción Cálculo de incertidumbres Estudio de la variación del cociente s/σ0 con el tamaño de la muestra n. Las líneas continuas son los valores estimados a partir de la Eq (1) para un nivel de confianza de 95% (α = 0.05; es interesante recordar que z0.025 = 1.96). Las líneas de trazos y de puntos son la estimación de la desviación típica en cada caso, estimada como 1 ± σs/σ usando las Eqs. (2) y (3), 0 respectivamente. Los símbolos corresponden a 10000 simulaciones de Monte Carlo, para muestras de tamaño n extraídas al azar de una población normal N(4, 1). Los círculos rojos son los valores promedio de s/σ0 en las simulaciones. Los triángulos rellenos indican la estimación numérica de ±σs/σ alrededor de los círculos rojos, mientras que los triángulos abiertos indican 0 la región 1 ± σs/σ . 0 Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Introducción n σs/σ 0 n σs/σ 0 Curso 19 2010/2011 Cálculo de incertidumbres 2 0.707 3 0.500 4 0.408 5 0.354 6 0.316 7 0.289 8 0.267 9 0.250 10 0.236 20 0.162 30 0.131 40 0.113 50 0.101 60 0.092 70 0.085 80 0.080 90 0.075 100 0.071 1000 0.022 10000 0.007 Tema 3: Cálculo de errores (♣) 19 / 78 Análisis de datos y Estadística Avanzada Curso 20 2010/2011 20 / 78 Incertidumbres aleatorias Estadística de los (foto)electrones Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 21 2010/2011 21 / 78 Estadística de los (foto)electrones La estadística de los (foto)electrones Los fotones llegan al telescopio (detector) siguiendo una estadística de Poisson. El número promedio de electrones generados en un pixel por unidad de tiempo viene determinado por el número de fotones incidentes, Nγ , y la eficacia cuántica, q, mediante Ne = q Nγ . Se podría pensar, erróneamente, que la incertidumbre en el número de electrones (σe ) puede calcularse directamente, derivando la relación anterior, es decir s p p Ne σe = q σγ = q Nγ = q = qNe . q Sin embargo, esta deducción no es correcta. En realidad √ σe = Ne . Esto se entiende porque, dado un número de fotones que inciden en el detector, cada uno tiene una cierta probabilidad de convertirse o no en electrón (probabilidad que viene dada por q). En otras palabras, no podemos decir que, de manera exacta, el número de electrones es q Nγ , sino que esta relación sólo se verifica para los valores medios, es decir µe = q µγ . En realidad hay que partir del número de fotones recibidos y convertirlos en electrones de una manera más real (que no es multiplicando por la eficacia cuántica). La verdadera simulación es tomar cada uno de los fotones y, con una probabilidad q, transformarlos o no en electrones (siguiendo un proceso probabilístico). Esto añade más dispersión al resultado. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 22 2010/2011 22 / 78 Incertidumbres aleatorias Estadística de los (foto)electrones Incertidumbre (σe ) en el número de electrones generados en un pixel por efecto del ruido fotónico, en función del número de exposiciones N realizadas. Se ha supuesto µγ = 100, con una eficacia cuántica q = 0.3. Para el conjunto de N exposiciones se obtiene el número promedio de electrones/pixel y su desviación típica. Si el número de electrones fuera exactamente igual a la √ eficacia cuántica por el número de fotones/pixel recibidos, obtendríamos σe = q Ne = 3 e− (línea de puntos), lo cual es erróneo. En la simulaciones se ha transformado cada uno de los fotones en electrones siguiendo un proceso probabilístico dependiente de q. Así, para N = 250 exposiciones, el número promedio de electrones en la simulación (caso particular) es 30.26 (valor esperado 30.00), mientras que el error medido es σe = 5.68 (el valor poissoniano esperado es √ 0.3 × 100 � 5.48 —línea de trazos—). Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 23 2010/2011 23 / 78 Estadística de los (foto)electrones Sea p̃(xe ; µγ , q) la probabilidad de que se generen xe electrones en un pixel, cuando el número promedio de fotones incidentes por pixel es µγ , y la eficacia cuántica es q ∞ X p̃(xe ; µγ , q) = p(xγ ; µγ ) b(xe ; xγ , q), xγ =xe donde p(xγ ; µγ ) es la probabilidad de recibir xγ fotones cuando la incidencia media es de µγ fotones (que viene dada por una distribución de Poisson), y b(xe ; xγ , q) es la probabilidad de obtener xe electrones cuando el número de fotones es xγ y la probabilidad de que cada fotón se convierta en un electrón es q (que sigue una distribución binomial). El sumatorio se extiende en todos los casos en los que xγ ≥ xe , imprescindible para obtener, al menos, xe electrones. El número promedio de electrones se calcula entonces como 8 " x #9 ∞ ∞ < ∞ γ = X X X µγ −µγ xγ ! µe = xe p̃(xe ; µγ , q) = xe e qxe (1 − q)xγ − xe = : ; xγ ! xe ! (xγ − xe )! x =x x =0 x =1 e e γ e 8 " #9 ∞ < ∞ = x − x x − 1 X X γ e e (q µγ ) [µγ (1 − q)] = µγ q e−µγ . : (xe − 1)! ; (xγ − xe )! x =x x =1 e γ e P P∞ v w x −λ = 1, Haciendo w ≡ xγ − xe , v ≡ xe − 1, y sabiendo que ∞ w=0 x /w! = e , y que v=0 λ /v! e ( –) ff ∞ ∞ » ∞ X X (q µγ )v −µγ X [µγ (1 − q)]w (q µγ )v −qµγ µe = µγ q e = µγ q e = µγ q. v! w! v! v=0 w=0 v=0 Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 24 2010/2011 24 / 78 Incertidumbres aleatorias Estadística de los (foto)electrones De forma análoga se deriva el valor de la varianza σe2 = ∞ n X xe =0 o xe2 p̃(xe ; µγ , q) − µ2e . (4) Desarrollando el sumatorio de la última expresión se obtiene 8 " #9 ∞ ∞ < ∞ = x − x x − 1 X X X γ e e xe (µγ q) [µγ (1 − q)] xe2 p̃(xe ; µγ , q) = µγ q e−µγ , : ; (xe − 1)! (xγ − xe )! x =x x =0 x =1 e e γ e donde el sumatorio de la derecha vuelve a ser el desarrollo en serie de la función exponencial. Sumando y restado 1 a xe en el numerador de la primera fracción, ∞ X xe =0 0 xe2 ∞ X (xe − 1 + 1) (µγ q)xe − 1 −µγ q p̃(xe ; µγ , q) = µγ q e = (xe − 1)! x =1 = µγ q @µγ q e ∞ X xe =2 ( (µγ q)xe − 2 −µγ q e (xe − 2)! ) + ∞ X xe =1 ( = µγ q (µγ q + 1), )1 (µγ q)xe − 1 −µγ q A e = (xe − 1)! por lo que, recordando que µe = µγ q, finalmente se obtiene σe2 = µγ q (µγ q + 1) − µ2e = µγ q = µe . Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 25 2010/2011 25 / 78 Curso 26 2010/2011 26 / 78 Propagación de incertidumbres Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Propagación de incertidumbres ¿Cómo propagar incertidumbres en la reducción? Podemos utilizar distintos métodos: a) Comparación de medidas repetidas independientes. b) Utilización de primeros principios y fuerza bruta. c) Utilización de primeros principios y elegancia: tratamiento paralelo de datos e incertidumbres. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 27 2010/2011 27 / 78 Propagación de incertidumbres a) Comparación de medidas repetidas independientes 1 Se realizan varias medidas independientes. 2 Se reducen siguiendo el mismo procesado. 3 Se estudian las diferencias entre las medidas reducidas. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 28 2010/2011 28 / 78 Incertidumbres aleatorias Propagación de incertidumbres b) Primeros principios y fuerza bruta Tema 3: Cálculo de errores (♣) 1 Se parte de una única observación, pero usando primeros principios deducimos sus incertidumbres asociadas. 2 Se generan datos sintéticos mediante Monte Carlo. 3 Se continúa siguiendo los pasos del método a). Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 29 2010/2011 29 / 78 Propagación de incertidumbres ¿Cómo generar incertidumbres a partir de primeros principios? Consideremos una imagen bidimensional A[i, j], donde i, j indica número de pixel en cada eje. En cada pixel se mide un número de cuentas (ADU, del inglés Analogic to Digital Unit), que se relaciona con el número de (foto)electrones Ne [i, j] generados en cada pixel mediante A[i, j] = Ne [i, j] , g donde g es la ganancia del detector (en e− /ADU). Supongamos que hemos determinado con precisión la ganancia g del detector (en e− /ADU) y el ruido de lectura en cada pixel sRN (en ADU). Normalmente se podrá considerar que g y sRN son constantes en el detector, aunque en el caso ideal podríamos conocer sus valores en cada pixel. Como los electrones siguen una estadística de Poisson (ya lo vimos antes), la incertidumbre (desviación típica) en cada pixel (en número de cuentas) será s 1 1p 1p 1 ∆A[i, j]fotones = ∆Ne [i, j] = Ne [i, j] = g A[i, j] = A[i, j]. g g g g Si ahora consideramos también la contribución del ruido de lectura, en cada pixel tendremos la siguiente varianza (∆A[i, j])2 = Tema 3: Cálculo de errores (♣) 1 A[i, j] + s2RN . g Análisis de datos y Estadística Avanzada Curso 30 2010/2011 30 / 78 Incertidumbres aleatorias Propagación de incertidumbres b) Primeros principios y fuerza bruta Tema 3: Cálculo de errores (♣) 1 Se parte de una única observación, pero usando primeros principios deducimos sus incertidumbres asociadas. 2 Se generan datos sintéticos mediante Monte Carlo. 3 Se continúa siguiendo los pasos del método a). Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 31 2010/2011 31 / 78 Propagación de incertidumbres ¿Cómo se generan datos sintéticos mediante Monte Carlo? Partimos de una imagen de datos A[i, j] y otra de incertidumbres ∆A[i, j] (desviaciones típicas). Generamos nuevas imágenes sintéticas à mediante Ã[i, j] = A[i, j] + R[i, j], donde R[i, j] es ruido generado de forma aleatoria siguiendo una determinada distribución de probabilidad, que será función de ∆A[i, j]. Por ejemplo, si asumimos que las incertidumbres en un pixel siguen una distribución normal y ∆A[i, j] es la desviación típica, podemos generar el ruido utilizando la expresión p √ R[i, j] = 2 × ∆A[i, j] −ln(1 − ξ1 ) cos(2 π ξ2 ), donde ξ1 y ξ2 son dos números aleatorios en el intervalo ξ1 , ξ2 ∈ [0, 1). Vamos a ver en un momento cómo se deriva esta expresión. Si las incertidumbres no son gaussianas, habrá que generar R[i, j] siguiendo la distribución correspondiente. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 32 2010/2011 32 / 78 Incertidumbres aleatorias Propagación de incertidumbres ¿Cómo se simulan datos con una determinada distribución de probabilidad? Problema a resolver: Dada una distribución de probabilidad (o función de densidad) unidimensional f (x), donde el recorrido de la variable independiente es x ∈ (−∞, ∞), queremos obtener una función X (z), donde z es un número aleatorio en el intervalo ξ ∈ (0, 1), que para una secuencia de números aleatorios ξ1 , ξ2 , ..., ξNsimul nos proporcione otra secuencia de valores X (ξ1 ), X (ξ2 ), ..., X (ξNsimul ) que reproduzca la distribución inicial f (x). Podemos definir ξ≡ Z xmax f (x) dx. −∞ Por las propiedades de la función de densidad, si xmax ∈ (−∞, ∞) entonces ξ ∈ (0, 1). Con esta definición ξ es la función de distribución. Si f (x) puede integrarse analíticamente, podemos resolver la integral anterior y despejar xmax en función de ξ. Para un valor concreto de ξ tendremos entonces el valor de xmax hasta el cual deberíamos haber extendido la integral de la distribución de probabilidad para obtener precisamente dicho valor de ξ. Esto significa que si generamos diversos valores de ξ de forma aleatoria, los distintos valores de xmax (ξ) reproducirán la función de densidad f (x). En otras palabras, xmax (ξ) es la función X (ξ) que buscábamos. En el caso de distribuciones de probabilidad discretas (binomial, Poisson,. . . ) el método es el mismo. Se generan números aleatorios ξ y se determina el valor de la variable aleatoria cuya función de distribución (o función de probabilidad acumulada) es precisamente ξ. Veamos un ejemplo. . . Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 33 2010/2011 33 / 78 Propagación de incertidumbres Aplicación de la técnica anterior para generar ruido gaussiano Desgraciadamente la función gaussiana unidimensional, f (x) ∝ exp[−x2 /(2σ 2 )], no puede integrarse analíticamente. Para evitar este problema, vamos a trabajar con una función gaussiana en dos dimensiones, es decir „ 2 « „ « Z Z Z 1 x + y2 1 r2 exp − dx dy = 2 r exp − 2 dr. 2πσ 2 2σ 2 σ 2σ donde hemos considerado σx = σy = σ, y hemos sustituido r2 = x2 + y2 . Aplicando el método explicado anteriormente „ « „ 2 « Z rmax 1 r2 −rmax ξ≡ 2 r exp − 2 dr = 1 − exp . σ 0 2σ 2σ 2 Por tanto, despejando rmax , rmax = √ 2σ p − ln(1 − ξ). Finalmente, podemos reproducir una secuencia de números siguiendo una distribución de probabilidad gaussiana si proyectamos en una dimensión (sobre el eje x por ejemplo) y aleatoriamente los valores obtenidos para rmax (z). La función que utilizaremos para generar ruido gaussiano tiene entonces la forma p √ R(σ) = 2 σ − ln(1 − ξ1 ) cos(2πξ2 ), donde ξ1 y ξ2 son dos números aleatorios ξ1 , ξ2 ∈ [0, 1). Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 34 2010/2011 34 / 78 Incertidumbres aleatorias Propagación de incertidumbres b) Primeros principios y fuerza bruta Tema 3: Cálculo de errores (♣) 1 Se parte de una única observación, pero usando primeros principios deducimos sus incertidumbres asociadas. 2 Se generan datos sintéticos mediante Monte Carlo. 3 Se continúa siguiendo los pasos del método a). Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 35 2010/2011 35 / 78 Propagación de incertidumbres c) Tratamiento paralelo de datos e incertidumbres 1 Se parte de una única observación, pero usando primeros principios deducimos sus incertidumbres asociadas. 2 Se procesan en paralelo los datos e incertidumbres (usando la ley de propagación de incertidumbres). 3 Se genera un resultado final con incertidumbres asociadas. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 36 2010/2011 36 / 78 Incertidumbres aleatorias Propagación de incertidumbres ¿Cómo propagar incertidumbres en la reducción? Podemos utilizar distintos métodos: a) Comparación de medidas repetidas independientes. Desventaja: muy costoso en tiempo de observación (no siempre es posible repetir observaciones). b) Utilización de primeros principios y fuerza bruta. Desventaja: muy costoso en tiempo de cálculo (el procesado de la información puede requerir mucho recursos: tiempo, memoria,. . . ). c) Utilización de primeros principios y elegancia: tratamiento paralelo de datos e incertidumbres. Desventaja: no siempre se puede aplicar la ley de propagación de incertidumbres (problema de correlación de errores). Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 37 2010/2011 37 / 78 Propagación de incertidumbres Ejemplo de correlación de errores Veamos un ejemplo de aparición de correlación de errores durante el proceso de recentrado de la señal en un pixel. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 38 2010/2011 38 / 78 Incertidumbres aleatorias Propagación de incertidumbres Ejemplo de correlación de errores Tras “desplazar” (remuestrear) la señal fracciones de píxel, tanto la propia señal como los errores aleatorios asociados se distribuyen entre los pixels vecinos. Hasta aquí todo se calcula de manera sencilla, aunque a partir de este momento los errores ya están correlacionados. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 39 2010/2011 39 / 78 Propagación de incertidumbres Ejemplo de correlación de errores Al haber introducido correlación entre los errores, si no se tienen en cuenta las covarianzas, la estimación de la incertidumbre en la estimación del flujo total es errónea. El efecto del recentrado es filtrar la imagen y, aparentemente, se reduce el ruido. ¡Pero es falso! Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 40 2010/2011 40 / 78 Incertidumbres aleatorias Propagación de incertidumbres El problema del aliasing en los espectros Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 41 2010/2011 41 / 78 Propagación de incertidumbres El problema del aliasing en los espectros Diferentes aproximaciones polinómicas a la distribución de la señal. (a): corrección lineal. (b): polinomio de segundo grado conservando la señal en cada pixel y en los dos adyacentes. (c): polinomio de segundo grado conservando la señal en el pixel central e imponiendo continuidad. (d): polinomio de segundo grado conservando la señal en el pixel central e imponiendo derivadas continuas. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 42 2010/2011 42 / 78 Incertidumbres aleatorias Propagación de incertidumbres El problema del aliasing en los espectros Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 43 2010/2011 43 / 78 Propagación de incertidumbres ¿Cómo evitar la introducción de correlaciones? Durante el tratamiento de los datos, separar entre los filtros (pasos de la reducción) que no introducen correlación (filtros sencillos) de aquellos que sí lo hacen (filtros complejos). No ejecutar los filtros complejos, sino simplemente caracterizar las operaciones de su procesado ⇒ las imágenes no se reducen completamente. (Ver más detalles en Cardiel et al. 2003) Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 44 2010/2011 44 / 78 Incertidumbres aleatorias Propagación de incertidumbres ¿Cómo evitar la introducción de correlaciones? Realizar la reducción in situ, sin rectificar las imágenes. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 45 2010/2011 45 / 78 Propagación de incertidumbres ¿Cómo evitar la introducción de correlaciones? La herramienta de análisis puede transformarse para poder utilizar las caracterizaciones de los filtros complejos, y completar la reducción en tiempo real, en el momento de medir. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 46 2010/2011 46 / 78 Incertidumbres aleatorias Incertidumbres en la medida de índices Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 47 2010/2011 47 / 78 Incertidumbres en la medida de índices Propagación de incertidumbres en la medida de índices Si tenemos una estimación de las incertidumbres en cada píxel de un espectro tras la reducción de los datos, podemos estimar las incertidumbres en los índices de intensidad de líneas utilizando la ley de propagación de incertidumbres. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 48 2010/2011 48 / 78 Incertidumbres aleatorias Índices atómicos Ia � Wλ (Å) = Z Incertidumbres en la medida de índices line (1 − S(λ)/C(λ)) dλ Índices moleculares I(mag) = −2.5 log10 1− Wλ (Å) ∆λ ! Discontinuidades (pseudocolores): por ejemplo D4000 R 4250 D4000 ≡ R4050 3950 3750 Tema 3: Cálculo de errores (♣) S(ν) dλ S(ν) dλ Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 49 2010/2011 49 / 78 Incertidumbres en la medida de índices Un ejemplo: medida del índice Mg2 Aunque los errores en los pixels no estén correlacionados, al sustraer un mismo continuo a todos los pixels de la banda central aparece correlación (ver detalles en Cardiel et al. 1998). σ 2 [Ia ] Θ2 3 N # 2 pixels NX pixels " ” C2 (λi ) σ 2 (λi ) + S2 (λi ) σC(λ X S(λi ) S(λj ) “ ) 2 2 i 4 5+ = Λ1 σS + Λ4 σSr b C4 (λi ) C2 (λi ) C2 (λj ) i=1 i=1 j=1,j�=i Npixels X 2 Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 50 2010/2011 50 / 78 Incertidumbres aleatorias Incertidumbres en la medida de índices Un ejemplo: medida del índice Mg2 Si no tenemos en cuenta la correlación entre los pixels, las estimaciones de las incertidumbres son erróneas. Por ejemplo, comparemos las predicciones obtenidas al ignorar (izquierda) y considerar (derecha) la correlación entre pixels en la medida de un gradiente de Mg2 en una galaxia (triángulos abiertos). Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 51 2010/2011 51 / 78 Incertidumbres en la medida de índices ¡Podemos estimar incertidumbres en los índices! Dada una relación señal/ruido, en principio es posible obtener una estimación aproximada de las incertidumbres que debemos esperar en la medida de índices de intensidad de líneas. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 52 2010/2011 52 / 78 Incertidumbres aleatorias Index Name Central Bandpass (Å) Continuum Bandpasses (Å) Atomic Indices Ca4227 4222.250–4234.750 G4300 4281.375–4316.375 Fe4383 4369.125–4420.375 Ca4455 4452.125–4474.625 Fe4531 4514.250–4559.250 Fe4668 4634.000–4720.250 Hβ 4847.875–4876.625 Fe5015 4977.750–5054.000 Mgb 5160.125–5192.625 Fe5270 5245.650–5285.650 Fe5335 5312.125–5352.125 Fe5406 5387.500–5415.000 Fe5709 5696.625–5720.375 Fe5782 5776.625–5796.625 NaD 5876.875–5909.375 Ca1 8483.000–8513.000 Ca2 8527.000–8557.000 Ca3 8647.000–8677.000 CN1 4142.125–4177.125 CN2 4142.125–4177.125 Mg1 5069.125–5134.125 Mg2 5154.125–5196.625 TiO1 5936.625–5994.125 TiO2 6189.625–6272.125 4211.000–4219.750 4241.000–4251.000 4266.375–4282.625 4318.875–4335.125 4359.125–4370.375 4442.875–4455.375 4445.875–4454.625 4477.125–4492.125 4504.250–4514.250 4560.500–4579.250 4611.500–4630.250 4742.750–4756.500 4827.875–4847.875 4876.625–4891.625 4946.500–4977.750 5054.000–5065.250 5142.625–5161.375 5191.375–5206.375 5233.150–5248.150 5285.650–5318.150 5304.625–5315.875 5353.375–5363.375 5376.250–5387.500 5415.000–5425.000 5672.875–5696.625 5722.875–5736.625 5765.375–5775.375 5797.875–5811.625 5860.625–5875.625 5922.125–5948.125 8447.500–8462.500 8842.500–8857.500 8447.500–8462.500 8842.500–8857.500 8447.500–8462.500 8842.500–8857.500 Molecular Indices Incertidumbres en la medida de índices ci c1 c2 4.604 0.3684 8.537 0.2439 13.220 0.2580 7.038 0.3128 11.299 0.2511 17.757 0.2059 7.301 0.2539 16.455 0.2158 8.032 0.2472 9.250 0.2313 10.741 0.2685 7.256 0.2893 6.362 0.2679 6.134 0.3067 8.113 0.2496 8.852 0.2951 8.330 0.2777 7.750 0.2583 σ[Ia ] ≈ SN(Å) = v u u 1 + c2 ≡ t ∆λc N c1 − c2 Ia SN(Å) N 1 X S(λi ) √ Θ i=1 σ(λi ) c1 ≡ ∆λc c2 λr − λc λr − λb !2 1 ∆λb + λc − λb λr − λb !2 1 ∆λr c1 |z = (1 + z)1/2 c1 |z=0 , c2 |z = (1 + z)−1/2 c2 |z=0 , σ[Im ] ≈ c3 SN(Å) c3 ≡ 2.5 c2 log10 e c3 4080.125–4117.625 4244.125–4284.125 4083.875–4096.375 4244.125–4284.125 4895.125–4957.625 5301.125–5366.125 4895.125–4957.625 5301.125–5366.125 5816.625–5849.125 6038.625–6103.625 6066.625–6141.625 6372.625–6415.125 Tema 3: Cálculo de errores (♣) v u D4000 u 1 1 t σ[D4000 ] ≈ √ + 2 2 200 SN(Å)b SN(Å)r 0.2241 0.2691 0.1662 0.1933 0.1824 0.1568 Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 53 2010/2011 53 / 78 Incertidumbres en la medida de índices Índices genéricos Algunas veces los índices clásicos no son adecuados para extraer información en regiones espectrales con líneas múltiples. Una solución son los índices genéricos (ver Cenarro et al. 2001). Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 54 2010/2011 54 / 78 Incertidumbres aleatorias Ia (Å) ≡ Nf � k=1 � ξ(k) � λc2 (k) λc1 (k) [1 − S(λ)/C(λ)] dλ Incertidumbres en la medida de índices � � N(l) � Nf � � C2 (λl,i ) σ 2 [S(λl,i )] + S2 (λl,i ) σ 2 [C(λl,i )] ξ 2 (l) + C4 (λl,i ) l=1 i=1 � � N(l) N(m) N N f �� f � � S(λl,i ) S(λm,j ) + ξ(l) ξ(m) 2 × cov(C(λl,i ), C(λm,j )) C (λl,i ) C2 (λm,j ) � σ(Ia ) Θ �2 � l=1 i=1 m=1 j=1 C(λk,i ) = α1 + α2 λk,i Σ1 ≡ σ 2 [C(λk,i )] = Nc M(n) � � n=1 h=1 1 σ 2 [S(λn,h )] Σ2 ≡ Nc M(l) � � � ∂C(λk,i ) �2 l=1 r=1 ∂S(λl,r ) ∂C(λk,i ) ∂S(λl,r ) = α1 = Nc M(n) � � n=1 h=1 σ 2 [S(λl,r )] 1 ∆ {Σ3 Σ4 − Σ2 Σ5 } λn,h σ 2 [S(λn,h )] Σ3 ≡ Nc M(n) � � n=1 h=1 λ2n,h σ 2 [S(λn,h )] {Σ1 Σ5 − Σ2 Σ4 } Σ4 ≡ Nc M(n) � � n=1 h=1 ∆ = Σ1 Σ3 − Σ2 Σ2 S(λn,h ) σ 2 [S(λn,h )] Σ5 ≡ Nc M(n) � � λn,h S(λn,h ) σ 2 [S(λn,h )] n=1 h=1 cov(C(λk,i ), C(λm,j )) = �C(λk,i ) C(λm,j )� − �C(λk,i )� �C(λm,j )� = � Tema 3: Cálculo de errores (♣) 1 ∆ = [�α1 α1 � − �α1 ��α1 �] + [�α1 α2 � − �α1 ��α2 �] (λk,i + λm,j ) + [�α2 α2 � − �α2 ��α2 �] λk,i λm,j � λl,r 1 Σ3 − 2 Σ2 + σ 2 [S(λl,r )] σ [S(λl,r )] � � λk,i λl,r 1 Σ1 − 2 Σ2 ∆ σ 2 [S(λl,r )] σ [S(λl,r )] 1 ∆ α2 = �α1 α1 � − �α1 ��α1 � = 1 [Σ1 ∆2 Σ3 Σ3 − Σ2 Σ2 Σ3 ] �α1 α2 � − �α1 ��α2 � = 1 [Σ2 ∆2 Σ2 Σ2 − Σ1 Σ2 Σ3 ] �α2 α2 � − �α2 ��α2 � = 1 [Σ1 ∆2 Σ1 Σ3 − Σ1 Σ2 Σ2 ] Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 55 2010/2011 55 / 78 Incertidumbres en la medida de índices ¡También podemos estimar incertidumbres en los índices genéricos! σ[Ia ]z � = (1 + z)1/2 σ[CaT(Å)] � σ[PaT(Å)] � σ[CaT∗ (Å)] � c1 |z − c2 |z Ia |z SN(Å) = c1 |z=0 − c2 |z=0 Ia |z=0 SN(Å) 18.09 − 0.1751 CaT SN(Å) 14.27 − 0.1463 PaT SN(Å) 16.43 − 0.1052 CaT∗ SN(Å) Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 56 2010/2011 56 / 78 Incertidumbres aleatorias Incertidumbres en la medida de índices Discontinuidades genéricas Más recientemente también se han definido una discontinuidades genéricas (ver Mármol-Queraltó et al., 2008). Dgeneric ≡ λc,i2 − λc,i1 Z λ c,i λa,i2 − λa,i1 i=1 λa,i 1 nc X i=1 na X 1 2 λc,i 1 Z λ a,i2 1 2 σ [Dgeneric ] = Fc,i (λ) dλ Fa,i (λ) dλ 2 2 Fc2 σF + Fa2 σF a c Fa4 i Fx ≡ Θ pixels nx NX X i=1 Fx,i (λk ) k=1 i 2 σFx Tema 3: Cálculo de errores (♣) =Θ 2 pixels nx NX X i=1 Análisis de datos y Estadística Avanzada Incertidumbres aleatorias k=1 2 σF x,i (λk ) Curso 57 2010/2011 57 / 78 Incertidumbres en la medida de índices Discontinuidades genéricas Más recientemente también se han definido una discontinuidades genéricas (ver Mármol-Queraltó et al., 2008). εr = Index COmag KH IPuxley IFrogel DFrogel DCO Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada c SN(Å) c 0.7537 2.0258 0.8123 0.1075 0.1198 Curso 58 2010/2011 58 / 78 Incertidumbres aleatorias Incertidumbres en los parámetros físicos Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 59 2010/2011 59 / 78 Incertidumbres en los parámetros físicos Una vez realizadas las medidas espectroscópicas (e.g., índices de intensidad de líneas), deseamos interpretar dichas medidas en términos de parámetros físicos relevantes, como edad, composición química,. . . . Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 60 2010/2011 60 / 78 Incertidumbres aleatorias Incertidumbres en los parámetros físicos El último paso: la determinación de parámetros físicos Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver detalles en Cardiel et al. 2003). ∆mi � n X aij ∆pj j=1 VM = VP = | det(B)| φ(α, n) ≡ κ ≡ | det(B)| n Y i=1 ∆pj � ; n 2 [π χ2n (α)]n/2 Y n Γ(n/2) bji ∆mi i=1 σ(mi ) i=1 n 2 [π χ2n (α)]n/2 Y c(mi ) n Γ(n/2) n X SN(Å)i i=1 = κ φ(α, n) n Y 1 SN(Å)i i=1 2 [π χ2n (α)]n/2 n Γ(n/2) c(mi ) = 1 n Y c(mi ) | det(A)| i=1 | {z } | {z } sensibilidad a la sensibilidad degeneración de los índices de los parámetros a la SN(Å) físicos Tema 3: Cálculo de errores (♣) × ⇒ VP ∝ κ Análisis de datos y Estadística Avanzada Incertidumbres aleatorias n Y 1 SN(Å)i i=1 Curso 61 2010/2011 61 / 78 Incertidumbres en los parámetros físicos El último paso: la determinación de parámetros físicos Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver detalles en Cardiel et al. 2003). ∆mi � n X aij ∆pj j=1 VM = VP = | det(B)| φ(α, n) ≡ κ ≡ | det(B)| n Y i=1 ; n 2 [π χ2n (α)]n/2 Y n Γ(n/2) bji ∆mi i=1 σ(mi ) i=1 n 2 [π χ2n (α)]n/2 Y c(mi ) n Γ(n/2) n X SN(Å)i i=1 = κ φ(α, n) n Y 1 SN(Å)i i=1 2 [π χ2n (α)]n/2 c(mi ) = n Γ(n/2) 1 n Y c(mi ) | det(A)| i=1 | {z } | {z } sensibilidad a la sensibilidad degeneración de los índices de los parámetros a la SN(Å) físicos Tema 3: Cálculo de errores (♣) ∆pj � × ⇒ Análisis de datos y Estadística Avanzada VP ∝ κ n Y i=1 1 SN(Å)i Curso 62 2010/2011 61 / 78 Incertidumbres aleatorias Incertidumbres en los parámetros físicos El último paso: la determinación de parámetros físicos Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver detalles en Cardiel et al. 2003). ∆mi � n X aij ∆pj j=1 VM = VP = | det(B)| φ(α, n) ≡ κ ≡ | det(B)| n Y i=1 ∆pj � ; n 2 [π χ2n (α)]n/2 Y n Γ(n/2) bji ∆mi i=1 σ(mi ) i=1 n 2 [π χ2n (α)]n/2 Y c(mi ) n Γ(n/2) n X SN(Å)i i=1 = κ φ(α, n) n Y 1 SN(Å)i i=1 2 [π χ2n (α)]n/2 n Γ(n/2) c(mi ) = 1 n Y c(mi ) | det(A)| i=1 | {z } | {z } sensibilidad a la sensibilidad degeneración de los índices de los parámetros a la SN(Å) físicos Tema 3: Cálculo de errores (♣) × ⇒ VP ∝ κ Análisis de datos y Estadística Avanzada Incertidumbres aleatorias n Y 1 SN(Å)i i=1 Curso 63 2010/2011 61 / 78 Incertidumbres en los parámetros físicos El último paso: la determinación de parámetros físicos Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver detalles en Cardiel et al. 2003). ∆mi � n X aij ∆pj j=1 VM = VP = | det(B)| φ(α, n) ≡ κ ≡ | det(B)| n Y i=1 ; n 2 [π χ2n (α)]n/2 Y n Γ(n/2) bji ∆mi i=1 σ(mi ) i=1 n 2 [π χ2n (α)]n/2 Y c(mi ) n Γ(n/2) n X SN(Å)i i=1 = κ φ(α, n) n Y 1 SN(Å)i i=1 2 [π χ2n (α)]n/2 c(mi ) = n Γ(n/2) 1 n Y c(mi ) | det(A)| i=1 | {z } | {z } sensibilidad a la sensibilidad degeneración de los índices de los parámetros a la SN(Å) físicos Tema 3: Cálculo de errores (♣) ∆pj � × ⇒ Análisis de datos y Estadística Avanzada VP ∝ κ n Y i=1 1 SN(Å)i Curso 64 2010/2011 61 / 78 Incertidumbres aleatorias Incertidumbres en los parámetros físicos El último paso: la determinación de parámetros físicos Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver detalles en Cardiel et al. 2003). ∆mi � n X aij ∆pj j=1 VM = VP = | det(B)| φ(α, n) ≡ κ ≡ | det(B)| n Y i=1 ∆pj � ; n 2 [π χ2n (α)]n/2 Y n Γ(n/2) σ(mi ) SN(Å)i i=1 = κ φ(α, n) n Y 1 SN(Å)i i=1 2 [π χ2n (α)]n/2 n Γ(n/2) c(mi ) = 1 n Y c(mi ) | det(A)| i=1 | {z } | {z } sensibilidad a la sensibilidad degeneración de los índices de los parámetros a la SN(Å) físicos Tema 3: Cálculo de errores (♣) bji ∆mi i=1 i=1 n 2 [π χ2n (α)]n/2 Y c(mi ) n Γ(n/2) n X × ⇒ Análisis de datos y Estadística Avanzada Incertidumbres aleatorias VP ∝ κ n Y 1 SN(Å)i i=1 Curso 65 2010/2011 61 / 78 Incertidumbres en los parámetros físicos ¡La mejor opción no es necesariamente la combinación de índices con predicciones más ortogonales! Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 66 2010/2011 62 / 78 Incertidumbres aleatorias Incertidumbres en los parámetros físicos Incluso dentro de un mismo diagrama, las incertidumbres dependen de la posición en el espacio de parámetros físicos. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 67 2010/2011 63 / 78 Incertidumbres en los parámetros físicos Cuando las incertidumbres están correlacionadas, no tiene demasiado sentido parametrizar las incertidumbres utilizando la desviación típica. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 68 2010/2011 64 / 78 Incertidumbres aleatorias ¿Y cuando sólo tenemos los datos? Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Incertidumbres aleatorias Curso 69 2010/2011 65 / 78 ¿Y cuando sólo tenemos los datos? ¡Siempre se puede hacer algo! ¿Qué hacer cuando ni siquiera es posible realizar simulaciones de Monte Carlo para generar muestras sintéticas a partir de primeros principios? Supongamos que nuestra muestra está formada por N valores Ai independientes e indénticamente distribuidos, por lo que el orden secuencial de dichos valores no es consecuencia del proceso que seguimos para su obtención (Ai tiene la misma probabilidad de aparecer en cualquier posición entre 1 y N). Vamos a asumir que dichos datos contienen la información necesaria para considerarlos como si fueran toda una población. Entonces podemos generar muestras sinéticas (en lugar de datos sintéticos como hacíamos antes) a partir de ellos. Veamos dos métodos comúnmente utilizados Jackknife Bootstrap Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 70 2010/2011 66 / 78 Incertidumbres aleatorias ¿Y cuando sólo tenemos los datos? Jackknife1 Este método consiste en generar, a partir de muestras de N elementos, N submuestras de N − 1 elementos, eliminando en cada una de estas submuestras secundarias un elemento (podemos hacerlo de forma consecutiva, eliminando el primer elemento en la primera muestra, el segundo en la segunda muestra, y así sucesivamente. Bootstrap2 Es una generalización del método anterior, en el cual se generan muestras secundarias de N elementos, seleccionando los elementos de forma aleatoria a partir de la muestra original, pero permitiendo repetir valores. De esta forma, una fracción aleatoria de los valores iniciales aparecerán duplicados (∼ 1/e � 37%). ⇒ Estos métodos no dan información a partir de la nada. sconocíamos previamente (ver Press et al. 2002). 1 Nos dan información que de- Podemos traducirlo como pequeña navaja o navaja de bolsillo. 2 El nombre se debe a la aparente capacidad del método de conseguir algo aparentemente imposible (sacar de donde no hay). En Las increíbles aventuras del Barón Munchhausen, Rudolph Erich Raspe cuenta que en cierta ocasión el Barón logró escapar de una muerte segura al salir volando tirando de los cordones de sus propias botas (en inglés “[. . . ] he thought to pull himself up by his own bootstraps”). Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Curso 71 2010/2011 67 / 78 Curso 72 2010/2011 68 / 78 Algunas fuentes Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Algunas fuentes Ejemplos de fuentes listados en la GUM Definición incompleta de la magnitud a medir. Imposibilidad de medir la magnitud definida. Obtención de muestras no representativas. Conocimiento incompleto de los factores ambientales que afectan a las medidas. Sesgos personales en la lectura de medidas analógicas. Resolución finita de los instrumentos de medida. Valores inexactos de las magnitudes de referencia. Valores inexactos de constantes y otros parámetros obtenidos de fuentes externas y empleados en la reducción de los datos. Aproximaciones y asunciones empleadas durante la toma de datos y su manipulación posterior. ... Recordemos: la incertidumbre de una corrección realizada sobre una medida para compensar de un efecto sistemático no es el error sistemático en el resultado de la medida debido a dicho efecto. Se trata más bien de una medida de la incertidumbre del resultado debido a un conocimiento incompleto del valor de la corrección. ⇒ Debemos evitar utilizar la expresión “incertidumbre sistemática” (puede ser confusa). Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Curso 73 2010/2011 69 / 78 Curso 74 2010/2011 70 / 78 Tratamiento Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Tratamiento ¿Se puede hacer algo? Sí. ¡Evitarlos! Algunos efectos sistemáticos pueden descubrirse tras el análisis cuidadoso del experimento o proceso de medida antes de su ejecución. — Pueden corregirse realizando las correcciones adecuadas o modificando el diseño experimental. Los restantes efectos sistemáticos pueden ser muy difíciles de reconocer, y serán detectables con cierta garantía después, sólo cuando puedan compararse medidas realizadas a través de dos o más experimentos independientes. — En estos casos es posible utilizar la inferencia bayesiana. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Curso 75 2010/2011 71 / 78 Tratamiento ¿Se puede hacer algo? Sí. ¡Evitarlos! Algunos efectos sistemáticos pueden descubrirse tras el análisis cuidadoso del experimento o proceso de medida antes de su ejecución. — Pueden corregirse realizando las correcciones adecuadas o modificando el diseño experimental. Los restantes efectos sistemáticos pueden ser muy difíciles de reconocer, y serán detectables con cierta garantía después, sólo cuando puedan compararse medidas realizadas a través de dos o más experimentos independientes. — En estos casos es posible utilizar la inferencia bayesiana. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 76 2010/2011 71 / 78 Efectos sistemáticos Tratamiento ¡La inferencia bayesiana al rescate! Una de las características de las técnicas bayesianas es su capacidad de incorporar información inicial (prior) y estudiar cómo afecta a nuestras conclusiones. Un efecto sistemático puede introducirse como un nuevo parámetro en el estudio, y tratarlo como un nuisance parameter (parámetro irrelevante) e integrar sobre él (marginalizar). Si la incertidumbre debida al efecto sistemático es muy grande, ello se reflejará en nuestra inferencia final. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Curso 77 2010/2011 72 / 78 Curso 78 2010/2011 73 / 78 Un ejemplo astronómico Esquema 1 Introducción Distinción entre errores e incertidumbres Estandarizando la expresión de incertidumbres Cálculo de incertidumbres 2 Incertidumbres aleatorias Estadística de los (foto)electrones Propagación de incertidumbres Incertidumbres en la medida de índices Incertidumbres en los parámetros físicos ¿Y cuando sólo tenemos los datos? 3 Efectos sistemáticos Algunas fuentes Tratamiento Un ejemplo astronómico Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Un ejemplo astronómico Ley de Hubble: v = H0 x Determinar la distribución de probabilidad posterior para la distancia x a una galaxia cuya velocidad de recesión es vg = (100 ± 5) × 103 km s−1 , asumiendo H0 = 70 km s−1 Mpc−1 y en las siguientes cuatro situaciones: 1 2 Para un valor fijo de H0 = 70 km s−1 Mpc−1 , es decir, p(H0 |I) = δ(H − H0 ). Para un valor de H0 con una icertidumbre dada por una distribución de probabilidad gaussiana ff (H0 − 70)2 p(H0 |I) = k exp − . 2 × 102 3 Asumiendo una distribución de probabilidad uniforme para H0 1/(90 − 50), para 50 ≤ H0 ≤ 90 p(H0 |I) = 0, en otro caso. 4 Asumiendo una distribución de probabilidad de Jeffreys (igual probabilidad por década —invarianza de escala—) [H0 ln(90/50)]−1 , para 50 ≤ H0 ≤ 90 p(H0 |I) = 0, en otro caso. Considerar que la velocidad de recesión medida es vg = vreal + �, donde � es la incertidumbre, admitiendo que � sigue una distribución N(µ = 0, σ = 5). Suponer además que la incertidumbre en la velocidad no está correlacionada con la incertidumbre en H0 . Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Curso 79 2010/2011 74 / 78 Un ejemplo astronómico Ley de Hubble: v = H0 x Calculamos la PDF posterior para x marginalizando el parámetro H0 Z ∞ p(x|D, I) = p(x, H0 |D, I) dH0 . −∞ Usando el Teorema de Bayes p(x|D, I) ∝ p(x|I) Z ∞ −∞ Asumiendo que H0 y x son independientes Z p(x|D, I) ∝ p(x|I) p(H0 |x, I) p(D|x, H0 , I) dH0 . ∞ −∞ p(H0 |I) p(D|x, H0 , I) dH0 . En este caso, I incluye la información relevante a nuestro conocimiento sobre H0 , que, para los casos propuestos, tiene una PDF que sigue 1) una delta de Dirac, 2) una gaussiana, 3) una función uniforme y 4) una función de Jeffreys. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 80 2010/2011 75 / 78 Efectos sistemáticos Un ejemplo astronómico Ley de Hubble: v = H0 x 1 2 3 H0 constante ff (vg − H0 x)2 p(x|D, I) ∝ p(x|I) √ exp − . 2σ 2 2πσ PDF de H0 gaussiana Z p(x|D, I) ∝ p(x|I) PDF de H0 uniforme 1 ff ff 1 (vg − H0 x)2 (H0 − 70)2 ×√ exp − dH0 . k exp − 2 × 102 2σ 2 2πσ −∞ ∞ p(x|D, I) ∝ p(x|I) 4 Z 90 50 ff 1 1 (vg − H0 x)2 ×√ exp − dH0 . (90 − 50) 2σ 2 2πσ PDF de H0 siguiendo una función de Jeffreys ff Z 90 1 (vg − H0 x)2 1 ×√ exp − dH0 . p(x|D, I) ∝ p(x|I) 2σ 2 2πσ 50 H0 ln(90/50) Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Efectos sistemáticos Curso 81 2010/2011 76 / 78 Un ejemplo astronómico Ley de Hubble: v = H0 x Resultado asumiendo un prior uniforme p(x|I) Las consecuencias de introducir incertidumbre en H0 son: i) la PDF posterior para la galaxia es más ancha y ii) la media de la PDF se desplaza a valores más altos (las medias son 1429, 1486, 1512 y 1556 km s−1 , respectivamente), es decir, la PDF posterior es asimétrica. Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 82 2010/2011 77 / 78 Efectos sistemáticos Un ejemplo astronómico Referencias Cardiel N., Gorgas J., Cenarro J., González, J.J., Reliable random error estimation in the measurement of line-strength indices, 1998, A&AS 127, 597 Cardiel N., Gorgas J., Gallego J., et al., Proper handling of random errors and distortions in astronomical data analysis, 2002, SPIE, 4847, 297 Cardiel N., Gorgas J., Sánchez-Blázquez P., et al., Using spectroscopic data to disentangle stellar population properties, 2003, A&A, 409, 511 Cenarro A.J., Cardiel N., Gorgas J., et al., Empirical calibration of the near-infrared Ca II triplet - I. The stellar library and index definition, 2001, MNRAS, 326, 959 D’Agostini G., Probability and Measurement Uncertainty in Physics, 1995, arXiv:hep-ph/9512295v2 Gregory P.C., Bayesian Logical Data Analysis for the Physical Sciences, 2005, Cambridge University Press Internatinal Organization for Standardization (ISO), Guide to the expression of uncertainty in measurement, 1993, Geneva, Switzerland Mármol-Queraltó E., Cardiel N., Cenarro A.J., et al., 2008, A&A, en prensa Press W.H., et al., Numerical Recipes in Fortran 77, 2002, Cambridge University Press Trager S.C., Faber S.M., Worthey G., González J.J., 2000a, AJ, 119, 1645 Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso 83 2010/2011 78 / 78