Análisis de datos y Estadística Avanzada Esquema

Anuncio
Análisis de datos y Estadística Avanzada
Máster Interuniversitario de Astrofísica UCM+UAM
Tema 3: Cálculo de errores
Javier Gorgas y Nicolás Cardiel
Departamento de Astrofísica y Ciencias de la Atmósfera
Facultad de Ciencias Físicas
Universidad Complutense de Madrid
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
C
1 urso 2010/2011
1 / 78
C
2 urso 2010/2011
2 / 78
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
Distinción entre errores e incertidumbres
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
C
3 urso 2010/2011
3 / 78
Distinción entre errores e incertidumbres
Diferenciar entre errores e incertidumbres
Aunque en la literatura científica normalmente se habla genéricamente
de cálculo de errores, es muy útil distinguir entre errores e
incertidumbres.
Error: resultado de una medida menos el valor verdadero de la
magnitud (¡este último es normalmente desconocido!).
Error = Xmedida − Xreal
Incertidumbre: parámetro ∆X asociado con el resultado de una
medida, que caracteriza la dispersión de los valores que deberían
atribuirse de forma razonable a la magnitud a medir.
�
con una cierta
Xreal ∈ [Xmedida − ∆X, Xmedida + ∆X] ←
probabilidad
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
C
4 urso 2010/2011
4 / 78
Introducción
Distinción entre errores e incertidumbres
Errores, incertidumbres,. . . ¡El caos!
Diferentes organizaciones han apoyado el desarrollo de una guía para
la expresión de incertidumbres en las medidas:
BIPM
IEC
IFCC
ISO
IUPAC
IUPAP
OIML
Bureau International des Poids et Measures
International Electrotechnical Comission
International Federation of Clinical Chemistry
International Organization of Standardization
International Union of Pure and Applied Chemistry
International Union of Pure and Applied Physics
International Organization of Legal Metrology
⇒ GUM: Guide to the expression of Uncertainty in Measurement,
http://www.bipm.org/en/publications/guides/gum.html
(Bureau International des Poids et Measures)
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
C
5 urso 2010/2011
5 / 78
Distinción entre errores e incertidumbres
Guide to the expression of Uncertainty in Measurement(*)
Estructura de la GUM:
Conceptos básicos.
Recomendaciones.
Procedimientos de evaluación.
(*) El procedimiento de evaluación de incertidumbres presentado en la GUM, la ley de propagación de incertidumbres, es válido para modelos lineales (o linealizables). Sin embargo, en
algunas ocasiones es necesario aplicar métodos más avanzados.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
C
6 urso 2010/2011
6 / 78
Introducción
Estandarizando la expresión de incertidumbres
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
C
7 urso 2010/2011
7 / 78
Estandarizando la expresión de incertidumbres
GUM: ¿Incertidumbres aleatorias y sistemáticas?
A la incertidumbre en el resultado de una medida contribuyen factores
que pueden clasificarse en dos categorías:
Categoría A: factores que pueden evaluarse utilizando métodos
estadísticos (típicamente a partir de medidas repetidas).
Categoría B: factores que deben ser evaluados por otros
métodos, como por ejemplo la información procedente de la
experiencia en la realización de medidas anteriores, de la
calibración y comportamiento de los instrumentos de medida,. . . y
del sentido común.
Estas categorías no sustituyen a los adjetivos “aleatorio” y “sistemático”.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
C
8 urso 2010/2011
8 / 78
Introducción
Estandarizando la expresión de incertidumbres
Evitar el uso de incertidumbre sistemática
La incertidumbre de una corrección realizada sobre una medida
para compensar de un efecto sistemático no es el error
sistemático en el resultado de la medida debido a dicho efecto. Se
trata más bien de una medida de la incertidumbre del resultado
debido a un conocimiento incompleto del valor de la corrección.
La incertidumbre asociada a la corrección de un efecto
sistemático debe cuantificarse. Esto podrá realizarse siguiendo
métodos estadísticos tradicionales (categoría A), o mediante
cualquier otro tipo de evaluación (categoría B).
Ejemplo de corrección sistemática, categoría B: desconocimiento absoluto de la distribución de los errores, salvo
la cuantificación del intervalo [a− , a+ ] que, de forma práctica, tiene un ∼ 100% de probabilidades de contener a la
corrección sistemática. En ese caso, la mejor estimación de la corrección será (a− + a+ )/2, y la desviación típica
asociada vendrá dada por
√
s = a/ 3, con a = (a+ − a− )/2.
√
√
Si se supone una distribución triangular, se reduce en un factor 2, es decir s = a/ 6. Siguiendo con otro factor
√
√
2, podemos decir que s = a/ 12 para una normal en la que [a− , a+ ] contiene una área de 0.9995 � 1.0000.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
C
9 urso 2010/2011
9 / 78
Estandarizando la expresión de incertidumbres
GUM: cuantifiación de incertidumbres
El conocimiento sobre cualquier magnitud que participa en el
proceso de medida es incompleto y debe expresarse como una
distribución de probabilidad o función de densidad, (PDF, del
inglés probability density function).
Como mejor estimación de cada una de las magnitudes
involucradas se utilizará el valor esperado a partir de la PDF:
8 X
xi f (xi )
>
>
>
< i
µ = E(X) =
Z ∞
>
>
>
:
x f (x) dx
variable discreta (función de probabilidad)
variable continua (función de densidad)
−∞
Como estimación
√de las incertidumbres se utilizará la desviación
estándar (σ = + σ 2 ) deducida a partir de la PDF:
8 X 2
xi f (xi ) − µ2
>
>
>
< i
“
”
σ 2 = E (X − µ)2 = E(X 2 ) − µ2 =
> Z ∞
>
>
:
x2 f (x) dx − µ2
variable discreta
variable continua
−∞
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
10 2010/2011
10 / 78
Introducción
Estandarizando la expresión de incertidumbres
GUM: expresión de incertidumbres
Determinar la incertidumbre estándar combinada uc , teniendo en
cuenta todas las fuentes de incertidumbre involucradas
(típicamente mediante una suma cuadrática).
Obtener una incertidumbre expandida U, a partir de la aplicación
de un factor de cubrimiento k, es decir U = k uc , de forma que
pueda afirmarse, con un elevado nivel de confianza,
Xreal ∈ [Xmedida − U, Xmedida + U]
Se recomienda k = 2 (que equivale a un nivel de confianza
(1 − α) � 95.5% para una distribución normal).
Justificar el uso de k �= 2.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
Curso
11 2010/2011
11 / 78
Estandarizando la expresión de incertidumbres
GUM: ¿Qué es la probabilidad?
(...) en contraste con la visión (clásica) basada en las frecuencias,
la probabilidad debe entenderse como una medida del grado de
credibilidad de que algo va a ocurrir.
Es una definición más acorde con la visión bayesiana de
probabilidad.
Nota: auque en la definición anterior se dice textualmente “. . . de que algo va a ocurrir.”, no
significa que sólo se refiera a eventos futuros. En realidad la frase se refiere más a que algo se
probará que es, será o fue cierto.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
12 2010/2011
12 / 78
Introducción
Cálculo de incertidumbres
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
Curso
13 2010/2011
13 / 78
Cálculo de incertidumbres
CÁLCULO DE INCERTIDUMBRES
Supongamos que una magnitud A depende de una serie de parámetros (X, Y, . . .)
A = f (X, Y, . . .)
Podemos estudiar la variación en A debida a variaciones en los parámetros haciendo un desarrollo en serie de Taylor
»„
«
„
«
–2
∂f
∂f
2
(δA) �
δX +
δY + . . . =
∂X
∂Y
„
«
„
«
„
«„
«
∂f 2
∂f 2
∂f
∂f
2
2
=
(δX) +
(δY) + . . . + 2
(δX)(δY) + . . .
∂X
∂Y
∂X
∂Y
• Se suele asumir que los parámetros (X, Y, . . .) no están correlacionados ⇒ (δX)(δY) = 0, . . .
• Al suponer (δX, δY, . . .) pequeños ⇒ despreciamos derivadas de orden superior.
• Como los valores reales de (X, Y, . . .) son desconocidos, se asume
A = f (X, Y, . . .)
Sustituyendo las variaciones en los parámetros (δX, δY, . . .) por la incertidumbres (∆X, ∆Y, . . .),
se estima la incertidumbre en la magnitud A como
„
«2
„
«2
∂f (X, Y, . . .)
∂f (X, Y, . . .)
(∆A)2 =
(∆X)2 +
(∆Y)2 + . . .
∂X
∂Y
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
14 2010/2011
14 / 78
Introducción
Cálculo de incertidumbres
¿Cómo se suele determinar (X ± ∆X), (Y ± ∆Y),. . . ?
• Si X se deduce de una serie de medidas (X1 , X2 , . . . , Xn ), típicamente se utiliza
X=
s
∆X = tα/2,n−1 √ ,
n
n
1X
Xi ,
n i=1
donde
s=
sP
n
i=1 (Xi
− X)2
n−1
Por ejemplo, para un nivel de confianza del 95% (nivel de significación α = 0.05):
t0.025,1
t0.025,2
t0.025,3
t0.025,4
t0.025,5
t0.025,10
t0.025,∞ = z0.025
12.8
4.30
3.18
2.78
2.57
2.23
1.96
• Si las medidas tienen errores distintos y conocidos,
Pn
wi Xi
X = Pi=1
,
donde
n
i=1 wi
∆X = tα/2,n−1
Precaución: pensar antes de eliminar puntos.
Pn
wi = 1/(∆Xi )2
1
i=1
w2i
!1/2
So unexpected was the hole that for several years computers analysing ozone data had systematically thrown out the readings
that should have pointed to its growth.
New Scientist, 31 March 1988
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
Curso
15 2010/2011
15 / 78
Cálculo de incertidumbres
¿Forma correcta de expresar un resultado?
[medida] ± [incertidumbre] unidades
Ejemplo: La medida la distancia entre la Tierra y la Luna en el
momento de un eclipse total de Sol es
D = 384971843 ± 124391 m
Indicar cuál es el redondeo correcto:
(a) D = (3.850 ± 0.001) × 108 m
(b) D = (3.8497 ± 0.0012) × 108 m
(c) D = (3.84972 ± 0.00124) × 108 m
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
16 2010/2011
16 / 78
Introducción
Cálculo de incertidumbres
¿Forma correcta de expresar un resultado?
[medida] ± [incertidumbre] unidades
Ejemplo: La medida la distancia entre la Tierra y la Luna en el
momento de un eclipse total de Sol es
D = 384971843 ± 124391 m
Indicar cuál es el redondeo correcto:
(a) D = (3.850 ± 0.001) × 108 m
(b) D = (3.8497 ± 0.0012) × 108 m
(c) D = (3.84972 ± 0.00124) × 108 m
(d) nos falta información (¿incertidumbre en la incertidumbre?)
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
Curso
17 2010/2011
17 / 78
Cálculo de incertidumbres
¿Cómo se estima la incertidumbre en la incertidumbre?
Al estudiar la varianza de una población normal (¡sí, asumimos normalidad!), se ve que la hipótesis nula H0 : σ 2 = σ02 no se puede rechazar si
(n − 1)s2
∈ [χ21−α/2,n−1 , χ2α/2,n−1 ],
σ02
donde χ2α/2,n−1 es la abcisa de la distribución χ2 con n − 1 grados de libertad que deja a su
derecha un área de probabilidad igual a α/2 (y lo equivalente para χ1−α/2,n−1 ). Empleando esta
relación, podemos expresar el cociente s/σ0 como
s
2s
3
2
2
χ
χ
s
1−α/2,n−1
α/2,n−1
5.
∈4
,
(1)
σ0
n−1
n−1
Suponiendo que los valores de s/σ0 para diferentes muestras de tamaño n fijo siguen aproximadamente una distribución normal, podemos estimar la desviación típica de este cociente utilizando
s
s
χ21−α/2,n−1
χ2α/2,n−1
inferior
σs/σ
=
0
n−1
zα/2
y
superior
σs/σ
0
=
n−1
zα/2
,
(2)
donde distingimos entre el valor inferior y superior por la asimetría presente para valores de n
pequeños. Para valores de n grandes se puede demostrar que los límites no dependen de α,
σs/σ0 � (2n − 2)−1/2 .
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
(3)
Curso
18 2010/2011
18 / 78
Introducción
Cálculo de incertidumbres
Estudio de la variación del cociente s/σ0 con el tamaño de la muestra n. Las líneas continuas son los valores estimados a
partir de la Eq (1) para un nivel de confianza de 95% (α = 0.05; es interesante recordar que z0.025 = 1.96). Las líneas de
trazos y de puntos son la estimación de la desviación típica en cada caso, estimada como 1 ± σs/σ usando las Eqs. (2) y (3),
0
respectivamente. Los símbolos corresponden a 10000 simulaciones de Monte Carlo, para muestras de tamaño n extraídas al
azar de una población normal N(4, 1). Los círculos rojos son los valores promedio de s/σ0 en las simulaciones. Los triángulos
rellenos indican la estimación numérica de ±σs/σ alrededor de los círculos rojos, mientras que los triángulos abiertos indican
0
la región 1 ± σs/σ .
0
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Introducción
n
σs/σ
0
n
σs/σ
0
Curso
19 2010/2011
Cálculo de incertidumbres
2
0.707
3
0.500
4
0.408
5
0.354
6
0.316
7
0.289
8
0.267
9
0.250
10
0.236
20
0.162
30
0.131
40
0.113
50
0.101
60
0.092
70
0.085
80
0.080
90
0.075
100
0.071
1000
0.022
10000
0.007
Tema 3: Cálculo de errores (♣)
19 / 78
Análisis de datos y Estadística Avanzada
Curso
20 2010/2011
20 / 78
Incertidumbres aleatorias
Estadística de los (foto)electrones
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
21 2010/2011
21 / 78
Estadística de los (foto)electrones
La estadística de los (foto)electrones
Los fotones llegan al telescopio (detector) siguiendo una estadística de Poisson. El número
promedio de electrones generados en un pixel por unidad de tiempo viene determinado por el
número de fotones incidentes, Nγ , y la eficacia cuántica, q, mediante
Ne = q Nγ .
Se podría pensar, erróneamente, que la incertidumbre en el número de electrones (σe ) puede
calcularse directamente, derivando la relación anterior, es decir
s
p
p
Ne
σe = q σγ = q Nγ = q
= qNe .
q
Sin embargo, esta deducción no es correcta. En realidad
√
σe = Ne .
Esto se entiende porque, dado un número de fotones que inciden en el detector, cada uno tiene
una cierta probabilidad de convertirse o no en electrón (probabilidad que viene dada por q). En
otras palabras, no podemos decir que, de manera exacta, el número de electrones es q Nγ , sino
que esta relación sólo se verifica para los valores medios, es decir
µe = q µγ .
En realidad hay que partir del número de fotones recibidos y convertirlos en electrones de una
manera más real (que no es multiplicando por la eficacia cuántica). La verdadera simulación
es tomar cada uno de los fotones y, con una probabilidad q, transformarlos o no en electrones
(siguiendo un proceso probabilístico). Esto añade más dispersión al resultado.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
22 2010/2011
22 / 78
Incertidumbres aleatorias
Estadística de los (foto)electrones
Incertidumbre (σe ) en el número de electrones generados en un pixel por efecto del ruido fotónico,
en función del número de exposiciones N realizadas. Se ha supuesto µγ = 100, con una eficacia cuántica q = 0.3. Para el conjunto de N exposiciones se obtiene el número promedio de
electrones/pixel y su desviación típica. Si el número de electrones fuera exactamente
igual a la
√
eficacia cuántica por el número de fotones/pixel recibidos, obtendríamos σe = q Ne = 3 e−
(línea de puntos), lo cual es erróneo. En la simulaciones se ha transformado cada uno de los
fotones en electrones siguiendo un proceso probabilístico dependiente de q. Así, para N = 250
exposiciones, el número promedio de electrones en la simulación (caso particular) es 30.26 (valor
esperado
30.00), mientras que el error medido es σe = 5.68 (el valor poissoniano esperado es
√
0.3 × 100 � 5.48 —línea de trazos—).
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
23 2010/2011
23 / 78
Estadística de los (foto)electrones
Sea p̃(xe ; µγ , q) la probabilidad de que se generen xe electrones en un pixel, cuando el número
promedio de fotones incidentes por pixel es µγ , y la eficacia cuántica es q
∞
X
p̃(xe ; µγ , q) =
p(xγ ; µγ ) b(xe ; xγ , q),
xγ =xe
donde p(xγ ; µγ ) es la probabilidad de recibir xγ fotones cuando la incidencia media es de µγ
fotones (que viene dada por una distribución de Poisson), y b(xe ; xγ , q) es la probabilidad de
obtener xe electrones cuando el número de fotones es xγ y la probabilidad de que cada fotón se
convierta en un electrón es q (que sigue una distribución binomial). El sumatorio se extiende en
todos los casos en los que xγ ≥ xe , imprescindible para obtener, al menos, xe electrones.
El número promedio de electrones se calcula entonces como
8
" x
#9
∞
∞ <
∞
γ
=
X
X
X
µγ −µγ
xγ !
µe =
xe p̃(xe ; µγ , q) =
xe
e
qxe (1 − q)xγ − xe
=
:
;
xγ !
xe ! (xγ − xe )!
x =x
x =0
x =1
e
e
γ
e
8
"
#9
∞ <
∞
=
x
−
x
x
−
1
X
X
γ
e
e
(q µγ )
[µγ (1 − q)]
= µγ q
e−µγ
.
: (xe − 1)!
;
(xγ − xe )!
x =x
x =1
e
γ
e
P
P∞ v
w
x
−λ = 1,
Haciendo w ≡ xγ − xe , v ≡ xe − 1, y sabiendo que ∞
w=0 x /w! = e , y que
v=0 λ /v! e
(
–)
ff
∞
∞ »
∞ 
X
X
(q µγ )v −µγ X [µγ (1 − q)]w
(q µγ )v −qµγ
µe = µγ q
e
= µγ q
e
= µγ q.
v!
w!
v!
v=0
w=0
v=0
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
24 2010/2011
24 / 78
Incertidumbres aleatorias
Estadística de los (foto)electrones
De forma análoga se deriva el valor de la varianza
σe2 =
∞ n
X
xe =0
o
xe2 p̃(xe ; µγ , q) − µ2e .
(4)
Desarrollando el sumatorio de la última expresión se obtiene
8
"
#9
∞
∞ <
∞
=
x
−
x
x
−
1
X
X
X
γ
e
e
xe (µγ q)
[µγ (1 − q)]
xe2 p̃(xe ; µγ , q) = µγ q
e−µγ
,
:
;
(xe − 1)!
(xγ − xe )!
x =x
x =0
x =1
e
e
γ
e
donde el sumatorio de la derecha vuelve a ser el desarrollo en serie de la función exponencial.
Sumando y restado 1 a xe en el numerador de la primera fracción,
∞
X
xe =0
0
xe2
∞
X
(xe − 1 + 1) (µγ q)xe − 1 −µγ q
p̃(xe ; µγ , q) = µγ q
e
=
(xe − 1)!
x =1
= µγ q @µγ q
e
∞
X
xe =2
(
(µγ q)xe − 2 −µγ q
e
(xe − 2)!
)
+
∞
X
xe =1
(
= µγ q (µγ q + 1),
)1
(µγ q)xe − 1 −µγ q A
e
=
(xe − 1)!
por lo que, recordando que µe = µγ q, finalmente se obtiene
σe2 = µγ q (µγ q + 1) − µ2e = µγ q = µe .
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
25 2010/2011
25 / 78
Curso
26 2010/2011
26 / 78
Propagación de incertidumbres
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Propagación de incertidumbres
¿Cómo propagar incertidumbres en la reducción?
Podemos utilizar distintos métodos:
a) Comparación de medidas repetidas independientes.
b) Utilización de primeros principios y fuerza bruta.
c) Utilización de primeros principios y elegancia: tratamiento
paralelo de datos e incertidumbres.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
27 2010/2011
27 / 78
Propagación de incertidumbres
a) Comparación de medidas repetidas independientes
1
Se realizan varias medidas independientes.
2
Se reducen siguiendo el mismo procesado.
3
Se estudian las diferencias entre las medidas reducidas.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
28 2010/2011
28 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
b) Primeros principios y fuerza bruta
Tema 3: Cálculo de errores (♣)
1
Se parte de una única observación, pero usando
primeros principios deducimos sus incertidumbres
asociadas.
2
Se generan datos sintéticos mediante Monte Carlo.
3
Se continúa siguiendo los pasos del método a).
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
29 2010/2011
29 / 78
Propagación de incertidumbres
¿Cómo generar incertidumbres a partir de primeros principios?
Consideremos una imagen bidimensional A[i, j], donde i, j indica número de pixel en cada
eje.
En cada pixel se mide un número de cuentas (ADU, del inglés Analogic to Digital Unit), que
se relaciona con el número de (foto)electrones Ne [i, j] generados en cada pixel mediante
A[i, j] =
Ne [i, j]
,
g
donde g es la ganancia del detector (en e− /ADU).
Supongamos que hemos determinado con precisión la ganancia g del detector (en
e− /ADU) y el ruido de lectura en cada pixel sRN (en ADU). Normalmente se podrá
considerar que g y sRN son constantes en el detector, aunque en el caso ideal podríamos
conocer sus valores en cada pixel.
Como los electrones siguen una estadística de Poisson (ya lo vimos antes), la
incertidumbre (desviación típica) en cada pixel (en número de cuentas) será
s
1
1p
1p
1
∆A[i, j]fotones = ∆Ne [i, j] =
Ne [i, j] =
g A[i, j] =
A[i, j].
g
g
g
g
Si ahora consideramos también la contribución del ruido de lectura, en cada pixel
tendremos la siguiente varianza
(∆A[i, j])2 =
Tema 3: Cálculo de errores (♣)
1
A[i, j] + s2RN .
g
Análisis de datos y Estadística Avanzada
Curso
30 2010/2011
30 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
b) Primeros principios y fuerza bruta
Tema 3: Cálculo de errores (♣)
1
Se parte de una única observación, pero usando
primeros principios deducimos sus incertidumbres
asociadas.
2
Se generan datos sintéticos mediante Monte Carlo.
3
Se continúa siguiendo los pasos del método a).
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
31 2010/2011
31 / 78
Propagación de incertidumbres
¿Cómo se generan datos sintéticos mediante Monte Carlo?
Partimos de una imagen de datos A[i, j] y otra de incertidumbres ∆A[i, j] (desviaciones
típicas).
Generamos nuevas imágenes sintéticas à mediante
Ã[i, j] = A[i, j] + R[i, j],
donde R[i, j] es ruido generado de forma aleatoria siguiendo una determinada distribución
de probabilidad, que será función de ∆A[i, j].
Por ejemplo, si asumimos que las incertidumbres en un pixel siguen una distribución
normal y ∆A[i, j] es la desviación típica, podemos generar el ruido utilizando la expresión
p
√
R[i, j] = 2 × ∆A[i, j] −ln(1 − ξ1 ) cos(2 π ξ2 ),
donde ξ1 y ξ2 son dos números aleatorios en el intervalo ξ1 , ξ2 ∈ [0, 1). Vamos a ver en un
momento cómo se deriva esta expresión.
Si las incertidumbres no son gaussianas, habrá que generar R[i, j] siguiendo la
distribución correspondiente.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
32 2010/2011
32 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
¿Cómo se simulan datos con una determinada distribución de probabilidad?
Problema a resolver: Dada una distribución de probabilidad (o función de densidad)
unidimensional f (x), donde el recorrido de la variable independiente es x ∈ (−∞, ∞),
queremos obtener una función X (z), donde z es un número aleatorio en el intervalo
ξ ∈ (0, 1), que para una secuencia de números aleatorios ξ1 , ξ2 , ..., ξNsimul nos proporcione
otra secuencia de valores X (ξ1 ), X (ξ2 ), ..., X (ξNsimul ) que reproduzca la distribución inicial
f (x).
Podemos definir
ξ≡
Z
xmax
f (x) dx.
−∞
Por las propiedades de la función de densidad, si xmax ∈ (−∞, ∞) entonces ξ ∈ (0, 1).
Con esta definición ξ es la función de distribución.
Si f (x) puede integrarse analíticamente, podemos resolver la integral anterior y despejar
xmax en función de ξ. Para un valor concreto de ξ tendremos entonces el valor de xmax
hasta el cual deberíamos haber extendido la integral de la distribución de probabilidad
para obtener precisamente dicho valor de ξ. Esto significa que si generamos diversos
valores de ξ de forma aleatoria, los distintos valores de xmax (ξ) reproducirán la función de
densidad f (x). En otras palabras, xmax (ξ) es la función X (ξ) que buscábamos.
En el caso de distribuciones de probabilidad discretas (binomial, Poisson,. . . ) el método es
el mismo. Se generan números aleatorios ξ y se determina el valor de la variable aleatoria
cuya función de distribución (o función de probabilidad acumulada) es precisamente ξ.
Veamos un ejemplo. . .
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
33 2010/2011
33 / 78
Propagación de incertidumbres
Aplicación de la técnica anterior para generar ruido gaussiano
Desgraciadamente la función gaussiana unidimensional, f (x) ∝ exp[−x2 /(2σ 2 )], no puede integrarse analíticamente. Para evitar este problema, vamos a trabajar con una función gaussiana en
dos dimensiones, es decir
„ 2
«
„
«
Z Z
Z
1
x + y2
1
r2
exp −
dx dy = 2
r exp − 2 dr.
2πσ 2
2σ 2
σ
2σ
donde hemos considerado σx = σy = σ, y hemos sustituido r2 = x2 + y2 . Aplicando el método
explicado anteriormente
„
«
„ 2 «
Z rmax
1
r2
−rmax
ξ≡ 2
r exp − 2 dr = 1 − exp
.
σ 0
2σ
2σ 2
Por tanto, despejando rmax ,
rmax =
√
2σ
p
− ln(1 − ξ).
Finalmente, podemos reproducir una secuencia de números siguiendo una distribución de probabilidad gaussiana si proyectamos en una dimensión (sobre el eje x por ejemplo) y aleatoriamente
los valores obtenidos para rmax (z).
La función que utilizaremos para generar ruido gaussiano tiene entonces la forma
p
√
R(σ) = 2 σ − ln(1 − ξ1 ) cos(2πξ2 ),
donde ξ1 y ξ2 son dos números aleatorios ξ1 , ξ2 ∈ [0, 1).
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
34 2010/2011
34 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
b) Primeros principios y fuerza bruta
Tema 3: Cálculo de errores (♣)
1
Se parte de una única observación, pero usando
primeros principios deducimos sus incertidumbres
asociadas.
2
Se generan datos sintéticos mediante Monte Carlo.
3
Se continúa siguiendo los pasos del método a).
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
35 2010/2011
35 / 78
Propagación de incertidumbres
c) Tratamiento paralelo de datos e incertidumbres
1
Se parte de una única observación, pero usando primeros principios deducimos sus
incertidumbres asociadas.
2
Se procesan en paralelo los datos e incertidumbres (usando la ley de propagación de
incertidumbres).
3
Se genera un resultado final con incertidumbres asociadas.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
36 2010/2011
36 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
¿Cómo propagar incertidumbres en la reducción?
Podemos utilizar distintos métodos:
a) Comparación de medidas repetidas independientes.
Desventaja: muy costoso en tiempo de observación (no siempre es
posible repetir observaciones).
b) Utilización de primeros principios y fuerza bruta.
Desventaja: muy costoso en tiempo de cálculo (el procesado de la
información puede requerir mucho recursos: tiempo, memoria,. . . ).
c) Utilización de primeros principios y elegancia: tratamiento
paralelo de datos e incertidumbres.
Desventaja: no siempre se puede aplicar la ley de propagación de
incertidumbres (problema de correlación de errores).
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
37 2010/2011
37 / 78
Propagación de incertidumbres
Ejemplo de correlación de errores
Veamos un ejemplo de aparición de correlación de errores durante el proceso de recentrado de
la señal en un pixel.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
38 2010/2011
38 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
Ejemplo de correlación de errores
Tras “desplazar” (remuestrear) la señal fracciones de píxel, tanto la propia señal como los errores
aleatorios asociados se distribuyen entre los pixels vecinos. Hasta aquí todo se calcula de manera
sencilla, aunque a partir de este momento los errores ya están correlacionados.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
39 2010/2011
39 / 78
Propagación de incertidumbres
Ejemplo de correlación de errores
Al haber introducido correlación entre los errores, si no se tienen en cuenta las covarianzas, la
estimación de la incertidumbre en la estimación del flujo total es errónea. El efecto del recentrado
es filtrar la imagen y, aparentemente, se reduce el ruido.
¡Pero es falso!
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
40 2010/2011
40 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
El problema del aliasing en los espectros
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
41 2010/2011
41 / 78
Propagación de incertidumbres
El problema del aliasing en los espectros
Diferentes aproximaciones polinómicas a la
distribución de la señal.
(a): corrección lineal.
(b): polinomio de segundo grado
conservando la señal en cada pixel y
en los dos adyacentes.
(c): polinomio de segundo grado
conservando la señal en el pixel
central e imponiendo continuidad.
(d): polinomio de segundo grado
conservando la señal en el pixel
central e imponiendo derivadas
continuas.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
42 2010/2011
42 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
El problema del aliasing en los espectros
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
43 2010/2011
43 / 78
Propagación de incertidumbres
¿Cómo evitar la introducción de correlaciones?
Durante el tratamiento de los datos, separar entre los filtros (pasos de la reducción) que
no introducen correlación (filtros sencillos) de aquellos que sí lo hacen (filtros complejos).
No ejecutar los filtros complejos, sino simplemente caracterizar las operaciones de su
procesado ⇒ las imágenes no se reducen completamente.
(Ver más detalles en Cardiel et al. 2003)
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
44 2010/2011
44 / 78
Incertidumbres aleatorias
Propagación de incertidumbres
¿Cómo evitar la introducción de correlaciones?
Realizar la reducción in situ, sin rectificar las imágenes.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
45 2010/2011
45 / 78
Propagación de incertidumbres
¿Cómo evitar la introducción de correlaciones?
La herramienta de análisis puede transformarse para poder utilizar las caracterizaciones
de los filtros complejos, y completar la reducción en tiempo real, en el momento de medir.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
46 2010/2011
46 / 78
Incertidumbres aleatorias
Incertidumbres en la medida de índices
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
47 2010/2011
47 / 78
Incertidumbres en la medida de índices
Propagación de incertidumbres en la medida de índices
Si tenemos una estimación de las incertidumbres en cada píxel de un espectro tras la
reducción de los datos, podemos estimar las incertidumbres en los índices de intensidad
de líneas utilizando la ley de propagación de incertidumbres.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
48 2010/2011
48 / 78
Incertidumbres aleatorias
Índices atómicos
Ia � Wλ (Å) =
Z
Incertidumbres en la medida de índices
line
(1 − S(λ)/C(λ)) dλ
Índices moleculares
I(mag) = −2.5 log10
1−
Wλ (Å)
∆λ
!
Discontinuidades (pseudocolores): por ejemplo D4000
R 4250
D4000 ≡ R4050
3950
3750
Tema 3: Cálculo de errores (♣)
S(ν) dλ
S(ν) dλ
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
49 2010/2011
49 / 78
Incertidumbres en la medida de índices
Un ejemplo: medida del índice Mg2
Aunque los errores en los pixels no estén correlacionados, al sustraer un mismo continuo a todos los pixels de la banda central
aparece correlación (ver detalles en Cardiel et al. 1998).
σ 2 [Ia ]
Θ2
3 N
#
2
pixels NX
pixels "
”
C2 (λi ) σ 2 (λi ) + S2 (λi ) σC(λ
X
S(λi ) S(λj ) “
)
2
2
i
4
5+
=
Λ1 σS + Λ4 σSr
b
C4 (λi )
C2 (λi ) C2 (λj )
i=1
i=1 j=1,j�=i
Npixels
X
2
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
50 2010/2011
50 / 78
Incertidumbres aleatorias
Incertidumbres en la medida de índices
Un ejemplo: medida del índice Mg2
Si no tenemos en cuenta la correlación entre los pixels, las estimaciones de las incertidumbres
son erróneas. Por ejemplo, comparemos las predicciones obtenidas al ignorar (izquierda) y
considerar (derecha) la correlación entre pixels en la medida de un gradiente de Mg2 en una
galaxia (triángulos abiertos).
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
51 2010/2011
51 / 78
Incertidumbres en la medida de índices
¡Podemos estimar incertidumbres en los índices!
Dada una relación señal/ruido, en principio es posible obtener una estimación aproximada de las
incertidumbres que debemos esperar en la medida de índices de intensidad de líneas.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
52 2010/2011
52 / 78
Incertidumbres aleatorias
Index Name
Central Bandpass (Å)
Continuum Bandpasses (Å)
Atomic Indices
Ca4227
4222.250–4234.750
G4300
4281.375–4316.375
Fe4383
4369.125–4420.375
Ca4455
4452.125–4474.625
Fe4531
4514.250–4559.250
Fe4668
4634.000–4720.250
Hβ
4847.875–4876.625
Fe5015
4977.750–5054.000
Mgb
5160.125–5192.625
Fe5270
5245.650–5285.650
Fe5335
5312.125–5352.125
Fe5406
5387.500–5415.000
Fe5709
5696.625–5720.375
Fe5782
5776.625–5796.625
NaD
5876.875–5909.375
Ca1
8483.000–8513.000
Ca2
8527.000–8557.000
Ca3
8647.000–8677.000
CN1
4142.125–4177.125
CN2
4142.125–4177.125
Mg1
5069.125–5134.125
Mg2
5154.125–5196.625
TiO1
5936.625–5994.125
TiO2
6189.625–6272.125
4211.000–4219.750
4241.000–4251.000
4266.375–4282.625
4318.875–4335.125
4359.125–4370.375
4442.875–4455.375
4445.875–4454.625
4477.125–4492.125
4504.250–4514.250
4560.500–4579.250
4611.500–4630.250
4742.750–4756.500
4827.875–4847.875
4876.625–4891.625
4946.500–4977.750
5054.000–5065.250
5142.625–5161.375
5191.375–5206.375
5233.150–5248.150
5285.650–5318.150
5304.625–5315.875
5353.375–5363.375
5376.250–5387.500
5415.000–5425.000
5672.875–5696.625
5722.875–5736.625
5765.375–5775.375
5797.875–5811.625
5860.625–5875.625
5922.125–5948.125
8447.500–8462.500
8842.500–8857.500
8447.500–8462.500
8842.500–8857.500
8447.500–8462.500
8842.500–8857.500
Molecular Indices
Incertidumbres en la medida de índices
ci
c1
c2
4.604
0.3684
8.537
0.2439
13.220
0.2580
7.038
0.3128
11.299
0.2511
17.757
0.2059
7.301
0.2539
16.455
0.2158
8.032
0.2472
9.250
0.2313
10.741
0.2685
7.256
0.2893
6.362
0.2679
6.134
0.3067
8.113
0.2496
8.852
0.2951
8.330
0.2777
7.750
0.2583
σ[Ia ] ≈
SN(Å) =
v
u
u 1
+
c2 ≡ t
∆λc
N
c1 − c2 Ia
SN(Å)
N
1 X
S(λi )
√
Θ i=1 σ(λi )
c1 ≡ ∆λc c2
λr − λc
λr − λb
!2
1
∆λb
+
λc − λb
λr − λb
!2
1
∆λr
c1 |z = (1 + z)1/2 c1 |z=0 ,
c2 |z = (1 + z)−1/2 c2 |z=0 ,
σ[Im ] ≈
c3
SN(Å)
c3 ≡ 2.5 c2 log10 e
c3
4080.125–4117.625
4244.125–4284.125
4083.875–4096.375
4244.125–4284.125
4895.125–4957.625
5301.125–5366.125
4895.125–4957.625
5301.125–5366.125
5816.625–5849.125
6038.625–6103.625
6066.625–6141.625
6372.625–6415.125
Tema 3: Cálculo de errores (♣)
v
u
D4000 u
1
1
t
σ[D4000 ] ≈ √
+
2
2
200
SN(Å)b
SN(Å)r
0.2241
0.2691
0.1662
0.1933
0.1824
0.1568
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
53 2010/2011
53 / 78
Incertidumbres en la medida de índices
Índices genéricos
Algunas veces los índices clásicos no son adecuados para extraer información en regiones espectrales con líneas múltiples. Una solución son los
índices genéricos (ver Cenarro et al. 2001).
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
54 2010/2011
54 / 78
Incertidumbres aleatorias
Ia (Å) ≡
Nf
�
k=1
�
ξ(k)
�
λc2 (k)
λc1 (k)
[1 − S(λ)/C(λ)] dλ
Incertidumbres en la medida de índices
�
�
N(l) �
Nf �
�
C2 (λl,i ) σ 2 [S(λl,i )] + S2 (λl,i ) σ 2 [C(λl,i )]
ξ 2 (l)
+
C4 (λl,i )
l=1 i=1
�
�
N(l)
N(m)
N
N
f ��
f �
�
S(λl,i ) S(λm,j )
+
ξ(l) ξ(m) 2
× cov(C(λl,i ), C(λm,j ))
C (λl,i ) C2 (λm,j )
�
σ(Ia )
Θ
�2
�
l=1 i=1 m=1 j=1
C(λk,i ) = α1 + α2 λk,i
Σ1 ≡
σ 2 [C(λk,i )] =
Nc M(n)
�
�
n=1 h=1
1
σ 2 [S(λn,h )]
Σ2 ≡
Nc M(l)
�
� � ∂C(λk,i ) �2
l=1 r=1
∂S(λl,r )
∂C(λk,i )
∂S(λl,r )
=
α1 =
Nc M(n)
�
�
n=1 h=1
σ 2 [S(λl,r )]
1
∆
{Σ3 Σ4 − Σ2 Σ5 }
λn,h
σ 2 [S(λn,h )]
Σ3 ≡
Nc M(n)
�
�
n=1 h=1
λ2n,h
σ 2 [S(λn,h )]
{Σ1 Σ5 − Σ2 Σ4 }
Σ4 ≡
Nc M(n)
�
�
n=1 h=1
∆ = Σ1 Σ3 − Σ2 Σ2
S(λn,h )
σ 2 [S(λn,h )]
Σ5 ≡
Nc M(n)
�
� λn,h S(λn,h )
σ 2 [S(λn,h )]
n=1 h=1
cov(C(λk,i ), C(λm,j )) = �C(λk,i ) C(λm,j )� − �C(λk,i )� �C(λm,j )� =
�
Tema 3: Cálculo de errores (♣)
1
∆
= [�α1 α1 � − �α1 ��α1 �] + [�α1 α2 � − �α1 ��α2 �] (λk,i + λm,j ) + [�α2 α2 � − �α2 ��α2 �] λk,i λm,j
�
λl,r
1
Σ3 − 2
Σ2 +
σ 2 [S(λl,r )]
σ [S(λl,r )]
�
�
λk,i
λl,r
1
Σ1 − 2
Σ2
∆
σ 2 [S(λl,r )]
σ [S(λl,r )]
1
∆
α2 =
�α1 α1 � − �α1 ��α1 � =
1
[Σ1
∆2
Σ3 Σ3 − Σ2 Σ2 Σ3 ]
�α1 α2 � − �α1 ��α2 � =
1
[Σ2
∆2
Σ2 Σ2 − Σ1 Σ2 Σ3 ]
�α2 α2 � − �α2 ��α2 � =
1
[Σ1
∆2
Σ1 Σ3 − Σ1 Σ2 Σ2 ]
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
55 2010/2011
55 / 78
Incertidumbres en la medida de índices
¡También podemos estimar incertidumbres en los índices genéricos!
σ[Ia ]z �
= (1 + z)1/2
σ[CaT(Å)] �
σ[PaT(Å)] �
σ[CaT∗ (Å)] �
c1 |z − c2 |z Ia |z
SN(Å)
=
c1 |z=0 − c2 |z=0 Ia |z=0
SN(Å)
18.09 − 0.1751 CaT
SN(Å)
14.27 − 0.1463 PaT
SN(Å)
16.43 − 0.1052 CaT∗
SN(Å)
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
56 2010/2011
56 / 78
Incertidumbres aleatorias
Incertidumbres en la medida de índices
Discontinuidades genéricas
Más recientemente también se han definido una discontinuidades genéricas (ver
Mármol-Queraltó et al., 2008).
Dgeneric ≡
λc,i2 − λc,i1
Z λ
c,i
λa,i2 − λa,i1
i=1
λa,i
1
nc
X
i=1
na
X
1
2
λc,i
1
Z λ
a,i2
1
2
σ [Dgeneric ] =
Fc,i (λ) dλ
Fa,i (λ) dλ
2
2
Fc2 σF
+ Fa2 σF
a
c
Fa4
i
Fx ≡ Θ
pixels
nx NX
X
i=1
Fx,i (λk )
k=1
i
2
σFx
Tema 3: Cálculo de errores (♣)
=Θ
2
pixels
nx NX
X
i=1
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
k=1
2
σF
x,i
(λk )
Curso
57 2010/2011
57 / 78
Incertidumbres en la medida de índices
Discontinuidades genéricas
Más recientemente también se han definido una discontinuidades genéricas (ver
Mármol-Queraltó et al., 2008).
εr =
Index
COmag
KH
IPuxley
IFrogel
DFrogel
DCO
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
c
SN(Å)
c
0.7537
2.0258
0.8123
0.1075
0.1198
Curso
58 2010/2011
58 / 78
Incertidumbres aleatorias
Incertidumbres en los parámetros físicos
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
59 2010/2011
59 / 78
Incertidumbres en los parámetros físicos
Una vez realizadas las medidas espectroscópicas (e.g., índices de intensidad de
líneas), deseamos interpretar dichas medidas en términos de parámetros físicos relevantes, como edad, composición química,. . . .
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
60 2010/2011
60 / 78
Incertidumbres aleatorias
Incertidumbres en los parámetros físicos
El último paso: la determinación de parámetros físicos
Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
∆mi �
n
X
aij ∆pj
j=1
VM =
VP = | det(B)|
φ(α, n) ≡
κ ≡ | det(B)|
n
Y
i=1
∆pj �
;
n
2 [π χ2n (α)]n/2 Y
n Γ(n/2)
bji ∆mi
i=1
σ(mi )
i=1
n
2 [π χ2n (α)]n/2 Y
c(mi )
n Γ(n/2)
n
X
SN(Å)i
i=1
= κ φ(α, n)
n
Y
1
SN(Å)i
i=1
2 [π χ2n (α)]n/2
n Γ(n/2)
c(mi ) =
1
n
Y
c(mi )
| det(A)|
i=1
| {z }
| {z }
sensibilidad a la sensibilidad
degeneración de los índices
de los parámetros a la SN(Å)
físicos
Tema 3: Cálculo de errores (♣)
×
⇒
VP ∝ κ
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
n
Y
1
SN(Å)i
i=1
Curso
61 2010/2011
61 / 78
Incertidumbres en los parámetros físicos
El último paso: la determinación de parámetros físicos
Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
∆mi �
n
X
aij ∆pj
j=1
VM =
VP = | det(B)|
φ(α, n) ≡
κ ≡ | det(B)|
n
Y
i=1
;
n
2 [π χ2n (α)]n/2 Y
n Γ(n/2)
bji ∆mi
i=1
σ(mi )
i=1
n
2 [π χ2n (α)]n/2 Y
c(mi )
n Γ(n/2)
n
X
SN(Å)i
i=1
= κ φ(α, n)
n
Y
1
SN(Å)i
i=1
2 [π χ2n (α)]n/2
c(mi ) =
n Γ(n/2)
1
n
Y
c(mi )
| det(A)|
i=1
| {z }
| {z }
sensibilidad a la sensibilidad
degeneración de los índices
de los parámetros a la SN(Å)
físicos
Tema 3: Cálculo de errores (♣)
∆pj �
×
⇒
Análisis de datos y Estadística Avanzada
VP ∝ κ
n
Y
i=1
1
SN(Å)i
Curso
62 2010/2011
61 / 78
Incertidumbres aleatorias
Incertidumbres en los parámetros físicos
El último paso: la determinación de parámetros físicos
Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
∆mi �
n
X
aij ∆pj
j=1
VM =
VP = | det(B)|
φ(α, n) ≡
κ ≡ | det(B)|
n
Y
i=1
∆pj �
;
n
2 [π χ2n (α)]n/2 Y
n Γ(n/2)
bji ∆mi
i=1
σ(mi )
i=1
n
2 [π χ2n (α)]n/2 Y
c(mi )
n Γ(n/2)
n
X
SN(Å)i
i=1
= κ φ(α, n)
n
Y
1
SN(Å)i
i=1
2 [π χ2n (α)]n/2
n Γ(n/2)
c(mi ) =
1
n
Y
c(mi )
| det(A)|
i=1
| {z }
| {z }
sensibilidad a la sensibilidad
degeneración de los índices
de los parámetros a la SN(Å)
físicos
Tema 3: Cálculo de errores (♣)
×
⇒
VP ∝ κ
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
n
Y
1
SN(Å)i
i=1
Curso
63 2010/2011
61 / 78
Incertidumbres en los parámetros físicos
El último paso: la determinación de parámetros físicos
Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
∆mi �
n
X
aij ∆pj
j=1
VM =
VP = | det(B)|
φ(α, n) ≡
κ ≡ | det(B)|
n
Y
i=1
;
n
2 [π χ2n (α)]n/2 Y
n Γ(n/2)
bji ∆mi
i=1
σ(mi )
i=1
n
2 [π χ2n (α)]n/2 Y
c(mi )
n Γ(n/2)
n
X
SN(Å)i
i=1
= κ φ(α, n)
n
Y
1
SN(Å)i
i=1
2 [π χ2n (α)]n/2
c(mi ) =
n Γ(n/2)
1
n
Y
c(mi )
| det(A)|
i=1
| {z }
| {z }
sensibilidad a la sensibilidad
degeneración de los índices
de los parámetros a la SN(Å)
físicos
Tema 3: Cálculo de errores (♣)
∆pj �
×
⇒
Análisis de datos y Estadística Avanzada
VP ∝ κ
n
Y
i=1
1
SN(Å)i
Curso
64 2010/2011
61 / 78
Incertidumbres aleatorias
Incertidumbres en los parámetros físicos
El último paso: la determinación de parámetros físicos
Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incertidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
∆mi �
n
X
aij ∆pj
j=1
VM =
VP = | det(B)|
φ(α, n) ≡
κ ≡ | det(B)|
n
Y
i=1
∆pj �
;
n
2 [π χ2n (α)]n/2 Y
n Γ(n/2)
σ(mi )
SN(Å)i
i=1
= κ φ(α, n)
n
Y
1
SN(Å)i
i=1
2 [π χ2n (α)]n/2
n Γ(n/2)
c(mi ) =
1
n
Y
c(mi )
| det(A)|
i=1
| {z }
| {z }
sensibilidad a la sensibilidad
degeneración de los índices
de los parámetros a la SN(Å)
físicos
Tema 3: Cálculo de errores (♣)
bji ∆mi
i=1
i=1
n
2 [π χ2n (α)]n/2 Y
c(mi )
n Γ(n/2)
n
X
×
⇒
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
VP ∝ κ
n
Y
1
SN(Å)i
i=1
Curso
65 2010/2011
61 / 78
Incertidumbres en los parámetros físicos
¡La mejor opción no es necesariamente la combinación de índices con predicciones
más ortogonales!
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
66 2010/2011
62 / 78
Incertidumbres aleatorias
Incertidumbres en los parámetros físicos
Incluso dentro de un mismo diagrama, las incertidumbres dependen de la posición en
el espacio de parámetros físicos.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
67 2010/2011
63 / 78
Incertidumbres en los parámetros físicos
Cuando las incertidumbres están correlacionadas, no tiene demasiado sentido
parametrizar las incertidumbres utilizando la desviación típica.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
68 2010/2011
64 / 78
Incertidumbres aleatorias
¿Y cuando sólo tenemos los datos?
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Incertidumbres aleatorias
Curso
69 2010/2011
65 / 78
¿Y cuando sólo tenemos los datos?
¡Siempre se puede hacer algo!
¿Qué hacer cuando ni siquiera es posible realizar simulaciones de Monte Carlo para
generar muestras sintéticas a partir de primeros principios?
Supongamos que nuestra muestra está formada por N valores Ai
independientes e indénticamente distribuidos, por lo que el orden secuencial de
dichos valores no es consecuencia del proceso que seguimos para su obtención
(Ai tiene la misma probabilidad de aparecer en cualquier posición entre 1 y N).
Vamos a asumir que dichos datos contienen la información necesaria para
considerarlos como si fueran toda una población. Entonces podemos generar
muestras sinéticas (en lugar de datos sintéticos como hacíamos antes) a partir
de ellos.
Veamos dos métodos comúnmente utilizados
Jackknife
Bootstrap
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
70 2010/2011
66 / 78
Incertidumbres aleatorias
¿Y cuando sólo tenemos los datos?
Jackknife1
Este método consiste en generar, a partir de muestras de N elementos, N submuestras de N − 1
elementos, eliminando en cada una de estas submuestras secundarias un elemento (podemos
hacerlo de forma consecutiva, eliminando el primer elemento en la primera muestra, el segundo
en la segunda muestra, y así sucesivamente.
Bootstrap2
Es una generalización del método anterior, en el cual se generan muestras secundarias de N
elementos, seleccionando los elementos de forma aleatoria a partir de la muestra original, pero
permitiendo repetir valores. De esta forma, una fracción aleatoria de los valores iniciales aparecerán duplicados (∼ 1/e � 37%).
⇒ Estos métodos no dan información a partir de la nada.
sconocíamos previamente (ver Press et al. 2002).
1
Nos dan información que de-
Podemos traducirlo como pequeña navaja o navaja de bolsillo.
2
El nombre se debe a la aparente capacidad del método de conseguir algo aparentemente imposible (sacar de donde no hay).
En Las increíbles aventuras del Barón Munchhausen, Rudolph Erich Raspe cuenta que en cierta ocasión el Barón logró escapar
de una muerte segura al salir volando tirando de los cordones de sus propias botas (en inglés “[. . . ] he thought to pull himself up
by his own bootstraps”).
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Curso
71 2010/2011
67 / 78
Curso
72 2010/2011
68 / 78
Algunas fuentes
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Algunas fuentes
Ejemplos de fuentes listados en la GUM
Definición incompleta de la magnitud a medir.
Imposibilidad de medir la magnitud definida.
Obtención de muestras no representativas.
Conocimiento incompleto de los factores ambientales que afectan a las medidas.
Sesgos personales en la lectura de medidas analógicas.
Resolución finita de los instrumentos de medida.
Valores inexactos de las magnitudes de referencia.
Valores inexactos de constantes y otros parámetros obtenidos de fuentes
externas y empleados en la reducción de los datos.
Aproximaciones y asunciones empleadas durante la toma de datos y su
manipulación posterior.
...
Recordemos: la incertidumbre de una corrección realizada sobre una medida para compensar de un efecto sistemático no es el
error sistemático en el resultado de la medida debido a dicho efecto. Se trata más bien de una medida de la incertidumbre del
resultado debido a un conocimiento incompleto del valor de la corrección.
⇒ Debemos evitar utilizar la expresión “incertidumbre sistemática” (puede ser confusa).
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Curso
73 2010/2011
69 / 78
Curso
74 2010/2011
70 / 78
Tratamiento
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Tratamiento
¿Se puede hacer algo?
Sí. ¡Evitarlos!
Algunos efectos sistemáticos pueden descubrirse tras el análisis
cuidadoso del experimento o proceso de medida antes de su ejecución.
— Pueden corregirse realizando las correcciones adecuadas o
modificando el diseño experimental.
Los restantes efectos sistemáticos pueden ser muy difíciles de
reconocer, y serán detectables con cierta garantía después, sólo
cuando puedan compararse medidas realizadas a través de dos o más
experimentos independientes.
— En estos casos es posible utilizar la inferencia bayesiana.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Curso
75 2010/2011
71 / 78
Tratamiento
¿Se puede hacer algo?
Sí. ¡Evitarlos!
Algunos efectos sistemáticos pueden descubrirse tras el análisis
cuidadoso del experimento o proceso de medida antes de su ejecución.
— Pueden corregirse realizando las correcciones adecuadas o
modificando el diseño experimental.
Los restantes efectos sistemáticos pueden ser muy difíciles de
reconocer, y serán detectables con cierta garantía después, sólo
cuando puedan compararse medidas realizadas a través de dos o más
experimentos independientes.
— En estos casos es posible utilizar la inferencia bayesiana.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
76 2010/2011
71 / 78
Efectos sistemáticos
Tratamiento
¡La inferencia bayesiana al rescate!
Una de las características de las técnicas bayesianas es su capacidad
de incorporar información inicial (prior) y estudiar cómo afecta a
nuestras conclusiones.
Un efecto sistemático puede introducirse como un nuevo parámetro en
el estudio, y tratarlo como un nuisance parameter (parámetro
irrelevante) e integrar sobre él (marginalizar). Si la incertidumbre debida
al efecto sistemático es muy grande, ello se reflejará en nuestra
inferencia final.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Curso
77 2010/2011
72 / 78
Curso
78 2010/2011
73 / 78
Un ejemplo astronómico
Esquema
1
Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2
Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3
Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Un ejemplo astronómico
Ley de Hubble: v = H0 x
Determinar la distribución de probabilidad posterior para la distancia x a una galaxia cuya velocidad de recesión es vg = (100 ± 5) × 103 km s−1 , asumiendo H0 = 70 km s−1 Mpc−1 y en las
siguientes cuatro situaciones:
1
2
Para un valor fijo de H0 = 70 km s−1 Mpc−1 , es decir, p(H0 |I) = δ(H − H0 ).
Para un valor de H0 con una icertidumbre dada por una distribución de probabilidad
gaussiana

ff
(H0 − 70)2
p(H0 |I) = k exp −
.
2 × 102
3
Asumiendo una distribución de probabilidad uniforme para H0

1/(90 − 50), para 50 ≤ H0 ≤ 90
p(H0 |I) =
0,
en otro caso.
4
Asumiendo una distribución de probabilidad de Jeffreys (igual probabilidad por década
—invarianza de escala—)

[H0 ln(90/50)]−1 , para 50 ≤ H0 ≤ 90
p(H0 |I) =
0,
en otro caso.
Considerar que la velocidad de recesión medida es vg = vreal + �, donde � es la incertidumbre,
admitiendo que � sigue una distribución N(µ = 0, σ = 5). Suponer además que la incertidumbre
en la velocidad no está correlacionada con la incertidumbre en H0 .
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Curso
79 2010/2011
74 / 78
Un ejemplo astronómico
Ley de Hubble: v = H0 x
Calculamos la PDF posterior para x marginalizando el parámetro H0
Z ∞
p(x|D, I) =
p(x, H0 |D, I) dH0 .
−∞
Usando el Teorema de Bayes
p(x|D, I) ∝ p(x|I)
Z
∞
−∞
Asumiendo que H0 y x son independientes
Z
p(x|D, I) ∝ p(x|I)
p(H0 |x, I) p(D|x, H0 , I) dH0 .
∞
−∞
p(H0 |I) p(D|x, H0 , I) dH0 .
En este caso, I incluye la información relevante a nuestro conocimiento sobre H0 , que, para los
casos propuestos, tiene una PDF que sigue 1) una delta de Dirac, 2) una gaussiana, 3) una
función uniforme y 4) una función de Jeffreys.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
80 2010/2011
75 / 78
Efectos sistemáticos
Un ejemplo astronómico
Ley de Hubble: v = H0 x
1
2
3
H0 constante

ff
(vg − H0 x)2
p(x|D, I) ∝ p(x|I) √
exp −
.
2σ 2
2πσ
PDF de H0 gaussiana
Z
p(x|D, I) ∝ p(x|I)
PDF de H0 uniforme
1
ff

ff

1
(vg − H0 x)2
(H0 − 70)2
×√
exp −
dH0 .
k exp −
2 × 102
2σ 2
2πσ
−∞
∞
p(x|D, I) ∝ p(x|I)
4
Z
90
50

ff
1
1
(vg − H0 x)2
×√
exp −
dH0 .
(90 − 50)
2σ 2
2πσ
PDF de H0 siguiendo una función de Jeffreys

ff
Z 90
1
(vg − H0 x)2
1
×√
exp −
dH0 .
p(x|D, I) ∝ p(x|I)
2σ 2
2πσ
50 H0 ln(90/50)
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Efectos sistemáticos
Curso
81 2010/2011
76 / 78
Un ejemplo astronómico
Ley de Hubble: v = H0 x
Resultado asumiendo un prior uniforme p(x|I)
Las consecuencias de introducir incertidumbre en H0 son: i) la PDF posterior para la galaxia es más ancha y ii) la media de la PDF
se desplaza a valores más altos (las medias son 1429, 1486, 1512 y 1556 km s−1 , respectivamente), es decir, la PDF posterior
es asimétrica.
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
82 2010/2011
77 / 78
Efectos sistemáticos
Un ejemplo astronómico
Referencias
Cardiel N., Gorgas J., Cenarro J., González, J.J., Reliable random error estimation in the
measurement of line-strength indices, 1998, A&AS 127, 597
Cardiel N., Gorgas J., Gallego J., et al., Proper handling of random errors and distortions in
astronomical data analysis, 2002, SPIE, 4847, 297
Cardiel N., Gorgas J., Sánchez-Blázquez P., et al., Using spectroscopic data to
disentangle stellar population properties, 2003, A&A, 409, 511
Cenarro A.J., Cardiel N., Gorgas J., et al., Empirical calibration of the near-infrared Ca II
triplet - I. The stellar library and index definition, 2001, MNRAS, 326, 959
D’Agostini G., Probability and Measurement Uncertainty in Physics, 1995,
arXiv:hep-ph/9512295v2
Gregory P.C., Bayesian Logical Data Analysis for the Physical Sciences, 2005, Cambridge
University Press
Internatinal Organization for Standardization (ISO), Guide to the expression of uncertainty
in measurement, 1993, Geneva, Switzerland
Mármol-Queraltó E., Cardiel N., Cenarro A.J., et al., 2008, A&A, en prensa
Press W.H., et al., Numerical Recipes in Fortran 77, 2002, Cambridge University Press
Trager S.C., Faber S.M., Worthey G., González J.J., 2000a, AJ, 119, 1645
Tema 3: Cálculo de errores (♣)
Análisis de datos y Estadística Avanzada
Curso
83 2010/2011
78 / 78
Descargar