La Estadística Aplicada al Laboratorio de Ensayos

Anuncio
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 1 de 28
REPRESENTACIONES GRÁFICAS UTILIZANDO TESTS PARAMÉTRICOS
Los gráficos de control en el análisis químico
A menudo surge la necesidad de controlar periódicamente la fabricación de un
determinado producto, por ejemplo, para observar si los artículos individuales
contienen, en promedio, la cantidad correcta de una dada sustancia, puede
asegurarse de esta manera que no existe demasiada variación. Existen varios
modos de efectuar este control, uno de ellos es tomar pequeñas muestras a
intervalos regulares.
Veamos un ejemplo concreto: la longitud de un cierto tipo de clavos que salen de
una línea de producción. Este parámetro debe ajustarse a un valor exacto 0. En
realidad siempre existirá una variación aleatoria de un clavo a otro. Esta variación
se debe en parte, al error aleatorio generado en la medición misma y a la
diferencia real en la longitud del clavo. Supongamos que sabemos el tamaño de la
variación aleatoria global, mensurada por la desviación estándar de la población
de experiencias anteriores. Si nuestro proceso está bajo control (control
estadístico), es decir que las longitudes de los clavos producidos tienen una
longitud media 0 y desviación estándar , tendremos que para una muestra de n
clavos, cerca del 95 % de las medias muestrales se encontraran incluidas en el
n y aproximadamente el 99.7 % dentro del intervalo
intervalo 0 2
0
3
n.
En un gráfico de control se presentan consecutivamente los valores de las medias
muestrales de manera de obtener una visualización mas directa del proceso y así
tomar acciones correctivas mas rápidas. En la figura de abajo se muestra un tipo
de gráfico de control denominado Diagrama de Shewart. Se representa el valor de
la media muestral, x , en función del tiempo, y cuando el proceso está bajo control
estadístico, los valores de x se distribuyen normalmente alrededor de 0. Existen
n y
dos pares de líneas horizontales (punteadas): las líneas de aviso en 0 2
n . El nombre de estas líneas nos habla de su
las líneas de acción en 0 3
objetivo. La probabilidad de que una media caiga fuera de las líneas de acción
cuando el proceso esta bajo control estadístico, es solo 0.002 ( = 0.00 o 0.2 %).
En el caso de que esto ocurra, la acción mas acertada es detener el proceso e
investigar sus causas. La probabilidad de que x caiga entre una línea de acción y
una línea de aviso es de aproximadamente 0.02 (1 en 50): un punto que caiga
dentro de este intervalo no debería causar preocupación. En cambio, si dos puntos
consecutivos se sitúan dentro de este intervalo, debería llamarnos la atención
como para detener el proceso.
1
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 2 de 28
El principal objetivo de estos gráficos es investigar si un determinado proceso esta
bajo control estadístico y en el laboratorio analítico, monitorear el control de
calidad del proceso de medida químico.
Existen dos razones por las que los puntos podrían empezar a caer fuera de las
líneas de acción (Analicemos el caso de medidas químicas):
1ra
2da
La media del control de calidad del proceso de medida química, puede
haber derivado hacia fuera del valor objetivo.
Un incremento en la variación que genera que las líneas de aviso y acción
no indiquen las probabilidades correctas. Puede ocurrir tambien que la
variación del sistema disminuya, lo que es difícil de detectar con este tipo
de gráficos, por ello, entre otras acciones, se requiere un nuevo estudio de
la dispersión del método.
Efectos que pueden ser detectados con un gráfico de control.
Análisis de regresión y correlación
2
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 3 de 28
El análisis de regresión es utilizado para estudiar la relación entre dos o más
variables. Esta relación se expresa como una función matemática, para estudiar la
dependencia entre una variable no controlada y otra que si lo está durante el
experimento.
El modelo de regresión mas simple y utilizado supone que la variable
independiente no esta sujeta a error (Modelo 1). Una de las aplicaciones de dicho
modelo se denomina calibración donde la respuesta instrumental se relaciona con
las concentraciones conocidas del analito en los patrones o estándares de
calibración.
En cambio un modelo de regresión que tome en cuenta el error asociado a ambas
variables es un tanto mas complicado de ejecutar (Modelo 2), esta técnica es mas
ampliamente utilizada cuando se necesita comparar dos métodos obviamente
afectados de error. Es decir, existirán errores de medición en ambos métodos
(ejes). Este modelo no será desarrollado en el presente módulo.
y
Modelo 1
a bx
3
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 4 de 28
Figura: Curvas de regresión – Modelo 1- a) Curva de regresión verdadera (nunca
puede conocerse con exactitud, solo puede estimarse) b) Curva de regresión
estimada.
La línea estimada se calculó mediante el método de cuadrados mínimos, que
minimiza la suma al cuadrado de los residuales. El residual el ei es la desviación
del valor, medido yi respecto al valor y predicho por la recta de regresión:
ei
yi
yi
Las ecuaciones para a y b son:
xi
b
a
y
x
x yi
xi
x
y bx
y
2
pendiente de la línea estimada
ordenada al orígen de la línea estimada
yi
y media
n
xi
x media
n
La varianza de los residuales es:
s
2
e
yi
yi
2
n 2
4
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 5 de 28
Observe que en los cálculos de regresión lineal, el número de grados de libertad
es n – 2, esto refleja el hecho de que para representar una recta se necesitan solo
dos puntos.
Esta varianza es una medida de la dispersión de las mediciones alrededor de la
línea de regresión, también es denominado error experimental puro.
Análisis de regresión en el análisis instrumental. Curvas de Calibración
El análisis de regresión lineal es un método ampliamente utilizados en el campo
del análisis instrumental. Entre otras cosas nos permite trabajar en un intervalo
relativamente amplio de concentraciones. Además los resultados y los errores
aleatorios se calculan y se evalúan de una manera diferente a la que se utiliza
cuando se repite una sola medición varias veces.
En la figura de abajo podemos observar una curva donde se representa: en
ordenadas, la señal instrumental medida (absorbancia, cuentas, corriente
eléctrica, carga eléctrica, etc) y en abcisas, la concentración del analito (ng / L,
moles / L, ppm, etc).
Este tipo de gráfico es denominado comúnmente curva de calibración, puesto que,
para patrones cuya concentración de analito conocemos, obtenemos una señal de
nuestro instrumento que intentamos en principio, presente una respuesta lineal.
En el grafico anterior vemos nuestros puntos experimentales (medidos) y una
recta que intenta pasar a través de ellos (la recta que mejor se ajusta o línea
estimada). Los parámetros de esta línea estimada y a bx , b y a (pendiente y
ordenada al origen respectivamente), se calculan por el método de los cuadrados
mínimos como describimos al comienzo del apartado.
5
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 6 de 28
En la curva anterior también podemos observar el proceder para obtener la
concentración de nuestro analito en una muestra cuya concentración es
desconocida. Primeramente obtenemos la señal que nos da el instrumento para la
muestra incógnita (signal) y luego, utilizando el gráfico o las ecuaciones de la
recta, interpolamos a abcisas (concentration) donde encontramos el valor de
concentración del analito en nuestra muestra incógnita.
A la hora de efectuar un análisis empleando regresión lineal debemos tener en
cuenta lo siguiente:
la concentración de muestras incógnita se determina generalmente por
interpolación y no por extrapolación.
ha de incluirse una muestra blanco.
necesitamos conocer el grado de linealidad en nuestro intervalo de
trabajo (ver mas abajo).
Los límites de confianza para la pendiente y la ordenada al origen de la
recta (ver mas abajo).
Los errores aleatorios y límites de confianza para la concentración
determinada de una muestra incógnita (ver mas abajo).
El límite de detección del método (menor concentración de analito que
se puede detectar con un nivel de confianza predeterminado) (ver mas
abajo).
Además, el análisis por regresión lineal utiliza dos suposiciones básicas:
los errores aleatorios en la calibración sólo ocurren en los valores de
ordenadas (señal). Esta de mas decir que nuestro instrumento arroja un
valor de señal que posee, como todo instrumento de medida, una
dispersión asociada. No obstante, en el eje de abcisas (concentración)
también suceden errores aleatorios, puesto que los patrones utilizados
(comerciales o no) tienen asociada también una dispersión.
Generalmente los errores asociados a las concentraciones de los
patrones suelen ser generalmente inferiores a los errores inherentes al
instrumento de medida.
la magnitud de los errores aleatorios en ordenadas es independiente de
la concentración de analito. Esta afirmación no siempre es cierta, ya que
en la práctica sueles encontrarse algunas relaciones funcionales.
El grado de linealidad de una curva de calibración.
6
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 7 de 28
Existe un parámetro, el coeficiente de correlación para regresión lineal, r, que nos
permite visualizar el grado de linealidad de una curva. Viene dado por la siguiente
expresión:
Observamos en la ecuación que –1 r 1. Si la recta es perfectamente lineal y
además b > 0 entonces r = 1 (figura a). Si por el contrario, la recta es perfecta y b
< 0, r = -1 (figura b). Si no existe linealidad alguna, r = 0, (figura c).
En muchos casos el valor de r calculado puede generar una interpretación errónea
respecto de una curva. Veamos los gráficos siguientes:
7
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 8 de 28
En (a) se observa a simple vista que la curva no es lineal aunque el valor de r no
se aleja demasiado de 1 (0.986). En (b), un r = 0 no significa que no exista
correlación entre los datos sino que en realidad existe una relación, pero esta no
es lineal. Por ello, siempre se hace necesario elaborar una gráfica que acompañe
a r.
Un test estadístico puede ayudarnos también a decidir acerca de la linealidad de
una curva de calibración. La siguiente expresión nos da un valor para t en función
de r:
luego se compara t con el valor tabulado para el nivel de significación deseado
usando un prueba t de dos colas y (n-2) grados de libertad.
Para ello planteamos la hipórtesis nula:
H0 : no existe correlación entre x e y.
Si tcal > ttab , H0 debe rechazarse y por lo tanto si existe una correlación lineal entre
los datos.
Errores aleatorios en la pendiente y en la ordenada al origen. Sus límites de
confianza.
Ya que suponemos que existen errores solo en ordenadas, es obvio que los
mismos se van a propagar a la pendiente, b, y la ordenada al origen, a. Veamos el
gráfico que se muestra abajo:
8
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 9 de 28
donde:
x1, x2 ...x6 son los valores de x “carentes de error”
y1, y2 ...y6 son los valores de y obtenidos experimentalmente
ŷ1 , ŷ 2 ... ŷ 6 son los valores de y obtenidos desde la curva ajustada
Tenemos ahora, el estadístico sy/x:
que nos sirve para expresar sb, la desviación estándar de la pendiente y sa, la
desviación estándar de la ordenada al origen respectivamente:
9
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 10 de 28
Ahora ya estamos en condiciones de establecer los límites de confianza para la
pendiente y la ordenada al origen:
b ts b
y
a tsa
para un nivel de confianza deseado y n-2 grados de libertad.
Cálculo de la concentración y error asociado
En el cálculo de la concentración utilizamos la siguiente expresión derivada
directamente de la ecuación de la recta:
x0
y0
a
b
donde x 0 es la concentración de la muestra incógnita e y 0 es la señal que general
la misma muestra.
Es complicado obtener una expresión simple a los fines de calcular el error
asociado a x 0 . Una buena aproximación lo dan las siguientes expresiones:
Para una sola lectura de y 0
Para m lecturas de y 0
Entonces los límites de confianza se calculan como: x0 ts x 0 , con (n-2) grados de
libertad para los niveles de confianza deseados.
En la gráfica de abajo se muestra la forma general de los límites de confianza para
una concentración dada empleando una recta de regresión simple.
10
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 11 de 28
Podemos observar que si nuestra calibración no es buena obtendremos un valor
elevado de s x0 lo que va en desmedro de nuestro análisis. La pregunta es: ¿Cómo
disminuir s x0 , al nivel de confianza deseado? De las expresiones anteriores
podemos apreciar que s x0 disminuye cuando:
Aumenta b, es decir, aumenta la pendiente o sensibilidad del
instrumento.
Aumenta n, es decir, aumenta el número de patrones utilizados en la
calibración. Este incremento va también acompañado en el valor de t
utilizado para determinar el intervalo de confianza.
Aumenta m, en el caso de s x0 para m lecturas de y0.
y0 (lectura de la muestra incógnita) cae aproximadamente en la mitad de
2
la curva de calibración; entonces y 0 y se hace pequeño.
Ejemplo:
Mediante Espectrometría de Absorción Atómica se obtuvieron la siguientes
respuestas para soluciones patrón de mercurio en matriz ácido nítrico al 2%:
11
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 12 de 28
[Hg] / g/L
2
4
6
8
10
12
Respuesta
Instrumental (*)
5.0
9.0
12,6
17,3
21.0
24,7
*) Unidades Arbitrarias de Absorbancia
Respuesta Instrumental
Primeramente graficamos la curva de calibración, utilizamos en este caso Excel:
30
25
20
15
10
5
0
0
5
10
15
[Hg] / ug/L
Para comenzar la regresión debemos encontrar la recta que mejor ajusta a
nuestros datos de calibración, sus parámetros respectivos afortunadamente
también podemos calcularlos con la planilla Excel; obtenemos la siguiente curva:
12
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Respuesta Instrumental
Página 13 de 28
30
25
20
15
10
5
0
0
y = 1.9886x + 1.0133
R2 = 0.9989
5
10
15
[Hg] / ug/L
de allí extraemos los parámetros de la recta:
a = 1.0133
b = 1.9886
r = 0.99945
Debemos hacernos la siguiente pregunta ¿Nuestra curva se ajusta bien a una
recta? o ¿existe correlación lineal entre [Hg] y Respuesta Instrumental?
Planteemos la hipótesis nula:
H0: No existe correlación entre [Hg] y Respuesta Instrumental (al 95 % de
confianza).
Recordemos la expresión para t en función de r
calculamos manualmente y obtenemos que:
tcal = 60.3
en tablas o en Excel obtenemos para un test a dos colas,
libertad (n-2) que:
y 4 grados de
tcrít = 2.77
Como tcal > tcrít , rechazamos la hipótesis nula y por tanto concluimos que existe
correlación lineal, para nuestra calibración al 96 % de confianza.
13
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 14 de 28
Calculamos ahora, los límites de confianza para a y b:
Recordamos las expresiones para la desviación de estos parámetros
Para computar estos parámetros recurrimos al software Microcal Origin (estos
cómputos tambien pueden adquirirse con MS-Excel. Obtenemos:
[05/06/05 22:05 "/Graph1" (2452430)]
Linear Regression for Data1_B:
Y=A+B*X
Parameter Value
Error
----------------------------------------------------A
1.51786
0,25673 (sa)
B
1.93036
0,03296 (sb)
-------------------------------------------------------
buscamos el valor de t para el 95 % de confianza y 4 grados de libertad
Tcrít = 2.77
Calculamos los intervalos de confianza según:
b ts b
y
a tsa
y obtenemos finalmente:
a = 1.52 ± 2.57 * 0.2567 = 1.52 ± 0.71; b = 1.93 ± 2.77 * 0.03296 = 1.93 ± 0.09
siguiendo con el ejemplo:
14
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 15 de 28
Para la curva de calibración anterior, determinar los valores de x0 y sx0 y los
límites de confianza de x0 para soluciones cuyas respuestas son 2.9, 13.5, y 23.0
UAA.
A partir de x0
y0
a
b obtenemos los valores de x0 respectivos:
0.96, 6.28 y 11.1 g/L
Teniendo en cuenta la expresión ya vista:
calculamos los sx0 que son respectivamente 0.26, 0.24, 0.26.
Finalmente los límites de confianza teniendo en cuenta x0
n-2=4) para cada concentración son:
ts x0 al 95 % (t = 2.77,
0.96 ± 0.19 g/L,
6.28 ± 0.17 g/L y
11.1 ± 0.15 g/L
El límite de detección
Es aquella concentración que proporciona una señal en el instrumento
significativamente diferente de la señal del “blanco” o señal de fondo.
Una definición basada en consideraciones estadísticas muy utilizada es: “cantidad
de concentración de analito que proporciona una señal igual a la señal del blanco,
yB, mas tres veces la desviación estándar del blanco, sB.
y – yB = 3sB
¿Cómo podemos obtener el valor de límite de detección para una técnica,
empleando una curva lineal de calibración? o ¿Cómo obtenemos los parámetros
yB y sB?
Utilizamos sy/x en lugar de sB (suponemos a la desviación del blanco
igual a la dispersión de la curva en ordenadas).
a (ordenada al origen) puede utilizarse como una estimación de yB (la
señal del blanco)
15
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 16 de 28
Veamos un ejemplo:
Estimemos el limite de detección para el ejemplo anterior (curva de calibración
para patrones de mercurio)
Utilizamos:
3sB + yB = y
y = 1.52 + 3 * 0.2758 = 2.35
Señal en el límite de detección = 2.35 (estadísticamente diferenciada de la señal
del blanco)
Introducimos este valor en x0 = (y0 – a)/b y obtenemos:
[Hg]límite = 0.68 g / L
El método de las adiciones de estándar
Los patrones utilizados en las curvas de calibración frecuentemente difieren, en
cuanto a su matriz, de las muestras incógnitas a determinar, lo que puede
ocasionar efectos indeseados respecto de la exactitud del análisis. Tal
consecuencia (efecto matriz) puede minimizarse empleando matrices similares a
la de la muestra incógnita en la confección de las soluciones estándar. Pero
muchas veces resulta complicado o imposible lograr esto. Afortunadamente existe
el método de las adiciones estándar, que consiste en agregar sobre la misma
muestra incógnita, cantidades conocidas del analito en estudio que posteriormente
se analizarán instrumentalmente.
A continuación ha de representarse la curva y verificarse su linealidad. Para
obtener el valor de concentración del analito en la muestra incógnita debe
extrapolarse la ecuación de la recta de la curva a y = o.
La ecuación de la recta es: y = a + bx
para y=0: xE=-a/b = concentración del analito en la muestra incógnita
La desviación estándar del valor extrapolado se calcula según:
Los limites de confianza se calculan como xE ± tsxE
16
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 17 de 28
Debemos tener en cuenta que:
Pequeñas desviaciones de la linealidad pueden producir errores
sistemáticos apreciables.
Al aumentar n mejora la precisión al igual que maximizando
xi
x
2
i
Un incremento en la sensibilidad del instrumento, b, disminuye también
la dispersión de xE.
Al ser un método de extrapolación es menos preciso que uno de
interpolación.
Ejemplo: La [U] en una muestra de orina de un trabajador de una mina de este
metal, es determinada por técnicas voltamperométricas con preconcentración
utilizando el método de las adiciones estándar:
U agreg. / g/L en la
solución de la
Corriente de pico / A
muestra incógnita
0
0.32
5
0.41
10
0.52
15
0.60
20
0.70
25
0.77
30
0.89
Corriente de pico / uA
Efectuamos la regresión empleando Excel:
1
0.8
0.6
0.4
y = 0.0186x + 0.3218
R2 = 0.9976
0.2
0
-20
0
20
40
[U] agregado ug/L
Los parámetros de la recta son:
17
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 18 de 28
a = 0.3218
b = 0.0186
r = 0.9988
De acuerdo a xE=-a/b obtenemos que [U] = 17.30 g/L
Los limites de confianza son calculados teniendo de acuerdo a la expresión ya
vista:
Tenemos que sxE = 0.749 y
t0.05,5 a dos colas = 2.57
los límites de confianza son:
17.3 ± 2.57 * 0.749 = (17.3 ± 1.9) g/L
Comparación de métodos analíticos
Este es el caso común en que los resultados obtenidos utilizando un nuevo
método se comparan con aquellos obtenidos mediante un método bien
establecido. Es una técnica utilizada en los procesos de validación de métodos.
Tal comparación tiene por objeto la identificación de errores sistemáticos. En los
casos donde un análisis se repite varias veces sobre un intervalo muy reducido de
concentración deben utilizarse las pruebas estadísticas descritas anteriormente.
Estas pruebas no se adecuan cuando los intervalos de concentración son amplios,
tal es el caso de del análisis instrumental.
Si queremos comparar dos métodos a diferentes concentraciones debemos
adoptar, por ejemplo, el análisis de regresión. El mismo consiste en emplear uno
de los ejes de la gráfica para representar los resultados obtenidos por el nuevo
método y el otro para representar a los que se obtienen aplicando el método de
referencia para las mismas muestras. De esta manera, un punto del gráfico,
representa una muestra analizada por cada método separadamente.
La ausencia de todo error, ya sea aleatorio o sistemático, en los datos se
manifiesta en la obtención de una línea recta de pendiente unidad y ordenada en
el origen cero, tal como muestra la línea (a) de la figura que se muestra debajo.
La presencia de sólo un error sistemático proporcional nos lleva a la obtención de
una recta, representada por la línea (b), con pendiente distinta de la unidad,
mientras que la existencia de un error sistemático constante conduce a la
18
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 19 de 28
obtención de una recta con una ordenada en el origen distinta de cero (c). Los
errores aleatorios, que acompañan siempre a todo tipo de resultados, dan lugar a
una dispersión de los puntos experimentales alrededor de la línea de regresión.
De esta manera, la presencia de los tres tipos de errores mencionados, aleatorios,
sistemáticos constantes y sistemáticos proporcionales dan lugar a la recta (d) de la
figura.
Figura. Comparación mediante regresión lineal de resultados obtenidos mediante
dos métodos analíticos distintos
El análisis de regresión muestra ser el más indicado para detectar y cuantificar
este tipo de errores. La desviación estándar de los residuos de la regresión u otros
parámetros relacionados proporcionan una medida para cuantificar los errores
aleatorios. Los tests independientes de la pendiente y de la ordenada al origen
permiten comprobar la ausencia de errores sistemáticos debidos al blanco o a la
presencia de errores proporcionales. Sin embargo debemos señalar que, desde el
punto de vista estadístico, existe una diferencia notable cuando la técnica de
regresión lineal se aplica a la calibración o cuando se utiliza, como en este caso,
para comparar dos conjuntos de resultados obtenidos experimentalmente. Este
hecho es debido a que en este último caso ninguno de los dos conjuntos de datos
está libre de error, por lo que deberán aplicarse técnicas de regresión que
contemplen la presencia de errores en ambos ejes de coordenadas x e y a
diferencia de la calibración en donde se considera que sólo el eje x está libre de
error. De todos modos, si se desea utilizar la técnica usual de regresión por
cuadrados mínimos, debido principalmente a su simplicidad, en el eje de las x se
colocará el método analítico que produzca un menor error.
19
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 20 de 28
Para llevar a cabo la comparación de dos métodos analíticos a múltiples niveles
de concentración puede utilizarse el test conjunto de la ordenada al origen y la
pendiente. Este test, aplicado desde 1957 a problemas químicos, busca la recta
de regresión entre los resultados obtenidos al analizar diversas muestras a varios
niveles de concentración mediante dos métodos, el método de referencia,
normalmente en el eje de las x, y método a comprobar, normalmente en el eje de
las y. Si los dos métodos en comparación producen resultados que no difieren
estadísticamente entre ellos a un nivel de significancia , la ordenada de la recta
de regresión no ha de ser estadísticamente diferente de cero y simultáneamente la
pendiente de la recta de regresión no debe ser estadísticamente diferente de 1. El
principal inconveniente de este test es que para buscar los coeficientes de la recta
de regresión utiliza el método de cuadrados mínimos, el cual considera al método
situado en el eje de las x como libre de error. Recientemente (RIU, 1996) se ha
desarrollado el test conjunto para la ordenada en el origen y la pendiente
considerando errores en los dos métodos analíticos el cual permite llevar a cabo
la comparación de dos métodos analíticos teniendo en cuenta los errores reales
asociados a cada uno de los métodos en comparación.
Ejemplo:
El nivel de plomo de diez muestras de jugo de fruta se determinó por un nuevo
método de análisis potenciométrico de redisolución (APR) empleando un
electrodo de trabajo de carbono vítreo, y los resultados fueron comparados con los
obtenidos mediante una técnica de referencia por espectrometría de absorción
atómica de llama (EAA).
Se obtuvieron los siguientes datos (todo los resultados en g/L).
Muestra
1
2
3
4
5
6
7
8
9
10
EAA
35
75
75
80
125
205
205
215
240
350
APR
35
70
80
80
120
200
220
200
250
330
La Regresión Lineal es:
20
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 21 de 28
400
APR [Pb] / ug/L
350
300
250
200
150
y = 0.9634x + 3.8666
R2 = 0.9891
100
50
0
0
100
200
300
400
EAA [Pb] / ug/L
Desde la curva tenemos que:
a = 3.87, b = 0.968, r = 0.9945
Calculando obtenemos:
sy/x = 10.56, sa = 6.64, sb = 0.0357
Para 8 grados de libertad y 95 % de confianza:
t = 2.31
Los límites de confianza son:
a = 3.87 ± 15.34 y (el intervalo incluye a cero)
b = 0.968 ± 0.083 (el intervalo incluye a 1)
No existen diferencias significativas entre los métodos APR y EAA para
determinar Pb.
MÉTODOS NO PARAMÉTRICOS
Hasta ahora todas las técnicas utilizadas para realizar algún tipo de inferencia
exigían:
21
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 22 de 28
asumir ciertas hipótesis como la aleatoriedad en las observaciones que
componen la muestra, o la normalidad de la población, o la igualdad de
varianzas de dos poblaciones, etc;
la estimación de cualquier parámetro como la media, varianza,
proporción, etc, de la población.
El conjunto de estas técnicas de inferencia se denominan técnicas paramétricas.
Existen sin embargo otros métodos paralelos cuyos procedimientos no precisan la
estimación de parámetros ni suponer conocida ninguna ley de probabilidad
subyacente en la población de la que se extrae la muestra. Estas son las las
denominadas técnicas no paramétricas o contrastes de distribuciones libres,
algunos de los cuales desarrollamos en este módulo. Sus mayores atractivos
residen en que:
Son más fáciles de aplicar que las alternativas paramétricas;
Al no exigir ninguna condición suplementaria a la muestra sobre su
proveniencia de una población con cierto tipo de distribución, son más
generales que las paramétricas, pudiéndose aplicar en los mismos
casos en que estas son válidas.
Por otro lado, esta liberación en los supuestos sobre la población tiene
inconvenientes. El principal es la falta de sensibilidad que poseen para detectar
efectos importantes. En las técnicas no paramétricas juega un papel fundamental
la ordenación de los datos, hasta el punto de que en gran cantidad de casos ni
siquiera es necesario hacer intervenir en los cálculos las magnitudes observadas,
más que para establecer una relación de menor a mayor entre las mismas,
denominadas rangos.
Estos métodos no paramétricos o métodos robustos resisten a las observaciones
discrepantes, es decir, varían relativamente poco cuando existen datos fuera de lo
normal o outliers. Su robustez los diferencian de las medidas paramétricas
semejantes tales como el promedio y la desviación estándar
Muchas veces se eligen los test no paramétricos en detrimento de los
paramétricos debido a su facilidad de cálculo. La abundancia de computadoras ya
no permite hacer distinción en este aspecto ya que resulta tan rápido y simple
efectuar los tests Paramétricos como los no Paramétricos.
La Mediana
Una estimación del valor central mucho más robusta es la mediana que se define,
una vez que los resultados han sido ordenados según su magnitud, como el
resultado situado en el centro. Con un número par de resultados, la mediana se
define como la semisuma de los dos resultados situados en el centro.
22
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 23 de 28
La media aritmética tiene en cuenta una mayor cantidad de propiedades
numéricas del conjunto de datos mientras que la mediana deberá utilizarse cuando
no interese toda la información o cuando se sospeche que conduzca a
conclusiones falsas.
La mediana es un valor tal que el 50% de las observaciones son menores (o
mayores). Se la obtiene ordenando los n datos; cuando n es número impar la
mediana es la observación ubicada en (n + 1)/2 y si es par se toma el promedio
entre las observaciones ubicadas en n/2 y (n + 2)/2.
Veamos un ejemplo:
La [SO4-] de un efluente líquido industrial arroja los siguientes resultados en ppm
(partes por millón) obtenidos a lo largo de un mes.
8.34
21.99
28.81
41.70
9.10
21.99
41.70
11.37
21.99
30.33
43.97
12.13
31.84
45.49
13.65
23.50
32.60
47.00
25.02
34.12
15.16
25.78
34.12
16.68
34.87
20.47
29.57
22.74
14.40
25.78
Obtengamos la mediana:
Existen 31 valores por consiguiente la mediana es la ,ubicada en (31 +1)/2= 16,
Ordenamos los datos:
Orden
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Datos
8.34
9.10
11.37
12.13
13.65
14.40
15.16
16.68
20.47
21.99
21.99
21.99
22.35
22.74
23.50
25.02
25.78
23
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 24 de 28
18
19
20
21
22
23
24
25
26
27
28
29
30
31
25.78
28.81
29.57
30.33
31.84
32.60
34.12
34.12
34.87
41.70
41.70
43.97
45.49
47.00
Por lo tanto la mediana es 25.02
Si calculamos la media o promedio obtenemos que es 26.08.
Este parámetro también puede calcularse utilizando Microsoft Excel mediante la
función estadística “mediana”.
Ahora veamos que sucede si aparece un valor considerado como discrepante,
agregamos el valor 100.00 al conjunto anterior de datos.
La nueva mediana es: 25.40, la diferencia con la mediana sin valor discrepante es
0.38.
En cambio la nueva media es 28.39, la diferencia con la media sin valor
discrepante es 2.31. Está claro su robustez (o falta de sensibilidad) ante un dato
anómalo o discrepante.
El primer cuartil o cuartil inferior, FL, es el valor tal que el 25% de las
observaciones son menores a este parámetro. Similarmente el tercer cuartil, o
cuartil superior, FU, corresponde al valor tal que el 25% de las observaciones son
mayores. El segundo cuartil es la mediana. El rango intercuartil (IQR) es la
diferencia entre FU y FL y es una medida de dispersión análoga a la desviación
estándar.
En nuestro ejemplo (antes de agregar el outlier), la mediana estaba ubicada en la
posición 16 de las observaciones, es decir que el cuarto inferior es obtenido como
la mediana de 16 observaciones, así FL = 18.57. De manera similar se calcula Fu
= 33.36
Tenemos entonces que IQR = FU -FL = 33.36 – 18.57 = 14.79
24
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 25 de 28
Pueden calcularse los valores extremos de la siguiente manera:
Extremo superior: EU = FU + IQR*1.5
Extremo inferior:
EL = FL - IQR*1.5
EU = 33.36 + 14.79*1.5 = 55.53
EL = 18.57 – 14.78*1.5 = -3.6
Los valores mayores o menores respecto de los valores extremos deben ser
considerados como discrepantes. En nuestro ejemplo el valor 100.00 sería un
valor discrepante.
Gráficos de "Box and Whiskers".
Todos los parámetros antes vistos pueden ser usados para construir un gráfico de
"Box and whiskers" (box plot o box chart), el cual permite la representación visual
de los datos.
Seguimos con el ejemplo anterior. Graficamos utilizando el software Microcal
Origin:
120
100
A: sin outlier
A
B
B: con outlier
60
2-
[SO4 ] / ppm
80
95%
95%
40
20
75%
75%
50%
25%
50%
25%
5%
5%
0
A
B
Pueden observarse en el gráfico los parámetros utilizados.
25
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 26 de 28
Otro parámetro utilizado es la Moda:
¿Qué es la Moda?
Es el valor más frecuente de la distribución. En el conjunto de datos, del ejemplo
anterior el resultado que ocurre con mayor frecuencia es 21.99.
El conjunto siguiente: 25, 26, 28, 28, 31, 31, 31, 32, 33, 35, 35, 35 es bimodal, con
valores para las modas de 31 y 35.
En el caso de distribuciones unimodales, la mediana está con frecuencia
comprendida entre la media y la moda (incluso más cerca de la media).
En distribuciones que presentan cierta inclinación, es más aconsejable el uso de la
mediana. Sin embargo en estudios relacionados con propósitos estadísticos y de
inferencia suele ser más apta la media.
Test de Hipótesis basado en datos ordenados.
El test de los signos
Es una alternativa no paramétrica del test t , el cual hace uso de signos (+) y (-).
Ejemplo:
Supongamos que se han obtenido los resultados xT utilizando un dado método y
deben ser comparados con los obtenidos mediante un método de referencia, xR.
Para cada muestra se considera el signo de la diferencia entre xR y xT .Las
diferencias iguales a cero no son tenidas en cuenta, pues no tienen signo. Si no
hubiera diferencia significativa entre los resultados obtenidos por ambos métodos,
el número de signos positivos debería ser igual al número de signos negativos.
Planteemos H0 : No existen diferencias estadísticamente negativas entre ambos
métodos
En nuestro ejemplo, tenemos siete signos (+) y tres signos (-).
En la Tabla 8, r representa el número menor de signos y n el número total de
signos. Esta tabla se basa en la ley binomial y tabula la probabilidad de que
aparezcan r signos de un tipo sobre un total de n signos.
En el ejemplo n= 10 y r = 3, como lo que se desea saber es si hay diferencias
entre los métodos, se hace un test de dos colas, el valor que extraemos de la tabla
26
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 27 de 28
es 0.172 y multiplicamos por 2 (= 0.344) pues la tabla es para tests de una cola.
Esto es: la probabilidad de encontrar 3 signos (-) sobre un total de 10, de acuerdo
a la ley binomial, es: 0.344. Esto debe ser comparado con = p = 0.05 (5 % de
significancia). En nuestro ejemplo = 0.05 < 0.344. Debemos aceptar H0.
Concluimos que existe evidencia de que ambos métodos son estadísticamente
iguales utilizando un test no paramétrico.
Distinto hubiese sido tener solo un signo (-), pues la probabilidad de que aparezca
un solo signo (-) es 0.022 lo cual es inferior a = 0.05 (nuestro 5 % de
significancia). En este caso deberíamos rechazar la hipótesis nula. El encontrar un
solo signo negativo nos dice que es muy baja la probabilidad (2.2 %) de que
ambos métodos sean estadísticamente iguales.
Debemos recalcar que no hemos hecho ninguna suposición acerca del tipo de
distribución de la muestra a diferencia de cuando efectuamos por ejemplo la
prueba t.
Se concluye que no se rechaza la hipótesis nula, es decir que no existen
diferencias significativas entre ambos métodos.
No.
Muestra
1
2
3
4
5
6
7
8
9
10
xR
xT
dj
59.62
25.63
52.30
10.46
47.07
55.44
52.30
49.69
83.68
57.53
60.67
21.97
49.69
5.23
49.16
52.30
50.21
53.35
78.45
54.39
-1.05
3.66
2.62
5.23
-2.09
3.14
2.09
-3.66
5.23
3.14
dj
ordenados
1.05
2.09
Signo Ubicación
+
+
+
+
+
+
+
orden test
1
2.5
27
1
7.5
4
9.5
2.5
5.5
2.5
7.5
9.5
5.5
-
Signo
T
-1
7.5
4
9.5
-2.5
5.5
2.5
-7.5
9.5
5.5
11
-2.5
-7.5
-9.5
-5.5
T
+
44
1
7.5
4
9.5
2.5
5.5
orden
1
2
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE C
Página 28 de 28
2.09
2.62
3.14
3.14
3.66
3.66
5.23
5.23
2.5
4
5.5
5.5
7.5
7.5
9.5
9.5
3
4
5
6
7
8
9
10
Test de Wilcoxon para muestras relacionadas o apareadas.
Este test es una alternativa más poderosa, su principal limitación es que no puede
ser aplicado para dos colas si n 6. Continuando con nuestro ejemplo los valores
absolutos de di deben ser ordenados y las diferencias entre cada par de
observaciones debe ser ubicada. Por ejemplo, el valor 2.09 aparece dos veces,
ambos ocuparán el segundo y tercer lugar; el número de orden (2 + 3)/2 = 2.5. El
próximo valor, 5, ocupara el lugar 4 y así sucesivamente (ver columna “orden test”
de la tabla de arriba). A estos valores se le atribuye el mismo signo de las
diferencias.
Si no hay diferencia significativa entre las dos muestras apareadas, no debería
haber diferencia entre la suma de los rankings positivos (T +) y de los negativos (T). El test consiste en comparar T = mín. (T+, T-) con el valor crítico para n a dos
colas y 95 % de confianza (Tabla 9) . En nuestro ejemplo T+ = 44 y T- = 11. El
valor crítico para n=10 es 8 que se compara con 11, en este caso de test no
paramétrico 11 > 8, por lo tanto se acepta la hipótesis nula.
Existe por lo tanto, una probabilidad mayor al 5 % de que ambos sean
estadísticamente iguales.
Si bien este test es simple de realizar no tiene ventajas cuando se compara con
uno paramétrico (comparación de medias de dos muestras relacionadas o
apareadas) que se calcula electrónicamente. La ventaja podría venir desde el lado
de no conocer exactamente el tipo de distribución del conjunto de datos. Sin
embargo, las muestras de estos que se obtienen en las determinaciones químicoanalíticas muestran una tendencia a distribuirse normalmente lo que soporta la
teoría del límite central, tópico que abordaremos en próximos módulos.
28
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Descargar