La Estadística Aplicada al Laboratorio de Ensayos

Anuncio
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 1 de 26
QUIMICA ANALÍTICA Y CALIDAD
¿Que es la Química Analítica? ¿Cómo se relaciona con la calidad?
Según el Prof. Dr. Miguel Valcárcel:
La Química Analítica es una ciencia metrológica que desarrolla, optimiza y aplica
herramientas (materiales, metodológicas y estratégicas) de amplia naturaleza, que
se concretan en procesos de medida encaminados a obtener información
(bio)química de calidad, tanto parcial (presencia /concentración en muestra de
especies-analitos (bio)químicos) como global sobre materias o sistemas de amplia
naturaleza (química, bioquímica, biológica) en el espacio y en el tiempo para
resolver problemas científicos, técnicos, económicos y sociales".
De acuerdo a esta definición puede resaltarse la importancia de la palabra
Información que se relaciona íntimamente con la trazabilidad.
La calidad es atribuible al proceso analítico el que puede evaluarse a través de la
capacidad de resolver un determinado problema analítico. La información de
calidad debe ser lo más veraz posible (aproximada al valor verdadero) para que la
toma de decisiones sea adecuada, esto es: fundamentada, eficaz y a tiempo.
Las propiedades analíticas indican calidad y se las agrupa de acuerdo a tres
grupos:
Propiedades supremas: exactitud y representatividad.
Propiedades básicas: precisión, sensibilidad, selectividad y muestreo.
Propiedades complementarias:
Propiedades Analíticas Supremas
Exactitud
Puede definirse como el grado de concordancia entre el resultado de una
determinación o la media de n resultados y el valor verdadero del analito en la
muestra.
La exactitud se relaciona matemáticamente al error sistemático, que consiste en
una diferencia con un signo fijo: (+) por exceso o (-) por defecto. Puede
expresarse en forma absoluta o de forma relativa %.
La exactitud puede referirse a solo un resultado; en este caso es la diferencia
entre dicho resultado y el valor verdadero. También puede asociarse a un método,
para esto se utiliza la media de los n resultados obtenidos para el mismo método
aplicado a distintas alícuotas de la misma muestra. En este caso el error
sistemático suele denominarse de distintas maneras: bias cuando n<30 y
veracidad relativa cuando n>30.
1
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 2 de 26
El concepto de exactitud (errores sistemáticos) difiere del de precisión (errores
aleatorios). No obstante, en la práctica la exactitud no puede definirse
correctamente sin tener en cuenta la precisión (incertidumbre).
Representatividad
Esta propiedad se refiere al buen muestreo. Se trata de encontrar una
concordancia adecuada entre los resultados y el conjunto compuesto por la
muestra, el objeto, el problema analítico y la necesidad económica, social,
científica y técnica.
Propiedades Analíticas Básicas
Precisión
Es el grado de concordancia entre un grupo de resultados que se obtienen al
aplicar repetitiva e independientemente el mismo método analítico a alícuotas
distintas de la misma muestra. De esta manera salta a la vista la dispersión de
resultados entre sí y con respecto a su media. La precisión se relaciona
inmediatamente con los errores aleatorios o indeterminados. La disciplina
denominada “Quimiometría” soporta matemáticamente a la precisión. La precisión
es aplicable a un resultado individual, al conjunto de resultados y a la media de los
mismos. Cuando se relaciona a un resultado individual coincide con el error
sistemático y puede ser aleatoriamente por exceso o por defecto. Las magnitudes
que caracterizan la precisión de un conjunto de resultados se basan en los
parámetros estadísticos basados en las distribuciones normales o gaussianas.
El más característico y utilizado es la desviación estándar, sus unidades son las
mismas que acompañan a los resultados de la propiedad medida.
n < 30
n > 30
La desviación estándar suele expresarse también en forma relativa: en tanto por
uno (desviación estándar relativa) o por ciento (coeficiente de variación).
2
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 3 de 26
n < 30
n > 30
La varianza se define como el cuadrado de la desviación estándar y es de gran
interés práctico debido a su aditividad, que facilita el cálculo de la propagación de
errores.
La precisión puede adjudicársele también a la media del conjunto de resultados,
ya que de resultados (población con media ) pueden hacerse grupos de los
mismos y las medias serán diferentes entre sí. Estas diferencias se describen en
la desviación estándar de la media.
El cálculo de la precisión debe estar acompañado de la información lo mas
completa posible de la experimentación desarrollada, esto es, conocer si el
operador, los instrumentos, aparatos, reactivos, estándares, tiempo, han sido los
mismos o diferentes. Mientras más diferentes sean las condiciones
experimentales, mayor serán las causas de variabilidad, la dispersión del conjunto
de resultados será mayor y por lo tanto menor la precisión. Es lo mismo decir que
deben tenerse en cuenta los conceptos de repetibilidad y reproducibilidad.
ISO define la repetiblidad como la dispersión de resultados de ensayos
mutuamente independientes, utilizando el mismo método aplicado a alícuotas de
3
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 4 de 26
la misma muestra, en el mismo laboratorio, por el mismo operador, usando el
mismo equipamiento en un intervalo corto de tiempo. Es una medida de la
variabilidad (varianza) interna y un reflejo de la máxima precisión que el método
pueda alcanzar.
En cambio la reproducibilidad, según ISO, es la dispersión de resultados de
ensayos mutuamente independientes utilizando el mismo método aplicado a
alícuotas de la misma muestra en diferentes condiciones: distintos operadores,
diferente equipamiento o diferentes laboratorios. La reproducibilidad necesita una
especificación de las diferentes condiciones experimentales, las más frecuentes
son: entre días, entre operadores y entre laboratorios.
De esta forma, la repetibilidad implica la mínima dispersión (máxima precisión) y la
reproducibilidad la máxima dispersión (mínima precisión) de un mismo proceso
analítico.
Sensibilidad
Es una propiedad analítica asignable a un método analítico, que expresa su
capacidad para discernir entre concentraciones semejantes de un mismo analito, o
su capacidad para poder detectar o determinar pequeñas concentraciones de
analito en una muestra.
La definición más general de la sensibilidad es la pendiente de la curva de
calibrado. La anterior definición se completa introduciendo los parámetros que
definen las concentraciones mínimas para ser detectadas o determinadas. Esto
es: el límite de detección es la concentración de analito que origina una señal que
puede diferenciarse estadísticamente de la señal del blanco.
Selectividad
Un método analítico se dice que es selectivo si es capaz de originar resultados
que dependan exclusivamente del analito para su cuantificación. El grado de
selectividad es inversamente proporcional al grado de interferencia. Interferencias
son perturbaciones que alteran una, varias o todas las etapas del proceso analítico
y por consiguiente a los resultados analíticos, que se ven afectados por errores
sistemáticos. De acuerdo a esto se deduce que la selectividad está directamente
relacionada con la exactitud.
Propiedades Complementarias
Rapidez
4
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 5 de 26
Se refiere al tiempo de análisis que generalmente se expresa como frecuencia de
muestreo, es el número de muestras que se procesan de forma completa por
unidad de tiempo. Es una propiedad de gran trascendencia práctica para resolver
problemas analíticos, ya que una información analítica suministrada a destiempo
es inútil y por lo tanto de mala calidad.
Costos
Es el valor económico de cada análisis, su importancia es obvia pues se relaciona
directamente con la productividad del laboratorio.
Otras propiedades que están relacionadas con el factor humano son las
relacionadas con la segundad del operador, del personal del laboratorio y del
medio ambiente. Además, los relacionados con la comodidad del personal del
laboratorio esto es: evitar tareas tediosas o que impliquen stress y de propiciar la
creatividad, competitividad y estímulo técnico y económico.
INCERTIDUMBRE Y VERACIDAD
Al aplicar un proceso analítico a n alícuotas de una misma muestra se obtienen n
resultados o datos. Es evidente que el nivel de información será de mayor calidad
cuanto mas grande sea n. La incertidumbre genérica de la concentración o
porcentaje de un analito en una muestra es la máxima duda y corresponde a la
incertidumbre específica total, que oscila entre el O y 100 %. El valor verdadero
( X̂ ), tiene una incertidumbre específica nula, que coincide con la ausencia total de
duda acerca del porcentaje de analito en la muestra. Esto desde luego
corresponde a la calidad total.
La incertidumbre específica parcial se concreta en un intervalo (± U) en el que se
encuentran el analito en la muestra que está alrededor de un dato concreto. La
máxima expresión de la Incertidumbre especifica parcial es la que tiene un solo
resultado (xi), ya que de por sí no indica ningún intervalo. La media de n < 30
resultados ( x ) posee una incertidumbre ( ± U x ) deducida de la estadística, al igual
que la media ( ' ) de n > 30 resultados posee una incertidumbre (± U '). La
incertidumbre se reduce al aumentar n, así los valores de x y ' se acercan al
valor verdadero.
El valor de referencia considerado como verdadero ( X̂ ) disminuye notablemente
su incertidumbre genérica, pero la incertidumbre específica (U X̂ ) puede ser mayor
o menor que la de U ', debido a que se ha obtenido por n' laboratorios al analizar
cada uno un número de alícuotas de la misma muestra y las causas de la
variabilidad son mucho mas acusadas.
5
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 6 de 26
La Incertidumbre específica está relacionada con la precisión, mientras que el
concepto de incertidumbre genérica tiene una doble relación con la exactitud y la
precisión.
La veracidad absoluta o total coincide con el valor verdadero ( X̂ ). que es el
máximo nivel de calidad.
El concepto de veracidad está directamente relacionado con la exactitud, aunque
también indirectamente con la precisión.
ERRORES EN EL ANÁLISIS QUÍMICO
Los errores en Química Analítica indican las diferencias entre el valor verdadero
(el considerado como verdadero) y un resultado individual o medias de
resultados.
Existen tres tipos de errores clasificados: aleatorios, sistemáticos y crasos.
Los errores aleatorios o indeterminados obedecen a fluctuaciones típicas de la
experimentación. Se presentan cuando se efectúan varias determinaciones del
mismo analito en alícuotas de la misma muestra o cuando se realiza varias veces
una misma medida con el mismo instrumento. Pueden tener diferente magnitud,
aunque en general no muy elevada. Pueden ser aleatoriamente por exceso (+) o
por defecto (-) es decir, mayores o menores que la media. Se describen de
acuerdo a la distribución normal de Gauss. Constituyen la base para la propiedad
analítica básica precisión y, por tanto, de la incertidumbre específica.
Los errores sistemáticos o determinados son debidos a las alteraciones
operacionales bien definidas en el proceso analítico, ej.: presencia de interferntes,
filtración incompleta, contaminación y pérdidas por adsorción en análisis de trazas,
reactivo o patrón deteriorado, etc. Afectan a la propiedad analítica exactitud.
Debido a su causa, estas desviaciones son de un signo determinado, por exceso
(+) o por defecto (-). Cuando la magnitud es elevada se denominan errores crasos.
Estos errores pueden ser constantes (no dependen del nivel de concentración del
analito) y proporcionales (cuando dependen de él).Pueden atribuirse a un
resultado aislado o a un método, de allí que toma diferentes denominaciones:
a) Exactitud cuando se refiere a un resultado, en este caso se trata de la diferencia
entre dicho resultado y el valor considerado como verdadero: xi Xˆ .
b) Bias o sesgo cuando se refiere aun método con el que se han realizado menos
de 30 determinaciones: x Xˆ .
c) Veracidad relativa cuando se refiere aun método con el cual se han realizado
X̂ .
mas de 30 determinaciones:
6
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 7 de 26
Los errores crasos o espurios poseen características básicas semejantes a los
errores sistemáticos pero su magnitud es notablemente superior. Son bastante
fáciles de detectar y así eliminar su causa.
LEY DE PROPAGACION DE ERRORES
En muchos casos un mensurando no es obtenido de una manera directa sino que
resulta de una relación funcional con otros mensurandos que obviamente tambien
están afectados de error o incertidumbre. Esos errores pueden acumularse o
compensarse. A esto se denomina propagación de errores que puede describirse
de acuerdo a la siguiente expresión:
donde:
z f(x1 , x 2 )
x 1 y x 2 son variables independientes
Puede mostrarse que:
7
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 8 de 26
Las varianzas son aditivas cuando las variable independientes se suman mientras
que se usan las desviaciones estándar al cuadrado cuando, se trata de una
multiplicación o división. Es importante resaltar que las variables no, deben estar
correlacionadas (independientes), esto a menudo puede no suceder en
situaciones prácticas.
Los errores sistemáticos se propagan con sus signos. Si z es el error sistemático
que afecta a z, la relación para una suma o una resta es:
8
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 9 de 26
Donde x1 es el error sistemáticos que afecta a x1, x2 a x2, ... etc. A diferencia de
los errores aleatorios que se acumulan, los errores sistemáticos pueden
compensarse.
Para la multiplicación y la división tenemos que:
Las ecuaciones ya descriptas tienen una gran importancia en metrología, debido a
que ellas permiten describir las distintas fuentes de error individuales y
combinarlos para expresar la incertidumbre.
Cifras Significativas: las cifras significativas de un dato o de un resultado son todos
los dígitos relevantes que sean fiables, más el primero que esta afectado por la
incertidumbre. Así por ejemplo si se obtuvo un promedio a partir de un conjunto de
datos: x = 7,45673113 para expresarlo con el número de cifras significativas
correctas hay que observar la desviación estándar, ej. si s= 0,05844 decimos que
la incertidumbre esta en la segunda cifra decimal, entonces expresamos el
promedio x = 7,45.
El redondeo es una operación frecuente cuando la cifra sometida a la
incertidumbre es seguida por otras. Si la más próxima es 5, se aumenta el dígito;
si es > 5 el dígito no sufre alteración.
Al realizarse las operaciones básicas de suma, resta multiplicación y división con
datos que poseen diferentes número de cifras significativas, existen dos reglas
generales:
1.
2.
El resultado final no debe tener más cifras significativas que el dato
inicial que tenga menos cifras significativas.
No deben redondearse los datos iniciales, esto debe efectuarse en el
resultado final.
9
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 10 de 26
PARÁMETROS ESTADÍSTICOS USADOS EN EL TRATAMIENTO DE DATOS
ANALÍTICOS
La estadística aplicada a los datos químico-analíticos es una parte de la
multidisciplina denominada QuimiometrÍa, cuyo objetivo es ampliar y mejorar la
información analítica con ahorro de tiempo y esfuerzo.
La Cualimetría está integrada por la Quimiometría, la Informática y la Calidad.
La estadística es un soporte de las propiedades analíticas, en especial de: la
representatividad (reglas de toma de muestra), exactitud (trazabilidad), precisión
(incertidumbre), sensibilidad (límites de detección), etc.
Parámetros estadísticos estimativos del valor central
¿Que es la Media Aritmética?
Si se realiza una serie de n mediciones, obteniéndose los resultados x1, x2, ... xn la
media aritmética se denota x y se calcula dividiendo la suma de observaciones
por el número de las mismas:
La media aritmética, como estimación del valor verdadero de la población, , es un
parámetro estadístico poco robusto, es decir, si alguno de los resultados
individuales, xi , contiene un error apreciable, éste también se transmite de una
manera importante a la media aritmética calculada.
Si se consideran el conjunto de resultados:
54
54
54
55
58
62
63
64
64
65
la media aritmética es
x = 59.3
10
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 11 de 26
Poblaciones y muestras
Población
Muestra
n
(n < 30)
n < 30
Media aritmética Desviación estándar
x
S
Supongamos que hemos determinado la concentración de hidratos de carbono en
diez sachets de leche, seleccionadas aleatoriamente, de una dada marca
comercial. Los diez sachets constituyen una muestra en el sentido estadístico.
Ellos son una muestra de la población de todos los sachets de leche de esa
misma marca.
En el caso de las mediciones, si nosotros hiciéramos, por ejemplo, ocho
determinaciones replicadas de carbono en un cierto material acerado, estas ocho
observaciones individuales constituyen una muestra, en este caso de una
población de todas las determinaciones de carbono que podrían haber sido
hechas con la misma técnica de medición sobre la matriz específica si ella puede
ser obtenida Ilimitadamente.
La población de mediciones consiste en todas aquellas que puedan ser hechas, y
un grupo de experimentos se considera una muestra de esa población.
Las poblaciones son a menudo muy grandes (número de sachets) o infinitas
(número de determinaciones). Aunque el número de sachets existentes puede ser
considerado finito, deberá ser tratado como infinito. Pocas veces los textos de
estadística hacen distinciones entre poblaciones infinitas y finitas, pero en casi
todos los casos la población será considerada como un número infinito de
individuos, objetos, mediciones y se investigará una muestra finita de ella para
obtener conclusiones sobre la población.
Distribución normal
Al efectuarse un gran número de mediciones repetitivas, los resultados podrán
visualizarse fácilmente mediante histogramas. En este tipo de gráfico, se
representa el intervalo de resultados considerados como las bases de rectángulos,
mientras que las alturas son proporcionales a las frecuencias con las que se
obtienen dichos resultados.
Veamos la siguiente tabla donde se expone la concentración de Pb en un efluente
industrial en ng/L:
4729
9618
8343
6167
6971
6895
7172
5194
5121
9674
6764
10337
6789
4453
9097
3548
7401
5935
5093
5457
8582
6987
3752
7024
6202
3749
5693
6873
8560
5112
11
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 12 de 26
8572
11788
3542
6110
4318
6751
5960
7699
6867
7671
10073
7096
2267
7834
7479
7322
4393
7015
6409
4264
5687
8924
4044
5847
6946
5994
7030
6764
6644
7878
Su histograma representativo es:
16
14
12
Frecuencia
10
8
6
4
2
0
2000
4000
6000
8000
10000
12000
Clases
Si se llevan a cabo un número mucho mayor de repeticiones y se representasen
los intervalos de resultados mucho más reducidos, los histogramas se
aproximarán a la curva representada con línea continua. En el caso de considerar
en el eje de las ordenadas las frecuencias relativas, la curva, que recibe el nombre
de función de densidad de probabilidad, englobará una área igual a 1
cumpliéndose:
Campana de Gauss
12
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 13 de 26
Muchos estudios indican que al repetir mediciones de un mismo parámetro, la
función de probabilidad obtenida sigue el modelo de distribución Normal o
Gaussiana. El teorema del límite central proporciona el fundamento estadístico
que permite esperar dicha tendencia de los datos químico-analíticos. La ecuación
de la curva viene dada por:
que se traduce gráficamente en la campana de Gauss.
La notación
nos dice que los valores de x están distribuidos normalmente con un promedio
una varianza 2.
Distribuciones gaussianas con diferentes medias e igual dispersión.
13
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
y
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 14 de 26
Distribuciones gaussianas con igual media pero varianza diferente.
Para cualquier distribución Gaussiana, independientemente del valor que posean
y se cumple que:
La desviación estándar, , mide la distancia desde la media hasta el
punto de inflexión de la curva.
El 95% de los valores están comprendidos en el intervalo ± 1.960
El 99% de los valores están comprendidos en el intervalo ± 2.576 .
El 99% de los valores están comprendidos en el intervalo ± 3.290 .
Muchos tratamientos estadísticos requieren para su simplificación, la estandarizar
de las variables, con el fin de independizarse de las unidades de medida. Una
forma bastante corriente de llevar a cabo este proceso,m consiste en la conversión
de la variable x en z, de tal forma que:
La nueva variable z tiene la propiedad de que su valor medio es z = 0 y su
desviación estándar es sz = 1. De esta manera, z también está normalmente
distribuido: z ≈ N(0,1).
La función probabilidad para la distribución normal estandarizada está dada por:
14
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 15 de 26
Debido a que en tiempos antiguos no existían las computadoras ni las
calculadoras automáticas, es muy común encontrar en los textos de estadística
tablas con valores para la función distribución normal estandarizada.
Las tablas suelen presentarse de distintas maneras, pueden ser de una cola o de
dos colas. Esta última muestra que parte del área total cae dentro o fuera del
intervalo (-z, +z). La Tabla 1 (ver ANEXOS al final de este apunte) da los valores
de z correspondientes a las áreas sombreadas mostradas sobre la misma tabla.
Así podríamos preguntamos, cuál es el valor de z para que el 5% de todos los
datos distribuidos normalmente caigan fuera del intervalo (-z, +z); la respuesta es
el 2,5% de cada lado. En la tabla podemos encontrar que para p = 0,05; z = 1,96.
Área sombreada = 5 % (2.5 % para cada lado) (p = 0.05)
Vayamos ahora a la popular planilla de cálculo Excel. ¿Como resolvemos la
anterior cuestión?
Cargamos la planilla y dentro del menú Funciones Estadísticas elegimos
DISTR.NORM.ESTAND.INV (distribución normal estándar invertida), se nos
presentará la siguiente imagen:
15
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 16 de 26
En la casilla de diálogo ingresamos el valor 0.025 a lo que la planilla nos devuelve
-1.95996... , ¿que significa esto? Representemos esto gráficamente. Veamos el
gráfico de abajo.
-z
z
El área sombreada representa en este caso al 2.5% del área total bajo la curva, es
decir una probabilidad = 0.025. Esta función de Excel nos muestra un área que va
desde z = a z = -1.96 (probabilidad = 0.025). Lo mismo es decir que se
16
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 17 de 26
espera que el 2.5 % de los datos sean inferiores a z = -1.96. Si bien este es el
valor de z para el semintervalo izquierdo, el mismo valor con distinto signo se
espera para el semintervalo derecho, ya que la campana es simétrica.
De la misma manera podemos preguntar entre que límites podemos encontrar el
90% de todos los valores. Desde la tabla para p= 0.1, z= 1.65. Utilizando
DISTR.NORM.ESTAND.INV en Excel, ingresamos 0.05 en el cuadro de
probabilidad a lo que la planilla arroja el valor –1.644853
Ejemplo: Supongamos que una fábrica de autopartes produce piezas cuya masa
presenta una distribución normal con = 5.00 g y = 0.05 g y queremos saber
entre que valores se encontraran el 95% de los resultados. Dicho intervalo se
calcula:
(5.0 ± 1.96 x 0,05); el intervalo es (5.1 - 4.9). ¿Por qué es esto así?
La Tabla 2 da las áreas entre dos límites, un límite es z = 0 y el otro es un dado
valor de z positivo.
Ejemplo: un buen número de determinaciones son efectuadas en una misma
muestra y los resultados están normalmente distribuidos con
= 215 y = 35. Qué % de determinaciones estarán dentro de los límites 200 y
250 ?.
z1 = (200 - 215) / 35 = -0,43
z2 = (250 -215) / 35 = 1
Según la tabla 2, el área entre z = 0 y z = 0,43 es 0.166 ( 17%), y entre z = 0 y z
= 1 es de 34%.
Se concluye que el 51% de los datos están comprendidos entre 200 y 250.
Resolvamos esto con Excel: Tomemos la función estadística
DISTR.NORM.ESTAND (Distribución Normal Estándar) e insertemos en su cuadro
de diálogo los valores de z1 y z2,
17
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 18 de 26
obtendremos: 0.336 para z1 y 0.841 para z2, si restamos ambos valores
obtenemos 0.508 ( 51%). Esto es: la función DISTR.NORM.ESTAND es
acumulativa, calcula el valor de la probabilidad desde:.
A
z = - hasta z = -0.43 (0.336)
18
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 19 de 26
B
y luego desde z = - hasta z = 1
(0.841)
C=B-A
La diferencia (0.508) nos da que el 51
% de las determinaciones caerá en el
intervalo sombreado.
La Tabla 3 es de una cola. Ejemplo: supongamos que para los mismos datos
dados anteriormente, queremos saber cuál es la probabilidad de encontrar un
resultado mayor que 250. Como z = 1, de la tabla obtenemos el valor p = 0,84.
Esta es la probabilidad de encontrar un valor menor que z = 1; es decir que para
valores mayores la probabilidad será 1 - 0.84 = 0.16 (16%).
Este problema puede resolverse también con Excel tomando la función estadística
DISTR.NORM.ESTAND, insertando el valor de z = 1 obtenemos p = 0.84. Como
vimos en la gaussiana A y B anteriores esta es la probabilidad de obtener valores
inferiores a 250, por lo tanto la probabilidad de obtener valores mayores es
complemento, es decir 16 %.
Las Tablas 1, 2 y 3 y las funciones estadísticas de Excel (DISTR.NORM.ESTAND
y DISTR.NORM.ESTAND.INV) contienen la misma información y podríamos haber
usado cualquiera de ellas en los diferentes ejemplos.
19
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 20 de 26
Intervalos de confianza
La técnica de la estimación confidencial consiste en asociar a cada muestra un
intervalo que se sospecha que debe contener al parámetro de interés. A éste se le
denomina intervalo de confianza
Evidentemente esta técnica no tiene porqué dar siempre un resultado correcto. A
la probabilidad de que hayamos acertado al decir que el parámetro estaba
contenido en dicho intervalo se la denomina nivel de confianza. También se
denomina nivel de significación a la probabilidad de equivocarnos.
Para una distribución normal el 95% de los datos (es decir el 95% del área bajo la
curva) cae dentro de los límites z = -1.96 a z = 1.96. Puede decirse que el 95% de
los datos estarán dentro de los límites:
1.96
Esto es verdadero para todas las distribuciones normales, como los promedios
de las muestras están también normalmente distribuidos, será entonces
también verdadero para las distribuciones de los promedios. Se puede
establecer que el 95% de todos los promedios de la muestra de tamaño n caen
dentro de los límites:
Supongamos que tomamos una muestra de tamaño n de una población,
efectuamos n mediciones y calculamos x . Este x es un estimador de (media
de la población). Supongamos que se conoce . Podemos decir que hay una
probabilidad del 95 % de que x esté comprendido en el rango:
Es decir:
20
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 21 de 26
Existe 5% de probabilidad (área sombreada) de que x , Ia media de una muestra
de n resultados, tenga un valor mayor que 1.96
n
.
Esto nos dice que es posible estimar (obviamente desconocido). Para lo cual,
debe determinarse x para n mediciones y a la vez expresando la incertidumbre
correspondiente a la estimación.
Esto puede describirse mediante la ecuación:
= x
1.96
n
el valor medio de la población esta comprendido en este intervalo con un 95 % de
seguridad, certeza o confianza.
De una manera general puede escribirse
= x
z
n
con 100 – % de probabilidad
por ejemplo: ¿como sería la ecuación para un 90 % de confianza o un
Rta:
21
= x
?
1.645
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
n
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 22 de 26
Los límites de esta ecuación
= x
son denominados Límites de
n
Confianza. El intervalo entre dichos límites es el llamado Intervalo de Confianza.
Estos límites o intervalos pueden establecerse en %, ej. 95 % ó como fracciones
0,95.
z
Pensemos en el siguiente ejemplo:
Se ha sido analizado un cierto material y se ha obtenido el resultado 14.25 0.10
donde 0.10 describe el intervalo de confianza del 95%. En otras palabras, 14.25
es una estimación del valor desconocido y existe un 95% de probabilidad que el
intervalo (14.15 –14.35) contenga a .
Supongamos que el resultado no le resulta satisfactorio a nuestro cliente. El desea
un intervalo de confianza menor (para el 95%), por ejemplo 0.05. ¿De que manera
puede alcanzarse ese valor? El 0.10 ha sido calculado con:
1.96
n
0.10
es típica del proceso de medición, podría considerarse constante para dicha
población. Nos queda solo n para cambiar, ahora llamaremos N al
tamaño de muestra necesaria para obtener un intervalo de confianza menor:
1.96
N
0.05
De ambas ecuaciones obtenemos que:
N=4n
Así, deducimos que aumentando el tamaño de la muestra podemos hacer más
estrecho el intervalo de confianza. Debido a la dependencia de n , el n requerido
para obtener ciertos limites de confianza podrían ser poco prácticos en muchas
situaciones experimentales.
La notación puede ser generalizada escribiendo que el intervalo de confianza
(1- )100% alrededor de la media está dado por:
x
z
2
22
n
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 23 de 26
El significado del parámetro para una distribución normal estandarizada se
observa en la figura de abajo. El hecho de usar 2 significa que el intervalo es de
dos colas. Es decir si = 5%. Los limites serán 2.5% para cada lado.
0
z
z
2
2
Curva de Distribución Normal Estandarizada con el parámetro
La ecuación dada para el límite de confianza incluye a , el cual es un parámetro
de la población. Cuando n 30 el valor obtenido de s puede resultar una buena
estimación de , así puede expresarse para el intervalo de confianza (1 - )100%:
= x
s
z
2
n para n 30
¿Qué sucede cuando n < 30 ?, s ya no es un buen estimador de . Ahora se hace
necesaria una corrección: debe reemplazarse z por t:
= x
s
t
2
n para n < 30
Los valores de t son derivados de una tabla de distribución de t, comúnmente
denominada "t de Student". Ver Tabla 4 en ANEXO.
Muchas veces se incluye en la notación el número de grados de libertad para el
cual se ha determinado t.
23
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 24 de 26
= x
t ,
n 1
2
s
n
Comprobación de la normalidad de una distribución
A menudo, cuando se manipulan datos químicos, puede ser necesario chequear si
tales datos se comportan de acuerdo a una Distribución Normal. Esto puede ser
particularmente importante si necesitamos justificar la utilización de inferencia
paramétrica en la evaluación de los datos (temas que desarrollaremos adelante)
Para tal fin pueden considerarse métodos gráficos (Probabilidad Normal) y
pruebas estadísticas formales (Pruebas de: Kolmogorov-Smirnov, Lilieforts,
Shapiro-Wilks, Ryan-Joiner y Anderson-Darling).
Numerosas pruebas estadísticas sólo son válidos si los conjuntos de datos que se
tratan siguen una distribución Gaussiana.
Existen dos conceptos, la asimetría (skewness) y la curtosis (kurtosis) que
describen desviaciones respecto de la distribución normal. La asimetría indica el
sentido en que se inclina la distribución, es decir, la existencia o carencia de
simetría en relación a un eje vertical trazado por la media aritmética. Son diversos
los coeficientes de asimetría definidos y si bien una prueba de asimetría no
superado indica que han de extremarse los cuidados al aplicar la estadística
Gaussiana, una prueba superada no prueba necesariamente que la distribución
sea normal.
También existen distintos coeficientes de curtosis que miden la agrupación de los
resultados en torno a la media.
Cuando la distribución no es normal
Cuando se demuestra que un conjunto de resultados no sigue la distribución
normal existen diversas posibilidades; en primer lugar se pueden llevar a cabo
distintas pruebas estadísticas que permitan indicar la presencia de observaciones
discrepantes (outliers), en segundo lugar se pueden intentar una transformación
24
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 25 de 26
de los datos de tal forma que los resultados transformados se adecuen a una
distribución normal. Si ambas posibilidades no resultan satisfactorias será
incorrecto llevar a cabo pruebas pensadas para distribuciones de datos
Gaussianos y se tendrán que intentar test no Paramétricos.
Las transformaciones de datos no sólo se utilizan para llevar la distribución a la
normalidad sino que también se usan para igualar las varianzas de distintos
conjuntos de observaciones. Entre las más usuales figuran la transformación
logarítmica, la extracción de la raíz cuadrada o la sustitución de los resultados por
sus valores recíprocos.
En un test estadístico no paramétrico, la muestra extraída de la población
estadística debe cumplir con ciertas condiciones, mucho menos exigentes que en
los test paramétricos, tales como la independencia de las observaciones.
Los test no paramétricos deben aplicarse siempre que no se conozca exactamente
la distribución de la población. Sin embargo, a menudo, se toleran desviaciones
pequeñas de las condiciones impuestas en estas u otras condiciones de los tests
paramétricos. Una de las ventajas más claras de los tests no paramétricos
consiste en su facilidad de aprendizaje y aplicación. Existen tests no paramétricos
para comprobar un gran número de hipótesis estadísticas, sin embargo no tienen
una aplicación tan amplia como los tests paramétricos, así, no existen tests fiables
de este tipo para comprobar la interacción entre conjuntos de datos en el análisis
de la varianza. Veremos mas detalles hacia el final de este apunte.
Valores discrepantes o outliers
Los resultados discrepantes son aquellos que no pertenecen a un conjunto
(muestra o población) o que existe una probabilidad inferior a un determinado
valor de que pertenezcan a él.
En realidad están presentes en el conjunto debido a una anomalía metodológica
(error sistemático). Se denominan también dudosos, aberrantes, anómalos o
outliers.
Para discriminar estadísticamente los datos discrepantes de los valores extremos
de un conjunto deben aplicarse test de aceptación / rechazo, con el objeto de
garantizar una distribución normal o gaussiana al conjunto.
La aceptación / rechazo de estos resultados afecta significativamente tanto a la
media como a la desviación estándar, en especial cuando n es pequeño.
Se han descrito diversos criterios para detectar resultados discrepantes, entre
ellos citaremos: El criterio de Dixon y el criterio de los Límites de Confianza.
Criterio de Dixon. Se basa en el recorrido: diferencia entre el valor más alto y el
más bajo del conjunto, incluido el discrepante. El procedimiento es el siguiente:
1. Se ordenan los datos de menor a mayor.
2. Se identifica el valor sospechoso (Xq).
Xq valor más próximo
3. Se calcula el valor de Qcal de la expresión: Qcal
recorrido
25
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Curso: “Elementos para la Validación de Métodos Analíticos”
PARTE A
Página 26 de 26
4. Se compara Qcal con un valor tabulado Qt (Tabla 5 en ANEXO) para un
determinado nivel de significación (p) y un número de datos de conjunto.
Si Qcal
Qt el dato Xq debe rechazarse; si Qcal < Qt debe aceptarse.
Criterio de los Límites de Confianza. El mecanismo es:
1. Se calcula x y s, incluyendo todos los datos.
2. Se deben delimitar los límites de confianza x t
s
n
para una determinada
probabilidad o nivel de significación.
3. Si el valor dudoso Xq no se encuentra en el intervalo, debe rechazarse y
volver a calcularse los parámetros estadísticos.
26
Lic. Sergio G. Chesniuk
http://www.metroquimica.com.ar
Descargar