DISTRIBUCION NORMAL, PRUEBA TAMIZ Y TEOREMA DE BAYES

Anuncio
REYNALDO CARVAJAL ORTIZ
CAPITULO
4
DISTRIBUCION NORMAL,
PRUEBA TAMIZ Y TEOREMA DE BAYES
4.1.
CURVA NORMAL
El primer matemático que descubrió la función de probabilidad Normal fue
Abraham de Moivre (1.667-1754), quien dedujo en 1.733 la distribución
como forma límite de la Binomial
(1)
; sin embargo su trabajo quedó en el
anonimato.
Posteriormente, en el siglo XVIII con el auge de los juegos de azar
empezaron a estudiar modelos matemáticos para estimar probabilidades a
priori de éxito (Laplace, Pascal, Chevalier de More). Por ese tiempo los
matemáticos Laplace y Gauss, efectuando mediciones astronómicas,
iniciaron trabajos acerca del error accidental cometido en la medición de
magnitudes para variables aleatorias continuas y establecieron la Ley
Normal de los errores(2) debido a la observación.
La distribución Normal también se denomina curva de campana, curva de
gauss ó curva de Error; esta última acepción se debe a que las pequeñas
variaciones observadas (errores) entre infinidad de mediciones obtenidas
de idéntica manera, se distribuyen normalmente alrededor del verdadero
valor de la cantidad.
72
REYNALDO CARVAJAL ORTIZ
Hoy día la curva Normal es la distribución de probabilidad más importante y
familiar por las siguientes razones:
En primer lugar, empíricamente se ha observado que muchas variables
tales como: peso, talla, presión sanguínea, niveles séricos de ácido úrico,
valores de hemoglobina, glicemia, colesterol, puntajes de exámenes,
cociente intelectual, etc., siguen aproximadamente su forma.
En segundo lugar, es la base fundamental de la Inferencia Estadística
Paramétrica; esto es, en el Muestreo Aleatorio la distribución de los
promedios muestrales, de todas las posibles muestras de igual tamaño
siguen una Curva Normal independientemente de la forma de la Población
de origen, alrededor de . (siempre y cuando el tamaño de muestra n sea
suficientemente grande, n>30).
Por último, la mayoría de las distribuciones de probabilidad tanto continuas
como discretas, convergen a la Distribución Normal; por tal motivo la Curva
Normal se puede utilizar como una excelente aproximación para el cálculo
rápido de probabilidades cuando el fenómeno que se estudia sigue una
Distribución Hipergeométrica, Binomal, de Poisson, etc.
4.1.1. Características generales
Está definida por el promedio aritmético  y la desviación estándar ; de
forma acampanada y simétrica alrededor de , es una distribución continua
de probabilidad, lo cual permite el cálculo de áreas entre dos puntos
ubicados debajo la Curva; estas áreas expresan la probabilidad de
ocurrencia de valores entre dichos puntos.
73
REYNALDO CARVAJAL ORTIZ
Teóricamente sus ramas oscilan desde menos infinito (- ) hasta más
infinito (+) y su ecuación matemática se rige por la fórmula siguiente:
- ½ (x - /)2
1
Y=
donde: , e = costantes
e

,  = Parámetros
2
4.1.2. Cálculo de probabilidades
El cálculo de la probabilidad de ocurrencia entre dos puntos X 1, X2, bajo la
curva exige la “Integración Matemática” de la función dada anteriormente
para ,  conocidos. Sin embargo para evitar complicados y complejos
procedimientos matemáticos se han establecido tablas de probabilidad de
una Curva Normal estándar centrada alrededor de cero ( = ) y con una
desviación estándar igual a uno (=1). De esta forma cualquier curva con 
y  conocidos siempre es posible referirla a la Tabla de Probabilidades (o
valores de Z) con solo cambiar la escala. (Ver apéndice 1)
Para el cambio de escala se emplea la transformación Z:
Xi - 
si se conoce  y 
Z=

Xi - X
Z=
si se conoce X y S
S
74
REYNALDO CARVAJAL ORTIZ
4.1.3. Cálculo de probabilidades para una distribución de datos
En este caso es necesario definir  y  y el intervalo sobre el cual se van a
estimar probabilidades.
Ejemplo: Asumiendo que los niveles de glucosa en personas clínicamente
sanas siguen aproximadamente una Distribución Normal con =80 mg/100
ml y  =7 mg/100 ml; calcular la probabilidad de encontrar individuos sanos
con valores de glucosa superiores o iguales a 101 mg/100 ml.
Como  = 80  =7 Xi = 101:
Xi - 
entonces: Z =
101 - 80
=

= 3.0
7
La tabla 1 (apéndice 1) muestra que el valor de probabilidad entre Z = 0 y
Z =3.0 es igual a 0.49865. Por lo tanto, la probabilidad pedida será:
0.5000 – 0.49865 = 0.00135
Conclusión: es muy poco probable (0.135%) que una persona sana
tomada aleatoriamente de esa Población presente un valor de Glucosa
mayor o igual a 101 mg/100 ml.
75
REYNALDO CARVAJAL ORTIZ
4.2. PRUEBAS DIAGNOSTICAS
En el área de Salud, empíricamente se ha observado que muchos
fenómenos biológicos tienden a distribuirse en forma de curva normal, por
ejemplo : valores de hemoglobina, glicemia, colesterol, ácido úrico, etc.
Esta tendencia se presenta a menudo tanto en poblaciones “sanas” como
en poblaciones de “enfermos”; además, resultados de extensas encuestas
muestran como estas curvas generalmente se superponen.
De otro lado, frecuentemente se quiere evaluar la bondad de un test o
prueba diagnóstica para identificar grupos de alto riesgo en la población
general (Tamizaje o Screening).
Las pruebas tamiz o de detección se justifican cuando la enfermedad que
se investiga es causa importante de morbimortalidad, son de bajo costo y
existe tratamiento disponible para prevenir la morbimortalidad en los casos
positivos identificados precozmente.
Para construir dichas pruebas es necesario tener en cuenta dos criterios :
a. Una variable separadora que está asociada con una enfermedad dada,
por ejemplo : niveles de ácido úrico en personas con gota y sin gota,
niveles de glucosa en personas diabéticas y no diabéticas, peso corporal
en personas hipoteroideas y no hipoteroideas, diámetro (mm) de
induración en niños con TBC o sin TBC, niveles de colesterol en
personas con o sin enfermedad coronaria, etc.
76
REYNALDO CARVAJAL ORTIZ
b. Un criterio de positividad ( Norma ) para CLASIFICAR “sanos” (-) y
“enfermos” (+).
Con base en lo anterior es posible describir un método que muestre la
aplicación de la distribución normal en la evaluación de pruebas tamiz.
4.3.
RIESGO DE ERROR
Asumiendo que los valores obtenidos por un test en la población de “sanos”
(-) son sistemáticamente inferiores a los encontrados en la población de
“enfermos” (+), es posible establecer en un punto crítico (norma ) a partir
del cual se clasifiquen como “personas sanas” (-) todas aquellas cuyo
resultado del test, presente valores inferiores a la norma y “personas
enfermas” quienes tengan valores iguales o superiores a ella.
Gráficamente se tiene :
ESTADO REAL DE LAS POBLACIONES
Sanos
Enfermos
(-)
(+)


Norma
Sanos según la Norma
(Test Negativo)
Variable Separadora
Enfermos según la Norma
(Test Positivo)
77
REYNALDO CARVAJAL ORTIZ
De esta forma surgen dos tipos de error :
4.3.1. Error Tipo I (  ) : Consiste en considerar una persona como
“enferma” (+) cuando realmente está “sana” (-). Se denomina
también frecuencia de Falsos Positivos.
4.3.2. Error Tipo II (  ) : Considerar una persona como “sana” (-) cuando
realmente está “enferma” (+) o frecuencia de Falsos Negativos.
El grado de superposición existente entre las poblaciones determina la
relación entre  y . De esta forma, en la medida en que estos errores sean
muy pequeños el test o prueba aplicada (glucosa, ácido úrico, etc.) indica
gran poder de discriminación, esto es, separa negativos de positivos. En el
caso de que la superposición sea muy grande, debe descartarse la
aplicación del test como método selectivo. Se debe por lo tanto, intentar
aplicar otro sistema de medición capaz de reducir al mínimo dicha
superposición.
Gran poder de discriminación
Poco poder de discriminación
78
REYNALDO CARVAJAL ORTIZ
4.4.
SENSIBILIDAD Y ESPECIFICIDAD DEL TEST.
Con base en la norma establecida se puede determinar :
4.4.1. Sensibilidad: Es la capacidad que tiene el test para clasificar como
positiva a la persona realmente enferma evitando de esta forma la
presencia de falsos negativos ( ).
Por ejemplo, si una prueba es sensible en un 98%, esto significa que por
cada cien enfermos ya diagnosticados por métodos comunes, detecta 98:
ESTADO REAL DE LAS POBLACIONES
(-)
(+)
Especificidad
Sensibilidad
F- F+
 
Norma
Variable Separadora
4.4.2. Especificidad : Es la capacidad que tiene el test para clasificar
como negativa (-) a la persona que está realmente sana evitando la
presencia de falsos positivos
(). Por ejemplo, si un test es
específico en un 97%, significa que por cada 100 personas sanas (o
sin la enfermedad investigada) detecta 97.
79
REYNALDO CARVAJAL ORTIZ
4.5.
APLICACIÓN
DE
LA
DISTRIBUCION
NORMAL
EN
LA
SELECCIÓN DE DONANTES DE SANGRE
Uno de los problemas crónicos que se presentan en los bancos de sangre
de los hospitales es la transmisión del virus de la hepatitis que hacen los
donadores de sangre a los pacientes que necesitan una transfusión.
Prince y Gershon9 afirman que resultados empíricos de extensas encuestas
entre personas sanas y personas que tienen un daño hepatocelular
comprobado revelan que para ambas poblaciones, el logaritmo de los
valores de la transaminasa sérica glutamato-piruvato (T.P.G.S.) sigue
aproximadamente una curva normal y puede resultar considerablemente
elevada antes y después del curso clínico de la hepatitis vírica Ictérica, así
como también, durante el curso de la hepatitis viral anictérica.
Para la población de personas exentas de cualquier lesión hepatocelular
(sanos) el logaritmo (base 10) de la T.P.G.S. presenta un valor promedio
 = 1.25 con una desviación estándar
 = 0.12, mientras que en la
población de enfermos estos valores =1.55 y  = 0.13. El propósito es el
de utilizar esta información y encontrar un valor crítico (o norma) para el
T.P.G.S. en el tamizaje (screening) de sangre de poblaciones donde no se
sabe si el donador es una persona sana o tiene un daño hepatocelular. De
esta forma, la sangre de un donador potencial cuyo log, T.P.G.S. sea mayor
o igual que la norma establecida sería rechazado por el banco de sangre
del hospital; en caso contrario se aceptaría para una transfusión.
80
REYNALDO CARVAJAL ORTIZ
Si se establece como criterio aceptar la sangre del 95.45% de los
donadores sanos el valor crítico o norma será igual a 1.4528 :
ESTADO REAL DE LA POBLACIÓN
(-)
(+)
Especificidad
95.45%
Sensibilidad
77. 34%
22.66%
0.9
1.0
1.1
1.2
1.3
4.55%
1.4
1.5
1.6
1.7
1.8
1.9
2.0
Log. T.P.G.S.
Variable Separadora
1.4528
Sanos según norma
Enfermos según norma
Los resultados obtenidos muestran que el test posee una sensibilidad
aceptable (77.34%), alta especificidad (95.45%), alta frecuencia de falsos
negativos, esto es, conduce a aceptar la sangre del 22.66% de donantes
que han tenido daño hepatocelular y baja frecuencia de falsos positivos
(4.55%).
81
REYNALDO CARVAJAL ORTIZ
4.6.
CUADRO
DE
CUATRO
CASILLAS
ASOCIADO
A
LA
DISTRIBUCIONES OBTENIDAS.
Considerando :
a.
= Total de personas enfermas detectadas por el test como positivas
(bien clasificadas)
b.
= Total de personas sanas detectadas por el test como positivas
(Falsos positivos)
c.
= Total de personas enfermas detectadas por el test como negativas
(Falsos negativos)
d.
= Total de personas sanas detectadas por el test como negativas
(bien clasificadas)
a + c = Población de personas realmente enfermas
b + d = Población de personas realmente sanas
a + b = Población de personas “enfermas” según test
c + d = Población de personas “sanas” según test.
Es posible llevar los resultados contenidos a un cuadro de cuatro casillas :
(-)
RESULTADO
DEL TEST
TOTAL
(+)
( -)
ESTADO REAL
(+)
(-)
a
b (F+)
c (F-)
d
a+b
b +d
(+)
TOTAL
a+b
c+d
N
d
a
c
Norma
b
variable Separadora
82
REYNALDO CARVAJAL ORTIZ
y
estimar :
(1) Sensibilidad =
a / (a + b)
(2) Especificidad = d / (b + d)
4.7.
(3) Falsos negativos = c
(4) Falsos positivos = b
VALOR PREDICTIVO DE UN TEST
Cuando se aplica un test a una comunidad dada es importante determinar
cuantos de todos los que el test detecta como positivos (a + c) son
realmente enfermos (a) o también cuantos de todos los que el test detecta
como negativos (c + d) son realmente sanos (d). Esto implica calcular :
4.7.1. Valor Predictivo del Test Positivo: Es la probabilidad condicional
de estar realmente enfermo cuando el resultado del test es positivo.
Considerando los eventos :
(-)
(+)
E = Estar realmente enfermo
a
+
T = Resultado del test (positivo)
Entonces :
b
Falsos positivos
P(E/ T+) = Valor predictivo del test positivo = a/(a + b)
Un test con un alto valor predictivo positivo tiene muy poca probabilidad de
incluir falsos positivos (Error  ).
83
REYNALDO CARVAJAL ORTIZ
4.7.2. Valor Predictivo del test negativo : Es la probabilidad condicional
de estar realmente sano cuando el resultado del test es negativo:
(-)
(+)
Si :
S = Estar realmente sano
d
c
-
T = Resultado del test (negativo)
Entonces :
Falsos Negativos
P(S/ T - ) = Valor predictivo del test negativo = d / (c + d)
Un test con alto valor predictivo negativo tiene muy poca probabilidad de
incluir falsos negativos (Error  ).
4.8.
TEOREMA DE BAYES PARA EL CALCULO DEL VALOR
PREDICTIVO
El calculo del valor predictivo de un test implica la aplicación del teorema de
Bayes. Una forma sencilla para describir el método, es empleando un
Diagrama de Arbol.
Utilizando la notación dada en los numerales 5 y 6 se tiene :
T+
a
E
c
a+c
Tb+d
b
T+
Estas dos rutas conducen
a un resultado de test
positivo
S
d
T-
84
REYNALDO CARVAJAL ORTIZ
Por lo tanto el valor predictivo del Test positivo será igual a :
P(E) P(T+/E)
P(E/T+) =
P(E) P(T+/E) + P (S) P(T+/S)
Reemplazando según el cuadro de 4 casillas :
(a + c ) / N
x a / (a + c)
a
p(E/T+) =
=
(a + c) / N x a / (a + c) + (b +d) / N x b/ (b+d)
a+b
En términos de sensibilidad y especificidad quedará :
(a + c ) / N ( Sensibilidad)
+
p(E/T ) =
(a + c ) / N ( Sensibilidad) + ( b + d ) / N x ( 1 – Especificidad)
Para la aplicación del test en una comunidad dada (programa tamiz ) es
necesario tener un estimativo de la prevalencia de la enfermedad
investigativa
(a + c ) / N
. De esta forma
T+
Rutas que conducen
a un resultado de
Test positivo
E
T
-
T
+
S
T
-
85
REYNALDO CARVAJAL ORTIZ
Valor Predictivo del Test Positivo = P(E/T+)
(Prevalencia) (Sensibilidad)
P(E/T+) =
(Prevalencia) (Sensibilidad) + (1-prevalencia) (1-especificidad)
De igual manera se procede para estimar el valor predictivo del test
negativo, esto es :
Valor Predictivo del Test Negativo = P(S/T -)
(1-Prevalencia) (Especificidad)
P(S/T -) =
(1-Prevalencia) (Especificidad) + (Prevalencia) (1-Sensabilidad)
Considerando nuevamente los resultados obtenidos para log. TPGS
y
asumiendo que se va aplicar el test en una comunidad donde existe una
prevalencia de hepatitis del 12%, el valor predictivo del test será igual a :
(0.12) (0.7734)
Valor Predictivo test positivo =
= 69.9%
(0.12) (0.7734) + (0.88) (0.455)
(0.88) (0.9545)
Valor Predictivo test negativo =
= 96.9%
(0.88) (0.9545) + (0.12) (0.2266)
86
REYNALDO CARVAJAL ORTIZ
En una población de 1000 donadores de sangre se esperarían los
resultados siguientes :
DONADORES
Enfermos
Sanos
Total
Rechazada
93
40
133
Aceptada
27
840
867
120
880
1000
Sangre
Total
Los datos muestran claramente como la prueba del log. T.P.G.S. reduce la
prevalencia de hepatitis observada en la comunidad (12%) a solo 3.1%
(27/867) entre los donadores con sangre aceptada por el banco. También
se aprecia que rechaza un 30.1% (40/133) de donadores sanos.
Esta situación sugiere que se debe tener presente también la relación
costo-beneficio para el establecimiento de una prueba tamiz.
Los cálculos obtenidos anteriormente (3.1% y 30.1%) son respectivamente
los falsos negativos y los falsos positivos obtenidos al aplicar la prueba
tamiz:
Falsos negativos = P(E/T -) =1- (Valor Predictivo del Test Negativo) = 3.1%
Esto significa que por cada 100 donadores con sangre aceptada mediante
la prueba, 3 son realmente enfermos (Falsos negativos )
Falsos positivos = P(S/T +) = 1- (Valor Predictivo del Test Positivo) = 30.1%
87
REYNALDO CARVAJAL ORTIZ
Por lo tanto, cuando en una comunidad determinada se aplica un test para
tamizaje (screening) con el objeto de detectar grupos de alto riesgo, es
necesario tener muy en cuenta su sensibilidad, especificidad y la
prevalencia de la enfermedad.
A continuación se detallan valores predictivos (%) de un test para diferentes
prevalencias:
SENSIBILIDAD (90%), ESPECIFICIDAD (95%)
Prevalencia de la Enfermedad (%)
Valor Predictivo
0.1
1.0
10
50
Test positivo
1.76
15.38
66.67
94.74
Falsos positivos
98.24
84.62
33.33
5.26
Test negativo
99.99
99.89
98.84
90.48
Falsos negativos
0.001
0.11
1.16
9.52
Observe que a medida que la prevalencia de la enfermedad aumenta el
valor predictivo del test positivo se hace mas fuerte.
88
REYNALDO CARVAJAL ORTIZ
4.9.
TALLER
SOBRE
CURVA
NORMAL,
PRUEBAS
DIAGNOSTICAS
(TAMIZ) Y TEOREMA DE BAYES.
SITUACION DE REFERENCIA PARA LAS PREGUNTAS 1 A 10
Asuma que el logaritmo de los valores de la Transaminasa pirúvica glutámica sérica
(TPGS) sigue aproximadamente una Distribución Normal tanto en 6.003 personas
enfermas (con hepatitis) como en 7.500 personas sanas (sin Hepatitis).
LOGARITMO TPGS
Enfermos
Sanos
Promedios
1.7
1.3
D. Estándar
0.1
0.1
1) Realizar un bosquejo de ambas distribuciones.
2) Estimar la norma que deje una frecuencia relativa igual al 3% de falsos positivos.
3) Con base en dicha norma calcular la probabilidad de falsos negativos.
4) Suponga que se toma como prueba Tamiz el Log TPGS y se aplica en una población
donde la prevalencia de Hepatitis es de 5%. Estimar el valor predictivo del test positivo
y el valor predictivo del test negativo.
5) Estimar la norma que deje una frecuencia de falsos negativos igual 1%. Estime luego,
La probabilidad de falsos positivos.
Además estime el valor predictivo del test positivo y el valor predictivo del test negativo
para cada una de las prevalencias siguientes: 1%, 5%, 10%, 20%, 30%.
Realice una tabla incluyendo falsos positivos, falsos negativos y saque una buena
conclusión.
6) El valor crítico (o Norma) a partir del cual el procedimiento del Tamizaje rechazaría la
sangre del 95.05% de los donadores enfermos es igual a:
(
) 1.865
(
) 1.465
(
) 1.535
(
) 1.135
(
) NINGUNA DE LAS ANTERIORES
89
REYNALDO CARVAJAL ORTIZ
7) Con dicho punto crítico, la probabilidad de rechazar la sangre de un donador sano será
igual a:
(
) .0405
(
) .0495
(
) .4906
(
) .0094
(
) NINGUNA DE LAS ANTERIORES
8) Si se considera como una norma aceptar la sangre de donadores cuyo valor del Log
TPGS sea menor o igual a 1.45, entonces el número de Falsos Negativos es igual a:
(
) 501
(
) 401
(
) 3249
(
) 2600
(
) NINGUNA DE LAS ANTERIORES
9) Con la norma establecida de 1.45 la sensibilidad del Test será igual a:
(
) 93.32%
(
) 92.25%
(
) 99.38%
(
) 99.47%
(
) NINGUNA DE LA ANTERIORES
10) Si se aumenta la norma de 1.45 a 1.65 entonces:
(
) Aumenta Falsos Negativos y la Sensibilidad.
(
) Disminuye Falsos Positivos y la Especificidad.
(
) Aumenta la Sensibilidad y los Falsos Positivos.
(
) Aumenta la Especificidad y los Falsos Negativos.
(
) NINGUNA DE LAS ANTERIORES
90
REYNALDO CARVAJAL ORTIZ
SITUACION DE REFERENCIA PARA LAS PREGUNTAS 11 A 14
Un investigador desarrolla una Prueba Exploratoria para Cáncer. Al aplicarla a 60
personas con Cáncer diagnosticado observa que obtiene 6 Falsos Negativos. Al aplicar
dicha prueba en 70 personas libres de Cáncer, el número de Falsos Positivos es de 14.
11) Si se toma al azar un individuo de un numeroso grupo de personas donde la
Prevalencia de Cáncer es de 1.5% y al aplicarle la Prueba Exploratoria, ésta dá
positiva, entonces la probabilidad de que dicho individuo tenga realmente Cáncer es
igual a:
(
) .0187
(
) .0135
(
) .0641
(
) .1970
(
) NINGUNA DE LAS ANTERIORES
12) Si el Tamizaje (Screening) se realiza en una población donde la Prevalencia de Cáncer
es de 20% entonces la probabilidad de declarar a una persona sana cuando realmente
tiene Cáncer es igual a:
(
) .0200
(
) .9696
(
) .6400
(
) .0303
(
) NINGUNA DE LAS ANTERIORES
13) Con la información dada en la pregunta 11, el valor predictivo del Test Negativo será
igual a:
(
) .7880
(
) .9981
(
) .0015
(
) .0019
(
) NINGUNA DE LAS ANTERIORES
91
REYNALDO CARVAJAL ORTIZ
14) Con la información dad en la pregunta No. 12, la probabilidad de acertar en la
predicción de que una persona tenga Cáncer, será igual a:
(
) .5294
(
) .1800
(
) .4706
(
) .1600
(
) NINGUNA DE LAS ANTERIORES
4.10.
BIBLIOGRAFIA
1.
Armitage, P. Statistical Methods in Medical Research. New York, Wiley, 1971.
2.
Burr W. Irving. Applied Statistical Methods. New York, Academic Press, Inc. 1974
3.
Colimon, K.M. Fundamentos de Epidemiología. Medellín, Colimon, 1978.
4.
Colton Theodore. Estadística en Medicina. España, Salvat, 1979.
5.
Guerrero,
González,
Medina.
Epidemiología.
Bogotá,
Fondo
Educativo
Interamericano, 1981.
6.
Prince A.M., and Gershon R.K. The use of serum enzyme Determinations to detect
anicteric hepatitis. Transfusión 5: 120, 1965.
92
Descargar