Curvas ROC - Ferran Torres

Anuncio
REVISIONES
Las curvas ROC en la evaluación
de las pruebas diagnósticas
M.J. Burgueñoa, J.L. García-Bastosb y J.M. González-Buitragob,c,d
a
Servicio de Análisis Clínicos. Hospital General Yagüe. Burgos. bServicio de Bioquímica.
Unidad de Investigación. Hospital Universitario. Salamanca. dDepartamento de Bioquímica
y Biología Molecular. Universidad de Salamanca.
c
curvas ROC
La evaluación de las pruebas diagnosticas se ha tratado, en
general, sin un criterio universalmente aceptado. En diferentes estudios aparecen términos como sensibilidad, especificidad, eficiencia, exactitud, utilidad, valor, eficacia y efectividad, pero a menudo el significado de los mismos es ambiguo. La ausencia de acuerdo, tanto en el concepto, como en
la medida de la calidad de una prueba diagnóstica, crea una
situación de confusión a la hora de resolver cuestiones concretas.
La calidad de una prueba diagnóstica utilizada para el cuidado de los pacientes no se juzga sólo por sus características
analíticas sino, fundamentalmente, por su capacidad para
distinguir entre estados alternativos de salud. El médico solicita una prueba para decidir, junto con otros datos disponibles, si el paciente tiene o no una condición clínica. Por lo
tanto, para que una prueba se incluya en la práctica médica
rutinaria es necesario que sea capaz de reducir la incertidumbre asociada con una determinada situación clínica.
La principal cualidad clínica de una prueba diagnóstica es
su exactitud, definida como la capacidad para clasificar de
manera correcta a los individuos en subgrupos clínicamente
relevantes. En su forma más simple es la capacidad para
distinguir entre dos estados de salud.
Una vez establecida esta capacidad de discriminar adecuadamente, es necesario conocer también el valor práctico de
la prueba para el cuidado del paciente. Existen diversas causas que invalidan una prueba diagnóstico para su uso práctico, entre ellas:
Pueden existir métodos menos invasivos o más económicos
para obtener una información semejante.
La prueba puede ser tan cara o poseer tal requerimiento técnico que sea limitada su disponibilidad.
Puede ser tan incómoda o invasiva que los pacientes no se
sometan con facilidad a ella.
El coste o indeseabilidad de los resultados falsos puede ser
tan alto que no exista un punto de corte aceptable.
Clásicamente, la exactitud de una prueba diagnóstica se ha
evaluado en función de dos características: la sensibilidad y
la especificidad 1. Sin embargo, éstas varían en función del
criterio elegido como punto de corte entre la población sana
y la enferma. Una forma más global de conocer la calidad de
la prueba en el espectro completo de puntos de corte es
mediante el uso de curvas ROC (receiver operating
characteristics, características operativas del receptor) que,
como veremos a lo largo de esta «Revisión», constituyen una
herramienta fundamental y unificadora en el proceso de evaluación y uso de las pruebas diagnósticas.
Sensibilidad y especificidad diagnósticas
Siempre que una cuestión clínica y el resultado de la prueba
diagnóstica encaminada a resolverla puedan plantearse en
términos de dicotomía (presencia o ausencia de enfermedad; positivo o negativo), la exactitud de la prueba puede
definirse en función de su sensibilidad y especificidad
diagnósticas. Sin embargo, con mucha frecuencia los resultados de las pruebas diagnosticas están distribuidos en una
escala continua, por lo que es necesario seleccionar un punto de corte o valor límite adecuado que permita resumir estos
resultados en dos categorías: positivo y negativo.
La sensibilidad de una prueba diagnóstica es la probabilidad
de obtener un resultado positivo cuando el individuo tiene la
enfermedad. Mide su capacidad para detectar la enfermedad cuando está presente. La especificidad de una prueba
indica la probabilidad de obtener un resultado negativo cuando el individuo no tiene la enfermedad. Mide su capacidad
para descartar la enfermedad cuando ésta no está presente.
No existe ninguna manera teórica de medición de estas dos
características de una prueba. El único procedimiento es el
experimental, sometiendo a un grupo de pacientes, sanos y
enfermos, clasificados mediante un método diagnóstico de
referencia exacto e independiente, a la prueba que queremos estudiar2. La sensibilidad se obtiene en el subgrupo de
enfermos y la especificidad en el de sanos, por lo que ambos
valores son independientes de la prevalencia en la muestra
estudiada.
Al comparar los resultados de la prueba a evaluar y el diagnóstico de referencia, existen cuatro posibilidades que pueden resumiese en una tabla de contingencia de 2 x 2 (tabla
1).
La sensibilidad viene dada por:
enfermos positivos
VP
Sensibilidad=
=
total enfermos
VP + FN
La especifidad viene dada por:
sanos negativos
Especificidad=
total sanos
VN
=
VN+ FP
TABLA 1
Comparación de los resultados de la prueba a evaluar
con el diagnóstico verdadero
Diagnóstico verdadero
Enfermos
Correspondencia: Dr. J.M. González-Buitrago.
Servicio de Bioquímica. Hospital Universitario. 37007 Salamanca.
Manuscrito aceptado el 18-12-1993
Med Clin (Barc) 1995: 104: 661-670
Prueba
estudiada
Resultado
positivo
Resultado
negativo
Verdadero
positivo
Verdadero
negativo
Sanos
Falso
positivo
Falso
negativo
661
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
La prueba diagnóstica ideal debería tener una sensibilidad y
una especificidad tan próximas al 100 % como fuera posible. Esto constituye una excepción, pero en principio se debe
dudar de pruebas cuyas sensibilidad y especificidad sean
inferiores al 80 %.
A partir de la tabla de contingencia se puede definir el valor
predictivo del resultado positivo como la proporción de resultados válidos entre los resultados positivos de la prueba:
VP
VPP=
VP+FP
específico (PSA) no puede distinguir a los pacientes con cáncer de próstata, diagnosticados mediante tacto rectal y estudio anatomopatológico del material obtenido por punción
transrectal, de los pacientes sin dicho cáncer, en los varones
mayores de 50 años.
A veces, los datos obtenidos se revisan en busca de correlaciones inesperadas entre variables o subgrupos de pacientes con datos llamativos. Sin embargo, la significación estadística de tales relaciones que han sugerido los datos no se
puede determinar sin obtener datos adicionales. Para asegurarse de que el grado de significación, P, obtenido no supera el riesgo de error, α, fijado por el investigador, es necesario plantear la hipótesis nula antes de la recogida de datos.
El valor predictivo del resultado negativo será la proporción
de resultados válidos entre los negativos:
VN
Elección de sujetos representativos de la población clínica a
la que se aplicará la prueba
VPN=
VN+FN
y el valor global la proporción de resultados válidos entre la
totalidad de pruebas efectuadas:
VP + VN
VG=
VP + FP + VN + FN
Los valores predictivos de una prueba, a diferencia de la sensibilidad y la especificidad, varían en función de la prevalencia de la enfermedad. Si se estudia una enfermedad cuya
prevalencia es baja, incluso una prueba muy específica dará
lugar a muchos falsos positivos, dado el elevado número de
individuos sanos de la colectividad. Si la prevalencia es alta
se puede esperar un mayor número de resultados falsamente negativos. Por lo tanto, cuanto menor sea la prevalencia
de la enfermedad menor será el VPP y mayor el VPN; lo contrario será cierto si la prevalencia es elevada.
Evaluación de una prueba diagnóstica
La evaluación clínica de una prueba debe incluir los siguientes pasos 3:
1. Planteamiento explícito de la hipótesis nula antes de la
recogida de datos.
2. Elección de sujetos representativos de la población clínica
a la que se aplicará la prueba.
3. Establecimiento del diagnóstico verdadero mediante métodos rigurosos, exactos e independientes de la prueba que
se va a estudiar.
4. Realización de la prueba a evaluar evitando sesgos.
5. Cálculo de la sensibilidad y la especificidad. Evaluación y
comparación de pruebas diagnosticas a todos los niveles de
decisión usando curvas ROC.
Cada uno de estos pasos implica una serie de precauciones
para evitar errores en los resultados finales. El diseño del
estudio, como se verá a continuación, es fundamental para
que las conclusiones sean válidas y relevantes.
Planteamiento explícito de la hipótesis nula antes de la recogida de datos
Esta hipótesis debe establecer: a) la cuestión clínica precisa
que se pretende resolver con la prueba; b) la naturaleza de
la población estudiada, y c) el método utilizado para determinar la verdadera respuesta a la cuestión clínica, es decir,
el diagnóstico verdadero.
Un ejemplo de hipótesis nula que cumple los anteriores requisitos sería: la concentración sérica del antígeno prostático
662
Debe evaluarse en un grupo de individuos con sospecha clínica de la enfermedad que se quiera detectar. Este grupo
incluirá a dos subgrupos que no necesitan estar en la misma
proporción: aquellos pacientes afectados por dicha enfermedad y los no afectados.
Idealmente, los sujetos deberían escogerse y estudiarse
prospectivamente sin conocer su clasificación final. Esto no
es lo más frecuente por lo que es necesario tomar precauciones para no inducir a error en la obtención de la sensibilidad
y la especificidad diagnósticas2.
La muestra de enfermos utilizada para calcular la sensibilidad debe ser representativa del conjunto de enfermos a los
que se aplicará la prueba en condiciones normales y rutinarias3,4. Es decir, debe integrar individuos que padezcan la
enfermedad a estudiar, pero con un rango amplio de variación en cuanto a la gravedad del proceso, la extensión del
mismo, su duración y su asociación con otros trastornos o
enfermedades.
Cuando se afirma que la sensibilidad y la especificidad son
independientes de la prevalencia se hace referencia a la prevalencia de enfermos en la muestra global a la que se aplica
la prueba. La sensibilidad sí depende de la prevalencia de
los distintos grados de enfermedad en el grupo de pacientes5,6. Si al estudiar la sensibilidad de un marcador tumoral
se mide sólo en pacientes en fases avanzadas de cáncer, la
sensibilidad resultará superior que si la muestra incluye también a enfermos de escasa evolución. Además, debe tenerse
cuidado de no excluir a sujetos que estén en el límite diagnóstico.
De manera análoga, en el grupo control deben incluirse sujetos de edades, procedencias y situaciones semejantes a las
de aquellos a quienes va dirigida la prueba. Es importante
analizarla en individuos que sin padecer la enfermedad en
estudio posean los cuadros más usuales en el diagnóstico
diferencial de dicha enfermedad, trastornos de la misma localización anatómica o de la misma naturaleza fisiológica.
Igual que la composición del grupo de enfermos influye en la
sensibilidad, la composición del grupo control que no padece la enfermedad influye en la especificidad7,8. Si una prueba se va a usar para identificar el infarto agudo de miocardio
(IAM) en sujetos que se presentan en el servicio de urgencias con dolor torácico típico y otros síntomas indicativos de
IAM, el grupo control debe estar formado por individuos que
reúnan estas condiciones pero sin infarto. Si se usan donantes de sangre voluntarios se obtendrá una especificidad mayor pero falsa, puesto que la prueba no está encaminada a
detectar IAM en individuos asintomáticos.
En el caso de comparaciones entre varias pruebas, si se utilizan distintos grupos de sujetos es necesario comprobar que
dichos grupos no difieren por la variación del muestreo ni
por sesgos de selección. Por este motivo es mejor estudiar
todas las pruebas en los mismos sujetos, de manera que las
M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS
diferencias observadas se deban a las verdaderas diferencias entre las pruebas 3.
Establecimiento del diagnóstico verdadero mediante métodos rigurosos, exactos e independientes de la prueba que se
va a estudiar 4,9
Un estándar de oro para el diagnóstico clínico es lo ideal,
pero en muchos casos no existe o no es factible. Zweig y
CampbeIl8 recogen las estrategias de distintos investigadores para establecer el diagnóstico verdadero cuando se carece de estándar de oro:
Definir el diagnóstico en términos de resultados clínicos
medibles.
Usar como criterio diagnóstico algún consenso, regla mayoritaria o revisión de expertos.
Asignar a cada sujeto un valor comprendido entre 0 y 1 a
partir del conocimiento subjetivo de la enfermedad, para su
posterior análisis logístico.
Estudiar a largo plazo la evolución clínica.
En un gran número de casos el diagnóstico definitivo se establece mediante el estudio anatomopatológico de biopsias y
son raros los resultados falsos positivos, salvo en cuadros de
muy difícil catalogación. Sin embargo, el azar en la toma de
la muestra, cuando se trata de procesos no generalizados,
produce falsos negativos que disminuyen artificialmente la
especificidad de la prueba en evaluación.
Por otra parte, la adjudicación del diagnóstico verdadero siempre tiene elementos subjetivos, en muchos casos inconscientes para el investigador. Así, éste debe establecer el diagnóstico de manera ciega, sin conocer previamente el resultado
de la prueba evaluada, para evitar cualquier tipo de
condicionamiento que produzca aumentos sesgados de la
sensibilidad y la especificidad2.
También debe evitarse el sesgo por razonamiento circular.
Este error se produce cuando para catalogar a los sujetos
como enfermos o sanos uno de los criterios utilizados es la
propia prueba que se está evaluando o alguna otra muy relacionada, por lo que aumenta artificialmente la concordancia.
El diagnóstico definitivo debe hacerse con independencia de
la prueba en estudio9.
Por último, es necesario considerar que el método usado para
determinar la verdad no debe afectar a la selección de la
muestra porque sea tan invasivo que se reserve para casos
muy graves, no sea bien tolerado por los pacientes o por alguna otra causa 4.
Realización de la prueba a evaluar evitando sesgos
Existen pruebas en las que la subjetividad puede afectar al
resultado, por lo que el conocimiento del diagnóstico verdadero puede influir mejorando injustificadamente la estimación de la sensibilidad y la especificidad. Los resultados obtenidos con la prueba en evaluación no deben conducir a
verificaciones en caso de discordancia con el diagnóstico de
referencia, ya que esto llevaría a un sesgo, aumentando la
sensibilidad y la especificidad. Tanto el diagnóstico de referencia como la prueba en estudio deben realizarse con igual
cuidado en todos los casos y con independencia10.
Cálculo de la sensibilidad y la especificidad. Evaluación y
comparación de pruebas diagnosticas a todos los niveles de
decisión usando curvas ROC
Como se ha comentado, en aquellas pruebas que ofrecen
resultados en un rango continuo es necesario establecer un
punto de corte que divida los resultados en dos grupos (positivo y negativo) para poder calcular su sensibilidad y su es-
pecificidad frente a un método de referencia. Sin embargo,
citar un solo valor de sensibilidad y especificidad puede conducir a error o, por lo menos, a una simplificación de la exactitud. Para cualquier prueba en la que la distribución de los
resultados de los grupos sano y enfermo se solapen, existe
un equilibrio entre sensibilidad y especificidad. Ambas varían en direcciones opuestas: si al modificar el punto de corte aumenta la sensibilidad, la especificidad disminuye, y viceversa.
Por tanto, las pruebas diagnosticas no tienen un solo par
sensibilidad/especificidad (S/E), sino muchos, uno por cada
nivel de decisión o punto de corte que se adopte. ¿Cuál será
el par que describa la exactitud de la prueba? Sólo el espectro completo de pares S/E para todos los puntos de corte
limita y describe la exactitud de la prueba para discriminar
entre estados de salud. La curva ROC proporciona una visión
de este espectro completo, por lo que es una herramienta
fundamental en la evaluación y comparación de pruebas
diagnósticas9.
Un punto de corte se puede elegir para utilizar la prueba en
el cuidado del paciente, pero para evaluar pruebas no es
deseable ya que puede conducir a errores respecto a su exactitud o comparaciones erróneas entre distintas pruebas.
Curvas ROC
Las curvas ROC se desarrollaron en los años cincuenta como
herramientas para el estudio de detección e interpretación
de señales de radar. El objetivo de los operadores de radar
era distinguir las verdaderas señales del ruido de fondo11. Si
se observa la pantalla de un receptor de radar (fig. 1), puede
verse cómo al variar la amplitud de la señal definida para
considerar un pico como misil, varían la sensibilidad y la especificidad del sistema de recepción.
Si I, II y III son señales emitidas por misiles, al situar la amplitud A como punto de corte detectaremos los 3 misiles (sensibilidad 100 %), pero también consideraremos misiles señales que no lo son. Al cambiar el nivel de decisión a la amplitud B no consideraremos misil ninguna señal de ruido (especificidad 100 %) pero no habremos detectado el misil lI,
por lo que la sensibilidad desciende.
De la misma forma que en el receptor de radar se produce
un solapamiento entre las verdaderas señales y el ruido, al
realizar pruebas diagnosticas existe un solapamiento entre
los resultados de los pacientes con una condición particular
y los de aquellos que no la tienen. Por este motivo, las aplicaciones de las curvas ROC se extendieron a múltiples sistemas diagnósticos, incluidas las técnicas radiológicas12 y las
pruebas de laboratorio9, y su denominación se está sustituyendo cada vez más por «Performance Characteristic Curves»
o curvas de rendimiento diagnóstico.
La curva ROC es un gráfico en el que se observan todos los
pares sensibilidad/especificidad resultantes de la variación
continua de los puntos de corte en todo el rango de resultados observados13. En el eje y de coordenadas se sitúa la sensibilidad o fracción de verdaderos positivos, definida como
se expuso anteriormente y calculada en el grupo de enfermos (fig. 2). En el eje x se sitúa la fracción de falsos positivos
o 1-especificidad, definida como FP/VN + FP y calculada en
el subgrupo no afectado. Algunos autores sitúan en el eje x la
especificidad, pero es lo menos frecuente14.
Cada punto de la curva representa un par S/1-E correspondiente a un nivel de decisión determinado. Una prueba con
discriminación perfecta, sin solapamiento de resultados en
las dos poblaciones, tiene una curva ROC que pasa por la
esquina superior izquierda, donde S y E toman valores máximos (S y E = 1). Una prueba sin discriminación, con igual
distribución de resultados en los dos subgrupos, da lugar a
una línea diagonal de 45º, desde la esquina inferior izquier663
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
Fig. 1 .Señales registradas en un receptor de radar; I, II y III corresponden a misiles.
da hasta la superior derecha. La mayoría de las curvas ROC
caen entre estos dos extremos. Si cae por debajo de la diagonal de 45º se corrige cambiando el criterio de positividad de
“mayor que” a “menor que” o viceversa.
Cualitativamente, cuanto más próxima es una curva ROC a
la esquina superior izquierda, más alta es la exactitud global
de la prueba. De la misma forma, si se dibujan en un mismo
gráfico las curvas obtenidas con distintas pruebas
diagnósticas, aquella que esté situada más hacia arriba y
hacia la izquierda tiene mayor exactitud: por simple observación se obtiene una comparación cualitativa.
Las curvas ROC son índices de la exactitud diagnostica y
proporcionan un criterio unificador en el proceso de evaluación de una prueba15, debido a sus diversas aplicaciones (tabla 2).
De acuerdo con Zweig y Campbell8, el uso de las curvas ROC
en la evaluación de pruebas diagnosticas presenta las siguientes ventajas:
Fig. 2 .Curva ROC.
TABLA 2
Aplicaciones de las curvas ROC en la evaluación de
pruebas diagnosticas
Evaluación visual de la exactitud
Comparación visual entre pruebas
Análisis estadístico ROC
Evaluación cuantitativa de la exactitud mediante el área bajo la curva
ROC
Comparación cuantitativa entre pruebas
Selección de niveles de decisión considerando la prevalencia y la
relación coste/beneficio de los resultados falsos
Análisis de regresión logística y análisis discriminante
664
1. Son una representación fácilmente comprensible de la
capacidad de discriminación de la prueba en todo el rango
de puntos de corte.
2 Son simples, gráficas y fáciles de interpretar visualmente.
3. No requieren un nivel de decisión particular porque está
incluido todo el espectro de puntos de corte.
4. Son independientes de la prevalencia, ya que la sensibilidad y la especificidad se obtienen en distintos subgrupos.
Por tanto, no es necesario tener cuidado para obtener muestras con prevalencia representativa de la población. De hecho, es preferible generalmente tener igual número de individuos en ambos subgrupos.
5. Proporcionan una comparación visual directa entre pruebas en una escala común, mientras que otro tipo de gráficos,
como los diagramas de puntos o los histogramas de frecuencias, requieren diferentes gráficos cuando difieren las escalas.
6 La especificidad y la sensibilidad son accesibles en el gráfico, en contraste con los diagramas de puntos y los
histogramas.
M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS
Las curvas ROC han sido infrautilizadas por los investigadores a pesar de ser herramientas fundamentales en la evaluación de pruebas diagnosticas. Esto quizá se deba a sus aparentes desventajas8:
1. Los puntos de corte, aunque son conocidos y se han usado para generar el gráfico, no aparecen en él, a diferencia de
los diagramas de puntos y los histogramas. Al observar un
punto de la curva se observan la sensibilidad y la especificidad que tiene asociadas, pero no se conoce el valor concreto
de dicho punto.
2 El número de sujetos de la muestra estudiada tampoco
aparece en el gráfico.
3 Al disminuir el tamaño de la muestra, la curva ROC tiende
a hacerse más escalonada y desigual. Sin embargo, incluso
con gran número de sujetos, la curva puede ser muy desigual.
4. La generación de las curvas y el cálculo de sus parámetros
son difíciles sin ordenador, y los programas existentes no están
ampliamente distribuidos.
Construcción de las curvas ROC
Existen diversos métodos para construir las curvas ROC que
dependen del tipo de datos que se manejen. Los datos clínicos pueden ser discretos o continuos. La mayoría de los datos de laboratorio son continuos (medidas de concentración
de sustratos, electrólitos, fármacos, hormonas o enzimas) con
la única limitación del sistema de medida. En los estudios
clínicos es muy frecuente agrupar los datos continuos en
categorías ordenadas para resumir la información y simplificar los cálculos. Las tiras para análisis urinario proporcionan, por el contrario, resultados en una escala discreta de
categorías ordenadas. Las imágenes radiológicas también
suelen clasificarse en escalas discretas en función del grado
de la anomalía observada: una angiografía de la arteria
pulmonar puede resultar normal, probablemente normal,
dudosa, probablemente patológica o claramente patológica.
En todos los casos se empieza por calcular los puntos sensibilidad/1-especificidad a todos los posibles puntos de corte
de la prueba. Si la escala es continua estos puntos serán
todos los valores observados. Si se han agrupado los resultados en intervalos, los puntos de corte son los límites de estos
intervalos. Por último, si la escala es discreta los puntos de
corte son todos los posibles valores de la escala.
Una vez obtenidos todos los puntos, la construcción de la
curva se puede abordar de acuerdo con modelos paramétricos
o no paramétricos. Los primeros se utilizan cuando los datos
están agrupados en categorías o bien pertenecen a una escala discreta. Los métodos no paramétricos son adecuados
cuando se trabaja con datos de una escala continua.
Fig. 3. Curva ROC no paramétrica del cociente apolipoproteína A1/
apolipoproteína B en el diagnóstico de la enfermedad arterial coronaria.
den producirse empates en los datos continuos. Un empate
es de interés cuando un miembro del grupo enfermo tiene el
mismo resultado que uno del grupo no enfermo. En este caso,
el verdadero camino entre dos puntos adyacentes no se conoce porque las fracciones de verdaderos y falsos positivos
cambian simultáneamente. La diagonal es la media entre los
dos caminos extremos, primero horizontal y después vertical
o viceversa, pero tiende a subestimar la curva en la determinación de la exactitud de la prueba diagnóstica8 (fig. 4).
Una aproximación frecuentemente adoptada en la literatura
clínica consiste en agrupar los datos continuos en categorías, representar sólo unos pocos puntos de la curva ROC y
conectarlos mediante líneas rectas (fig. 5). Esta agrupación
tiene la ventaja de que la curva es fácil de dibujar, pero al
Curvas ROC no paramétricas
Para datos continuos, los puntos adyacentes se unen mediante líneas horizontales y verticales. Al cambiar el nivel de
decisión, la inclusión de un resultado verdadero positivo produce una línea vertical, a la vez que la inclusión de un falso
positivo produce una horizontal. La figura toma apariencia
de escalera. Al ir aumentando el número de individuos en los
dos grupos, los pasos de la escalera se hacen más pequeños
y el gráfico aparece menos dentado (fig. 3). Este tipo de curva ROC utiliza toda la información de los datos directamente
y se denomina no paramétrica porque no necesita ajustarse
a ningún modelo de distribución; carece de parámetros, en
contraste con las aproximaciones paramétricas que se basan en modelos con parámetros que deben estimarse.
Aunque es menos frecuente que entre datos discretos, pue-
Fig. 4 .Curva ROC no paramétrica de la CK-MB en el diagnóstico del IAM.
Las líneas diagonales corresponden a empates.
665
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
Fig. 5. Curva ROC no paramétrica del cociente Apo A1/Apo B. La línea continua muestra los datos sin agrupar y la discontinua los mismos datos agrupados en categorias.
Fig. 6 .Curva ROC paramétrica de imágenes radiológicas clasificadas en categorías. La línea discontinua representa la curva empírica y la continua el
resultado del ajuste a una distribución gaussiana.
descartar muchos datos se pierde información y se introducen muchos empates. Cuando los puntos son pocos y alejados entre sí, esta gráfica puede representar erróneamente la
verdadera curva ROC, subestimando la exactitud de la prueba, ya que las líneas diagonales suelen caer por debajo de la
escalera 16.
que también permiten los análisis estadísticos para la evaluación cuantitativa de las pruebas diagnósticas.
Curvas ROC paramétricas
Cuando se dispone de datos discretos o continuos agrupados en categorías, puede utilizarse algún modelo paramétrico
para el ajuste de la curva ROC. Se asume que la distribución
de frecuencias de resultados, no de los propios resultados,
en las diversas categorías sigue un modelo paramétrico y
posteriormente se estiman los parámetros correspondientes17.
Un modelo utilizado frecuentemente es el denominado
binormal. Asume que las distribuciones de frecuencias de
los subgrupos enfermo y no enfermo en las distintas categorías son gaussianas con distintas medias y, en muchos casos, distintas variancias. Estos supuestos no pueden verificarse completamente, por lo que varios autores discrepan
con este método18,19 . En la figura 6 se observa una curva
paramétrica de imágenes radiológicas clasificadas en cinco
categorías; en ella, los datos experimentales se han ajustado
a una distribución binormal.
Otros modelos paramétricos con una distribución logística o
exponencial negativa tienen inconvenientes semejantes.
Una aproximación distinta consiste en ajustar los puntos de
la curva ROC directamente a una función matemática, lo que
implica también adoptar un modelo paramétrico.
En las tablas 3 y 4 se exponen las ventajas e inconvenientes
de las curvas ROC paramétricas y no paramétricas. Para datos
continuos, como la mayoría de los resultados de laboratorio,
son preferibles las curvas ROC no paramétricas.
Análisis de las curvas ROC
Las curvas ROC no sólo aportan información cualitativa, sino
666
TABLA 3
Ventajas e inconvenientes de las curvas ROC no
paramétricas
Ventajas
Usan todos los datos y la curva pasa por todos los puntos de corte
Proporcionan estimadores centrados (sin sesgo) de la sensibilidad, la
especificidad y el área bajo la curva, ya que para cada punto de corte
los mejores estimadores son los no paramétricos
No necesitan asumir supuestos
Los cálculos son simples
Inconvenientes
Tienen apariencia de escalera
Las series grandes de datos producen un gráfico abigarrado
Los empates pueden causar problemas, ya que normalmente dan lugar a
curvas subestimadas y, por tanto, la exactitud obtenida es menor que
la real
La comparación entre dos puntos de dos curvas ROC sólo puede
realizarse a sensibilidades o especificidades observadas
TABLA 4
Ventajas e Inconvenientes de las curvas ROC paramétricas
Ventajas
Proporcionan una línea curva de visualización más clara.
Permiten comparar puntos de dos curvas a cualquier sensibilidad o
especificidad, observadas o no
Inconvenientes
Descartan datos al agruparlos, con la consiguiente pérdida de
información
Asumen modelos de distribución que muchas veces no se pueden
comprobar
La curva no pasa necesariamente por los verdaderos puntos Los puntos
ROC y el área pueden ser sesgados
Los cálculos son complejos
M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS
Intervalos de confianza de sensibilidad y especificidad
Ya se ha comentado que la variabilidad del muestreo puede
dar lugar a distintos valores de sensibilidad y especificidad.
Esta variabilidad se indica calculando la variancia o los intervalos de confianza de los puntos de la curva ROC. El método
de estimación estadística depende del criterio utilizado para
la construcción de la curva.
En la curva ROC no paramétrica los puntos son estimadores
centrados de S y 1-E para sus correspondientes niveles de
decisión, es decir, no presentan sesgos. Un punto de la curva ni sobrestima ni subestima el verdadero valor, pero desconocido, de S y 1-E en ese punto de corte. Esto puede no ser
verdad para aproximaciones paramétricas. Así, pueden calcularse los intervalos de confianza de S y E20, que disminuirán al aumentar el tamaño de la muestra.
Un enfoque diferente pero también correcto no fija el punto
de corte, sino la verdadera (teórica) especificidad en un valor (p. ej.: 80 %) y después calcula el intervalo de confianza
para la sensibilidad que corresponde a ese valor, o viceversa.
Para curvas ROC paramétricas que asumen distribuciones
teóricas, los parámetros y sus variancias se estiman mediante programas informáticos 21. Se puede aplicar la teoría de la
inferencia estadística (pruebas de hipótesis e intervalos de
confianza) a la sensibilidad y la especificidad, e incluso para
estimar valores no observados.
Área bajo la curva ROC
El área bajo la curva (ABC) ROC es una medida global de la
exactitud de una prueba diagnóstica. Se define como la probabilidad de clasificar correctamente un par de individuos
sano y enfermo, seleccionados al azar de la población, mediante los resultados obtenidos al aplicarles la prueba
diagnóstica. Es decir, es la probabilidad de que el resultado
de la prueba resulte más anormal en el paciente enfermo22.
Verdadera ABC ROC =Prob (Xenfermo > Xsano)
Se puede tomar como ejemplo la determinación del PSA para
el diagnóstico del cáncer de próstata. Un ABC de 0,75 significa que un individuo seleccionado aleatoriamente del grupo
de enfermos tendrá el 75 % de las veces un valor de PSA
mayor que un individuo elegido al azar del grupo no enfermo. Esto no significa que un resultado positivo se produzca
en el enfermo con una probabilidad de 0,75 ni que esté asociado con la enfermedad el 75 % de las veces.
Por convenio, el ABC ROC es siempre mayor o igual que 0,5.
Toma valores comprendidos entre 0,5, si no existen diferencias en la distribución de resultados de la prueba entre los
subgrupos enfermo y sano, y 1,0, cuando existe separación
perfecta entre las dos distribuciones. Swets4 interpreta el ABC
de la siguiente manera: valores entre 0,5 y 0,7 indican baja
exactitud, entre 0,7 y 0,9 pueden ser útiles para algunos propósitos y un valor mayor de 0,9 indica exactitud alta.
La capacidad de discriminación de la prueba diagnóstica
puede evaluarse estimando el intervalo de confianza del ABC
ROC. Si el intervalo no incluye el valor 0,5 la prueba es capaz
de discernir entre enfermos y sanos.
El cálculo del ABC ROC así como de su error estándar puede
abordarse, en función del tipo de curva, mediante un enfoque paramétrico o no paramétrico. Si se utiliza el criterio no
paramétrico, el ABC puede calcularse mediante un método
trapezoidal o estimarse como el estadístico W de Wilcoxon.
Bamber23 demostró que el área bajo la curva ROC coincide
con la suma de rangos (W) obtenida mediante la prueba no
paramétrica de comparación de medias de Wilcoxon. Hanley
y McNeil22 exponen esta demostración matemática en el contexto médico y el método directo para el cálculo del error
Fig. 7 .Curvas ROC de dos pruebas diagnósticas hipotéticas con igual área
bajo la curva, pero trazados muy diferentes.
estándar de W que permite obtener su intervalo de confianza. El estadístico W es un estimador centrado de la verdadera ABC ROC teórica.
Con datos clínicos se debe considerar la posibilidad de empates. Si se producen pocos empates, el ABC puede calcularse también mediante el método trapezoidal o utilizando la
versión de Mann-Whitney del estadístico de Wilcoxon con los
rangos medios. Sin embargo, al agrupar los datos en categorías ordenadas el aumento de empates conduce a un área
trapezoidal subestimada y a un aumento de su error
estándar24.
Existen varios métodos gráficos y matemáticos para calcular
el ABC y su error estándar asumiendo un modelo paramétrico
binormal12,21 . Pero, a menos que se satisfagan bien las asunciones paramétricas, las ABC obtenidas suelen ser sesgadas.
También se ha propuesto un modelo exponencial negativo,
más conservador que el binormal. Hanley y McNeil22 explican un método de cálculo del tamaño de muestra necesario
para obtener el ABC ROC con la precisión deseada utilizando dicho modelo.
Centor y Schwartz25 han realizado una comparación de áreas
no paramétricas y paramétricas binormales.
El área bajo la curva ROC por ser una medida global implica
pérdida de información, por lo que no debe considerarse aisladamente sin examinar la curva. A veces, curvas ROC de
trazados muy distintos pueden tener áreas semejantes (fig.
7). Por otra parte, una curva con mayor área que otra puede
no ser la mejor en la situación clínica de interés.
Comparación de curvas ROC
La comparación clásica de pruebas diagnósticas se realiza
mediante estudios de correlación, una vez fijado el punto de
corte. La utilización de curvas ROC permite hacer comparaciones de puntos de dos curvas que tengan igual sensibilidad o especificidad20 y un enfoque global de confrontación
de la exactitud de dos pruebas en el espectro completo de
puntos de corte, comparando sus áreas bajo la curva22.
El diseño del estudio de comparación puede ser de20:
Datos pareados, se realizan dos o más pruebas en los mismos sujetos. Es un diseño muy eficaz que controla la varia667
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
TABLA 5
Programas informáticos para la construcción y análisis de curvas ROC
Tipo de datos
Curva ROC
ABC ROC
Comparación ABC
Elección puntos de corte
CLINROC
MEZ
ROC ANALYZER
ROCLAB
RULEMAKER
SIGNAL
EP-UH
C
NP
NP
P
C, 1
NP, P
P
-
A
NP, P
NP, P
NP, P
-
C
NP
NP
NP
C
NP
NP
NP
-
A
NP, P
NP, P
C
NP
NP
-
-
C: Continuos; A: agrupados en categorías ordenadas; NP: no paramétrico; P: paramétrico.
ción paciente-paciente, por lo que requiere menor tamaño
de la muestra. Los resultados de las pruebas están generalmente asociados o correlacionados.
Grupos independientes, las diversas pruebas se realizan en
distintos individuos. Los resultados son independientes y no
se relacionan.
Si el estudio se realiza en grupos independientes, tanto en
curvas paramétricas como no paramétricas, la comparación
de áreas mediante métodos estadísticos es directa16,26 . Si se
utilizan datos apareados es necesario calcular previamente
la correlación entre las pruebas27,28 ; los cálculos son complejos y requieren el uso de ordenador.
Distintos autores han descrito programas informáticos comerciales o de dominio público para la obtención y análisis de
curvas ROC29,31 . La tabla 5 recoge los principales programas
así como algunas de sus capacidades. Zweig8 cita las direcciones de contacto para adquirirlos.
Elección de niveles de decisión o puntos de corte
Considerando únicamente los valores de sensibilidad y especificidad no es posible seleccionar el punto de corte idóneo para la aplicación concreta de las pruebas diagnósticas.
Para determinar cuál de las posibles combinaciones S/E es
la más apropiada, es necesario considerar dos elementos8:
1. Los costes relativos de los resultados falsos, tanto negativos como positivos, así como los beneficios de las clasificaciones correctas.
2. La proporción relativa de los dos estados de salud que se
pretende discriminar con la prueba, es decir, la prevalencia
o probabilidad a priori de la enfermedad en la población.
Evaluar el primer apartado es complicado, ya que puede expresarse en términos financieros o de costes para la salud y
se puede interpretar desde el punto de vista del paciente, de
los sanitarios o de la sociedad. Diversos autores8,32,33 han
expuesto sus criterios para el cálculo de los costes relativos
de los resultados y obtienen distintas fórmulas que también
engloban la prevalencia para la determinación del punto de
corte óptimo.
Independientemente del cálculo del nivel de decisión exacto, Galen y Gambino34 han emitido cuatro postulados relativos a la elección práctica de las características de una prueba diagnóstica, que consideran la patología estudiada y las
condiciones reales de la comunidad, y que son los siguientes:
1. Se elige la mayor sensibilidad posible cuando: a) la enfermedad sea grave y no pueda pasar inadvertida; b) la enfermedad sea tratable, y c) los resultados falsos positivos no
supongan un traumatismo psicológico o económico en los
individuos examinados.
2. Se elige la mayor especificidad posible cuando: a) la enfermedad sea importante pero difícil de curar o incurable, y
668
b) el hecho de conocer que no se padece la enfermedad
tiene una importancia sanitaria y psicológica.
3. Debe utilizarse una prueba con alto valor predictivo positivo cuando el tratamiento de los falsos positivos pueda tener
consecuencias graves.
4. Se desea un valor global elevado cuando: a) la enfermedad sea importante pero curable, y b) tanto los falsos positivos como los falsos negativos supongan un traumatismo y
conlleven consecuencias graves.
Aplicaciones de las curvas ROC en el diagnóstico de
laboratorio
Las curvas ROC tuvieron sus primeras aplicaciones en medicina en el campo del radiodiagnóstico12. En 1981, Robertson
y Zweig9 las utilizaron por primera vez en la evaluación de
pruebas de laboratorio. Estudiaron las concentraciones séricas
de mioglobina y creatincinasa MB (CK-MB) en pacientes con
sospecha de IAM y comunicaron sus resultados en forma de
curvas ROC. Además, reanalizaron datos ya publicados sobre la hormona paratiroidea usando estas curvas. Posteriormente, estos autores colaboraron con Van Steirteghem35 en
un estudio de comparación de mioglobina, CK total, CK-MB
y CK-BB en el diagnóstico de IAM. Construyeron las curvas
ROC obtenidas con los cuatro parámetros a distintos tiempos
de muestreo desde el comienzo del dolor torácico. Estas curvas demostraron que la mioglobina poseía la mayor capacidad diagnóstica en las primeras 5 a 8 h tras la instauración
del dolor, mientras que la CK y la CK-MB eran superiores a
las 18 h.
Sucesivamente, diversos autores publicaron curvas ROC como
resultados de sus estudios 36-40, pero con interpretaciones
solamente cualitativas.
En 1985, Carson et al41 utilizaron por primera vez el análisis
cuantitativo de curvas ROC en un estudio de comparación
de cuatro técnicas analíticas para la determinación de
fosfatasa ácida prostática en casos de sospecha de cáncer
de próstata. La evaluación se efectuó comparando las áreas
bajo las curvas ROC obtenidas.
Hermann33 comparó la exactitud de dos versiones de un ensayo comercial radioisotópico para tirotropina y su capacidad para distinguir entre individuos eutiroideos e hipotiroideos,
mediante curvas y ABC ROC. Kazmierczack et al42 usaron
curvas ROC para evaluar la exactitud de lipasa, amilasa y
fosfolipasa A en el diagnóstico de pancreatitis aguda. Guyatt43
estudió la capacidad de siete pruebas incluyendo ferritina,
transferrina, saturación, volumen corpuscular medio y
protoporfirina eritrocitaria para distinguir la anemia ferropénica
de otras causas de anemia en sujetos mayores de 65 años.
Utilizó un factor para corregir la correlación, ya que todas las
curvas se obtuvieron en los mismos individuos.
En los últimos años se han publicado diversos estudios sobre
evaluación y comparación de pruebas diagnósticas, utilizando curvas y análisis ROC44-50.
Sin embargo, el principal avance de nuestros días consiste
M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS
en la aplicación de las técnicas estadísticas de análisis
multivariante a las curvas ROC 51,52. Mediante distintos modelos de regresión logística, Zweig 51 estudió la capacidad de
los lípidos y las lipoproteínas séricas para distinguir individuos con enfermedad arterial coronaria de individuos sanos,
así como distintos grados de enfermedad entre los primeros.
Obtuvo las ABC ROC para distintos parámetros: colesterol,
colesterol LDL, colesterol HDL, triglicéridos, apolipoproteína
A-I y apolipoproteína B; pero también para tres modelos
logísticos que incluían, además de índices lipídicos, variables muy relacionadas con la enfermedad arterial coronaria:
sexo, edad y hábito tabáquico. Demostró que las
apolipoproteínas aumentan la capacidad de discriminación
de los lípidos en la enfermedad coronaria.
En resumen, la curva ROC, una generalización de los conceptos clásicos de sensibilidad y especificidad, es un moderno enfoque epidemiológico para la evaluación de pruebas
diagnosticas, ya que permite conocer su capacidad para discriminar entre dos estados alternativos de salud. La curva
ROC no paramétrica es una visión sin sesgo de la exactitud
de la prueba. Además, el análisis estadístico de las curvas
ROC proporciona resultados cuantitativos muy útiles en la
evaluación y comparación de pruebas diagnósticas.
Glosario de términos
Exactitud
Capacidad de una prueba diagnóstica para clasificar correctamente a los individuos en subgrupos clínicamente relevantes. En su forma más simple es la capacidad para distinguir
entre dos estados de salud.
Sensibilidad
Probabilidad de obtener un resultado positivo cuando el individuo tiene la enfermedad. Mide su capacidad para detectar la enfermedad cuando está presente.
Especificidad
Probabilidad de obtener un resultado negativo cuando el individuo no tiene la enfermedad. Mide su capacidad para
descartar la enfermedad cuando no está presente.
Nivel de decisión o punto de corte
Valor límite que permite resumir los resultados de una escala
continua en dos categorías: positivo y negativo.
Curva ROC
Gráfico que muestra todos los pares sensibilidad/especificidad resultantes de la variación continua de los puntos de
corte en todo el rango de resultados observados.
Área bajo la curva ROC (ABC ROC)
Probabilidad de clasificar correctamente un par de individuos sano y enfermo, seleccionados al azar de la población,
mediante los resultados obtenidos al aplicarles la prueba
diagnóstica.
REFERENCIAS BIBLIOGRÁFICAS
1.
Jenicek M, Clèroux R. Epidemiología. Principios. Técnicas. Aplicaciones. Barcelona: Salvat, 1987.
2.
Redondo FL. la lógica en la interpretación de las pruebas diagnósticas.
Barcelona: Garsi, 1989.
3.
Robertson EA, Zweig MH, Van Steirteghem AC. Evaluating the clínical
efficacy of laboratory tests. Am J Clin Pathol 1983; 79: 78-86.
4.
Swets JA. Measuring the accuracy of diagnostic systems. Science 1988;
240: 1.285-1.293.
5.
Ransohoff DF, Feinstein AR. Problems of spectrum and bias in
evaluating the efficacy of diagnostic tests. N Engl J Med 1978; 299: 926930.
6,
Lachs MS, Nachamkin l, Edelstein PH, Goldman J, Feinstein AR,
Schwartz JS. Spectrum bias in the evaluation of diagnostic tests: lessons
from the rapid dipstick test for urinary tract infection. Ann lntern Med 1992;
117: 135-140.
7.
Gur D, King JL, Rockette HE, Britton CA, Thaete EL, Hoy RJ. Practical
issues of experimental ROC analysis. Selection of controls. lnvest Radiol 1990;
25: 583-586.
8.
Zweig MH, Campbell G. Receiver-Operating Characteristic (ROC) Plots:
A fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39:
561-577.
9.
Robertson EA, Zweig MH. Use of Receiver Operating Characteristic
Curves to evaluate the clinical performance of analytical systems. Clin Chem
1981; 27: 1.569-1.574.
10. Gray R, Begg CB, Greenes RA. Construction of receiver operating
characteristic curves when disease verification is subject to selection bias.
Med Decis Making 1984; 4: 151-164.
11. Lusted LB. Signal detectability and medical decision-making. Science
1971; 171: 1.217-1.219.
12. Metz CE. Roc methodology in radiologic imaging. lnvest Radiol 1986;
21: 720-733.
13. Sackett DL, Haynes RB, Tugwell P. Epidemiología clínica. Una ciencia
básica para la medicina clínica. Madrid: Díaz Santos S.A., 1989.
14, Gerhardt W, Keller H. Evaluation of test data from clinical studies. Il.
Critical review of concepts of efficiency, Receiver Operated Characteristic
(ROC) and likelihood ratios. Scand J Clin Lab lnvest 1986; 46 Supl 181: 4774.
15. Zweig MH. lnefficiency of diagnostic efficiency [carta]. Clin Chem 1992;
38: 163-164.
16. McNeil BJ, Hanley JA. Statistical approaches to the analysis of receiver
operating characteristic (ROC) curves. Med Decis Making 1984; 2: 137150.
17. Swets JA, Pickett RM. Evaluation of diagnostic systems. Nueva York:
Academic Press, 1982.
18. Hanley JA. The robustness of the “binormal” assumption used in fitting ROC curves. Med Decis Making 1988; 8: 197-203.
19. Rockette HE, Obuchowski NA Gur D. Nonparametric estimation of
degenerate ROC data sets used for comparison of imagina systems. lnvest
Radiol 1990: 835-837.
20. Beck JR, Shultz EK. The use of Relative Operating Characteristic (ROC)
Curves in test performance evaluation. Arch Pathol lab Med 1986; 110: 1320.
21. Grey DR, Morgan BJT. Some aspects of ROC curve-fitting: normal and
logistic models. J Math Psichol 1972; 9: 128-139.
22. Hanley JA, McNeil BJ. The meaning and use of the area under a
Receiver Operating Characteristic (ROC) Curve. Radiology 1982; 143: 2936.
23, Bamber D. The area above the ordinal dominance graph and the area
below the receiver operating graph. J Math Psych 1975; 12: 387-415.
24. Swets JA. ROC analysis applied to the evaluation of medical imaging
techniques. lnvest Radiol 1979; 14: 109-121.
25. Centor RM, Schwartz JS. An evaluation of methods for estimating the
area under the receiver operating characteristic (ROC) curve. Med Decis
Making 1985; 5: 149-156.
26. Hanley JA, McNeil BJ. A method of comparing the areas under receiver
operating characteristic curves derived from the same cases. Radiology 1983;
148: 839-843.
27. Wieand S, Gail MH, James BR, James KL. A family of nonparametric
statistics for comparing diagnostic markers with paired or unpaired data.
Biometrika 1989; 76: 585-592.
28. De Long ER, De Long DM, Clarke-Pearson DL. Comparing the areas
under two or more correlated receiver operating characteristic curves: a
nonparametric approach. Biometrics 1988; 44: 837-845.
29. Abendroth TW, Bongiovanni MB, Krieg AF, A microcomputer program
for critical evaluation of diagnostic test. Arch Pathol Lab Med 1986; 110:
952-958.
30. Pellar TG, Leung FY, Henderson AR. A computer program for rapid
generation of Receiver Operating Characteristic Curves and likelihood ratios
in the evaluation of diagnostic tests. Ann Clin Biochem 1988; 25: 411-416.
31. Centor RM, Keightley GE. Receiver operating characteristic (ROC) curve
area analysis using the ROC ANALYZER. SCAMC Proc 1989; 222-226.
32. Krieg AF, Abendroth TW, Bongiovanni MB. When is a diagnostic test
result positive? Decision tree models based on net utility and threshold. Arch
Pathol Lab Med 1986; 110: 787-791.
33. Hermann GA, Sugiura HT, Krumm RP. Comparison of thyrotropin assays
by Relative Operating Characteristic analysis. Arch Pathol Lab Med 1986;
110: 21-25.
34. Galen RS, Gambino SR. Beyond normality: the predictive value and
efficiency of medical diagnoses. Nueva York: J Wiley and Sons, lnc., 1975.
35. Van Steirteghem AC, Zweig MH, Robertson EA, Bernard RM, Putzeys
GA, Bieva CJ. Comparison of efectiveness of four clinical chemical assays in
669
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
classifying patients with chest pain. Clin Chem 1982; 28: 1.319-1.324.
36. Kadar N, DeCherney AH, Romero R. Receiver operating characteristic
(ROC) curve analysis of the relative efficacy of single and serial chorionic
gonadotropin determinations in the early diagnosis of ectopic pregnancy. Fertil
Steril 1982; 37: 542-547.
37. Ryan ED, Bilous G. Serum 5'-nucleotidase: Automation of a manual
assay and briev observations on values in patients with breast cancer. Clin
Biochem 1983; 16: 249-253.
38. Marchand A, Van Lente F, Galen RS. The assessment of laboratory
tests in the diagnosis of acute appendicitis. Am J Clin Pathol 1983; 80: 369374.
39. Leroux ML, Rabson J, Desjardins PRE. Clinical effectiveness of the Du
Pont aca measurement of creatine kinase MB in serum from patients in a
coronary-care unit. Clin Chem 1984; 30: 1.552-1.554.
40. Kim l, Pollit E, Leibel RL. Application of receiver-operator analysis to
diagnostic tests of iron defficiency in man. Pediatr Res 1984; 18: 916-920.
41. Carson JL, Eisenberg JM, Shaw LM, Kundel HL, Soper KA. Diagnostic
accuracy of four assays of prostatic acid phosphatase. Comparison using
receiver operating characteristic curve analysis. JAMA 1985; 253: 665-669.
42. Kazmierczack SC, Van leute F, Hodges ED. Diagnostic and prognostic
utility of phospholipase A activity in patients with acute pancreatitis:
comparison with amylase and lipase. Clin Chem 1991; 37: 356-360.
43. Guyatt GH, Oxman AD, Alí M, Willan A, Mcllroy W, Patterson C.
laboratory diagnosis of iron-deficiency anemia: an overview. J Gen lntern Med
1992; 7: 145-153.
44. Leung FY, Galbraith LV, Jablonsky G, Henderson AR, Reevaluation of
the diagnostic utility of serum total creatine kinase and creatine kinase-2 in
myocardial infarction. Clin Chem 1989; 35: 1.435-1.440.
670
45. Dupont A, Cusan L, Gómez JL, Thibeault MM, Tremblay M, Labrie F.
Prostate specific antigen and prostatic acid phosphatase for monitoring
therapy of carcinoma of the prostate. J Urol 1991; 146: 1.064-1.068.
46. De Wit R, Hoek FJ, Bakker PJ, Veenhof CH. The value of MCA, CA 153, CEA and CA-125 for discrimination between metastasic breast cancer
and adenocarcinoma of other primary sites. J Intern Med 1991; 229: 463466.
47. Ricker DM, Hebert LA, Rohde R, Sedmak DD, Lewis EJ, Clough JD.
Serum C3 levels are diagnostically more sensitiva and specific for systemic
lupus erythematosus activity than are serum C4 levels. Am J Kidney Dis 1991;
18: 678-685.
48. Amico S, Liehn JC, Desoize B, Larbre H, Deltour G, Valeyre J.
Comparison of phosphatase isoenzymes PAP and PSA with bone scan in
patients with prostate carcinoma. Clin Nuci Med 1991; 16: 643-648.
49 . Lott JA, Lu CJ. Lipase isoforms and amylase isoenzymes: assays and
application in the diagnosis of acute pancreatitis. Clin Chem 1991; 37: 361368.
50. Flack MR, Oldfield EH, Cutler GB, Zweig MH, Malley JD, Chrousos GP
et al. Urine free cortisol in the high-dose dexamethasone suppression test for
the differential diagnosis of the Cushing syndrome. Ann lntern Med 1992;
116: 211-217.
51. Zweig MH, Broste SK, Reinhart RA. ROC curve analysis: an example
showing the relationships among serum lipid and apolipoprotein
concentrations in identifying patients with coronary adery disease. Clin Chem
1992; 38: 1.425-1.428.
52. Kazmierczack SC, Catrou PG, Van Lente F. Diagnostic accuracy of
pancreatic enzymes evaluated by the use of multivariate data analysis. Clin
Chem 1993; 39: 1.960-1.965.
Descargar