REVISIONES Las curvas ROC en la evaluación de las pruebas diagnósticas M.J. Burgueñoa, J.L. García-Bastosb y J.M. González-Buitragob,c,d a Servicio de Análisis Clínicos. Hospital General Yagüe. Burgos. bServicio de Bioquímica. Unidad de Investigación. Hospital Universitario. Salamanca. dDepartamento de Bioquímica y Biología Molecular. Universidad de Salamanca. c curvas ROC La evaluación de las pruebas diagnosticas se ha tratado, en general, sin un criterio universalmente aceptado. En diferentes estudios aparecen términos como sensibilidad, especificidad, eficiencia, exactitud, utilidad, valor, eficacia y efectividad, pero a menudo el significado de los mismos es ambiguo. La ausencia de acuerdo, tanto en el concepto, como en la medida de la calidad de una prueba diagnóstica, crea una situación de confusión a la hora de resolver cuestiones concretas. La calidad de una prueba diagnóstica utilizada para el cuidado de los pacientes no se juzga sólo por sus características analíticas sino, fundamentalmente, por su capacidad para distinguir entre estados alternativos de salud. El médico solicita una prueba para decidir, junto con otros datos disponibles, si el paciente tiene o no una condición clínica. Por lo tanto, para que una prueba se incluya en la práctica médica rutinaria es necesario que sea capaz de reducir la incertidumbre asociada con una determinada situación clínica. La principal cualidad clínica de una prueba diagnóstica es su exactitud, definida como la capacidad para clasificar de manera correcta a los individuos en subgrupos clínicamente relevantes. En su forma más simple es la capacidad para distinguir entre dos estados de salud. Una vez establecida esta capacidad de discriminar adecuadamente, es necesario conocer también el valor práctico de la prueba para el cuidado del paciente. Existen diversas causas que invalidan una prueba diagnóstico para su uso práctico, entre ellas: Pueden existir métodos menos invasivos o más económicos para obtener una información semejante. La prueba puede ser tan cara o poseer tal requerimiento técnico que sea limitada su disponibilidad. Puede ser tan incómoda o invasiva que los pacientes no se sometan con facilidad a ella. El coste o indeseabilidad de los resultados falsos puede ser tan alto que no exista un punto de corte aceptable. Clásicamente, la exactitud de una prueba diagnóstica se ha evaluado en función de dos características: la sensibilidad y la especificidad 1. Sin embargo, éstas varían en función del criterio elegido como punto de corte entre la población sana y la enferma. Una forma más global de conocer la calidad de la prueba en el espectro completo de puntos de corte es mediante el uso de curvas ROC (receiver operating characteristics, características operativas del receptor) que, como veremos a lo largo de esta «Revisión», constituyen una herramienta fundamental y unificadora en el proceso de evaluación y uso de las pruebas diagnósticas. Sensibilidad y especificidad diagnósticas Siempre que una cuestión clínica y el resultado de la prueba diagnóstica encaminada a resolverla puedan plantearse en términos de dicotomía (presencia o ausencia de enfermedad; positivo o negativo), la exactitud de la prueba puede definirse en función de su sensibilidad y especificidad diagnósticas. Sin embargo, con mucha frecuencia los resultados de las pruebas diagnosticas están distribuidos en una escala continua, por lo que es necesario seleccionar un punto de corte o valor límite adecuado que permita resumir estos resultados en dos categorías: positivo y negativo. La sensibilidad de una prueba diagnóstica es la probabilidad de obtener un resultado positivo cuando el individuo tiene la enfermedad. Mide su capacidad para detectar la enfermedad cuando está presente. La especificidad de una prueba indica la probabilidad de obtener un resultado negativo cuando el individuo no tiene la enfermedad. Mide su capacidad para descartar la enfermedad cuando ésta no está presente. No existe ninguna manera teórica de medición de estas dos características de una prueba. El único procedimiento es el experimental, sometiendo a un grupo de pacientes, sanos y enfermos, clasificados mediante un método diagnóstico de referencia exacto e independiente, a la prueba que queremos estudiar2. La sensibilidad se obtiene en el subgrupo de enfermos y la especificidad en el de sanos, por lo que ambos valores son independientes de la prevalencia en la muestra estudiada. Al comparar los resultados de la prueba a evaluar y el diagnóstico de referencia, existen cuatro posibilidades que pueden resumiese en una tabla de contingencia de 2 x 2 (tabla 1). La sensibilidad viene dada por: enfermos positivos VP Sensibilidad= = total enfermos VP + FN La especifidad viene dada por: sanos negativos Especificidad= total sanos VN = VN+ FP TABLA 1 Comparación de los resultados de la prueba a evaluar con el diagnóstico verdadero Diagnóstico verdadero Enfermos Correspondencia: Dr. J.M. González-Buitrago. Servicio de Bioquímica. Hospital Universitario. 37007 Salamanca. Manuscrito aceptado el 18-12-1993 Med Clin (Barc) 1995: 104: 661-670 Prueba estudiada Resultado positivo Resultado negativo Verdadero positivo Verdadero negativo Sanos Falso positivo Falso negativo 661 MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995 La prueba diagnóstica ideal debería tener una sensibilidad y una especificidad tan próximas al 100 % como fuera posible. Esto constituye una excepción, pero en principio se debe dudar de pruebas cuyas sensibilidad y especificidad sean inferiores al 80 %. A partir de la tabla de contingencia se puede definir el valor predictivo del resultado positivo como la proporción de resultados válidos entre los resultados positivos de la prueba: VP VPP= VP+FP específico (PSA) no puede distinguir a los pacientes con cáncer de próstata, diagnosticados mediante tacto rectal y estudio anatomopatológico del material obtenido por punción transrectal, de los pacientes sin dicho cáncer, en los varones mayores de 50 años. A veces, los datos obtenidos se revisan en busca de correlaciones inesperadas entre variables o subgrupos de pacientes con datos llamativos. Sin embargo, la significación estadística de tales relaciones que han sugerido los datos no se puede determinar sin obtener datos adicionales. Para asegurarse de que el grado de significación, P, obtenido no supera el riesgo de error, α, fijado por el investigador, es necesario plantear la hipótesis nula antes de la recogida de datos. El valor predictivo del resultado negativo será la proporción de resultados válidos entre los negativos: VN Elección de sujetos representativos de la población clínica a la que se aplicará la prueba VPN= VN+FN y el valor global la proporción de resultados válidos entre la totalidad de pruebas efectuadas: VP + VN VG= VP + FP + VN + FN Los valores predictivos de una prueba, a diferencia de la sensibilidad y la especificidad, varían en función de la prevalencia de la enfermedad. Si se estudia una enfermedad cuya prevalencia es baja, incluso una prueba muy específica dará lugar a muchos falsos positivos, dado el elevado número de individuos sanos de la colectividad. Si la prevalencia es alta se puede esperar un mayor número de resultados falsamente negativos. Por lo tanto, cuanto menor sea la prevalencia de la enfermedad menor será el VPP y mayor el VPN; lo contrario será cierto si la prevalencia es elevada. Evaluación de una prueba diagnóstica La evaluación clínica de una prueba debe incluir los siguientes pasos 3: 1. Planteamiento explícito de la hipótesis nula antes de la recogida de datos. 2. Elección de sujetos representativos de la población clínica a la que se aplicará la prueba. 3. Establecimiento del diagnóstico verdadero mediante métodos rigurosos, exactos e independientes de la prueba que se va a estudiar. 4. Realización de la prueba a evaluar evitando sesgos. 5. Cálculo de la sensibilidad y la especificidad. Evaluación y comparación de pruebas diagnosticas a todos los niveles de decisión usando curvas ROC. Cada uno de estos pasos implica una serie de precauciones para evitar errores en los resultados finales. El diseño del estudio, como se verá a continuación, es fundamental para que las conclusiones sean válidas y relevantes. Planteamiento explícito de la hipótesis nula antes de la recogida de datos Esta hipótesis debe establecer: a) la cuestión clínica precisa que se pretende resolver con la prueba; b) la naturaleza de la población estudiada, y c) el método utilizado para determinar la verdadera respuesta a la cuestión clínica, es decir, el diagnóstico verdadero. Un ejemplo de hipótesis nula que cumple los anteriores requisitos sería: la concentración sérica del antígeno prostático 662 Debe evaluarse en un grupo de individuos con sospecha clínica de la enfermedad que se quiera detectar. Este grupo incluirá a dos subgrupos que no necesitan estar en la misma proporción: aquellos pacientes afectados por dicha enfermedad y los no afectados. Idealmente, los sujetos deberían escogerse y estudiarse prospectivamente sin conocer su clasificación final. Esto no es lo más frecuente por lo que es necesario tomar precauciones para no inducir a error en la obtención de la sensibilidad y la especificidad diagnósticas2. La muestra de enfermos utilizada para calcular la sensibilidad debe ser representativa del conjunto de enfermos a los que se aplicará la prueba en condiciones normales y rutinarias3,4. Es decir, debe integrar individuos que padezcan la enfermedad a estudiar, pero con un rango amplio de variación en cuanto a la gravedad del proceso, la extensión del mismo, su duración y su asociación con otros trastornos o enfermedades. Cuando se afirma que la sensibilidad y la especificidad son independientes de la prevalencia se hace referencia a la prevalencia de enfermos en la muestra global a la que se aplica la prueba. La sensibilidad sí depende de la prevalencia de los distintos grados de enfermedad en el grupo de pacientes5,6. Si al estudiar la sensibilidad de un marcador tumoral se mide sólo en pacientes en fases avanzadas de cáncer, la sensibilidad resultará superior que si la muestra incluye también a enfermos de escasa evolución. Además, debe tenerse cuidado de no excluir a sujetos que estén en el límite diagnóstico. De manera análoga, en el grupo control deben incluirse sujetos de edades, procedencias y situaciones semejantes a las de aquellos a quienes va dirigida la prueba. Es importante analizarla en individuos que sin padecer la enfermedad en estudio posean los cuadros más usuales en el diagnóstico diferencial de dicha enfermedad, trastornos de la misma localización anatómica o de la misma naturaleza fisiológica. Igual que la composición del grupo de enfermos influye en la sensibilidad, la composición del grupo control que no padece la enfermedad influye en la especificidad7,8. Si una prueba se va a usar para identificar el infarto agudo de miocardio (IAM) en sujetos que se presentan en el servicio de urgencias con dolor torácico típico y otros síntomas indicativos de IAM, el grupo control debe estar formado por individuos que reúnan estas condiciones pero sin infarto. Si se usan donantes de sangre voluntarios se obtendrá una especificidad mayor pero falsa, puesto que la prueba no está encaminada a detectar IAM en individuos asintomáticos. En el caso de comparaciones entre varias pruebas, si se utilizan distintos grupos de sujetos es necesario comprobar que dichos grupos no difieren por la variación del muestreo ni por sesgos de selección. Por este motivo es mejor estudiar todas las pruebas en los mismos sujetos, de manera que las M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS diferencias observadas se deban a las verdaderas diferencias entre las pruebas 3. Establecimiento del diagnóstico verdadero mediante métodos rigurosos, exactos e independientes de la prueba que se va a estudiar 4,9 Un estándar de oro para el diagnóstico clínico es lo ideal, pero en muchos casos no existe o no es factible. Zweig y CampbeIl8 recogen las estrategias de distintos investigadores para establecer el diagnóstico verdadero cuando se carece de estándar de oro: Definir el diagnóstico en términos de resultados clínicos medibles. Usar como criterio diagnóstico algún consenso, regla mayoritaria o revisión de expertos. Asignar a cada sujeto un valor comprendido entre 0 y 1 a partir del conocimiento subjetivo de la enfermedad, para su posterior análisis logístico. Estudiar a largo plazo la evolución clínica. En un gran número de casos el diagnóstico definitivo se establece mediante el estudio anatomopatológico de biopsias y son raros los resultados falsos positivos, salvo en cuadros de muy difícil catalogación. Sin embargo, el azar en la toma de la muestra, cuando se trata de procesos no generalizados, produce falsos negativos que disminuyen artificialmente la especificidad de la prueba en evaluación. Por otra parte, la adjudicación del diagnóstico verdadero siempre tiene elementos subjetivos, en muchos casos inconscientes para el investigador. Así, éste debe establecer el diagnóstico de manera ciega, sin conocer previamente el resultado de la prueba evaluada, para evitar cualquier tipo de condicionamiento que produzca aumentos sesgados de la sensibilidad y la especificidad2. También debe evitarse el sesgo por razonamiento circular. Este error se produce cuando para catalogar a los sujetos como enfermos o sanos uno de los criterios utilizados es la propia prueba que se está evaluando o alguna otra muy relacionada, por lo que aumenta artificialmente la concordancia. El diagnóstico definitivo debe hacerse con independencia de la prueba en estudio9. Por último, es necesario considerar que el método usado para determinar la verdad no debe afectar a la selección de la muestra porque sea tan invasivo que se reserve para casos muy graves, no sea bien tolerado por los pacientes o por alguna otra causa 4. Realización de la prueba a evaluar evitando sesgos Existen pruebas en las que la subjetividad puede afectar al resultado, por lo que el conocimiento del diagnóstico verdadero puede influir mejorando injustificadamente la estimación de la sensibilidad y la especificidad. Los resultados obtenidos con la prueba en evaluación no deben conducir a verificaciones en caso de discordancia con el diagnóstico de referencia, ya que esto llevaría a un sesgo, aumentando la sensibilidad y la especificidad. Tanto el diagnóstico de referencia como la prueba en estudio deben realizarse con igual cuidado en todos los casos y con independencia10. Cálculo de la sensibilidad y la especificidad. Evaluación y comparación de pruebas diagnosticas a todos los niveles de decisión usando curvas ROC Como se ha comentado, en aquellas pruebas que ofrecen resultados en un rango continuo es necesario establecer un punto de corte que divida los resultados en dos grupos (positivo y negativo) para poder calcular su sensibilidad y su es- pecificidad frente a un método de referencia. Sin embargo, citar un solo valor de sensibilidad y especificidad puede conducir a error o, por lo menos, a una simplificación de la exactitud. Para cualquier prueba en la que la distribución de los resultados de los grupos sano y enfermo se solapen, existe un equilibrio entre sensibilidad y especificidad. Ambas varían en direcciones opuestas: si al modificar el punto de corte aumenta la sensibilidad, la especificidad disminuye, y viceversa. Por tanto, las pruebas diagnosticas no tienen un solo par sensibilidad/especificidad (S/E), sino muchos, uno por cada nivel de decisión o punto de corte que se adopte. ¿Cuál será el par que describa la exactitud de la prueba? Sólo el espectro completo de pares S/E para todos los puntos de corte limita y describe la exactitud de la prueba para discriminar entre estados de salud. La curva ROC proporciona una visión de este espectro completo, por lo que es una herramienta fundamental en la evaluación y comparación de pruebas diagnósticas9. Un punto de corte se puede elegir para utilizar la prueba en el cuidado del paciente, pero para evaluar pruebas no es deseable ya que puede conducir a errores respecto a su exactitud o comparaciones erróneas entre distintas pruebas. Curvas ROC Las curvas ROC se desarrollaron en los años cincuenta como herramientas para el estudio de detección e interpretación de señales de radar. El objetivo de los operadores de radar era distinguir las verdaderas señales del ruido de fondo11. Si se observa la pantalla de un receptor de radar (fig. 1), puede verse cómo al variar la amplitud de la señal definida para considerar un pico como misil, varían la sensibilidad y la especificidad del sistema de recepción. Si I, II y III son señales emitidas por misiles, al situar la amplitud A como punto de corte detectaremos los 3 misiles (sensibilidad 100 %), pero también consideraremos misiles señales que no lo son. Al cambiar el nivel de decisión a la amplitud B no consideraremos misil ninguna señal de ruido (especificidad 100 %) pero no habremos detectado el misil lI, por lo que la sensibilidad desciende. De la misma forma que en el receptor de radar se produce un solapamiento entre las verdaderas señales y el ruido, al realizar pruebas diagnosticas existe un solapamiento entre los resultados de los pacientes con una condición particular y los de aquellos que no la tienen. Por este motivo, las aplicaciones de las curvas ROC se extendieron a múltiples sistemas diagnósticos, incluidas las técnicas radiológicas12 y las pruebas de laboratorio9, y su denominación se está sustituyendo cada vez más por «Performance Characteristic Curves» o curvas de rendimiento diagnóstico. La curva ROC es un gráfico en el que se observan todos los pares sensibilidad/especificidad resultantes de la variación continua de los puntos de corte en todo el rango de resultados observados13. En el eje y de coordenadas se sitúa la sensibilidad o fracción de verdaderos positivos, definida como se expuso anteriormente y calculada en el grupo de enfermos (fig. 2). En el eje x se sitúa la fracción de falsos positivos o 1-especificidad, definida como FP/VN + FP y calculada en el subgrupo no afectado. Algunos autores sitúan en el eje x la especificidad, pero es lo menos frecuente14. Cada punto de la curva representa un par S/1-E correspondiente a un nivel de decisión determinado. Una prueba con discriminación perfecta, sin solapamiento de resultados en las dos poblaciones, tiene una curva ROC que pasa por la esquina superior izquierda, donde S y E toman valores máximos (S y E = 1). Una prueba sin discriminación, con igual distribución de resultados en los dos subgrupos, da lugar a una línea diagonal de 45º, desde la esquina inferior izquier663 MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995 Fig. 1 .Señales registradas en un receptor de radar; I, II y III corresponden a misiles. da hasta la superior derecha. La mayoría de las curvas ROC caen entre estos dos extremos. Si cae por debajo de la diagonal de 45º se corrige cambiando el criterio de positividad de “mayor que” a “menor que” o viceversa. Cualitativamente, cuanto más próxima es una curva ROC a la esquina superior izquierda, más alta es la exactitud global de la prueba. De la misma forma, si se dibujan en un mismo gráfico las curvas obtenidas con distintas pruebas diagnósticas, aquella que esté situada más hacia arriba y hacia la izquierda tiene mayor exactitud: por simple observación se obtiene una comparación cualitativa. Las curvas ROC son índices de la exactitud diagnostica y proporcionan un criterio unificador en el proceso de evaluación de una prueba15, debido a sus diversas aplicaciones (tabla 2). De acuerdo con Zweig y Campbell8, el uso de las curvas ROC en la evaluación de pruebas diagnosticas presenta las siguientes ventajas: Fig. 2 .Curva ROC. TABLA 2 Aplicaciones de las curvas ROC en la evaluación de pruebas diagnosticas Evaluación visual de la exactitud Comparación visual entre pruebas Análisis estadístico ROC Evaluación cuantitativa de la exactitud mediante el área bajo la curva ROC Comparación cuantitativa entre pruebas Selección de niveles de decisión considerando la prevalencia y la relación coste/beneficio de los resultados falsos Análisis de regresión logística y análisis discriminante 664 1. Son una representación fácilmente comprensible de la capacidad de discriminación de la prueba en todo el rango de puntos de corte. 2 Son simples, gráficas y fáciles de interpretar visualmente. 3. No requieren un nivel de decisión particular porque está incluido todo el espectro de puntos de corte. 4. Son independientes de la prevalencia, ya que la sensibilidad y la especificidad se obtienen en distintos subgrupos. Por tanto, no es necesario tener cuidado para obtener muestras con prevalencia representativa de la población. De hecho, es preferible generalmente tener igual número de individuos en ambos subgrupos. 5. Proporcionan una comparación visual directa entre pruebas en una escala común, mientras que otro tipo de gráficos, como los diagramas de puntos o los histogramas de frecuencias, requieren diferentes gráficos cuando difieren las escalas. 6 La especificidad y la sensibilidad son accesibles en el gráfico, en contraste con los diagramas de puntos y los histogramas. M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS Las curvas ROC han sido infrautilizadas por los investigadores a pesar de ser herramientas fundamentales en la evaluación de pruebas diagnosticas. Esto quizá se deba a sus aparentes desventajas8: 1. Los puntos de corte, aunque son conocidos y se han usado para generar el gráfico, no aparecen en él, a diferencia de los diagramas de puntos y los histogramas. Al observar un punto de la curva se observan la sensibilidad y la especificidad que tiene asociadas, pero no se conoce el valor concreto de dicho punto. 2 El número de sujetos de la muestra estudiada tampoco aparece en el gráfico. 3 Al disminuir el tamaño de la muestra, la curva ROC tiende a hacerse más escalonada y desigual. Sin embargo, incluso con gran número de sujetos, la curva puede ser muy desigual. 4. La generación de las curvas y el cálculo de sus parámetros son difíciles sin ordenador, y los programas existentes no están ampliamente distribuidos. Construcción de las curvas ROC Existen diversos métodos para construir las curvas ROC que dependen del tipo de datos que se manejen. Los datos clínicos pueden ser discretos o continuos. La mayoría de los datos de laboratorio son continuos (medidas de concentración de sustratos, electrólitos, fármacos, hormonas o enzimas) con la única limitación del sistema de medida. En los estudios clínicos es muy frecuente agrupar los datos continuos en categorías ordenadas para resumir la información y simplificar los cálculos. Las tiras para análisis urinario proporcionan, por el contrario, resultados en una escala discreta de categorías ordenadas. Las imágenes radiológicas también suelen clasificarse en escalas discretas en función del grado de la anomalía observada: una angiografía de la arteria pulmonar puede resultar normal, probablemente normal, dudosa, probablemente patológica o claramente patológica. En todos los casos se empieza por calcular los puntos sensibilidad/1-especificidad a todos los posibles puntos de corte de la prueba. Si la escala es continua estos puntos serán todos los valores observados. Si se han agrupado los resultados en intervalos, los puntos de corte son los límites de estos intervalos. Por último, si la escala es discreta los puntos de corte son todos los posibles valores de la escala. Una vez obtenidos todos los puntos, la construcción de la curva se puede abordar de acuerdo con modelos paramétricos o no paramétricos. Los primeros se utilizan cuando los datos están agrupados en categorías o bien pertenecen a una escala discreta. Los métodos no paramétricos son adecuados cuando se trabaja con datos de una escala continua. Fig. 3. Curva ROC no paramétrica del cociente apolipoproteína A1/ apolipoproteína B en el diagnóstico de la enfermedad arterial coronaria. den producirse empates en los datos continuos. Un empate es de interés cuando un miembro del grupo enfermo tiene el mismo resultado que uno del grupo no enfermo. En este caso, el verdadero camino entre dos puntos adyacentes no se conoce porque las fracciones de verdaderos y falsos positivos cambian simultáneamente. La diagonal es la media entre los dos caminos extremos, primero horizontal y después vertical o viceversa, pero tiende a subestimar la curva en la determinación de la exactitud de la prueba diagnóstica8 (fig. 4). Una aproximación frecuentemente adoptada en la literatura clínica consiste en agrupar los datos continuos en categorías, representar sólo unos pocos puntos de la curva ROC y conectarlos mediante líneas rectas (fig. 5). Esta agrupación tiene la ventaja de que la curva es fácil de dibujar, pero al Curvas ROC no paramétricas Para datos continuos, los puntos adyacentes se unen mediante líneas horizontales y verticales. Al cambiar el nivel de decisión, la inclusión de un resultado verdadero positivo produce una línea vertical, a la vez que la inclusión de un falso positivo produce una horizontal. La figura toma apariencia de escalera. Al ir aumentando el número de individuos en los dos grupos, los pasos de la escalera se hacen más pequeños y el gráfico aparece menos dentado (fig. 3). Este tipo de curva ROC utiliza toda la información de los datos directamente y se denomina no paramétrica porque no necesita ajustarse a ningún modelo de distribución; carece de parámetros, en contraste con las aproximaciones paramétricas que se basan en modelos con parámetros que deben estimarse. Aunque es menos frecuente que entre datos discretos, pue- Fig. 4 .Curva ROC no paramétrica de la CK-MB en el diagnóstico del IAM. Las líneas diagonales corresponden a empates. 665 MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995 Fig. 5. Curva ROC no paramétrica del cociente Apo A1/Apo B. La línea continua muestra los datos sin agrupar y la discontinua los mismos datos agrupados en categorias. Fig. 6 .Curva ROC paramétrica de imágenes radiológicas clasificadas en categorías. La línea discontinua representa la curva empírica y la continua el resultado del ajuste a una distribución gaussiana. descartar muchos datos se pierde información y se introducen muchos empates. Cuando los puntos son pocos y alejados entre sí, esta gráfica puede representar erróneamente la verdadera curva ROC, subestimando la exactitud de la prueba, ya que las líneas diagonales suelen caer por debajo de la escalera 16. que también permiten los análisis estadísticos para la evaluación cuantitativa de las pruebas diagnósticas. Curvas ROC paramétricas Cuando se dispone de datos discretos o continuos agrupados en categorías, puede utilizarse algún modelo paramétrico para el ajuste de la curva ROC. Se asume que la distribución de frecuencias de resultados, no de los propios resultados, en las diversas categorías sigue un modelo paramétrico y posteriormente se estiman los parámetros correspondientes17. Un modelo utilizado frecuentemente es el denominado binormal. Asume que las distribuciones de frecuencias de los subgrupos enfermo y no enfermo en las distintas categorías son gaussianas con distintas medias y, en muchos casos, distintas variancias. Estos supuestos no pueden verificarse completamente, por lo que varios autores discrepan con este método18,19 . En la figura 6 se observa una curva paramétrica de imágenes radiológicas clasificadas en cinco categorías; en ella, los datos experimentales se han ajustado a una distribución binormal. Otros modelos paramétricos con una distribución logística o exponencial negativa tienen inconvenientes semejantes. Una aproximación distinta consiste en ajustar los puntos de la curva ROC directamente a una función matemática, lo que implica también adoptar un modelo paramétrico. En las tablas 3 y 4 se exponen las ventajas e inconvenientes de las curvas ROC paramétricas y no paramétricas. Para datos continuos, como la mayoría de los resultados de laboratorio, son preferibles las curvas ROC no paramétricas. Análisis de las curvas ROC Las curvas ROC no sólo aportan información cualitativa, sino 666 TABLA 3 Ventajas e inconvenientes de las curvas ROC no paramétricas Ventajas Usan todos los datos y la curva pasa por todos los puntos de corte Proporcionan estimadores centrados (sin sesgo) de la sensibilidad, la especificidad y el área bajo la curva, ya que para cada punto de corte los mejores estimadores son los no paramétricos No necesitan asumir supuestos Los cálculos son simples Inconvenientes Tienen apariencia de escalera Las series grandes de datos producen un gráfico abigarrado Los empates pueden causar problemas, ya que normalmente dan lugar a curvas subestimadas y, por tanto, la exactitud obtenida es menor que la real La comparación entre dos puntos de dos curvas ROC sólo puede realizarse a sensibilidades o especificidades observadas TABLA 4 Ventajas e Inconvenientes de las curvas ROC paramétricas Ventajas Proporcionan una línea curva de visualización más clara. Permiten comparar puntos de dos curvas a cualquier sensibilidad o especificidad, observadas o no Inconvenientes Descartan datos al agruparlos, con la consiguiente pérdida de información Asumen modelos de distribución que muchas veces no se pueden comprobar La curva no pasa necesariamente por los verdaderos puntos Los puntos ROC y el área pueden ser sesgados Los cálculos son complejos M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS Intervalos de confianza de sensibilidad y especificidad Ya se ha comentado que la variabilidad del muestreo puede dar lugar a distintos valores de sensibilidad y especificidad. Esta variabilidad se indica calculando la variancia o los intervalos de confianza de los puntos de la curva ROC. El método de estimación estadística depende del criterio utilizado para la construcción de la curva. En la curva ROC no paramétrica los puntos son estimadores centrados de S y 1-E para sus correspondientes niveles de decisión, es decir, no presentan sesgos. Un punto de la curva ni sobrestima ni subestima el verdadero valor, pero desconocido, de S y 1-E en ese punto de corte. Esto puede no ser verdad para aproximaciones paramétricas. Así, pueden calcularse los intervalos de confianza de S y E20, que disminuirán al aumentar el tamaño de la muestra. Un enfoque diferente pero también correcto no fija el punto de corte, sino la verdadera (teórica) especificidad en un valor (p. ej.: 80 %) y después calcula el intervalo de confianza para la sensibilidad que corresponde a ese valor, o viceversa. Para curvas ROC paramétricas que asumen distribuciones teóricas, los parámetros y sus variancias se estiman mediante programas informáticos 21. Se puede aplicar la teoría de la inferencia estadística (pruebas de hipótesis e intervalos de confianza) a la sensibilidad y la especificidad, e incluso para estimar valores no observados. Área bajo la curva ROC El área bajo la curva (ABC) ROC es una medida global de la exactitud de una prueba diagnóstica. Se define como la probabilidad de clasificar correctamente un par de individuos sano y enfermo, seleccionados al azar de la población, mediante los resultados obtenidos al aplicarles la prueba diagnóstica. Es decir, es la probabilidad de que el resultado de la prueba resulte más anormal en el paciente enfermo22. Verdadera ABC ROC =Prob (Xenfermo > Xsano) Se puede tomar como ejemplo la determinación del PSA para el diagnóstico del cáncer de próstata. Un ABC de 0,75 significa que un individuo seleccionado aleatoriamente del grupo de enfermos tendrá el 75 % de las veces un valor de PSA mayor que un individuo elegido al azar del grupo no enfermo. Esto no significa que un resultado positivo se produzca en el enfermo con una probabilidad de 0,75 ni que esté asociado con la enfermedad el 75 % de las veces. Por convenio, el ABC ROC es siempre mayor o igual que 0,5. Toma valores comprendidos entre 0,5, si no existen diferencias en la distribución de resultados de la prueba entre los subgrupos enfermo y sano, y 1,0, cuando existe separación perfecta entre las dos distribuciones. Swets4 interpreta el ABC de la siguiente manera: valores entre 0,5 y 0,7 indican baja exactitud, entre 0,7 y 0,9 pueden ser útiles para algunos propósitos y un valor mayor de 0,9 indica exactitud alta. La capacidad de discriminación de la prueba diagnóstica puede evaluarse estimando el intervalo de confianza del ABC ROC. Si el intervalo no incluye el valor 0,5 la prueba es capaz de discernir entre enfermos y sanos. El cálculo del ABC ROC así como de su error estándar puede abordarse, en función del tipo de curva, mediante un enfoque paramétrico o no paramétrico. Si se utiliza el criterio no paramétrico, el ABC puede calcularse mediante un método trapezoidal o estimarse como el estadístico W de Wilcoxon. Bamber23 demostró que el área bajo la curva ROC coincide con la suma de rangos (W) obtenida mediante la prueba no paramétrica de comparación de medias de Wilcoxon. Hanley y McNeil22 exponen esta demostración matemática en el contexto médico y el método directo para el cálculo del error Fig. 7 .Curvas ROC de dos pruebas diagnósticas hipotéticas con igual área bajo la curva, pero trazados muy diferentes. estándar de W que permite obtener su intervalo de confianza. El estadístico W es un estimador centrado de la verdadera ABC ROC teórica. Con datos clínicos se debe considerar la posibilidad de empates. Si se producen pocos empates, el ABC puede calcularse también mediante el método trapezoidal o utilizando la versión de Mann-Whitney del estadístico de Wilcoxon con los rangos medios. Sin embargo, al agrupar los datos en categorías ordenadas el aumento de empates conduce a un área trapezoidal subestimada y a un aumento de su error estándar24. Existen varios métodos gráficos y matemáticos para calcular el ABC y su error estándar asumiendo un modelo paramétrico binormal12,21 . Pero, a menos que se satisfagan bien las asunciones paramétricas, las ABC obtenidas suelen ser sesgadas. También se ha propuesto un modelo exponencial negativo, más conservador que el binormal. Hanley y McNeil22 explican un método de cálculo del tamaño de muestra necesario para obtener el ABC ROC con la precisión deseada utilizando dicho modelo. Centor y Schwartz25 han realizado una comparación de áreas no paramétricas y paramétricas binormales. El área bajo la curva ROC por ser una medida global implica pérdida de información, por lo que no debe considerarse aisladamente sin examinar la curva. A veces, curvas ROC de trazados muy distintos pueden tener áreas semejantes (fig. 7). Por otra parte, una curva con mayor área que otra puede no ser la mejor en la situación clínica de interés. Comparación de curvas ROC La comparación clásica de pruebas diagnósticas se realiza mediante estudios de correlación, una vez fijado el punto de corte. La utilización de curvas ROC permite hacer comparaciones de puntos de dos curvas que tengan igual sensibilidad o especificidad20 y un enfoque global de confrontación de la exactitud de dos pruebas en el espectro completo de puntos de corte, comparando sus áreas bajo la curva22. El diseño del estudio de comparación puede ser de20: Datos pareados, se realizan dos o más pruebas en los mismos sujetos. Es un diseño muy eficaz que controla la varia667 MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995 TABLA 5 Programas informáticos para la construcción y análisis de curvas ROC Tipo de datos Curva ROC ABC ROC Comparación ABC Elección puntos de corte CLINROC MEZ ROC ANALYZER ROCLAB RULEMAKER SIGNAL EP-UH C NP NP P C, 1 NP, P P - A NP, P NP, P NP, P - C NP NP NP C NP NP NP - A NP, P NP, P C NP NP - - C: Continuos; A: agrupados en categorías ordenadas; NP: no paramétrico; P: paramétrico. ción paciente-paciente, por lo que requiere menor tamaño de la muestra. Los resultados de las pruebas están generalmente asociados o correlacionados. Grupos independientes, las diversas pruebas se realizan en distintos individuos. Los resultados son independientes y no se relacionan. Si el estudio se realiza en grupos independientes, tanto en curvas paramétricas como no paramétricas, la comparación de áreas mediante métodos estadísticos es directa16,26 . Si se utilizan datos apareados es necesario calcular previamente la correlación entre las pruebas27,28 ; los cálculos son complejos y requieren el uso de ordenador. Distintos autores han descrito programas informáticos comerciales o de dominio público para la obtención y análisis de curvas ROC29,31 . La tabla 5 recoge los principales programas así como algunas de sus capacidades. Zweig8 cita las direcciones de contacto para adquirirlos. Elección de niveles de decisión o puntos de corte Considerando únicamente los valores de sensibilidad y especificidad no es posible seleccionar el punto de corte idóneo para la aplicación concreta de las pruebas diagnósticas. Para determinar cuál de las posibles combinaciones S/E es la más apropiada, es necesario considerar dos elementos8: 1. Los costes relativos de los resultados falsos, tanto negativos como positivos, así como los beneficios de las clasificaciones correctas. 2. La proporción relativa de los dos estados de salud que se pretende discriminar con la prueba, es decir, la prevalencia o probabilidad a priori de la enfermedad en la población. Evaluar el primer apartado es complicado, ya que puede expresarse en términos financieros o de costes para la salud y se puede interpretar desde el punto de vista del paciente, de los sanitarios o de la sociedad. Diversos autores8,32,33 han expuesto sus criterios para el cálculo de los costes relativos de los resultados y obtienen distintas fórmulas que también engloban la prevalencia para la determinación del punto de corte óptimo. Independientemente del cálculo del nivel de decisión exacto, Galen y Gambino34 han emitido cuatro postulados relativos a la elección práctica de las características de una prueba diagnóstica, que consideran la patología estudiada y las condiciones reales de la comunidad, y que son los siguientes: 1. Se elige la mayor sensibilidad posible cuando: a) la enfermedad sea grave y no pueda pasar inadvertida; b) la enfermedad sea tratable, y c) los resultados falsos positivos no supongan un traumatismo psicológico o económico en los individuos examinados. 2. Se elige la mayor especificidad posible cuando: a) la enfermedad sea importante pero difícil de curar o incurable, y 668 b) el hecho de conocer que no se padece la enfermedad tiene una importancia sanitaria y psicológica. 3. Debe utilizarse una prueba con alto valor predictivo positivo cuando el tratamiento de los falsos positivos pueda tener consecuencias graves. 4. Se desea un valor global elevado cuando: a) la enfermedad sea importante pero curable, y b) tanto los falsos positivos como los falsos negativos supongan un traumatismo y conlleven consecuencias graves. Aplicaciones de las curvas ROC en el diagnóstico de laboratorio Las curvas ROC tuvieron sus primeras aplicaciones en medicina en el campo del radiodiagnóstico12. En 1981, Robertson y Zweig9 las utilizaron por primera vez en la evaluación de pruebas de laboratorio. Estudiaron las concentraciones séricas de mioglobina y creatincinasa MB (CK-MB) en pacientes con sospecha de IAM y comunicaron sus resultados en forma de curvas ROC. Además, reanalizaron datos ya publicados sobre la hormona paratiroidea usando estas curvas. Posteriormente, estos autores colaboraron con Van Steirteghem35 en un estudio de comparación de mioglobina, CK total, CK-MB y CK-BB en el diagnóstico de IAM. Construyeron las curvas ROC obtenidas con los cuatro parámetros a distintos tiempos de muestreo desde el comienzo del dolor torácico. Estas curvas demostraron que la mioglobina poseía la mayor capacidad diagnóstica en las primeras 5 a 8 h tras la instauración del dolor, mientras que la CK y la CK-MB eran superiores a las 18 h. Sucesivamente, diversos autores publicaron curvas ROC como resultados de sus estudios 36-40, pero con interpretaciones solamente cualitativas. En 1985, Carson et al41 utilizaron por primera vez el análisis cuantitativo de curvas ROC en un estudio de comparación de cuatro técnicas analíticas para la determinación de fosfatasa ácida prostática en casos de sospecha de cáncer de próstata. La evaluación se efectuó comparando las áreas bajo las curvas ROC obtenidas. Hermann33 comparó la exactitud de dos versiones de un ensayo comercial radioisotópico para tirotropina y su capacidad para distinguir entre individuos eutiroideos e hipotiroideos, mediante curvas y ABC ROC. Kazmierczack et al42 usaron curvas ROC para evaluar la exactitud de lipasa, amilasa y fosfolipasa A en el diagnóstico de pancreatitis aguda. Guyatt43 estudió la capacidad de siete pruebas incluyendo ferritina, transferrina, saturación, volumen corpuscular medio y protoporfirina eritrocitaria para distinguir la anemia ferropénica de otras causas de anemia en sujetos mayores de 65 años. Utilizó un factor para corregir la correlación, ya que todas las curvas se obtuvieron en los mismos individuos. En los últimos años se han publicado diversos estudios sobre evaluación y comparación de pruebas diagnósticas, utilizando curvas y análisis ROC44-50. Sin embargo, el principal avance de nuestros días consiste M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS en la aplicación de las técnicas estadísticas de análisis multivariante a las curvas ROC 51,52. Mediante distintos modelos de regresión logística, Zweig 51 estudió la capacidad de los lípidos y las lipoproteínas séricas para distinguir individuos con enfermedad arterial coronaria de individuos sanos, así como distintos grados de enfermedad entre los primeros. Obtuvo las ABC ROC para distintos parámetros: colesterol, colesterol LDL, colesterol HDL, triglicéridos, apolipoproteína A-I y apolipoproteína B; pero también para tres modelos logísticos que incluían, además de índices lipídicos, variables muy relacionadas con la enfermedad arterial coronaria: sexo, edad y hábito tabáquico. Demostró que las apolipoproteínas aumentan la capacidad de discriminación de los lípidos en la enfermedad coronaria. En resumen, la curva ROC, una generalización de los conceptos clásicos de sensibilidad y especificidad, es un moderno enfoque epidemiológico para la evaluación de pruebas diagnosticas, ya que permite conocer su capacidad para discriminar entre dos estados alternativos de salud. La curva ROC no paramétrica es una visión sin sesgo de la exactitud de la prueba. Además, el análisis estadístico de las curvas ROC proporciona resultados cuantitativos muy útiles en la evaluación y comparación de pruebas diagnósticas. Glosario de términos Exactitud Capacidad de una prueba diagnóstica para clasificar correctamente a los individuos en subgrupos clínicamente relevantes. En su forma más simple es la capacidad para distinguir entre dos estados de salud. Sensibilidad Probabilidad de obtener un resultado positivo cuando el individuo tiene la enfermedad. Mide su capacidad para detectar la enfermedad cuando está presente. Especificidad Probabilidad de obtener un resultado negativo cuando el individuo no tiene la enfermedad. Mide su capacidad para descartar la enfermedad cuando no está presente. Nivel de decisión o punto de corte Valor límite que permite resumir los resultados de una escala continua en dos categorías: positivo y negativo. Curva ROC Gráfico que muestra todos los pares sensibilidad/especificidad resultantes de la variación continua de los puntos de corte en todo el rango de resultados observados. Área bajo la curva ROC (ABC ROC) Probabilidad de clasificar correctamente un par de individuos sano y enfermo, seleccionados al azar de la población, mediante los resultados obtenidos al aplicarles la prueba diagnóstica. REFERENCIAS BIBLIOGRÁFICAS 1. Jenicek M, Clèroux R. Epidemiología. Principios. Técnicas. Aplicaciones. Barcelona: Salvat, 1987. 2. Redondo FL. la lógica en la interpretación de las pruebas diagnósticas. Barcelona: Garsi, 1989. 3. Robertson EA, Zweig MH, Van Steirteghem AC. Evaluating the clínical efficacy of laboratory tests. Am J Clin Pathol 1983; 79: 78-86. 4. Swets JA. Measuring the accuracy of diagnostic systems. Science 1988; 240: 1.285-1.293. 5. Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. N Engl J Med 1978; 299: 926930. 6, Lachs MS, Nachamkin l, Edelstein PH, Goldman J, Feinstein AR, Schwartz JS. Spectrum bias in the evaluation of diagnostic tests: lessons from the rapid dipstick test for urinary tract infection. Ann lntern Med 1992; 117: 135-140. 7. Gur D, King JL, Rockette HE, Britton CA, Thaete EL, Hoy RJ. Practical issues of experimental ROC analysis. Selection of controls. lnvest Radiol 1990; 25: 583-586. 8. Zweig MH, Campbell G. Receiver-Operating Characteristic (ROC) Plots: A fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. 9. Robertson EA, Zweig MH. Use of Receiver Operating Characteristic Curves to evaluate the clinical performance of analytical systems. Clin Chem 1981; 27: 1.569-1.574. 10. Gray R, Begg CB, Greenes RA. Construction of receiver operating characteristic curves when disease verification is subject to selection bias. Med Decis Making 1984; 4: 151-164. 11. Lusted LB. Signal detectability and medical decision-making. Science 1971; 171: 1.217-1.219. 12. Metz CE. Roc methodology in radiologic imaging. lnvest Radiol 1986; 21: 720-733. 13. Sackett DL, Haynes RB, Tugwell P. Epidemiología clínica. Una ciencia básica para la medicina clínica. Madrid: Díaz Santos S.A., 1989. 14, Gerhardt W, Keller H. Evaluation of test data from clinical studies. Il. Critical review of concepts of efficiency, Receiver Operated Characteristic (ROC) and likelihood ratios. Scand J Clin Lab lnvest 1986; 46 Supl 181: 4774. 15. Zweig MH. lnefficiency of diagnostic efficiency [carta]. Clin Chem 1992; 38: 163-164. 16. McNeil BJ, Hanley JA. Statistical approaches to the analysis of receiver operating characteristic (ROC) curves. Med Decis Making 1984; 2: 137150. 17. Swets JA, Pickett RM. Evaluation of diagnostic systems. Nueva York: Academic Press, 1982. 18. Hanley JA. The robustness of the “binormal” assumption used in fitting ROC curves. Med Decis Making 1988; 8: 197-203. 19. Rockette HE, Obuchowski NA Gur D. Nonparametric estimation of degenerate ROC data sets used for comparison of imagina systems. lnvest Radiol 1990: 835-837. 20. Beck JR, Shultz EK. The use of Relative Operating Characteristic (ROC) Curves in test performance evaluation. Arch Pathol lab Med 1986; 110: 1320. 21. Grey DR, Morgan BJT. Some aspects of ROC curve-fitting: normal and logistic models. J Math Psichol 1972; 9: 128-139. 22. Hanley JA, McNeil BJ. The meaning and use of the area under a Receiver Operating Characteristic (ROC) Curve. Radiology 1982; 143: 2936. 23, Bamber D. The area above the ordinal dominance graph and the area below the receiver operating graph. J Math Psych 1975; 12: 387-415. 24. Swets JA. ROC analysis applied to the evaluation of medical imaging techniques. lnvest Radiol 1979; 14: 109-121. 25. Centor RM, Schwartz JS. An evaluation of methods for estimating the area under the receiver operating characteristic (ROC) curve. Med Decis Making 1985; 5: 149-156. 26. Hanley JA, McNeil BJ. A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology 1983; 148: 839-843. 27. Wieand S, Gail MH, James BR, James KL. A family of nonparametric statistics for comparing diagnostic markers with paired or unpaired data. Biometrika 1989; 76: 585-592. 28. De Long ER, De Long DM, Clarke-Pearson DL. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics 1988; 44: 837-845. 29. Abendroth TW, Bongiovanni MB, Krieg AF, A microcomputer program for critical evaluation of diagnostic test. Arch Pathol Lab Med 1986; 110: 952-958. 30. Pellar TG, Leung FY, Henderson AR. A computer program for rapid generation of Receiver Operating Characteristic Curves and likelihood ratios in the evaluation of diagnostic tests. Ann Clin Biochem 1988; 25: 411-416. 31. Centor RM, Keightley GE. Receiver operating characteristic (ROC) curve area analysis using the ROC ANALYZER. SCAMC Proc 1989; 222-226. 32. Krieg AF, Abendroth TW, Bongiovanni MB. When is a diagnostic test result positive? Decision tree models based on net utility and threshold. Arch Pathol Lab Med 1986; 110: 787-791. 33. Hermann GA, Sugiura HT, Krumm RP. Comparison of thyrotropin assays by Relative Operating Characteristic analysis. Arch Pathol Lab Med 1986; 110: 21-25. 34. Galen RS, Gambino SR. Beyond normality: the predictive value and efficiency of medical diagnoses. Nueva York: J Wiley and Sons, lnc., 1975. 35. Van Steirteghem AC, Zweig MH, Robertson EA, Bernard RM, Putzeys GA, Bieva CJ. Comparison of efectiveness of four clinical chemical assays in 669 MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995 classifying patients with chest pain. Clin Chem 1982; 28: 1.319-1.324. 36. Kadar N, DeCherney AH, Romero R. Receiver operating characteristic (ROC) curve analysis of the relative efficacy of single and serial chorionic gonadotropin determinations in the early diagnosis of ectopic pregnancy. Fertil Steril 1982; 37: 542-547. 37. Ryan ED, Bilous G. Serum 5'-nucleotidase: Automation of a manual assay and briev observations on values in patients with breast cancer. Clin Biochem 1983; 16: 249-253. 38. Marchand A, Van Lente F, Galen RS. The assessment of laboratory tests in the diagnosis of acute appendicitis. Am J Clin Pathol 1983; 80: 369374. 39. Leroux ML, Rabson J, Desjardins PRE. Clinical effectiveness of the Du Pont aca measurement of creatine kinase MB in serum from patients in a coronary-care unit. Clin Chem 1984; 30: 1.552-1.554. 40. Kim l, Pollit E, Leibel RL. Application of receiver-operator analysis to diagnostic tests of iron defficiency in man. Pediatr Res 1984; 18: 916-920. 41. Carson JL, Eisenberg JM, Shaw LM, Kundel HL, Soper KA. Diagnostic accuracy of four assays of prostatic acid phosphatase. Comparison using receiver operating characteristic curve analysis. JAMA 1985; 253: 665-669. 42. Kazmierczack SC, Van leute F, Hodges ED. Diagnostic and prognostic utility of phospholipase A activity in patients with acute pancreatitis: comparison with amylase and lipase. Clin Chem 1991; 37: 356-360. 43. Guyatt GH, Oxman AD, Alí M, Willan A, Mcllroy W, Patterson C. laboratory diagnosis of iron-deficiency anemia: an overview. J Gen lntern Med 1992; 7: 145-153. 44. Leung FY, Galbraith LV, Jablonsky G, Henderson AR, Reevaluation of the diagnostic utility of serum total creatine kinase and creatine kinase-2 in myocardial infarction. Clin Chem 1989; 35: 1.435-1.440. 670 45. Dupont A, Cusan L, Gómez JL, Thibeault MM, Tremblay M, Labrie F. Prostate specific antigen and prostatic acid phosphatase for monitoring therapy of carcinoma of the prostate. J Urol 1991; 146: 1.064-1.068. 46. De Wit R, Hoek FJ, Bakker PJ, Veenhof CH. The value of MCA, CA 153, CEA and CA-125 for discrimination between metastasic breast cancer and adenocarcinoma of other primary sites. J Intern Med 1991; 229: 463466. 47. Ricker DM, Hebert LA, Rohde R, Sedmak DD, Lewis EJ, Clough JD. Serum C3 levels are diagnostically more sensitiva and specific for systemic lupus erythematosus activity than are serum C4 levels. Am J Kidney Dis 1991; 18: 678-685. 48. Amico S, Liehn JC, Desoize B, Larbre H, Deltour G, Valeyre J. Comparison of phosphatase isoenzymes PAP and PSA with bone scan in patients with prostate carcinoma. Clin Nuci Med 1991; 16: 643-648. 49 . Lott JA, Lu CJ. Lipase isoforms and amylase isoenzymes: assays and application in the diagnosis of acute pancreatitis. Clin Chem 1991; 37: 361368. 50. Flack MR, Oldfield EH, Cutler GB, Zweig MH, Malley JD, Chrousos GP et al. Urine free cortisol in the high-dose dexamethasone suppression test for the differential diagnosis of the Cushing syndrome. Ann lntern Med 1992; 116: 211-217. 51. Zweig MH, Broste SK, Reinhart RA. ROC curve analysis: an example showing the relationships among serum lipid and apolipoprotein concentrations in identifying patients with coronary adery disease. Clin Chem 1992; 38: 1.425-1.428. 52. Kazmierczack SC, Catrou PG, Van Lente F. Diagnostic accuracy of pancreatic enzymes evaluated by the use of multivariate data analysis. Clin Chem 1993; 39: 1.960-1.965.