CAPÍTULO Lectura crítica de estudios de diagnóstico Ana Royuela Vicente, María Luisa Montes Ramírez y Antonio Jesús Martín Mateos Lectura crítica de la evidencia clínica, Capítulo 6, 87­99 • Definir la exactitud de una prueba diagnóstica. • Tratar los aspectos clave del diseño de los estudios de exactitud de una prueba diagnóstica. • Recoger los indicadores básicos del diagnóstico, sensibilidad, especificidad, valores predictivos y cocientes de probabilidades. • Reflexionar sobre el uso de las pruebas diagnósticas en la clínica. Introducción Según la Real Academia Española (RAE), el diagnóstico es el arte o acto de conocer la naturaleza de una enfermedad mediante la observación de sus síntomas y signos. Es el primer paso en la valoración del estado de un paciente, y solo desde un correcto diagnóstico podrá establecerse un tratamiento adecuado y un óptimo seguimiento posterior. Los estudios de diagnóstico suponen un interesante reto en la valoración de aquellos aspectos que los definen. Por un lado, no gozan de una metodología tan ampliamente desarrollada, conocida y estandarizada como otro tipo de estudios, como los estudios de tratamiento o las RS. Además, llevan asociada la dificultad de tener que presentar sus resultados siempre en forma de binomio. Cuando se hable de la sensibilidad en una prueba diagnóstica, tendrá que hablarse, ineludiblemente, también de su especificidad. El marco conceptual de evaluación de pruebas diagnósticas está evolucionando de manera sustancial en los últimos años. Ha pasado de considerarse un mero proceso de evaluación secuencial en fases (1) , mimetizando en mayor o menor medida las fases I a IV del EC, a constituir una evaluación más amplia, que engloba desde aspectos técnicos de factibilidad de la prueba, reproducibilidad y validez, hasta aspectos referentes a su impacto clínico y costes, teniendo en cuenta el contexto clínico donde se va a aplicar (2) . Por todo ello, se hace muy relevante comprender los aspectos más importantes del diseño de los estudios sobre diagnóstico, saber interpretar los resultados de un estudio sobre evaluación de pruebas diagnósticas y aplicar estos conocimientos a los diferentes escenarios clínicos en los que nos vemos envueltos diariamente. Escenario Francisco es un varón de 53 años con una infección por el virus de la inmunodeficiencia humana (VIH) de larga evolución. Ha recibido múltiples tratamientos antirretrovirales con respuestas parciales, pero desde hace 5 años recibe una pauta compleja con inhibidores de la proteasa que ha conseguido controlar la infección y recuperar parcialmente su inmunosupresión, manteniendo un recuento de linfocitos CD4+ de alrededor de 270 cél./μl. Acude a su revisión programada con el internista y le comenta que en el último mes tiene fiebre por las tardes de hasta 38°C, está más cansado de lo habitual y en la última semana ha comenzado a toser. Tras la anamnesis y exploración, su médico le explica que hay que descartar como primera posibilidad la tuberculosis pulmonar, y le solicita una radiografía de tórax y la recogida de muestras de esputo para el análisis microbiológico. Las pruebas no son concluyentes y, aunque las muestras de esputo se siembran para cultivo en medio de micobacterias, estos resultados tardarán 2 meses. Los síntomas empeoran y el inicio del tratamiento antituberculoso requiere modificar por completo la medicación antirretroviral, con el consiguiente riesgo de la pérdida del control de la infección por el VIH, por lo que la seguridad en el diagnóstico es muy importante. Se decide realizar una broncoscopia con toma de muestras y, tras comentar el caso con el microbiólogo, se propone realizar una prueba de detección de micobacterias mediante amplificación de ADN. Esta prueba es muy nueva, por lo que el internista busca información en PubMed y encuentra un artículo con referencias específicas para población infectada por el VIH. El resultado de la prueba de amplificación de ADN resulta positivo. • Las pruebas de detección de ADN de micobacterias en muestras de esputo, ¿tienen una buena rentabilidad diagnóstica en pacientes infectados por el VIH? • La positividad de la prueba de detección de ADN de micobacterias, ¿confirma el diagnóstico de Francisco con suficiente seguridad como para iniciar el tratamiento antituberculoso antes de saber los resultados del cultivo? Puntos clave de la lectura crítica de estudios de diagnóstico En el contexto de la práctica médica, una buena parte de nuestra labor consiste en diagnosticar, es decir, realizar mediciones e interpretar sus resultados. Cuando medimos, debemos tener en cuenta siempre la existencia de cierta variabilidad en la medición. Esta variabilidad es explicada, en parte, por las características de la población en la que se realiza, las características de la enfermedad que estamos midiendo y el propio proceso de medición. La variabilidad se divide en dos aspectos fundamentales: validez y reproducibilidad. La validez hace referencia al grado en que una medida se aproxima al valor real que se pretende medir; y la reproducibilidad se entiende como el grado en que una prueba diagnóstica produce los mismos resultados al aplicarse sobre el mismo sujeto. En este libro, se tratarán exclusivamente los puntos clave de los estudios sobre validez de pruebas diagnósticas. El primer punto que hay que tener en cuenta cuando leemos un estudio sobre validez de pruebas diagnósticas es el diseño del estudio. El diseño óptimo para evaluar la validez de una prueba diagnóstica es un estudio observacional transversal, donde, a una serie consecutiva de pacientes, de forma ciega e independiente se les aplica la prueba que hay que evaluar y una prueba de referencia o patrón de oro (del inglés, gold standard ), comparándose ambas clasificaciones. La selección de la muestra debe ser representativa de la población en la que posteriormente se utilizará la prueba y, por tanto, incluir un espectro de pacientes lo más parecido posible al del medio en que la prueba se pretenda usar (es decir, pacientes con enfermedad leve, moderada o grave, pacientes en etapa temprana y tardía de la enfermedad). Esto se consigue reclutando a una serie consecutiva de pacientes, para así minimizar el sesgo de selección. Posteriormente, todos los resultados deben confirmarse, tanto los positivos como los negativos, mediante una prueba de referencia o patrón de oro asumiendo que esta clasifica correctamente a los enfermos y a los no enfermos. La prueba de referencia es el criterio diagnóstico que define quién tiene «realmente» la enfermedad o condición de estudio. Es importante que ambas pruebas se realicen simultáneamente, pues cualquier lapso temporal entre ellas puede afectar a su resultado. Tanto la prueba que se va a evaluar como la de referencia deben ser aplicadas en todos los pacientes del estudio. El proceso de realización y evaluación de ambas pruebas, idealmente, debe ser ciego. Es decir, ambas pruebas deben realizarse e interpretarse sin conocer el resultado de la otra, y de forma independiente, es decir, la aplicación de la prueba de referencia no debe estar condicionada por los resultados de la prueba evaluada. En algunas situaciones, la prueba de referencia puede resultar invasiva o costosa, y pueden surgir reparos en la realización de la prueba de referencia a los pacientes con resultado negativo en la prueba que se va a evaluar. Una alternativa es seguir a los pacientes por un tiempo adecuado y evaluar así si son verdaderos negativos (VN). Otro de los puntos clave que hay que tener en cuenta en la lectura crítica de un artículo sobre evaluación de pruebas diagnósticas es el análisis de los resultados en ambas pruebas. Cuando el resultado de las pruebas es de carácter dicotómico (positivo o negativo), se puede realizar una clasificación cruzada de los resultados de ambas pruebas (la sometida a evaluación y la prueba de referencia) en forma de una tabla cruzada 2 × 2. A partir de la tabla cruzada, los resultados posibles son cuatro: la prueba ha dado un resultado positivo que ha sido confirmado por la prueba de referencia, con lo que se tratará de verdadero positivo (VP). Si el resultado de la prueba es negativo y se confirma la ausencia de enfermedad, se trata de un VN. Las situaciones en las que la prueba ha dado un resultado erróneo, es decir, un resultado no verificado por la prueba de referencia, tendremos falsos positivos (FP) o falsos negativos (FN), en función de si el resultado de la prueba fue positivo o negativo, respectivamente. En la tabla 6­ 1 (t0010) se representa una tabla de clasificación cruzada, y la notación contenida en sus cuatro celdas ayuda a explicar los cálculos de los índices de validez diagnóstica. Para medir el rendimiento diagnóstico de una prueba, se proponen distintas parejas de índices. Tabla 6­1 Clasificación cruzada 2 × 2 Prueba de referencia Presente Ausente Total VP a FP b a + b Negativo FN c VN d c + d Total b + d N Prueba que se va a evaluar Positivo a + c FN, falsos negativos; FP, falsos positivos; VN, verdaderos negativos; VP, verdaderos positivos. Sensibilidad y especificidad: son los índices más utilizados como índices de validez de las pruebas diagnósticas. Ambos se interpretan fácilmente, tomando valores entre 0 (prueba no válida) y 1 (prueba perfectamente válida). La sensibilidad se refiere a la probabilidad que tiene una prueba diagnóstica para proporcionar un resultado positivo entre los sujetos enfermos: Sens = a a+c La especificidad refleja la probabilidad que tiene una prueba diagnóstica de dar un resultado negativo entre los sujetos que no tienen la enfermedad: Esp = d b+d Cuando el objetivo es la detección de enfermedades graves y tratables, es necesaria una prueba muy sensible. Las pruebas que se aplican para cribado de enfermedades, por ejemplo, deben ser pruebas con alta sensibilidad. En cambio, con la especificidad se persigue la confirmación de los sujetos no enfermos. Es preferible una prueba muy específica cuando la enfermedad es grave, pero difícilmente tratable, y que un resultado falsamente positivo pueda tener una gran transcendencia, por ejemplo, un falso diagnóstico de VIH o de cáncer. En este sentido, se propone una regla nemotécnica que ayuda a valorar los resultados obtenidos en la sensibilidad y especificidad: SnNout recuerda que cuando una prueba diagnóstica tiene una sensibilidad elevada (sensitivity), los resultados negativos ayudan a descartar el diagnóstico con alta probabilidad (rule out). SpPin recuerda que si la prueba tiene alta especificidad (specificity), los resultados positivos son muy indicativos para confirmar el diagnóstico (rule in). Valores predictivos positivo y negativo: aunque los anteriores son los índices más recogidos en las publicaciones científicas de evaluación de prueba diagnóstica, no son índices útiles para la práctica, pues, en realidad, cuando se solicita una prueba, no se conoce si el paciente está enfermo o no. Lo que se quiere conocer es la probabilidad de estar enfermo a partir del resultado de la prueba. En este contexto de práctica clínica, parece más útil hablar de valores predictivos, es decir, la probabilidad de un diagnóstico cuando el resultado de la prueba es positivo o negativo. El valor predictivo positivo se refiere a la probabilidad de tener la enfermedad, dado que se ha observado un resultado positivo: VP+ = a a+b Con el valor predictivo negativo, se obtiene la probabilidad de no tener la enfermedad, dado que se ha observado un resultado negativo: VP− = d c+d Sin embargo, a pesar de su atractiva interpretación, no son unos índices adecuados para su uso como evaluación del rendimiento diagnóstico de una prueba, pues están muy influidos por la prevalencia de la condición que se está estudiando. Para una misma prueba diagnóstica, el aumento de la prevalencia aumenta el valor predictivo positivo y disminuye el valor predictivo negativo, y viceversa. Esto explica que una misma prueba se comporte de forma distinta según el ámbito en el que se aplique. Por tanto, el valor predictivo está relacionado con la aplicabilidad de la prueba. La probabilidad de que un paciente con prueba positiva esté realmente enfermo dependerá de la prevalencia de la enfermedad. Haz la prueba. En una población de 100.000 habitantes, hay una prevalencia de la enfermedad X del 1%. Tenemos una sensibilidad de la prueba diagnóstica del 90% y una especificidad del 90%. El 1% de 100.000 habitantes son 1.000 pacientes. Habrá, por tanto, 1.000 enfermos y 99.000 sanos. Si la sensibilidad de la prueba es del 90%, de los 1.000 pacientes enfermos, diagnostica correctamente a 900 (a). Si la especificidad de la prueba es del 90%, de los 99.000 sanos, diagnostica falsamente como enfermos a 9.900 (b). Por tanto, de los pacientes diagnosticados como enfermos 9.900 + 900 = 10.800 (a + b), solo 900 (a) son correctamente diagnosticados 900/10.800 (a/a + b), el 8,33%. Si haces estos mismos pasos variando la prevalencia, observarás cómo se va a ir modificando el porcentaje. Cocientes de probabilidad positivo y negativo: también denominados razones de verosimilitud o likelihood ratios (LR en la literatura inglesa). Son una pareja de índices menos populares que los anteriores, pero más útiles para interpretar y utilizar el resultado de una prueba diagnóstica (3) . El cociente de probabilidad positivo (CP+) refleja cuánto más frecuente es obtener un resultado positivo entre los enfermos que entre los no enfermos. Si la prueba fuera totalmente inútil para diagnosticar una enfermedad (piénsese en una moneda tirada al aire), el resultado positivo (p. ej., obtener una cara) se obtendría con la misma frecuencia en los enfermos que en los no enfermos, con lo que ese resultado positivo no aportaría ninguna información y el CP+ sería 1. Cuanto más frecuente sea el resultado positivo en los enfermos con respecto a los no enfermos, más información aporta ese resultado y, por tanto, mayor será el valor del CP+. De la misma forma, el cociente de probabilidad negativo (CP–) representa cuánto más frecuente es el resultado negativo entre los enfermos que entre los no enfermos. Si el resultado negativo (la cruz de la moneda de nuestro ejemplo) se obtuviera con la misma frecuencia en los enfermos y en los no enfermos, este resultado no contendría ninguna información (CP– igual a 1). Cuanto menos frecuente sea el resultado negativo en los enfermos con respecto a los no enfermos, más información aporta y menor será el valor del CP– (4) . Cociente de probabilidad positivo (CP+): cuánto más frecuente es obtener un resultado positivo entre los enfermos que entre los no enfermos: VP CP+ = V P +F N FP = sen 1−esp F P +V N Cociente de probabilidad negativo (CP–): cuánto más frecuente es obtener un resultado negativo entre los enfermos que entre los no enfermos: FN CP− = V P +F N VN = 1−sen esp F P +V N No te asustes con la fórmula; si lo piensas bien es muy fácil recordarla. Si conocemos la sensibilidad de la prueba y su especificidad, solo tienes que hacer un sencillo cálculo. Haz la prueba. Tenemos una prueba diagnóstica con una sensibilidad del 95% y una especificidad del 90%. Si te fijas bien en la fórmula anterior, el cociente de probabilidad positivo realmente es el cociente entre la sensibilidad y el «error» de la especificidad (1 – esp); si la especificidad es del 90%, hay un 10% de «error» en la especificidad, por tanto, nuestro ejemplo será 95/10 = 9,5. Para el cociente de probabilidad negativo, usaremos el «error» de la sensibilidad (1 – sen) y la especificidad, en nuestro ejemplo 5/90 = 0,055. Antes de realizar una prueba diagnóstica, la probabilidad de padecer la enfermedad en el estudio, denominada probabilidad a priori, coincide con la prevalencia para esa población de esa enfermedad o condición. Utilizando el conocido teorema de Bayes, se puede utilizar el valor del CP (positivo o negativo) del resultado de la prueba para actualizar la probabilidad a priori en probabilidad a posteriori (posprueba). Este cálculo puede obtenerse fácilmente gracias al nomograma desarrollado por Fagan en 1975 (5) ( fig. 6­1 (f0010) ). Trazando una línea de intersección entre la probabilidad a priori y el CP del resultado, se obtiene una probabilidad posprueba. Figura 6­1 Nomograma de Fagan. Si en lugar de un resultado dicotómico, la prueba que se va a evaluar proporciona resultados cuantitativos, los índices de validez diagnóstica deben obtenerse de una manera diferente, mediante la conocida curva ROC (receiver operating characteristic) (6) , escapando su descripción a los objetivos de este libro. Artículo Davis JL, Huang L, Worodria W, Masur H, Cattamanchi A, Huber C, et al. Nucleic acid amplification tests for diagnosis of smear­negative TB in a high HIV­prevalence setting: a prospective cohort study. PLoS One. 2011;6(1):e16321. Disponible en: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0016321 (http://www.plosone.org/article/info%253Adoi%252F10.1371%252Fjournal.pone.0016321) . Plantilla CASPe contestada para este artículo concreto En el cuadro 6­1 (b0010) se muestra la plantilla CASPe contestada para este artículo concreto. CUADRO 6­1 A) ¿Son válidos los resultados del estudio? Preguntas de eliminación 1. ¿Existió una comparación Sí ✓ No sé No con una prueba de referencia Se utilizó el cultivo en medio de micobacterias como el adecuada? patrón de oro, lo cual es correcto. PISTA: ¿es correcto el patrón Además, se utilizó un segundo patrón de oro incorporando criterios clínicos bien definidos en aquellos de oro? (no siempre se puede aplicar el mismo patrón de oro pacientes con cultivo negativo a todos los pacientes) 2. ¿Incluyó la muestra un espectro adecuado de pacientes? Sí ✓ No sé No PISTAS: Para evitar los sesgos de selección, se incluyeron todos los pacientes ingresados en el hospital de Kampala por – ¿Están adecuadamente descritos los pacientes y cómo tos de más de 2 semanas de duración de manera consecutiva. Los pacientes incluidos tenían la sospecha se seleccionaron? de enfermedad – Casi cualquier prueba distingue entre sanos y gravemente enfermos 3. ¿Existe una adecuada descripción de la prueba? Sí ✓ PISTAS: Se define con claridad qué es un resultado positivo, tanto – ¿Se define con claridad qué para la prueba de MTD como para la prueba secA1 PCR. Se especifica cómo realizar la prueba; no obstante, es un resultado positivo y qué No sé No es un resultado negativo? – ¿Se especifica la se remite al lector a otro original anterior donde la descripción fue más exhaustiva para la prueba de secA1 reproducibilidad de la prueba (este puede ser un punto clave en pruebas que dependen del observador, como las técnicas de imagen)? Preguntas detalladas 4. ¿Hubo evaluación Sí ✓ No sé No «ciega» de los resultados? Los investigadores se mantuvieron ciegos para los datos PISTA: ¿las personas que interpretaron la prueba conocían los resultados del clínicos y de la prueba de oro. Los resultados de las pruebas estudiadas solo se desvelaron cuando las muestras estuvieron clasificadas patrón de oro (y viceversa)? 5. ¿La decisión de realizar Sí ✓ No sé No el patrón de oro fue independiente del resultado de la prueba problema? Todas las muestras recogidas se procesaron tanto para el PISTAS: Considera si: cultivo (patrón de oro) como para las pruebas de estudio. Todas las muestras se clasificaron con los mismos criterios – Se incluyeron preferentemente los independientemente del resultado del cultivo resultados positivos en la prueba que se iba a evaluar – Se utilizaron diferentes patrones de oro en los positivos y en los negativos B) ¿Cuáles son los resultados? 6. ¿Se pueden calcular los cocientes de Sí ✓ probabilidad (likelihood ratios)? PISTAS: Test + No sé No Enfermos No enfermos a = 29 b = 7 – ¿Se han tenido en cuenta los pacientes con resultados «no concluyentes»? Test – c = 46 d = 129 Sensibilidad = a/(a + c) = 29/(29 + 46) = – ¿Se pueden calcular los cocientes de probabilidad para distintos niveles de la 38,7% (IC 95%: 27,6­50,6) Especifidad = d/(b + d) = 129/(129 + 7) = prueba, si procede? 94,9% (IC 95%: 89,7­97,9) CP+ = sens/(1 – esp) = 7,5 (IC 95%: 3,5­16,3) CP– = (1 – sens)/esp = 0,65 (IC 95%: 0,54­ 0,78) 7. ¿Cuál es la precisión de los resultados? Sí ✓ No sé No PISTA: hay que buscar o calcular los intervalos de confianza de los cocientes de Los intervalos de confianza de los cocientes de probabilidad son aceptables, pero probabilidad demasiado exactos Resultados para el cultivo y el método secA1 . C) ¿Son los resultados aplicables al escenario? 8. ¿Serán satisfactorias en el ámbito del escenario la reproducibilidad de la prueba y su interpretación? Sí No sé No ✓ El ámbito del estudio es completamente distinto al de Francisco, es población africana, con una incidencia de tuberculosis mucho más elevada que la nuestra, más joven, más inmunodeprimida y con una baja proporción de pacientes que reciben tratamiento antirretroviral PISTA: considera si el ámbito de la prueba es demasiado diferente al del escenario 9. ¿Es aceptable la prueba en este caso? Sí ✓ No sé No La prueba es factible en el medio de Francisco y los PISTA: considera la disponibilidad de la riesgos/molestias son mínimos. Los costes son moderados en nuestro medio, por lo que sí es aceptable prueba, los riesgos y molestias de la prueba y los costes 10. ¿Modificarán los Sí ✓ No sé No resultados de la prueba la decisión sobre cómo actuar? Dadas las dificultades tan importantes para tratar a Francisco con los tuberculostáticos, una prueba que excluya la infección es PISTAS: – Desde la perspectiva muy útil, a pesar de que la validación es en una población diferente. del escenario, si la actitud Si la prueba excluye, espera al resultado del cultivo, que tarda no va a cambiar, la unos 60 días, para definitivamente no tratar la tuberculosis prueba es (al menos) inútil – Considera el umbral de acción y la probabilidad de enfermedad antes y después de la prueba IC 95%, intervalo de confianza al 95%; MTD, Mycobacterium tuberculosis Direct; secA1 PCR, reacción en cadena de la polimerasa para la detección del gen secA1. Evaluación crítica del artículo propuesto (plantilla CASPe) Cómo citar este capítulo Royuela A., Montes M.L., Martín A.J.: Lectura crítica de estudios de diagnóstico. Cabello Juan B. Lectura crítica de la evidencia clínica . 2015. Elsevier Barcelona: pp. 87­99. Referencias 1. Sackett D.L., and Haynes R.B.: The architecture of diagnostic research. BMJ 2002 Mar 2; 324: pp. 539­541 Cross Ref (http://dx.doi.org/10.1136/bmj.324.7336.539) 2. Van den Bruel A., Cleemput I., Aertgeerts B., Ramaekers D., and Buntinx F.: The evaluation of diagnostic tests: evidence on technical and diagnostic accuracy, impact on patient outcome and cost­effectiveness is needed. J Clin Epidemiol 2007 Nov; 60: pp. 1116­ 1122 Cross Ref (http://dx.doi.org/10.1016/j.jclinepi.2007.03.015) 3. Jaeschke R., Guyatt G.H., and Sackett D.L.: Users’ guides to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients? The Evidence­Based Medicine Working Group . JAMA 1994 Mar 2; 271: pp. 703­707 Cross Ref (http://dx.doi.org/10.1001/jama.1994.03510330081039) 4. Abraira V.: Índices de rendimiento de las pruebas diagnósticas. SEMERGEN 2008; 28: pp. 193­194 5. Fagan T.J.: Letter: Nomogram for Bayes theorem. N Engl J Med 1975 Jul 31; 293: pp. 257 6. Hanley J.A., and McNeil B.J.: The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 1982 Apr; 143: pp. 29­36 Cross Ref (http://dx.doi.org/10.1148/radiology.143.1.7063747) Copyright © 2016 Elsevier, Inc. Todos los derechos reservados.