BASES PARA REALIZAR LECTURA CRITICA DE LA LITERATURA

Anuncio
BASES PARA REALIZAR LECTURA CRITICA DE LA LITERATURA MEDICA
Autor: Marina Khoury
INTRODUCCIÓN
En su tarea asistencial como médico seguramente se formula preguntas sobre los pacientes que está
atendiendo. Esas preguntas son en realidad, problemas a resolver. Justamente la definición de Problema es
“una cuestión que se trata de aclarar o solucionar”. Por lo tanto, una pregunta que no se ha respondido es un
“problema”. Ud. puede optar por diferentes maneras para solucionarlo o buscar respuesta:
INTUICION: “me parece que esa es la solución”.
ANALOGIA: se basa en la experiencia personal. Ejemplo: “a un paciente parecido le hice esta
intervención y le fue bien, por lo tanto a este paciente le debería pasar lo mismo…”
PRUEBA Y ERROR: se ponen a prueba sucesivamente distintas alternativas hasta que se encuentra
la que solucione el problema. Ejemplo: “ese tratamiento no anduvo, probemos este otro y si no anda,
probaremos un tercero….”. Puede ser útil en determinadas ocasiones, pero no es sistemático y puede
resultar ineficiente al basarse en el azar.
INVESTIGACION: La investigación es la aplicación del método científico al estudio de problemas
concretos. Puede utilizar resultados de sus propias investigaciones o de otros.
Muchas veces será difícil determinar qué forma utilizó para contestar la pregunta, sin duda la mayoría de las
veces será una combinación de varios de los anteriores.
Los resultados de la investigación se transforman en “evidencia” que puede ser utilizada para tomar
decisiones clínicas. El problema es que poder analizar críticamente la literatura científica requiere de
entrenamiento. Intentaremos que incorpore los conocimientos básicos como para poder tomar decisiones
fundamentadas en evidencias.
El tiempo es un punto cada vez más precioso, principalmente en lo cotidiano de la medicina. La agenda de los
especialistas en salud dificulta que lean todos los artículos relacionados con su disciplina. Sólo para dar un
ejemplo, existen cerca de 20 publicaciones periódicas enfocadas en medicina interna que producen cerca de 6
mil estudios de importancia práctica anualmente. Para actualizarse un médico precisaría leer cerca de 17
artículos todos los días del año. Esta tendencia a la creciente y continua información publicada más allá de
beneficiar, podría instalar una situación caótica. Esta demostrado que la práctica de la medicina y la velocidad
de cambio del conocimiento generan cada vez mas necesidad de que esta información este disponible en el
momento de tomar decisiones en una forma sencilla y accesible. El médico asistencial requiere de una
metodología que permita identificar preguntas puntuales, seleccionar artículos adecuados para contestarlas y
descartar rápidamente aquellos con errores metodológicos que determinen que los resultados no sean
adecuados para tomar decisiones para un paciente. El problema es que poder analizar críticamente la literatura
científica requiere de entrenamiento.
OBJETIVOS
Al finalizar el capítulo se espera que esté en condiciones de:
1. Enumerar las características del método científico.
2. Identificar diferentes tipos de diseños de estudios.
3. Describir las principales ventajas y limitaciones del método estadístico.
4. Aplicar una metodología que permita eliminar estudios estadísticos con importantes errores metodológicos.
5. Definir Medicina Basada en la Evidencia.
6. Redactar preguntas clínicas en forma adecuada.
7. Efectuar búsquedas bibliográficas orientadas a la pregunta que la origina.
8. Analizar artículos sobre tratamiento o prevención.
9. Analizar artículos sobre pronóstico.
10. Analizar un artículo sobre daño.
11. Analizar una revisión sistemática.
TEMARIO
1.Introducción al método científico y diseños de estudios.
2.Introducción a Medicina Basada en la Evidencia. La pregunta clínica y la búsqueda bibliográfica.
3. Evaluación crítica de los artículos: intervenciones, pronóstico, daño y diagnóstico.
4. Evaluación crítica de revisiones sistemáticas.
PRIMER PARTE: Introducción al método científico y diseños de estudios
Autores: Marina Khoury1. Francisco Caamaño2
1. Médica. Concurrente del Centro de Investigaciones Epidemiológicas. Academia Nacional de Medicina.
Buenos Aires. Argentina.
2. Farmacéutico. Docente de Metodología de la Investigación. Departamento de Medicina Preventiva y Salud
Pública. Facultad de Medicina. Universidad de Santiago. España.
METODO ESTADÍSTICO
Cuando se realiza una investigación utilizando método estadístico, en realidad se intenta conocer lo que
puede pasar en una población pero abordando sólo una parte de la misma que denominamos muestra.
Podemos decir que entre los pasos (camino) de la investigación estadística se incluyen:
1) redactar objetivos y elegir un diseño apropiado para contestarlo
2) definir la población blanco u objetivo (es la población a la que se “apunta” con las conclusiones del
estudio)
3) tomar una muestra “representativa” de dicha población
4) realizar las mediciones para obtener datos
5) analizar los datos y sacar conclusiones basadas en los resultados obtenidos con ese análisis
Puede utilizar es esquema para identificar los pasos descritos:
Método Estadístico
OBJETIVO
POBLACION
MUESTRA
Validez
Interna
Validez
Externa
RESULTADOS
CONCLUSIONES
Se intenta indagar qué pasa en esa población definida (que tiene características desconocidas), sin tener que
estudiar a todos sus componentes.
Por ejemplo, si quisiera conocer las características clínicas de cada uno de los pacientes con enfermedad
celíaca del mundo, no sería posible estudiar a cada uno de ellos. La única solución es estudiar a un
subconjunto de la población (que denominamos muestra) y, con los resultados de la misma tratar de
“adivinar” qué pasa en toda la población.
Parecerá raro el presentarlo como adivinación pero es sólo a título ilustrativo dado que las conclusiones no
otorgan “certezas” sino sólo una baja probabilidad de error.
Si se estudia una muestra, los valores que obtendremos no serán exactamente iguales a los de la población. Si
la población en estudio fuera de tamaño conocido y se estudiaran a todos menos uno, igual habría una
diferencia. Las diferencias entre la verdad en la población y los resultados de una muestra se denominan
“errores”.
Cuando se utiliza método estadístico, tenemos que estar conscientes que se pueden cometer errores al
momento de extraer conclusiones. Pero hay que diferenciar entre error sistemático (sesgo) y error aleatorio.
El error aleatorio es un resultado equivocado debido al azar. Es el precio que se paga por estudiar a
una muestra en lugar de toda la población. Las variaciones son impredecibles, es decir que el error se
puede dar hacia cualquier dirección. El tamaño del error se reduce aumentando el tamaño de la
muestra. Es inevitable, ya que sólo desaparece si se estudia a toda la población. Se controla
calculando un tamaño adecuado para la muestra en la planificación del estudio y calculando
estadísticas, como intervalos de confianza y pruebas de significación, en la etapa de análisis de datos.
El error sistemático o sesgo es un resultado equivocado debido a un defecto en la planificación de
la investigación. Es un error evitable, si se lo sospecha. Los resultados se distorsionan hacia una
determinada dirección. El aumento del tamaño de la muestra no tiene efecto sobre el mismo. Los
sesgos más importantes se cometen por mala elección de la población en estudio, errores de
muestreo y errores de medición. Se controlan diseñando correctamente el estudio.
Ejemplo: Se realizaron 2 estudios muy bien diseñados para conocer la prevalencia de hipertensión en la
población de una determinada ciudad. Los resultados fueron 10% en uno y 30% en el otro. Casualmente se
realizó un estudio en toda la población de esa ciudad y el resultado fue que la prevalencia de hipertensión era
de 20%. A qué se debió la diferencia? Al azar, que se puede equivocar para cualquier lado (imprevisible) y
es inevitable.
Hubo un tercer estudio en el mismo lugar y con el mismo objetivo que dio por resultado 40% de prevalencia
de hipertensión. Cuando revisaron los métodos utilizados se dieron cuenta que el tensiómetro que habían
utilizado para el estudio no había sido calibrado. Lo revisaron y llegaron a la conclusión que medía
15mmHg. de más justamente por estar mal calibrado. A qué se debió la diferencia de este estudio con la
verdad en la población? A un sesgo de medición que es sistemático (los resultados se distorsionan hacia un
lado, a más en este ejemplo), es evitable (había que calibrar el tensiómetro) y no se modifica aumentando el
tamaño de la muestra (si se hubiera realizado el estudio en toda la población con ese tensiómetro el error se
mantenía).
Cuando tratamos de definir “Validez” en términos generales, decimos que una herramienta es válida cuando
mide lo que pretende medir. Cuando nos referimos a la validez de un estudio, el concepto es similar pero tiene
aspectos específicos que debemos tener en cuenta.
Se denomina “Validez Interna” a la “Verdad dentro del estudio”. Un estudio presenta validez
interna si las conclusiones son aplicables a los individuos estudiados porque los resultados no se
deben a errores en el diseño, ejecución y/o análisis de los datos. Es decir, cuando se minimizó la
probabilidad de sesgos. En el ejemplo del estudio con un tensiómetro sin calibrar hablamos de
ausencia de validez interna. El estudio no es apto para sacar conclusiones adecuadas.
Se denomina “Validez externa” a la “Verdad más allá del estudio” (Generalizabilidad). Un estudio
presenta validez externa si las conclusiones pueden extrapolarse a la población en la que se desea
aplicar los resultados (Población blanco u objetivo) de la investigación. La validez externa es
solamente evaluable si el estudio tiene validez interna.
DISEÑOS EPIDEMIOLÓGICOS
Los diseños epidemiológicos se podrían definir como pasos ó el método de recolección de datos para la
describir ó analizar un problema de salud en la comunidad. Existen múltiples clasificaciones de diseños
epidemiológicos. Podríamos afirmar que hay tantas clasificaciones de diseños como autores de epidemiología
o metodología de la investigación existen dado que cada uno presenta alguna variante. La que vamos a
presentar es una de las clasificaciones epidemiológicas más “clásicas” y sólo por eso la elegimos. Se ha
clasificado a los diseños epidemiológicos de acuerdo a su objetivo en:
Estudios Descriptivos: el objetivo es identificar o describir características de una posible población.
No tienen una hipótesis inicial pero por el contrario son grandes generadores de hipótesis. Dentro de
este grupo se encuentran: los reporte de casos (case report), las series de casos, los estudios
ecológicos y los estudios transversales descriptivos (Ejemplos: Encuestas – “Surveys”).
Estudios Analíticos: El objetivo suele estar relacionado con analizar una hipótesis determinada para
lo cual se comparan dos o más grupos. Dentro de esta última categoría se reconoce una subclasificación de acuerdo al comportamiento del investigador. De este modo distinguimos entre
estudios experimentales, en los cuales el investigador interviene directamente provocando la
exposición de los sujetos y estudios observacionales, en los que el investigador únicamente observa
los efectos de las exposiciones que se producen naturalmente.
Se presenta la clasificación de diseños epidemiológicos en el siguiente cuadro:
Según Objetivo
DESCRIPTIVOS
ANALITICOS
Según el comportamiento
Tipos de Estudios
del investigador
Series de casos
OBSERVACIONALES
Estudios Ecológicos
Estudios Transversales descriptivos
Estudios de Cohorte
OBSERVACIONALES
Estudios de Casos y Controles
Estudios Transversales analíticos
Ensayos Clínicos Controlados
EXPERIMENTALES
Ensayos de Campo
Ensayos Comunitarios
El paradigma de la investigación científica es el experimento ya que existe un gran control sobre las
condiciones en las que se produce la exposición, lo cual permitirá tener mayor “seguridad” (no hay seguridad
con método estadístico) al intentar establecer una relación causal. Pero las limitaciones impuestas por la ética
y el costo restringen, a menudo, la investigación experimental. Probablemente no exista ninguna limitación
ética para someter a un grupo de pacientes a un nuevo antihipertensivo que, presumimos, mejorará su calidad
de vida; pero, difícilmente se podrá admitir que sometamos a un grupo de sujetos al consumo de tabaco para
determinar experimentalmente su relación con el cáncer de lengua.
Por el contrario, en los estudios observacionales, el investigador utiliza los grupos de sujetos que de forma
natural se generan en la sociedad: hay personas que fuman y personas que no fuman; o hay mujeres que
reciben terapia hormonal substitutiva y que no; o existen hombres con cáncer de pulmón y hombres sin cáncer
de pulmón. La duda, la gran duda que siempre tendremos ante un estudio observacional es si los grupos son
comparables: ¿las características de las mujeres que tratadas con terapia hormonal substitutiva son iguales a
las no tratadas?
Dentro de los estudios experimentales distinguimos a los ensayos clínicos controlados (los sujetos
participantes están enfermos), los ensayos de campo (los sujetos son sanos), y los ensayos comunitarios (en
los que la exposición se asigna a un conjunto de sujetos: ciudades, regiones). Por su parte, dentro de los
estudios observacionales distinguimos los estudios de cohorte (los grupos se forman en base a la presencia o
ausencia de la exposición) y los estudios de casos y controles (los grupos de sujetos se forman de acuerdo a
la presencia o ausencia de la enfermedad).
A continuación se describen algunos de los diseños más utilizados en investigación clínica.
Ensayos clínicos controlados
En un ensayo clínico controlado una muestra de sujetos con la condición de interés y generalmente sin el
evento que se intenta comparar, se distribuyen en por lo menos dos grupos: a uno se la administra la
intervención en estudio (expuestos) y al otro, que no recibe la intervención en estudio (no expuestos), a veces
se le administra otra intervención o placebo.
Ensayos Clínicos Controlados
Pacientes
con la
condición
y Evento
negativos
Intervención
Muestra
Incidencia en
Expuestos
=RR
Incidencia en
No Intervención No Expuestos
Asignación a grupos
Reclutamiento
Resultados
Seguimiento
Ejemplo: Para analizar si el uso de corticoides es efectivo para reducir la mortalidad en pacientes con distress
respiratorio del adulto se realizó un ensayo clínico controlado en el cual pacientes con distress (condición)
fueron asignados a recibir corticoides (intervención) o placebo (comparación) y luego del seguimiento durante
la internación se registró la situación final (evento=muerte).
En el caso del ejemplo, es muy claro que el evento es un “nuevo caso” dado que ningún individuo podría
haber ingresado si ya había fallecido. Pero en ciertos eventos como por ejemplo: “insuficiencia renal”,
deberíamos estar en condiciones de decir que es un “nuevo caso” sólo si al ingreso al estudio se midió que no
tenía el evento. Este aspecto es importante porque, como puede apreciar en el gráfico se calcula la incidencia
del evento en ambos grupos.
Incidencia es la proporción de individuos que desarrollan el evento durante el tiempo de observación.
¿Cuál es la utilidad de conocer la incidencia de una enfermedad o evento? La incidencia me dice cuál es la
probabilidad que una persona hoy sin el evento lo desarrolle dentro del período de tiempo definido por el sólo
hecho de pertenecer a esa población.
Ejemplo: si en un estudio para evaluar si el uso de medias elásticas es útil para disminuir el riesgo de
Trombosis Venosa Profunda (TVP) en pacientes en ARM se informó una incidencia de TVP a los 7 días del
2% en el grupo control y 1% en el grupo tratado, Ud. sabrá que, si sus pacientes en ARM son similares a los
del estudio tienen un riesgo del 2% de desarrollar TVP dentro de la semana si no se realiza intervención
alguna.
Aprovechamos para comentar que la forma habitual de informar los resultados es utilizando el Riesgo
Relativo (RR).
RR es el cociente entre la incidencia del evento en los expuestos y la incidencia en los no expuestos.
(observe la figura)
En los ensayos clínicos controlados donde se espera menor cantidad de eventos en los expuestos al
tratamiento el RR debiera dar un resultado menor que 1 (Ej: RR= 0,5). Estos conceptos se verán con más
profundidad más adelante.
El ensayo clínico controlado es un diseño experimental dado que es el investigador quien decide (por sí
mismo o por azar) si cada individuo va a estar expuesto o no a la intervención en estudio. Cuando los grupos
se forman utilizando el azar los ensayos clínicos controlados se denominan aleatorizados (o randomizados).
En esencia, es un verdadero experimento. El propósito de un experimento de laboratorio es la creación de
circunstancias en las que únicamente se varía un factor, lo cual permite asociar el cambio observado a ese
único factor que se ha modificado, por ejemplo, en física, el cambio de temperatura, presión o volumen.
No obstante, en ciencias biomédicas no intervienen únicamente tres propiedades controlables sino un número
muy superior de factores. La variabilidad de los individuos es la regla y no la excepción. Debemos tener en
cuenta un par de cuestiones. Primero, que no existen dos individuos iguales (variabilidad interindividual).
Esto significa que no hay dos individuos que ante un mismo estímulo respondan de manera idéntica. Es por
eso que se necesita investigar un número “adecuado” de sujetos, de forma que la respuesta medida es en
realidad la "respuesta media" de los sujetos que hemos estudiado. Segundo, que existen variaciones en el
estado de la salud de los sujetos que son cíclicas o enfermedades que son autolimitadas. Por eso es que se
hace necesario el disponer de un “grupo control” al que no se administra el tratamiento. Así podremos tener la
“seguridad” (con método estadístico no hay seguridad, sólo baja probabilidad de error), de que la diferencia
observada en la incidencia del evento de interés (outcome) entre ambos grupos se debe solo y únicamente a la
intervención.
Reflexionemos sobre un punto importante que puede causar confusiones. Se habrá dado cuenta que al grupo
de no intervención (o comparación) lo denominamos “grupo control”. Este detalle hace que muchos lectores
confundan un ensayo clínico controlado con un “Estudio de Casos y Controles”. Es importante resaltar que el
hecho de tener un grupo control sólo implica que hay un grupo contra el cual se comparan los resultados pero
no implica un diseño Caso-Control. Como verá más adelante este último diseño tiene características
particulares.
Estudios de cohorte
Los estudios de cohorte se pueden considerar ensayos clínicos en los que la condición de expuestos o no
expuestos de los sujetos no la decide el investigador, si no que son los mismos sujetos los que han elegido su
exposición. Esta elección puede ser directamente tomada por ellos o, en ocasiones por sus médicos. Así el
investigador, que ingresa cuando los grupos ya están formados, se limita a observar la evolución de los sujetos
para comparar la incidencia del evento de interés en expuestos y no expuestos.
De esta manera se puede considerar a los estudios de cohorte como un ensayo clínico que empiezan un poco
más tarde cuando ha finalizado la asignación a los grupos y por tanto los expuestos y no expuestos están ya
definidos.
Estudios de Cohorte
FR+
Poblacion
Evento Muestra
Negativos
=RR
FR-
Presente
Incidencia
Expuestos
Seguimiento
Incidencia No
Expuestos
Futuro
Por lo tanto, en un estudio de cohorte, un grupo de personas libres de enfermedad, algunas expuestas al factor
a investigar y otras no expuestas son seguidos a lo largo del tiempo. La incidencia de la enfermedad (casos
nuevos aparecidos durante ese período) se compara en los dos grupos.
Ejemplo: Para analizar si la condición de ser diabético se asocia con mayor riesgo de morir en pacientes con
neumonía grave adquirida en la comunidad (NGAC) se realizó un estudio de cohorte en el cual se incluyeron
pacientes con NGAC (condición) algunos de ellos eran diabéticos (expuestos) y otros no (no expuestos) y
luego del seguimiento durante la internación se registró la situación final (evento=muerte).
Nuevamente notará que en estos estudios la forma habitual de informar los resultados es el RR. En casos
donde se espera que los expuestos presenten más eventos el RR será mayor que 1 y se intentará identificar un
factor de riesgo (FR). Para que pueda entender las terminologías utilizadas en la literatura sería bueno aclarar
que algunos autores lo llaman factor pronóstico cuando la población estudiada tiene una condición
determinada (enfermos) y sólo se refieren a factor de riesgo cuando la población estudiada es “sana”.
Ejemplo: El tabaquismo es un factor de riesgo para enfermedad coronaria en población general y un valor <8
del score de Glasgow al ingreso es un factor pronóstico en pacientes con accidente cerebrovascular.
Por otro lado, en los estudios en los que se espera que los expuestos presenten menos eventos el RR será
menor que 1 y se estará buscando un factor de protección (FP).
Resumiendo:
RR > 1: indica que la exposición es a un FR para el evento.
RR < 1: indica que la exposición es un FP para el evento.
RR = 1: indica que no hay relación entre la exposición y el evento.
Los estudios de cohorte no son eficientes para estudiar la relación entre un factor de riesgo y una enfermedad
que tenga una incidencia muy baja, ya que esto implicaría seguir a un número muy elevado de sujetos durante
un período de tiempo prolongado.
Estudios de casos y controles
En los estudios de casos y controles se compara la exposición a la que estuvieron sometidas un grupo de
personas enfermas (casos) con la exposición sufrida por un grupo de personas sanas (controles). Por lo tanto,
el criterio para seleccionar la población en estudio es la presencia o la ausencia de la enfermedad, y no la
exposición como en los estudios de cohorte.
En los estudios de casos y controles se parte del evento y se va hacia atrás en la línea del tiempo, en la
búsqueda de la presencia o ausencia de una o varias exposiciones sospechosas; por lo que la secuencia
temporal del estudio es la inversa a la secuencia natural de la enfermedad, de ahí que algunos autores
denominen a estos estudios como retrospectivos.
Estudios de Casos y Controles
FR-
FR+
FR+
FR-
Pasado
Poblacion
Muestra Evento
Positivos
Poblacion
Muestra Evento
Negativos
Presente
Generalmente se recolectan todos los casos que se producen en un período de tiempo. Los controles deben ser
lo más parecido a los casos pero evento negativos, es decir que es recomendable que provengan de la misma
población hipotética de la que surgen los casos. O dicho de otra forma, los controles han de ser seleccionados
entre los que, de haber desarrollado la enfermedad, serían considerados como casos.
Ejemplo: Para analizar si el uso de dietiletilbestrol durante el embarazo de la madre aumenta el riesgo de
tumor de células claras de vagina en niñas menores de 12 años se realizó un estudio de casos y controles en el
cual se estudió a un grupo de niñas menores de 12 años con tumor de células claras de vagina (Casos) y por
otro lado a otro grupo de niñas que habían nacido en el mismo hospital y en la misma fecha pero que no
habían desarrollado dicho tumor (Controles). En ambos grupos se interrogó a la madre con la intención de
averiguar si había recibido dietiletilbestrol durante el embarazo de la niña (exposición).
En los estudios de casos y controles no es posible calcular incidencia del evento y tampoco prevalencia (ver el
significado más adelante) porque la relación caso/control la decide el investigador. Como no es posible
calcular incidencia, tampoco es posible calcular RR por lo que la manera habitual de presentar los resultados
en estos estudios es utilizando Razón de Productos Cruzados ó Razón de Momios ó, en inglés, Odds Ratios
(OR) que es una aproximación al RR.
Los estudios de casos y controles son muy sensibles a sesgos por la características de definir 2 poblaciones en
lugar de 1 (genera grupos no comparables). Sin embargo, son útiles cuando la frecuencia del evento es baja y
hace improbable la realización de un estudio de cohorte. Cuando la frecuencia del evento en la población es
baja el OR permite estimar (aproximarse) el RR de manera muy adecuada.
Estudios transversales (de corte transversal)
Los estudios transversales se caracterizan por realizar una única medición de las características de interés en
los individuos. Pueden ser descriptivos o analíticos.
Uno de los diseños transversales descriptivos habituales son estudios donde el objetivo es estimar una
prevalencia.
Prevalencia se refiere a la proporción de individuos de una población que tienen el evento en un
momento determinado sin importar si son casos nuevos o antiguos.
¿Cuál es la utilidad de conocer la prevalencia de una enfermedad o evento? La prevalencia me dice cuál es la
probabilidad que un individuo esté enfermo por el solo hecho de pertenecer a una población.
Ejemplo: Si le comentan que un paciente varón de 70 años con antecedente de hipertensión, tabaquismo y
dislipemia hace 6 meses que refiere dolor precordial opresivo al caminar 2 cuadras y que cede con el reposo.
Para Ud.: ¿Cuál es la probabilidad que el paciente tenga enfermedad coronaria? Seguramente pensó un
número superior al 95%. ¿De dónde salió? De la prevalencia de enfermedad coronaria en población de
varones de 70 años y con esos antecedentes. De alguna manera, si estudiara con cinecoronariografía a 100
varones con las mismas características 95 o más tendrían enfermedad coronaria.
En este caso es importante comentar que para considerar válidos a estudios de este tipo resulta muy
importante poder identificar la población que se intenta estudiar y posteriormente tomar una muestra
representativa de la misma. Es decir, en estudios de prevalencia es fundamental utilizar una muy buena
técnica de muestreo. Volveremos sobre este tema más adelante.
Los diseños transversales analíticos estudian la relación entre una serie de variables en una población (o en
una muestra) y la presencia de una determinada característica (p. ej. una enfermedad, un hábito, actitudes,
etc.). La mayor peculiaridad de este tipo de estudios, y que sirve para diferenciarlos de otros tipos de diseños,
es que todas las variables se valoran simultáneamente o en un corto periodo de tiempo. El hecho que se midan
simultáneamente todas las variables da lugar a su nombre, ya que se realiza un corte transversal en el tiempo y
valoramos todas las variables conjuntamente. A diferencia de los estudios de cohorte y de casos y controles,
en los que existe secuencia temporal entre la exposición y el evento, en los estudios transversales esto no
existe.
Por tanto, al no existir secuencia temporal, se dificulta aún más el establecimiento de relaciones causales.
Ejemplo: si se quiere analizar la relación entre el consumo de analgésicos y el riesgo de trastornos renales, y
se elabora un estudio transversal se medirá simultáneamente el consumo de analgésicos y la presencia de
trastornos renales (TR). Si se encuentra una relación entre consumo de analgésicos y TR, esta asociación se
puede deber a que los analgésicos aumentan el riesgo de TR o a que las personas que padecen TR consumen
más analgésicos debido al dolor.
Los estudios transversales, a pesar de esta importante limitación son muy frecuentes en la bibliografía ya que:
1. Pueden ser muy útiles como primera aproximación a un problema de salud, que posteriormente se a
analizará con mas profundidad con un estudio de cohorte.
2. También son utilizados cuando la variable de exposición es constante en el tiempo (grupo sanguíneo, sexo,
fecha de nacimiento, raza, características genéticas, antecedentes familiares de una enfermedad) ya que con
este tipo de variables es igual si la medida es simultánea con el evento ya que son previas al mismo y
constantes para un individuo.
3. Para realizar estudios meramente descriptivos: proporción de sujetos que presentan una determinada
característica en un momento dado (por ejemplo: proporción de vacunados contra hepatitis B, proporción de
fumadores, proporción de personal de enfermería que utiliza guantes al extraer muestras de sangre).
Similitudes entre los diseños epidemiológicos y distintas formas de mostrar imágenes:
Estudio Transversal: Fotografía, ya que es una imagen fija en el tiempo de lo que ocurre. Se valoran
todas las variables en un mismo momento.
Estudio de Cohorte: Vídeo mostrando las imágenes en la misma secuencia en la que ocurrieron: hacia
delante. Así partimos de la exposición y vamos hacia delante en el tiempo para valorar la presencia del
evento.
Estudio de Casos y Controles: Vídeo mostrando las imágenes en secuencia inversa a la que ocurrieron:
hacia atrás. Así partimos del evento y vamos hacia atrás en el tiempo para valorar la exposición.
Informes de casos y casos en serie
Se presentan como descripción de procesos poco frecuentes en la población. Hay 2 variantes de este tipo de
informes. La primera se suele presentar como la descripción de uno (case report) ó varios casos (menos de 30)
que se informan individualmente. Es común que se presente una tabla en la cual se describen las
características de cada caso en particular. Este tipo de informes no utiliza método estadístico. Notará en
material y métodos que no suelen tener criterios de inclusión ni de exclusión sino una simple descripción de la
muestra. El objetivo de informe, incluso puede ser simplemente “dar a conocer nuestra experiencia en...”. La
segunda variante se trata de una serie de casos pero que realizan un seguimiento. Son útiles para identificar
problemas de salud de nueva aparición, estudiar la historia natural de una enfermedad, nuevos efectos de
tratamientos aplicados e incluso para identificar posibles factores de riesgo. En algunos casos bien diseñados
las series de casos se parecen mucho a un estudio de cohorte pero sin el estudio específico de una exposición.
Es decir un único grupo y no expuesto y no expuesto que se comparan.
PASOS PARA REALIZAR UNA LECTURA CRITICA
La lectura crítica se basará en identificar posibles fuentes de sesgo por un lado (validez) e interpretar los
resultados estadísticos, por el otro.
Para evaluar críticamente un estudio con método estadístico (importante: sólo es útil para método estadístico)
puede analizar si los autores cumplieron con los pasos propuestos anteriormente, para lo cual requerirá:
1º) Identificar el o los objetivos y evaluar su coherencia con el diseño realizado
2º) Identificar la población blanco
3º) Analizar la representatividad de la muestra
4º) Evaluar si las mediciones son adecuadas
5º) Interpretar los resultados y conclusiones.
Los 4 primeros puntos se relacionan con analizar la validez del estudio y en el 5 solamente se evalúa la
probabilidad de error por azar.
1º) Identificar el o los objetivos y evaluar su coherencia con el diseño realizado
Un objetivo es una frase que inicia con un verbo en infinitivo en la que el investigador expresa qué
información se busca y en quienes.
En general, si el artículo no posee un apartado específico para objetivos, los mismos se encuentran en el
último párrafo de la introducción. Si no están allí, deberá leer la introducción entera, si a pesar de ello no pudo
encontrar un objetivo será tiempo de descartar el artículo.
Si encuentra un objetivo hay que evaluar si los mismos son precisos. Es decir, si leyendo el objetivo, puede
interpretar qué información buscaban los autores y en quienes se podrían aplicar las conclusiones del estudio.
Si no puede comprender qué quería estudiar el autor confíe en su sentido común y descarte el artículo. Es
frecuente, cuando no entendemos, pensar que nosotros no sabemos lo suficiente. El lenguaje científico debe
ser simple de tal manera que pueda interpretarse fácilmente. Si no puede entender el objetivo de un estudio los
responsables son los autores.
Si un objetivo es específico1 orienta directamente al diseño del estudio. Incluso leyendo solamente el verbo
inicial se puede imaginar qué tipo de estudio esperaría.
Por ejemplo: objetivos que comienzan con “identificar”, “estimar” ó “describir” hacen pensar en estudios
descriptivos, mientras que verbos como “analizar” indican que se va a testear una hipótesis y lo lógico es
pensar en un estudio analítico.
Podrá evaluar si el diseño elegido por los autores es adecuado al objetivo. También le recomiendo elegir leer
sólo aquellos diseños que mejor se adaptan a estudiar el problema que lo llevó a buscar información.
Ejemplo: si está buscando información sobre la eficacia de un tratamiento y se encuentra con 2 estudios de
casos y controles, 6 estudios de cohorte y 1 ensayo clínica controlado aleatorizado: ¿Leería los
observacionales? Posiblemente lo correcto sea elegir leer sólo el ensayo clínico.
Es interesante comentar que cada vez más frecuentemente se coloca el diseño en el título del informe
científico.
2º) Identificar la población blanco
Población blanco u objetivo es aquella sobre la que se quiere aplicar (generalizar) los resultados de una
investigación. Si el informe científico no posee un apartado especial que se denomine población o sujetos de
investigación, generalmente se la puede encontrar en el primer párrafo de material y métodos. Si no la
encuentra allí ni en todo material y métodos, será buen momento para descartar el artículo.
La población blanco se define utilizando criterios de inclusión y de exclusión. Los criterios de inclusión son
las características específicas que mejor definen a la población blanco. Dichas características pueden ser
clínicas (diagnósticos, complicaciones, etc...) o demográficas (edad, sexo, raza, etc..). Los criterios de
exclusión se utilizan por 2 motivos principales:1) para controlar variables: se utilizan para dejar fuera del
estudio a algunos individuos con ciertas características que podrían modificar los resultados. 2) por motivos
éticos: es por esta razón que en la mayoría de los ensayos clínicos se excluye a embarazadas, deficientes
mentales y menores de edad cuando no son la población específicamente en estudio.
Se deberá preguntar si la población definida, acorde a los criterios de inclusión y exclusión, es coherente con
la identificada en el objetivo.
Ejemplo de ausencia de coherencia entre la población del objetivo con la población blanco:
Imagine que está leyendo un estudio en el siguiente objetivo: “Analizar si la ausencia de fiebre se relaciona
con mayor riesgo de morir en pacientes con neumonía severa adquirida en la comunidad (NGAC)”.
Sólo con sentido común lo que Ud. se espera que los investigadores realicen es tomar una muestra de una
población de pacientes con NGAC y que compare la mortalidad en el grupo con fiebre versus el grupo sin
fiebre.
Si continúa leyendo y los autores describen como criterios de inclusión a pacientes con NGAC y fiebre (todos
los individuos de la muestra van a tener fiebre) será lógico pensar que no es coherente la población del
objetivo con la descripta en métodos.
3º) Analizar la representatividad de la muestra
Un aspecto fundamental es analizar el sitio donde se realizó el estudio (ámbito). Este aspecto está relacionado
con lo que se denomina “Población accesible” que es el subconjunto de la Población Blanco que se encuentra
disponible para el investigador. Se define agregando a los criterios anteriores las características geográficas y
temporales (dónde y cuándo se tomó la muestra). A los fines de la redacción del trabajo pueden haberlas
colocado como criterios de inclusión. Es importante resaltar que de acuerdo al lugar en el que se realiza la
investigación, puede ocurrir que la población accesible no sea “valida” para sacar conclusiones sobre toda la
1
Los informes científicos pueden tener objetivos generales que explicitan lo que se espera lograr con el
estudio en términos de conocimiento y objetivos específicos que son la descomposición y secuencia lógica del
objetivo general y de alguna manera son un anticipo del diseño de la investigación.
población blanco. En este caso, posiblemente las conclusiones queden limitadas a la población accesible y/o
a poblaciones muy similares a la población accesible. En otras palabras podemos decir que el estudio no tiene
suficiente validez externa.
Ejemplo: el objetivo del estudio es “Estimar la proporción de pacientes con neumonía adquirida en la
comunidad (NAC) que presentan fracaso del primer tratamiento antibiótico”. El estudio se realizó utilizando
pacientes con NAC internados en un centro de alta complejidad que recibe muchas derivaciones.
Pregunta: ¿Esa población accesible le parece representativa de la población blanco a la que se pretende
extrapolar los resultados?
Posiblemente las conclusiones sirvan para saber la proporción de pacientes “internados” con NAC que
presentan fracaso en el primer tratamiento antibiótico en el centro en cuestión o, a lo sumo, en centros de alta
complejidad similares al del estudio, pero sería poco recomendable extender las conclusiones a toda la
población de pacientes con NAC.
Limitaciones en estudios estadísticos se refiere a posibles errores que no pudieron evitarse con la metodología
utilizada pero que a pesar de ello se pueden utilizar las conclusiones en determinadas circunstancias. Es decir
es un sesgo que no invalida totalmente el estudio sólo limita las conclusiones. Es frecuente encontrar en la
discusión una frase que diga: “las limitaciones del presente estudio son las siguientes...”. Ud. puede leer: “Los
sesgos que no pudimos evitar son los siguientes...”.
Muchas veces los estudios se realizan en centros de salud específicos que presentan poblaciones accesibles
“seleccionadas” de acuerdo a las características propias del mismo. No es lo mismo pacientes en una sala de
primeros auxilios, en un hospital de baja complejidad que en uno de alta complejidad. Siempre deberá
establecer qué tan diferentes serán los individuos del estudio respecto a sus propios pacientes.
Otro aspecto a tener en cuenta para evaluar la representatividad de la muestra es cómo se tomó la misma. En
estudios clínicos la forma más frecuente es lo que se denomina “Muestra Consecutiva” que incluye a
“todos” los sujetos que cumplen con los criterios de definición de población durante el período de tiempo y en
el lugar o lugares donde se realizó el estudio.
Ejemplo: Una muestra consecutiva de pacientes con crisis asmáticas que consultan al servicio de emergencias
de un hospital incluirá a “todos” los que cumplan con la definición establecida para crisis asmática que se
atendieron durante el período de tiempo que duró el estudio. Si sólo se ingresaron los primeros 2 pacientes de
cada día, esa muestra no es consecutiva. Es una muestra seleccionada porque podría ocurrir que los 2
primeros presenten diferentes características al resto de los pacientes y es posible fuente de sesgo.
Las muestras consecutivas se consideran válidas para sacar conclusiones porque de alguna manera, intentan
incorporar a la totalidad de la población accesible.
Cuando no se estudia a toda la población accesible, el requisito básico para la representatividad de una
muestra es que debe ser tomada al azar, utilizando “Muestreo Aleatorio”. De alguna manera, implica utilizar
algún método que se parezca a un sorteo. Los autores deben describir la técnica que utilizaron para lograr una
muestra aleatoria (Ej: tablas de números aleatorios que se relacionaron con número de historia clínica ó
número de documento). En los estudios que buscan conocer una prevalencia la definición de la población y el
muestreo aleatorio se convierten en aspectos fundamentales para aceptar la validez del estudio.
Un error habitual en estudios con muestreo aleatorio es utilizar la sustitución de individuos cuando no pueden
ubicar al que salió sorteado. Esto es metodológicamente incorrecto.
Ejemplo: Los autores buscaban estimar la prevalencia de tabaquismo en los médicos del hospital XX. La
población blanco era entonces “todos los médicos del hospital XX”. Ahora bien, como era lógico, los
investigadores buscaron en “Personal” un listado de médicos del hospital. Se les otorgó una lista ordenada por
servicios con 400 profesionales “rentados” que se convirtió en la población accesible a los investigadores. Si
había profesionales no rentados, quedaron fuera de la muestra. Este aspecto ya limitaba las conclusiones del
estudio (perdieron validez externa). Para obtener una muestra de 120 profesionales que eran los necesarios
para su estudio, los autores realizaron un muestreo aleatorio simple (sorteo) para decidir cuáles de los 400
iban a buscar para encuestar. Identificaron de esta manera a 120 profesionales que denominaremos “muestra
teórica”. Cuando fueron a buscar a los elegidos por azar resultó que 10 de ellos ya no trabajaban en el
hospital XX. Para lograr el número adecuado los investigadores simplemente los reemplazaron por el
siguiente de la lista de 400 profesionales. La “muestra real” obtenida de esta manera fue metodológicamente
incorrecta porque utilizaron sustitución (perdieron validez interna). El método correcto era prever que un
porcentaje de la muestra teórica no iba a poder encuestarse. Por lo tanto, si hubieran elegido por sorteo un
número mayor a 120 para la muestra teórica de tal manera que la muestra real fuera lo más cercano al número
calculado a pesar que algunos profesionales no fueran encontrados, la metodología habría sido correcta.
De todas formas, si la muestra real es menos del 80% de la teórica la validez interna se ve afectada. Un
elemento muy importante en las encuestas es la tasa de respuesta. Todos los invitados a participar serían la
muestra teórica, pero no todos contestaron la encuesta, la muestra real es más chica. Si los autores no
informan la tasa de respuesta ó la misma es menor al 60% debería provocar que Ud. descarte el artículo que
está leyendo.
4º) Evaluar si las mediciones son adecuadas
En un estudio con método estadístico se realizan mediciones de variables en los individuos de la muestra. Las
Variables son propiedades que miden diferente en los integrantes de una Población. Es suficiente con que en
diferentes individuos de una población una propiedad pueda admitir al menos 2 posibilidades (valores) para
que sea considerada variable. Por lo tanto, el hecho que una propiedad sea variable o constante está
relacionado con la definición de población.
Ejemplo: Si la población en estudio es “niños de ambos sexos, entre 2 y 12 años con diarrea aguda”: la
propiedad sexo es una variable porque puede adoptar al menos 2 valores diferentes en los individuos de la
población (femenino o masculino). Pero si se cambia la definición de población a “niñas entre 2 y 12 años
con diarrea aguda” la propiedad sexo se transforma en constante puesto que sólo admite un valor en dicha
población (femenino).
Los investigadores registran dos tipos de variables las que está estudiando (suelen ser las nombradas en el
objetivo) y otras que no se están estudiando pero, por estar relacionadas con ellas podrían modificar los
resultados y por eso debe “controlarlas”. Para toda variable que se registra en un estudio los autores deben
describir con qué método, técnica o definición lo realizaron.
Si no encuentra la descripción de las técnicas o definiciones que utilizaron los autores para medir las variables
en el apartado “material y métodos” será buen momento para descartar el artículo.
Se debería pedir que los instrumentos de medición utilizados sean confiables2 y validos3. Si una medición no
es reproducible, si cada vez que mido al mismo individuo me da un valor muy diferente no es posible sacar
conclusiones para la población con las mediciones que obtuve en la muestra. Si el instrumento no es válido,
¿cómo interpreto los resultados?
Algo similar ocurre con las definiciones. Definir es aclarar lo que una cosa es. Explicar el significado de un
término. Generalmente se requiere que un término teórico como insuficiencia cardíaca, por ejemplo, sea
definido. Un término teórico es aquel que designa objetos pertenecientes a teorías científicas y que admite ser
observado sólo indirectamente. Para poder observarlo necesitamos de reglas de correspondencia que permitan
asociar lo teórico con lo empírico (lo observable directamente). Desde el punto de vista de la definición, estas
reglas se denominan “definiciones operacionales”. No cualquier definición es apta para realizar mediciones.
Ejemplo: lea las siguientes definiciones de Insuficiencia cardíaca:
a) Reducción de la función cardíaca de tal modo que las necesidades metabólicas de los tejidos no se cubren
durante el ejercicio o, en estados más graves, en reposo.
b) Historia personal de disnea de esfuerzo con la presencia de al menos 2 de los siguientes signos:1) Edema
2
Se considera que un instrumento de medición es confiable cuando es reproducible la medición. Se establece
realizando varias mediciones en el mismo individuo. Se suele informar como la variabilidad intra y
extraobservador.
3
Se considera que un instrumento de medición es válido si mide lo que pretende medir. Se suele informar la
sensibilidad y especificidad del método. Si el método está aceptado por la comunidad científica como método
de referencia (Gold Standard) es válido.
de miembros inferiores. 2) Ingurgitación yugular. 3) Rales crepitantes bilaterales. 4) Tercer ruido.
La definición (a) corresponde a una definición por connotación convencional4. Es útil en el marco de la
docencia de estados patológicos puesto que corresponde a la explicación según la teoría fisiopatológica
vigente, pero no como regla para medir insuficiencia cardíaca en individuos de una muestra en una
investigación.
La definición (b) es una definición operacional. Permite traducir un término teórico en observaciones
empíricas. Este es el tipo de definición que se debe utilizar para medir variables. Si medita sobre el tema se
dará cuenta que la mayoría de los criterios diagnósticos en ciencias de la salud son definiciones operacionales.
Si las variables que encuentra en material y métodos se miden con instrumentos no validados o las
definiciones que utilizan no son operacionales, sería conveniente que descarte el estudio.
5º) Interpretar los resultados y conclusiones.
Ya explicamos que al utilizar método estadístico se pretende conocer lo que está pasando en una determinada
población pero abordando un subconjunto de la misma que denominamos muestra. El análisis de los datos
obtenidos en las mediciones de las variables permite obtener resultados.
Ejemplo: para estimar prevalencia de tabaquismo en población de médicos del hospital XX se obtuvo una
muestra aleatoria en la cual se midió la situación de fumador mediante una encuesta (las respuestas de los
profesionales fueron los datos obtenidos). El análisis de todos los datos permitió obtener el siguiente
resultado: “el 50% de los entrevistados fumaba”.
El resultado en una muestra puede ser por azar (recuerde el error aleatorio), para poder realmente hablar de la
población lo que se requiere es saber en cuánto se pudieron equivocar los autores sólo por azar o, dicho de
otra manera cuál es la probabilidad de cometer un error para el tamaño de muestra que utilizaron. Si recuerda
las características del error aleatorio observará que el mismo disminuía al aumentar el tamaño de la muestra.
Por lo tanto es lógico pensar que con “muestras grandes”5 la probabilidad de error es baja.
Para poder realizar el “salto” de los resultados en la muestra a lo esperado en la población es que se requiere
de análisis estadístico. Es decir, para poder extraer conclusiones6 sobre la población. Los procesos más
frecuentemente utilizados son la estimación y la inferencia.
Estimar el valor de una determinada propiedad o variables en la población blanco es casi “adivinar” lo que
está pasando con la misma utilizando la información de la muestra. Para aplicar esta metodología es necesario
que la muestra sea representativa de la población y que el muestreo sea aleatorio.
El método de estimación habitualmente utilizado es informar intervalos de confianza (antiguamente se
informaba el error estándar).
Los intervalos de confianza se calculan utilizando fórmulas para un nivel de confianza elegido por los
investigadores que frecuentemente es del 95%. El intervalo se construye sumando y restando al valor
obtenido en la muestra un valor que refleja cuánto error puede haber sólo por azar.
Lo podemos asimilar a una manera “matemática” de realizar 100 investigaciones habiendo efectuado sólo
una. Esto quiere decir que, para un nivel de confianza de 95%, los valores del intervalo obtenido se relaciona
con el siguiente concepto: Si se realizaran 100 investigaciones del mismo problema tomando muestras del
mismo tamaño de la misma población, 95 de esas 100 veces el valor obtenido en las muestras se encontrarán
dentro del intervalo. Por lo que la interpretación final sería: tengo 95% de confianza que el verdadero valor de
la población se encuentra en algún lugar dentro del intervalo (tengo un 5% de probabilidades de que esté fuera
del mismo o, dicho de otra forma 5% de probabilidad de error).
En el calculo se incluye el error estándar que es mayor cuanto menor es el tamaño de la muestra. Es decir que,
a mayor tamaño de la muestra más pequeño será el intervalo. Se puede calcular para diferentes estadísticas
(Ej: proporciones o porcentajes, promedios ó medias, etc..). La fórmula para cada uno es diferente pero la
4
Se denominan definiciones por connotación convencional cuando se llega a un acuerdo (convención) de cuál
es el significado aceptado para la comunidad científica.
5
El tamaño adecuado para la muestra se debe calcular previo a realizar el estudio y debe especificarse en
material y métodos del informe. El “grande” o “chico” de una muestra no tiene un número mágico que sirva
para cualquier estudio.
6
Conclusiones son la respuesta al objetivo sobre la base de los resultados.
interpretación es siempre igual. Acorde a los resultados de la muestra tiene un 95% de confianza que el valor
que se intenta estimar en la población se encuentra en alguno de los comprendidos dentro del intervalo.
Ejemplo: Se realizó un estudio para estimar la mortalidad intrahospitalaria en pacientes internados con
Neumonía adquirida en la comunidad (NAC). En la muestra el resultado fue 5% de mortalidad. Se calculó el
Intervalo de confianza para el 95% y el resultado fue 4%-6%.
Interpretación: se puede afirmar con 95% de confianza que el verdadero valor de mortalidad en esta población
se encuentra en algún valor comprendido entre 4 y 6%.
Es importante resaltar que el “ancho” del intervalo será importante al momento de decidir si es útil la
información del estudio. Al analizar un intervalo de confianza deberá preguntarse si el resultado es
“clínicamente útil”.
Ejemplo: Se realizó un estudio para estimar la mortalidad intrahospitalaria en pacientes internados con
Neumonía adquirida en la comunidad (NAC). En la muestra el resultado fue 5% de mortalidad. Se calculó el
Intervalo de confianza para el 95% y el resultado fue 0,000001%-60%.
Interpretación: se puede afirmar con 95% de confianza que el verdadero valor de mortalidad en esta población
se encuentra en algún valor comprendido entre 0,000001% y 60%. Seguramente esto Ud. Ya lo sabía sin
necesidad de leer el artículo.
Inferencia es el proceso de formular conclusiones sobre la población a partir de los datos de una muestra
cuando se relacionan variables, por ejemplo cuando se comparan diferentes grupos.
Cuando se comparan 2 ó más grupos ya sabemos que los resultados pueden ser diferentes sólo por azar.
Ejemplo: Se encontró un 23% de complicaciones en el grupo I y un 40% en el grupo II. Sólo con esos
resultados: ¿Podemos afirmar que es mejor el grupo I?. La respuesta es NO porque necesito saber cuál es la
probabilidad que la diferencia sea por azar.
Los autores del estudio le informan esa probabilidad al aplicar test estadístico y calcular un valor de “p”.
“p” es la probabilidad que la diferencia encontrada entre los grupos en la muestra se deba al azar.
Cuando la probabilidad de azar es alta, se decide adjudicar al azar la diferencia y verá que le informas
“diferencias estadísticamente no significativas”.
Ejemplo: Se encontró un 23% de complicaciones en el grupo I y un 40% en el grupo II. (p=0,49). Significa
que tengo 49% de probabilidades que la diferencia se deba al azar. Por lo que la conclusión será que la
diferencia es estadísticamente no significativa.
Cuando la probabilidad de azar es tan baja que hace lógicamente difícil adjudicar a él la diferencia, se toma la
decisión que la “diferencia es estadísticamente significativa” lo cual significa que adjudica dicha diferencia
entre los grupos a diferencias que provienen de la población (no del azar).
Ejemplo: Se encontró un 23% de complicaciones en el grupo I y un 40% en el grupo II. (p=0,0001). Significa
que tengo 0,01% de probabilidades que la diferencia se deba al azar. Por lo que la conclusión será que la
diferencia es estadísticamente significativa (la probabilidad que se deba al azar es mínima).
Ahora, ¿cuándo es baja la probabilidad de azar? Los investigadores deben decidir el punto de corte que
denominan “nivel de significación” y, que habitualmente es 0,05. De tal manera que los valores de “p”
inferiores a ese valor se consideran “significativos”. En algunos casos pueden elegir un nivel de significación
de 0,01. Generalmente la decisión de qué punto de corte utilizan debiera basarse en cuánto daño se puede
provocar si se toma una decisión equivocada.
SEGUNDA PARTE: Introducción a Medicina Basada en la Evidencia. La pregunta clínica y la
búsqueda bibliográfica.
Autores: Marina Khoury1.Marcelo García Dieguez2.
1. Médica. Concurrente del Centro de Investigaciones Epidemiológicas. Academia Nacional de Medicina.
Buenos Aires. Argentina.
2. Médico. Hospital “Dr. Felipe Glasman” de la Asociación Medica de Bahía Blanca. Bahía Blanca.
Argentina.
Antes de leer el presente capitulo le sugerimos contestar estas preguntas y volver sobre ellas luego de
terminar
1.-Cuando tiene dudas sobre sus enfermos que método de obtención de información utiliza (ordenar de los
mas usados a los menos usados
Lee libros de texto generales
Lee libros de texto especializados
Recurre a su archivo bibliográfico
Realiza pedidos bibliográficos en la biblioteca
realiza pedidos bibliográficos a otros colegas
consulta la opinión a otros colegas
2.- Ud. accede a revistas medicas (puede marcar mas de una respuesta)
A
Recibir suscripciones propias
B
Leer periódicamente algunas en una biblioteca
C
Fotocopias de artículos
QUÉ ES MEDICINA BASADA EN LA EVIDENCIA?
La Medicina Basada en la Evidencia (MBE); en Ingles, Evidence Based Medicine (EBM), representa el uso
racional, explícito, juicioso, y actualizado de la mejor evidencia científica aplicada al cuidado y manejo de
pacientes individuales.
La práctica de MBE requiere la integración de la experiencia clínica individual con la mejor evidencia clínica
externa derivada de los estudios de investigación sistemática. Esta integración resulta de un delicado balance
entre estos dos tipos de experiencia. Sin experiencia clínica, la práctica médica corre el riesgo de ser sólo un
proceso de decisiones automatizadas basadas en la evidencia externa, y sin esta última, la práctica médica se
vuelve rápidamente obsoleta, en perjuicio del paciente.
La " práctica basada en la evidencia" pretende cuidar aplicando la integración de:
- la habilidad para la práctica profesional (la experiencia profesional)
- la mejor evidencia externa (investigación)
- la elección del propio paciente (preferencias/valores de los pacientes).
Este modelo básicamente prescriptivo más que descriptivo de cómo se toman las decisiones. La mayor parte
de los estudios muestran que las preferencias de los médicos tienen la mayor preponderancia en las
decisiones. Enfrentados a pacientes críticos con similares circunstancias diferentes médicos toman diferentes
decisiones. Un modelo recientemente propuesto por Guyatt y Haynes insiste sobre el peso de las preferencias
del pacientes y las circunstancias y el estado clínico como los dos elementos a contrastar con al evidencia de
investigación. La experiencia clínica seria el factor para integrar estos elementos:
Estado clínico y
circunstancias
Experiencia
clínica
Preferencias del
paciente
Evidencia
Externa
La práctica de MBE es un proceso de aprendizaje continuo y de disciplina personal que se origina en la
necesidad de responder preguntas relacionadas al diagnóstico, pronóstico y tratamiento, y a otros aspectos
clínicos importantes inherentes al manejo de los pacientes.
La metodología de “Medicina Basada en la Evidencia” puede resumirse en los siguientes pasos:
1. Transformar la información requerida en preguntas que puedan ser respondidas.
2. Definir una estrategia de búsqueda de información.
3. Evaluar en forma crítica la validez y aplicabilidad de los artículos recuperados.
4. Aplicar los resultados de la búsqueda en la práctica asistencial.
Una de las ventajas principales de la estrategia es que brinda información científica válida con ahorro de
tiempo. La MBE provee los instrumentos necesarios para vencer estas limitaciones mediante la búsqueda
sistemática de literatura, la evaluación crítica de los artículos relevantes y la decisión de cómo la evidencia
puede aplicarse a pacientes particulares. La MBE debe aplicarse dentro del contexto de buen juicio clínico
que facilite el manejo de pacientes individuales que pueden ser diferentes de aquellos pacientes randomizados
en estudios de investigación.
Las principales limitaciones de la MBE se pueden resumir en los siguientes puntos:
• No toda la información publicada está disponible
• No todos los problemas tienen suficiente evidencia para ser respondidos
• El profesional requiere de entrenamiento para dominar la metodología.
¿Qué “NO ES” MBE?
En base a la experiencia de “medicina basada en la evidencia” se puede aclarar que cosas “NO ES” una
práctica basada en la evidencia:
• No es una vieja fórmula imposible de practicar: requiere convicción el implementarla pero es posible
de lograr.
• No es un “libro de cocina": Porque requiere un abordaje que integre la mejor evidencia externa con
la experiencia clínica individual. La decisión no puede quedar esclavizada a una receta cuando se
trata del cuidado de un paciente en particular. La evidencia clínica externa puede informar, pero
nunca puede reemplazar, la experiencia clínica individual, y esta última es la que decide si la
evidencia externa se aplica al paciente. Por otro lado, cualquier pauta externa debe integrarse con la
experiencia clínica individual decidiendo cómo se adapta la misma al estado clínico del paciente y
sus preferencias y así debe aplicarse.
• No es una fórmula para disminuir costos: Algunos temen que la práctica basada en la evidencia será
secuestrada por financiadores y gerentes para recortar costos en el cuidado de la salud. Éste no sólo
sería un mal uso de la misma sino que haría pensar en errores por sus consecuencias financieras. La
práctica basada en la evidencia identifica y aplica las intervenciones más eficaces para optimizar la
calidad y cantidad de vida de los pacientes individuales; esto puede aumentar en lugar de disminuir
los costos en salud.
• No es exclusivamente ensayos clínicos aleatorizados: Involucra la búsqueda de la mejor evidencia
externa disponible para contestar nuestras preguntas clínicas. No todas las preguntas se pueden
responder con ensayos clínicos y a veces la mejor evidencia puede surgir del reporte de un solo caso
o de la investigación básica pero cumplen con la función de ayudar a la toma de decisiones.
LA PREGUNTA CLÍNICA
El primer paso de la estrategia consiste en formular bien una pregunta. Esto consiste en convertir las
necesidades de información que surgen durante el encuentro clínico en una pregunta, simple y claramente
definida, que nos permita encontrar los documentos que satisfagan nuestro interrogante.
Una buena pregunta debe cumplir ciertas características:
• Ser relevante al problema que se maneja.
• Estar armada para facilitar el enfoque de la búsqueda.
• Facilitar una respuesta precisa.
¿Se hacen estas preguntas los médicos?.
Diferentes investigaciones han mostrado que las preguntas surgen con frecuencia si uno se lo propone. La
proporción es tan variable como 1 pregunta cada 15 pacientes hasta 1 pregunta cada 1 ó 2 pacientes en la
atención ambulatoria, y 5 preguntas por paciente en internación.
Se requiere de entrenamiento para reconocer cuando surgen y para saber cómo articularlas con el fin de
mejorar la práctica clínica. El médico debe estar listo para reconocer las brechas de conocimiento mientras
asiste una situación de salud. Debe cambiar la ansiedad o miedo a la incertidumbre por la generación de sus
dudas en formas de preguntas que puedan ser respondidas por los resultados de investigaciones previas.
Pueden surgir en cualquier momento del ejercicio de la profesión.
La mayoría de las preguntas se refieren a
• Hallazgos clínicos:
¿Cuál es el significado de un hallazgo del examen físico o el interrogatorio?
• Etiología o Daño:
¿El cuadro que presentó el paciente puede deberse a la medicación que recibió?
• Manifestaciones clínicas de una enfermedad:
¿Cuán frecuentemente una enfermedad determina la presencia de un trastorno?
• Pruebas Diagnósticas:
¿Cómo seleccionar e interpretar un test diagnóstico?
• Pronóstico:
¿Cómo anticipar la evolución natural de la enfermedad de los pacientes?
• Terapéutica:
¿Cómo seleccionar tratamientos más útiles que dañinos?
• Prevención:
¿ Cómo reducir la probabilidad de una enfermedad?
Hay preguntas de conocimiento básico sobre una enfermedad o situación. Estas preguntas de tipo general
tienen dos componentes:.
1. Un interrogante (quién, qué, cuándo, cómo, por qué) con un verbo.
2. Afección, aspecto de una situación.
Por ejemplo: "¿Qué enfermedades se relacionan con el hepatocarcinoma?" Estas preguntas cubren un amplio
rango de conocimientos.
En la práctica diaria nuestras preguntas son generalmente más "actuales", son preguntas específicas. Se
refieren a un conocimiento específico de manejo del problema del paciente o situación de salud.
La "Anatomía" de este tipo de pregunta incluye:
1. Sujeto (población).
2. Intervención principal o Exposición (siempre se relaciona directamente con lo que genera el interrogante).
3. Comparación si corresponde.
4. Resultados clínicos de interés (Evento).
Por ejemplo: "¿Pacientes con hepatitis crónica activa (sujeto) tratados con droga X (intervención) comparado
contra Placebo (comparación) tienen menor probabilidad de desarrollar hepatocarcinoma (resultado o
evento)?".
Este tipo de pregunta cumple con las características de facilitar la estrategia de búsqueda como veremos más
adelante y de tener fácil respuesta (SI o NO).
¿Cómo lograr una buena pregunta clínica?
Puede ayudar que preste atención a los temas más relevantes. No es raro que la primer pregunta que se nos
plantee sea amplia y contenga en realidad varios interrogantes en una única frase. Siempre evite la "pregunta
detrás de la pregunta". Pregúntese si el interrogante tiene una única respuesta o una lista de posibilidades.
Por ejemplo: "¿Debo mantener la anticoagulación de mi paciente después de los tres meses? Al leer esta
pregunta se nos ocurre que hay varias preguntas detrás: ¿comparado contra qué? ¿Para evitar qué?
En realidad es mejor formularla de la siguiente manera:
"¿En pacientes con trombosis venosa proximal, la anticoagulación por un periodo de tres meses comparado
con periodos mayores de tratamiento tiene diferencia en la prevención de Tromboembolismo de Pulmón por
sobre el riesgo de sangrado?
Piense a qué aspecto está orientada su pregunta (terapéutica, diagnóstico, pronóstico o daño) y no deje de
revisar si todos los 4 componentes están (sujeto, intervención, comparación y resultado) y si son adecuados a
sus necesidades.
Ejemplo: Analicemos los componentes de la pregunta anterior: "¿En pacientes con trombosis venosa
proximal, la anticoagulación por un periodo de tres meses comparado con periodos mayores de tratamiento
tiene diferencia en la prevención de Tromboembolismo de Pulmón por sobre el riesgo de sangrado?.
Podemos identificar los cuatro componentes?
Población: “pacientes con trombosis venosa proximal”
Intervención: anticoagulación por un periodo de tres meses
Comparación: anticoagulación por periodos mayores a tres meses
Resultados: prevención de tromboembolismo de pulmón y riesgo de sangrado.
A qué aspecto está orientada la pregunta?: Esta pregunta es de terapéutica.
Siempre que realice preguntas de terapéutica piense en resultados relevantes para sus pacientes. No es igual
preguntarse si un antihipertensivo logra normalizar la presión en pacientes hipertensos moderados que
preguntarse si logra reducir la mortalidad en dicho grupo. Si le entregan 15 estudios que comparan la presión
arterial luego de 6 meses de seguimiento en grupo tratado contra el control y 2 artículos que le presentan lo
mismo pero además la mortalidad luego de 6 años de seguimiento: va a leer los 17 artículos o elige leer sólo
los 2 últimos? Recuerde que buscará información para una mejor práctica clínica y la lectura crítica
comienza con la búsqueda bibliográfica. En otras palabras si hace una pregunta que incluya un resultado
clínicamente relevante como mortalidad y utiliza esa pregunta como base para la búsqueda bibliográfica, de
alguna manera está diciendo que sólo va a leer artículos que evaluaron mortalidad y dejará de lado aquellos
que evaluaron resultados intermedios exclusivamente (como la normalización de la presión).
Ejemplo: busquemos los componentes de esta pregunta: “En pacientes con disnea súbita es útil el
centellograma V/Q para el diagnóstico de tromboembolismo pulmonar (TEP) comparado con la Arteriografía
Pulmonar?”
Población: Pacientes con diseña súbita
Intervención o Exposición: Centellograma V/Q
Comparación: Arteriografía Pulmonar
Resultado: diagnóstico de TEP.
A qué aspecto está orientada la pregunta?: En este caso la pregunta la clasificamos como de diagnóstico.
Puede ser de utilidad reconocer que el componente “Intervención principal o Exposición” siempre se
relaciona directamente con lo que genera el interrogante. Se podría considerar el “corazón de la pregunta”. En
el ejemplo de terapéutica la duda está acentuada en el tiempo de la anticoagulación, en la pregunta sobre
diagnóstico sobre la utilidad del centello, etc...
Ejemplo: Si analizamos la siguiente pregunta: “En pacientes con neumonía severa adquirida en la comunidad
(NACS), el hecho de ser diabético le aumenta el riesgo de morir durante la internación?” En este caso los
componentes serán:
Población: Pacientes con NACS
Intervención o exposición: ser diabetico
Comparación: “no diabético”.
Resultado: mortalidad o muerte intrahospitalaria. (puede buscar sinónimos del resultado que identificó).
A qué aspecto está orientada la pregunta?: Esta pregunta es de pronóstico.
En ocasiones como en el ejemplo anterior la comparación no está explícita en la pregunta pero es lógico
comparar contra la “no exposición” al factor que genera el interrogante.
Ejemplo: Suponga que ayer le indicó un antibiótico X a un paciente internado por NACS y varias horas
después de la primer dosis el paciente presenta un cuadro eritrodérmico. Ud. Se pregunta: Será el antibiótico
X el motivo del cuadro que presenta el paciente?. Este medicamento puede ser la causa (etiología) de este
daño?. El razonamiento es lógico pero hay preguntas detrás de la pregunta. Qué le parece redactarla así: En
pacientes con NACS el recibir el antibiótico X se asocia con Eritrodermia? Busquemos los componentes:
Población: Pacientes con NACS
Intervención o exposición: antibiótico X
Comparación: “no recibir el antibiótico X”.
Resultado: eritrodermia.
En este caso la pregunta es de etiología o daño.
Cuando la comparación de una pregunta que tiene una droga como intervención no es explícita deberá decidir
si quiere poner “placebo” como grupo comparación. Eso deberá decidirlo acorde a la pregunta que está
realizando y ver si realmente quiere identificar estudios que compararon contra placebo exclusivamente.
¿Qué pasa si surgen muchas preguntas?
Todo paciente con una enfermedad no podrá presentar una o más preguntas en cada dominio, cómo hacer en
estas circunstancias, pruebe los siguientes:
1°¿Cuál es la mas importante para mi paciente en este momento?
2°¿Qué es lo que debo hacer primero?
3°¿Que repuesta ayudará más a mi paciente?
4°¿Qué pregunta puedo contestar en el tiempo que dispongo?
5°¿Qué pregunta se ha repetido con mayor frecuencia en mi práctica?
Después de practicar lo suficiente será sencillo seleccionar sólo las preguntas relevantes.
EJERCICIO
Para aplicar los conceptos hasta aquí recibidos le sugerimos analizar el caso que se presenta y elaborar una
serie de preguntas clínicas:
Una mujer de 65 años es transferida a su unidad de cuidados intensivos porque tienen una neumonía severa.
Se presenta estable pero su frecuencia respiratoria es de 32 por minuto y su saturación de oxigeno es de solo
87% con una FIO2 de 0.65. No tiene antecedentes cardiacos o respiratorios. Ud empieza a considerar que
hacer si desarrolla una insuficiencia respiratoria aguda. Una eventualidad posible considerando su
evolución desfavorable en las ultimas horas.
Ud. tiene experiencia en el uso de ventilación no invasiva a presión positiva (NPPV) en exacerbación de
pacientes pulmonares crónicos. Ud. recuerda varios debates en el ultimo congreso al que asistió sobre su
aplicación en neumonía severa, edema cardiogénico y síndrome de distress respiratorio. Se plantea iniciar
esta metodología en este paciente y lo comenta con su staff que le propone discutir sus beneficios”.
Redacte una de las preguntas clínicas siguiendo la guía de contenidos de las flechas :
Población (pacientes)
Exposición o Intervención
Control o Comparación
Resultado ( outcome)
DEFINIR LA ESTRATEGIA DE BÚSQUEDA
Es la parte crítica donde se puede ahorrar o perder mucho tiempo. Debiera responderse estas 3 preguntas:
¿Dónde Buscar? ¿Cómo Buscar? y ¿Que Buscar?
• ¿Dónde Buscar?
IMPORTANTE: Dónde buscar información requiere decidir la mejor fuente acorde a la pregunta.
Es posible que una pregunta en la que sólo pueda identificar 2 componentes sea el resultado de un tema muy
nuevo sobre el que se ha investigado poco o de un tema sobre el que Ud. sabe poco. En el primer caso se
trata de un tema “caliente” y posiblemente requiera de una búsqueda computarizada para lograr
información. En el segundo caso, un buen libro de texto como fuente de información posiblemente responda
muy bien su pregunta básica, al mismo tiempo que generará nuevas preguntas más completas que finalmente
podrá responder con una búsqueda computarizada.
Las fuentes de información pueden ser variadas, desde preguntar a un colega, leer un libro de texto impreso,
consultar versiones electrónicas de libros de texto clásicos o actualizables, conseguir revistas médicas
relacionadas con le especialidad hasta la búsqueda de artículos en una base de datos computarizada.
En este punto puede ser de importancia dar una serie de definiciones que le ayudarán a interpretar la
información presentada:
•
•
•
Artículo Primario: Informe científico que presenta los resultados de una investigación realizada por
los autores del mismo. Los informes de estudios de Cohorte, de casos y controles o ensayos clínicos
serían artículos primarios.
Artículos Secundarios: Publicación en la cual el o los autores basan su escrito en un artículo
primarios consultados sin tener datos propios provenientes de una investigación.
Revisión: una revisión se podría considerar un informe de una investigación bibliográfica. Los
autores consultan artículos primarios sobre un tema y los resumen de determinada manera. Hay dos
tipos de revisiones las narrativas y las sistemáticas.
o Las revisiones sistemáticas resumen la evidencia científica (en contraste con revisiones
narrativas que mezclan opiniones y evidencia) son útiles para médicos que intentan tomar
las decisiones óptimas. Estas revisiones pueden dirigirse a preguntas de tratamiento,
causalidad, diagnóstico, o pronóstico. Se realiza siguiendo un protocolo de investigación
con una pregunta clínica que no pudo ser respondida en investigaciones previas.
Meta-análisis: Revisión sistemática en la que los resultados de los estudios
identificados en la búsqueda sistemática se combinan en un resumen numérico
único (método cuantitativo) que puede contestar la pregunta original.
Overview: Revisión sistemática en la que los resultados de los estudios
identificados en la búsqueda sistemática no se combinan en un resumen numérico
único, sólo se comentan los artículos y se generan recomendaciones con una
metodología cualitativa.
o Las revisiones narrativas con investigaciones NO sistemáticas, NO reproducibles que
permite comparar y analizar los resultados de varios estudios “preferidos o seleccionados”
por el autor.
Respecto de los libros suelen ser las fuentes usuales para la respuesta de preguntas básicas. Dan información
muy amplia sobre fisiopatología, diagnósticos diferenciales, enfoques diagnósticos y terapéuticas disponibles.
Tienen a favor que son fáciles de ubicar y de usar. Tienen la limitación de la posibilidad de estar
desactualizados, especialmente en temas de terapéutica. En este sentido se recomienda revisar las fechas de
las referencias bibliográficas, y preferir las modalidades actualizables como el UpToDate y Scientific
American Medicine, que citan información de publicaciones más recientes mas frecuentemente. Los
contenidos de estas fuentes podemos considerarlas revisiones narrativas.
Respecto a revistas con publicaciones primarias que exponen artículos originales, existe una amplia
variedad. El tema es que tener acceso a todas las relevantes para la especialidad y poder consultarlas en forma
completa resulta poco práctico. Imagine buscar la respuesta a su pregunta revisando el índice de las revistas
elegidas publicadas en el último año, o hacer búsquedas electrónicas en la página de internet de cada revista
por separado. Realmente podría resultar poco práctico.
Otra fuente de información de acceso sencillo por tratarse de información resumida y seleccionada son las
conocidas como revistas secundarias. Se caracterizan por revisar entre 50 y 70 revistas por semana en busca
de artículos que pasen el filtro de revisores críticos calificados. Esta selección se limita a artículos relevantes,
además agregan resúmenes “mas informativos” con comentarios de expertos clínicos. Es habitual que sus
contenidos se acumulen además en bases de datos.
En esta línea están la revista Bandolier (en internet: http://www.jr2.ox.ac.uk/bandolier/), las revistas de
resúmenes como:
ACP Journal Club (en internet: http://www.acpjc.org/)
Evidence Based Medicine (en internet: http://www.acponline.org/journals/redirectebm.html) y
Evidence-Based Practice (http://jfp.msu.edu/ebp.htm).
Con la denominación de Best-Evidence, estuvo disponible en formato electrónico la colección completa y
conjunta de las dos primeras revistas, actualmente accesible a través de la web como ACP JOURNAL CLUB
ONLINE.
No podemos dejar de mencionar Internet como fuente de información. La tendencia a usar motores de
búsqueda genéricos atraído por la multiplicidad de respuestas es frecuente. Esta fuente de recursos merece
algunas consideraciones y la mas importante es cómo separar las fuentes confiables de las que no lo son.
Varias organizaciones y autores han publicado criterios que permiten evaluar la información relativa a la
salud en Internet. La mayor parte de los criterios se refieren al contenido, el diseño, la autoría, financiación o
productores, fuentes de información y actualización.
Aun no hay acuerdo en un instrumento ampliamente aceptado para este tipo de evaluación pero sugerimos
concentrarse en ver los autores de la información y la institución que la produce, así como la fuente de
financiación en busca de conflictos de interés.
Ejemplo: resulta más “confiable” si una reconocida sociedad científica presenta la información en su página
Web.
La fecha de última actualizacón y las fuentes también son muy importantes.
Internet es una forma de acceder a los buscadores (bases de datos), sociedades científicas y artículos a texto
completo.
Revistas Full Text en Internet
Sumemos algunas direcciones para localizar textos completos en forma gratuita:
Highwire Press (Stanford University). http://intl.highwire.org/
220 sitios con 189.272 artículos full text gratis.
The Free Medical Journal Site. http://freemedicaljournals.com/
360 sitios ordenados por especialidad.
WISDOM proyect Sheffield U. NHS http://www.shef.ac.uk/uni/projects/wrp/journ.html
Cambiando en la dirección: "index" en lugar de "journ" para ver toda las posibilidades.
Quizá estas direcciones le sean de utilidad luego que ha realizado una búsqueda en las bases de datos
correspondientes y busca textos completos para leer.
Las bases de datos computarizadas almacenan información sobre artículos (la mayoría de las veces
publicados en revistas indizadas) y cuentan con “campos” y “registros”. Cada artículo ingresado a una
determinada base es un registro. Los campos de la base serían los títulos de la información disponible de cada
registro. Para que resulte algo más familiar, imagine cada base de datos como una planilla de Excel. A modo
de ejemplo se presenta un registro de una supuesta base de datos:
codigo del
registro
título
14633329 A novel rabbit model for
the evaluation of
biomaterial associated
urinary tract infection.
Autores
Cita
Fung LC y col. Can J Urol.
2003
Oct;10(5):200712.
Año de
publicación
Abstract
2003 OBJECTIVES: It was the objective of this study to
establish an animal model which simulates the
conditions of a biomaterial associated bacterial
urinary tract infection. METHODS: The curled
portion of polyurethane double pig-tail ureteric
stents, pre-coated with P. aeruginosa,were
inserted transurethrally into the bladder in eight
rabbits. Eight control animals received sterile stent
material. Microbiology studies of the stent, bladder
tissue, and urine, as well as bladder
histopathology were evaluated. RESULTS: P.
aeruginosa was recovered from all stent, bladder,
and urine specimens in the P. aeruginosa precoated stent group, and no P. aeruginosa was
present in any of the control specimens
(p=0.0002). The controls only developed minimal
bladder inflammation, whereas the bladders of the
P. aeruginosa pre-coated stent group were
significantly more inflamed (p<0.01).
CONCLUSIONS: This rabbit model was easy to
manipulate, low in maintenance requirements, and
had pathophysiologically distinct end points,
suitable for the assessment of biomaterial
associated urinary tract infections.
En cada columna se observan los campos de la base (generalmente son muchos más) y en cada fila veríamos
un registro. Las bases no tienen campos de texto completo, esta es la razón porque de las búsquedas la
mayoría de las veces obtiene como máximo un abstract (resumen). En ocasiones hay links que permiten
conectarse con el lugar donde puede encontrar el texto completo.
Entre las bases de datos más conocidas se encuentran:
MedLine: es un producto de la National Library of Medicine de Estados Unidos. Esta institución se fundó en
1836, como Biblioteca de Medicina del Ejército. Sus contribuciones más importantes el catálogo indizado de
la Biblioteca y el Index Medicus (AIM), ambos iniciados en 1879. La National Library of Medicine (NLM),
con más de 5 millones de volúmenes, es actualmente la mayor biblioteca médica del mundo. En 1966 se abrió
a la consulta on-line el antiguo repertorio bibliográfico Index Medicus con el nombre de MEDLINE, que
recopila, además, las referencias del International Nursing Index, y el Index to Dental Literatura.
Todas las bases de datos producidas por la NLM presentan una estructura interna dividida en campos
indizados y combinables entre sí que facilitan la búsqueda; MEDLINE sigue el mismo esquema y nos permite
buscar en todos los campos. No todos los buscadores permiten especificar el campo de interés para la
búsqueda. Como normalmente lo que se pretende es encontrar información sobre un tema determinado, la
mejor herramienta a usar es el Tesauro. El Tesauro es una relación de todos los descriptores o palabras-clave
que se utilizan para indexar los artículos. En el caso de MEDLINE, el tesauro se conoce como “campo
MeSH” por Medical Subject Headings (encabezados médicos). Los revisores de la NLM previo a ingresar el
artículo a la base “eligen” del tesauro los términos MESH que mejor describen de qué trata el artículo.
En Internet hay varios accesos gratuitos a Medline. Se recomienda el buscador de la NLM denominado
Pubmed:
http://www.ncbi.nlm.nih.gov/PubMed/
Hay un link a esta dirección en http://www.pubmed.com
En la primer pantalla de Pubmed la modalidad de búsqueda es una sola “texto libre” que significa que busca
por igual en todos los campos de la base. Esto podría explicar por qué recupera demasiados artículos cuando
utiliza esta interfase.
Por ejemplo: si eligió como palabra clase “Neurology” incluirá a todos los números de la revista con ese
nombre.
En Pubmed el Tesauro se encuentra en el MeSH Database (ingreso por la columna de la izquierda en
cualquier pantalla de Pubmed). De tal manera que si realiza una búsqueda desde el MeSH Database le estará
solicitando al programa que busque en el campo MESH. Al hacer esto es poco probable que recupere
artículos que hablen del tema que está buscando de una manera secundaria y es más probable que recupere
estudios específicos de la temática.
Además de MEDLINE, la NLM produce una serie de bases de datos especializadas en otras áreas de la
medicina; algunas de ellas ya se han comentado en el párrafo anterior, otras son AIDSLINE, que hace
referencia exclusiva al sida, AGELINE a geriatría, TOXLINE a toxicología, o CANCERLIT a oncología.
Biblioteca Cochrane: La biblioteca COCHRANE es una fuente de información electrónica creada por la
“Colaboración Cochrane”, cuyo objetivo es proporcionar de forma rápida y simple las mejores evidencias
necesarias para la toma de decisiones en la practica. La misión de la Colaboración Cochrane es "Preparar,
desarrollar y mantener revisiones sistemáticas" además de actualizar los Ensayos Clínicos Aleatorios (ECA) ,
en todos lo niveles de cuidados de salud. Se inició en abril de 1996, es accesible vía Internet, en versiones
CD-ROM y disquete, el acceso a la biblioteca, de momento, es pago de una cuota o suscripción anual. Se
actualiza de forma acumulativa cada tres meses.
Está compuesta actualmente por cuatro bases de datos, junto a otro tipo de información adicional.
-Base de datos Cochrane de revisiones sistemáticas.
-Base de datos de resúmenes de revisiones de evaluación de la efectividad.
-Registro Cochrane de ensayos clínicos controlados.
-Base de datos de metodología sobre las revisiones sistemáticas.
La Colaboración cuenta con más de 10 centros distribuidos en todo el mundo, en España está representada
por el Centro Cochrane Iberoamericano con sede en Barcelona.
La Biblioteca Cochrane tiene periodicidad trimestral y se actualiza en los meses de enero, abril, junio y
octubre. Podemos considerarla simultáneamente una publicación periódica y una base de datos. Por un lado su
periodicidad, la indización en Medline la convierte en una publicación periódica, su presentación electrónica,
un potente motor de búsqueda y una extensa base de datos de estudios clínicos randomizados publicados a
texto completo la convierten en una base interesante de consulta de revisiones sistemáticas de calidad
asegurada.
La Biblioteca Cochrane ayuda a una actualización rápida y eficiente de los profesionales de la salud. Es una
de las más importantes bibliotecas de medicina basada en evidencia del mundo - la Biblioteca Cochrane - está
disponible gratuitamente para los países de América Latina vía Internet, por un acuerdo entre Cochrane y la
Organización Panamericana de la Salud (OPS) a través del Centro Latino Americano y del Caribe de
Información en Ciencias de la Salud (BIREME). Desde Argentina puede accederse a través de la
Biblioteca Virtual en Salud en http://www.bvs.org.ar
Su acceso al sitio regional es desde http://cochrane.bireme.br
La Colaboración Cochrane pasó a congregar, en 1992 en Gran Bretaña, los esfuerzos de millares de
científicos de la salud del mundo y seleccionar las mejores evidencias existentes para dar respuestas. En 1996
fue fundado el Centro Cochrane de Brasil en la UNIFESP, con la finalidad de ayudar a divulgar evidencias
para mejores decisiones en salud. El acceso a la Biblioteca Cochrane por la Biblioteca Virtual en Salud (BVS)
es libre para todos los profesionales de la salud y de la información de la región de América Latina y el
Caribe, resultado de un contrato firmado entre BIREME y el Update Software (UK), con apoyo de la
Colaboración Cochrane y el Centro Cochrane de Brasil.
BIREME desarrolló un sitio propio de búsqueda para la Biblioteca Cochrane, trilingüe (portugués, español, e
inglés) agregó links para revisiones sistemáticas traducidas al español e implementó una opción de búsqueda
que posibilita la recuperación de documentos de acuerdo con su relevancia y consistencia (alta, media y
baja).
Para mayor información contactarse con Caty Iannello, Coordinadora del Proyecto Biblioteca Virtual en
Salud - Argentina, [email protected], Teléfonos (54 11) 4312-5301 int. 224 o Patricia Camargo,
Funcionaria de Prensa BIREME, [email protected], Teléfonos (55-11) 5576 9824.
Lilacs (Literatura Latinoamericana y del Caribe en Ciencias dela Salud) Base cooperativa del Sistema
BIREME de literatura latinoamericana publicada en la Región desde 1982. Reúne alrededor de 670 revistas
desde 1982. Si su pregunta está relacionada con patologías regionales (Ejemplo: Chagas, Leishmaniasis o
tuberculosis no relacionada con HIV) es recomendable que revise LILACS seguramente va a encontrar más
“evidencia” que en otras bases de datos. El numero de revistas argentinas supera el centenar y muchas poseen
el vinculo a la pagina web que ofrece su texto completo. En Internet acceso gratuito por BIREME:
http://www.bireme.br/iah2/homepagee.htm
En esta dirección también puede realizar búsquedas en Medline en castellano.
Embase: producida por el grupo Elsevier, que indexa 3.500 revistas de 70 países distintos. Las diferencias
más significativas con MEDLINE se centra en distinta cobertura geográfica. EMBASE contiene mayor
número de revistas europeas que MEDLINE -un 53% del total-. En cuanto al número de revistas españolas,
aunque MEDLINE tiene 93 en su catálogo, sólo 32 de ellas siguen publicándose, mientras que de las 91 de
EMBASE, 81 están aún en el mercado. Ambas bases recogen las revistas más utilizadas (JAMA, New
England, etc...). La cobertura de las especialidades médicas es también distinta, siendo en muchos casos
recomendable la consulta a ambas bases de datos si se quiere obtener una bibliografía completa. EMBASE
hace especial hincapié en la información sobre medicamentos, apartado muy minoritario en MEDLINE.
En Internet no hay acceso gratuito a EMBASE. Acceso por mail:
http://mailbase.ac.uk/lisls-a-e/chest-embase/
CRD: Centro de revisión y diseminación de la Universidad de York. La dirección de internet es
http://nhscrd.york.ac.uk/welcome.html. Aquí puede consultar las bases de datos especializadas DARE y
NHS EDD y HTA. DARE (Database of Abstracts of Reviews of Effects) contiene resúmenes ampliados de
revisiones sistemáticas con comentarios de los revisores que realizan una evaluación crítica del trabajo al
final. NHSEED (NHS Economic Evaluation Database) cuenta con evaluaciones económicas y HTA (Health
Technology Assessment Database) se orienta a evaluación de tecnologías.
Existen meta-buscadores que buscan simultáneamente en varios sitios a la vez. Ej: TRIP en Internet:
http://www.tripdatabase.com
Una salvedad importante es que casi toda la información de alta calidad actualmente disponible está en
idioma inglés.
Las bases de datos que se describen no son todas las disponibles, le sugerimos visitar esta dirección de la
Universidad Autónoma de Madrid donde podrá encontrar un directorio de bases de datos de ciencias de la
salud: http://biblioteca.uam.es/paginas/Medicina/enl_med-bases.html
Como resumen orientativo se puede usar un método de jerarquización conocido como “4s” que tiene en su
base a los estudios originales, seguido de los estudios de revisión, sinopsis de estudios seleccionados, para
terminar con los sistemas de decisión asistido por computadora. Para la solución de problemas de la practica
se sugiere ir de arriba hacia abajo:
Sistemas
Sistemas de decisión asistidos por computadora
Sinopsis
Resúmenes en revistas basadas en la evidencia
Síntesis
Revisiones sistemáticas
Estudios
Artículos originales
• ¿Cómo Buscar?
Vamos a describir cómo buscar artículos primarios en forma computarizada con orientación al uso de
Medline. Una buena estrategia de búsqueda implica haber construido una pregunta clínica adecuada.
A partir de la misma, se sugiere realizar los siguientes pasos:
1. Listar palabras claves: De cada uno de los cuatro componentes saldrán palabras claves para la búsqueda.
Se recomienda pensar en posibles sinónimos para cada una. En el componente Población, pensar alguna
característica que debería estar ausente.
Ejemplo: Se encuentra frente a un paciente con Sarcoma de Kaposi (que frecuentemente se asocia al SIDA)
pero es HIV negativo. La población que le interesa es negativa para SIDA.
2. Traducirlas si fuera necesario. Indispensable si va a buscar en Medline.
3. Decidir uso del operador lógico "OR": Cuando listó palabras que son sinónimos, lo correcto es unirlas
con este operador. Cuando utiliza “OR” el motor de búsqueda va a recuperar los artículos que digan una u
otra o ambas palabras unidas por este operador lógico.
Ejemplo: "Acute Miocardial Infarction" OR AIM. Se recuperarán artículos que digan sólo "Acute Miocardial
Infarction", se recuperarán los que sólo digan IAM y los que tengan ambos términos. Note que a pesar que
"Acute Miocardial Infarction" tiene más de una palabra lo consideramos un único término. El uso de comillas
permite identificar términos formados por varias palabras y es un recurso que puede utilizar cuando realiza las
búsquedas.
Para evitar tener que identificar todos los posibles sinónimos de una palabra es que se sugiere el uso de
tesauro en Medline. Los téminos MESH son único para cada definición. Por ejemplo: si Ud está buscando
información sobre “Accidente Cerebrovascular” seguramente se le ocurrirá que uno de los términos en inglés
sería “stroke”. Sin embargo, Stroke no es un término MESH, para indexar artículos de este tema los revisores
utilizan “cerebrovascular accident”. Esto significa que aunque los autores denominaran Stroke a la patología
que estaban presentando, en el campo MESH aparecerá como “cerebrovascular accident”. El usar en la
búsqueda términos MESH ahorra mucho tiempo al evitar la búsqueda de todos los sinónimos posibles. Sin
embargo, no elimina este trabajo. Hay palabras que no son sinónimos exactamente pero pueden serlo para la
pregunta que Ud. formuló. Por ejemplo: SIDA y HIV no son sinónimos (cada una tienen su definición) pero
para su pregunta puede ser que le interesen tanto artículos que hablen de uno, de otro o de ambos por lo que se
comportan como sinónimos.
4. Decidir uso del operador lógico "NOT": Para excluir las características de la población que deben estar
ausente es correcto usar "NOT".
Ejemplo: siguiendo el ejemplo dado anteriormente, la búsqueda correcta incluiría la combinación de “Kaposi
NOT AIDS”. De esta manera recuperaría artículos que digan Kaposi solamente. Los que digan Kaposi y
AIDS en el mismo artículos no serán incluidos.
5. Unir los diferentes componentes de la pregunta con el operador lógico "AND".
Al unir dos términos con AND el resultado será recuperar artículo que tengan ambos. Si aparece uno solo de
los términos, ese artículo no será recuperado.
Utilice el esquema, redacte la pregunta en el área violeta y a partir de la misma realice el listado de palabras
claves en los rectángulos inferiores.
RETOME EL CASO CLINICO CON EL QUE ELABORO SU PREGUNTA CLINICA Y SELECCIONE
LAS PALABRAS CLAVES Y LOS OPERADORES PARA COMBINARLOS
ANATOMIA DE LA PREGUNTA CLINICA Y ESTRATEGIA PARA LA BUSQUEDA BIBLIOGRAFICA
1. Redacte una pregunta clínica siguiendo la guía de contenidos de las flechas:
Población (pacientes)
Exposición o Intervención
Control o Comparación
Resultado (outcome)
2. Realice una lista de palabras claves relacionadas con cada contenido anterior.
----------------------------------
----------------------------------
----------------------------------
----------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
---------------------------------
3. Elija los operadores lógicos adecuados para combinarlas.
¿Qué Buscar?
Qué buscar surge de la pregunta que se planteó. La lectura crítica comienza desde la búsqueda bibliográfica.
Le va a interesar leer estudios con diseños que aporten la mejor evidencia al tipo de pregunta que formuló. La
idea es recuperar de la búsqueda los artículos más relevantes. Si se publican miles para su tema no querrá
perder tiempo leyendo cartas de lectores, por ejemplo. Puede sumar a las palabras claves ya seleccionadas las
que definan el diseño que le interesa (Tabla X)
Tabla X: Estudios que contribuyen a contestar preguntas clínicas.
Examen Clínico
Prospectivo, comparación ciega con “regla de oro”
Prueba diagnóstica Prospectivo, comparación ciega con “regla de oro”
Pronóstico
Estudios de cohorte > Casos y Control > Serie de caso
Terapéutica
Trabajos controlados randomizados
Etiología / Daño
Estudios de cohorte > Casos y Control > Serie de caso
Prevención
Estudios de cohorte > Casos y Control > Serie de caso
Costo
Análisis económico
•
•
•
•
•
Si su pregunta es sobre Terapéutica, buscaría inicialmente una revisión sistemática (meta-análisis) o
un ensayo clínico. La mejor estrategia sería iniciar la búsqueda de un meta-análisis en la
Colaboración Cochrane.
Si su pregunta es de pronóstico, posiblemente le interese encontrar un estudio con seguimiento
(Cohorte).
Si su pregunta es sobre un método de Diagnóstico, le va a interesar compararlo contra el test de
referencia para tener los valores de sensibilidad y especificidad.
Si su pregunta es de Etiología o Daño, dado que la frecuencia de eventos adversos suele ser muy
baja, posiblemente sólo pueda esperar encontrar un buen estudio de Casos y Controles.
Las guías clínicas y las revisiones sistemáticas o metanálisis pueden contribuir a contestar preguntas
de diferente índole.
Posiblemente le resulte difícil decidir cómo hacer esto pero no se preocupe, un filtro metodológico lo puede
hacer por Ud.
¿Qué es un Filtro Metodológico?
Son estrategias de búsqueda diseñada por expertos bibliotecarios que busca seleccionar determinados diseños.
Se adosan a la estrategia elegida por el interesado en realizar la búsqueda bibliográfica de tal manera que
“filtran” los estudios a aquellos que aportan mejor evidencia para la pregunta formulada.
Ej: Filtro metodológico para estudios diagnósticos:
"sensitivity and specificity" [mh] OR "sensitivity" [tw] OR ("diagnosis" [sh] OR "diagnostic use" [sh] OR
"specificity" [tw]).
Como puede apreciar, incorpora palabras como Sensibilidad y Especificidad a la búsqueda.
Los filtros tienen a favor que presentan mejores resultados que la estrategia que puede construir un médico
asistencial.
Además se puede elegir maximizar sensibilidad de la búsqueda (implica que no se escapa ningún artículo
importante pero puede recuperar algunos de baja calidad) o maximizar especificidad de la búsqueda (recupera
menos artículos pero de mejor calidad).
¿Cómo buscar con Filtros en Internet?
Un lugar donde puede buscar facilmente con filtros es en el "Clinical Queries" de PubMed. Sólo requiere que
pueda clasificar su pregunta (terapéutica, diagnóstico, etiología o pronóstico), maximizar sensibilidad o
especificidad y colocar las palabras claves (Subject Search) que identificó (inicie con las 2 más importantes).
http://www.ncbi.nlm.nih.gov/entrez/query/static/clinical.html
Otro sitio donde fácilmente se accede a filtros en Internet es la página “RafaBravo”. Se ingresa con la
dirección especificada abajo pero termina buscando en PubMed. Es más amigable porque está en castellano.
Tiene filtros para buscar revisiones sistemáticas, guías de práctica clínica y para preguntas de tratamiento,
diagnóstico, pronóstico, etiología, examen físico y reacciones adversas.
http://www.infodoctor.org/rafabravo/pubmedes.html
La manera más eficiente de responder preguntas específicas es comenzar con un recurso de MBE
“prefiltrado”. La Cochrane Library, Best Evidence, Clinical Evidence, son actualizados regularmente con
estudios clínicos de buena calidad metodológica.
Para preguntas de tipo general son de utilidad las versiones electrónicas de libros de texto como UpToDate y
Scientific American Medicine que proveen información general de diversos temas, así como respuestas a
preguntas específicas.
Si la estrategia fue correcta, conseguirá menos de 10 artículos que pueda leer para decidir la repuesta a su
pregunta: ¡SUERTE!
Ahora vuelva a reflexionar sobre nuestra encuesta inicial
1.-Cuando tenga dudas sobre sus enfermos que método de obtención de información intentará utilizar
(ordenar de los mas usados a los menos usados
Lee libros de texto generales
Lee libros de texto especializados
Recurre a su archivo bibliográfico
Realiza pedidos bibliográficos en la biblioteca
realiza pedidos bibliográficos a otros colegas
consulta la opinión a otros colegas
Revise sus respuestas iniciales
TERCER PARTE: Evaluación de artículos
Autor: Marina Khoury1.
1. Médica. Concurrente del Centro de Investigaciones Epidemiológicas. Academia Nacional de Medicina.
Buenos Aires. Argentina.
A. CÓMO EVALUAR EN FORMA CRÍTICA LA EVIDENCIA
Una vez que el médico ha identificado estudios relevantes utilizando técnicas de búsqueda de información ya
descriptas, debe tomar la decisión de creer o no en esa información. También debe decidir cómo aplicarla con
exactitud y eficacia al cuidado del paciente. Esto implica comprender la magnitud del impacto de un
tratamiento, la utilidad relativa de diferentes pruebas diagnósticas, el grado de importancia de los
determinantes pronósticos de una patología, etc.
Evaluar de manera crítica los documentos encontrados implica determinar su validez (cercanía a la realidad) y
utilidad (aplicabilidad clínica)
Para decidir si un artículo es apto para ser aplicado en la práctica asistencial, debemos considerar entonces:
• ¿Es válida la evidencia del estudio?
En otras palabras, se evitaron aceptablemente posibles sesgos en el estudio? Se evalúa la validez interna del
mismo.
Para cambiar una conducta médica, una intervención terapéutica, preventiva o diagnóstica no sólo se debe
haber evaluado en un estudio válido sino que debe haber demostrado, además, su utilidad. La magnitud del
impacto de la supuesta intervención o exposición a un factor se puede evaluar respondiendo la pregunta:
• ¿Los resultados del estudio son importantes?
En este punto es donde corresponde reflexionar sobre la significación estadística de los resultados. Sin
embargo, no debiera dejarse de lado la significación clínica de los mismo.
Ejemplo: Una diferencia en la mortalidad donde en el grupo tratado fallecieron un 2% de los pacientes y en el
grupo control murieron un 3% puede informarse con una “p” significativa si el estudio es de gran cantidad de
pacientes. La pregunta sería: ¿es clínicamente significativa esa diferencia?.
Aún la mejor evidencia dará un resultado cuantitativo relacionado con la pregunta. Este resultado es
información que ayuda a la toma de decisión clínica pero no debe tomarse como "la decisión en sí misma".
Para aplicar los resultados válidos e importantes de un artículo en un paciente, debemos preguntar:
• ¿Se pueden aplicar los resultados del estudio al cuidado de mi paciente?
En cierta forma este aspecto se relaciona con la validez externa del estudio y con las preferencias de los
pacientes.
Los interrogantes relacionados con validez externa tienen que ver con la definición de población y la
descripción de las técnicas del estudio.
Ejemplos:
- ¿Es el paciente que generó la pregunta similar a los del estudio? ¿El paciente cumple con los criterios de
inclusión y exclusión? Recordar evaluar en forma personalizada pensando aquellas intervenciones o estudios
que el paciente tiene contraindicados.
- ¿Las técnicas que se utilizaron son reproducibles en mi medio? ¿Las técnicas que se utilizaron en el estudio
son parecidas a las que se realizan en mi lugar de trabajo? ¿Dispongo de personal capacitado para realizarlas?
Es fundamental que la práctica lleve a adaptar los estudios científicos al paciente y no al revés.
B. EVALUACIÓN CRÍTICA DE ESTUDIOS CON INTERVENCIONES:
Las intervenciones pueden ser de tratamiento o preventivas (tamizaje o screening) y el diseño clínico que
mejor estudia intervenciones es un ensayo clínico controlado.
B.1. Ensayos clínicos controlados:
El ensayo clínico controlado es, en esencia, un experimento. El objeto de un experimento es la creación de
circunstancias en las que únicamente se varía un factor manteniendo constante (controladas) el resto de las
propiedades, lo cual nos permitirá asociar el cambio observado a ese único factor que se ha modificado.
Ocurre, no obstante, que en las ciencias biomédicas jugamos con un número elevado de propiedades y que la
variabilidad es la regla y no la excepción. Debemos tener en cuenta tres aspecto importantes. Primero, que no
existen dos individuos iguales (variabilidad interindividual). Esto significa que no hay dos individuos que
ante un mismo estímulo respondan de manera idéntica. Por ello, se necesita investigar un número “adecuado”
de sujetos, de forma que la respuesta medida es en realidad la "respuesta promedio" de los sujetos que hemos
estudiado.
Segundo, que existen variaciones en el estado de la salud de los sujetos que son cíclicas o enfermedades que
son autolimitadas (carácter cíclico o autolimitado de las enfermedades). Esto es, las enfermedades por si
solas pueden mejorar y empeorar en un período de tiempo sin que medie intervención alguna. Se hace
necesario por tanto disponer de un “grupo control” al que no administraremos el tratamiento.
Y tercero, que parte del cambio observado no se debe al efecto farmacológico del fármaco (o de otra
intervención), sino al efecto psicológico conjunto que tiene el consumo de la forma farmacéutica (o de otra
intervención) y la presencia del médico (efecto placebo y heterosugestión). Resulta necesario, por tanto, que
al grupo control se le administre una sustancia farmacológicamente inactiva o bien otro tratamiento, lo cual
inducirá también efecto placebo; y este grupo control sea tratado con igual atención por el médico, lo cual
inducirá también heterosugestión.
Así y solo así podremos tener la “seguridad” (en ciencia no hay seguridad) de que la diferencia observada
entre ambos grupos se debe solo y únicamente al factor que los diferenciaba. Y este factor no es la
administración de la forma farmacéutica, la cual se ha administrado a ambos grupos, sino el consumo del
principio activo que únicamente ha ingerido un grupo.
Por tanto, en un ensayo clínico controlado para evaluar una forma farmacéutica los sujetos deben ser, como
mínimo, distribuidos en dos grupos: A uno se la administrará la forma farmacéutica que contiene el principio
activo, y al otro se le administrará idéntica forma farmacéutica la cual no contendrá principio activo o podrá
contener el principio activo del tratamiento de referencia. Y ambos grupos deberán ser atendidos por el
médico durante toda la duración del ensayo de idéntico modo.
Comparabilidad de los grupos al inicio del ensayo.
La distribución de los sujetos en los dos grupos debe garantizar que ambos sean comparables en términos
estadísticos. Esto es, no deben existir diferencias significativas en la distribución de variables básicas como
edad, sexo, antecedentes patológicos, etc... (sobre todo con aquellas que se relacionan con las variables en
estudio) entre los grupos. Todas y cada una de las variables que se nos puedan ocurrir deben estar balanceadas
entre ambos grupos. Para ello, el único método que garantiza que ambos grupos sean comparables por todas y
cada una de las variables que potencialmente pudieran afectar al tratamiento es la distribución al azar de los
sujetos (Aleatorización).
Importante: No confundir “aleatorización” con “Muestreo aleatorio”. En los ensayos clínicos, las muestras
suelen ser consecutivas (no hay muestreo) pero para asignar a los diferentes grupos de tratamiento se utiliza el
azar (aleatorización).
La asignación al azar de los sujetos en los grupos es la principal fortaleza de los estudios experimentales
frente a los restantes diseños epidemiológicos, en los que NUNCA podremos tener la seguridad de que los
grupos sean comparables.
Además debemos tener en cuenta que no es suficiente con la aleatorización de los sujetos para la formación
de los grupos, sino que es también necesario que el número de sujetos aleatorizados sea “grande” para
garantizar que la aleatorización funcione. En muestras pequeñas los grupos obtenidos como resultado de una
aleatorización pueden ser no comparables sólo por azar.
Antes de avanzar, nos tendremos que detener en el concepto de “variable” en el marco de una investigación
con método estadístico.
Las Variables son propiedades que miden diferente en los integrantes de una Población. Es decir, una
propiedad que no es constante. Los valores posibles que puede tener una propiedad pueden ser nombres
(categorías) o números. Es suficiente con que en diferentes individuos de una población una propiedad pueda
admitir al menos 2 posibilidades (valores) para que sea considerada variable.
Respecto al problema en estudio, las variables se pueden clasificar en:
Variables en Estudio: son aquellas sobre las que se busca información. Cuando el problema está
correctamente planteado, la/s variable/s en estudio se puede/n deducir a punto de partida del objetivo.
Variables Irrelevantes: son aquellas que al estado actual del conocimiento no tienen relación con el
problema en estudio. Por ejemplo: si alguien estudia la relación entre tabaquismo y cáncer de pulmón,
seguramente variables como el color de ojos o cuánto calza la persona se pueden considerar
“irrelevantes” para el problema.
Variables Intervinientes: son aquellas variables que al estado actual de los conocimientos, sin ser las
variables en estudio, tienen relación con el problema planteado. Por lo tanto son aquellas que pueden
modificar los resultados de la investigación (fuentes de sesgo). Para evitar esto el investigador debe
identificarlas para poder controlarlas.
Hay dos tipos de variables a controlar que conviene describir: confundidor y modificador de efecto.
Confundidor. Dada una relación entre una exposición o intervención -posible factor de riesgo (FR)- y un
evento (E), se considera factor confundidor (FC) a un tercer elemento que se asocia con la exposición en la
población seleccionada al mismo tiempo que se comporta como factor de riesgo para el evento.
Figura: El Confundidor (FC) se asocia al factor de riesgo (FR) y al
Evento (E)
Ejemplo: En un estudio donde se intenta evaluar si el tomar café (FR) se asocia en enfermedad coronaria (E)
el tabaquismo se comportaría como un factor de confusión, dado que hay una relación entre tabaquismo y
enfermedad coronaria (Relación FC-E) y es posible que las personas que fuman tomen más café (relación FCFR). Si no se controla tabaquismo, puede resultar que las conclusiones no sean válidas porque se cometería un
sesgo por confundidor.
Modificador de efecto o Interacción. Dada una relación entre una exposición y un evento, se considera
Modificador de Efecto (ME) a un tercer elemento que puede no asociarse con la exposición en la población
seleccionada pero se asocia con el evento. La presencia del modificador de efecto provoca que la expresión
del evento tenga diferente frecuencia.
Figura: En el estudio de un factor de riesgo (FR) el modificador de efecto (ME) puede hacer que el evento (E)
se presente en diferentes grados según esté presente o no.
Ejemplo: En un estudio donde se evaluaba si un tratamiento hormonal (hormona femenina) era útil para
mejorar una lesión cutánea, se evaluó el efecto en todo el grupo (mujeres y varones en conjunto) cuando era
lógico esperar que las mujeres respondieran mejor que los hombres por las características del medicamento.
Se obtuvo la conclusión que el tratamiento no es efectivo. Sin embargo, si se hubiera analizado a los grupos
de mujeres y varones por separado se podría haber observado que el tratamiento era efectivo en las mujeres
pero no en los hombres.
Hay diferentes formas de controlar estas variables:
1. Durante la planificación se puede utilizar la restricción, es decir ponerlas como criterios de exclusión al
definir la Población Blanco. De esta manera se transforman en constantes para el estudio. En el ejemplo
anterior: si se define como criterio de exclusión el tabaquismo, esta propiedad queda controlada porque en la
muestra se comporta como constante (ninguno fuma).
2. La estratificación de la muestra también permite controlar confundidores y modificadores de efecto. Se
incluyen grupos (estratos) definidos por el valor de una variable y se analizan los datos en cada grupo por
separado. En el ejemplo anterior si se toma una muestra estratificada por tabaquismo, se analizará por
separado a los tabaquistas de los no tabaquistas y, en cada estrato la situación se comporta como constante por
lo que queda controlada.
3. La aleatorización es otra forma de controlar el efecto de variables de confusión. Lo interesante es que
funciona para las conocidas y las desconocidas. Si todas las variables tienen una distribución similar en los
diferentes grupos en estudio, la relación Factor de confusión-Factor de exposición no existe y por lo tanto el
confundidor queda controlado.
La aleatorización protege del sesgo de selección al independizar del investigador, la asignación a los grupos
de intervención. El sesgo de selección en este caso daría por resultados grupos no comparables. Los “Ensayos
Clínicos Controlados no Aleatorizados” son sensibles a cometer sesgos de selección.
En material y métodos los autores deben describir la técnica de aleatorización. Para lograr sus fines, la
aleatorización tiene que ser efectuada con un método seguro e “impredecible”. Esto significa que los
investigadores no puedan anticipar a qué grupo va a ingresar el paciente previo a la incorporación. La
inclusión de los participantes debe registrarse antes de aleatorizar.
Por ejemplo: Ud. pertenece a un grupo de investigación que está llevando adelante un ensayo clínico y cree
sinceramente que la intervención en estudio es beneficiosa. Se está utilizando asignación alternada (uno
intervención / uno placebo). El último paciente que ingresó presentó una cefalea típica de la intervención en
estudio. Por lo tanto, Ud. ya sabe que el próximo paciente a ingresar va a ir a la rama placebo (la técnica fue
predecible). Le toca ingresar a un pacientes que cumple los criterios de población objetivo y resulta ser una
persona muy querida por Ud. y cree se podría beneficiar si recibe la intervención. ¿Podrá incorporarlo igual
sabiendo que va a recibir placebo? Los métodos de asignación predecibles generan sesgos de selección.
Importante:
• Métodos predecibles o violables: arrojar moneda / bolilla color / asignación alternada / fecha nacimiento /
N° historia clínica / N° documento.
• Métodos impredecibles y seguros: sobre opaco cerrado / sobre opaco cerrado y 3ª persona / tratamientos
numerados / computadora local / Fax/Telex / Teléfono.
• Métodos especiales de aleatorización:
Aleatorización en bloques: se asigna igual cantidad a cada grupo pero en grupos pequeños (bloques de 4, 6, 8,
etc..) Asegura similar cantidad de participantes en cada grupo no importa en qué momento se detenga el
estudio.
Aleatorización Estratificada: Generalmente los estratos se definen de acuerdo a variables pronósticas con
fuerte influencia sobre la variable de resultado. Asegura que los grupos estén balanceados por esa variable.
Permite analizar los resultados por subgrupos.
Además de la aleatorización de los sujetos, será necesario administrar al grupo control una forma
farmacéutica idéntica, aunque inactiva o con el fármaco de referencia, y que el paciente no sepa si está siendo
tratado con el principio activo o con el placebo o fármaco de referencia, esta técnica de enmascaramiento se
denomina simple ciego. De este modo, al comenzar el ensayo podremos tener la “seguridad” de que ambos
grupos son comparables.
Comparabilidad de los grupos durante el ensayo.
Si el equipo médico (médicos, personal de enfermería, técnicos de laboratorio…) conoce si el sujeto está
siendo tratado con principio activo o con placebo podrían consciente o inconscientemente mostrar un distinto
comportamiento según el sujeto formase parte de uno u otro grupo (periodicidad en las revisiones, pruebas
diagnósticas solicitadas o distinto trato con el sujeto). Este distinto comportamiento será percibido por los
sujetos produciendo distinta heterosugestión, y así durante el ensayo los grupos perderían su comparabilidad.
Tanto el grupo con la intervención en estudio como el o los grupos control debieran recibir el mismo
seguimiento, sólo deben diferenciarse por la intervención en estudio. Esto permite evitar "co-intervenciones"
que podrían ser motivo de diferencias entre los grupos pero no debidas a la intervención evaluada.
Ejemplo: si al grupo con la intervención la enfermera lo visita más seguido o se le realizan más estudios o
controles que al grupo control, se están realizando co-intervenciones que pueden determinar mejores
resultados en dicho grupo no relacionadas con la intervención en estudio.
Para evitar esto el equipo médico no debe saber a que grupo están asignados los sujetos lo cual asegurará que
todos los sujetos reciban durante todo el ensayo exactamente las mismas atenciones, esta técnica de
enmascaramiento se conoce como doble ciego.
No obstante, pueden existir situaciones en las que en la práctica el enmascaramiento no tiene sentido o es
infructuoso. Los procedimientos quirúrgicos no se enmascaran fácilmente o no es ético hacerlo. El sabor o los
efectos indeseables de los medicamentos constituyen un indicio para el paciente o para el médico, o para
ambos. En estos casos es útil que otro evaluador, que no está involucrado en el seguimiento de los sujetos y
que ignora la medicación administrada, realice "a ciegas" la evaluación de la respuesta, esta técnica de
enmascaramiento se denomina triple ciego.
Para asegurar que se mantiene la comparabilidad de los grupos es muy importante un seguimiento completo
de los individuos ingresados. Las pérdidas en el seguimiento atentan contra la validez interna del estudio.
Pérdidas diferentes en los grupos introducen sesgo de selección. Se acepta que no debería perderse más de
20% de los reclutados. El seguimiento es independiente del cumplimiento del tratamiento o “adherencia” a la
intervención (en inglés: compliance) que los investigadores deben registrar de manera adecuada. Una baja
adherencia al tratamiento puede determinar resultados no significativos en el estudio aunque la droga tenga el
efecto estudiado.
El objetivo del estudio.
Los Ensayos clínicos controlados y aleatorizados generalmente evalúan la "Eficacia" de una intervención.
También pueden medir "Efectividad".
Eficacia: Es el efecto de la intervención en “situaciones ideales” o de laboratorio.
El contexto de un ensayo clínico controlado aleatorizado se considera una situación ideal dado que los
participantes están más atendidos y evaluados que en situaciones asistenciales habituales.
Efectividad: Es el efecto de la intervención en condiciones operacionales (en la vida real).
Aunque no se plantee como un objetivo siempre que se evalúe eficacia o efectividad de una intervención los
investigadores deberán registrar los posibles eventos adversos de la intervención, si es posible, evaluar la
“seguridad” de la intervención. Las decisiones de utilizar una intervención deben basarse en valorar
riesgo/beneficio. Si el estudio no incluye los riesgos es imposible de valorar la ecuación.
Algunos autores diferencian entre ensayos clínicos Explicatorios y Pragmáticos.
• Ensayos Clínicos Explicatorios: Se denominan de esta manera a aquellos que evalúan eficacia generalmente
de una intervención seleccionada. Los Ensayos Clínicos que miden eficacia son los diseños que más criterios
de exclusión suelen tener (Población muy seleccionada). Esto incrementa la validez interna del estudio
aunque tiene la desventaja de sacrificar validez externa.
• Ensayos Clínicos Pragmáticos: Se trata de estudios que evalúan efectividad. Generalmente evalúan
Intervenciones complejas. Definen poblaciones más "Reales"(poco seleccionadas). Los Ensayos Clínicos que
miden efectividad suelen tener pocos criterios de exclusión. Buscan optimizar la validez externa.
Diseños
Hay diferentes tipos de diseños de ensayos clínicos controlados. El más reconocido es el de "grupos
paralelos" (Ver Figura 1). Los grupos logrados por la aleatorización se mantienen durante todo el estudio.
Puede haber un período de “pre-inclusión” (run in) previo a la aleatorización donde se realizan mediciones
basales y se evalúa adherencia al tratamiento. Una estrategia para aumentar la validez interna es que si en el
período de "run in" la adherencia es baja, el pacientes se excluye y no ingresa a la aleatorización. No siempre
se puede utilizar período de “pre-inclusión”, no es apto para patologías infecciosas agudas, por ejemplo.
El "Diseño Cruzado" (Ver Figura 2) se caracteriza por el cruce de los pacientes. Los que inicialmente
recibieron la intervención, pasan a recibir la intervención control y viceversa. Ambos grupos reciben los dos
tratamientos, pero en distinto orden. El orden se asigna aleatoriamente. Previo al cruce suele haber un período
de lavado ("Wash out") para eliminar el efecto de la medicación. Este diseño es aplicable sólo a patologías
crónicas que se controlan pero no se curan. Ejemplo: Para intervenciones con efectos transitorios como
tratamientos analgésicos, hipolipemiante, etc...
En el diseño con “retiro de una rama” (Withdrawal), los sujetos de investigación reciben la intervención en
estudio en un período de inclusión ( “lead in”), aquellos que responden a la intervención, son asignados al
azar al grupo intervención o el control. Este diseño no es apto para medir eficacia dado que cuantifica el
efecto de la intervención pero sólo en el grupo que responde. Es un diseño adecuado cuando se evalúan
efectos adversos dado que sólo reciben la medicación aquellos que más se benefician.
El "Diseño factorial" (Ver Figura 3) permite probar más de una hipótesis en el mismo estudio. Cuando se
intenta evaluar la eficacia de dos o más drogas solas o combinadas puede ser el de elección. Se efectúan
aleatorizaciones sucesivas. Ejemplo: Primero se aleatoriza a tratamiento A o placebo. Luego, en cada grupo se
aleatoriza a tratamiento B o placebo.
Un grupo control contemporáneo puede recibir placebo, otro tratamiento o ninguna intervención pero siempre
los resultados serán más válidos que si el grupo control no es seguido en el mismo tiempo. Los estudios con
“controles históricos” tienen la limitación de la falta de control de co-intervenciones.
Es interesante comentar que, de acuerdo al objetivo del estudio, puede ser adecuado utilizar aleatorizaciones a
nivel grupal. Hay intervenciones que no pueden evaluarse aleatorizando individuos, fundamentalmente
cuando producen un "efecto grupal", más que individual. Algunos ejemplos de intervenciones con “efecto
grupal”: Introducción de guías de práctica clínica, Intervención para reducir polución ambiental,
Intervenciones educacionales, etc... En ese caso, pueden aleatorizarse grupos (Ej: hospitales, comunidades,
etc...).
B.2. Guías de evaluación crítica de estudios sobre tratamiento o prevención
1. ¿SON VALIDOS LOS RESULTADOS DEL ESTUDIO?
a. GUIAS PRIMARIAS
a.1. ¿LA ASIGNACION DE PACIENTES FUE ALEATORIZADA?
La importancia de la aleatorización (randomización) es que asegura, si el tamaño de la muestra es
suficientemente grande, que los determinantes conocidos y desconocidos de resultados son distribuidos
uniformemente entre los grupos. Controla posibles sesgos de selección que podrían cometerse si el o los
médicos tratantes decidieran qué intervención realizar.
a.2. ¿FUE EL SEGUIMIENTO LO SUFICIENTEMENTE LARGO Y COMPLETO?
El tiempo apropiado dependerá de la variable de resultado a comparar. Se debe comparar con el tiempo en el
que se estima aparecerán los eventos. Ejemplo: puede ser suficiente 7 días si el evento es el desarrollo de
insuficiencia renal aguda luego de un estudio con contraste iodado o resultar insuficiente si es de un año
cuando el evento en estudio es infarto en un estudio de factores de riesgo para enfermedad coronaria.
Cada paciente que entró en el ensayo debe ser incluido en el análisis. Si esto no se hace, o si un número
sustanciales de pacientes se informan como "pérdidas de seguimiento", la validez del estudio será
cuestionable. Las pérdidas de seguimiento no se deben considerar que pueden ser causadas por el azar.
Generalmente la pérdida de seguimiento se relaciona directamente con el evento en estudio. Estos pacientes a
menudo tienen pronóstico diferente de aquellos que completan el seguimiento. Pueden perderse porque
sufrieron los eventos adversos (muerte) o porque están bien (y no volvió a la clínica para ser evaluado).
Los lectores pueden decidir cuando la pérdida es excesiva. En algunos ensayos con resultados positivos
(diferencias significativas) se recalculan las estadísticas bajo la asunción que todos los pacientes que se
perdieron del grupo tratamiento evolucionaron mal, y todos los perdidos del grupo control evolucionaron bien
(el peor escenario). Si las conclusiones del ensayo no cambian, entonces la pérdida no era excesiva. Si las
conclusiones cambian, la fuerza de la inferencia se debilita (es decir, menos confianza puede ponerse en los
resultados del estudio). En este caso, la pérdida de seguimiento fue significativa no importa que fuera inferior
al 20% de la muestra.
a.3. ¿LOS PACIENTES FUERON ANALIZADOS EN LOS GRUPOS A LOS QUE FUERON
ALEATORIZADOS?
Como en la práctica de rutina, los pacientes en los ensayos aleatorizados se olvidan a veces de tomar su
medicina o incluso negarse al tratamiento. Tales pacientes que nunca realmente recibieron su tratamiento
asignado: ¿deben excluirse del análisis para la eficacia? Las personas que no toman su medicación (baja
adherencia) presentan diferente evolución que los pacientes dóciles, incluso cuando reciben placebo.
Excluyendo a los pacientes no-dóciles puede destruirse la comparación imparcial proporcionada por la
aleatorización (randomización).
El análisis recomendado es utilizando la técnica “por Intención de tratar” (Intention to treat). Se compara la
incidencia del evento en los individuos aleatorizados a recibir la intervención experimental, con la incidencia
en los individuos aleatorizados a recibir la intervención control, independientemente que algunos del grupo
intervención no hayan recibido la intervención o hayan recibido la intervención control, algunos del grupo
control hayan recibido la intervención y de las pérdidas en el seguimiento. Preserva los grupos tal cual fueron
aleatorizados para mantener la comparabilidad de los grupos. Cualquier cambio en los grupos puede
introducir sesgo porque se pierde el beneficio de control de confundidores dados por la aleatorización.
b. GUIAS SECUNDARIAS
b.1. ¿ESTABAN LOS PACIENTES, SUS MEDICOS Y PERSONAL DEL ESTUDIO CIEGOS AL
TRATAMIENTO?
Si los pacientes, los médicos, u otro personal del estudio que esté midiendo las respuestas al tratamiento
conocen a qué grupo pertenecen, es probable que tengan una opinión sobre la eficacia de la intervención y
esto puede modificar otros aspectos del tratamiento sistemáticamente. Esto reduce nuestra confianza en los
resultados del estudio.
Cuando en ciertos casos que los pacientes y/o los médicos no pueden cumplir el ciego (Ej.: tratamientos
quirúrgicos), usted debe valorar si los investigadores han minimizado el sesgo enmascarando a aquellos que
evalúan los resultados clínicos.
b.2. ¿ERAN LOS GRUPOS COMPARABLES AL INICIO DEL ESTUDIO?
A los lectores les gustaría saber que los grupos tratamiento y control eran similares al momento de la
aleatorización para todos factores conocidos que podrían modificar los resultados clínicos de interés.
Generalmente las características basales se encuentran en la “Tabla 1” en el apartado de resultados donde se
comparan los grupos obtenidos por azar.
El problema aquí no es si hay diferencias estadísticamente significativas entre los grupos (en un ensayo
aleatorizado uno sabe por adelantado que cualquier diferencia que ocurrió fue por casualidad) sino la
magnitud de estas diferencias. Es importante evaluar si las diferencias son clínicamente significativas. Si son
grandes (clínicamente diferentes), la validez del estudio puede comprometerse. No todo está perdido, hay
técnicas estadísticas que permiten el ajuste del resultado.
De acuerdo con esto, los lectores deben buscar documentación de similitud para las características basales
pertinentes, y si las diferencias fueron sustanciales, debe notar si los investigadores realizaron un análisis que
ajustó para variables no balanceadas.
b.3. ¿APARTE DE LA INTERVENCIÓN EXPERIMENTAL, HUBO ALGUNA DIFERENCIA EN EL
TRATAMIENTO RECIBIDO?
Si un grupo recibiera un seguimiento más íntimo, los eventos podrían ser más probablemente informados, o
puede tratarse a los pacientes con otras terapias que no están en estudio. Las intervenciones dignósticas o
terapéuticas diferentes al tratamiento bajo estudio se comportan como “co-intervenciones” y son un problema
serio cuando no se utiliza la técnica del doble ciego, o cuando la elección de tratamientos del grupo control es
a discreción de los médicos tratantes.
2. ¿CUALES SON LOS RESULTADOS?
2.1. ¿SON IMPORTANTES LOS EFECTOS DEL TRATAMIENTO? ¿CUAL FUE LA MAGNITUD DEL
EFECTO DEL TRATAMIENTO?
La medida fundamental que se utiliza para presentar los resultados de eficacia en los ensayos clínicos es el
riesgo relativo (RR).
Recuerde:
Incidencia en
Expuestos
RR =
Incidencia en
No Expuestos
El RR (En inglés, RR, relative risk o risk ratio) mide la fuerza de asociación entre la intervención y el evento
elegido para medir la eficacia (Ej: muerte, infarto, internación, etc...). El grupo expuesto en este caso será el
que recibe la intervención y el no expuesto será el grupo control.
El RR como razón no tiene unidades y puede tomar valores que van de cero a infinito:
• Los valores entre 0 y 0.999 implican que la incidencia en los expuestos es menor que en los no
expuestos. Por lo tanto el consumo del fármaco protege de la enfermedad. La exposición, el principio
activo, constituye un factor protector.
Por ejemplo, si la proporción de eventos en el grupo experimental es 10 % y la proporción de eventos en el
grupo control es 30 %, el riesgo relativo otorgado por la intervención terapéutica es 10/30 = 0,33.
Para interpretar mejor el efecto de la intervención se utiliza la reducción de riesgo relativo (en Inglés, RRR,
relative risk reduction). Se calcula de la siguiente manera:
RRR = (1-RR)*100
Del ejemplo anterior, 1 – 0,33=0, 67; multiplicado por 100 da 67 %. ¿Cómo se interpreta? El grupo con la
intervención presentó 67% menos eventos, en términos relativos, que el grupo control.
La RRR puede dar una impresión favorable de la efectividad de un tratamiento que parece muy beneficioso.
Debe ser cuidadoso porque una RRR elevada puede tener un impacto absoluto pobre. Para evaluar el impacto
real debe observarse también la reducción del riesgo absoluto (RRA. En inglés, ARR, absolute risk reduction
o risk difference). La RRA es la diferencia absoluta en las tasas de eventos entre los grupos evaluados:
RRA = Incidencia en no expuestos – Incidencia en expuestos
Continuando con el ejemplo anterior donde la incidencia en no expuesto fue de 30% y la de los expuestos
10%, 30 - 10 = 20%. En términos absolutos el grupo expuesto presentó 20% menos de eventos.
Esta medida de riesgo (RRA) también puede obtenerse multiplicando el RR por el riesgo inicial o basal
(incidencia en los no expuestos).
•
El RR puede también tomar el valor 1, esto ocurre cuando la incidencia en expuestos y la
incidencia en no expuestos es la misma. Esto significa que no existe asociación. El fármaco no
protege de la enfermedad ni la agrava.
•
El RR puede tomar valores superiores a 1 cuando la incidencia en expuestos en mayor que la
incidencia en no expuestos. Esto significa que el fármaco no solo no protege de la enfermedad sino
que la facilita. En este caso hablamos de factor de riesgo o posiblemente, en las intervenciones, de
eventos adversos.
2.2. ¿CUAL FUE LA PRECISION DE LA ESTIMACION DEL EFECTO DEL TRATAMIENTO?
La verdadera reducción de riesgo nunca puede conocerse; todo lo que tenemos es la estimación proporcionada
por los resultados de ensayos clínicos controlados rigurosos.
El RR calculado de la manera antes descripta, corresponde a la muestra de sujetos en la que se realizó el
estudio. Debemos tener en cuenta que el ensayo clínico se ha realizado sobre una muestra de pacientes.
Para estimar lo que ocurrirá en la población debe calcularse un intervalo de confianza a la estimación del
RR. Para hablar de lo que ocurrirá en la población total de enfermos de donde procede la muestra debemos
tener en consideración el error de muestreo.
Así, no podremos saber “exactamente” lo que ocurrirá sino que deberemos asumir una probabilidad de error
en su determinación (generalmente se asume un error del 5%), y por tanto determinaremos una medida con un
intervalo de confianza para el 95%. Esto significa que hay un 95% de posibilidades de que el valor del RR en
la población se sitúe dentro de ese intervalo calculado.
Ejemplos para la interpretación del intervalo de confianza del RR:
RR= 0,4 (IC95%: 0.2; 0.6)
En la muestra, utilizando la reducción de riesgo relativo, los tratados presentaron un 60% menos de eventos
que los no tratados. En la población la reducción de eventos se encontraría entre el 80 y el 40%, con 95% de
confianza. Por tanto, el tratamiento constituye un factor protector.
RR=3 (IC95%: 2;4)
En la muestra, por cada evento entre los no tratados con el fármaco hubo 3 evento entre los tratados. En la
población por cada evento entre los no tratados con el fármaco habría entre 2 y 4 eventos entre los tratados.
Por lo tanto, el tratamiento constituye un factor de riesgo (o efecto adverso en el caso de intervenciones).
RR=2 (IC95%: 1-3 )
En la muestra, por cada evento entre los no tratados con el fármaco hubo 2 eventos entre los tratados. En la
población, por cada evento en los que no tratados con el fármaco habría entre 1 y 3 eventos en los tratados.
Es decir que en la población puede haber una relación 1:3 ó 1:2 pero podría ser 1:1. Si por cada evento en los
no tratados esperamos un evento en los tratados, el riesgo es el mismo en ambos grupos. Por tanto, no
podemos afirmar que el tratamiento resulte factor de riesgo ni un factor protector. Cuando el intervalo de
confianza del RR incluye el “1” se dice que no existe asociación entre la exposición y la enfermedad. Es
decir, que la diferencia es estadísticamente “No significativa”.
En este caso si bien en la muestra los expuestos presentaron mayor riesgo no se puede decir que esto suceda
en la población.
RR=0.6 (IC95%: 0.2-1 )
En la muestra, utilizando la reducción de riesgo relativo, los tratados presentaron un 60% menos eventos que
los no tratados. En la población, con 95% de confianza, podemos decir que la reducción de eventos se
encontraría entre el 80 y el 0%. Un RR=1 equivale a una RRR=0%. Si por cada evento en los no tratados
esperamos un evento en los tratados, el riesgo es el mismo en ambos grupos. Por tanto, no podemos afirmar
que el tratamiento resulte protector, ni factor de riesgo tampoco. Nuevamente, cuando el intervalo de
confianza del RR incluye el “1” se dice que no existe asociación entre la exposición y la enfermedad. Es
decir, que la diferencia es estadísticamente “No significativa”.
Nota: realmente es poco probable que el límite del intervalo de confianza dé exactamente “1” pero si el
intervalo “incluye” la unidad es no significativo. Ejemplos: RR = 2 (IC95%: 0.9-3.1); RR = 0.6 (IC95%: 0.11.1)
3. ¿LOS RESULTADOS ME AYUDARAN AL CUIDADO DE MIS PACIENTES?
3.1. ¿ES MI PACIENTE DIFERENTE A LOS PACIENTES DEL ESTUDIO?
El primer enfoque para estar seguro que usted puede aplicar los resultados al paciente particular que generó la
pregunta es evaluar si su paciente cumple con los criterios de inclusión y de exclusión utilizados en el estudio.
Si el paciente cumple los criterios de inclusión, y no viola ningún criterio de exclusión, los resultados son
aplicables porque ese paciente es igual a los que ingresaron al estudio. El problema es que esta situación suele
ser infrecuente. ¿Qué hacer? Un acercamiento bueno, es el que aplica criterios de inclusión rígidamente y
criterios de exclusión preguntando si algunos son tan importantes, tratando de explicar la razón por la que los
resultados no deben aplicarse al paciente. Muchas veces no se encontrará esa razón, y a menudo usted podrá
generalizar los resultados con confianza.
Por ejemplos: Si el paciente cumple criterios de inclusión y no tiene criterios de exclusión puede aplicar la
intervención.
Si el paciente no cumple los criterios de inclusión no debe aplicar la intervención.
Si el paciente cumple los criterios de inclusión pero tiene algún criterio de exclusión responda las siguientes
preguntas:
-¿Hay alguna alternativa de tratamiento válida para el paciente que haya demostrado eficacia en pacientes
similares? Si existe, aplique la alternativa. Si no, continúe con las preguntas.
-¿El criterio de exclusión que posee el paciente, es una contraindicación del tratamiento? Si la respuesta es si,
no se puede aplicar. Si la respuesta es no, pase a la siguiente pregunta.
-¿Hay alguna explicación biológica por la cual se justifica pensar que la característica en cuestión puede
resultar en diferencias significativas en la respuesta a la intervención? Si la respuesta es si, es cuestionable la
utilización de la intervención. Si la respuesta es no, podrá aplicar el tratamiento.
Lo importante de este tipo de aplicación es que tiene que tener en cuenta que la intervención no fue probada
en pacientes iguales al suyo y que puede no ser eficaz en este grupo. Es por eso que se justifica sólo si no hay
otra alternativa válida.
3.2. ¿SE CONSIDERARON TODOS LOS RESULTADOS CLINICAMENTE IMPORTANTES?
Algunos estudios informan resultados intermedios y no resultados finales de una intervención. Por ejemplo
para evaluar un hipolipemiante con el propósito de controlar el colesterol pero secundariamente reducir el
riesgo cardiovascular, si se informan sólo los resultados sobre la disminución del colesterol, este será un
resultado intermedio. El resultado final será posiblemente un evento coronario y, más importante aún si se
reporta mortalidad (global y por causa cardiaca).
3.3. ¿EL VALOR DEL BENEFICIO DEL TRATAMIENTO SUPERA EL DAÑO POTENCIAL Y LOS
COSTOS?
Si los resultados del artículo son generalizables a su paciente y sus resultados son importantes, las próximas
preocupaciones serán si los beneficios del tratamiento merecen el esfuerzo que usted y su paciente deben
emprender. Una reducción del 25% en el riesgo de muerte puede parecer bastante impresionante, pero el
impacto en su paciente y la práctica puede ser mínima. Esto se debe a que son cifras relativas. La diferencia
de riesgo absoluta es superior para ver la significación clínica del efecto, sin embargo es poco utilizada. Se
utiliza un concepto llamado "número necesario para tratar" (NNT) que se calcula en base a la RRA.
• NNT (En inglés, NNT, number needed to treat). También se lo refiere como NTTB (Numero Necesario
para Tratar y Beneficiar): Es el número de pacientes que necesitan ser tratados para lograr un resultado
beneficioso adicional. Informa la cantidad de pacientes que debieran recibir tratamiento para evitar un evento.
Se calcula de la siguiente forma:
NNT = 100/RRA (en %)
Continuando con el ejemplo dado en RRA donde la incidencia en no expuestos fue de 30% y la de los
expuestos 10%. La RRA fue 20%. El NNT = 100/20= 5. ¿Cómo se interpreta? Se necesita tratar a 5 pacientes
durante el tiempo de seguimiento que reporte el estudio para evitar 1 evento.
Es práctico porque fácilmente se puede comparar con la tasa de eventos adversos y así evaluar relación
Riesgo / Beneficio de la intervención.
Ejemplo: En un estudio se evaluó un nuevo tratamiento para prevenir infartos en personas de riesgo. Si el
NNT fue de 500 y el artículo describe el desarrollo de anemia aplástica severa en el 0,4% de la rama
intervención. ¿El tratamiento resulta más beneficioso que perjudicial?. Piense: para evitar un infarto se
requiere tratar a 500 pacientes y el 0,4% de 500 es 2. El resultado en 500 pacientes tratados sera haber evitado
1 infarto pero provocando 2 anemias aplásticas.
C. EVALUACIÓN CRÍTICA DE ESTUDIOS SOBRE PRONOSTICO
Cuando hablamos de pronóstico, entendemos que se intenta predecir la evolución de una enfermedad u otra
circunstancia luego de su comienzo.
La historia natural de una enfermedad es el desarrollo que se observa en ausencia de intervención. En la
actualidad es difícil que los pacientes no reciban intervención alguna. Por este motivo es que se habla, en
general, de la evolución clínica de la enfermedad, considerando el cuidado clínico básico que realizan los
profesionales. El procedimiento para estudiar la evolución natural o clínica de la enfermedad es la
“Observación”. Los diseños más útiles para evaluar pronóstico son estudios con seguimiento en pacientes que
no reciben intervenciones específicas.
C.1. Riesgo
Riesgo es la Probabilidad que un "Evento" ocurra en una Población determinada en un período de tiempo
definido.
Incidencia es la medida de riesgo más utilizada dado que mide la proporción de nuevos casos de la
enfermedad que surgen en una población en un período de tiempo determinado. Informa la probabilidad que
una persona hoy sana o evento negativa, desarrolle la enfermedad (evento) en un período de tiempo
determinado por pertenecer a una población definida. Los estudios prospectivos con seguimiento de pacientes
en los que se excluyen a los individuos con el evento al inicio del estudio son los que informan incidencia.
Ejemplo:
Para estimar "Incidencia" de infecciones intrahospitalarias: se deberá realizar el seguimiento de pacientes
desde su internación hasta que presente síntomas de infección o hasta el alta. De esta manera estará seguro
que son nuevos casos. Realiza un estudio de seguimiento.
Si bien el evento de interés la mayoría de las veces se trata de algo negativo o no deseado como una
enfermedad, complicación, secuelas, muerte. En ocasiones el evento puede ser algo positivo, por ejemplo: en
estudios de parejas con problemas de fertilidad un "embarazo" pueden ser el evento de interés y resulta algo
positivo. Esta aclaración es para resaltar que el modelo es el mismo para estudiar eventos deseados o no
deseados.
Formas de calcular incidencia:
• Incidencia acumulada: Es el número de casos nuevos en relación a la población expuesta para un período
determinado. Se la utiliza cuando el tiempo de seguimiento es corto (ej: tiempo de internación) o cuando
todos los individuos del estudio fueron seguidos por igual período de tiempo (Ej.:2 años).
• Densidad de Incidencia: Esta medida de incidencia se calcula en función al tiempo de seguimiento aportado
por los individuos del estudio. Es el numero de nuevos casos que ocurren por unidad de población-tiempo.
Ejemplo: La incidencia del estudio fue de 10 casos por cada 1000 personas-año de seguimiento. Se calcula
con un cociente donde el numerador contiene el número de nuevos casos y el denominador es la suma de
tiempos de seguimiento de los individuos estudiados. Esta forma es muy practica para informar resultados
cuando los tiempos de seguimiento no son uniformes para todos los participantes.
El valor de una incidencia de un estudio es un resultado muestral, para estimar la incidencia en la población se
requiere de los intervalos de confianza. Si se elige el nivel de confianza de 95%, los valores del intervalo
obtenido se interpretan de la siguiente manera: en algún punto comprendido entre sus límites se encuentra el
verdadero valor de la variable en la población con una certeza del 95 %.
Ejemplo: Se intenta conocer la incidencia acumulada de accidente cerebro vascular al año en una población
de hipertensos severos. El resultado en la muestra fue 5%. (IC95%:2,5-7,5). Se interpreta que tenemos 95%
de confianza que el verdadero valor de dicha incidencia en la población está en algún punto entre 2,5 y 7,5%.
Lo que significa que tenemos menos del 5% de probabilidades que el valor poblacional sea menor que 2,5 o
mayor que 7,5%.
Análisis Actuariales o de Supervivencia
Se denominan Análisis de Supervivencia porque fueron pensados para la variable "Tiempo a la muerte" pero
en realidad la técnica se aplica para cualquier variable dicotómica (dos valores posibles: SI / NO, PRESENTE
/ AUSENTE, etc...) en la que el tiempo a la misma resulta de interés principal (Ej: Tiempo a la recaída,
Tiempo a la enfermedad, etc...).
Ejemplos de preguntas que pueden analizarse con técnicas actuariales o de supervivencia:
Cuánto tiempo transcurre hasta la recaída en pacientes con linfoma no Hodgkin de alto grado que recibieron
el esquema quimioterápico NN? La variable es tiempo a la recaída.
Cuál es el tiempo de supervivencia en pacientes en hemodiálisis por insuficiencia renal crónica terminal? La
variable es tiempo a la muerte.
Cuál es la probabilidad de seroconversión HIV en pacientes hemofílicos? La variables sería tiempo a la
seroconversión.
Esta técnica tiene la ventaja de poder aplicarse aún cuando los individuos de la muestra tengan diferentes
tiempos de seguimiento. Cuando un individuo de la muestra fue perdido del seguimiento y hasta el momento
de la última evaluación no había presentado el evento de interés, aporta información con los datos que se
disponen. Estas observaciones "incompletas" (presencia de datos "Censados o Censurados") son
características de los análisis actuariales y las diferencian de cualquier otro método estadístico.
Requisitos metodológicos necesarios para poder aplicar estas técnicas:
Punto de partida definido: debe elegirse un punto de partida que sea objetivo y aplicable en forma
homogénea para todos los participantes y para un momento similar en la historia de la enfermedad. Es
fundamental cuando el punto de partida es previo al ingreso del paciente al estudio. Entonces, las fechas
de la primer internación, del inicio de tratamiento, etc... pueden ser inicios objetivos y aplicables de igual
manera a todos. Por otro lado, el inicio de los síntomas puede ser lo suficientemente vago como para ser
considerado un punto de partida apropiado.
Punto Final claro y definido: sabemos que debe ser una variable dicotómica. Si se trata de muerte, no hay
dudas que es un punto final definido, pero puede elegirse otra variable. La metodología no acepta
episodios múltiples, períodos de exacerbación o remisión o lesiones múltiples.
Hay dos características distintivas de este tipo de análisis.
La primera es que los pacientes pueden incluirse en el estudio en tiempos diferentes y al final de estudio
fueron observados por diferentes períodos de tiempo (En el ejemplo: año calendario). Esto requiere que
para el análisis se homogenice el inicio y que el ingreso al estudio se transforme en tiempo cero para
todos (En el ejemplo: años de seguimiento).
1990
Año Calendario
1991 1992 1993 1994
vivo
Pte. A
vivo
Fallecido
Fallecido
1
Años de seguimiento
2
3
4
Pte.B
5
vivo
vivo
Pte.C
Fallecido
Pte.D
Fallecido
La segunda es que al momento de finalizar el estudio se desconocen los puntos finales de algunos
pacientes (Ej: Paciente B). Estas observaciones “incompletas” se denominan datos “Censados o
Censurados”.
Generalmente se informa la mediana del tiempo de seguimiento (los tiempos de seguimiento tienen
distribución asimétrica con una cola larga a la derecha por lo que no corresponde informar media) y la
mediana del tiempo de supervivencia.
Existen 2 formas ampliamente utilizadas para informar los resultados de este tipo de estudios: las tablas de
vida y el método de Kaplan-Meier. La principal diferencia es que en el primer caso los cálculos de
probabilidad se realizan para períodos de tiempo fijos y en el segundo caso, los cálculos se realizan cada vez
que se registra un evento (muerte).
Ejemplos:
Curva con Tabla de vida donde los periodos de tiempo se definieron con intervalos de 30 días.
Proportion Surviving
1
.8
.6
.4
0
100
200
seguim
300
400
Con el método de Kaplan-Meier el cálculo de la función de supervivencia se realiza sólo cuando ocurre un
evento. La probabilidad de supervivencia se recalcula cada vez que se presenta una muerte:
Kaplan-Meier survival estimate
1.00
0.75
0.50
0.25
0.00
0
5
10
15
analysis time
La estimación de la probabilidad de supervivencia en cada tiempo debería acompañarse con intervalos de
confianza sobre la curva que se grafican como líneas verticales (en el gráfico se intenta ejemplificar intervalos
de confianza a los 3, 6 y 9 meses de seguimiento). Muchos pacientes tienen poco tiempo de seguimiento pero
los que tienen mucho tiempo de seguimiento son menos, esto explica porqué los intervalos de confianza son
más anchos en las partes más bajas de la curva (el tamaño de la muestra en esos puntos es menor).
C.2. Factores de riesgo y factores pronóstico:
Un "Factor de Riesgo" es una variable que cuando está presente aumenta la probabilidad que un evento ocurra
en una población "sana". Es decir que la presencia del factor se relaciona con mayor probabilidad de
enfermar.
Un "Factor Pronóstico" es una variable que cuando está presente aumenta la probabilidad que un evento
ocurra en una población "enferma" (una patología en particular). Es decir que la presencia del factor se
relaciona con mayor probabilidad de muerte, secuelas o complicaciones.
Los estudios Analíticos Observacionales evalúan esta relación entre 2 tipos de variables:
- el "Evento".
- el "Factor de Riesgo" ó "Factor Pronóstico".
Hay diferentes diseños utilizados para analizar factores de riesgo y factores pronósticos:
Estudios de Cohorte:
La característica de este estudio es que toma a una población (Cohorte) que al ingreso al estudio suelen ser
"evento negativa". La ventaja principal es que permite estimar incidencia (puede estar seguro que son "nuevos
casos" si ninguno tenía el evento al inicio) en expuestos y no expuestos al factor en estudio y por lo tanto
permite calcular Riesgo Relativo. Se clasifica a los participantes en por lo menos 2 grupos: los expuestos al
factor y los no expuestos. La exposición es independiente del investigador que sólo “observa” la realidad sin
modificar nada. La limitación más importante es que son caros, llevan mucho tiempo y pueden perder gran
parte de la muestra inicial durante el seguimiento. Estas limitaciones se observan sobre todo en los estudios de
factores de riesgo dado que se parte población sana donde la incidencia de eventos es menor.
Si las pérdidas de seguimientos son superiores al 20% hace que las conclusiones del trabajo no puedan
extrapolarse a la población blanco u objetivo definida en el estudio.
Presentación de Resultados en estudios de Cohorte:
Riesgo Relativo (RR): (Incidencia en Expuestos / Incidencia en No Expuestos). La interpretación se
resume a:
Si el RR es mayor que 1: se considera un factor de riesgo
Si el RR es menor que 1: se considera un factor de protección
Si el RR = 1: no hay asociación entre el factor y el evento. En este caso hubo un evento en los expuestos por
cada evento en los no expuestos. La incidencia fue la misma en ambos grupos.
El principal problema de los estudios observacionales es que no logran grupos comparables (no hay
aleatorización). Por este motivo, no se logra controlar a los confundidores en el diseño y deben controlarse en
el análisis. Se suelen presentar datos ajustados cuando se trate de un confundidor y resultados en diferentes
subgrupos definidos por la variable a controlar si se trata de un modificador de efecto (análisis estratificado).
Cuando los confundidores no son muchos, se realiza el ajuste del RR mediante una técnica denominada
Mantel-Haenszel. Cuando las variables a controlar son numerosas, se suele realizar análisis estadístico
multivariable. En general lo que se utiliza cuando el evento es dicotómico es “Regresión Logística Múltiple”.
Informa OR ajustados (no RR ajustados) y es por este motivo que muchos estudios de Cohorte informan OR
en lugar de Riesgo Relativo. Tanto el RR como el OR ajustado informa cuántos eventos en los expuestos al
factor en relación con los no expuestos se esperan cuando las variables que se utilizaron para el ajustar se
mantienen constantes.
Análisis Actuariales o de Supervivencia
En estudios donde se evalúan posibles factores de riesgo o pronósticos y la variable de resultado es el “tiempo
al evento”, nuevamente corresponde utilizar técnicas actuariales.
Ejemplos de preguntas:
El tiempo de supervivencia es mayor en pacientes que reciben transplante de médula ósea luego de la primer
remisión que los que no lo realizan en pacientes con leucemia linfática aguda.
El tiempo hasta un nuevo episodio sintomático es mayor en quienes reciben la droga XX que los que no lo
hacen en pacientes con esclerosis múltiple luego del síntoma inicial.
Ejemplo:
Se comparan curvas de Kaplan-Meier en varones (male=1) y mujeres (male=0).
Kaplan-Meier survival estimates, by maled
1.00
0.75
maled 1
0.50
0.25
maled 0
0.00
0
5
10
15
analysis time
Para evaluar si la diferencia entre ambos grupos es significativa, se puede calcular un valor de “p” realizando
“logrank test”. Se trata de una prueba estadística no paramétrica en la que se evalúa cuál es la probabilidad
que las diferencias en la distribuciones de eventos en el tiempo se deban al azar. El valor de “p” nos informa
cuál es la probabilidad que la diferencia entre las curvas se deba al azar.
También puede corresponder realizar ajuste para posibles confundidores. En estos casos donde la variable de
resultado es el “tiempo al evento” se suele utilizar un análisis multivariable que se denomina Análisis de
regresión de Cox. El análisis de Cox informa Hazard Ratios (HR) ajustados que se interpretan como riesgos
relativos.
Estudios de Casos y Controles:
En los estudios de casos y controles se compara la exposición a la que estuvieron sometidas un grupo de
personas enfermas (casos) con la exposición sufrida por un grupo de personas sanas (controles). Por tanto, el
criterio para seleccionar la población estudio es la presencia o la ausencia de la enfermedad, y no la
exposición como en los estudios de cohorte. Son útiles cuando la frecuencia del evento es muy baja y hace
imposibles realizar un estudio con seguimiento. La principal limitación del diseño es encontrar los controles
válidos que deben ser lo más parecidos a los casos excepto por ser evento negativos. Cuando no se cumple
este requerimiento suelen cometerse sesgos importantes. Generalmente se recogen todos los casos que se
producen en un período de tiempo. Los controles han de provenir de la misma población hipotética de la que
surgen los casos. O dicho de otra forma, los controles han de ser seleccionados entre los que, de haber
desarrollado la enfermedad, serían considerados como casos.
Tienen la desventaja que no hay certezas sobre que realmente la exposición anteceda al evento aunque se
pregunte si había exposición previo al conocimiento de la enfermedad (podría ser que la enfermedad o evento
ya existiera en forma subclínica).
En el estudio de casos y controles se deben recoger los datos sobre las exposiciones objeto de interés, tanto
para los casos como para los controles, con igual técnica. En los estudios de casos y controles la valoración de
la exposición, de la “causa”, se realiza una vez que ya ha aparecido el efecto, ya que los grupos se forman en
base en la presencia / ausencia del evento o enfermedad. Y como la “causa” siempre ha de preceder al efecto,
se ha de valorar la exposición en un momento anterior a la aparición del efecto y, por tanto, también anterior a
la realización de la entrevista.
Una de las principales limitaciones de los estudios de Caso/Control se encuentra en el sesgo de recuerdo o de
memoria. Éste surge cuando se preguntan por exposiciones en ventanas etiológicas muy alejadas del momento
del diagnostico de la enfermedad en enfermedades graves (cáncer) o que supone un grave trauma psicológico
(malformaciones congénitas). En estas dos últimas circunstancias los casos realizan un esfuerzo mucho mayor
que los controles sanos para recordar las exposiciones. Además, la presencia o magnitud del sesgo, para una
misma enfermedad, varía en función de las exposiciones, de manera que no es predecible antes de empezar el
estudio. Este sesgo se produce fundamentalmente por la condición de sanos de los controles. Por ello, una
forma de evitar este sesgo es seleccionar como controles a personas sanas con respecto a la enfermedad de
interés, pero que sean enfermos de otras patologías y, de ser posible, con el mismo grado de gravedad. Si el
interés está en el estudio de los FR de un determinado cáncer, se puede tomar como controles a enfermos de
otro cáncer. Sin embargo, este tipo de abordaje siempre presenta el inconveniente de que la enfermedad de los
controles puede estar relacionada, positiva o negativamente, con la exposición de interés, con lo que
podremos introducir un nuevo sesgo.
Otro de los aspectos a tener en cuenta a la hora de valorar la exposición es la subjetividad del entrevistador. Si
un investigador (o grupo de investigadores) destina recursos, tiempo y esfuerzo a al realización de un estudio
es para obtener resultados positivos: o sea, existe relación entre el FR y la enfermedad. Por ello, el
investigador a la hora de entrevistar sobre la exposición a los casos posiblemente lo haga con más insistencia
que a los controles, aunque sea de forma inconsciente. Para evitar este sesgo, es útil que el entrevistador se
encuentre ciego respecto a la pertenencia del sujeto que entrevista al grupo de casos o de controles.
Estos estudios no permiten calcular incidencia ni prevalencia del evento. Sólo se puede calcular la prevalencia
del factor de riesgo en los que tienen el evento (casos) y en los que no (controles). Por esta razón es que al
momento de analizar los datos no se puede calcular riesgo relativo (RR). Se utiliza un estimador del riesgo
relativo denominado razón de productos cruzados ú odds ratio (OR). La forma de interpretar los resultados es
leerlo como si fuera un RR. Al igual que en el caso de los estudios de cohorte, se suelen informar OR
ajustados por técnica de Mantel-Haenszel o por regresión logística múltiple.
Estudios de Corte Tranversal:
Son estudios en los que se mide en el mismo momento la presencia del factor y la del evento. Tienen la
desventaja que, como no permite establecer temporalidad, puede considerarse como factor de riesgo una
variable que en realidad es consecuencia del evento. El hecho que se midan simultáneamente todas las
variables da lugar a su nombre, ya que se realiza un corte transversal en el tiempo y valoramos todas las
variables conjuntamente. A diferencia de los estudios de cohortes y de CC, en los que existe secuencia
temporal entre la exposición y el efecto, en los estudios transversales esta no existe. Por lo tanto, se dificulta
el establecimiento de relaciones causales. Así, si queremos analizar la relación entre el consumo de
analgésicos y el riesgo de trastornos renales, y elaboramos un estudio transversal mediremos simultáneamente
el consumo de analgésicos y la presencia de trastornos renales (TR). Si observamos una relación entre
consumo de analgésicos y TR, esta relación se puede deber a que los analgésicos aumenten el riesgo de TR o
a que las personas al padecer TR, debido al dolor, consuman más analgésicos. Los resultados de la asociación
se informan como OR.
C.2. Guía para la evaluación crítica de un artículo sobre pronostico
1. ¿SON VALIDOS LOS RESULTADOS DEL ESTUDIO?
a. GUIAS PRIMARIAS
a.1. ¿FUE UNA MUESTRA REPRESENTATIVA Y BIEN DEFINIDA DE PACIENTES EN UN
MOMENTO SIMILAR EN EL CURSO DE LA ENFERMEDAD?
Esta guía aborda dos problemas relacionados. Hasta qué punto están bien definidos los individuos en estudio,
y si son representativos de la población subyacente. Los autores deben describir y especificar su criterio para
establecer que el paciente tiene el desorden de interés y cómo seleccionaron su muestra.
Varios sesgos relacionados con la definición de población deben tenerse en cuenta. El "Sesgo de Selección"
se comete cuando los individuos de la muestra presentan alguna característica que los hacen no
representativos de toda la población de interés inicial. Ejemplo: si se estudian pacientes de un centro de
referencia con alta derivación de casos problemas, no será representativo de toda la población sino del
espectro más grave de la misma.
El segundo problema es si los pacientes están todos en un punto similar, bien definido en el curso de su
enfermedad. Los autores deben proporcionar una descripción clara de la fase de enfermedad en la que los
pacientes entraron en el estudio.
a.2. ¿FUE EL SEGUIMIENTO COMPLETO Y LO SUFICIENTEMENTE PROLONGADO?
La presencia de un factor pronóstico a menudo precede el desarrollo de un evento por un período largo, los
investigadores deben seguir a los pacientes por mucho tiempo hasta descubrir los resultados de interés.
Con suerte, los investigadores tendrán éxito siguiendo a todos los pacientes, pero éste a menudo no es el caso.
Normalmente no se pierden pacientes por razones aleatorias. Los pacientes pueden no volver porque han
sufrido eventos de interés para el estudio. Recíprocamente, pacientes que se sienten completamente saludables
pueden no volver para la evaluación porque se sienten bien.
¿Bajo qué circunstancias la pérdida compromete la validez de un estudio? Es importante que usted considere
la relación entre la proporción de pacientes que están perdidos y la proporción de pacientes que han sufrido el
resultado adverso de interés. Cuanto mayor es el número de pacientes cuyo destino es desconocido respecto al
número que ha sufrido un evento, mayor amenaza a la validez presenta el estudio.
b. GUIAS SECUNDARIAS
b.1. ¿FUERON OBJETIVOS Y NO SESGADOS LOS RESULTADOS UTILIZADOS?
Los investigadores deben proporcionar una definición clara de resultados adversos antes del inicio del estudio.
Los resultados pueden variar entre los que son objetivos y de fácil medición (muerte), a aquellos que
requieren algún juicio subjetivo (infarto), a los que requieren considerable subjetividad, y puede ser a menudo
difícil de medir (invalidez, calidad de vida). Para minimizar el sesgo, el individuo encargado de medir los
resultados no debe saber si el paciente tenía un potencial factor pronóstico. Esto no siempre es posible, y para
los eventos inequívocos como la muerte puede no ser necesario.
b.2. ¿SE LLEVO A CABO UN AJUSTE PARA LOS FACTORES PRONOSTICOS MAS IMPORTANTES?
Al comparar dos grupos de pacientes, los investigadores deben considerar si sus características clínicas son
similares, y deben ajustar el resultado para cualquier diferencia importante. En el estudio de Framingham
informaron que la proporción de ACV en pacientes con fibrilación auricular y enfermedad reumática cardiaca
era 41 por 1000 persona-años de seguimiento, que era muy similar a la proporción descripta para pacientes
con fibrilación auricular pero sin enfermedad reumática. Sin embargo, los pacientes con enfermedad
reumática eran más jóvenes que aquellos que no la tenían. Una vez ajustados los resultados para edad, sexo e
hipertensión, los investigadores encontraron que la frecuencia de ACV era 6 veces mayor en los pacientes con
enfermedad reumática y fibrilación auricular que en pacientes con fibrilación auricular que no tenía
enfermedad reumática.
2. ¿CUALES SON LOS RESULTADOS?
2.1. ¿CUAL ES LA MAGNITUD DE LA PROBABILIDAD DE UN EVENTO EN UN PERIODO
ESPECIFICADO DE TIEMPO?
Los estudios con seguimiento podrán estimar la incidencia de eventos dicotómicos como muerte y recaída
(valores posibles son "si" o "no")
Los resultados cuantitativos de los estudios de riesgo son el número de eventos que ocurren con el tiempo,
generalmente expresados como "Incidencia". Las maneras de informar dicho riesgo es diferente según el
diseño del estudio. Cuando todos los individuos del estudio fueron seguidos durante igual período de tiempo
se informará la "incidencia acumulada". Cuando los individuos del estudio fueron seguidos por diferentes
períodos de tiempo se informará la "densidad de incidencia".
Cuando se evalúa la exposición a un posible factor de riesgo y se compara el riesgo de los expuestos con el de
los no expuestos se pueden utilizar Riesgo Relativo (RR) para informar los resultados.
El RR puede calcularse si el diseño permite calcular incidencia como en estudios de Cohorte pero no es
posible hacerlo en otros diseños como en casos y controles. En este último caso, se puede encontrar
informado el Odds Ratio. En estudios actuariales donde se analiza la variable “tiempo al evento” puede
encontrar informado la relación de riesgo o peligro (En ingles: Hazard Ratio ó HR). El HR resume la relación
entre la proporción de eventos de 2 grupos diferentes (expuestos y no expuesto) en estudios de seguimiento y
se interpreta exactamente igual que un riesgo relativo.
A diferencia de los ensayos clínicos aleatorizados donde es posible lograr el control de confundidores con el
diseño, los estudios observacionales deben controlar a los mismos mediante el análisis estadístico. En estos
casos se informan RR, OR ó HR ajustados por las variables correspondientes. Para ajustar por otros factores o
variables suele utilizarse técnicas multivariables como la Regresión Logística Múltiple (informa OR ajustado)
o el análisis de regresión múltiple por el método de Cox (informa HR ajustados).
2.2. ¿SON PRECISAS LAS ESTIMACIONES?
Los intervalos de confianza darán el rango de valores del Riesgo relativo o del Hazard Ratio esperables en la
población para el nivel de confianza especificado. Si se eligió confianza del 95%, significa que tendremos un
5% de probabilidad que el valor real esté fuera del rango definido dentro del intervalo. Cuanto más anchos los
intervalos de confianza menos precisas serán las estimaciones del riesgo.
3.
¿LOS RESULTADOS ME AYUDARAN AL CUIDADO DE MIS PACIENTES?
3.1. ¿LOS PACIENTES DEL ESTUDIO ERAN SIMILARES AL MIO?
Los autores deben describir a los pacientes del estudio con bastante detalle para permitir la comparación con
sus pacientes. El artículo debe listar las características clínicas importantes de los pacientes, junto con las
definiciones usadas para estas características.
3.2. ¿CONDUCIRAN LOS RESULTADOS DIRECTAMENTE A SELECCIONAR O EVITAR UN
TRATAMIENTO?
Sabiendo el curso clínico esperado de la condición de su paciente pueden ayudarle a juzgar si el tratamiento
debe ofrecerse. Por ejemplo, la warfarina disminuye el riesgo de ACV en pacientes con fibrilación auricular
no reumática. Sin embargo, en un estudio la frecuencia de ACV en pacientes menores de 60 años con
fibrilación auricular sin desórdenes cardiopulmonares asociados era del 1.3% a los 15 años. Probablemente
los riesgos del tratamiento a largo plazo en este grupo de pacientes pesan más que los beneficios.
3.3. ¿LOS RESULTADOS SON UTILES PARA TRANQUILIZAR O ACONSEJAR A MIS PACIENTES?
Aun cuando el resultado no lo lleva a prescribir una terapia eficaz, todavía puede ser clínicamente útil. Un
resultado válido, preciso y generalizable es muy útil para tranquilizar a un paciente o pariente.
D. EVALUACIÓN CRÍTICA DE ESTUDIOS SOBRE ETIOLOGÍA O DAÑO
En ocasiones la pregunta se relaciona con saber si un tratamiento o una exposición al medio ambiente anterior
o actual ha causado algún daño o puede causarlo. La pregunta se relaciona con si la exposición es la causa del
evento. Para dar marco a analizar este tipo de pregunta es importante recordar los principios aceptados para
fortalecer hipótesis de relación causa-efecto en estudios estadísticos.
D.1. Criterios de causalidad de Bradford-Hill.
• Secuencia temporal lógica
La exposición debe preceder claramente al efecto. Los Ensayos clínicos y los estudios de Cohorte
prospectivas logran este criterio.
• Fuerza de la asociación
Cuánto más fuerte resulta la asociación, más probable que la relación sea causal. Corresponde evaluar la
magnitud de las medidas de asociación (Riesgo Relativo- Odds Ratio-Hazard Ratio)
• Evidencia experimental
Se logra al comparar grupos expuesto y no expuestos en un ensayo clínico aleatorizado. No siempre es
posible obtener estas evidencias, incluso por razones éticas.
• Relación dosis-respuesta
Debe existir una relación evidente entre la magnitud de la exposición y la del efecto. Algunos realizan una
correlación entre dosis recibidas y riesgo de enfermar. Otros realizan una correlación entre años de
tratamiento y probabilidad de enfermar.
• Fundamento biológico
Si no existe una explicación fisiopatológica que justique la asociación es más difícil de pensar que la misma
no se deba al azar. Si hay evidencias de estudios in vitro y/o animales puede ayudar a fortalecer la hipótesis.
• Consistencia de la asociación
La asociación ha sido observada en diferentes estudios procedentes de diferentes autores y comunidades.
Cuando los resultados de diferentes investigaciones coinciden en la dirección de la asociación es menos
probable que se deba a un resultado por azar.
• Especificidad de la asociación
Diferentes estudios aportan similares evidencias de un mismo efecto para una exposición en particular.
De los criterios de Bradford-Hill, es imprescindible que se cumplan:
- temporalidad
- fuerza
- fundamento biológico
Los restantes sirven para reforzar la sugerencia de causalidad.
Dado que el diseño del estudio determina los grupos de comparación, se revisan los diseños básicos por
separado:
Ensayos Clínicos aleatorizados
Un ensayo aleatorizado es un verdadero experimento en que se asignan los pacientes, por un mecanismo
aleatorio, al agente causal o alternativa (otro agente o ninguna exposición en absoluto). Raramente se hacen
los ensayos aleatorizados para estudiar las posibles exposiciones nocivas, pero si un ensayo aleatorizado biendiseñado demuestra una relación importante entre agente y un evento adverso, los médicos pueden estar
seguros de los resultados.
Estudios de Cohorte
Cuando no es factible o no es ético asignar a los pacientes al azar a un agente causal, los investigadores deben
encontrar una alternativa a un ensayo aleatorizado. En un estudio de cohorte, el investigador identifica grupos
expuestos y no-expuestos de pacientes y entonces los sigue en el tiempo, mientras supervisa la ocurrencia del
resultado. Se impone documentar las características de los grupo expuestos y no-expuestos y demostrar si son
comparables o usar técnicas estadísticas para ajustar los resultados.
Estudios de caso-control
Cuando el resultado de interés o es muy raro o toma un tiempo largo para desarrollarse, los estudios de
cohorte tampoco pueden ser factibles. Los investigadores pueden usar un diseño alternativo. Se identifican los
casos (pacientes que ya han desarrollado el resultado de interés). Eligen controles (personas que no tienen el
resultado de interés), pero similares a los casos con respecto al determinantes importante de resultado como la
edad, sexo y condiciones médicas coexistentes. Los investigadores pueden evaluar entonces
retrospectivamente la frecuencia relativa de exposición al agente nocivo entre los casos y controles. Como
con los estudios de cohorte, los estudios caso-control son susceptibles de sesgos por características no
medidas. Por consiguiente, la fuerza de la inferencia que puede deducirse de los resultados puede estar
limitada.
Series de casos
Las series del caso y registros oficiales de casos no proporcionan ningún grupo de la comparación, son
estudios descriptivos y es por consiguiente incapaz de satisfacer los requisitos del primer criterio primario de
la guía. Sin embargo, de vez en cuando estos estudios demuestran resultados dramáticos que asignan un
cambio inmediato en la conducta del médico (por ejemplo: la talidomida). Los médicos no deben deducir las
conclusiones sobre la causa y relaciones de efecto de las series del caso, pero deben reconocer que los
resultados pueden generar preguntas para organismos de control e investigadores clínicos.
D.2. Guía para la lectura crítica de estudios sobre daño o etiología
1.¿SON VALIDOS LOS RESULTADOS DEL ESTUDIO?
a. GUIAS PRIMARIAS
a.1. ¿SE HAN UTILIZADO GRUPOS DE COMPARACIÓN CLARAMENTE IDENTIFICADOS, QUE
ERAN SIMILAR RESPECTO AL DETERMINANTE IMPORTANTE DE RESULTADO, APARTE DEL
QUE SE INVESTIGA?
En un estudio que identifica una exposición posiblemente nociva, la elección de grupos de comparación tiene
una influencia enorme en la credibilidad de los resultados. El diseño del estudio determina los grupos de
comparación, un ensayo clínico randomizado es el que mejor cumple este requisito. Sin embargo es el diseño
menos frecuente. Se recomienda revisar las características de los grupos comparados (tabla 1) para identificar
posibles factores que requieran ajuste.
a.2. ¿SE MIDIERON LAS EXPOSICIONES Y RESULTADOS DE LA MISMA MANERA EN LOS
GRUPOS COMPARADOS?
En los estudios de caso-control, la medida de la exposición es un problema importante. Los pacientes con
leucemia, cuando se preguntó por la exposición a solventes, los casos probablemente recordaran la exposición
mejor que los controles (Sesgo de recuerdo). Se debe insistir sobre si los investigadores usaron estrategias
como el ciego de la hipótesis del estudio para entrevistadores, para minimizar el sesgo. La oportunidad de la
exposición también debe ser similar entre los casos y controles. En Ensayos Clínicos y estudios de cohorte, la
determinación del resultado es un problema importante. Una posible explicación para el riesgo aumentado
podría ser que médicos, conscientes de un posible riesgo, investiguen más diligentemente y por consiguiente
descubran enfermedad que podría pasar inadvertida de otra manera (o descubre la enfermedad más temprano).
Esto podría producir un "Sesgo de vigilancia".
a.3. ¿HA SIDO EL SEGUIMIENTO SUFICIENTEMENTE LARGO Y COMPLETO?
El tiempo apropiado dependerá de la variable de resultado a comparar. Se debe comparar con el tiempo en el
que se estima aparecerán los eventos. Cada paciente que inició el seguimiento debería haberse evaluado al
final del estudio. Si un número sustancial de pacientes se informan como "pérdidas de seguimiento", la
validez del estudio será cuestionable. Recuerde que estos pacientes a menudo tienen pronóstico diferente de
aquellos que completan el seguimiento.
b. GUIAS SECUNDARIAS
b.1. ¿ES CORRECTA LA RELACIÓN TEMPORAL?
¿La exposición al agente precede el resultado adverso? Puede ocurrir que lo que parece un factor nocivo en
realidad se indica a pacientes que ya tienen alguna característica que podría considerarse el evento.
b.2. ¿HAY UN GRADIENTE DOSIS-RESPUESTA?
Podemos atribuir con mayor seguridad un resultado adverso a una exposición particular si, a medida que
aumenta la cantidad o la duración de la exposición al agente aumenta el riesgo del resultado adverso.
1.
¿CUALES SON LOS RESULTADOS?
2.1. ¿CUÁN FUERTE ES LA ASOCIACIÓN ENTRE LA EXPOSICIÓN Y EL RESULTADO?
La manera más común de expresar una asociación entre la exposición y el resultado es el riesgo relativo o
hazard ratio. El riesgo relativo no es aplicable a diseños de caso-control por lo que se utiliza Odds Ratio que
es un estimador del riesgo relativo.
Dado que los ensayos clínicos controlados aleatorizados presentan mayor control de posibles sesgos se
acepta que un RR>1 es suficiente para determinar la asociación. En diseños observacionales es imposible
controlar todas las variables por lo que hay una sugerencia de considerar significativa la asociación cuando el
RR>3 en estudios de Cohorte ó cuando el OR>4 en estudios Caso-Control.
1.2. ¿CUÁN PRECISA ES LA ESTIMACIÓN DEL RIESGO?
En un estudio en que los investigadores han mostrado una asociación entre una exposición y un resultado
adverso, el límite más bajo de la estimación de riesgo relativo (intervalo de confianza) proporciona una
estimación mínima de la fuerza de la asociación. En un estudio dónde los investigadores no demuestran una
asociación (“estudio negativo”), el límite superior del intervalo de confianza del riesgo relativo le dice al
médico cuán grande puede ser el efecto adverso, a pesar del fracaso para demostrar una asociación
estadísticamente significativa.
2.
¿CUALES SON LAS IMPLICANCIAS PARA MI PRACTICA CLINICA?
3.1. ¿LOS RESULTADOS SON APLICABLES A MI PRÁCTICA CLÍNICA?
Si los resultados del estudio son válidos para la población que se estudió, usted tiene que decidir entonces si
puede extrapolar los resultados a los pacientes en su propia práctica. ¿Sus pacientes son similares a aquellos
descritos en el estudio con respecto a la morbilidad, edad, raza u otros factores potencialmente importantes?
¿Hay diferencias importantes clínicamente en los tratamientos o exposiciones entre sus pacientes y los
pacientes estudiados?
3.2. ¿CUÁL ES LA MAGNITUD DEL RIESGO?
El riesgo relativo y el Odds Ratio no nos dicen la frecuencia con la que el problema ocurre, sólo que el efecto
observado ocurre más a menudo en el grupo expuesto. Para contestar este punto sería recomendable utilizar el
equivalente al NNT pero llamado Número Necesario para Dañar (NNTD).
NNTD (en Ingles NNH, number needed to harm) es el número de pacientes mínimo que, si recibiesen el
tratamiento experimental, se tendría un efecto adverso adicional comparado con el tratamiento convencional o
control. Cálculo: 1/diferencia de riesgo absoluta.
3.3. ¿DEBO INTENTAR DETENER LA EXPOSICIÓN?
Después de evaluar la evidencia sobre si una exposición es nociva, determinar las acciones subsecuentes
puede no ser simple. La decisión clínica es simple cuando la probabilidad y la magnitud del daño son grandes.
La decisión clínica también es fácil cuando una alternativa aceptable por evitar el riesgo está disponible.
Aun cuando la evidencia es relativamente débil, la disponibilidad de una alternativa puede producir una
decisión clara.
E. EVALUACION CRITICA DE ESTUDIOS SOBRE METODOS DE DIAGNÓSTICO:
Cuando solicita un test diagnóstico en medicina, en realidad está tratando de clasificar a un individuo como
sano o enfermo respecto a una determinada patología. Pero desgraciadamente no existe el test perfecto. Aún
los test considerados “Gold Standard” pueden tener falsos positivos y falsos negativo.
Definición: PATRON DE ORO (GOLD STANDARD) es el método que mejor clasifica “enfermos” y
“sanos” respecto a un determinado diagnostico. Posee una adecuada certeza para establecer un diagnóstico
por lo que la comunidad científica lo acepta como un estándar contra el cual un nuevo test puede ser
comparado. La convención establece que en el marco de una investigación aquel individuo que posee un
resultado positivo del gold standard está enfermo y el que tiene un resultado negativo está sano para la
patología en cuestión. Es importante remarcar que un estudio puede ser gold standard para un determinado
diagnóstico y no para otros. Cada enfermedad o condición tiene su propio Gold standard y el “sano” que
diagnosticamos con un resultado negativo implica que no tiene esa patología pero puede estar enfermo de otra
cosa.
E1. Valores Normales de un test
Recuerde que cuando se determinan los “valores de referencia” (límites de valores para considerar que el
resultado es normal) de un método de diagnóstico que se mide en forma numérica (ejemplo: glucemia en
mg%) en realidad se utilizan probabilidades. Dentro de los límites establecidos es muy probable que esté sano
y fuera de los límites es poco probable (pero no imposible) que esté sano.
Para elegir esos valores generalmente se estudia a un número importante de personas “sanas” y, si la variable
tiene distribución simétrica se puede utilizar las “bandas de confianza” según las cuales con la media
mas/menos dos desvíos estándar se encontrará al 95 por ciento de la población.
Ejemplo: la media fue de 100 y el desvío estándar fue de 10 = los valores de referencia serán 80 a 120. Al
aplicarlo en la práctica significa que se considerará patológico a valores menores de 80 ó mayores de 120
porque hay menos de 5% de probabilidad de pertenecer a una población “sana” si los valores está por fuera de
dicho rango.
Pero con esta manera estadística de elegir un valor de corte ya sabemos que desde el principio hay un grupo
de personas normales que quedan por fuera (5%). De allí surgen los falsos positivos de un test. Al mismo
tiempo, los enfermos pueden tener una distribución que se superpone con la de los sanos, como se puede ver
en la figura:
Sanos
Falsos
Negativo
Punto
de corte
Falsos
Positivos
Allí podemos observar los falsos negativos de un test.
La función clasificatoria de los exámenes diagnósticos hace que se identifiquen categorías pero al medir
conceptos "vagos", donde los límites de uno y otro se superponen y hace que la clasificación no sea perfecta.
Para poder utilizarlos necesitamos saber cuánto error se puede cometer al utilizar el método y por ello es
necesario conocer las características del método.
E2. Características de los métodos de Diagnóstico
Para poder evaluar si un test es utilizable en la práctica debemos analizar su confiabilidad y validez:
• Confiabilidad ó Precisión: es el grado en que el método de diagnóstico obtiene casi el mismo valor cuando
se realizan mediciones repetidas en el mismo individuo. Es una medida relacionada con la reproducibilidad de
las mediciones.
• Validez ó Exactitud: es el grado en que el resultado de la medición con el método de diagnóstico representa
lo que se quiere medir. En el caso de métodos de diagnóstico, representa la capacidad de clasificar
correctamente enfermos y sanos respecto a una patología.
Importante: un método que no es confiable tampoco es válido.
Medidas de Precisión
Lo más importante es entender que cuando se habla de precisión estamos refiriéndonos a mediciones repetidas
en el mismo individuo. Por ejemplo un solo paciente es examinado 10 veces por el mismo médico quien
registra su presión arterial. Los 10 valores serán similares pero no exactamente iguales. La diferencia se debe
a la variabilidad propia del individuo, la variabilidad del observador (médico) y la variabilidad del
instrumento (tensiómetro).
Es habitual que los estudios informen la confiabilidad de algún método de diagnóstico cuando miden la
variabilidad intra-observador o Inter-observador.
Ejemplo: Un ecografista realiza el mismo estudio 2 veces a cada uno de los individuos de la muestra. Se mide
la variabilidad intra-observador y se busca decir que las mediciones realizadas por ese ecografista son
reproducibles.
Dos médicos diferentes realizan palpación hepática para establecer presencia de hepatomegalia a un grupo de
pacientes. Se busca evaluar la concordancia entre ambos observadores y se mide como la variabilidad interobservador.
Los test estadísticos que se aplican para medir precisión depende de la escala de medición que admite el
método de diagnóstico. Para evaluar variabilidad intra o interobservador de un método registrado en escala
nominal se calcula el Indice Kappa.
Cuando se comparan 2 o más mediciones en un mismo individuo, es esperable que algunas coincidan sólo por
azar. El índice Kappa permite calcular la concordancia observada más allá de la esperada sólo por azar.
Si la concordancia absoluta es mayor al 90% la misma es óptima y no hace falta calcular Kappa pero con
valores de concordancia absoluta menores de 90% se recomienda utilizar Kappa.
Ejemplo:
0
1
En general se acepta que valores de Kappa menores de 0,4 representan baja concordancia, entre 0,4 y 0,6 es
regula, entre 0,6 y 0,8 es buena y más de 0,8 es óptima.
Validez de un Método de Diagnóstico
Cuando se quiere conocer las características operativas de un nuevo método de diagnóstico, la situación ideal
es compararlo contra el estándar de referencia (Gold Standard).
El estudio ideal es un Corte transversal en cual la población de individuos en estudio esté formada por
algunos que tienen y otros no tienen la patología en estudio.
Se construye una tabla de doble entrada para comparar en nuevo método contra el Gold Standard (GS). Los
elementos básicos de la misma son los siguientes:
• Verdaderos positivos: aquellos en quienes el test resulta positivo y la enfermedad está presente (a).
• Falsos positivos: aquellos en quienes el test resulta positivo y la enfermedad no está presente (b).
• Falsos negativos: aquellos en quienes el test resulta negativo y la enfermedad está presente (c).
• Verdaderos negativos: aquellos en quienes el test resulta negativo y la enfermedad no está presente
(d).
Tabla de 2 x 2
GS
Positivo
TEST
POSITIVO
VP
TEST
NEGATIVO
FN
GS
Negativo
FP
a b
c d VN
Introduccion a la Investigacion Clinica
Las medidas de validez se expresan como sensibilidad y especificidad del método.
• Sensibilidad: es la probabilidad de un resultado positivo del test en los enfermos (GS positivo). Note que la
sensibilidad informa como se comporta el método en los enfermos solamente.
Tablas de 2 x 2
GS
Positivo
TEST
POSITIVO
GS
Negativo
a b
c d
TEST
NEGATIVO
S=a/a+c
Introduccion a la Investigacion Clinica
• Especificidad: probabilidad de un resultado negativo del test en un sano (GS negativo). La especificidad
informa como se comporta el test en los sanos.
Tablas de 2 x 2
GS
Positivo
TEST
POSITIVO
TEST
NEGATIVO
GS
Negativo
a b
c d
E=d/b+d
Introduccion a la Investigacion Clinica
También se puede incluir como medidas complementarias a la Sensibilidad y Especifidad a las siguientes:
• Tasa de falsos negativos: Proporción de personas con test negativo sobre el total de enfermos (c/a+c
ó 1-sensibilidad)
• Tasa de falsos positivos: Proporción de personas con test positivo sobre el total de sanos (b/b+d ó
1-especificidad)
En caso de comparar las características de diferentes métodos pero donde ninguno de ellos es el estándar de
referencia, no es metodológicamente correcto calcular sensibilidad y especificidad del método en evaluación.
Se puede informar el grado de concordancia (Ej: Kappa) o el grado de discordancia entre los métodos.
El tema es que si bien la sensibilidad nos informa como se comporta el test en un enfermo, en la práctica un
test muy sensible nos sirve para detectar sanos.
Ejemplo: sabemos que tenemos un test que es 99% sensible y 50% específico. Podemos armar una tabla de 2
x 2 si suponemos que tenemos 100 enfermos (GS positivo) y 100 sanos (GS negativo).
Si es 99% sensible, de los 100 enfermos: 99 van a dar verdadero postivo y 1 falso negativo. Si es 50%
específico, de los 100 sanos 50 van a tener un resultado verdadero negativo y 50 van a resultar falsos
positivos. Ver la tabla.
Si en un paciente el resultado da positivo la probabilidad de un falso positivo es alta (99/99+50) pero si el
resultado es negativo, la probabilidad de un resultado falso negativo es baja (1/1+50).
Un test con características parecidas es la VDRL para diagnóstico de Sífilis. La conclusión es que si la VDRL
da positiva Ud. No podrá afirmar que el paciente tiene sífilis y va a pedir otro test más específico (fta-abs)
para confirmar. Si la VDRL da negativa generalmente no se hacen más estudios porque la probabilidad de un
falso negativo es baja.
Importante: UN TEST MUY SENSIBLE AYUDA A IDENTIFICAR SANOS!!!
La regla mnemotécnica SENEX puede serle de utilidad:
Frente a un test muy SEnsible un resultados Negativo me Excluye o aleja el diagnóstico.
Tablas de 2 x 2
GS
Positivo
TEST
POSITIVO
99
TEST
NEGATIVO
1
S=99%
GS
Negativo
50
a b
c d 50
S
E
N
E
X
E=50%
Introduccion a la Investigacion Clinica
Por otro lado, la especificidad que me dice como se comporta el test en los sanos, suele ser útil para confirmar
enfermos.
Ejemplo: sabemos que tenemos un test que es 99% específico y 50% sensible. Podemos armar una tabla de 2
x 2 si suponemos que tenemos 100 enfermos (GS positivo) y 100 sanos (GS negativo).
Si es 50% sensible, de los 100 enfermos: 50 van a dar verdadero positivo y 50 falsos negativos. Si es 99%
específico, de los 100 sanos 99 van a tener un resultado verdadero negativo y 1 va a resultar falso positivo.
Ver la tabla.
Si en un paciente el resultado da negativo la probabilidad de un falso negativo es alta (99/99+50) pero si el
resultado es positivo, la probabilidad de un resultado falso positivo es baja (1/1+50).
Importante: UN TEST MUY ESPECIFICO AYUDA A IDENTIFICAR ENFERMOS!!!
La regla mnemotécnica ESPIN puede serle de utilidad:
Frente a un test muy ESpecífico un resultados Positivo me INcluye el diagnóstico.
Tablas de 2 x 2
GS
Positivo
TEST
POSITIVO
50
TEST
NEGATIVO
50
S=50%
GS
Negativo
1
a b
c d 99
E
S
P
I
N
E=99%
Introduccion a la Investigacion Clinica
E3. Modelo Umbral
Para decidir realizar o no una prueba diagnóstica, se utilizan probabilidades.
• La probabilidad pretest es la probabilidad de un paciente de tener una patología por el hecho de pertenecer a
una población (se estima con la prevalencia). En las tablas de 2 x 2 la fórmula es = a+c/a+b+c+d.
• La probabilidad post-test es la probabilidad de estar enfermo dado que pertenece a una población y además
tiene un resultado de un método de diagnóstico.
Si el test es positivo, la probabilidad post-test será mayor que la probabilidad pre-test. Si el resultado es
negativo, la probabilidad post-test será menor que la pre-test.
Podemos adjudicar valor a estas probabilidades, donde 0 es certeza de no enfermedad y 1 es certeza de
enfermedad.
Cuando se decide tratar a un paciente es porque pasó el “umbral de tratamiento” que es la probabilidad
aceptada que justifica iniciar el mismo.
Cuando no se puede obtener más información (no se puede realizar un método de diagnóstico), se puede
utilizar la "probabilidad umbral de tratamiento" (Ver Figura 1), para determinar si tratar o no tratar.
Cuando se puede conseguir más información, se puede utilizar las "probabilidades umbral de los tests" (Ver
Figura 2) para decidir si ordenar o no un estudio complementario.
El espacio entre ambos umbrales determina las situaciones en que más beneficia el realizar un estudio
complementario. El método ideal a aplicar es aquel que permita pasar el umbral de tratamiento si el resultado
es positivo (Ver Figura 3) y pasar el umbral del test si da negativo (Ver Figura 4).
E4. ¿Cómo Calcular la Probabilidad Post-test?
La probabilidad post-test se puede calcular con los valores predictivos
• Valor predictivo positivo (VPP): la probabilidad de enfermedad dado un resultado positivo del test.
Tablas de 2 x 2
GS
Positivo
TEST
POSITIVO
GS
Negativo
a b
c d
TEST
NEGATIVO
VPP=
a/a+b
Introduccion a la Investigacion Clinica
• Valor negativo predictivo (VPN): la probabilidad de no encontrar enfermedad dado un resultado negativo
del test.
Tablas de 2 x 2
GS
Positivo
TEST
POSITIVO
TEST
NEGATIVO
GS
Negativo
a b
c d
VPN =
d/c+d
Introduccion a la Investigacion Clinica
El problema es que los valores predictivos se modifican según la prevalencia. Es relativamente fácil de
entender si vemos que la fórmula incluye enfermos y sanos. Si se modifica la relación enfermo/sano
(prevalencia) se modifican los valores predictivos.
Además nuestros pacientes no presentan siempre la misma prevalencia. Aunque así fuera y la prevalencia
fuera constante en nuestro medio de trabajo, la misma es igual a la de los pacientes del estudio?
Para evitar estos problemas es que se ideó una manera de calcular la probabilidad post-test que no se modifica
con la prevalencia: utilizando Likelihood Ratio o relaciones de probabilidad.
• Relación de probabilidad (LR, del inglés, Likelihood ratio): la relación de probabilidad entre un resultado de
un test diagnóstico en los pacientes con la enfermedad y la probabilidad del mismo resultado en los pacientes
libres de esa enfermedad.
•
•
Coeficiente de probabilidades del test positivo: Relación entre la probabilidad de que el test resulte
positivo en pacientes con la enfermedad y la probabilidad de que resulte positivo en personas sin la
enfermedad
LR(+) = (sensibilidad/ 1- especificidad)
Coeficiente de probabilidades del test negativo: Relación entre la probabilidad de que el test resulte
negativo en pacientes con la enfermedad y la probabilidad de que resulte negativo en personas sin la
enfermedad
LR(-) = (1-sensibilidad/especificidad)
Los LRs indican hasta qué punto un resultado positivo o negativo modificará la probabilidad pre-test. Un LR
de 1 indica que la probabilidad post-test es exactamente igual que la probabilidad pre-test. LRs mayor que 1
(positivos) aumenta la probabilidad que el diagnóstico esté presente. LRs menores de 1 (negativos)
disminuyen la probabilidad del diagnóstico.
Si uno conoce la prevalencia exacta de la enfermedad en cuestión como así también la sensibilidad y la
especificidad, la probabilidad que un determinado paciente tenga o no tenga la enfermedad pueden calcularse.
El cálculo de probabilidad pos-test mediante el uso de LRs puede hacerse sin la necesidad de fórmulas usando
el Nomograma de Fagan: anclando el extremo de una regla en la probabilidad pre-test y pasando por el LR
correspondiente, se obtiene la probabilidad pos-test en la columna de la derecha, que corresponde al valor
predictivo.
Probabilidad
Pre examen
Likelihood
Ratio
Probabilidad
Post examen
El nomograma propuesto por Fagan hace todas las conversiones. La primera columna de este nomograma
representa la probabilidad pre-test, la segunda columna representa el LR, la tercera muestra la probabilidad
post-test. Usted obtiene la probabilidad post-test fijando una regla en la probabilidad pre-test y girándola hasta
que se alinee con el LR para el resultado de la prueba observado.
E5. Guia de Lectura Critica para Artículos sobre Métodos de Diagnóstico
Tal como en otro tipo de preguntas, para decidir si un artículo es apto para ser aplicado en la práctica
asistencial, debemos considerar responder las tres preguntas básicas:
• ¿Es válida la evidencia del estudio?
• ¿Los resultados del estudio son importantes?
• ¿Se pueden aplicar los resultados del estudio al cuidado de mi paciente?
1. ¿LOS RESULTADOS DE ESTE ARTICULO SON VALIDOS?
A. GUIAS PRIMARIAS
¿HABÍA UNA COMPARACIÓN INDEPENDIENTE Y CIEGA CONTRA EL ESTÁNDAR DE
REFERENCIA (GOLD STANDARD)?
La exactitud de una prueba de diagnóstico se determina mejor comparándola a la "verdad". De acuerdo con
esto, los lectores deben asegurarse que se utilizó una referencia apropiada (como la biopsia, cirugía, autopsia,
o al menos un seguimiento prolongado) y que se realizó a cada paciente, junto con la prueba bajo la
investigación.
También es importante que el profesional que realiza el test en estudio desconozca el resultado del test de
referencia así como que el profesional que realiza el test de referencia desconozca el resultado del test en
estudio (ciego).
¿SE INCLUYÓ UN ESPECTRO APROPIADO DE PACIENTES?
Una prueba diagnóstica es muy útil si distingue entre desórdenes o estados que podrían confundirse con la
patología en estudio. Casi cualquier prueba puede distinguir el saludable del muy afectado; esta habilidad no
nos dice nada sobre la utilidad clínica de una prueba.
Si se calcula la sensibilidad de un test en un grupo de enfermos con estadios avanzados de la enfermedad
(espectro de pacientes reducido a muy enfermos), la misma será artificialmente alta.
Por otro lado, si se calcula especificidad en personas muy sanas (espectro reducido de sanos) la misma será
artificialmente alta. Los “sanos” con falsos positivos son más frecuentes en personas que tienen otras
enfermedades (reacciones cruzadas).
El verdadero, pragmático valor de una prueba se establece sólo en un estudio que se realizó con un espectro
de pacientes parecido a su práctica clínica. Cuidado al utilizar estudios realizados en otros ámbitos. No sería
recomendable extrapolar resultados de estudios en atención primaria a pacientes de terapia intensiva.
B. GUIAS SECUNDARIAS
¿INFLUYERON LOS RESULTADOS DEL EXAMEN OBJETIVO DE LA EVALUACIÓN EN LA
DECISIÓN DE REALIZAR EL ESTÁNDAR DE REFERENCIA?
Es importante que se realice a todos los individuos de la muestra ambos tests (el estudiado y el gold standad)
y que la realización o no de cualquiera de ellos no dependa del resultado del otro. Cuando esto no se realiza
de dicha manera se establece una situación conocida como "Sesgo de verificación" o "Sesgo de orientación
diagnóstica". Por ejemplo: cuando pacientes con probable enfermedad coronaria y ergometría positiva
tuvieran más probabilidad de realizar una angiografía coronaria que aquellos con pruebas de ejercicio
negativas.
¿SE DESCRIBIERON LOS MÉTODOS PARA LLEVAR A CABO EL EXAMEN CON EL SUFICIENTE
DETALLE COMO PARA PERMITIR SU REPRODUCCIÓN?
Si los autores han concluido que se debe usar una prueba diagnóstica, deben decirle cómo usarla. Esta
descripción debe cubrir todos los aspectos importantes en la preparación del paciente (la dieta, drogas ser
evitado, precauciones después de la prueba), la realización de la prueba (la técnica, posibilidad de dolor), y el
análisis e interpretación de sus resultados.
Sería interesante que los autores informen datos sobre la confiabilidad del test en estudio ya sea calculadas
especialmente durante el mismo o disponibles en otras publicaciones.
2. ¿CUALES SON LOS RESULTADOS?
¿SE PRESENTAN LOS COCIENTES DE PROBABILIDAD (LIKELIHOOD RATIOS) DE LOS
RESULTADOS DE LA PRUEBA O SE INCLUYEN LOS DATOS NECESARIOS PARA SU CÁLCULO?
La utilidad clínica de una prueba de diagnóstico está determinada por la exactitud con que identifica el
desorden designado. Un estudio que compara contra el Gold Standard informará como mínimo la sensibilidad
y especificidad del test. Con estos datos Ud. Podrá calcular los LRs.
¿CUÁN GRANDE ES UN LR, Y CUÁN PEQUEÑO ES?
LRs >10 o < 0.1 generan grandes cambios en la probabilidad;
LRs de 5-10 y 0.1-0.2 generan cambios moderados;
LRs de 2-5 y 0.5-0.2 generan pequeños (pero a veces importantes) cambios; y
LRs de 1-2 y 0.5-1 alteran la probabilidad en pequeño grado (y raramente importante).
¿ES PRECISA LA ESTIMACION?
Tal como vimos en casos anteriores la forma de evaluar la precisión en la estimación de un resultado más
utilizada es el cálculo de los intervalos de confianza. Los autores deben informar como mínimo los intervalos
de confianza de la sensibilidad y la especificidad, aunque a veces verá informado el de los LRs.
Si está leyendo un estudio donde la sensibilidad fue del 85% pero el IC95% dio 45-99%: ¿le parece
clínicamente útil saber que tiene un 95% de confianza que la sensibilidad del test en la población se encuentra
entre 45 y 99%?
El ancho del intervalo debe ser clínicamente útil.
3. ¿LOS RESULTADOS ME AYUDARAN A CUIDAR A MIS PACIENTES?
¿SERÁ LA REPRODUCIBILIDAD DEL ESTUDIO SATISFACTORIA EN MI ÁMBITO?
El valor de cualquier prueba depende de su habilidad de rendir el mismo resultado cuando se aplica a los
pacientes habituales. La baja reproducibilidad puede ser el resultado de problemas con la propia prueba (ej,
variaciones en los reactivos, en los equipos, etc..). Una segunda causa para que los resultados de la prueba
difieran en los pacientes habituales se presenta siempre que una prueba requiera interpretación (ej, la
magnitud de elevación del segmento St-en un electrocardiograma). El lugar donde Ud. Practica su profesión:
¿posee la técnica y el personal adecuados?
¿LOS RESULTADOS SON APLICABLES A MI PACIENTE?
El problema aquí es que si la prueba tendrá la misma exactitud entre sus pacientes como se informó en el
papel. Las propiedades de la prueba pueden cambiar con una mezcla diferente de severidad de la enfermedad
o una distribución diferente de condiciones (espectro de pacientes)
Cuando los pacientes con el desorden designado tienen enfermedad severa, los LR se presentarán un valor
alejado de 1 (la sensibilidad aumenta). Si los pacientes son todos leves, los LR se acercan al valor 1 (la
sensibilidad disminuye).
¿El paciente que está tratando proviene de un ámbito similar al que estudiaron los investigadores?
¿LOS RESULTADOS MODIFICARÁN MI TRATAMIENTO?
El último criterio para la utilidad de una prueba diagnóstica es si agrega información que por otra parte no
esté disponible, y si esta información lleva un cambio que es finalmente beneficioso para el paciente.
Para esto se utiliza la técnica de los umbrales. Dado un determinado diagnóstico, habrá una probabilidad bajo
la cual no interesará realizar más estudios porque se considera que el diagnóstico se ha descartado.
Ejemplo: una mujer de 25 años consulta por dolor precordial punzante y disnea que se presenta luego de
haber discutido con su novio. La probabilidad pre-test que se trate de enfermedad coronaria es tan baja que ni
se plantea realizar estudios para descartar esta probabilidad (no alcanza el umbral del test).
Habrá situaciones donde la probabilidad es lo suficientemente alta como para decir tratamiento sin más
estudios (umbral de tratamiento).
Ejemplo: varón de 65 años con antecedente de hipertensión, tabaquismo y dislipemia que presenta dolor
precordial opresivo frente a moderados esfuerzos que cede con el reposo. La probabilidad pre-test es lo
suficientemente elevada como para prácticamente asegurar que tiene enfermedad coronaria. Si le solicita
estudios será para estadificar la enfermedad pero no necesita estudios para decidir tratarla.
En situaciones donde la probabilidad se encuentra entre ambos umbrales es donde más se beneficia con el uso
de estudios complementarios.
CUARTA PARTE: Evaluación de revisiones sistemáticas.
La Real Academia Española define revisión como la acción de revisar y ésta última como someter algo a
nuevo examen para corregirlo, enmendarlo o repararlo.
Dentro de la investigación por revisión de publicaciones se reconocen dos tipos diferentes: sistemática y
narrativa. La revisión narrativa es una investigación NO reproducible, NO sistemática que permite comparar
y analizar los resultados de varios estudios “preferidos o seleccionados por el autor”. La diferencia entre
revisión sistemática y narrativa está dada porque en esta última falta un protocolo que defina los pasos que
siguió el revisor para actualizar el tópico. Por ejemplo, ¿Qué estrategia se utilizó para la búsqueda
bibliográfica? ¿Cómo se hizo la selección de estudios a ser incluidos en la revisión?¿Qué métodos se usaron
para determinar la validez de los estudios?
Una revisión sistemática es una investigación reproducible y sistemática que permite comparar y analizar los
resultados de varios estudios. Son consideradas estudios secundarios. Son estudios pormenorizados,
selectivos y críticos que tratan de analizar e integrar la información esencial de los estudios primarios de
investigación sobre un tema de salud específico.
Pasos en la realización de una revisión sistemática
Al momento de realizar una revisión sistemática hay una serie de etapas que se deben cumplir:
1. Definir la pregunta.
2. Establecer los criterios de elegibilidad de los estudios (criterios de inclusión y exclusión).
3. Formular el plan de búsqueda de la literatura.
4. Recuperar los artículos que cumplen criterios previamente establecidos.
5. Valorar en forma crítica la calidad de los estudios.
6. Combinar los resultados.
7. Formular conclusiones y recomendaciones.
Requisitos de una revisión para ser considerada sistemática
Para que un artículo sea considerado como una revisión sistemática debe cumplir con todos los siguientes
requisitos:
• Especificación previa del problema. Toda revisión debe tener un objetivo que incluye una pregunta
específica. Si repasa los componentes de una pregunta específica son cuatro: intervención o exposición,
resultado, comparación y población.
Ejemplo7: Se realizó una revisión sistemática donde la pregunta fue: ¿Es útil el uso de regímenes de
mantenimiento con tres o cuatro antirretrovirales (intervención) comparado con regímenes de mantenimiento
con dos antirretrovirales (comparación) en pacientes con infección por VIH que recibieron un tratamiento
inicial con tres o cuatro antirretrovirales exitoso (población) para disminuir la carga viral en el plasma
(resultado)?
•
7
Criterios explícitos de elegibilidad para identificar de manera objetiva los estudios que se adecuan a la
cuestión de interés. Los criterios se eligen en función de la pregunta, por lo que suelen clasificarse según
los elementos de la misma en:
o Tipo de participantes: se relaciona con la población especificada en la pregunta
Rutherford GW, Sangani PR, Kennedy, GE. Régimen de mantenimiento con tres o cuatro medicamentos
antirretrovirales versus régimen de mantenimiento con dos medicamentos antirretrovirales para la infección
por VIH (Cochrane Review). In: The Cochrane Library, Issue 4, 2004. Oxford: Update Software.
o
o
o
Tipo de intervención (y a veces de comparación)
Tipo de medida de resultado
Tipo de estudio: según el tipo de pregunta (tratamiento, pronóstico, diagnóstico, daño) se
establece qué artículos primarios generan mejor evidencia para responderla, por lo que se busca
exclusivamente un diseño en particular. En caso de tratamiento generalmente se limita la
inclusión de artículos a aquellos que describen ensayos clínicos controlados aleatorizados.
Siguiendo el mismo ejemplo: Los criterios de elegibilidad para los estudios que describieron los autores
fueron:
1. “Tipos de estudios: Ensayos controlados aleatorios en los cuales los adultos infectados por VIH que
habían completado con éxito el tratamiento de inducción con tres o cuatro medicamentos
antirretrovirales fueron asignados al azar para continuar con el régimen de tratamiento inicial con
tres o cuatro medicamentos o a un régimen de mantenimiento de reducción con dos medicamentos
antirretrovirales. El tratamiento de inducción exitoso se definió de distintas maneras en cada estudio
con diferentes valores de corte de ARN indetectable; el mayor valor de corte utilizado fue 500
copias/ml.
2. Tipos de participantes: Adultos mayores de 18 años, con infección por VIH que habían recibido
tratamiento de inducción exitoso.
3. Tipos de intervenciones: Las intervenciones en las cuales los regímenes de mantenimiento
antirretroviral que contienen los mismos medicamentos utilizados en el tratamiento inicial estándar
se compararon con los regímenes de mantenimiento que contienen menos medicamentos luego de un
tratamiento de inducción exitoso (definido como la supresión de la carga viral en el plasma a un
nivel inferior a 500 copias/ml) para la infección por VIH.
4. Tipos de medidas de resultados: carga viral de VIH en el plasma.”
•
Elaboración de un protocolo que establezca los criterios de selección de los estudios y todos los métodos
a utilizar.
Para el ejemplo: Los protocolos de la Colaboración Cochrane se publican primero, antes que esté realizada la
revisión sistemática, por lo que seguro se publicó el protocolo correspondiente a esta cita.
•
Búsqueda rigurosa de todos los datos relevantes. La búsqueda debe ser exhaustiva para lo cual se debe
consultar en la mayor cantidad de fuentes disponibles. La estrategia de búsqueda debe estar descrita en el
protocolo y utilizar criterios amplios.
Para el ejemplo: Los autores describen la fuente y metodología para buscar los estudios en la siguiente frase:
“Se realizaron búsquedas de ensayos aleatorios y revisiones relevantes en las siguientes bases de datos
electrónicas:
1. MEDLINE desde 1982 hasta mayo del 2003, y se utilizaron las siguientes palabras clave: human
immunodeficiency virus, antiretroviral therapy, maintenance therapy, zidovudine, lamivudine, indinavir,
stavudine, saquinivir, nelfinavir, didanosine, zalcitabine, ritonavir, AIDS, anti-HIV agents, HIV infection y
HIV seropositivity.
2. AIDSLINE desde 1982 hasta mayo del 2003, y se utilizaron las siguientes palabras clave: antiretroviral
therapy, maintenance therapy, zidovudine, lamivudine, indinavir, stavudine, saquinivir, nelfinavir, didanosine,
zalcitabine, ritonavir, anti-HIV agents.
3. La base de datos Cochrane de revisiones sistemáticas, la Database of Abstracts of Reviews of Effectiveness
y el registro Cochrane de ensayos clínicos en la última edición de la Cochrane Library.
4. AIDSTRIALS, un registro especializado de ensayos actuales y que se completaron que mantiene la
National Library of Medicine de EE.UU., desde 1982 hasta mayo del 2003.
También se revisaron los resúmenes de congresos relevantes, incluyendo las International Conferences on
AIDS, las Conferences on Retroviruses and Opportunistic Infections y las Interscience Conferences on
Antimicrobial Agents and Chemotherapy, registrados en AIDSLINE. Se realizaron búsquedas en todas las
listas de referencia de todos los artículos de revisión y primarios identificados.”
•
Evaluación crítica de los estudios que satisfacen los criterios de elegibilidad, debe haber un informe de la
calidad de los artículos encontrados. Se recomienda que sean al menos dos revisores independientes e
informar las discordancias entre los diferentes evaluadores. Es adecuado que se enmascaren los autores
del trabajo, los resultados y la revista que publica el artículo. Es mejor utilizar escalas disponibles que
pueden ser cualitativas (Ejemplo: Guías de JAMA) o cuantitativas (Ejemplo: Chalmers, Jadad) dado que
esta valoración resulta fácilmente reproducible. Si se utiliza una escala propia es recomendable
describirla con detalle e informar, además, la confiabilidad y validez de la misma.
En el ejemplo se encuentra el resultado de la evaluación crítica en la siguiente frase: “El ensayo ACTG 343
(Havlir 1998) utilizó una asignación al azar centralizada y por lo tanto la asignación tuvo un ocultamiento
apropiado (grado A). El ensayo fue a doble ciego (grado A); los 309 pacientes asignados tuvieron seguimiento
hasta el final del ensayo (grado A). Todos los análisis fueron realizados según la intención de tratar (intentionto-treat) (grado A).
El estudio Trilege (Flandre 2002) no explicó cómo se realizó el ocultamiento de la asignación (grado B). El
estudio fue abierto (open-label) (grado B); los 279 pacientes asignados tuvieron seguimiento hasta la
finalización del ensayo (grado A). Todos los análisis fueron realizados sobre la base de intención de tratar
(intention-to-treat) (grado A).
El estudio ADAM (Reijers 1998) no explicó cómo se realizó el ocultamiento de la asignación (grado B). El
estudio fue abierto (open-label) (grado B). El ensayo se terminó de manera precoz cuando se dispuso de los
resultados de otros estudios y se realizó un análisis prematuro del estudio y una finalización temprana de la
asignación al azar. De los 31 pacientes asignados, 25 completaron al menos 26 semanas. El seguimiento
puede considerarse bueno porque no hubo pérdidas (grado A).
El resumen MIRO (Clumeck 1999), no proporcionó detalles del esquema de asignación al azar (grado C). Fue
un estudio abierto (open-label) (grado B) y utilizó análisis del tipo intención de tratar (intention-to-treat
analysis) (grado A).
Todos tenían mediciones basales objetivas y medidas de resultado objetivas y confiables.”
•
Extracción de los datos relevantes de los estudios: implica informar (generalmente en una tabla) las
características de los artículos encontrados.
En el ejemplo: la descripción se realizó en el texto en la siguiente frase: “Descripción de los estudios:
Se identificaron cuatro estudios que cumplían los criterios de inclusión. Tres fueron publicados. (Havlir,
1998; Flandre, 2002; Reijers, 1998), y uno era un resumen (Clumeck, 1999).
Havlir (1998) informó acerca del estudio 343 del AIDS Clinical Trials Group, que fue un ensayo controlado
aleatorio a doble ciego con 309 adultos infectados por VIH, y que se llevó a cabo desde agosto de 1997 hasta
el 5 de enero de 1998. Se reclutaron 509 pacientes adultos con más de 200 células CD4+/ul y con una carga
viral en plasma de más de 1000 copias/ml para que recibieran tratamiento de inducción con indinavir,
lamivudina y zidovudina durante seis meses. Ningún paciente había recibido tratamiento previo con
inhibidores de la proteasa y 104 pacientes (20%) habían recibido tratamiento previo con zidovudina durante
más de seis meses. Los pacientes que habían completado la fase de inducción (=309) y tenían menos de 200
copias de ARN del VIH por mililitro en las semanas 16, 20 y 24 del tratamiento de inducción, fueron
asignados al azar a uno de los tres brazos: tratamiento de inducción continuado, monoterapia con indinavir, y
zidovudina más lamivudina. El punto final del estudio primario fue el fracaso para mantener la supresión
viral, definida como un aumento en el nivel de ARN del VIH en el plasma de al menos 200 copias/ml. El
estudio terminó temprano debido a diferencias significativas en la supresión viral entre los tres brazos...........
...........Clumeck (1999) informó acerca del estudio MIRO, un ensayo controlado aleatorio abierto (open-label)
con 40 adultos infectados por VIH. Se incluyeron 85 pacientes con un recuento de CD4+ superior a 100
células/ul y al menos 5000 copias/ml de ARN del VIH para que recibieran tratamiento de inducción durante
cuatro meses con dos inhibidores de la transcriptasa inversa análogos de los nucleósidos, y o indinavir, o
ritonavir más saquinivir. Ningún paciente había recibido tratamiento previo con inhibidores de la proteasa y
52 (61%) habían sido tratados con un inhibidor de la transcriptasa inversa análogo de los nucleósidos. Los
pacientes (n=40) con menos de 400 copias/ml de ARN del VIH luego de 12 semanas de tratamiento fueron
asignados para continuar con la tratamiento inicial con inhibidores de la proteasa o a suspender el tratamiento
con inhibidores de la proteasa. El punto final del estudio primario fue el fracaso para mantener la supresión
viral, definida como un aumento de ARN del VIH en el plasma de al menos 400 copias/ml.”
¿Para qué sirven las revisiones sistemáticas?
Resulta difícil al médico asistencial poder leer toda la información que se publica para poder tomar decisiones
basadas en la evidencia. Los diferentes aspectos de un tema específico suelen estar dispersos en diversas
fuentes de información. Una revisión sistemática permite agruparlos en una fuente común con una visión
rigurosa y actualizada.
Se reconocen diversos objetivos que un investigador persigue al realizar una revisión sistemática:
• poder guiar decisiones y dirigir futuras investigaciones,
• definir nuevas preguntas para futuras investigaciones (generar hipótesis), y asistir en la planificación de
futuros estudios,
• resolver conflictos generados por resultados diferentes obtenidos por diversos estudios realizados,
• analizar los resultados que no fueron parte de los objetivos del trabajo original,
• investigar variaciones en el tratamiento en distintas situaciones en diferentes subgrupos,
• mejorar la precisión en la estimación del tamaño del efecto, en casos de realizarse un meta-análisis,
• investigar la presencia y el tamaño del sesgo de publicación,
• investigar la heterogeneidad de los datos, y
• estimar resultados durante un análisis de costo-efectividad.
Como puede apreciar muchos de estos objetivos no se relacionan con generar información que ayude a tomar
decisiones. No es casualidad, entonces, que muchas revisiones sistemáticas lleguen a la conclusión que se
requiere de más investigación para contestar la pregunta. A pesar de todo, esta conclusión le ayuda al médico
asistencial a tomar decisiones sabiendo que no hay evidencia adecuada, significa que deberá decidir
basándose en su experiencia profesional y buen juicio clínico.
¿Qué es un Meta-análisis?
Existen dos formas de revisiones sistemáticas: "cuantitativa o meta-análisis" y "cualitativa u overview". Las
diferencias están dadas fundamentalmente por el uso de métodos estadísticos en el meta-análisis, que
permiten la combinación y análisis cuantitativos de los resultados obtenidos en cada estudio.
El meta-análisis ha sido definido como "el análisis estadístico de una colección amplia de resultados de
estudios individuales con el propósito de integrar sus hallazgos". Un meta-análisis es, entonces, una revisión
sistemática en la cual se combinan los resultados de varios estudios que examinan la misma pregunta y
combina estadísticamente los resultados de trabajos previos.
Cuando un investigador inicia una revisión sistemática no sabe si va a poder realizar un meta-análisis. Para
decidir si se puede realizar hay que realizar previamente un análisis de homogeneidad de los datos y evaluar
el sesgo de publicación (ver más adelante). Si los datos lo permiten, realizará el meta-análisis y, si no
finalizará presentando simplemente una revisión sistemática.
En los meta-análisis se trata de resumir en un valor numérico toda la evidencia relacionada a un tópico
específico. Se trata de resolver los conflictos generados por diferentes resultados en varios estudios
publicados. No es infrecuente la falta de consenso o acuerdo respecto a un tratamiento al momento de la toma
de decisiones. Actualmente los profesionales de la salud no cuentan con recursos de tiempo y material
adecuados para mantenerse actualizados o poder definir los objetivos de una investigación y encuentran en el
meta-análisis una síntesis basada en la mejor evidencia que lo ayuda a definir conductas. Nuevamente, se trata
de información que ayuda a tomar decisiones pero no son decisiones en sí mismas.
Ventajas de las revisiones sistemáticas y meta-análisis
• Detecta y explora las contradicciones aparentes en los resultados de diferentes estudios. Cuando se necesita
conocer la respuesta a una pregunta y no hay tiempo o medios económicos para realizar un nuevo ensayo
clínico que resuelva el problema, una revisión sistemática es un medio más rápido y menos costoso.
• Facilita las decisiones menos subjetivas y reduce sesgos atribuibles al investigador.
• Obliga a pensar sistemáticamente acerca de los métodos, resultados, categorizaciones, poblaciones e
intervenciones.
• El meta-análisis da un resultado global que representa el tamaño del efecto de un tratamiento o la tendencia
en su efecto protector o de riesgo e ilustra el carácter de la relación entre las variables.
• El meta-análisis al combinar estudios incrementa la potencia estadística, mejora la precisión en la estimación
de la magnitud del efecto.
• Las revisiones sistemáticas pueden servir como base para un consenso disminuyendo las críticas habituales
de falta de un marco objetivo de recolección y revisión de la evidencia.
Limitaciones de las revisiones sistemáticas y meta-análisis
• La calidad de una revisión sistemática estaría determinada por la calidad de los estudios identificados.
• Los estudios incluidos en una revisión sistemática pueden haber incluido diferentes criterios de selección, de
tratamiento, de medidas de efectos, etc que limitan la interpretación y generalización de los resultados.
• Varios factores pueden contribuir a establecer una conclusión errónea si no son estrictamente evaluados y
comparados especialmente al realizar un meta-análisis. Por ejemplo, el tamaño de la muestra, la metodología
utilizada para el análisis estadístico, la selección de las variables que se van a utilizar para medir los
resultados.
• El meta-análisis puede ser muy sensible frente a algunas decisiones metodológicas en la realización de la
revisión, esto es que los resultados finales que han sido obtenidos pueden cambiar si sólo se consideran
aquellos estudios con ciertas y determinadas características; por ejemplo, la población, el tipo de diseño de
estudios, la intervención o resultados medidos.
Si tomamos por ejemplo, el tamaño de la muestra, es una variable que con frecuencia se asocia con la
posibilidad de error sistemático. Si bien un meta-análisis puede reducir el error por azar en el muestreo,
aumentando el tamaño de la muestra al combinar varios estudios, podría ocurrir que el número total de sujetos
no sea suficiente para determinar la validez del meta-análisis.
• Hay numerosas formas por las cuales se pueden introducir sesgos en las revisiones y meta-análisis de
ensayos clínicos controlados aleatorizados. Pueden reflejar sesgos de publicación. Es sabido que los estudios
"negativos" o que no muestran diferencias significativas son más difíciles de publicar que los estudios
positivos o que muestran resultados con diferencias estadísticamente positivas. Esto determina que los
resultados de los meta-análisis pueden estar influenciados por el sesgo de publicación y es necesario ver si
esto tiene importancia cuando el meta-análisis muestra diferencias significativas entre los grupos de
tratamientos.
• Entre los ensayos clínicos controlados aleatorizados (ECR) publicados, aquellos con resultados
significativos tienen mas probabilidad de ser publicados en ingles, mas probabilidad de ser citados y de ser
publicados mas de una vez, lo que significa que mas probablemente serán identificados e incluidos en
revisiones.
• La heterogeneidad o variabilidad de los estudios es considerada por algunos autores como una limitación. La
heterogeneidad de poblaciones, intervenciones y medidas de resultados pueden persistir a pesar de los
estrictos criterios de selección.
Recomendaciones del QUOROM
El QUOROM fue un consenso entre epidemiólogos, clínicos, editores de revistas e investigadores que
propuso una lista de pautas para escribir revisiones sistemáticas y meta-análisis (M.A.) para publicar. Hay
especificaciones para cada apartado del informe que intentaremos resumir:
• Título: especificar que se trata de una revisión sistemática.
• Resumen: estructurado con los siguientes títulos: 1. Objetivo: que explicite la pregunta clínica
2. Fuentes de datos. 3. Métodos de la revisión: criterios de selección, métodos de validación, síntesis
de datos cuantitativos con el detalle necesario para su replicación. 4. Resultados: Estudios incluidos y
excluidos, hallazgos cualitativos y cuantitativos, análisis de subgrupos. 5. Conclusión.
• Introducción: Explicitar el problema clínico y la racionalidad de la intervención y la revisión.
• Métodos: 1. De búsqueda: detallados y con sus restricciones. 2. Evaluación de validez:
enmascaramiento o ceguera, calidad de artículos identificados. 3. Características de los estudios con
su heterogeneidad. 4. Síntesis de datos cuantitativos: manejo de datos ausentes, heterogeneidad,
análisis por subgrupos y sesgo de publicación.
• Resultados: debe incluir los siguientes puntos:
1. Flujograma:
ECR potencialmente detectados para inclusión
⇓
⇒
ECR excluidos y sus razones
ECR retenidos para evaluación detallada
⇓
⇒
ECR excluidos y sus razones
ECR potencialmente apropiados para el M.A.
⇓
⇒
ECR excluidos del M.A. y sus razones
ECR incluidos en el M.A.
⇓
⇒
ECR retirados según sus desenlaces y
sus razones
ECR con información utilizable según desenlace
•
2. Características de los estudios: edad, tamaño de muestra, intervención, dosis, duración del
seguimiento.
3. Datos cuantitativos: concordancia con criterios de selección y validación. Presentar los datos para
cada grupo en cada estudio. Presentar cada desenlace y los valores necesarios para calcular los
intervalos de confianza según intención de tratar.
Discusión: Resumir los hallazgos. Discutir las inferencias clínicas basadas en los criterios de validez.
Interpretar los resultados a la luz de toda la evidencia disponible. Describir los sesgos en la revisión.
Sugerir agenda de investigación futura.
Guía de Lectura Critica de una Revisión Sistemática
A.¿ SON VALIDOS LOS RESULTADOS DE LA INVESTIGACION?
Criterios primarios
1.¿La pregunta se ha formulado correctamente?
En este punto debemos establecer si se puede identificar en la pregunta los cuatro componentes básico y si la
podemos clasificar (tratamiento, pronóstico, diagnóstico, daño).
2.¿Los criterios de selección utilizados para la inclusión y exclusión de artículos y documentos fueron
apropiados?
¿Los criterios elegidos tuvieron en cuenta los elementos básicos y derivan de la pregunta?:
o Tipo de participantes
o Tipo de intervención (y de comparación)
o Tipo de medida de resultado
o Tipo de estudio: para revisiones sistemáticas de cuestiones terapéuticas deben utilizarse sólo
ensayos clínicos controlados
Si el principal problema que aborda una revisión no está claro a partir del título o del resumen, y no se utiliza
el tipo adecuado de estudios, como sugieren Oxman y col, probablemente sea buena idea dejar de leer y pasar
al siguiente artículo de revisión.
Criterios secundarios
3. ¿Cuál es la probabilidad de haber omitido artículos relevantes?
Una búsqueda global y no sesgada de la literatura es una de las diferencias principales entre una revisión
sistemática y una revisión narrativa.
a) ¿Cuáles fueron las fuentes examinadas?
Es importante que los autores lleven a cabo una búsqueda completa de los estudios que cumplan sus criterios
de inclusión. Es necesario que los autores indiquen las bases de datos consultadas (idealmente Cochrane
Library, Medline y Embase). La búsqueda realizada exclusivamente por medios electrónicos es insuficiente y
debería hacerse un seguimiento de las referencias de los estudios identificados y contactar con expertos para
la identificación de estudios no publicados.
Si está leyendo una revisión sistemática que consultó sólo en Medline y artículos en inglés: ¿cuántos artículos
relevantes pudo haber dejado afuera?
b) ¿Se estableció una estrategia de búsqueda? ¿Cuál?
La recuperación de artículos de las bases de datos bibliográficos electrónicas puede variar mucho en función
de la estrategia de búsqueda utilizada. Es preciso que los autores especifiquen cómo han identificado los
artículos seleccionados. ¿Los descriptores (DeCS ó MeSH) elegidos fueron los adecuados?¿Qué artículos
pudieron haber quedado afuera con la estrategia elegida?
c)¿Qué artículos pudieron haberse omitido?
Además de las fuentes y la estrategia de búsqueda es recomendable que los autores informen cómo se evaluó
el “sesgo de publicación”. Se denomina de esta manera al hecho que muchos estudios realizados no llegan a
publicarse nunca porque los autores no los presentan o porque los editores los rechazan. Es más frecuente que
no se publiquen artículos negativos (donde los resultados fueron estadísticamente no significativos) y que se
publiquen estudios con resultados positivos con el riesgo que esto comporta de sobrestimación de la eficacia.
Hay diferentes métodos de evaluar la presencia de sesgo de publicación y los autores de una revisión
sistemática deben informar alguno. La inclusión de estudios no publicados disminuye las posibilidades de
sesgo de publicación.
4.¿Se analizó la validez de los estudios incluidos?
Este punto es trascendental dado que la calidad de la revisión sistemática depende fundamentalmente de la
validez de los artículos encontrados. Es importante conocer la calidad de los estudios primarios incluidos en
la revisión porque la revisión de expertos no garantiza la validez de la investigación publicada. Las
diferencias metodológicas de los estudios pueden explicar importantes diferencias entre los resultados (los
estudios menos rigurosos tienen tendencia a sobreestimar la efectividad de las intervenciones terapéuticas).
5.¿Las evaluaciones de la validez de los estudios fueron reproducibles?
No existe una única forma correcta de evaluar la validez de los estudios, pero sí existen multitud de métodos
para valorarla y debe utilizarse alguno de ellos. Recuerde que se recomienda que se realice en forma
enmascarada por dos evaluadores y que se informe la concordancia y la forma de resolver el desacuerdo.
6.¿Los resultados de los estudios fueron similares entre sí?
La mayor parte de las revisiones documentan diferencias importantes, de un estudio a otro, en el tipo de
pacientes, exposiciones, resultados y métodos de investigación. Es necesario que el lector sepa cuándo estos
factores son tan diferentes como para que no tenga sentido integrar los resultados ya hacer un meta-análisis.
¿Se evaluó la heterogeneidad de los datos?
Un criterio para decidir combinar los resultados cuantitativamente es si los estudios parecen medir la misma
magnitud del efecto. Los revisores deben de haber analizado estas posibles diferencias mediante las llamadas
“pruebas de homogeneidad”. Homogeneidad significa que los resultados de cada estudio individual son
matemáticamente compatibles con los resultados de los otros estudios primarios. Cuanto más homogénea es
una prueba, más probable es que las posibles diferencias sean fruto de la casualidad. Por otra lado, cuando
existe “heterogeneidad” estadísticamente significativa deja de tener sentido integrar los resultados. Cuando la
heterogeneidad de los resultados de varios estudios es significativa, se recomienda no realizar el metaanálisis. Combinar resultados heterogéneos en el análisis puede llevar a conclusiones erróneas.
B.¿CUÁLES SON LOS RESULTADOS?
1. ¿Cuáles fueron los resultados generales de la revisión?
a) ¿Responden a los objetivos de la revisión?
b) ¿Se acercan a los esperados?
2.¿Cuál fue la precisión para los resultados hallados?
Cualquier resultado numérico, por más preciso y "estadísticamente significativo" que sea, debe situarse en el
contexto de la pregunta a la que la revisión pretende dar respuesta.
Un buen meta-análisis debe ser más fácil de entender que el conjunto de ensayos clínicos que contiene. Debe
sintetizar los datos relevantes de los estudios primarios incluidos (criterios de inclusión, tamaños de muestra,
características de los pacientes, características fundamentales de los ensayos clínicos, resultados principales y
secundarios). Respecto a la presentación de resultados de los meta-análisis podemos decir que incluyen tablas
o gráficos con la estimación puntual y el intervalo de confianza, para cada estudio como para la combinación
global (resultado del meta-análisis).
Ejemplo: con el mismo ejemplo citado anteriormente.
En la figura podemos ver la representación gráfica de un meta-análisis, con la medida de efecto (odds ratio)
para cada uno de los 4 ensayos clínicos y global para el conjunto de los mismos (total). La conclusión de los
autores fue la siguiente: “Los cuatro estudios sugieren enfáticamente que la disminución del número de
medicamentos antirretrovirales, y especialmente de los inhibidores de la proteasa, luego de un tratamiento de
inducción exitoso por VIH-1, no tiene éxito. El punto final primario medido por los cuatro estudios fue la
reaparición de ARN del VIH en el plasma, un punto final intermedio que supuestamente se correlaciona con
riesgo de progresión clínica y muerte”.
Volviendo a la figura: La línea horizontal correspondiente a cada uno de los ensayos nos muestra el riesgo
relativo de la reaparición del ARN en los pacientes aleatorizados a recibir tratamiento con menor número de
antirretrovirales, en comparación con los aleatorizados a recibir tratamiento con 3 ó 4 drogas. La "mancha"
(cuadrado) en medio de cada línea horizontal es la estimación puntual de la diferencia entre los 2 grupos. El
tamaño de la mancha es proporcional al tamaño de la muestra del estudio individual. El ancho de la línea
horizontal representa el intervalo de confianza del 95%, lo que indica la precisión del resultado. La línea
vertical en el centro del gráfico representa la "línea de efecto nulo", con un odds ratio igual a 1. En caso de
que la línea horizontal (intervalo de confianza) se cruce con la línea vertical, esto puede significar que, o bien
no existen diferencias entre los tratamientos, o que el tamaño de la muestra es insuficiente para detectar
dichas diferencias. Cada uno de los estudios individuales tiene su odds ratio y su intervalo de confianza, pero
el diamante de la parte inferior de las líneas horizontales representa la suma de los odds ratio de todos los
ensayos, con un nuevo intervalo de confianza mucho más estrecho o preciso. Si el diamante sobrepasara
claramente la línea de efecto nulo, los resultados son estadísticamente no significativos. Es decir, no
podríamos afirmar que un tratamiento es mejor que otro. Cuanto más estrecho sea el diamante, más preciso
será el resultado final, y cuanto más alejado esté de la línea de efecto nulo, más a favor estará que el resultado
no se debe al azar. Quedaría por explicar la columna del peso (“weight”). En la misma se puede observar en
cuánto aportó cada estudio individual al resultado global. Sería importante saber que, por ejemplo, un estudio
de baja calidad aporta un 80% al resultado global. En este caso quizá el uso de ese resultados no sea tan fácil
comparado a un meta-análisis donde un estudio de buena calidad aporta el 60% al resultado final.
Complementario a esta idea está el concepto de análisis de sensibilidad. Como en otros estudios secundarios
es recomendable que los autores realicen un análisis de sensibilñidad para evaluar si los resultados del metaanálisis son “robustos”. Para explicar en términos simples se trata de preguntarse “¿Qué pasa con los
resultados si....?”. Ejemplo: ¿qué pasa si hago el meta-análisis utilizando sólo estudios con buena
calidad?¿Qué pasa si hago el meta-análisis con estudios de baja calidad exclusivamente?¿Qué pasa si analizo
sólo a subgrupos más graves? ¿Qué pasa si analizo subgrupos más leves?, etc... Si los autores del metaanálisis realizaron varios análisis de sensibilidad y todos los resultados fueron similares, podemos decir que
las conclusiones son “robustas” y más confiables que si no cumplieron con esta característica.
C.¿LOS RESULTADOS MEJORARAN LA ATENCIÓN DE MIS PACIENTES?
1.¿Los resultados son aplicables a mis pacientes?
El uso de la mejor de las evidencias no puede pasar por encima del conocimiento personal del paciente. Es
necesario conocer sus características individuales y preferencias.
Por muy significativo que sea el resultado final del meta-análisis, esto no significa que se deba ofrecer
indiscriminadamente el tratamiento a todo aquel individuo que tenga la enfermedad o manifestación. El
clínico debe decidir cómo va a influir este resultado numérico en la atención a un paciente en particular.
Cuando se lee críticamente una revisión sistemática hay que evaluar la validez externa de los ensayos clínicos
que contiene. ¿Están descritas las características de los pacientes incluidos en los estudios primarios?, ¿son
parecidos a los nuestros?
COMENTARIO FINAL
Intentamos presentar una serie de elementos que le permitan analizar críticamente los estudios clínicos más
frecuentes. El tema es extenso y posiblemente complicado dado que la lógica que se emplea en estas
investigaciones es un tanto diferente al razonamiento clínico habitual. A pesar de ello esperamos que los
conceptos y metodologías descritos le sean de utilidad. Recuerde, sin embrago, que los resultados de
investigaciones son sólo elementos que ayudan a tomar decisiones pero no son decisiones en sí mismas. Una
“p” significativa implica sólo una decisión estadística no una decisión clínica. Nada puede reemplazar la
experiencia del profesional y su buen juicio clínico. La “evidencia” es sólo un complemento.
¡¡¡MUCHA SUERTE!!!
Direcciones en Internet para profundizar algunos conceptos:
http://www.infodoctor.org/rafabravo/mbepasos.htm
http://www.fisterra.com/mbe/
http://www.cche.net/che/home.asp
http://www.cebm.net/
BIBLIOGRAFÍA
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
Hulley SB, Cummings: Diseño de la Investigación Clínica. Un Enfoque Epidemiológico. Barcelona,
España. Doyma. 1993.
Polit D, Hungler B: Investigación científica en ciencias de la salud. México. Interamericana-McGrawHill. 1994.
Rothman KJ. Causal inference. Chesnut Hill, Massachusets: Epidemiolology Resources Inc, 1988.
Haynes RB, McKibbon KA, Fitzgerald D, Guyatt GH, Walker CJ, Sackett DL. How to keep up with the
medical literature: I. Why try to keep up and how to get started. Ann Intern Med. 1986; 105: 149 53.
Evidence Based Medicine Working Group. Evidence-based medicine. A new approach to teaching the
practice of medicine. JAMA 1992; 268:2420-5.
Guyatt GH, Sackett DL, Cook DJ for The Evidence Based Medicine Group. Users' guides to the medical
literature. I. How to get start. JAMA. 1993; 270: 2598 601.
Sackett DL, Haynes BR, Guyatt GH, Tugwell P . Epidemiología Clínica. Ciencia Básica para la Medicina
Clínica. 2a. Ed. Buenos Aires: Editorial Médica Panamericana, 1994.
Greenhalagh T. How to read a paper: the basics of evidence based medicine. London: BMJ Publishing
Group, 1997.
Sackett D et al Evidence Based Medicine: how to teach and practice EBM. 2nd Ed Edimburgh, Churchill
Livingston Publishers. 2000.
Castiglia VC: Principios de investigación biomédica. Buenos Aires. Estudio de Proyectos Científicos. 1995.
Klimovsky G: Las desventuras del conocimiento científico. Buenos Aires. A-Z Editora. 1994.
Pineda EB, Alvarado EL, Canales FH: Metodología de la Investigación. Manual para el desarrollo de
personal de salud. 2da. Edición. Serie PALTEX para ejecutores de Programas de Salud Nro.35. OPS.
1994.
Love HJ, Barnett O. Understanding and using the Medical Subject Headings (MeSH) vocabulary to
perform lietrature searches. JAMA 1994; 271:1103-8.
McKibbon KA, Walker Dilks CJ. Beyond ACP Journal Club: how to harness Medline to solve clinical
problems [Editorial]. ACP J Club 1994; 120(suppl 2): A10-12.
Dickersin K, Scherer R, Lefebvre C. Identifying relevant studies for systematic review. BMJ 1994;
309:286-9.
Haynes RB, McKibbon KA, Fitzgerald D, Guyatt GH, Walker CJ, Sackett DL. How to keep up with the
medical literature: I. Why try to keep up and how to get started. Ann Intern Med. 1986; 105: 149 53.
Evidence Based Medicine Working Group. Evidence-based medicine. A new approach to teaching the
practice of medicine. JAMA 1992; 268:2420-5.
Guyatt GH, Sackett DL, Cook DJ for The Evidence Based Medicine Group. Users' guides to the medical
literature. I. How to get start. JAMA. 1993; 270: 2598 601.
Greenhalagh T. How to read a paper: the basics of evidence based medicine. London: BMJ Publishing
Group, 1997.
Sackett D et al Evidence Based Medicine: how to teach and practice EBM. 2nd Ed Edimburgh, Churchill
Livingston Publishers. 2000.
Mas Vilardeli T, Jordá Olives. La base de datos MEDLINE. JANO 1997.
Augustovski F: Información Digital. Una brújula con los recursos más útiles. Evidencia en Atención
Primaria. Volumen 3. Julio-Agosto Año 2000.
Gagliardi A, Jaded A. Examination of instruments used to rate quality of health information on the
internet: chronicle of a voyage with an unclear destination BMJ 2002;324:569–73
Haynes RB, Guyatt GH. Clincal expertise in the era of evidence-based medicine and patient choice. ACP
Journal Club 2002; 136:A11-A13
Haynes RB. Of studies, synthesis, synopses, and systems: the “4s” evolution of services for finding
current best evidence. ACP Journal Club 2001134:A11-A13
Rosenberg W, Donald A. Evidence based medicine: an approach to clinical problem-solving. BMJ
1995;310:1122-6.
Sackett DL, Rosenberg W, Muir JA, Haynes RB, Richardson WS. Evidence based medicine: what it is
and what it isn't. BMJ 1996;312:71-2.
Bonfill X. La Colaboración Cochrane. Jano 1997;52(1204):63-5.
Oxman AD, Sackett DL and Guyatt GH. Users' guides to the medical literature. I. How to get started.
JAMA 1993; 270: 2093-2095,
30. Pagano M, Gauvreau K: Principles of Biostatistics. Duxbury Press. 1993.
31. Colton T: Estadística en Medicina. Salvat Editores SA. 1979.
32. Mulrow CD, Oxman AD, editores. Cochrane Collaboration Handbook (updated September 1997). En:
The Cochrane Library (database on disk and CD-ROM). The Cochrane Collaboration. Oxford: Update
Software, 1994; 4.
33. Dickersin K, Scherer R, Lefebvre C. Identifying relevant studies for systematic reviews. BMJ 1994; 309:
1286-1291.
34. Chalmers TC, Celano P, Sacks HS, Smith H. Bias in teatment assignment in controlled trials. N Engl J
Med 1983; 309: 1358-1361.
35. Egger M., Smith G., and Rourke K. Rationale, potentials and promise of systematic reviews. In:
Systematic Reviews in Health Care. Meta-analysis in context, edited by Egger M., Smith G., and Altman
D., London:BMJ, 2001, p. 3-19.
36. Ortiz Z. meta-análisis como método básico en la investigación científica y en la práctica diaria. Boletín
Academia Nacional de Medicina 1997; 75, 469-475.
37. Naylor D. Meta-analysis of Controlled Clinical Trials. J Rheumatol 1989; 16 (4): 42426.
38. Dickersin K. The existence of publication bias and risks factors for its occurence. JAMA 1990; 263 (10):
1385-1389.
39. Thompson S. Why sources of heterogeneity in meta-analysis should be investigated?. BMJ 1994; 309:
1351-5.
40. Chalmers I. Applying overviews and meta-analysis at the bedside: Discussion. J Clin Epidemiol 1995, 48
(1): 67-70.
41. QUOROM. Lancet 354:1896-900,1999.
Descargar