Curso de Estadística Avanzada Dra. Gema Vega (Mayo 2008) Curso de Estadística Avanzada Gema Vega Análisis Estratificado El análisis estratificado es un tipo de análisis estadístico que estudia la posible asociación entre dos variables categóricas a través de una tabla de contingencia 2x2; pero diferenciando sub-muestras de pacientes según presenten distintas categorías en otra tercera variable. El objetivo de este análisis es comprobar si la relación entre las dos variables se ve modificada por los distintos valores o estratos que puede tomar otra tercera variable. En nuestro caso, querríamos estudiar la relación entre cada uno de los posibles factores de riesgo y la variable resultado (mortalidad o morbilidad), y comprobar, si esta asociación está influida por el hecho de que los pacientes presenten o no, otro factor de riesgo. Para explicar este tipo de análisis vamos a considerar la relación entre la variable dependiente ‘enfermedad’ (si/no) y la variable independiente X1 (si/no). La relación entre estas dos variables la expresaremos a través de una tabla de contingencia de 2x2 como la siguiente: ENFERMEDAD NO ENFERMEDAD X1 = SI a b a+ b X1= NO c d c+ d Al tratarse de dos variables categóricas, la relación entre ellas, la analizamos, como ya hemos comentado anteriormente, con el test de χ2 de Pearson. Una vez que hemos comprobado que existe relación, podemos obtener el valor del Riesgo Relativo (RR), que medirá la fuerza de esta asociación, según la fórmula: RR= a/(a+b)/c/(c+d) Si en esta relación, pensamos que otra variable X2 (si/no) pueda estar modificando el efecto, tendremos que realizar un análisis estratificado según los dos estratos de esta variable X2 (X2=Si y, X2=No), quedando entonces las siguientes tablas de 2x2: Para el estrato del valor X2 = SI ENFERMEDAD NO ENFERMEDAD X1 = SI a' b' a' + b' X1 = NO c' d' c'+ d' -2- Curso de Estadística Avanzada Gema Vega Para el estrato del valor X2 = NO ENFERMEDAD NO ENFERMEDAD X1 = SI a'' b'' a''+ b'' X1 = NO c'' d'' c''+ d'' Para cada una de estas tablas se realiza un análisis χ2 de Pearson que nos informará sobre la existencia de asociación entre la variable X1 y la variable ‘enfermedad’; mientras que para ambas en conjunto, se realiza un test de homogeneidad de los estratos que se llama test de χ2 de Mantel-Haenszel. Este test nos informará si la relación entre ambos estratos es homogénea o no, teniendo en cuenta que la hipótesis nula (H0) de este test es que los estratos son homogéneos. Por lo tanto, existen dos posibilidades, que los estratos sean homogéneos o, que no lo sean. Si no son homogéneos, significa que la relación entre enfermedad y la variable X1 es diferente según el estrato que se considere en la variable X2. En esta condición, se dice que existe interacción entre la variable X1 y X2; por lo que la asociación entre las variables de estudio X1 y ENFERMEDAD se evaluará en función de las categorías de la variable X2. Mientras que si los estratos son homogéneos, para comprobar si la variable X2 ejerce algún efecto en la relación de estudio, tenemos que revisar el resultado obtenido con el test de χ2 de Pearson en cada estrato y compararlo con el obtenido antes de la estratificación. Si ambos son iguales, se considera que la variable X2 no ejerce ningún efecto confusor en la relación entre la variable enfermedad y la variable X1. Si por el contrario, ambos son diferentes, quiere decir, que la variable X2 si ejerce un efecto confusor en esa relación, definiendo a este tipo de variables, como variables confusoras. Estas variables cumplen la condición de que están relacionadas con la variable dependiente y con la variable independiente; pero no representan ningún paso intermedio entre ellas. Es posible que esta relación entre enfermedad y la variable X1 no sólo esté influida por el efecto de la variable X2 sino que su vez, puede estar influida por el de otra variable y, éste a su vez por el de otra y así sucesivamente por todas las variables que suponemos que pueden estar influyendo o modificando la posible asociación de las dos primeras, que son las que realmente queremos estudiar. Limitaciones del Análisis Estratificado Según el esquema de análisis por estratos, se van aumentando rápidamente la cantidad de tablas de contingencia al ir estratificando por sucesivas variables, lo que conlleva varias desventajas. - Una de ellas y, posiblemente una de las limitaciones más importantes de este tipo de análisis, es que el número de pacientes representados en cada celda de la tabla de 2x2 es progresivamente menor al ir aumentando el número de estratos. -3- Curso de Estadística Avanzada Gema Vega Esto conllevará que sea progresivamente más difícil encontrar una relación estadísticamente significativa entre ambas variables. - En aquellos casos en los que se estudian un número elevado de factores, la estratificación será progresiva frente a diferentes variables al intentar analizar el efecto real entre el factor de estudio y la variable de desenlace, sin la influencia de ninguna variable. Con esta estratificación progresiva, obtendremos subgrupos muy seleccionados de pacientes, dificultando la interpretabilidad de los resultados obtenidos. - Este tipo de análisis sólo se puede realizar con variables categóricas; por lo que en aquellos casos en que la variable independiente sea cuantitativa, habrá que transformarla previamente en categórica, con la posibilidad de perder información. Esta desventaja es aún mayor en aquellos casos en los que existe una relación dosis dependiente entre el factor de riesgo (variable continua) y la variable dependiente. Análisis Multivariado Cuando se quiere valorar el efecto de un número extenso de factores de riesgo sobre una variable dependiente, es necesario emplear técnicas estadísticas que sean capaces de valorar el efecto individual de cada factor de riesgo sobre la variable de resultado, quitando o “apartando” el efecto de confusión de las demás variables; pero, sin que presenten las desventajas del análisis estratificado. Estas técnicas son los análisis multivariados a través de los modelos de regresión, los cuales, mediante aproximaciones a funciones matemáticas, son capaces de deducir el comportamiento de una variable (variable dependiente) a partir de la existencia de otras (variables independientes). Estos modelos de regresión se han venido utilizando cada vez con más frecuencia, tanto en la investigación médica, como en la epidemiológica. La utilización de uno u otro tipo de análisis de regresión depende de las características de las variables que se estén analizando. Es decir, si las variables dependientes e independientes son continuas o categóricas y, dentro de éstas si tienen dos o más categorías (dicotómica o policotómica). En los casos en que la variable dependiente es dicotómica se distinguen dos situaciones: Presencia de la enfermedad o evento que designaremos con el valor “1”, y Ausencia de enfermedad o del evento de estudio y que designaremos con el valor “0”. Consideraremos que la probabilidad de que aparezca la enfermedad es “p” y la probabilidad de que no aparezca el “1-p”. En este caso concreto en el que la variable dependiente es dicotómica se puede utilizar tanto el modelo de Regresión de Cox, como el modelo de Regresión Logística. La regresión de modelos proporcionales de Cox se utiliza cuando la variable dicotómica que queremos estudiar (aparición de un evento), depende del tiempo. Es decir, que es importante para el estudio no sólo el que los pacientes presenten el evento, sino en qué momento del estudio aparece dicho evento. -4- Curso de Estadística Avanzada Gema Vega En nuestro ámbito, este tipo de análisis es frecuentemente utilizado cuando se están estudiando factores pronósticos. Son por ejemplo el caso de la supervivencia (valorada a través de la aparición de la muerte) o de aparición de las recidivas tumorales después de un determinado tratamiento o, en los casos en que se estudia la aparición o positivización de un determinado valor de laboratorio después de una determinada intervención, etc. Por otro parte, el análisis de Regresión Logística se utiliza para la explicación o predicción de eventos que aparecen a lo largo del período de estudio, en donde no se evalúa el momento en que aparece. También es el caso de la mortalidad tras la realización de determinada intervención, considerando solo la posibilidad de que aparezca o no durante el período de estudio, sin tener en cuenta cuándo ocurrió. Ventajas y Limitaciones del Análisis Multivariado Las principales ventajas del uso de estos modelos de regresión en comparación con el análisis estratificado es que se necesita un menor tamaño muestral y, que no es necesario el que todas las variables independientes sean categóricas. Es decir, estos modelos permiten analizar como factores predictivos, tanto a variables categóricas como a variables continuas. Las desventajas de la utilización de modelos de regresión se ponen sobretodo de manifiesto cuando se utilizan imprudentemente. Actualmente es fácil encontrar programas informáticos que ofrecen al usuario la posibilidad de realizar análisis de regresión automáticamente, con la simple entrada de la base de datos y el “apretar un botón”, sin ningún tipo de rigor científico. Aunque nunca es aconsejable la realización de un análisis estadístico sin un objetivo previo, un diseño del estudio adecuado y una orientación aproximada de las posibles asociaciones entre las variables de estudio; en el caso del análisis estratificado, es posible que aunque esto no se haya cumplido adecuadamente, se pueda dar una estimación pronóstica sin haber tenido ninguna consideración matemática especial previa al análisis. Pero en el caso de los análisis de regresión, es necesario comprobar el cumplimiento de una serie de asunciones con anterioridad a la realización del análisis, para que las estimaciones obtenidas sean apropiadas. La mayoría de los modelos de regresión presentan al menos tres tipos de asunciones sobre las propiedades de las variables del modelo, que son: la linearidad, la aditividad y la propiedad distributiva. Afortunadamente, la Regresión de Cox y la Regresión Logística no asumen fuertemente la propiedad distributiva de las variables; pero sí las dos primeras. La asunción de linearidad, que solamente se aplicaría en aquellas variables independientes continuas que fueran incluidas en el modelo, significa que cada cambio continuo de la variable predictora conlleva un cambio en la variable dependiente y que este cambio es lineal. En el caso de la Regresión Logística, significaría que si trazamos un gráfico donde representamos en un eje el “logit” de la probabilidad de que ocurra el evento (ver más adelante) para cada valor de la variable continua, y en el otro eje, cada uno de los valores de dicha variable continua, ambos se relacionarían por una línea recta. -5- Curso de Estadística Avanzada Gema Vega Por otro lado, la asunción de aditividad implica que los factores predictivos del modelo están relacionados con la variable dependiente en un sentido aditivo. Es decir, que cada factor de riesgo que se incluya en el modelo aporta su efecto sobre la variable resultado, sumando su efecto al de los demás factores de riesgo. Mientras que si tuviera otro efecto, por ejemplo multiplicativo, querría decir que el efecto de cada factor se multiplicaría al efecto de los demás factores. Es por esto, por lo que se asume que la mejor predicción del modelo no vendrá explicada por la unión o interacción entre distintas variables, sino por la mayor cantidad de variables que presente el modelo. Es decir, que se asume que es más fácil que aparezca el evento cuanto más factores de riesgo tengan los sujetos. En otro tipo de modelos de regresión, además de éstas, existen otras asunciones que hay que contemplar. En el caso de la regresión linear múltiple, que se utiliza cuando la variable dependiente es continua, se debe de comprobar o asumir que dicha variable dependiente sigue una distribución normal de Gauss. En el análisis discriminante se asume que todas las variables continuas incluidas en el modelo conjuntamente se distribuyen según una distribución normal multivariante. No obstante, los modelos de regresión más comúnmente utilizados para el análisis pronóstico no mantienen estas asunciones tan estrictas. Así, la Regresión Logística binaria o dicotómica, no mantiene una asunción distributiva y la regresión de modelos proporcionales de Cox asume que la distribución de las variables en el tiempo tiene la misma forma en los distintos pacientes, sin que se asuma una forma específica para esta distribución. Cuando no se contemplan estos tres tipos de asunciones, los modelos de regresión pueden no ajustarse en su poder discriminante, ni en las inferencias sobre los distintos factores de riesgo. En el caso de la propiedad de linearidad, es necesario comprobar que se cumple esta condición por cada una de las variables continuas, con anterioridad a su inclusión en el análisis. Pues a veces, es necesario hacer alguna transformación de estas variables continuas (en el inverso, en el logaritmo o en la raíz cuadrada), para poder conseguir la linearidad con el “logit” de la variable de estudio. Por el contrario, la comprobación de la propiedad de aditividad, se realiza con posterioridad a la obtención del modelo, la cual se puede probar introduciendo en el modelo distintas interacciones entre los factores, siempre que estas interacciones tuvieran una explicación clínica o biológica. Si alguna de estas fuera significativa, entonces el modelo no asumiría que el efecto de una variable es el mismo para todos los valores de otras variables. -6- Curso de Estadística Avanzada Gema Vega Análisis de Regresión Logística En un análisis multivariado de Regresión Logística la variable dependiente es dicotómica y no depende del tiempo. Concepto Matemático El análisis de Regresión Logística se basa en intentar explicar una función matemática sigmoidea (distribución logística), cuya variable sólo puede tomar los valores comprendidos entre ‘0’ y ‘1’, a través de una expresión matemática que contempla la existencia de un número de variables independientes o explicativas, y que, se representa matemáticamente según la fórmula: f(p)= 1/ 1+ e -Ζ En donde, ‘f(p)’es la distribución logística, la cual recuerda a la distribución de probabilidad condicionada, y proporciona valores continuos de ‘p’, comprendidos entre el valor ‘0’ y ‘1’, para cualquier valor de ‘Ζ’, a pesar de que ‘Ζ’ pueda tomar valores entre -∞ y +∞ ‘p’ es la variable ‘probabilidad de que ocurra el evento’, que va a variar entre ‘0’ (no evento) y ‘1’ (evento) ‘e’ es el valor del número ’e’ ‘Ζ’ es una expresión matemática del sumatorio de los productos de cada una de las variables independientes (Xi) por un coeficiente (βi), más una constante (β0). Se calcula según la fórmula: Ζ = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi En donde, β0 …βi representan a los coeficientes y, X0 …Xi representan a las variables independientes o explicativas del modelo El modelo matemático asigna un valor a los distintos coeficientes βi con el fin de ajustar la función de probabilidad de presentar el evento, al valor real que presenta la variable resultado en la muestra de estudio. Las variables (Xi) permanecerán en el modelo cuando se demuestre que el coeficiente βi es distinto de cero. Por tanto, en este tipo de análisis la hipótesis nula (H0) que hay que rechazar es que ‘βi = 0’. Puesto que, si los coeficientes βi fueran iguales a ‘0’, Ζ también sería cero, y al elevar el número ’e’ a ‘0’, nos daría la unidad. En este caso, el valor de la función de probabilidad sería ‘f(p)= ½’. Esto quiere decir, que a pesar de la existencia o no de las variables Xi, existiría la misma probabilidad de presentar el evento que, de no presentarlo (p =0,5). Por lo tanto, en este supuesto el evento no dependería de la existencia de las variables independientes Xi. Obtención de los coeficientes βi El procedimiento matemático a través del cual se obtienen los distintos valores de los coeficientes ‘βi’ es complejo. La estimación de dichos coeficientes se realiza a través de métodos de resolución iterativos, siendo necesario el uso de programas estadísticos -7- Curso de Estadística Avanzada Gema Vega automáticos. Se realizan múltiples iteraciones con el fin de encontrar el mejor ajuste de la función de probabilidad a la nube de puntos que representarían los datos de la muestra de estudio. El ajuste se comprobaría a través de test estadísticos de máxima verosimilitud. Para ello se realizarían múltiples iteraciones hasta llegar a obtener aquellos coeficientes ‘βi’ que maximicen la probabilidad de obtener los valores de la variable dependiente (aparición del evento) que hemos encontrado en la muestra. Además de los distintos coeficientes de cada variable, en la fórmula matemática también existe otro coeficiente independiente (β0). Este coeficiente es una constante y vendría a representar a aquella cantidad de la nube de puntos que no se puede explicar a través de las variables del modelo. Esta constante debe estar presente en cualquier modelo predictivo de Regresión Logística. Variables independientes en el Análisis de Regresión Logística Una vez que ya se ha encontrado la mejor estrategia estadística para hacer el análisis, el siguiente problema que hay que resolver es el de cuantas variables independientes hay que introducir en el modelo, cuales, y cómo se van introduciendo. Según Harrel y col. y otros autores, en el modelo se deben introducir todas aquellas variables que en análisis bivariado hayan demostrado estar relacionadas de manera estadísticamente significativa con la variable resultado y también a aquellas asociaciones estadísticas que, aunque no hubieran alcanzado la significación estadística, tuvieran un valor de p<0,10, ó, incluso, menor de 0,20. No obstante, además de introducir aquellos factores de riesgo que cumplan estos criterios estadísticos, también es necesario introducir aquellas características de los pacientes que desde el punto de vista epidemiológico pueden influir o estar relacionados con la variable de resultado aunque no hayamos podido demostrarlo estadísticamente. A) Métodos de Introducción de variables independientes Con respecto a cómo se van introduciendo las variables independientes (Xi) en el modelo multivariado de Regresión Logística, hay distintos métodos, siendo los métodos ‘paso a paso’ (stepwise) los que están más ampliamente recomendados en los estudios predictivos. Estos métodos consisten en ir calculando los valores de los coeficientes ‘βi’, según se van cambiando una a una las variables ‘Xi’, en cada paso del análisis y, al mismo tiempo, cuantificar estadísticamente los cambios que se producen en el ajuste del modelo, como consecuencia de los cambios en las variables y en sus coeficientes. Estos cambios de las variables del modelo paso a paso, y la evaluación del ajuste que ésta conlleva, se puede realizar de dos formas: - Una de ellas es el método ‘forward’ o ‘hacia delante’, en el que primero se introduce la constante y luego, se van añadiendo de una en una, las diferentes variables independientes, del total de las variables que hemos escogido para el análisis multivariado por cumplir las condiciones que explicamos anteriormente. El criterio de selección de la variable independiente en cada paso, depende del cambio global que produzca en el ajuste del modelo, la introducción de cada una de esas variables. Este cambio se mide, en función de que la introducción de una variable represente un cambio significativo en el ajuste, con respecto al anterior modelo sin esa variable. La inclusión siempre se realizará -8- Curso de Estadística Avanzada Gema Vega por orden decreciente de significación estadística, hasta que ninguna de las variables restantes aporte cambios estadísticamente significativos al modelo. - El otro método es el ‘backward’ o ‘hacia detrás’, en el que a diferencia del anterior, en un primer lugar se introducen todas las variables en el modelo, para posteriormente, ir eliminando en cada paso la variable que menos contribuye al ajuste del mismo, al comprobar que su permanencia en el modelo no aporta ninguna diferencia estadísticamente significativa, con respecto al modelo sin dicha variable. En ambos métodos, cada vez que se va incluyendo o excluyendo una variable, se van modificando los distintos coeficientes de las demás variables que permanecen, hasta conseguir aquellos, con los que se ajusta mejor el modelo a los datos de la muestra o a la ‘nube de puntos’. B) Limitaciones del método ‘stepwise’ (‘Paso a Paso’) La selección de las variables ‘paso a paso’ hacia delante o hacia atrás que se utiliza en los distintos tipos de regresión, puede variar el resultado de las variables implicadas en el modelo definitivo. Esta variación será tanto mayor, cuanto menor sea el tamaño de la muestra. Por esto se considera que la selección ‘paso a paso’ puede no ser válida, cuando el número de variables independientes introducidas en el análisis, es superior a una décima parte de los eventos ocurridos en la variable dependiente. Harrel y col. demostraron que el poder discriminante de los modelos iba empeorando a medida que disminuía el número de eventos de la variable de estudio, si manteníamos el mismo número de variables independientes. Es por esto, por lo que no se debe de utilizar la selección de los pacientes paso a paso, a no ser que el número de eventos sea al menos 10 veces mayor que el número de variables introducidas en el análisis de regresión. Este problema aún es mayor cuando se considera la posibilidad de que exista interacción entre las variables independientes. Estos mismos autores sugieren que en aquellos casos en los que no se pueda obtener suficiente muestra como para cumplir esta proporción entre el número de eventos y el número de variables independientes, sería necesario realizar con anterioridad a la Regresión Logística, un análisis de reducción de datos, como es por ejemplo el análisis de componentes principales. Con estos análisis previos confirman que se consigue un mejor poder discriminante, en comparación con los modelos obtenidos a partir de las variables originales y el mismo tamaño muestral. En contraposición a esta mejoría en el poder discriminante, existen otras desventajas asociadas a la utilización de los modelos obtenidos de esta manera. Una de ellas es, que la mayoría de las veces estos modelos son difíciles de interpretar al no poder dar una interpretación clínica o biológica a cada uno de los factores implicados en el modelo. Y otra, es que todas las variables originales reciben un peso en cada uno de los factores; por lo que es difícil saber la contribución real y de forma independiente, de cada una de las variables originales, con respecto a la variable resultado. Ambas desventajas conllevan, el que esta técnica no se utilice en aquellos estudios, en los que se quiere crear un modelo que sea fácilmente aplicable en clínica, y comprensible por la mayoría de los profesionales implicados. -9- Curso de Estadística Avanzada Gema Vega C) Validación del modelo en los métodos ‘Paso a Paso’ Al utilizar estos métodos ‘paso a paso’, es necesario analizar la validez del modelo en cada etapa del proceso, comprobando el efecto significativo o no, de la inclusión de una variable nueva o la exclusión de la peor variable de las ya existentes. ¾ Para ello, recordaremos que, como hemos comentado anteriormente, los coeficientes ‘βi’ se obtienen por el procedimiento de máxima verosimilitud y que además, la ecuación de ajuste matemáticamente perfecto (modelo saturado), es aquella con tantos coeficientes ‘βi’ como individuos conformen la muestra. En los métodos ‘paso a paso’, se trata de comparar cada modelo con este modelo perfecto o saturado, realizándose esta comparación a través del logaritmo de la función de máxima verosimilitud, cuya fórmula matemática es: D = -2Log(verosimilitud del modelo estudiado / verosimilitud del modelo saturado) El resultado ‘D’ es la ‘devianza’, que representa de alguna manera a aquella información de la nube de puntos que no es explicada por el modelo. A partir de ésta se puede obtener un valor ‘G’ según la fórmula: G = D(modelo con la variable) – D(modelo sin la variable) = = - 2Log (verosimilitud del modelo con variable / verosimilitud del modelo sin variable) Bajo la hipótesis nula (H0) de que el coeficiente de la nueva variable es igual a cero, ‘G’ sigue una distribución de χ2 con un grado de libertad en aquellos casos en los que la nueva variable sea dicotómica o continua. Valores de ‘G’ superiores a la χ2 de la tabla de Pearson para un grado de libertad permiten rechazar la ‘H0’ y la variable por tanto debe permanecer en el modelo. En los casos en que esa nueva variable tuviera varias categorías, los grados de libertad serían el número de categorías menos uno, es decir, el número de variables dummy creadas para introducir esa variable en el modelo (ver más adelante). ¾ Otro método para estudiar la permanencia o exclusión de una variable en el modelo es calcular el índice de Wald, el cual se obtiene según la fórmula: ‘W’ = coeficiente de la variable / error estándar del coeficiente Este índice sigue una distribución normal de Gauss. Por lo que, aquellas variables que tengan un índice de Wald >1,96 deben ser conservadas en el modelo, al contribuir significativamente (p<0,05) y de manera independiente, a la probabilidad final de aparición del evento. Codificación de las variables en el Análisis de Regresión Logística Para poder realizar correctamente el análisis de Regresión Logística con el programa estadístico SPSS, es necesario utilizar un tipo concreto de codificación de las distintas variables, el cual comentaremos a continuación. ¾ La variable dependiente se codificará como ‘0’, cuando no ocurra el evento y, como ‘1’ cuando si ocurra. Así también se codificarán todas las variables independientes dicotómicas. - 10 - Curso de Estadística Avanzada Gema Vega ¾ En aquellos casos en que las variables categóricas tengan más de 2 categorías, será necesario hacer una transformación previa para convertirlas en dicotómicas. Esta transformación consiste en crear nuevas variables dicotómicas ficticias (“dummy”), pero manteniendo la misma información que en la variable original. Para la creación de las variables ficticias a partir de la variable original, ésta primero se codificará en valores numéricos crecientes, considerando como primer valor posible el ‘0’ (0,1,2,…). Posteriormente, se crearán tantas variables ficticias dicotómicas como número de categorías menos ‘1’ exista en la variable original. A estas variables ficticias dicotómicas se les dará el valor ‘1’ ó ‘0’, dependiendo de si el paciente presenta o no, determinada categoría en la variable original. De tal manera, que aquellos enfermos que en la variable original presenten el valor de la categoría inferior (‘0’), tendrán el valor ‘0’ en todas las variables ficticias creadas. Los que presenten el valor ‘1’ en la variable original, obtendrán el valor ‘1’ en la primera variable dummy, y el valor ‘0’ en el resto de las variables dummy. Los pacientes que tengan la categoría con valor ‘2’ en la variable original, obtendrán el valor ‘0’ en la primera variable dummy, el valor ‘1’ en la segunda variable dummy y el valor ‘0’ en las demás. Y así, sucesivamente. De esta forma, un paciente que presente cualquier categoría superior a la categoría de referencia, sólo tendrá el valor ‘1’ en una única variable dummy, que será precisamente la que representa a su categoría. Aunque posteriormente comentaremos cómo se manejarán este tipo de variables en el modelo definitivo, hay que saber que en estos casos, la fuerza de la asociación entre la variable original y la variable resultado se medirá a través del riesgo que supone estar en una categoría (pertenecer a una variable ficticia) frente a estar en otra categoría, la cual se toma como referencia. Para ello es necesario, que previamente al análisis se identifique la categoría de referencia. Habitualmente, en aquellos casos en que las categorías sean exposiciones graduales a un factor de riesgo, se utiliza como categoría de referencia, la categoría inferior o superior. Por el contrario, en aquellos casos en que las categorías no representan niveles de exposición, se debe de explicar claramente cual es la categoría de referencia. En la actualidad, los programas estadísticos realizan la transformación en variables ficticias de forma automática; aunque es necesario darles la información oportuna sobre, de qué variable categórica se trata y, cual se va a considerar la categoría de referencia. Es importante resaltar que, es posible encontrar una relación significativa entre la variable resultado y alguna de las variables ficticias o categorías, sin que exista frente a todas ellas. En estos casos es necesario mantener todas las variables ficticias en el modelo. Esto es así, porque realmente las variables ‘dummy’ representan diferentes categorías de un mismo factor de riesgo y, el hecho de que en el modelo vengan representadas por distintas variables, es simplemente una transformación matemática necesaria para poder llevar a cabo este tipo de análisis. ¾ En el caso de que las variables sean continuas, éstas se introducirán tal y como están en la base de datos o una vez que hayan sido transformadas, para cumplir la asunción de linealidad. - 11 - Curso de Estadística Avanzada Gema Vega Significado de los coeficientes ‘βi’ Una vez que ya hemos comentado qué variables se deben de introducir en el modelo, cómo se introducen éstas en el análisis para obtener el modelo definitivo, y como se deben de codificar; vamos a referirnos a cómo se deben de interpretar los resultados obtenidos una vez realizado el análisis. Primero analizaremos el significado de los coeficientes ‘βi‘. Para ello, es necesario volver a recordar los conceptos epidemiológicos de cómo se obtienen el riesgo relativo y la odds ratio. El Riesgo Relativo (RR) representa el riesgo de padecer la enfermedad entre aquellos pacientes que presentan el factor de riesgo, frente a los que no lo presentan, y se obtiene al dividir la incidencia de aparición del evento en los pacientes que presentaban el factor de riesgo, entre la incidencia de aparición del evento en los pacientes que no presentaban el factor de riesgo. La Odds Ratio (OR) mide la relación entre la aparición del evento y la no aparición del evento, en los pacientes que tienen el factor de riesgo, frente a los que no tienen el factor de riesgo. Se refiere a cuantas veces es más frecuente que ocurra el evento frente a que no ocurra, en los pacientes que tiene el factor de riesgo, frente a los que no lo presentan. Tanto la OR como el RR, se utilizan cómo medida de la fuerza de la asociación entre las dos variables de estudio (una variable independiente y otra variable dependiente). Pero existe una diferencia en el concepto de ambos. Como el RR se obtiene a partir de incidencias, sólo se puede utilizar en aquellos estudios que sean prospectivos; mientras que la OR se utilizará en los estudios retrospectivos, pues en éstos, no se puede obtener la incidencia de aparición del evento, y sí la proporción de eventos y no eventos, entre los que presentan el factor de riesgo y los que no lo presentan. No obstante, en aquellos casos en que la aparición del evento es poco frecuente en la población de donde se obtuvo la muestra (incidencia <10%), se puede asumir, y matemáticamente demostrar, que la OR es una buena aproximación del RR. A) Cálculo de la OR en Regresión Logística En el análisis de Regresión Logística, la fuerza de la asociación entre las variables independientes y la variable resultado, se estima a partir del coeficiente ‘βi‘. Para entender cómo se realiza esta estimación tenemos que volver a la fórmula inicial del modelo logístico: f(p)= 1/ 1+ e p / 1- p = e En donde, -Ζ Que matemáticamente es lo mismo que, Ζ Ζ = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi. ‘p’ es la probabilidad de que aparezca el evento y, ‘1- p’ la probabilidad de que no aparezca el evento. - 12 - Curso de Estadística Avanzada Gema Vega Si consideramos que el modelo sólo tuviera una variable, la fórmula quedaría p/ 1- p = e β0 + β1* X1 Es decir, que si el paciente tuviera el factor de riesgo (X1=1), la probabilidad de que ocurriera el evento frente a que no ocurriera sería p/ 1- p = e β0 + β1 lo que se denomina la odds con el factor de riesgo. Mientras que, si el paciente no presentara el factor de riesgo (X1=0), la expresión quedaría p/ 1- p = e β0 Esto se denomina la odds sin el factor de riesgo Como hemos recordado anteriormente, la OR se obtiene al dividir la odds de presentar un evento frente a no presentarlo en los pacientes que tienen el factor de riesgo; entre la odds de presentar el evento frente a no presentarlo, en los que no tienen el factor de riesgo. Es decir, la odds con factor entre la odds sin factor OR OR X1 X1 =e β0 + β1 =e β1 /e β0 Y, esto es igual a: Si calculamos el logaritmo neperiano de OR X1, nos dará el valor de ‘β1’ Ln OR X1= Ln (p/ 1- p) = β1 A esta expresión del ‘Ln(p/1-p)’ se le denomina transformación ‘Logit’ de ‘p’, que este caso particular sería el Logit para el factor X1, pero que se puede generalizar para aquellos modelos en los que hay más de una variable Ln(p/ 1- p) = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi En estos casos en los que en el modelo existe más de una variable (Xi), matemáticamente se podría demostrar que, cada coeficiente ‘βi’ representa el logaritmo neperiano de la OR para cada factor ‘Xi’, siempre que los demás factores permanecieran constantes. Según la argumentación anterior, una vez que obtengamos el modelo logístico definitivo, la OR para cada factor la calcularemos con la simple operación matemática de elevar el número ‘e’ a cada coeficiente ‘β’. Esta OR representa la fuerza de la asociación entre cada factor y la variable dependiente, de manera independiente de los demás factores de riesgo. Es decir, la OR debida exclusivamente a la presencia de ese factor una vez eliminado el efecto de los demás factores estudiados. Por tanto, en las variables categóricas dicotómicas, la OR así obtenida expresará el riesgo de que se produzca el evento asociado a presentar dicho factor. - 13 - Curso de Estadística Avanzada Gema Vega En el caso de variables categóricas con más de dos categorías, hay que tener en cuenta que estas variables están representadas en el modelo por las variables ficticias o variables ‘dummy’. En estos casos, la OR obtenida a partir del coeficiente, representaría la OR de esa categoría (la de la variable ‘dummy’), frente a la categoría de referencia. En el caso de las variables cuantitativas, el logaritmo neperiano del coeficiente de esa variable expresaría la OR por cada unidad de aumento en dicha variable, lo que a veces no tiene ninguna relevancia clínica. Esto podría ser el caso de la variable Edad (medida en años), o de la Presión Arterial (medida en mmHg), en donde cambios en una unidad de medida no tienen una traducción clínica o epidemiológica de importancia y, donde además, los mismos aumentos, tampoco tienen el mismo significado en los distintos valores que tome la variable. Por ejemplo, en las variables anteriormente mencionadas, podría ser el caso del aumento de un año de edad entre 20 y 21 años ó entre 74 y 75 años y, en el caso de la Presión Arterial, los cambios de 1 mmHg entre 70 y 71 mmHg ó entre 95 y 96 mmHg de Presión Arterial diastólica. En estos casos de variables cuantitativas se puede establecer un nivel de “cambio” de valor de la variable, que sea relevante clínicamente. En los casos anteriores podría ser 10 años ó 10 mmHg. Una vez que se ha fijado un nivel de cambio relevante (c), la OR la calcularemos al elevar el número ‘e’, al producto de multiplicar el coeficiente‘β’ por la constante ‘c’ (e c*β). B) Estimación poblacional de las OR obtenidos por Regresión Logística Una vez que se han obtenido los OR a partir de los coeficientes ‘βi‘, es necesario estimar estos parámetros a través de los intervalos de confianza del 95%. Los límites de éstos, se calcularán a partir del error estándar de cada uno de ellos (Sβ1), según la fórmula: e(β1± 1,96* Sβ1) Para las variables continuas, estimaremos la OR del intervalo de cambio de la variable que se haya considerado (‘c’), calculando los límites del intervalo de confianza del 95% a partir de la fórmula: e c*β ± 1,96* c* Sβ C) Cálculo de los RR a través de Regresión Logística En los casos de estudios prospectivos, la fuerza de la asociación entre las distintas variables independientes y la dependiente, se debe de medir con el riesgo relativo y no con la odds ratio. Aunque la OR es una buena estimación del RR cuando la incidencia de aparición del evento es baja, es más conveniente calcular el RR para cada variable. Este cálculo se realiza a partir del modelo; pero no, a través de la transformación del coeficiente ‘β’, sino a través del valor de ‘p’. Según la definición del RR, éste se obtiene a partir de dividir la incidencia de aparición del evento en los enfermos expuestos al factor de riesgo, entre la incidencia de aparición del evento en los no expuestos. Con el cálculo matemático de la ecuación obtenida en el modelo de Regresión Logística, no obtenemos una probabilidad de aparición del evento distinta para cada uno de los pacientes que estamos estudiando; sino que lo que obtenemos es la probabilidad para grupos de pacientes que presenten unas determinadas variables o características. Es decir, que todos aquellos pacientes que tomen los mismos valores en las variables que incluye el modelo, tendrán la misma probabilidad de aparición del evento. Por lo tanto, - 14 - Curso de Estadística Avanzada Gema Vega obtendremos valores de probabilidad de presentar el evento, que definen a grupos de pacientes con unas características determinadas (‘Perfiles’ o ‘Patrones de Variables’). Según esto, podríamos obtener esa probabilidad para aquellos enfermos que, presentando todas las características idénticas, sólo se diferencian en la presencia o ausencia de una de ellas. Y, a partir de aquí obtendremos el RR para ese factor, que es en el que se diferencian. Pondremos como ejemplo un modelo en el que existen tres factores de riesgo, ‘X1’, ‘X2’ y ‘X3’, cuya ecuación de Regresión Logística vendrá definida por p = 1/ 1+ e – (β0 + β1* X1 + β2* X2 + β3* X3) Queremos calcular el RR para la variable ‘X1’ y para ello debemos calcular la incidencia de aparición del evento cuando los pacientes tienen el factor ‘X1’ y, la incidencia de aparición del evento cuando no tienen ese factor. Es decir el valor de ‘p’ cuando el factor ‘X1=1’ y el valor de ‘p’ cuando el factor ‘X1=0’, siempre que las variables ‘X2’ y ‘X3’ se mantengan constantes. Estas variables pueden tomar tanto el valor ‘0’ como el valor ’1’. Para nuestro ejemplo consideraremos que toman siempre el valor ‘1’. Según las condiciones anteriores, para aquellos pacientes que tengan las características de ‘X1=1’, ‘ X2 =1’ y ‘X3=1’, el valor de ‘p’ será P ‘X1=1’,‘ X2=1’,‘X3=1’ = 1/ 1+ e – (β0 + β1 + β2 + β3) Y, para aquellos pacientes que también tengan las características ‘X2=1’ y ‘X3=1’, pero la variable ‘X1=0’; el valor de ‘p’ será p ‘X1=0’,‘ X2=1’,‘X3=1’ = 1/ 1+ e – (β0 + β2 + β3) Una vez obtenidos estos dos valores de ‘p’, el RR de esta variable ‘X1’, lo obtendremos de dividir p(‘X1=1’,‘X2=1’,‘X3=1’) entre p (‘X1=0’,‘X2=1’,‘X3=1’). Que representaría a la probabilidad de que ocurra el evento cuando se tiene el factor de riesgo ‘X1’, frente a la probabilidad de que ocurra el evento cuando no se tiene ese factor de riesgo ‘X1’. Es decir, RR‘X1’ = p(‘X1=1’,‘X2=1’,‘X3=1’) / p(‘X1=0’,‘X2=1’,‘X3=1’) D) Estimación de los RR obtenidos por Regresión Logística En estos casos, también será necesario calcular los intervalos de confianza para los RR; pero tampoco será a través de los coeficientes βi, sino a través de los valores de probabilidad obtenidos a partir de la fórmula del modelo definitivo, cuando dichos factores toman el valor máximo o mínimo según el coeficiente βi y su error estándar Sβ1, para un nivel de seguridad del 95% (βi ± 1,96*Sβ1). Para un modelo con una sola variable X1, los límites del intervalo (IC95%) se obtendrán de la siguiente manera: - El límite superior del intervalo de confianza será el valor del RR obtenido - 15 - Curso de Estadística Avanzada Gema Vega al dividir la probabilidad de que ocurra el evento teniendo el factor de riesgo X1, tomando como coeficiente de dicha variable a “β1+1,96*Sβ1” en la fórmula del modelo; p X1=1 = 1/ 1+ e – ((β0 + (β1+ 1,96*Sβ1) X1)) entre la probabilidad de que ocurra el evento sin tener ese factor X1 p X1=0 = 1/ 1+ e – (β0) - Del mismo modo se calculará el límite inferior del intervalo de confianza, que será el valor del RR obtenido a partir de dividir la probabilidad de que ocurra el evento teniendo el factor de riesgo X1, tomando como coeficiente de dicha variable a “β11,96*Sβ1” en la fórmula del modelo; pX1=1 = 1/ 1+ e – ((β0 + (β1 - 1,96*Sβ1) X1)) entre la probabilidad de que ocurra el evento sin tener ese factor X1 pX1=0 = 1/ 1+ e – (β0) Configuración final del modelo Una vez que hemos obtenido el modelo, la configuración final del mismo, no se debe de basar exclusivamente en estimaciones estadísticas. Es necesario que el investigador compruebe la relevancia del modelo, e incluso, que lo modifique, al incluir alguna variable que tenga interés desde el punto de vista clínico o epidemiológico; aunque no se haya conseguido demostrar que tenga una significación estadística. Además de estas consideraciones clínicas y/o epidemiológicas, también es importante contemplar que el modelo definitivo debe de cumplir algunas condiciones matemáticas que comentamos a continuación: - En el caso de que necesitemos utilizar la transformación de variables categóricas en variables ficticias (dummy), puede ocurrir que encontremos significación estadística sólo entre la variable dependiente y alguna de las variables ficticias. A pesar de ello, es necesario mantener todas ellas en el modelo, pues representan al mismo factor de riesgo (variable categórica policotómica). - Hay que descartar la existencia de interacción entre las variables independientes. Para ello hay que introducir en el análisis estadístico a la interacción de dos variables como una nueva variable (variable interacción), y comprobar si el ajuste del modelo mejora o no. Es posible, que en el nuevo modelo la variable interacción sea significativa, pero que al mismo tiempo, desaparezca la significación estadística de los coeficientes de las variables de la interacción por separado. En estos casos, hay que considerar la posibilidad de que este último modelo sea mejor o no. En el caso de que sí lo sea, se creará un nuevo modelo donde además de la variable interacción, se mantendrán las dos variables independientes. Esta propiedad es la que hace que el modelo sea ‘parsimonioso’, pues mantiene todos los niveles - 16 - Curso de Estadística Avanzada Gema Vega ‘jerárquicos’ de las variables que están en el mismo. Por el contrario, en los casos en que el modelo con la interacción sea igual que el modelo con las dos variables por separado, se elegirá este último modelo, para mantener la asunción de aditividad. Se estudiaran sólo aquellas interacciones entre los factores, que puedan tener una explicación biológica o fisiopatológica. Bondad de Ajuste del Modelo de Regresión Logística Una vez que hemos obtenido la configuración final del modelo, nos debemos preguntar cuál puede ser el mejor modelo. Para ello hay que tener en cuenta que el mejor modelo será aquel que mejor se ajuste a los datos reales obtenidos en la muestra del estudio o muestra de aprendizaje. El ajuste del modelo final se estudia por ‘la bondad de ajuste’. Para ello es necesario que se conozcan el número de perfiles o distintos patrones de variables que tenemos en la muestra. Es decir, las distintas posibilidades de combinación de las variables que se encuentran en el modelo y que pueden aparecer por la presencia o ausencia de cada una de ellas. Estas configurarán los distintos perfiles de pacientes de los que disponemos en la muestra y de los que podemos obtener el valor de probabilidad de que ocurra el evento. Cuando las variables independientes son categóricas, el número de perfiles es más pequeño que el número de enfermos incluidos en la muestra de estudio. Mientras que, cuando existen variables continuas en el modelo, es poco probable que muchos pacientes presenten los mismos valores en estas variables; por lo que habrá mayor número de perfiles, e incluso, es posible que haya tantos perfiles como individuos en la muestra. El ajuste del modelo logístico se mide a través del desajuste entre, la respuesta observada y la respuesta predicha por el modelo, calculando el ‘valor residual’ entre ambas. Este valor en Regresión Logística se denomina ‘residual de Pearson’ (χ). Como estas diferencias pueden ser de diferentes signos (positivas o negativas), la cuantificación del desajuste se hace a través de la suma de los cuadrados de todos los residuales, lo que se denomina la ‘χ2 residual de Pearson’, que sigue una distribución de χ2 (con grados de libertad: número de perfiles menos, '1’ más el valor de ‘p’). Este valor se puede comparar con el máximo valor que el azar explique, según la tabla de Pearson, para los distintos grados de libertad, y así obtener una medida del ajuste o desajuste del modelo. Pero esta aproximación es incorrecta para aquellos modelos en los que se introducen factores cuantitativos, por tener mayor número de perfiles. En estos casos se debe de utilizar el ‘test de Hosmer-Lemeshow’, por el cual, se agrupan el elevado número de perfiles, en un número menor. Esta reducción se realiza según criterios estadísticos. - 17 - Curso de Estadística Avanzada Gema Vega Capacidad Predictiva del Modelo de Regresión Logística Cuando ya hemos obtenido el modelo matemático definitivo, la estimación de la probabilidad de aparición del evento en un futuro nuevo paciente se puede obtener por un simple cálculo matemático; pero necesitamos estar seguros de cual es la capacidad predictiva del mismo. Las herramientas con las que contamos para estudiar la seguridad predictiva de los modelos son fundamentalmente dos, la fiabilidad y el poder discriminante. La fiabilidad se refiere a la concordancia entre la predicción y la realidad. Es decir, el porcentaje de enfermos que están bien clasificados. El poder discriminante, es aquella propiedad, por la cual, el modelo es capaz de discernir entre los enfermos que van a presentar el evento de estudio, frente a aquellos que no lo presentarán. La fiabilidad es una propiedad muy importante de los métodos y es necesario validarla. Pero ésta es difícil de cuantificar, pues existen muchas maneras de subdividir a los pacientes en distintos grupos con similar porcentaje de bien clasificados. Por ejemplo, en el caso de nuestro estudio particular con una mortalidad estimada del 8%, podemos encontrar dos modelos con una fiabilidad del 90% y no predecir la mortalidad de la misma manera. El que un modelo tenga una fiabilidad del 90% significa que clasifica bien al 90% de los enfermos; pero esta fiabilidad se puede obtener a expensas de haber clasificado bien a casi todos los enfermos que sobrevivieron y no haber clasificado correctamente a ninguno de los que fallecieron. O, por el contrario, se puede obtener al clasificar correctamente a todos los enfermos que fallecieron y, un poco peor a aquellos que sobrevivieron. Como es lógico, ambos modelos son totalmente diferentes en su poder de clasificación entre vivos y muertos aunque la fiabilidad sea la misma. A diferencia de la fiabilidad, el poder discriminante de un modelo es más fácil de medir a través del índice de discriminación predictiva del modelo, llamado “Indice c” (por la palabra “concordancia”). Este índice es la probabilidad de que, dada una pareja de pacientes elegida al azar, el valor predicho y el observado, concuerden. Por ejemplo, si el paciente ha tenido un resultado favorable, la predicción de ese mismo paciente, también deberá ser un resultado favorable. En los modelos de Regresión Logística en los que la variable dependiente es dicotómica, este Indice “c” es idéntico al área bajo la curva ROC (Receiver Operating Characteristic). Cuando el índice “c” toma el valor “0,5” el método no tiene ningún poder discriminante; mientras que cuando toma el valor “1”, el método puede establecer una línea de separación entre la aparición del evento, de acuerdo con la severidad de la variable de estudio, que en este caso sería el modelo. Para poder entender el concepto de este índice, repasaremos el significado de algunos conceptos epidemiológicos y de lo que representa la curva ROC. Representaremos nuevamente la tabla de contingencia de 2x2, pero planteándonos que lo que estamos - 18 - Curso de Estadística Avanzada Gema Vega relacionando es, por un lado, el valor observado y por otro, el valor predicho. Esto sería semejante a las tablas de contingencia que representamos, cuando estamos haciendo un análisis de la eficacia de una prueba diagnóstica, en la detección de un evento o de una enfermedad (Por ejemplo, el valor de las enzimas CPK y CPK_MB a partir del cual se considera que ha ocurrido un infarto agudo de miocardio). En nuestro caso, en vez de una prueba diagnóstica, sería la predicción de aparición del evento en la muestra de validación, a través del cálculo de la probabilidad obtenida por el modelo y, la existencia o no del evento en esa misma muestra. REALIDAD PREDICCIÓN Enfermedad No Enfermedad Enfermedad a b a+ b No Enfermedad c d c+ d a+ c b+ d A partir de esta tabla podremos definir distintos conceptos que sirven para valorar la eficacia de una prueba y que en nuestro estudio evaluaría la capacidad predictiva del modelo. La sensibilidad (Sb) del modelo vendría representada por aquel porcentaje de pacientes que, habiendo presentado el evento (enfermedad), hayan sido clasificados por el modelo como enfermedad. Indicaría lo bueno que es el modelo para identificar a los pacientes que van a sufrir el evento. La expresión matemática a partir de la tabla anterior sería Sb = a / a + c La Especificidad (Es) del modelo sería aquella proporción de pacientes que, no habiendo presentado el evento (no enfermedad), son clasificados por el modelo como ‘no enfermedad’. Indicaría, hasta qué punto el modelo es bueno para identificar a los individuos que no van a sufrir el evento. Matemáticamente se expresaría Es = d / b + d El ‘valor predictivo de un resultado positivo’ (VPP), es el que viene determinado por aquellos pacientes que, habiendo sido clasificados como enfermedad, realmente la hubieran presentado. Es decir, VPP = a / a + b El ‘valor predictivo de un resultado negativo’ (VPN), es el que viene determinado por aquellos pacientes que, habiendo sido clasificados como ‘no enfermedad’ realmente no la hubieran presentado. Es decir, VPN = d / c + d - 19 - Curso de Estadística Avanzada Gema Vega En todos los modelos predictivos de Regresión Logística obtendremos unos valores continuos de la probabilidad de aparición del evento según los pacientes presenten o no las características de las variables contenidas en el modelo. A partir de estos porcentajes tenemos que escoger un valor que clasifique a los enfermos como enfermedad o ‘no enfermedad’. La elección de este punto de corte de probabilidad es arbitrario, pero siempre va a ir acompañado de un valor de sensibilidad y de especificidad, que variarán de manera inversa según el valor de probabilidad que escojamos. Es decir, que si elegimos un nivel de corte con alta sensibilidad, esto será a expensas de disminuir en especificidad. Por lo tanto el propio investigador es el que debe de sopesar la importancia relativa de la sensibilidad y de la especificidad para definir el punto de corte según las implicaciones que conlleven de los errores de mala clasificación. Así, si se deben evitar los individuos que sean clasificados falsamente como enfermedad, el punto de corte debe de situarse donde la especificidad sea máxima. Mientras que, si lo importante fuera evitar clasificar como ‘no enfermedad’ a aquellos pacientes que si van a fallecer, habría que tomar un punto de corte donde la sensibilidad fuera alta. Otra forma de definir el punto de corte es utilizando la curva ROC. Esta curva es la expresión gráfica del cambio entre especificidad y sensibilidad según los distintos puntos de corte. Para representarla, primero se eligen distintos puntos de corte, y después se obtienen para cada nivel de corte, el valor de la sensibilidad y la especificidad asociado, a través de una tabla 2x2 como la anterior. Posteriormente, se realiza una representación gráfica entre la sensibilidad y el recíproco de la especificidad (1-Especificidad), denominando a este último ‘tasa de falsos positivos’. Entre ambos se representa una curva (Figura.1), denominada curva ROC. Los valores de los ejes variarán entre ‘0’ y ‘1’ ó entre ‘0’ y ‘100’, según consideremos ‘tanto por 1’ o en ‘tanto por ciento’. Sensibilidad 2 3 1 1 - Especificidad Figura 1. Curva ROC - 20 - Curso de Estadística Avanzada Gema Vega La forma de la curva se podría dividir en tres partes. - La parte inicial de la curva vendría representada por una recta con una gran pendiente (1), en la cual la sensibilidad aumenta mucho, sin que apenas varíe la tasa de falsos positivos. - La porción intermedia que vendría representado por un segmento curvilíneo (2) con más o menos pendiente, donde crecen tanto la sensibilidad como los falsos positivos. - Para terminar en otro segmento recto casi sin pendiente (3), donde apenas aumenta la sensibilidad; mientras que si van aumentando los falsos positivos. El modelo ideal sería aquel que tuviera 100% de sensibilidad y 100% de especificidad, situándose en el margen superior izquierdo de la gráfica. Y el peor modelo, sería aquel que viniera representado por una línea diagonal desde el margen inferior izquierdo hasta el margen superior derecho. En este último caso, cada incremento en la sensibilidad, vendría asociado a un incremento de igual magnitud en la proporción de falsos positivos. Es obvio, que la mayoría de los modelos se encuentran entre estos dos extremos, y que aquellos modelos que tengan una buena predicción, obtendrán una curva que se alejará de la diagonal para aproximarse hacia el vértice superior izquierdo. Esta curva nos sirve para objetivar como varían conjuntamente la sensibilidad y la especificidad y comprobar la exactitud del pronóstico en distintos puntos de corte. Por lo general, el mejor punto de corte se sitúa en la zona donde “tuerce la curva”. Una vez obtenido el mejor punto de corte que se considere según los objetivos del estudio, podremos clasificar a los pacientes. De tal manera que aquellos que tengan un valor de probabilidad de aparición del evento (obtenido a través del modelo matemático) superior al punto de corte, serán clasificados con el valor ‘1’. Y los que tengan un valor de probabilidad inferior al punto de corte que hemos determinado, serán clasificados como ‘0’. Creación de la Escala Clínica de Riesgo A través del análisis multivariado de Regresión Logística obtenemos aquellos factores que de forma independiente contribuyen a un mal pronóstico postoperatorio de los pacientes sometidos a cirugía cardiaca con circulación extracorpórea (muerte o aparición de complicaciones). Además, con este análisis también desarrollamos un modelo matemático mediante el cual podemos calcular el riesgo relativo (RR) para cada factor de riesgo con su estimación poblacional a través del intervalo de confianza y, el valor de probabilidad de aparición de cada uno de los dos eventos de estudio (mortalidad y morbilidad) para cada paciente individual, según presente o no dichos factores de riesgo. La utilización de este modelo, conlleva la realización de operaciones matemáticas según la fórmula de la función logística que comentamos anteriormente: f(p)=1/1+e–(β0+β1X1+β2*X2+β3*X3+…+βi*Xi), siendo ‘p’: la probabilidad de aparición del evento; ‘Xi’: los factores de riesgo independientes y ‘βi’ los coeficientes de dichos factores. - 21 - Curso de Estadística Avanzada Gema Vega La necesidad de realizar estos cálculos para la obtención del valor de probabilidad de forma predictiva supone una gran limitación para que sea fácilmente utilizada por un clínico. Por este motivo, es conveniente la creación de escalas clínicas que puedan sustituir al modelo matemático original. Se creará una escala clínica de riesgo para cada una de las variables de estudio que son objeto de esta tesis. Cada una de ellas estará compuesta por los factores independientes de riesgo de aparición de dicho evento de estudio, a los cuales les asignaremos un valor. Este valor será similar o aproximado al valor del RR obtenido por el análisis multivariado para dicho factor, teniendo en cuenta el intervalo de confianza. El valor total que tendrá cada paciente, será la suma de los valores de aquellos factores de riesgo que presente dicho paciente. Posteriormente y según los resultados obtenidos en la muestra de pacientes que denominamos “de aprendizaje”, se asignará la probabilidad de aparición del evento con su intervalo de confianza, para cada uno de los posibles valores de la escala. En aquellos valores de la escala en los que los intervalos de confianza de la probabilidad de aparición del evento se solapen, se agruparán para formar categorías de riesgo. De esta manera, dividiremos los posibles valores de la escala en categorías progresivas de riesgo a las que les será asignada una probabilidad de aparición del evento. Estas escalas con sus categorías de riesgo y la probabilidad de aparición del evento asignada a cada una de ellas, serán las que posteriormente se validarán en la muestra de validación. - 22 -