Capítulo 8 Elección de las variables Elena García Martín, María Satué Palacián, María Pilar Bambó Rubio 1. Introducción 2. TIPOS DE VARIABLES 2. Tipos de variables a) Cuantitativas y cualitativas b) Descriptivas y experimentales c) Principales, secundarias y de confusión d) Directas e indirectas 3. Escalas de medición a) Escala nominal o clasificatoria b) Escala ordinal o escala de rango a) Variables cuantitativas y cualitativas Las variables pueden ser clasificadas como cuantitativas (llamadas también intervalares o numéricas) o cualitativas (o categóricas), dependiendo de si los valores presentados tienen o no un orden de magnitud natural (cuantitativas), o simplemente un atributo no sometido a cuantificación (cualitativa). c) Escala de intervalo d) Escala de proporción 4. Elección y características de una buena variable 5. Obtención de variables. 6. Aleatorización y enmascaramiento de variables 7. Medida de variables: Fiabilidad y validez 1. INTRODUCCIÓN Antes de utilizar un método estadístico que nos permita inferir datos sobre la población a estudiar debemos elegir y evaluar las variables y escalas de medición que van a ser utilizadas. En este capítulo se explicará los tipos de variables, cómo deben ser elegidas y registradas en función del objetivo del estudio y el método para evaluar su fiabilidad y validez. Una variable es una característica que al ser medida en diferentes sujetos es susceptible de adoptar distintos valores. Cada variable tiene una escala de medida, que depende de los valores que puede adoptar y que determina el trato estadístico que va a darse a la información. Elegir una buena variable supone medir exactamente el efecto que deseamos y optimizar la potencia de nuestro estudio, por lo que se trata de una elección importante. Variables cuantitativas: Son aquellas que sólo pueden expresarse en cantidades numéricas. Ejemplos clásicos de este tipo de variables serían la talla y el peso o la PIO y la AV. Debido a la naturaleza numérica de este tipo de variables, su tratamiento estadístico podrá ser más elaborado que en otro tipo de variables, incluyendo operaciones aritméticas, lo que permite una descripción más completa y precisa. Las variables cuantitativas pueden subdividirse a su vez en dos subtipos: continuas y discretas. Variables cuantitativas continuas. En las variables cuantitativas continuas los valores numéricos que adoptan las observaciones pueden estar contenidos dentro de un intervalo, existiendo infinitas posibilidades dentro del mismo. En este caso, las categorías o clases no vienen dadas de forma natural, sino que deben ser elegidas y el recorrido (conjunto de posibles valores de la variable) se divide en intervalos que no se solapen. El análisis de distribución de las variables cuantitativas continuas es más complejo que el de las variables cualitativas o el de las cuantitativas discre- 66 tas. Su representación gráfica se realiza mediante histogramas y polígonos de frecuencias (fig. 1). Ejemplo de estas variables serían el peso o la PIO. Variables cuantitativas discretas. La distribución de estas variables es similar a la de las variables cualitativas (que se explicarán más adelante), ya que las categorías en las que se agrupan los datos vienen dadas de forma natural por los valores que adquiere la variable. En las variables cuantitativas discretas los valores numéricos son enteros, sin posibilidad de que la variable tome valores intermedios. Ejemplos de este tipo de variables serían el número de hijos o el número de admisiones en un hospital (fig. 2). Variables cualitativas: Las variables cualitativas se utilizan como medida de identificación: aquí los números son etiquetas que identifican particularidades o clases. Estas observaciones no pueden ser medidas, pero pueden expresarse cualitativamente y reciben el 8. Elección de las variables nombre de «atributos». Un «atributo» corresponde a un valor específico en una variable. Un ejemplo de variable cualitativa es «sexo», que tiene 2 atributos: varón y mujer. Dependiendo de los valores que pueda adoptar una variable cualitativa, ésta puede a su vez ser dicotómica (cuando adopta un sólo valor entre 2 posibles, sin jerarquía entre sí; por ejemplo: hombre-mujer, positivo-negativo), o bien, poli o multicotómica, si existe la posibilidad de que adopte múltiples valores (por ejemplo: nivel socioeconómico, grupos sanguíneos). Las variables cualitativas también pueden clasificarse en nominales u ordinales. Una variable será nominal cuando los datos correspondientes no sigan ninguna jerarquía entre sí. Por ejemplo, la variable «color de ojos» (verde, azul, negro…), o la variable «raza». Si los valores que adopta una variable siguen un orden, secuencia o progresión natural esperable, entonces hablamos de Fig. 1: Representación mediante histograma de altura de los jugadores de un equipo de baloncesto. Fig. 2: Representación gráfica del número de hijos por familia en 16 familias encuestadas. 67 8. Elección de las variables variable cualitativa ordinal (por ejemplo: intensidad del dolor, respuesta a un tratamiento, estadíos de una enfermedad) (fig. 3). En los casos en que, a pesar de este orden jerárquico natural, no es posible obtener valoración numérica lógica entre dos valores, se habla de variable cuasicuantitativa (1). b) Descriptivas y experimentales Una variable descriptiva es aquella en la que los datos sólo son anotados según han sido observados, sin conclusiones acerca de una posible influencia o causalidad. Valen para definir los criterios de inclusión y exclusión de nuestra muestra, para caracterizarla (edad, sexo, etc) y para mostrar los resultados de los estudios descriptivos. Una variable experimental es aquella que ha sido manipulada por el investigador. Cuando se propone una relación de variables en forma A causa B, A es la variable independiente y B la dependiente (porque depende de A). La variable independiente o predictora (que es la que manipulamos) «causa» la variable dependiente o de desenlace (que es el resultado que medimos). Ejemplo 8.1 or ejemplo, si queremos averiguar cómo P afecta la adición de sal a la temperatura de ebullición del agua, la variable «cantidad de sal» sería la variable independiente que será modificada a lo largo del experimento para observar el cambio en la variable dependiente «temperatura de ebullición del agua». c) Principales, secundarias y de confusión Las variables principales o primarias son aquellas que están relacionadas con el objetivo principal de la investigación mientras que las variables secundarias son aquellas que no nos proporcionan una respuesta a la pregunta principal que deseamos contestar, pero que han podido registrarse en el transcurso de la investigación en forma de objetivos secundarios. El análisis de estas variables aportará ciertas conclusiones, que deberán interpretarse con cuidado, ya que el estudio no estaba diseñado para esos posibles resultados, y por tanto el tamaño muestral podría no ser suficiente o el tipo de investigación no ser la adecuada (2). La diferencia entre los objetivos primarios y secundarios se muestra en el capítulo 5. Una variable o factor de confusión es una variable que distorsiona el efecto del factor de estudio sobre la variable de respuesta. La figura 4 muestra gráficamente esta distorsión. Estudiaremos este tipo de efectos en el capítulo 25, dedicado a la confusión y los sesgos. d) Directas e indirectas Las variables directas se definen como resultado directo clínicamente relevante de la enfermedad en estudio, por ejemplo la progresión del campo visual en el glaucoma o el grado de retinopatía diabética en los pacientes diabéticos. Las variables indirectas (llamadas también intermedias) no se refieren a los resultados finales, pero por su fuerte correlación se utilizan como índices de aquellos (por ejemplo, la glucemia en pacientes diabéticos o la PIO en pacientes con glaucoma). Otros ejemplos de variables Fig. 3: Diagrama de sectores en una variable cualitativa ordinal. Se representa la intensidad del dolor en pacientes con aftas orales. 68 8. Elección de las variables Fig. 4: Efecto de una variable de confusión. directas son la mortalidad o la calidad de vida y de variables indirectas la tensión arterial o el resultado obtenido en una prueba de esfuerzo. excluyen mutuamente. La única relación implicada es la de equivalencia, es decir, los miembros de cualquier subclase consultada deben ser equivalentes. 3. ESCALAS DE MEDICIÓN b) Escala ordinal o escala de rango Los tipos de variables que se han explicado presentan cuatro posibles niveles de medición y cada uno de ellos tiene asociado una serie de pruebas estadísticas apropiadas. Es por ello muy importante conocer el tipo de variable que estamos tratando y la escala de medición que ésta emplea. Las variables cualitativas se miden habitualmente en dos tipos de escalas: nominal u ordinal. Las variables cuantitativas utilizan las escalas de intervalo y de proporción. Puede suceder que las clases de una escala estén relacionados entre sí. Relaciones típicas entre clases son las que dividen la muestra en apartados por altura, preferencias, dificultad, madurez, etc. Las escalas ordinales son muy utilizadas en encuestas. a) Escala nominal o clasificatoria Se emplea cuando los números u otros símbolos se usan para la clasificación de objetos, personas o características con el fin de distinguir entre sí los grupos de estudio. Ejemplo 8.3 ualquier escala que suponga manifesC tar el grado de preferencia, por un producto, servicio o artículo es ordinal. Otro ejemplo es la valoración que los pacientes hacen del dolor empleando la Escala Numérica de Dolor, en la que el sujeto asigna una puntuación al dolor que padece, que varía desde la ausencia de dolor (valor 0) al dolor más intenso que pueda imaginar (valor 10). Ejemplo 8.2 S on de este tipo la clasificación de los datos por sexos («1=Hombre» «2=Mujer»), la clasificación de un patrón («1=Normal» «2=Patológico»), o de un rango («0=No fuma» «1=Fuma entre 0 y 10 cigarrillos al día» «2=Fuma entre 11 y 20 cigarrillos al día» «3=Fuma más de 20 cigarrillos al día»). Propiedades formales: En una escala nominal, la operación de clasificación consiste en partir de una clase dada y formar un conjunto de subclases que se Propiedades formales: En la escala ordinal, además de la relación de equivalencia, también existe la relación de «mayor que», es decir, cada valor es mayor o menor que el resto de valores de la escala. c) Escala de intervalo Se da en una escala ordinal en la que se conoce la distancia entre dos números cualesquiera. Nuestra asignación de números a varias clases de objetos es tan precisa que sabemos la magnitud de las distancias entre todos los objetos de la escala. Una escala 69 8. Elección de las variables de medida está caracterizada por una medida común y constante que asigna un número real a todos los pares de objetos en un conjunto ordenado. En esta clase de medida, la proporción de dos intervalos es independiente de la unidad de medida y del punto cero. En una escala de intervalo, el punto cero y la unidad de medida son arbitrarios. Ejemplo 8.4 L a medición de la temperatura mediante grados centígrados o Farenheit. La unidad de medida y el punto cero en la medición de la temperatura son arbitrarios y diferentes en ambas escalas. Sin embargo, contienen la misma cantidad y clase de información. Esto es así porque están relacionadas linealmente y podemos transformar la información de una a otra mediante una fórmula. Propiedades formales: En una escala de intervalo se debe especificar la equivalencia (como en una escala nominal), la relación de mayor a menor (como en una escala ordinal) y la proporción de dos intervalos cualesquiera. d) Escala de proporción Se trata de una escala que presenta todas las características de una escala de intervalo y además tiene un punto cero real en su origen. En este tipo de escala, la proporción de un punto a otro cualquiera es independiente de la unidad de medida. Ejemplo 8.5 edición de la tensión arterial o del peso M en gramos. Estas escalas tienen un verdadero punto cero. Propiedades formales: Las características de una escala de proporción son relación de equivalencia, relación de mayor a menor, proporción conocida de dos intervalos, y proporción conocida de dos valores de la escala. 4. ELECCIÓN Y CARACTERÍSTICAS DE UNA BUENA VARIABLE Una vez que el estudio ha identificado el problema que se desea resolver, resulta fundamental elegir correctamente las variables que vamos a utilizar (tabla I). Elegir una buena variable es un arte. Algunos de los errores más frecuentes que se cometen en la elección de variables son los siguientes: Variables poco sensibles. Si estamos estudiando el efecto de una terapia sobre la progresión del queratocono, es más difícil demostrar cualquier efecto si lo medimos en grados evolutivos de la enfermedad (de I a IV) que si tomamos variables más sensibles (índices o parámetros topográficos), con los que efectos más pequeños producen cambios mensurables. En general las variables continuas tienen más potencia que las dicotómicas o discretas y necesitan menor tamaño muestral. Variables con poca relevancia clínica. En ocasiones se recogen variables que son clínicamente poco importantes para el paciente. En 2010 un ensayo Tabla I. Características y dificultades para elegir una buena variable Características de una buena variable Dificultades para la elección de una buena variable – Que esté definida con precisión antes de iniciar el estudio – Que sea apropiada a la pregunta que se desea responder – Que mida lo que se quiere medir – Que sea suficientemente sensible para medir el efecto de interés – Que su medición sea lo más detallada posible – Que se pueda medir con un método fiable, preciso y reproducible – Que se pueda medir en todos los sujetos y de la misma manera – Que sea única. Si hay varias, usar la más relevante y fiable – Fenómenos que no pueden medirse objetivamente, necesidad de variables con un componente de subjetividad – Uso de variables aproximadas o intermedias, porque nos resulte imposible medir una determinada condición – Que la variable elegida mida parcialmente el fenómeno – Uso de variables que no miden el fenómeno de interés 70 8. Elección de las variables clínico en Lancet medía el efecto analgésico de un fármaco sobre recién nacidos mediante cambios en el ECG sin observar diferencias con el grupo placebo. Sin embargo, en una lectura crítica del mismo se comprobó que si se tomaba como variable el llanto y los cambios faciales del bebe, los resultados eran fuertemente positivos. Claramente el segundo grupo de variables medía mejor el objetivo propuesto y estaba más orientado al beneficio del paciente. Si medimos los resultados de la cirugía de retina, un dato como la agudeza visual es clínicamente más relevante que el éxito anatómico, etc. Variables intermedias que no se corresponden con el objetivo. Muchos estudios toman variables intermedias como exponentes de mejoría clínica sin haber demostrado que efectivamente lo sean. Si tomamos una variable intermedia como variable principal deberá ser un marcador directo demostrado del pronóstico de la enfermedad. Ejemplo 8.6 S abemos que el control de la glucemia mejora el pronóstico de la diabetes y lo mismo sucede con la PIO y el glaucoma, por lo que inferimos que su normalización da lugar a un mejor pronóstico de la enfermedad. Pero si dicha relación no ha sido bien establecida, no debería tomarse esa variable como variable clínica de respuesta. Por ejemplo, muchos tratamientos para el ojo seco mejoran diversos parámetros bioquímicos o anatomopatológicos de la superficie ocular, pero eso no significa que dichos cambios hayan demostrado tener relevancia sobre los signos y síntomas del paciente, por lo que no deberían ser tomados como indicadores de mejoría clínica de la enfermedad. 5. OBTENCIÓN DE VARIABLES El investigador debe diseñar un método que permita observar o medir de la forma más exacta posible las variables seleccionadas para el estudio y obtener los valores reales que toman las variables en la muestra a estudio. Hay diversas formas para la obtención de variables en una muestra (4). Algunas son objetivas y otras subjetivas: – Mediciones biofisiológicas: Es el sistema más habitual. Por ejemplo la presión intraocular, la agudeza visual, la paquimetría, etc. – Cuestionarios: Permiten interrogar al sujeto sobre diferentes aspectos, actitudes, sensaciones, etc. Por ejemplo: un cuestionario sobre calidad de vida en pacientes con glaucoma crónico simple en tratamiento (ver capítulo 10). – Técnicas de observación: Mediante el registro de características observables en el sujeto por parte del investigador. Puede tener un componente de subjetividad importante, aunque existan clasificaciones previas que pueden orientar en la recogida de datos. Por ejemplo: el grado de catarata, el efecto Tyndall, etc. – Escalas: de valoración, combinadas multidimensionales, visuales analógicas, etc. 6. ALEATORIZACIÓN Y ENMASCARAMIENTO DE VARIABLES Un estudio aleatorizado o randomizado es aquel en que los individuos que participan tienen la misma probabilidad de recibir las diferentes intervenciones a estudiar, de forma que no se introduzca ningún sesgo a la hora de establecer el tratamiento a seguir. Debe ser realizada mediante el azar, lo que en la práctica significa tablas o series de números aleatorios, generalmente producidos por ordenador (y no otra cosa, no son válidos según números de historia, fechas de nacimiento o de consulta, etc.). La aleatorización de las variables puede ser de diferentes tipos (tabla II). Tabla II. Tipos de aleatorización Simple Cada vez que se incluye un paciente, se obtiene su asignación a una u otra intervención por el azar, como si lanzáramos una moneda al aire Restrictiva o por bloques Estratificada Se realiza una aleatorización por bloques de un número pequeño de pacientes. Se asegura que el número de pacientes en cada grupo de sea el mismo Cuando se realiza una clasificación anterior a la aleatorización, en función de una o varias características que pueden ser importantes en la evaluación final de los resultados (edad, sexo) Por grupos No se aleatoriza a cada paciente, sino a grupos de pacientes (familias, barrios, centros de salud...). Útil para tamaños muestrales grandes 71 8. Elección de las variables Tabla III. Tipos de enmascaramiento Simple ciego El paciente desconoce el grupo de tratamiento Doble ciego Tanto el sujeto como el médico desconocen la asignación de los pacientes a los grupos Triple ciego El paciente, el médico y el responsable de analizar los datos desconocen la asignación de los pacientes a los grupos Evaluación ciega Será cuando se recurre a un tercero, que desconoce el tratamiento que está recibiendo cada pacienpor terceros te, para la valoración de la respuesta. Se utiliza cuando no es posible un diseño doble ciego (por ejemplo, en la realización de técnicas quirúrgicas) En general se utiliza la técnica simple, reservándose las otras para tamaños muestrales grandes, estudios multicéntricos o comunitarios o, en el caso de la estratificada, cuando existen variables de confusión que deseamos controlar para evitar el sesgo. En estos tipos menos utilizados deben utilizarse técnicas estadísticas especiales. El enmascaramiento (blinding, masking) consiste en una serie de medidas (o precauciones) que se toman con el fin de que a lo largo del estudio, bien el paciente, el médico o ambos, desconozcan la asignación de los tratamientos. Los tipos de enmascaramiento se muestran en la tabla I. El enmascaramiento es muy importante, de tal manera que se ha observado que los estudios que utilizan métodos de ocultamiento inadecuados, comparados con aquellos en los que las técnicas de enmascaramiento son apropiadas, asocian un incremento en la estimación del beneficio medio de un 37% (5). La validez es el grado en que una medición coincide con la verdad. Por ejemplo, si un estudio quiere medir la estatura de un grupo de personas y la cinta 7. MEDIDA DE VARIABLES: FIABILIDAD Y VALIDEZ Todo proceso de medición está amenazado por diversas fuentes de error, derivadas tanto de las limitaciones del instrumento de medida, como de la naturaleza de la magnitud a medir. Es importante diferenciar dos conceptos: validez y fiabilidad (fig. 5). Fig. 5: Ejemplos con dianas para entender los conceptos de fiabilidad y validez. A: precisión (+++), validez (0). B: precisión (0), validez (+). C: precisión (+), validez (0). D: precisión (+++), validez (+++). Tabla IV. Enfoques de la fiabilidad o precisión Estabilidad o constancia Se realiza una misma prueba en 2 momentos diferentes dejando un intervalo de tiempo Equivalencia de resultados Se realizan dos versiones de una misma prueba que pretenden medir lo mismo a través de diferentes ítems Consistencia interna o cohe- Mide hasta qué punto los resultados de rencia dos pruebas están relacionados Es el enfoque más usado y al que más se alude cuando se habla de fiabilidad o precisión Variables cuali- Coeficiente kappa dicotómicas Correlación de Pearson Varibles cuanti- Correlación intraclase continuas 72 métrica está mal calibrada, los datos obtenidos son de por sí falsos. Se suelen distinguir entre dos modos de controlar la validez de un instrumento de medida: cuando se hace con patrones objetivos (patrón de oro o «goldstandard») se habla de exactitud (accuracy); mientras que cuando se controla comparando con una referencia considerada mejor pero que no puede considerarse un verdadero patrón de oro se habla de conformidad (conformity). Se denomina precisión o fiabilidad al grado en que una variable tiene el mismo valor cuando se mide varias veces en la misma muestra. Se ve afectada por el error aleatorio, que se produce al azar, no afecta a la validez, y puede reducirse aumentando el tamaño muestral. Se distingue entre la reproducibilidad del mismo instrumento/observador en dos instantes de tiempo diferentes (concordancia o consistencia interna o intraobservador) y la reproducibilidad del mismo instrumento usado en diferentes condiciones (concordancia o consistencia externa o interobservador). 8. Elección de las variables Cuando nos referimos a la fiabilidad o precisión, existe cierta confusión, ya que el concepto incluye tres enfoques diferentes (7) (tabla IV). BIBLIOGRAFÍA 1. Rubio E, Martinez T, Rubio E, et al. Fundamentos teóricoprácticos de bioestadística para médicos. Ed. Cátedra de Bioestadística. Universidad de Zaragoza. 1ª Edición. 2. Araujo M. Variables of a study. Medwave 2011;11(03):e4933. 3. Jokin de Irala, Miguel Ángel Martínez-González y Francisco Guillén Grima ¿Qué es una variable de confusión? Medicina Clínica 2001:10 (117). 4. Polit DF, Hungler B. Investigación científica en ciencias de la salud, 6ª edición, Mc Graw-Hil Interamericana, 2000. 5. Moher D, Pham B, Jones A, et al. Does quality of reports of randomised trials affect estimates of intervention efficacy reported in meta-analyses? Lancet. 1998; 352 (9128): 60913. 6. Feinstein A.R. Clinimetrics, New Haven, Yale University Press, 1987. 7. Morales P. La fiabilidad de los test y escalas, Madrid, Archivos de la Universidad Pontificia de Comillas, 2007.