BIOESTADISTICA (Javier Otazu Ojer). Introducción a la Bioestadística. El objetivo de la bioestadística se compone de 4 grandes apartados; 1.- Dada una muestra de datos, conocer su estructura a partir de ciertos indicadores estadísticos (media, varianza, asimetría o curtosis, entre otros). 2.- Estudio de fenómenos aleatorios (probabilidad) y modelización de datos a partir de variables aleatorias (las más importantes son la normal, la binomial y la Poisson). 3.- Inferencia estadística: razonar la estructura de una población a partir de una muestra de la misma. Por ejemplo, nivel de colesterol en vegetarianos a partir de una muestra de los mismos). Recordemos que inferir consiste en pasar de lo “pequeño” a lo “grande”. 4.- Relaciones causa efecto: estudiar la causalidad entre diversas variables. Por ejemplo, tipo de fertilizante y cantidad de cosecha o cantidad de fertilizante y cantidad de cosecha. Desde luego, existen otros muchos análisis estadísticos que se estudian dentro del área de conocimiento de la epidemiología o del análisis multivariante. Los estudiaremos en un anexo. Por último, no podemos olvidar los tipos de datos que vamos a estudiar; pueden ser cuantitativos (peso, altura o edad) o cualitativos (raza, ser hombre o mujer, o el nivel de dolor de una enfermedad). Los datos cuantitativos se agrupan de forma discreta (si son unos pocos, por ejemplo las notas de una clase en forma de suspenso, aprobado, notable o sobresaliente, 0-1-2-3) o continua (es muy difícil que la altura de dos personas coincidan; en ese caso lo mejor es dar un rango de valores, por ejemplo, decir que hay 17 personas entre 165 y 166 centímetros). No obstante, la potencia de los programas informáticos actuales hace que esta separación sea irrelevante, ya que introduciendo cualquier cantidad de datos tenemos directamente todos los indicadores estadísticos con sus gráficos correspondientes. Los datos cualitativos tienen un estudio mucho más complejo ya que no se pueden hacer operaciones matemáticas con un nombre. En todo caso, pueden ser dicotómicos (si sólo existen dos categorías: hombre – mujer, enfermo – sano), multitómicos (si existen más de dos categorías: sirve cualquier escala como no tener dolor, tener algo de dolor o tener mucho dolor), ordinales (en otras palabras, que se pueden ordenar como el ejemplo anterior) o nominales (no existe orden alguno, por ejemplo, el color del pelo). Observar que en todas las variables ordinales son multitómicas y que el recíproco no es cierto). 1. Procedimientos descriptivos. 1. Tablas. Frecuencias absolutas (acumuladas), relativas (acumuladas). X (valores) 0 1 2 3 n (frec.abs) 12 15 16 7 50 N (frec.abs.ac) 12 27 43 50 f (frec.rel) 0,24 0,3 0,32 0,14 1 F (frec.rel.ac) 0,24 0,54 0,86 1 Es fácil ver que los valores de esta muestra de 50 datos son 0 (suspenso), 1 (aprobado), 2 (notable) y 3 (sobresaliente). La frecuencia absoluta indica el total de personas con cada nota; por ejemplo, hay 16 notables. La frecuencia absoluta acumulada se obtiene sumando los datos de la frecuencia absoluta, por ejemplo hay 43 personas con notable o menos. La frecuencia relativa se obtiene dividiendo el número de personas de una categoría por el total, por ejemplo hay 0,32 (un 32%, 16 dividido por 50) de personas que han sacado notable. La frecuencia relativa acumulada se puede obtener de dos formas, o bien sumando de forma acumulada la frecuencia relativa o bien dividiendo la frecuencia absoluta acumulada entre el total. Es decir, el 0,86 se obtiene sumando 0,24 + 0,3 + 0,32 o dividiendo 43 por 50 y quiere decir que el 86% de la muestra ha sacado notable o menos. 2. Medidas de posición central. Media, moda, mediana (datos pares, impares). La media de la muestra se obtiene sumando todos los valores y dividiendo por el total; Media = ∑ xi / n = ((0 x 12) + (1 x 15) + (2 x 16) + (3 x 7))/ 50 Moda: valor más repetido, en este caso el 2 (si hay dos valores que se repiten el mismo número de veces decimos que la distribución es bimodal). Mediana: el valor que está en la mitad de todos los dados en la muestra. Si tengo 50 datos el valor central no sería el 25º ya que deja 24 a su izquierda y 25 a su derecha. Deberíamos sumar el dato 25º con el dato 26º y dividir entre dos (sale 1, ya que los datos que van del 13º al 27º son siempre unos). Si el total de la muestra es impar, por ejemplo, si tuviésemos 51 datos, ahora sí el dato correcto sería el 26º ya que deja a cada lado 25 datos. Lo veremos más claro en el siguiente punto. 3. Medidas de posición no central. Percentil (Cuartil, decil, quintil) j(n +1) / 100. Las medidas de posición no central se denominan cuantiles, ya que agrupan los datos por posición relativa. Lo mejor es comprender el concepto de percentil, ya que es la referencia básica. Por ejemplo, el percentil 25 me dice el valor que deja por debajo el 25% de la muestra (con lo que el 75% de la muestra estará por encima). Es muy sencillo comprender la idea a partir de una muestra de fumadores, si el percentil 25 es 13, quiere decir que el 25% de las personas fuman como mucho 13 cigarrillos, de donde se concluye que el 75% fuma más de 13 cigarrillos. Entendida la idea de percentil (como valor de referencia para toda la población) razonamos con facilidad la idea de cuartil (hay 3 cuartiles, correspondientes a los percentiles 25, 50 y 75), de decil (hay 9 deciles; el primero es el percentil 10, el último es el percentil 90) o de quintil (hay 4, percentil 20, 40, 60 y 80 respectivamente). Quedaría por razonar el cálculo: Supongamos una muestra dada por los valores 8, 10, 13, 17, 20, 25, 27 y 31. Para calcular el percentil 25 (observar que j vale 25 y que n vale 8) haríamos la operación (25 x 9)/100 = 2,25. Eso quiere decir que hay que tomar el 2º dato más el 25% de la diferencia entre el 3º y el 2º. Es decir: 10 + 0,25 (13 – 10) = 10,75. De la misma forma, la mediana o percentil 50 sería (50 x 9)/100 = 4,5. El 4º dato más el 50% de la distancia entre el 5º y el 4º dato. Es decir: 17 + 0,5(20 – 17) = 18,5. Por último, para calcular el percentil 75: (75x9)/100 = 6,75. Así, 25 + 0,75(27 – 25) = 26,5. Posteriormente volveremos a analizar estos datos. 4. Medidas de dispersión. Como dice su nombre, sirve para saber si los datos están o no muy dispersos. La muestra 4, 5, 5, 5, 6 tiene la misma media (5) que la muestra 1,1, 5, 9,9, y es obvio que en el segundo caso los datos están mucho más dispersos que en el primero. Para realizar las operaciones que vienen a partir de ahora usaremos la muestra del apartado anterior dada por los valores 8, 10, 13, 17, 20, 25, 27 y 31. Rango o recorrido: el dato mayor menos el menor, es decir, 31 – 8 = 23. Rango intercuartílico: el tercer cuartil menos el primer cuartil o bien el percentil 75 menos el percentil 25; con los datos anteriores, 26.5 menos 10,75 = 15,75. Desviación media: muy poco usada, ya que es la media de los valores absolutos de las desviaciones con respecto de la media. En la muestra de referencia, (8 + 10 + 13 + 17 + 20 + 25 + 27 + 31)/ 8 = 18,875. Si hacemos las desviaciones, 8 – 18,875 en valor absoluto es 10,875. De la misma forma tenemos 10 – 18.875 es 8,875 en valor absoluto y para el resto de valores tenemos 5,875; 1,875; 1,125; 6,125; 8,125 y 12,125. Sumando todos da 55, dividido por 8 da 6,875 como desviación media. Varianza muestral, es la suma de las diferencias de cada uno de los valores respecto de la media al cuadrado dividido por la muestra menos uno. Hay que tener cuidado ya que algunos libros escriben en el denominador tan sólo la n, pero por propiedades estadísticas que no son objetivos del curso usaremos la fórmula de referencia. Así; S2 = ∑ (xi – med)2/ n -1 En el ejemplo, 118,26 + 78,76 + 34,51 + 3,51 + 1,26 + 37,51 + 66 + 147 da 486,81; dividido por 7 tenemos 69,54. La desviación típica es la raíz cuadrada de la varianza, es decir, 8,339. Sin embargo, la dispersión depende de las unidades de medida. No queda la misma dispersión si mido salarios en euros o si los mido en pesetas. Por lo tanto, lo mejor es usar un índice de dispersión relativa que se denomina coeficiente de variación y que es capital en estadística. El coeficiente de variación es igual a la desviación típica dividida por la media; en nuestro caso, 8,339 dividido por 18,875 nos da 0,441. Es decir, CV = S / med = 0,441. Este indicador se usa para comparar dispersiones en muestras calculadas a partir de medidas diferentes, pero además tiene muchas otras implicaciones importantes: Decimos que una media es representativa de los datos si el CV es menor que uno (en este caso es cierto). Decimos que una muestra es homogénea si el coeficiente de variación es menor que 0,25 (o multiplicado por 100, menor que el 25%), cosa que en este caso no se cumple. Es MUY IMPORTANTE observar que en una muestra como la de referencia en la que cambiamos el 31 por 310 la media ya no sería representativa de los datos debido a que tenemos uno extremo. Esto nos lleva a una conclusión capital en estadística debido a que a veces la mejor referencia de tendencia central es la media (se toma como medida de dispersión la desviación típica) y a veces la mejor referencia de tendencia central es la mediana (se toma como medida de dispersión el rango intercuartílico aunque muchas veces se dan el primer y el tercer cuartil para que se vea mejor la referencia). Aunque volveremos a ello, en el primer caso se supone que la muestra sigue una distribución normal y lo mejor es realizar los denominados análisis paramétricos mientras que en el segundo la muestra no sigue una distribución normal y entonces se realizan análisis no paramétricos. Así mismo, cuando desarrollemos en el segundo bloque la inferencia estadística obtendremos el denominado error estándar de la media que se calcula dividiendo la desviación típica por la raíz cuadrada del tamaño de la muestra: EE (med) = S /√n = 8,339 / 2,82 = 2,957. Veremos sus implicaciones a partir del tercer bloque de estudio. 5. Medidas de forma: La asimetría nos indica si la muestra se encuentra “equilibrada” en torno a la mediamediana o no. Una intuición muy sencilla viene dada por estas distribuciones de notas: Primero, 4, 4, 4, 4, 5, 5, 6, 6, 6, 6 es claramente una distribución simétrica. Si tenemos 4, 4, 4, 4, 5, 5, 5, 5, 10, 10 tendríamos una distribución simétrica a derecha. Si tenemos 0, 0, 4, 4, 4, 4, 5, 5, 5, 5 tendríamos una distribución asimétrica a izquierda. La fórmula matemática para calcular este índice sería: As = ∑ (xi – med)3/ nS3 Se supone que su cálculo no es objetivo del curso, sí su interpretación. Eso sí, hay que tener mucho cuidado con la misma ya que una distribución asimétrica a derecha tiene todos los datos agrupados a la izquierda y viceversa como veremos en los estudios estadísticos que acompañan este curso. La curtosis (leptocúrtica, mayor que cero; mesocúrtica, cercana a cero; platicúrtica, menor que cero) nos indica si los datos están muy agrupados o no en torno a la media. Como siempre, usamos la analogía de las notas de clase para intuir el concepto con más claridad; Caso leptocúrtico: 0, 0, 0, 5, 5, 5, 9, 9, 9. Caso mesocúrtico: 2, 3, 4, 5, 5, 5, 6, 7, 8. Caso platicúrtico: 4, 4, 4, 5, 5, 5, 6, 6, 6. La fórmula matemática para calcular este índice sería: Curt = ∑(xi – med)4/ nS4 – 3. Una manera sencilla de memorizar estos nombres es tener en cuenta que están en orden alfabético (l, m, p). Por otro lado, ¿hasta qué punto una distribución es asimétrica o no lo es? Se da la circunstancia de que una muestra puede tener una asimetría de 0,5, otra una asimetría de 4 y que la primera sea asimétrica y la segunda no. Eso depende del valor del error estándar de la asimetría (nos lo debe dar siempre el programa informático). Así, tenemos que si el coeficiente de asimetría entre su error estándar es menor que 2 (en valor absoluto) la distribución se considera simétrica mientras que en caso contrario se considera asimétrica. Si en el primer caso el error estándar es 0,2, dividiendo 0,5 por 0,2 obtenemos 2,5. Al ser mayor que dos en valor absoluto y ser 0,5 positivo, consideramos la distribución asimétrica a derecha. Si en el segundo caso la distribución tiene de error estándar 5, 4 dividido por 5 da 0,8 que es menor que dos con lo cual consideraríamos que esta distribución es simétrica. Lo mismo ocurre para el caso de la curtosis. Hay que saber relacionar los conceptos de asimetría y curtosis con los gráficos (cosa que ya hemos intuido) e incluso con los percentiles. Si hay mucha más distancia entre el cuartil 3 y el cuartil 2 que entre el cuartil 2 y el cuartil 1 consideramos que la distribución es simétrica a derecha, ya que el gráfico asociado sería más plano a la derecha. De la misma forma, si la distancia entre el cuartil 2 y el cuartil 1 es mucho mayor que la distancia entre el cuartil 3 y el cuartil 2 consideremos la distribución asimétrica a izquierda. 6. Diagramas: histograma, sectores, tallos y hojas, boxplot (outlier normal 1,5 RI; outlier extremo 3 RI). 90 80 70 60 50 40 30 20 10 0 Este Oeste Norte 1er trim. 2do trim. 3er trim. 4to trim. Aquí tenemos un ejemplo muy sencillo de un histograma en el cual se visualizan las ventas de una empresa por trimestres según las diferentes zonas. En los diagramas de sectores realizamos la misma idea según los conocidos “quesitos”. 1er trim. 2do trim. 3er trim. 4to trim. El diagrama de tallos y hojas funciona así: 1 33344 1 5555578999 2 022 2 589 31 37 En este caso tendría un total de 23 datos que van desde el 13, 13, 13, 14, 14, 15, hasta el 28, 29, 31 y 37. Es útil “girar” el diagrama hacia la izquierda para comprobar así que la distribución es simétrica a derecha (¿Por qué?). Por último están los diagramas de cajas o boxplot. En los mismos, aparece en forma de “nave espacial” todos los datos, de forma que tenemos una caja que tiene marcada una línea con la mediana, de manera que el extremo inferior es el percentil 25 y el extremo superior es el percentil 75. Los bigotes indicarían más o menos los valores extremos, de manera que el bigote inferior es el primer número superior al primer cuartil menos 1,5 veces el rango intercuartílico mientras que el bigote superior es el primer número inferior al tercer cuartil más 1,5 veces el rango intercuartílico. Todos los valores que están fuera de este rango serían extremos o “outliers”. Para comprenderlo bien, volvemos a la muestra (8, 10, 13, 17, 20, 25, 27, 31) con Q1 = 10,75, Q2 = 18,5 y Q3 = 26,5. Hemos visto que RI = Q3 – Q1 = 15,75. Así, el extremo inferior sería el primer número superior a 10,75 – 1,5 x 15,75 = -12,875 que es el primero de la muestra, el 8. Por otro lado, el extremo superior sería el primer número inferior a 26,5 + 1,5 x 15,75 = 50,125 que es el mayor de la muestra, el 31. En este caso no tendríamos valores extremos. 7. Otras ideas: Existen diversas propiedades o conceptos que se aplican a nivel teórico y que merece la pena resaltar de cara a la prueba final. Aparecen al final del formulario a memorizar para la parte de estadística. Referencia: 1, 2, 4. MEDIA GEOMÉTRICA: es la raíz enésima del producto de todos los valores de la muestra. Se usa si la variable sólo puede tener signos positivos y la media geométrica está cerca de la mediana. No es habitual; lo lógico es que la media aritmética esté cerca de la mediana y en ese caso se usa la media de toda la vida. Cálculo: la raíz cúbica de 1 x 2 x 4 es 8. MEDIA ARMÓNICA: total de datos dividido por la suma de los inversos de cada observación de la muestra. Se usa cuando los datos son tasas de variación (velocidades). Cálculo: 3 dividido por 1/1 + 1/2 + 1/4 = 1,75, es decir, 3 / 1,75 = 1,714. MEDIA PONDERADA: es igual que la media aritmética con el matiz de que cada dato se multiplica por el número de veces que sale y después se hace la división entre el total de datos. Otra forma de verlo son las asignaturas en las que tenemos un parcial y después un final que vale doble; se suma la primera nota más la segunda dividida por dos y se divide por tres. Cálculo: si en el ejemplo la última referencia vale doble, (1 + 2 + 8)/4 = 2,75. TRANSFORMACIONES DE UNA MUESTRA RELACIONADAS CON LA MEDIA Y LA VARIANZA: Es obvio que la muestra 1, 2, 4 tiene de media 7/3 = 2,33. La varianza sería 1,332 + 0,332 + 1,672 dividido por 2 es decir: 4,666. Si sumamos a todos los datos una cantidad, por ejemplo 3 (4, 5, 7), a la media anterior se le suma 3, quedando 5,33. La varianza no sufriría variación alguna. Si multiplicamos todos los datos por 3 (3, 6, 12) la media quedaría multiplicada por 3 quedando 7, mientras que la varianza quedaría multiplicada por 3 al cuadrado (9 por 4,666). Resumiendo: si a todos los elementos de una muestra les sumo un valor a constante, la nueva media será la anterior más “a” y la varianza no sufrirá ninguna variación. Si todos los valores de la muestra los multiplico por un valor “a”, la media queda multiplicada por a y la varianza queda multiplicada por a2. TIPIFICACIÓN: Si a cada valor le restamos la media y dividimos por la desviación típica estamos tipificando los datos. En el ejemplo, los datos son 1, 2, 4, la media es 2,33 y la desviación típica es la raíz de 4,666 = 2,16. Los datos tipificados serían (1 – 2,33) / 2,16 = - 0,615; (2 – 2,33) / 2,16 = - 0,152 y (4 – 2,33) / 2,16 = 0,773. Estos datos cumplen la propiedad de que su media es 0 y su desviación típica es 1. Tienen la ventaja de que son útiles para hacer comparaciones relativas: ver la situación de una observación respecto de su grupo. En este contexto, puede ocurrir que dentro de las notas de un examen un alumno ya que haya sacado un 7 en una clase en términos relativos esté peor que un alumno que haya sacado un 6 en otra clase. La intuición es muy sencilla, a lo mejor el primer examen era muy sencillo y la media global fue de 8 mientras que el segundo fue muy difícil y la media global fue de 5. 2. Probabilidad y variables aleatorias. 1. Definición y conceptos asociados a probabilidad. Un EXPERIMENTO ALEATORIO es aquel en el que no podemos predecir un resultado; por ejemplo, el lanzamiento de un dado. Lo contrario de un experimento aleatorio es un EXPERIMENTO DETERMINISTA que se daría si queremos medir el tiempo de caída del dado. Es claro que la cinemática nos da el resultado con exactitud. El ESPACIO MUESTRAL de un experimento aleatorio está formado por los posibles resultados del mismo. Continuando con el ejemplo del dado, el espacio muestral estaría formado por el 1, 2, 3, 4, 5 y 6. Un SUCESO es un subconjunto del espacio muestral. El suceso “par” se daría si obtenemos en una tirada un 2, un 4 ó un 6. El suceso “menor o igual que tres” se daría si obtenemos un 1, un 2 ó un 3. La PROBABILIDAD DE UN SUCESO sería la frecuencia relativa con la que se da dicho suceso. Si bien usamos la fórmula de Laplace “casos favorables dividido por casos posibles” y así sabemos que la probabilidad de sacar par es 0,5 (3 dividido por 6) la intuición obedece a un límite que vendría dado por el número de veces que sale par dividido por número de tiradas cuando las mismas tienden a infinito. Aunque existen diferentes axiomáticas para definir la probabilidad no entraremos en las mismas y nos quedaremos con una idea básica: una probabilidad es un atributo de un suceso, el cual es un subconjunto de un espacio muestral el cual está formado por los posibles resultados de un experimento aleatorio. En términos de bioestadística no se estudian probabilidades de dados o de juegos de azar (eso lo dejaremos para los aficionados al casino) si no que se hacen estudios para evaluar la posible incidencia de un hábito (fumar) en una enfermedad (cáncer). Es por eso que vamos a estudiar las propiedades de la probabilidad usando de referencia un estudio. En el mismo, supondremos que si de 200 personas tienen cáncer 40, la probabilidad de tener cáncer es de 40 dividido por 200, es decir, 0,2. El estudio que usamos de modelo serviría si dividimos todos los valores por el total de la muestra, 200. Vamos, pues, con ello. 2. Propiedades de la probabilidad: Fumador No fumador Cáncer 30 10 40 No cáncer 70 90 160 100 100 200 Observemos que p(C) = 40/200 = 0,2 es la probabilidad de tener cáncer. P(F) = 100/200 = 0,5 es la probabilidad de fumar. P(F∩C) = 30/200 = 0,15 es la probabilidad de fumar y tener cáncer (INTERSECCIÓN). P(F/C) = 30/40 = 0,75 es la probabilidad de fumar SI tiene cáncer (es la llamada PROBABILIDAD CONDICIONADA; en la misma es fundamental observar que el denominador viene dado por la condición consistente en este caso en el total de personas con cáncer que son 40). P(C/F) = 30/100 = 0,3 es la probabilidad de tener cáncer SI se fuma. P(nC) = 160/200 = 0,8 es la PROBABILIDAD CONTRARIA O COMPLEMENTARIA; simplemente, probabilidad de no tener cáncer. P(F∩nC) = 70/200 = 0,35 es la probabilidad de fumar y no tener cáncer o bien la probabilidad que tiene una persona de que SÓLO SE DE UN SUCESO, en este caso fumar. P(FUC) = (30 + 70 + 10)/200 = 0,55 es la probabilidad de fumar o tener cáncer (UNIÓN) Las propiedades de la probabilidad relacionan todas estas probabilidades entre sí (se aconseja al alumno pensar de memoria los números): La probabilidad de un suceso está siempre entre 0 y 1. Si es cero hablamos del suceso imposible (en un dado, sacar a la vez menos de 2 y más de 5); si es de uno, hablamos del suceso seguro (en un dado, sacar menos de 8). P(nF) = 1 – P(F); ésta es la más intuitiva. Hasta un niño sabe que si la probabilidad de que llueva es del 80%, la probabilidad de que no llueva es del 20%. P(FUC) = P(F) + P(C) – P(F∩C) = 0,5 + 0,2 – 0,15. P(F∩nC) = P(F) – P(F∩C) P(C/F) = P(C∩F)/P(F) = 0,3 = 0,15/0,5 Observar que la probabilidad de tener cáncer si fumas (el 30%) es mayor que la probabilidad de tener cáncer (el 20%). Eso sugiere que hay una hipotética relación entre el hecho de fumar y tener cáncer. La inferencia estadística, como veremos en el siguiente apartado, nos dirá si esa relación es o no significativa. Dos sucesos son INDEPENDIENTES si P(C/F) = P(C); la intuición es muy sencilla ya que sería lo mismo tener cáncer que tener cáncer si fumo. Eso quiere decir que una cosa no tiene nada que ver con la otra. En un estudio real es casi imposible que se de esta igualdad exacta ya que sería una gran casualidad. De lo que se trata es de evaluar si los datos están MUY ALEJADOS o no de la igualdad. En el caso de tener sucesos independientes es inmediato comprobar que siempre se cumple la siguiente igualdad P(F∩C) = P(F) x P(C) La independencia se da cuando lanzamos dos tiros seguidos a una diana (suponiendo que el primero no nos inspire) o cuando tomamos dos personas que no tienen nada que ver entre sí. Esto es básico en el momento de hacer este tipo de estudios. Dos sucesos son DISJUNTOS O INCOMPATIBLES si no pueden ocurrir a la vez; como ha quedado explicado al tirar un dado no me puede quedar a la vez un número menor que dos y mayor que cuatro. Las LEYES DE MORGAN son relaciones más retorcidas: P(nC∩nF) = P(nC) U P(nF) P(nCUnF) = P(nC) ∩P(nF) En la teoría de la probabilidad es común analizar fórmulas como la probabilidad total, Bayes (en honor al reverendo que comenzó estas investigaciones), la odds o el factor de Bayes, pero de momento las omitimos. 3. Variable aleatoria. Consiste en asignar una probabilidad a cada resultado numérico de un experimento aleatorio. Si bien este desarrollo no es materia de examen, es fundamental para comprender todos los temas posteriores. Así, supongamos el experimento aleatorio “lanzar dos veces una moneda” el cual usamos para definir la variable aleatoria “número de caras”. Es claro que vamos a obtener cero, una o dos caras y que sus probabilidades respectivas (muy intuitivas) son 0,25; 0,5 y 0,25. Lo vemos en la siguiente tabla: X 0 1 2 P(X) 0,25 0,5 0,25 1 F(X) 0,25 0,75 1 Mientras que la primera columna nos da de manera directa todas las probabilidades en la segunda tenemos lo que se llama FUNCIÓN DE DISTRIBUCION en la que vienen todas las probabilidades acumuladas. Es capital, ahora, distinguir la estadística descriptiva (dada en el tema anterior) de la estadística aleatoria (que vemos ahora). Aunque se definen media y varianza, sus expresiones son diferentes. En la ESTADÍSTICA ALEATORIA la media se denota como µ = ∑ XiP(Xi) = E(X) Haciendo las operaciones tenemos (0 x 0,25) + (1 x 0,5) + (2 x 0,25) = 1 Su interpretación es que si lanzamos dos veces al aire una moneda ESPERAMOS obtener una cara. Puede que no la obtengamos o incluso el resultado me podría haber quedado en decimales pero su interpretación es la que es. La varianza se denota como σ2 = Var(X) = ∑ (Xi – E(X))2 = ∑ Xi2P(Xi) – E(X)2 La mejor expresión para operar es la segunda que nos da de manera sencilla (02 x 0,25) + (12 x 0,5) + (22 x 0,25) – 12 = 0,5 La desviación típica sería σ = √ 0,5 que indicaría como en el caso de la estadística descriptiva si el experimento aleatorio tiene mucha desviación respecto de la media o esperanza. A más desviación, menos representativa es la media. En este contexto se podría calcular el COEFICIENTE DE VARIACIÓN con las fórmulas anteriores para ver además de la representatividad la posibilidad de que los datos sean o no homogéneos. En el ámbito de la bioestadística existen tres modelos que son muy habituales. Los distinguiremos como distribuciones discretas (si sólo pueden dar valores puntuales como el número de enfermos) o distribuciones continuas (si los datos van por rangos; por ejemplo el peso o el nivel de colesterol). 6. Variables discretas. La VARIABLE ALEATORIA BINOMIAL se da cuando repetimos n veces un experimento que sólo tiene dos posibilidades que denominaremos como forma reducida “éxito” o “fracaso”. Por ejemplo, tomamos 10 personas y estudiamos la variable “número de personas con gripe”. Su rango de valores es de 0 a 10 (en general, a n). Si la probabilidad de tener gripe es del 20% podemos calcular la probabilidad de que tengan gripe un número cualquiera de personas. En estadística existen numerosos programas informáticos que compiten entre sí; otras áreas de conocimiento como la matemática tienen todo más unificado. En todo caso, su manejo suele ser sencillo. Los programas más usados son SPSS (se debe pagar licencia), Gretl, Stata, R, Rcomander o Eviews entre otros. Volviendo a la binomial, se denota como B(n,p) = B(10; 0,2). Su esperanza es E(x) = np = 10 x 0,2 = 2. Tiene sentido ya que el 20% de 10 personas es 2, por lo tanto lo esperado es que de 10 personas tengan gripe 2. La varianza es Var(x) = npq = 10 x 0,2 x 0,8 = 1,6. Observar que si p es la probabilidad de éxito (si podemos considerar como tal tener gripe) q = 1 – p es la probabilidad de fracaso. La varianza es mayor conforme p se acerca a 0,5. También tiene lógica ya que si p fuese 0,01 los resultados serían muy bajos y menos oscilantes. Para hacer cálculos se realiza la operación P(X=k) = k! pk qn-k/ n! (n-k)! Los más expertos habrán visto como aparece implícitamente un número combinatorio. En todo caso, para calcular p(X=3) = 3! 0,230,87/ 10! 7! Si de 10 personas están enfermas 8 se comprueba que p(X=8) es muy baja. En otras palabras, es muy difícil que pase lo que está pasando. Es decir, posiblemente estemos dentro de una epidemia. La VARIABLE ALEATORIA DE POISSON se da en fenómenos más extraños que tienen que ver con el paso del tiempo referenciados a una población. Por ejemplo, número de enfermos de tuberculosis en Pamplona, número de accidentes laborales en una fábrica determinada. No sería válido introducir el número de enfermos de gripe en Pamplona debido a que ese tipo de enfermedad es habitual. Además, debemos referenciar el tiempo. Si el número de enfermos es puntual (más extraño) o es en una semana o un mes, por ejemplo. Siempre que estemos en una variable de Poisson habrá un valor de referencia (λ=5) que será el número medio de enfermos. En términos de probabilidad iremos la función va creciendo hasta dicho valor de referencia y luego va bajando suave de forma que en teoría el rango de valores de la variable de Poisson iría desde 0 hasta infinito. En términos técnicos, se denota como P(λ) = P(5), siendo E(X) = λ, Var(X) = λ. Para realizar operaciones, la fórmula de referencia es P(X=k) = e-λλk/k! Si hacemos P(X=3) = e-553/3! Hay que tener en cuenta que se puede pasar de una variable Binomial a otra de Poisson cuando np es menor que 5 si n es grande, ya que en ese caso la esperanza nos diría que el fenómeno es raro. Si tenemos 4000 personas y la probabilidad de tener tuberculosis es del 0,001, lo esperado (multiplicando ambas) es que sólo haya 4 personas con tuberculosis (de 4000 se puede considerar un fenómeno raro). En ese caso, si nos piden calcular la probabilidad de que 5 personas tengan tuberculosis podemos usar la binomial de la forma típica o la fórmula de Poisson con λ=5. Por último, en Poisson se cumplen regularidades con el tiempo, por eso es fundamental tenerlo en cuenta. Si un año los enfermos de tuberculosis siguen con λ=5 y otro año se cumple la misma distribución, para calcular la probabilidad de que en dos años haya 7 enfermos usaremos la propiedad sumativa y tendremos en cuenta que estamos en una variable de Poisson P(λ = 5+5 = 10). El mismo fenómeno se puede reducir. Si en lugar de medir en número de coches que pasan por un peaje al día medimos el número de coches que pasa a la hora hay que tomar el λ inicial y dividirlo por 24. 7. Variables continuas; la normal. La variable aleatoria normal tiene forma de campana (de Gauss) y su nombre viene debido a que antiguamente se pensaba que todas las variables continuas seguían la misma distribución con la siguiente regularidad: Si una variable como el “peso de las personas” era N(70, 5), es decir, una normal de media 70 y desviación típica 5 (la notación general es N(µ, σ)), teníamos que aproximadamente el 69% de las personas estaba entre 65 y 75; el 95,5% de las personas estaba entre 60 y 80 y el 99.9% estaba entre 55 y 85. Es decir, vamos construyendo intervalos restando y sumando una vez la desviación típica respecto de la media; luego hacemos eso dos veces y por último hacemos eso tres veces. Curiosamente podemos pensar en otra variable como la “edad” de una población. La forma de la misma depende de la evolución de un país; un país que esté prosperando tiene más jóvenes que mayores; llegado a un nivel este aspecto se equilibra (es cuando la distribución más se parece a la campana de Gauss) y cuando llega la “decadencia” tiende a haber más mayores que jóvenes. Para calculara probabilidades con la variable normal se usa siempre un programa informático y en caso de no tenerlo debemos tipificar los datos para transformarlos en una normal de media uno y desviación típica cero, la cual permite usar las tablas de probabilidad de la z= N(0,1). Por ejemplo, si dada la N(70,5) nos piden la probabilidad de que una persona pese menos de 60 kgs usando un programa informático tendremos que aplicar un comando semejante a normal(60,70, 5). Si no tenemos el programa, debemos tipificar y hacer P(X≤60) = P(X≤(60-70)/5) = P(X≤-2) = 0,0228. Como siempre, la tipificación viene dada por la fórmula (X-µ)/σ La normal cumple propiedades importantes como que la combinación lineal de variables aleatorias normales mantiene la normalidad (de media y varianza calculadas a partir de las propiedades que veremos en el siguiente punto). Hay que recordar que una combinación lineal consiste en sumar y restar variables que puedan estar multiplicadas por constantes. Por otro lado, la suma de 30 o más variables de distribución desconocida se convierten en variables aleatorias normales a partir del TEOREMA CENTRAL DEL LIMITE O LEY DE LOS GRANDES NÚMEROS (la media y varianza se calculan como antes). Por último si tenemos una variable de la que desconocemos su distribución el TEOREMA DE CHEBICHEV nos permite aproximarnos a sus probabilidades. PROPIEDADES DE E(X), Var(X), APLICACIONES. E(X±Y) = E(X) ± E(Y). E(aX) = aE(X) E(a) = a Var (X±Y) = Var(X) + Var(Y) ± cov(X,Y). Var(aX) = a2Var(X) Var (a) = 0 Var (aX±bY) = a2Var(X) + b2Var(Y) ± 2abCov(X,Y). Si una empresa tiene unos ingresos que siguen una N(70,4) y unos gastos que siguen una N(65,3) para calcular los beneficios tenemos: B = I – G = N(5, 5=√25) E(I-G) = E(I) – E(G) = 70 – 65 = 5 Var(I-G) = Var(I) + Var(G) – 2Cov(I,G) = 16 + 9 – 0 (suponemos siempre por simplicidad que no hay relación entre los ingresos y los gastos, es decir, que son independientes lo que supone que su covarianza – estudiada en estadística bidimensional- es nula). Si queremos calcular la probabilidad de tener beneficios: P(B≥0) = 1 – norm (0, 5, 5) = 1 – p(Z≤-1) = 0,8413. La misma lógica se usaría si aplicamos el teorema central del límite; si una empresa vende cada día de media 40kgs de melocotones con una desviación típica de 5, la probabilidad de que en 50 días venda más de 2100 kgs se calcularía con el teorema central del límite (TCL): Las ventas totales seguirían una normal de media 45 x 50 = 2000 y de varianza 50 x 25 = 1250. Así, V sería N(2000, √1250 = 35,35). Para calcular p(V≥2100) haríamos 1 – p(V≤2100) = 1 – normal(2100, 2000; 35,35) Hemos visto como se podía pasar de una variable binomial o otra de Poisson. Se puede pasar también de una variable binomial a una normal siempre que n sea lo suficientemente grande (más de 50 aunque los autores no se ponen de acuerdo) y a la vez np junto con nq sean mayores que 5 (si no se cumple esto podemos pasar de binomial a Poisson). Es el denominado Teorema de Moivre. También se puede pasar de Poisson a Normal siempre que λ≥25 (tampoco aquí los autores se ponen de acuerdo). DESIGUALDAD DE TCHEBICHEV: Para cualquier distribución desconocida se cumple que: P( µ - kσ ≤ X ≤ µ + kσ) ≥ 1 – 1/k2 Lo aplicamos al caso del frutero que vendía cada día de media 40 kilogramos de melocotones con una desviación típica de 5. Para calcular la probabilidad de que un día determinado venda entre 30 y 50 kilogramos de melocotones (observar que el intervalo debe estar centrado en la media que es 40) tenemos que la distribución es desconocida (si fuese normal la operación sería sencilla). En este caso, se puede calcular la desigualdad de Tchebichev: Si voy al extremo inferior del intervalo (es lo mismo tomar uno u otro) tenemos que: 40 – k5 = 30, de donde k = 2. Así, la probabilidad mínima será de 1 – 1/4 = 0,75. En definitiva, la probabilidad de vender entre 30 y 50 kgs es al menos el 75%. En consecuencia, la probabilidad de vender menos de 30 kgs o más de 50 kgs será como mucho del 25%. Observar que la probabilidad de vender más de 50 kgs será como mucho también del 25% (ignoramos dónde está toda la probabilidad “sobrante”) a no ser que nos digan que la distribución es simétrica en cuyo caso esta probabilidad sería de la mitad, un 12,5%. Así termina el análisis de la probabilidad y de las variables aleatorias. Pasamos al tercer bloque: la inferencia estadística, la cual está basada en el estudio de intervalos de confianza y de contrastes de hipótesis. 3. Intervalos de confianza y contrastes de hipótesis. PREVIO: VARIABLES ALEATORIAS RELEVANTES. Ya hemos analizado la variable aleatoria normal. Hemos visto como para calcular probabilidades se puede tipificar para llegar a la reducida N(0,1) = z. Por ejemplo, p(z≤1,96) = 0,025, de donde se puede usar la notación Z0,025 = 1,96 para indicar “punto que deja delante un área de 0,025” lo cual nos indica que dejará detrás, claro está, un área de 0,975. No obstante, algunos autores usan la referencia al revés dejando en el subíndice 0,975. Así mismo, hay que tener en cuenta que debido a la simetría de la normal el punto -1,96 dejará detrás un área de 0,025. Vamos a las otras variables: Distribución chicuadrado (Pearson): Una variable aleatoria chicuadrado o jicuadrado de n grados de libertad consiste en la suma de n variables normales N(0,1) al cuadrado. X2n = Z21 + ……..+ Zn2 si bien la notación habitual es χ2 con n grados de libertad. Esta distribución tiene de esperanza n y de varianza 2n. Su expresión es una campana achatada que comienza desde el 0 como se muestra en el anexo que se usará de modelo para realizar estos desarrollos. La notación χ212;0,05 indica que punto que deja delante del mismo un área de 0,05 en una jicuadrado con 12 grados de libertad. En este caso no tiene sentido la simetría debido a que la distribución parte del origen. Distribución tsutdent: Descubierta por Gosset, una t-student con n grados de libertad consiste en una z dividida por la raíz cuadrada de una jicuadrado de ngrados de libertad dividida por n. Entenderemos que esta fórmula no es exigible para el examen y que se deberá tener en cuenta que: E(tn) = 0 Var (tn) = n/(n-2) siempre que n≥3 Si n es muy grande (en general es válido para n≥30) la distribución converge a una normal. Por lo tanto se mantiene la simetría de la normal y la notación: T25;0,025 sería el punto que en una t-student con 25 grados de libertad deja delante un área de 0,025. Distribución F Snedecor-Fisher: Usada para comprobar la igualdad de varianzas o en análisis avanzados (todos los realizados con el ANOVA) sólo diremos que su expresión es una jicuadrado con m grados de libertad dividido por m entre otra jicuadrado con n grados de libertad dividida por n. Fm,n = (χ2m/m)/(χ2n/n) Su forma es la de la campana de la jicuadrado y la notación F5,7;0,1 indica punto que deja delante de él un área de 0,1 en una F de Fisher Snedecor con 5 grados de libertad del numerador y 7 grados de libertad del denominador. 1. El contraste de hipótesis. En inferencia estadística se usa como referencia básica el denominado contraste de hipótesis. Se supone (es como en los juicios) cierto mientras no se demuestre lo contrario. Supongamos que vemos en un atlas que el peso de los monos de Senegal sigue una distribución N(40, 5) y queremos verificar si dicha distribución es cierta. Para ello nos iríamos de safari a Senegal y tomaríamos una muestra de monos. Es lógico pensar que si su peso medio es cercano a 40 la hipótesis nula será cierta y en caso contrario no lo será. El test se plantea así; Hipótesis nula; Hipótesis alternativa; H0 µ = 40 H1 µ ≠ 40 Si en una muestra de (n =) 25 monos observamos que el peso medio es de 43 kilogramos y tomamos un error tipo I (ver el siguiente punto) de α = 0,05, se aplica la expresión: (Med - µ)/(σ/√n) = z; tomamos como límite los puntos que dejan en cada esquina un área de 0,025 (α/2), es decir, -Zα/2 y Zα/2 que correspondería a -1,96 y 1,96. Como el punto nos queda (43-40)/(5/√25) = 3, estamos en zona de rechazo, es decir, consideramos que el peso de los monos es significativamente distinto de 40 kilogramos. Hay veces que deseamos comprobar si un valor ha subido, entonces se realiza el denominado CONTRASTE UNILATERAL DERECHO. Supongamos una granja con unos cerdos que pesan de media 300 kgs. Queremos probar una dieta para ver si los animalitos engordan de forma significativa. En este caso no os interesa ver si el peso ha variado de 300 kgs, lo que queremos es ver si el peso ha subido de 300 kgs. Tendríamos; H0 µ = 300 H1 µ > 300 Si en una muestra de 100 cerdos que han seguido la nueva dieta el peso medio es de 310 kgs y consideramos que σ = 50 con un α de 0,05, habría que repetir la fórmula anterior teniendo en cuenta que toda la zona de rechazo queda a la derecha: Z0,05 = 1,64. Como la operación matemática me da (310 – 300)/ (50/√100) = 2 rechazo la hipótesis nula y consideramos con una significación del 5% que el peso de los cerdos aumenta. Por supuesto, a veces deseamos comprobar si un valor ha bajado, en cuyo caso aplicamos un CONTRASTE UNILATERAL IZQUIERDO. Supongamos un grupo de enfermos de colesterol con un nivel de 200 al que le aplicamos una dieta para ver si les baja dicho nivel. Así, tenemos que en una muestra de 64 personas el nivel medio queda en 195 con σ = 60 y α = 0,01. Tenemos: H0 µ = 200 H1 µ < 200 Ahora el punto de referencia estaría a la izquierda y sería –Z0,01 = - 2,33. La operación matemática queda: (195 – 200)/ (60/√64) = -0,66 de donde no rechazo la hipótesis nula, concluyendo así que la dieta no logra reducir el nivel de colesterol. Debemos tener en cuenta que el espíritu de la investigación hará que el contraste sea bilateral (si deseo comprobar si algo ha cambiado o no), unilateral derecho (si deseo comprobar que ha subido) o unilateral izquierdo (si deseo comprobar que ha bajado). Por último en la hipótesis nula se da siempre la igualdad. 2. Conceptos básicos. EL P VALOR. Sería un poco simplista pensar en el que los problemas de contrastes de hipótesis sean siempre del estilo blanco – negro (o no rechazo la hipótesis nula o la rechazo según donde me caiga el estadístico de contraste que usa como referencia el punto de la tabla). En ese sentido, mucho cuidado. Nunca debemos decir “acepto la hipótesis nula” (sería equivalente a decir en un juicio que alguien es inocente) si no que lo que haremos será ver si “no rechazo la hipótesis nula” (persona no culpable) o si “rechazo la hipótesis nula” (persona culpable). Lo reitero: no se pueden encontrar pruebas que nos digan que la hipótesis nula sea cierta. Sólo existen para comprobar que la hipótesis nula es falsa, de la misma forma que en los juicios sólo se demuestra la culpabilidad. De hecho, si seguimos con la analogía, tenemos que en los juicios existe la “verdad real” y la “verdad judicial”. De la misma forma, en los contrastes tenemos la “verdad real” y la “verdad estadística”. Y como todos sabemos, una no coincide necesariamente con la otra. Volvemos a la idea de “blanco-negro”. Es importante evaluar el grado de aceptación (no rechazo) y rechazo de la hipótesis nula. Para ello se usa el p-valor que es la probabilidad de que los datos muestrales sean iguales o más extremos que los obtenidos si realmente la hipótesis nula es cierta. Un pvalor de 0,001 indica que hay un uno por mil de probabilidades de que la muestra sea la que ha sido o una más extrema si la hipótesis nula es cierta. Es decir, podemos rechazarla. No es objetivo del curso saber calcular el pvalor ya que todos los programas informáticos nos lo dan de forma directa, pero sí hay que saber que las reglas son: Pvalor < 0,01 = α, rechazo la hipótesis nula (test muy significativo). 0,01 ≤ pvalor ≤ 0,05, rechazo la hipótesis nula (test significativo). 0,05 < pvalor ≤ 0,1, “zona de nadie” (ni acepto, ni rechazo). 0,1 < pvalor, no rechazo la hipótesis nula. De forma simplificada se rechaza si el pvalor es menor que 0,05 y no se rechaza en caso contrario. La igualdad es irrelevante ya que el pvalor tiene tantos decimales que es muy difícil que coincida con alguno de esos valores. ERRORES. En el momento de hacer los contrastes podemos cometer errores. Se llama error tipo α, significación o error de tipo I a la probabilidad de rechazar la hipótesis nula cuando es cierta, técnicamente: p(rechazar H0/ H0 cierta) = α. Lo contrario de este error sería aceptar la hipótesis nula cuando es cierta, es un concepto llamado especificidad del contraste: Especificidad = p(aceptar H0/H0 cierta) = 1 – α El otro tipo de error es el de tipo beta (o tipo II) que sería la probabilidad de aceptar la hipótesis nula cuando es falsa. Técnicamente: β = P(aceptar H0/ Ho falsa). Lo contrario de este error sería rechazar la hipótesis nula cuando es falsa, concepto fundamental en estadística (ya que permite detectar cambios en las procesos) que se llama potencia o sensibilidad del contraste. Así: Potencia = p(rechazar H0/H0 falsa) = 1 – β Resumimos estas ideas así: H0 cierta H0 falsa Acepto H0 Especificidad Error tipo II, β Rechazo H0 Error tipo I, α Potencia, sensibilidad Para comprender mejor la diferencia entre los dos errores pensemos en el caso del colesterol (el contraste unilateral izquierdo) cuando una empresa quería comprobar si su dieta o medicina bajaba el colesterol. La hipótesis nula es siempre cierta mientras no nos digan lo contrario y es la que se usa de referencia; H0 “El colesterol queda igual con la dieta” H1 “El colesterol baja con la dieta” Si rechazo H0 cuando es cierta, pensaré que la dieta es efectiva cuando realmente no lo es. Eso me lleva a una ruina absoluta, ya que estoy comercializando algo que no cumple lo que prometía. Si acepto H0 cuando es falso, pensaré que mi dieta no es efectiva cuando realmente lo es. Y sí, dejo de ganar dinero ya que no voy a comercializar algo útil. Pero no me puedo arriesgar a tener un error de tipo α ya que es muchísimo más grave. Y es que si me confundo en el análisis de los monos no es muy grave, pero en estudios basados en personas es evidente que la cosa tiene que cambiar. 3. Intervalos de confianza. Un intervalo de confianza es un rango de valores entre los que se encuentra un parámetro poblacional desconocido con un nivel de confianza (¡no de probabilidad! mucho cuidado) 1 – α. Si hacemos un intervalo de confianza para la media de una población (µ) y nos da que va de 70 a 80 diremos que con una confianza del 95% (α = 0,05 es el valor de referencia) la media de la población se encuentra entre esos valores. Se supone que si hacemos 100 intervalos diferentes a partir de muestras en 95 estará el valor buscado. Para calcular el intervalo se hace siempre la misma fórmula: Estimador ±Zα/2 x Error Estándar del Estimador Lo vamos a ver en tres casos diferentes: la media poblacional, la mediana (recordar que unas veces la media era el mejor indicador de posición central de la muestra y que en otros el mejor era la mediana; se usan siempre en variables cuantitativas) y la proporción (cuando estamos midiendo una variable dicotómica como fumar – no fumar y deseamos evaluar la proporción poblacional a partir de una muestra). a. El caso de la media poblacional en una distribución normal (variable cuantitativa). El intervalo será: µ ϵ (med ± Zα/2 EE(med)) siendo EE(med) = σ/√n Si no conocemos la desviación de la población σ (que es lo más normal ya que de la misma forma que no sabemos µ no tenemos razones para saber σ) tendríamos que aplicar la t-student siendo el intervalo: µ ϵ (med ± Tn-1; α/2 EE(med)) siendo EE(med) = S/√n Si en el caso de los monos de Senegal tomamos una muestra de 25 monos con S=5 tomando α = 0,05 (observar que ahora la notación cambia y estamos hablando de error de confianza, no de significación) y con med = 43, el intervalo será: µ ϵ (43 ± T24;0,025 5/√25) Con los mismos datos, se cumple que si planteamos la hipótesis nula de media poblacional igual a 40, si acepto H0 40 estará incluido en el intervalo y si rechazo H0 no estará incluido. b. El caso de la proporción poblacional (variable cualitativa dicotómica). Si denotamos la proporción poblacional como ∏ y la proporción muestral como p, siguiendo el patrón anterior el intervalo será: ∏ ϵ (p ± Zα/2 EE(p)) siendo EE(p) = √p(1 – p) /n Si de una muestra de 200 personas fuman 50 (p = 0,25) y queremos estimar la proporción de fumadores con un nivel de confianza del 99% (α = 0,01) el intervalo será ∏ ϵ (0,25 ± Z0,001 (0,25 x 0,75 / 200)1/2) siendo Z0,001 = 2,57 con orden informática, según el programa, semejante a invnormal(0,001) = 2,57. Estos intervalos suelen ser algo más anchos, es decir, menos precisos. c. El caso de la mediana. Medpob ϵ (medianam ± Tn-1; α/2 1,253 S/√n ); obviamente, EE(medianam = 1,253 S/√n) Es menos preciso que el de la media al tener su error estándar el de la media multiplicado por 2,253. MUY IMPORTANTE: existen autores que dan otro valor estándar a la media. Existen intervalos de confianza para la diferencia de medias que sirven para detectar ciertas causalidades; si a un grupo de cerdos le damos una dieta (y calculamos la media de peso y desviación típica de la muestra) y otro grupo de cerdos le damos otra dieta (y hacemos lo mismo) para ver si existen diferencias significativas en el peso tendríamos que hacer el intervalo, de forma que: IC (µx - µy) = (-3, -1) indicaría que la segunda dieta es mejor que la primera con una confianza supuesta del 95%. IC (µx - µy) = (-1, 2) indicaría que no existen diferencias significativas entre una dieta y otra y finalmente: IC (µx - µy) = (1, 4) indicaría que la primera dieta es mejor que la segunda con una confianza del 95%. La clave está en el cero. 4. Relaciones de causalidad. En bioestadística es fundamental relaciones de causalidad entre diferentes variables. Como hemos reducido las variables en cuantitativas y cualitativas, vamos a ver las relaciones en 3 bloques: cualitativo – cualitativo, cualitativo – cuantitativo, cuantitativo – cuantitativo. Son los más usados con diferencia. Por último, el anexo nos dará otras posibilidades de estudio en todo este contexto. 1.- Variables cualitativas – cualitativas. La referencia viene dada por una tabla de contingencia, que relaciona, por ejemplo, situación laboral (parado, contratado, fijo) con tipo de estudios (primario, formación profesional, universitario). La tabla clave sería: OBSERVADOS Primario Secundario Universitario Parado 25 12 8 45 Contratado 15 27 16 58 Fijo 5 11 26 42 45 50 50 145 Se calcula un coeficiente de contingencia basado en comparar el resultado observado con el esperado si no habría relación entre el tipo de estudios y la situación laboral. El valor esperado para cada casilla se calcula multiplicando su fila por su columna correspondiente y dividiendo entre el total. Por ejemplo, el primer valor esperado sería (45 x 45) / 145 = 13,9 (todos los valores esperados deben ser mayores que 5; en caso contrario lo mejor es agrupar la tabla). ESPERADOS Primario Secundario Universitario Parado 13,9 15,5 15,5 45 Contratado 18 20 20 58 Fijo 13,1 14,5 14,5 42 45 50 50 145 Se calcula una valor dado por ∑ (OBS – ESP)2/ ESP = χ2 De aquí, el valor C = (χ2/(χ2 + n))1/2 es el coeficiente de contingencia de Pearson. A mayor valor, mayor relación entre las variables. Si nos queda nulo quiere decir que no hay ninguna relación entre las dos variables y que son completamente independientes. También se puede resolver el problema mediante el test: H0 Independencia (no hay relación entre los estudios y la situación laboral). H1 Dependencia (existe relación entre los estudios y la situación laboral). Si la hipótesis nula es cierta, el estadístico de contraste χ2 es una χ2 con (c-1)(f-1) grados de libertad. Este tipo de contraste es siempre unilateral derecho. Si sólo tengo dos modalidades por variable (fumar: sí – no; cáncer: si – no) el punto crítico es una χ20,025 = 3,84. La parte de análisis multivariante que profundiza en este tipo de estudios se llama ANÁLISIS FACTORIAL DE CORRESPONDENCIAS. Otras técnicas a tener en cuenta cuando estudiamos la relación entre dos variable cualitativas: Si la tabla es 2 x 2 y alguna frecuencia esperada es menor que uno no se puede hacer el análisis convencional de jicuadrado y se usa el TEST DE FISHER. Si la tabla es 2 x 2 y la muestra es razonablemente grande se pueden comparar las dos variables mediante un INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES (viendo si el cero está incluido o no) o un CONTRASTE DE HIPÓTESIS PARA LA DIFERENCIA DE PROPORCIONES, en el cual contrastamos H0 ∏x - ∏y = 0 H1 ∏X - ∏Y ≠ 0 Se usaría como estimación en el ejemplo estándar fumar – cáncer como estimadores la proporción de enfermos de cáncer en fumadores y la proporción de enfermos de cáncer en no fumadores. El estadístico de contraste sigue una distribución normal. Si la tabla es 2 x 2 y el estudio es emparejado se usa el TEST DE MCNEMAR. En este caso evaluaríamos cómo reacciona la MISMA persona a dos tratamientos; así puede ser que una persona mejore con los dos, empeore con los dos, mejore con el primero y empeore con el segundo o empeore con el primero y mejore con el segundo. El estadístico de contraste sigue una jicuadrado con un grado de libertad. Más complejo es el TEST DE COCHRAN que es una ampliación del de McNemar, en el que cada persona tiene, en lugar de dos tratamientos, tres o más tratamientos. En este caso plantearíamos como hipótesis nula que no hay diferencia en los tres (o más) tratamientos y como alternativa que al menos hay diferencia en dos. El estadístico de contraste es una jicuadrado con el número de grupos menos uno como grado de libertad. Si rechazamos la hipótesis nula compararíamos los grupos dos a dos, precisamente, con el test de McNemar. Si una variable tiene dos niveles (hombre – mujer) y otra variable es cualitativa o categórica ordinal (poco colesterol, algo, bastante, mucho) se puede usar el TEST DE RELACIÓN LINEAL, en el cual se calcula un estadístico que se compara con una jicuadrado con un grado de libertad. Si las variables son nominales u ordinales y la tabla es mayor que en el caso anterior también se puede calcular el COEFICIENTE DE CRAMER, que en términos técnicos sería: V = (χ2/n(m-1))1/2 siendo n el número de observaciones, m el mínimo de las filas y columnas y χ2 el valor calculado. No depende del tamaño de la tabla y varía entre 0 (no habría relación) y 1 (relación perfecta). Si comparamos dos variables ordinales o de escala (una persona puede tener un nivel de adhesión a la dieta mediterránea baja y un nivel alto de actividad física, por ejemplo) se usa el COEFICIENTE DE CORRELACION DE SPEARMAN, que en términos técnicos sería: r = 1 - 6∑di2/(n3 – n) Va de menos uno a uno, de forma que si está cercano a uno la relación es intensa y positiva, si está cercano a -1 la relación es intensa y negativa y si está cercano a 0 no hay relación entre las variables. Para saber si la correlación es o no significativa se plantearía: H0 rpob = 0 H1 rpob ≠ 0 Siendo el estadístico de contraste: r√(n-2) / √(1 – r2) Pasamos a la siguiente fase: 2. Variables cualitativas – cuantitativas Consideramos la variable cualitativa como causal y la variable cuantitativa como efecto. Por ejemplo, podemos ver si en dos grupos (vegetarianos – no vegetarianos) el nivel de glucosa en sangre, que es cuantitativo, es el mismo o no. Vamos a suponer en una primera escala que sólo tengo dos grupos de referencia y que deseo comparar si la glucosa es o no la misma. Sabemos que las características de la variable cuantitativa hacen que el análisis sea de una u otra forma (media, mediana). Llegamos a la novedad principal, y consideraremos que la variable cuantitativa puede seguir una distribución normal (en cuyo caso el test se llamará paramétrico y la referencia es la media) o puede no seguir una distribución normal (en cuyo caso el test será no paramétrico y la referencia será la mediana). Así, ¿cómo sabemos si una variable es o no paramétrica? Tests para saber si una variable cuantitativa sigue una distribución normal: En todos ellos: H0 X sigue una distribución normal. H1 X no sigue una distribución normal. No suele haber estadístico de contraste, basta comparar el pvalor con α. a/ Si la muestra es grande (n ≥ 30) por el teorema central del límite la variable sigue una distribución normal. b/ Test de Kolmogorov Smirnov. c/ Test de Shapiro Wilk. d/ Ver que la asimetría no es significativa (asimetría entre su error estándar es menor que 2 en valor absoluto). e/ Ver que la curtosis no es significativa (curtosis entre su error estándar es menor que dos en valor absoluto). f/ Si giramos el diagrama de barras la distribución se parece a una campana de Gauss. g/ El Box Plot está equilibrado y no contiene valores extremos. h/ No hay mucha diferencia entre las restas Q3-Q2 y Q2-Q1. i/ Todos los valores de la muestra están entre la media muestral más menos 3 veces la desviación típica. j/ Los diferentes programas informáticos permiten comprobar la normalidad mediante diferentes salidas. k/ Si pese a todo no hay normalidad, se pueden transformar los datos logarítmicamente para “suavizarlos” (curiosamente así se mide la bolsa de valores). Sabiendo todo esto, pasamos al análisis global: Dos grupos: Si son independientes entre sí (un grupo de personas con un tratamiento, otro grupo de personas con otro tratamiento) debemos comprobar la igualdad de varianzas en cada uno de los grupos mediante un TEST DE LEVENE O UN TEST DE BARLETT. Si las varianzas quedan iguales (no se detectan diferencias) se usa el TEST DE LA TSTUDENT PARA MUESTRAS INDEPENDIENTES, VARIANZAS IGUALES ; si las varianzas son distintas se usa el test de tstudent para muestras independientes, varianzas distintas más conocido como TEST DE WELCH. Todos los tests están basados en la igualdad de medias (o de varianzas) y permiten su análisis mediante intervalos de confianza. Para el caso no paramétrico se usa la U de MANN WHITNEY, que ha evolucionado en diferentes formas de cálculo a lo largo de los años. Este test está basado en la igualdad de medianas y no permite intervalos de confianza asociados. Si las muestras son dependientes, emparejadas o pareadas (cada persona tiene dos tratamientos y comparo sus valores finales con cada uno) se usa el TEST DE LA TSTUDENT PARA MUESTRAS DEPENDIENTES. Este test plantea como hipótesis nula que la media de la diferencia es cero y permite intervalo de confianza asociado. Para el caso no paramétrico se usa el TEST DE WILCOXON, que como todo test no paramétrico no permite el cálculo de intervalos de confianza. Tres o más grupos: Desarrollaré el estudio desde el caso paramétrico indicando en cada situación el nombre del contraste no paramétrico asociado. Las técnicas estadísticas que permiten resolver este tipo de problemas se llaman de Análisis de la Varianza o ANOVA y para poder aplicarlas son necesarios los siguientes requisitos teóricos: a/ Normalidad (ya hemos visto todas las formas de controlarla). b/ Homogeneidad de varianzas (Levene, Barlett). c/ Independencia de la muestra (TEST DE RACHAS). En teoría se deben cumplir los 3 supuestos, pero el fundamental es el primero. Supondremos que cada grupo tiene un nivel de factor, de manera que si medimos la relación entre el tipo de fertilizante (A, B o C) y la cantidad de cosecha el factor (tipo de fertilizante) tiene tres niveles: los susodichos A, B y C. Como a cada campo solo le echo un fertilizante hablamos de muestras independientes. H0 µx = µy = µz H1 Al menos hay diferencia entre dos grupos. Se usan unas tablas especiales llamadas ANOVA de manera que si acepto (no rechazo) la hipótesis nula no hay diferencias entre los grupos, es decir, el tipo de fertilizante no influye en la cosecha, y si rechazo la hipótesis nula el tipo de fertilizante influye en la cosecha. El estadístico de contraste sigue una distribución dada por una F de Snedecor con k-1, n-k grados de libertad siendo k el número de grupos y n el total de datos. En caso de rechazar la hipótesis nula se pueden comparar los grupos por varias vías: SCHEFFE (el más conservador y más usado), BONFERRONI, DUNNET, STUDENTNEUMANN-KEULS. Si no se cumple el primer supuesto teórico el contraste no paramétrico asociado se llama TEST DE KRUSKAL WALLIS. (ji cuadrado con k – 1 grados de libertad). Si no se cumple el segundo supuesto teórico se puede hacer el ANOVA normal si el estudio es equilibrado (cada grupo tiene el mismo número de datos) aunque para hacer las comparaciones dos a dos para saber entre que grupos hay diferencias se usa un nivel de significación menor de referencia (αb = α/nro comparaciones; AJUSTE DE BONFERRONI). A este tipo de análisis se le llama PROCEDIMIENTO DE TAMHANNE). Todavía hay más; estos análisis permiten una investigación previa mediante CONTRASTES ORTOGONALES y CONTRASTES NO ORTOGONALES, en los cuales no entraremos. Por otro lado, si el agricultor tiene pocos campos puede separar cada campo en tres parcelas de forma que a cada una le echo un tipo de fertilizante. En ese caso estaríamos en muestras emparejadas. H0 µx = µy = µz H1 Al menos hay diferencia entre dos grupos. El análisis es igual que en el caso anterior con el matiz de que ahora el estadístico de contraste es una F con (k-1), (k-1)(j-1) grados de libertad siendo j el total de elementos (campos en este caso). El contraste no paramétrico asociado sería el TEST DE FRIEDMANN, que sigue una jicuadrado con k-1 grados de libertad. 3. Variables cuantitativas – cuantitativas. El ejemplo tipo lo estudiamos cuando relacionamos cantidad de siembra con cantidad de cosecha. Lo vemos en una tabla muy sencilla: X 7 8 11 13 16 55 Y 10 14 16 17 18 75 (X-Medx) -4 -3 0 2 5 0 (Y-Medy) -5 -1 1 2 3 0 Px,y 20 3 0 4 15 42 (X-Medx)2 16 9 0 4 25 54 (Y-Mdy)2 25 1 1 4 9 40 Esta tabla la usaremos de referencia para todo el estudio; El COEFICIENTE DE CORRELACIÓN DE PEARSON viene dado por la fórmula: r = ∑ Px,y/ (∑(X-Medx)2(Y-Medy)2)1/2 = 42 / (54 x 40)1/2 = 0,88 = 0,9 Como la interpretación es la misma que la del coeficiente de correlación de Sperman, diremos que la relación entre la cantidad de siembra y la cantidad de cosecha es alta, positiva, y para ver si es significativa (siendo tan cercana a uno es muy difícil que no lo sea por pequeña que sea la muestra) se usa el test de la tstudent, en el que comparamos con una t de student con n-2 grados de libertad con el estadístico: r√(n-2)/√(1-r2) = 3,57 es mayor que T3; 0,025 = 2,4 (aprox). Por lo tanto, la correlación es significativa. Es muy útil estudiar los gráficos por puntos para evaluar la posible relación entre las dos variables. Se puede analizar el resultado previo de la COVARIANZA, el cual es el numerador del coeficiente de correlación de Pearson. La verdad es que no da mucha información, tan sólo el signo de la relación entre x e y. De hecho, ese valor como tal no significa nada ya que si una covarianza es muy grande si el denominador es todavía mayor el cociente queda muy pequeño y eso hace que la correlación, que es lo que en realidad importa, no sea significativa. En todo caso recordar lo sustancial: en una primera escala, la correlación es únicamente una medida de asociación entre dos variables x e y. Para medir la posible existencia de relación pasamos a valorar la REGRESIÓN LINEAL, que será, de momento, el último punto del análisis. Si establecemos la igualdad Yi = ar + br Xi + Ui Estaríamos diciendo que la cosecha es igual a una constante que no depende de nada (se supone que incluso sin siembra cosecharía) más la cantidad de siembra por lo que sube la cosecha por unidad de siembra (br, pendiente de la recta de toda la vida) más un valor que incluye todo lo que nos podamos imaginar: humedad, temperatura, número de cucarachas por metro cuadrado…en sí, una especie de “cajón de sastre”. En este contexto, podemos estimar los parámetros de la recta mediante la fórmula: b = ∑Px,y/∑(X-Medx)2 = 42/54 = 0,77 a = Medy – bMedx = 15 – (0,77 x 11) = 6,44. Así, la recta de regresión vendría dada por: Yest = 6,44 + 0,77X Para saber si existe relación de causalidad plantearíamos: H0 br = 0 H1 br ≠ 0 Siendo el estadístico de contraste: b/ EE(b) el cual se compararía con una t de student con b-2 grados de libertad (omitimos la fórmula de EE(b)). ANEXO. Definiciones básicas en estadística: Una población está formada por todos los sujetos (personas, animales, cosas) que deseamos estudiar. Pueden ser habitantes de Francia, gorilas de Camerún o capitales de Europa. Si la población es muy grande usamos muestras de la misma, es decir, un subconjunto de la población. El muestreo es una técnica estadística usada para seleccionar una muestra de la forma más homogénea posible. Así, si tomo los habitantes de Francia debo tener hombres y mujeres, jóvenes y mayores, fumadores y no fumadores; es decir, se trata de que la muestra sea representativa de la población. En general, la característica que deseamos estudiar es numérica (peso, altura, nivel de glucosa). Por supuesto, también puede ser cualitativa (tener cáncer o no tenerlo). En todo caso, dicha característica suele seguir una distribución aleatoria. Por ejemplo, si seguimos tomando como referencia los habitantes de Francia el peso, la altura o el nivel de glucosa de una persona siguen una distribución normal de la que desconocemos su media y su desviación típica. El objetivo es aproximarnos a ellas a partir de una muestra. A esta media o desviación típica se le llama parámetro desconocido y el objetivo primordial de la inferencia estadística es acercarnos al mismo. Si estudiamos el número de enfermos de tuberculosis en Pamplona (suceso raro) tenemos que esta variable sigue una distribución de Poisson. El hecho de que una persona esté con tuberculosis o no sigue una distribución que se llama Binaria o de Bernouilli(o estás enfermo o no lo estás). Dada una muestra de 30 personas de Pamplona el número de enfermos de tuberculosis sigue una distribución Binomial. Por lo tanto, la situación es la siguiente. Tenemos una característica de una población (peso, número de enfermos, tener una enfermedad) que sigue una variable aleatoria de la que desconocemos sus parámetros. Tomamos una muestra de la población y calculamos una serie de indicadores (media muestral, desviación típica). A estos indicadores, que son operaciones matemáticas hechos con los elementos de una muestra, se les llama estadísticos. Cuando un estadístico se usa para aproximarnos a un parámetro desconocido de la variable aleatoria que sigue una característica de cada elemento de la población se le llama estimador. Por ejemplo, la media muestral es un estadístico que es estimador de la media poblacional. La desviación típica muestral es un estadístico que es estimador de la desviación poblacional. El número de enfermos de una muestra dividido por el total de elementos de la muestra (que se llama proporción muestral) es un estimador de la proporción de enfermos de la población. Un parámetro desconocido puede tener más de un estimador (los métodos de obtención de estimadores son complejos; se calculan mediante métodos como el de máxima verosimilitud, los momentos o mínimos cuadrados ordinarios). Es obvio que como todo estimador es estadístico y que como un estadístico se calcula a partir de los elementos de una muestra la cual se ha tomado (con cuidado ya que se han aplicado técnicas de muestreo) al azar, todo estimador es variable aleatoria. Así: a/ Un estimador es insesgado si su media o esperanza es precisamente el parámetro poblacional que estamos buscando. Si un estimador no es insesgado es sesgado y la diferencia entre su esperanza y el parámetro que estamos buscando se llama sesgo. b/ Un estimador es eficiente (términos absolutos) si su varianza es mínima (lo cual ocurre cuando es igual a la cota de Cramer Rao). c/ Un estimador es más eficiente que otro (términos relativos) si su varianza es menor que la del otro estimador. d/ Para comparar dos estimadores vía sesgadez-eficiencia se usa el Error Cuadrático Medio, que consiste en elevar al cuadrado su sesgo y sumarle su varianza. El mejor estimador es el de menor ECM (Error cuadrático medio). e/ Un estimador es consistente si conforme la muestra es más grande más se aproxima al parámetro buscado (en términos técnicos, cuando n tiende a infinito la probabilidad de encontrar alguna diferencia entre el estimador y el parámetro desconocido es cero). f/ Un estimador es suficiente si aprovecha toda la información de la muestra. Una vez que hemos calculado el estimador ya se pueden hacer intervalos de confianza o contrastes de hipótesis, objetivo básico de la inferencia estadística. Cuando planteamos una hipótesis nula (que la media poblacional es 40) es casi imposible que la media de una muestra sea 40, oscilará un poco. Es claro que conforme más alejada esté la media muestral de la media poblacional es más fácil rechazar la hipótesis nula. En este contexto, hay que tener claro que: Si una media es 40 y la muestra queda 40,5; 39,8; 40,1; 39,7 hablamos de datos exactos y precisos (error aleatorio). Si la muestra queda 42,1; 41,8; 41,9; 42,2 hablamos de datos precisos inexactos (error sistemático). Si la muestra queda 37; 43; 42; 45 hablamos de datos exactos imprecisos (ya que hay mucha oscilación; error aleatorio). Si la muestra queda 45,1; 46,7; 52; 53,4 hablamos de datos inexactos e imprecisos (error sistemático). En esencia, la exactitud se refiere a la insesgadez y me indica si estoy “apuntando” bien al objetivo de 40. La precisión se refiere a la eficiencia y me indica si los datos oscilan mucho o no respecto de cualquier objetivo (observar que en la segunda muestra los datos oscilan respecto de 42; como no apuntan al dato buscado son inexactos pero son precisos ya que todos están cerca de 42). Por último, indicar los procedimientos estadísticos usados para estimar los valores desconocidos de la población: a/ El principio de verosimilitud considera la distribución de probabilidad de la muestra no como función de sus valores sino como función del parámetro θ desconocido. b/ El principio de condicionalidad dice que los mecanismos aleatorios que no dependen del parámetro a determinar no proporcionan evidencia sobre el mismo. c/ El principio de suficiencia elimina la información superflua y se queda con la relevante. d/ El teorema de Birnbaum relaciones los tres principios anteriores y dice que el principio de verosimilitud es equivalente al de condicionalidad y suficiencia. Ampliación de relaciones entre variables cualitativas – cuantitativas. Esta materia es muy amplia y sólo se usa ya en términos de expertos. De hecho, la única carrera en la que se examinan todas las ampliaciones de los diferentes métodos ANOVAS es en Biología (Diseño de experimentos). Administración y dirección de empresas lo estudiaba en la asignatura de Análisis Multivariante pero los nuevos planes la han suprimido. Los tipos de diseños son: a/ Factoriales cuando los individuos reciben combinaciones de diferentes tratamientos. b/ Secuenciales cuando los individuos entran por separado y con cada uno se decide la hipótesis nula, la alternativa o la entrada de otro individuo. c/ Muestras independientes cuando cada individuo recibe un único tratamiento (cada campo tiene sólo un único tipo de fertilizante). d/ Muestras dependientes o pareadas cuando cada individuo recibe todos los tratamientos (campos separados en parcelas recibiendo cada tipo de fertilizante). d/ Diseños cruzados cuando la mitad de la muestra recibe un tipo de tratamiento y la otra mitad el contrario. e/ Diseños estratificados o anidados cuando los grupos se dividen por tipos de factores de riesgo; se dice que cada grupo está en un nivel diferente. Recordar que tenemos: a/ ANOVA de una vía: un factor (tipo de fertilizante), variable dependiente cantidad de cosecha. (No paramétrico, Kruskal Wallis). b/ ANOVA de datos emparejados: todos los niveles de factor (tipo de fertilizante) se aplican a todos los sujetos (campos). Variable dependiente: cantidad de cosecha. (No paramétrico, Friedman). c/ ANOVA de dos factores: a cada sujeto se le aplican dos factores (tipo de fertilizante A-B-C; clima seco-húmedo). Variable dependiente: cantidad de cosecha. (No paramétrico, ANOVA con rangos). d/ MANOVA: cuando hay más de dos variables dependientes. Por ejemplo, un factor (tipo de fertilizante) y dos variables dependientes (cosecha de manzanas Golden, cosecha de manzanas reinetas). e/ ANCOVA: cuando en cada nivel de factor tenemos una relación cuantitativa cuantitativa; por ejemplo, tres tipos de fertilizantes y en cada campo evaluamos su temperatura media en relación con la cantidad de cosecha globlal que es la variable dependiente que realmente estamos estudiando). f/ CUADRADO LATINO: cuando se combinan tres variables independientes con el mismo número de niveles (5 tipos de fertilizante, de humedad y de altura) para ver cómo influyen en una variable independiente (cantidad de cosecha). Relaciones combinadas: Existe un ratio de correlación entre variables cuantitativas continuas y variables categóricas: η2 = (∑ nj(medy-j – medy)2)/ (∑(yi – medy)2 siendo medy-j la media en la categoría j, nj el número de datos de cada categoría e yi cada dato particular. Este ratio se interpreta como el tanto por uno de la variabilidad de Y explicada por X, luego lo peor es que sea 0 (no se explica nada) y lo mejor que sea 1 (X explica Y completamente). Si la variable X es cuantitativa pero discreta y si sólo hay dos categorías este ratio es siempre igual que r2; en caso contrario será siempre mayor y tendrá la ventaja de capturar la relación no lineal entre X e Y. El coeficiente de Correlación Biserial Puntual evalúa la correlación entre datos continuos y variables dicotómicas tomando valores entre -1 y 1. rpbi = (Medcat1 – Meddatos continuos)/Desvdatos continuos x (Freccat1/Freccat0)1/2 Su interpretación es la del coeficiente de correlación de siempre. El coeficiente de correlación Tetracórico se usa cuando evaluamos la relación entre dos variables dicotomizadas. La regresión lineal simple relacionaba una variable cuantitativa (cantidad de siembra) con una variable cuantitativa (cantidad de cosecha). Si hay más variables independientes (además de la cantidad de siembra la cantidad de agua, la temperatura media; incluso pueden existir variables cualitativas –tipo de climaque se codifican como variables cuantitativas mediante variables dummy o dicotómicas) hablamos de regresión lineal múltiple: Yi = a + b1X1 + ……+bpXp + Ui Los supuestos teóricos para realizar estos análisis son amplios: a/ Se debe cumplir la relación lineal. b/ La muestra debe tomar valores distintos. c/ Las X son variables no relacionadas la U. d/ Cada Ui (perturbación) debe cumplir E(Ui) = 0. e/ Var (Ui) = σ2 (Homoscedasticidad o varianzas iguales). f/ cov (Ui, Uj) = 0 para todo i≠j (ausencia de autocorrelación). g/ Las variables X no deben estar relacionadas entre sí (ausencia de multicolinealidad). Pese a sus limitaciones, es lo más usado en el mundo de la investigación estadística. Además de los típicos contrastes, se puede calcular R2 que es el coeficiente de determinación y nos da la proporción de variabilidad de Y explicada por X (es también un coeficiente de bondad de ajuste y está siempre entre O y 1). La interpretación de cada bi es obvia; lo que sube Y por cada unidad que sube Xi. Si en el caso anterior la variable dependiente es dicotómica (tener cáncer) se usa la Regresión Logística: Logit(p) = a + b1X1 + ……+bpXp + Ui Así se puede calcular la probabilidad de que una persona tenga cáncer a partir de su edad, sexo o hábitos (tabaco, bebida, deporte…) sabiendo que Logit(p) = Ln(p/(1-p)). La misma utilidad tiene el Modelo Probit; en éste una vez que sustituimos los valores en la regresión calculamos la probabilidad de tener cáncer a partir de la distribución normal. Si la variable dependiente es el tiempo que tarda en darse cierto sujeto hablamos de Regresión de Cox: Ln(λi) = b1X1 + ……+bpXp + Ui Si la variable dependiente es cualitativa con más de dos niveles usamos el Análisis Discriminante; Yi = b1X1 + ……+bpXp + Ui Se calculan unos rangos para Yi que determinan la categoría de la variable dependiente. Ejemplo: tipo de accidente (leve, grave, muy grave) en función de la potencia y antigüedad del coche y de la edad del conductor. Si de cada sujeto tenemos muchos datos y queremos reducirlos para simplificar la información se habla de Análisis de Componentes Principales (ACP). Si posteriormente agrupamos los sujetos por semejanzas usaremos el Análisis Cluster para dejar los sujetos en conglomerados. Ejemplo: de un país tenemos muchos indicadores económicos. Lo mejor es resumirlos en unos pocos (IDH, índice de desarrollo humando: riqueza media, esperanza de vida, nivel educativo). Para ver si una serie de datos (piezas de una fábrica, latidos del corazón de una persona) siguen una tendencia se usan diferentes gráficos de control, siendo el más usado el de Levey Jennings. Cuando los datos salen de unos rangos hablamos de cambios de tendencia. Una serie temporal es una sucesión de observaciones ordenadas en el tiempo. Se usan para predecir el futuro a partir del pasado teniendo en cuenta que toda serie nos da una tendencia a largo plazo, unas variaciones cíclicas (ciclos económicos), unas variaciones estacionales (desempleo en el verano) y las variaciones irregulares. La tendencia se determina por los métodos Gráficos, de Medias Móviles o de Mínimos Cuadrados y los métodos para determinar las Variaciones Estacionales son dos: el del Porcentaje Medio (un mes es un porcentaje de un año) y el del Porcentaje de Tendencia (un mes es un porcentaje de valores de tendencia mensual). Javier Otazu Ojer. Academia Universitaria Mecarapid.