Descargar PDF - Psiquiatria.com

REVISTA ELECTRÓICA DE PSICOLOGÍA Vol. 5, o. 1, Enero 2001 ISS 1137-8492 Tutorial sobre el coeficiente de correlación lineal de Pearson en Internet Palmer, A. , Jiménez, R. y Montaño, J.J. Area de Metodología de las Ciencias del Comportamiento. Facultad de Psicología. Universitat de les Illes Balears. e-Mail: [email protected] 1.- Introducción 2.- Coeficiente de correlación de Pearson 2.1.- Estudio gráfico de la relación 2.1.1.- Independencia absoluta 2.1.2.- Relación lineal directa 2.1.3.- Relación lineal inversa 2.1.4.- Relación no lineal 2.1.5.- Puntos influyentes 2.2.- Prueba de hipótesis de un coeficiente de correlación 2.2.1.- Importancia estadística e importancia práctica. Dependencia del tamaño muestral 2.3.- Otras pruebas de hipótesis para coeficientes de correlación 2.4.- Aplicaciones en Internet relacionadas con pruebas de conformidad de un coeficiente de correlación 3.- Derivados del coeficiente de correlación de Pearson 3.1.- Correlación parcial 3.2.- Correlación semiparcial 3.3.- Correlación múltiple 3.4.- Relación entre correlación parcial y correlación múltiple 3.5.- Relación entre correlación semiparcial y correlación múltiple 3.6.- Correlación múltiple parcial 3.7.- Correlación múltiple semiparcial 4.- Aplicación en la red que integra la mayoría de cálculos relacionados con correlaciones de Pearson 4.1.- Significación de un coeficiente de correlación 4.2.- Significación de la diferencia entre dos correlaciones 4.3.- Potencia de una correlación 4.4.- Tamaño de muestra de una correlación 4.5.- Correlaciones parciales y correlaciones múltiples 5.- Coeficiente de correlación ordinal de Spearman 5.1- Una visión general del coeficiente de correlación de Spearman 5.2.- Intervalo de confianza para ρs 5.3.- Prueba de conformidad de ρ s 1.- Introducción Una situación bastante habitual en una investigación consiste en analizar la asociación existente entre dos variables continuas. El objetivo de este tutorial es proporcionar direcciones de Internet que permiten al usuario obtener diferentes informaciones acerca del coeficiente de correlación lineal de Pearson. A efectos de que la información proporcionada no quede exclusivamente circunscrita al cálculo numérico se intenta proporcionar una cierta base teórica así como la interpretación de dicho coeficiente y aquellos factores que influencian su valor. Junto al clásico coeficiente de correlación lineal se presentan los coeficientes de correlación parcial, semiparcial y múltiple que amplían la asociación entre dos variables, teniendo en cuenta básicamente una tercera variable en el caso parcial y semiparcial, y cualquier número de variables en la múltiple. Por último se presenta el coeficiente de correlación ordinal de Spearman que no es más que un coeficiente de correlación de Pearson aplicado a rangos. 2.- Coeficiente de correlación de Pearson Un índice que mide relación entre dos variables cuantitativas es la covariancia. Pero este índice tiene el inconveniente de que su valor depende de las unidades de medida de las dos variables, de manera que cuando una de ellas varía en su escala de medida esto origina un cambio en el valor de la covariancia. Fue Karl Pearson quien propuso un índice que era independiente de la escala de medida de ambas variables: el coeficiente de correlación lineal, cuyo cálculo se realiza dividiendo la covariancia por el producto de las desviaciones estándar de ambas variables: La característica fundamental de este índice es que mide la existencia de una relación lineal entre dos variables. El valor del índice de correlación varía en el intervalo [-1 , +1]. Un coeficiente de correlación igual a cero indica una independencia total entre las dos variables, de manera que cuando una de ellas varía esto no influye en absoluto en el valor que pueda tomar la segunda variable. Un coeficiente de correlación igual a -1 indica una dependencia total entre las dos variables, denominada relación inversa, de manera que cuando una de ellas aumenta la otra disminuye. Un coeficiente de correlación igual a +1 indica una dependencia total entre las dos variables, denominada relación directa, de manera que cuando una de ellas aumenta la otra también aumenta. La fórmula práctica de cálculo de un coeficiente de correlación entre dos variables X e Y viene dada por: El cálculo del coeficiente de correlación debería realizarse con muestras grandes. Si se calcula r con n≤ 20, la estimación del parámetro ρ puede estar sesgada. En este caso, un estimador menos sesgado (Olkin y Pratt, 1958, citado por Wilcox, 1987) viene dado por: En la red hemos encontrado varias páginas que permiten realizar cálculos y operaciones relacionadas con el coeficiente de correlación. A continuación presentamos algunas de ellas, a nuestro juicio las más interesantes y atractivas. Coeficiente de correlación de Pearson. Jan de Leeuw. UCLA Statistics. Obtiene el coeficiente de correlación, la covariancia, así como la media y la variancia para cada variable. Incluye un gráfico de relación. Ejemplo: Se introducen los datos para dos variables, una en cada 'caja' de las dos que se disponen en la página, y se hace clic en el botón «Submit». El applet calcula el coeficiente de correlación de Pearson (campo Correlation), y además proporciona la media y variancia de cada variable, así como su covariancia. Hay que recordar que el índice de correlación de Pearson se mueve siempre entre -1 y +1, mientras que la covariancia depende de las unidades en las que las variables estén medidas. Vemos como la correlación entre estas dos variables es muy baja, concretamente rxy=0.122513. Un aspecto interesante es que también proporciona un gráfico de relación (scatterplot), situando en el eje de abscisas los valores de la variable introducida en la 'caja' izquierda y en el eje de ordenadas los valores de la otra variable. A nivel gráfico se puede observar que no existe una relación lineal entre las variables (ver Estudio gráfico de la relación) 2.1.- Estudio gráfico de la relación La mejor forma de observar la linealidad o no de la relación entre dos variables, así como la intensidad de esta relación, es por medio del gráfico de dispersión de la nube de puntos. Así pues, la relación perfecta entre dos variables viene determinada por una recta como figura geométrica mientras que la independencia total viene determinada por una circunferencia. Entre estos dos extremos tenemos todas las posibles relaciones que vienen determinadas por la elipse como figura geométrica de la relación. Cuanto menor sea la amplitud del eje secundario de la elipse, mayor será la relación lineal. El gráfico de la nube de puntos permite observar asimismo la posible existencia de valores alejados que pueden ser determinantes en el valor del coeficiente de correlación. A continuación vamos a ver, gráficamente, diversas situaciones. 2.1.1.- Independencia absoluta Sean los cuatro puntos determinados por los valores de la tabla siguiente, y situados gráficamente: X 1 1 4 4 Y 1 4 1 4 La correlación entre estos cuatro puntos vale r=0. Gráficamente se comprueba que estos puntos se sitúan sobre una circunferencia con centro en el punto (2.5,2.5). Por otro lado, se puede observar cómo la recta de regresión lineal de estos cuatro puntos presenta pendiente nula. Así pues no hay una dirección lineal privilegiada, por lo que hay una ausencia total de relación lineal. 2.1.2.- Relación lineal directa Sean los siguientes cuatro puntos y su correspondiente representación gráfica: X 1 2 3 4 Y 1 2 3 4 A partir del gráfico se puede comprobar que los cuatro puntos se sitúan sobre una recta de pendiente igual a 1. Si calculamos el coeficiente de correlación entre estos cuatro puntos obtendremos que r=1. Este valor significa que la relación lineal entre los puntos es máxima y que la relación es una relación directa, lo que significa que a medida que los valores de una variable aumentan, los valores de la otra variable también aumentan. En este caso el coeficiente de determinación vale r2=1, lo que significa que el porcentaje de variancia de una variable explicada por la otra es total. Así pues, si conocemos el valor de una variable podemos predecir exactamente qué valor tendrá la otra variable. 2.1.3.- Relación lineal inversa Sean los siguientes cuatro puntos y su correspondiente representación gráfica: X 1 2 3 4 Y 4 3 2 1 A partir del gráfico se puede comprobar que los cuatro puntos se sitúan sobre una recta de pendiente igual a -1. Si calculamos el coeficiente de correlación entre estos cuatro puntos obtendremos que r=-1. Este valor significa que la relación lineal entre los puntos es máxima y que la relación es una relación inversa, lo que significa que a medida que los valores de una variable aumentan, los valores de la otra variable disminuyen. En este caso el coeficiente de determinación vale r2=1, lo que significa que el porcentaje de variancia de una variable explicada por la otra es total. Así pues, si conocemos el valor de una variable podemos predecir exactamente qué valor tendrá la otra variable. 2.1.4.- Relación no lineal Sean los siguientes seis puntos y su correspondiente representación gráfica: X 1 2 3 4 5 6 Y 4 3 2 2 3 4 Si buscamos la correlación entre estos seis puntos se obtiene que r=0, es decir ausencia total de relación. Sin embargo, del gráfico se desprende que estos seis puntos están relacionados, lo que ocurre es que la relación entre ellos no es lineal. Así pues, no hay que olvidar que el coeficiente de correlación de Pearson mide relación lineal, y que un valor r=0 no significa que los puntos no estén relacionados, sino que significa que no están relacionados linealmente, pero pueden tener otro tipo de relación. Una representación gráfica nos puede permitir visualizar que en el caso estudiado, si bien la correlación global es cero, existen dos zonas en las que las variables están correlacionadas. Así, si tomamos únicamente los tres primeros puntos obtenemos que presentan una r=-1, mientras que los últimos tres puntos presentan una r=1. Es decir, hasta un cierto valor de X la relación es inversa y perfecta, y a partir de este valor la relación es directa y perfecta. 2.1.5.- Puntos influyentes Sean los siguientes cinco puntos y su correspondiente representación gráfica: X 1 1 4 4 6 Y 1 4 1 4 6 La correlación existente entre estos cinco puntos es r=0.52128, con un coeficiente de determinación de valor r2=0.27173. Así pues, hay una relación directa. Sin embargo si eliminamos la quinta observación hallamos que la correlación entre los cuatro primeros puntos es r=0, es decir ausencia total de correlación. Esto significa que la correlación obtenida es debida fundamentalmente a la quinta observación. Cuando un punto determina mayoritariamente el valor de un coeficiente de correlación se le denomina punto influyente. Podemos ver que, en nuestro caso, el quinto valor (6,6) es un punto influyente, ya que hace pasar de un valor r=0 a un valor r=0.52. Es muy importante la determinación de la existencia de puntos influyentes en una relación ya que éstos pueden enmascarar la verdadera relación existente y proporcionar valores erróneos en el coeficiente de correlación. Sean los siguientes cinco puntos y su correspondiente representación gráfica: X 1 1 4 4 12 Y 1 4 1 4 12 En este caso el cálculo del coeficiente de correlación entre las dos variables tiene por valor r=0.88916, con un coeficiente de determinación de valor r2=0.79. Esto significa que hay una alta relación lineal para el conjunto de los datos. Sin embargo, si eliminamos la quinta observación y calculamos la correlación entre los cuatro primeros datos se obtiene que r=0, es decir ausencia total de correlación. Esto significa que la relación obtenida queda determinada fundamentalmente por la inclusión de la quinta observación (12,12), lo que determina que ésta constituye un punto influyente. La influencia de este punto (12,12) es mayor que la influencia del punto (6,6) obtenida en el caso anterior (la recta de regresión lineal asociada a este segundo ejemplo tiene una mayor pendiente que en el primero). Una dirección interesante e ilustrativa en relación con el análisis gráfico de la relación es la siguiente: Aplicación interactiva sobre el coeficiente de correlación. University of Illinois at Urbana-Champaign. Department of Statistics. La aplicación presenta cuatro gráficos de puntos, y cuatro coeficientes de correlación; y el usuario debe asignar cada coeficiente a su gráfico respectivo. En primer lugar, cuando accedemos al applet se debe pulsar el botón «New Plots» para que aparezcan los cuatro gráficos de puntos y los cuatro coeficientes de correlación. Una vez han sido asignados los gráficos a los valores mostrados, se debe pulsar el botón «Answers» para conocer los resultados correctos (sombreados en color rosa). Para volver a 'jugar' es necesario volver a pulsar la opción «New Plots» (que se irá alternando con la opción «Answers»). En la parte derecha del pie de la aplicación se informa de las respuestas correctas conseguidas hasta el momento. Incluso, en el marco inferior de la página aparece un ranking con las mejores 20 puntuaciones conseguidas por los usuarios de red que 'jugaron' con dicha aplicación. 2.2.- Prueba de hipótesis de un coeficiente de correlación La prueba de hipótesis que permite estudiar la significación de una correlación entre dos variables viene dada por una prueba de conformidad respecto al modelo de independencia que establece que la correlación entre las dos variables será cero en la población origen. Las hipótesis estadísticas de esta prueba de conformidad vienen dadas por: Ho: ρ = 0 H1: ρ ≠ 0 La significación del coeficiente de correlación se estudia por medio de la distribución t de Student. Para ello se obtiene el valor de: que se sitúa bajo la distribución t(n-2,α ). Ejemplo Sean, a efectos didácticos, las siguientes seis observaciones obtenidas en dos variables X e Y. Para obtener el coeficiente de Pearson se necesitan cinco cantidades: ΣX , ΣY , ΣX2 , ΣY2 y ΣXY, es decir el sumatorio de los valores de cada variable, el sumatorio de los cuadrados y el sumatorio del producto cruzado. En la tabla siguiente se han obtenido estos cinco sumatorios: X Y X*X Y*Y X*Y 10 13 100 169 130 12 17 144 289 204 16 15 256 225 240 14 15 196 225 210 10 16 100 256 160 12 12 144 144 144 74 88 940 1308 1088 Aplicando la expresión del coeficiente de correlación lineal de Pearson: Con estos datos se obtiene que rxy=0.1225, valor que coincide con el obtenido mediante la utilización de la aplicación de Internet ya vista para el cálculo del coeficiente de correlación de Pearson. Si se quiere contrastar la hipótesis nula Ho: ρ=0 , se deberá estudiar la significación del valor r obtenido. Para estudiar su significación se debe transformar, en primer lugar, el valor de la correlación en un valor t y, en segundo lugar, comparar dicho valor con el valor de las tablas de la t de Student, con n-2 grados de libertad. El valor proporcionado por las tablas es t(4,0.05)=2.776. Así, puesto que el valor obtenido es inferior al de las tablas concluimos que los datos no aportan información para rechazar la hipótesis nula Ho en función de la cual las dos variables están incorrelacionadas en la población origen de la muestra. 2.2.1.- Importancia estadística e importancia práctica. Dependencia del tamaño muestral El valor del coeficiente de correlación de Pearson nos permite estudiar la importancia estadística de la relación entre dos variables por medio del análisis de la significación de la asociación hallada. Sin embargo, la significación estadística de una relación está fuertemente determinada por el tamaño muestral utilizado, de manera que a medida que aumenta el tamaño de muestra es más fácil encontrar una relación significativa ya que disminuye el valor criterio de referencia. La siguiente tabla proporciona los valores criterio a utilizar para decidir la significación estadística bilateral de una correlación de Pearson, en función de distintos tamaños muestrales para un riesgo alfa del 5%: TAMAÑO VALOR CRITERIO R CUADRADO PORCENTAJE 10 0.53 0.2809 28% 30 0.34 0.1156 11,56% 100 0.19 0.0361 3,61% 500 0.087 0.0076 0.76% 1000 0.062 0.0038 0.38% 2000 0.044 0.0019 0.19% Asimismo, la tabla presenta los valores de los coeficientes de correlación al cuadrado, es decir el coeficiente de determinación escrito en términos unitarios y en términos de porcentaje. Este ultimo valor es muy importante, ya que la interpretación de la correlación entre dos variables se realiza por medio del coeficiente de determinación como la variancia común de ambas variables. A partir de la tabla podemos ver que con un tamaño de 30 observaciones si se observa una correlación un poco superior a 0.34 diremos que existe una relación estadísticamente significativa entre las dos variables. Sin embargo, a efectos prácticos esto significa un porcentaje de variancia explicada de una de ellas por parte de la otra de valor relativamente bajo, ya que tan solo tiene en común algo más del 11,5%. Es muy importante fijarse en los valores de la tabla ya que por ejemplo, con n=500 observaciones, bastará que las dos variables tengan un 1% en común para que exista relación estadísticamente significativa aunque es probable que desde un punto de vista práctico este porcentaje sea poco relevante ya que implica tener un 99% de variabilidad no compartida. 2.3.- Otras pruebas de hipótesis para coeficientes de correlación Además de la prueba de hipótesis presentada en el apartado 2.2, se pueden realizar, entre otras, las siguientes pruebas de hipótesis: Prueba 2: Ho : ρ = ρ o H1: ρ ≠ ρo Para comprobar si el coeficiente de correlación entre dos variables es igual a un determinado valor teórico ρo, se calcula en primer lugar el valor del coeficiente r. A continuación se realiza la siguiente transformación (Util cuando el valor teórico se mueve entre 0 y 0.5, pero no para valores superiores a 0.5): Se puede comprobar que esta nueva variable Y se distribuye normalmente con media igual a ρo y variancia igual a 1/(n-3). Así pues, el índice: sigue una distribución normal centrada y reducida, N(0,1) . Por tanto: Si Z>Zα aceptaremos la hipótesis alternativa y en caso contrario mantendremos la hipótesis nula. Cuando n sea mayor que 25 podemos utilizar la transformación de Fisher, que viene dada por: donde: Cuando n esté comprendido entre 10 y 25 podemos utilizar la transformación de Hotelling, que viene dada por: donde: Existen tablas (por ejemplo en San Martín, 1987, p.374) que proporcionan el valor de zr dado el valor de r. 2.4.- Aplicaciones en Internet relacionadas con pruebas de conformidad de un coeficiente de correlación Cálculo del tamaño muestral requerido para que se cumplan unas determinadas garantías en una prueba de conformidad de un coeficiente de correlación. Se debe especificar el grado de significación y la potencia de la prueba. UCLA Statistics. Ejemplo: Para encontrar una diferencia estadísticamente significativa entre el valor teórico ρo=0.4 bajo la hipótesis nula y el valor ρ=0.7 bajo la hipótesis alternativa, con un riesgo máximo de equivocarnos de 0.05 (Significance Level) y una potencia de 0.95 (Power), el tamaño de muestra mínimo que necesitamos si la prueba es bilateral (Two sided) es el siguiente (pulsar el botón «Submit Query»): Si, en cambio, hubiéramos comparado el valor ρ =0.7 con el valor teórico ρo=0 (hipótesis de que el coeficiente de correlación es nulo, en referencia al primer tipo de prueba de hipótesis visto en el apartado 2.2), el tamaño de muestra mínimo para que se cumplan las mismas condiciones de potencia y nivel de significación en modo bilateral sería el siguiente: Cálculo de la potencia en una prueba de conformidad para un coeficiente de correlación (se debe especificar el grado de significación y el tamaño muestral). UCLA Statistics. Ejemplo: Esta aplicación mantiene la misma estructura que la anterior. Unicamente cambia el hecho de que en el último campo de la aplicación se debe introducir el valor del tamaño de muestra. Una vez es pulsado el botón «Submit Query» se obtendrá como resultado el valor de la potencia (Power), que informa sobre la probabilidad de que cuando aceptemos la hipótesis alternativa según la cual el valor ρ es distinto del valor teórico ρo (modo bilateral) sea ésta realmente cierta. Podemos comprobar que si queremos obtener la potencia de que ρ =0.7 sea distinto de ρo=0.4, con un nivel de significación de 0.05 en modo bilateral y N=69, dicho valor es el siguiente: Como vemos, la probabilidad de que si aceptamos la hipótesis alternativa sea ésta realmente cierta es igual a 0.9499, es decir, una probabilidad aproximada del 95%, que nos permite llegar a la conclusión de que efectivamente debemos aceptar dicha hipótesis alternativa, debido a la alta potencia obtenida. Prueba 3: Ho: ρ1 = ρ2 H1: ρ1 ≠ ρ2 Si tenemos dos muestras de tamaños n1 y n2 en las que se han obtenido los coeficientes de correlación r1 y r2 entre dos variables continuas, podemos estudiar la hipótesis de igualdad o diferencia entre los coeficientes de correlación poblacionales. Para ello se realiza la siguiente transformación: para i=1,2. A continuación se calcula el valor del índice Z: Este índice sigue una distribución normal N(0,1) por lo que si Z>Zα rechazaremos la hipótesis nula planteada. Prueba 4: Ho: ρ xy = ρ xz H1: ρ xy ≠ ρ xz Si, sobre una muestra de sujetos, se tienen sus puntuaciones en tres variables X, Y, Z. Se puede estudiar la hipótesis de que la correlación entre las variables XY es igual a la correlación entre las variables XZ, es decir que la variable X correlaciona igualmente con la variable Y que con la variable Z. El índice que permite estudiar dicha hipótesis viene dado por: El índice T se distribuye según una t de Student con n-3 grados de libertad. Así pues, si T > t(n-3,α) aceptaremos la hipótesis alternativa según la cual la relación de la variable X es distinta según se correlacione con Y o con Z. Ejemplo Se han recogido las respuestas de 12 varones y 16 mujeres en tres variables X, Y y Z. Los datos ficticios del ejemplo se muestran en la siguiente tabla: Varones Mujeres X X Y Z Y Z 15 20 24 16 27 29 18 21 26 23 24 25 21 23 25 23 25 22 20 22 28 18 19 24 18 16 23 17 22 23 21 24 27 22 25 28 16 16 19 21 24 24 18 17 21 17 17 19 19 20 20 16 27 25 15 21 23 13 16 18 21 24 25 19 19 23 24 26 24 14 18 21 24 27 26 21 27 29 17 16 19 18 17 19 A continuación se proporcionan las correlaciones observadas entre estas tres variables, tanto para el conjunto de la muestra, así como para cada sexo. Correlaciones observadas para el conjunto de la muestra compuesta por 28 sujetos: Correlaciones observadas en el conjunto de los varones: Correlaciones observadas en el conjunto de las mujeres: Cuestiones: C1. ¿Existe, en los varones, una relación entre las puntuaciones dadas a X con las dadas a Y? C2. La relación existente entre las variables X e Y, ¿Depende del sexo? C3. Podríamos decir que, en las mujeres, la relación lineal entre Y y Z sigue el modelo teórico según el cual ésta vale 0.7? C4. En el conjunto de la población, ¿Podemos concluir que la variable X presenta idéntica relación con las variables Z e Y? Respuestas: R1. En los varones se da que rXY=r=0.7168 t = r[(n-2)/(1-r2)]1/2 = (0.7168)[(12-2)/(1-0.5138)]1/2 = 3.25 En tablas: t(10,0.05)=2.228 Así pues, en los varones se da una relación significativa entre las variables X e Y. R2. En las mujeres se obtiene que rXY=0.5714 YV = (1/2) Ln[(1+rV)/(1-rV)] = Ln(6.06215)/2 = 0.901 YM = (1/2) Ln[(1+rM)/(1-rM)] = Ln(3.66635)/2 = 0.6496 B=[1/(n1-3)]+[1/(n2-3)] = (1/9)+(1/13) = 0.188034 A continuación se calcula el valor del índice Z: Z = (YV - YM)/√ (B) = 0.579758 Así pues, nada se opone a seguir manteniendo la hipótesis de que la relación entre las variables X e Y es independiente del sexo, ya que los coeficientes de correlación poblacionales son iguales (hipótesis nula), puesto que el valor Z obtenido es inferior al valor Zα =1.96 para un nivel de significación de 0.05 bilateral. De hecho, la probabilidad bilateral asociada al valor Z encontrado es aproximadamente de 0.562, superando de mucho el nivel de error máximo establecido para poder aceptar la hipótesis alternativa (nivel de significación). Podemos llegar a la misma conclusión si utilizamos el siguiente applet de Internet ubicado en la dirección http://fonsg3.let.uva.nl:8001/Service/Statistics/Two_Correlations.html, el cual permite realizar la comparación de dos coeficientes de correlación de Pearson. Se deben introducir los dos coeficientes de correlación y el tamaño de las muestras. El applet analiza si ambos coeficientes son estadísticamente diferentes. Incluye una explicación del procedimiento utilizado en la comparación. Institute of Phonetic Sciences. Faculty of the Humanities. University of Amsterdam. Ejemplo: Una vez introducidos los valores de los coeficientes R1 (varones) y R2 (mujeres) y los tamaños de muestra respectivos se debe pulsar el botón «Submit», acción que calculará directamente la probabilidad p(z≥zi) en modo bilateral (que informa sobre la probabilidad p de error que se cometería al aceptar la hipótesis alternativa de desigualdad entre los coeficientes de correlación poblacionales). Llegamos a la conclusión de que no podemos aceptar dicha hipótesis alternativa si asumimos un riesgo máximo del 0.05 bilateral (nivel de significación), ya que podríamos cometer un error del 56,2% (superior al 5% máximo asumido). R3. La relación entre Y y Z, en las mujeres, vale 0.8723 Y = (1/2) Ln[(1+r)/(1-r)] = Ln(14.6617)/2 = 1.34262 Así pues, el índice: Z = (n-3)1/2(Y-ρo) = 2.317 Por lo tanto diríamos que la población de mujeres no sigue este modelo teórico. Ahora bien, puesto que el valor teórico es superior a 0.5, y el tamaño de muestra es inferior a 25, es mejor utilizar la transformación de Hotelling: Zr = (1/2) Ln[(1+r)/(1-r)] = 1.34262 Zo = (1/2) Ln[(1+ρo)/(1-ρo)] = 0.8673 Z'r = Zr - [(3Zr + r)/4n] = 1.34262 - 0.0839 = 1.25872 Z'o = Zo - [(3Zo + ρo)/4n] = 0.8673 - 0.0516 = 0.8157 Z'= (n-1)1/2 (Z'r - Z'o) = 0.44302 = 1.716 La conclusión sería que los datos no contradicen el supuesto de que la población de mujeres sigue el modelo teórico. R4. Las correlaciones entre las tres variables, en el conjunto de la población, vienen dadas por: En tablas: t(25,0.05) = 2.06 Así pues, la relación entre las variables XZ no presenta diferencias significativas respecto a la relación entre las variables XY. 3.- Derivados del coeficiente de correlación de Pearson 3.1.- Correlación parcial La correlación parcial permite obtener la correlación existente entre dos variables cuando se ha eliminado de cada una de ellas el efecto que una tercera variable tiene sobre ellas. Así pues, la correlación parcial mide la relación que hay entre dos variables cuando a cada una de ellas se le ha extraído aquella parte que tiene de común con una tercera variable. En este sentido, se trata de una correlación entre dos residuales. A esta correlación se le denomina correlación parcial de primer orden, ya que se ajusta por una sola variable. Si se quiere ajustar por más variables, la expresión se traduce en incorporar términos de orden inferior. Por ejemplo, para una correlación parcial de segundo orden: Correlaciones parciales de primer orden. A partir de 3 coeficientes de correlación, r(ab); r(bc); y r(ac), el applet obtiene las correlaciones parciales de primer orden: r(ac.b); r(bc.a); r(ab.c). Deben introducirse los valores de los tres coeficientes (r(ab), r (bc) y r(ac)). Richard Lowry. VassarStats. Ejemplo: Utilizaremos las correlaciones entre las variables X, Y y Z del ejemplo visto en el apartado 2.3, correlaciones para el conjunto de la muestra (28 sujetos): Cambiaremos la notación de las variables: X->A, Y->B y Z->C. Cuando se accede a la aplicación, se deben introducir las correlaciones correspondientes y pulsar el botón «Calculate». De forma opcional, se puede añadir el tamaño de muestra para obtener los valores de t de las correlaciones parciales junto a los valores de probabilidad bilateral asociados, valores que darán cuenta de la significación estadística de dichas correlaciones parciales de primer orden. El resultado obtenido es el siguiente: Como se puede observar, aparte de calcular las correlaciones parciales también aporta información sobre los coeficientes de determinación (r2), tanto de las correlaciones originales (r2: variancia de una variable explicada por la otra) como de las correlaciones parciales (r2: variancia de una variable explicada por la otra, cuando ha sido eliminada de ambas la influencia de una tercera variable). Otro aspecto interesante es que desde la misma página del applet se puede acceder a una explicación teórica y práctica sobre la correlación parcial (http://faculty.vassar.edu/~lowry/ch3a.html). 3.2.- Correlación semiparcial La correlación semiparcial permite obtener la correlación existente entre dos variables cuando se ha eliminado de una de ellas el efecto que una tercera variable tiene sobre ella. 3.3.- Correlación múltiple La correlación múltiple permite obtener la relación existente entre una variable y un conjunto de variables (porcentaje de variabilidad o variancia de una variable explicado por un conjunto de variables). El coeficiente de correlación múltiple puede obtenerse de manera aditiva, por medio de la siguiente secuencia de correlaciones: Para el primer caso, la obtención de la correlación múltiple entre una variable (Y) y un conjunto formado por otras dos variables (X1 y X2) se interpreta como la variancia de Y explicada por la variable X1 mas la variancia de Y explicada por la variable X2 cuando ha sido eliminada de ésta la influencia de X1. Es posible acceder a una aplicación en Internet que permite realizar el cálculo de correlaciones múltiples (ver apartado 4). 3.4.- Relación entre correlación parcial y correlación múltiple A continuación se muestra cómo calcular una determinada correlación parcial (al cuadrado) a partir de los coeficientes de correlación múltiples de las variables implicadas. 3.5.- Relación entre correlación semiparcial y correlación múltiple A continuación se muestra cómo calcular una determinada correlación semiparcial (al cuadrado) a partir de los coeficientes de correlación múltiples de las variables implicadas. En la dirección http://luna.cas.usf.edu/~mbrannic/files/regression/Partial.html se accede a un pequeño documento en el que se tratan de forma teórica y práctica los conceptos de correlación parcial y semiparcial, así como la relación de ambas con la correlación múltiple. 3.6.- Correlación múltiple parcial La correlación múltiple parcial permite obtener la relación existente entre una variable X1 y un conjunto de variables (X2, X3, X4...) cuando se ha eliminado de X1 el efecto que una o más variables del conjunto (X4, X5,...) tienen sobre ella respecto a la variancia de X1 no explicada por dichas variables cuyos efectos han sido eliminados. 3.7.- Correlación múltiple semiparcial La correlación múltiple semiparcial permite obtener la relación existente entre una variable X1 y un conjunto de variables (X2, X3, X4...) cuando se ha eliminado de X1 el efecto que una o más variables del conjunto (X4, X5,...) tienen sobre ella respecto a la variancia total de X1. 4.- Aplicación en la red que integra la mayoría de cálculos relacionados con correlaciones de Pearson Esta aplicación, accesible en la dirección http://home.clara.net/sisa/correl.htm, permite realizar el cálculo de la significación de un coeficiente de correlación respeto al valor teórico poblacional 0 (H0: ρ = 0). Por otro lado, también estudia la significación de la diferencia entre dos correlaciones (H0: ρ1=ρ2). Otro cálculos disponibles son los de la potencia de una correlación y el tamaño de muestra de una correlación. Por último, también permite calcular correlaciones parciales y correlaciones múltiples. De todos estos cálculos, algunos ya han sido ejemplificados utilizando otras aplicaciones concretas de Internet. Sin embargo, los datos de dichos casos volverán a ser utilizados con la aplicación que vamos a tratar en este apartado, con la finalidad de corroborar que efectivamente se obtienen los mismos resultados. El aspecto de la aplicación que aparece cuando accedemos a la dirección anterior es el siguiente: Todos los resultados se irán mostrando en modo texto en el marco derecho (zona blanca) del applet. Cuando el texto supere los límites de dicha zona aparecerá una barra de desplazamiento vertical para poder acceder a los resultados no visibles que se vayan generando. Esta región también está habilitada como área de edición, de forma que es posible añadir texto y modificar el que se vaya mostrando. El botón «Clear» borra todo el texto que se haya generado hasta el momento. En función del tipo de resultado que queramos obtener se deberá pulsar el botón «Calculate» o el botón «Alt» una vez se hallan introducido los inputs correspondientes en las casillas oportunas, tal como se explicará para cada tipo de cálculo que se desee realizar de entre aquellos posibles indicados al principio de este apartado. 4.1.- Significación de un coeficiente de correlación Se debe introducir en el primer campo de texto (r1) la correlación de la cual se desea estudiar su significación y el tamaño de la muestra en el tercer campo ()1). Ejemplo (basado en la correlación obtenida con los datos del ejemplo del apartado 2.2): Una vez introducidos los datos, se debe pulsar el botón «Calculate». Vemos como se obtiene una p unilateral no significativa (p (t<t(gl)=0.593377). Si queremos obtener la probabilidad unilateral complementaria, es decir, p(t≥t(gl)) se debe utilizar el valor 1-p mostrado en los resultados, y si se desea que sea en modo bilateral, multiplicar dicho valor por 2, de forma que podríamos decir que p(t≥t(gl)) en modo bilateral es igual a 0.813246, lo cual indica que debemos mantener la hipótesis nula (Ho: ρ =0). De hecho, si aceptáramos la hipótesis alternativa (H1: ρ ≠ 0) según la cual las dos variables del ejemplo están correlacionadas en la población origen de la muestra, estaríamos cometiendo un error muy superior (0.813246) al que se acepta normalmente como máximo (alpha=0.05). 4.2.- Significación de la diferencia entre dos correlaciones En este caso se debe introducir la correlación de la primera muestra en el primer campo (r1) y su tamaño en el tercer campo ()1). La correlación de la segunda muestra debe introducirse en el segundo campo (r2) y su tamaño en el último campo ()2). Una vez hecho esto, se debe pulsar el botón «Calculate». Ejemplo (basado en los datos del ejemplo del apartado 2.3, concretamente para la cuestión nº2): Vemos como p(z<zi)=0.71899 en modo unilateral, y que 1-p=p(z≥zi)=0.281, que en modo bilateral (x2) es igual a 0.562, valor este último que coincide con el obtenido en una aplicación anterior utilizada con el mismo ejemplo. Por tanto, llegamos a la misma conclusión: no podemos aceptar la hipótesis de desigualdad de las correlaciones poblacionales para un nivel de significación de 0.05 bilateral. También se muestran los intervalos de confianza de la variable diferencia en función del nivel de confianza asumido (normalmente se recurre a un nivel de confianza del 95%), intervalos que incluyen el valor 0, lo cual reafirma el hecho de que tengamos que mantener la hipótesis nula de igualdad de las correlaciones poblacionales. Por otro lado, existe la posibilidad de dadas tres correlaciones pertenecientes a una misma muestra comprobar si dos a dos son estadísticamente significativas. Para ello, se deben introducir estas tres correlaciones en las cajas r1, r2 y r3 respectivamente y el tamaño de la muestra en la última caja ()2). Finalmente, pulsar el botón «Calculate». 4.3.- Potencia de una correlación Para calcular la potencia de una correlación, es decir, la probabilidad de descubrir que una correlación es estadísticamente significativa (respecto a un valor teórico ρo) cuando realmente es así, es necesario introducir el valor de la correlación de la que queremos estudiar su significación en el campo r1, el valor teórico de la correlación poblacional con la que la comparamos en r2 (o dejarla vacía si ρo=0) y, finalmente, el tamaño de la muestra en la caja )2. Pulsar a continuación el botón «Calculate». Ejemplo (mismas correlaciones utilizadas en una aplicación anterior): Podemos observar que para alpha=0.05 (bilateral: double sided) tenemos una potencia (power) del 95,17% si aceptamos la hipótesis alternativa según la cual la diferencia entre ambas correlaciones es estadísticamente significativa. Es un resultado prácticamente similar al obtenido en la otra aplicación con los mismos datos. Si se quiere hallar la potencia de la diferencia entre dos correlaciones, como en el caso ejemplificado, pero teniendo en cuenta que las dos correlaciones pertenecen a distintas muestras y que, por tanto, r2 no es en este caso una correlación teórica poblacional, en r1 y r2 se deben introducir las correlaciones respectivas y en )2 el tamaño de una de las muestras (deben tener el mismo tamaño ambas muestras). A continuación, se debe pulsar el botón «Alt». 4.4.- Tamaño de muestra de una correlación El cálculo del tamaño mínimo de una muestra para que se tenga una determinada potencia de que una correlación dada sea a nivel estadístico significativamente diferente a una correlación poblacional con valor teórico ρo, se puede obtener de la siguiente manera: introduciendo la correlación de la muestra en r1 y el valor teórico de la correlación poblacional con la que la comparamos en r2 (o dejarla vacía si ρo=0). Pulsar a continuación el botón «Calculate». Ejemplo (mismas correlaciones utilizadas en una aplicación anterior): Se da como resultado el tamaño mínimo de muestra que habría que utilizar con combinaciones distintas de potencia (power) y niveles de significación (alpha), niveles estos últimos que controlan el riesgo de equivocarnos. Se diferencia entre pruebas bilaterales (double sided) y pruebas unilaterales (single sided). Si bien, como se cálculo en la aplicación anterior citada, no se da en este caso el tamaño de muestra para una potencia de 0.95, si se da para una potencia de 0.9, que para un valor alpha=0.05 bilateral asigna un tamaño de muestra de 57 unidades muestrales (por ejemplo, sujetos), tamaño mínimo de muestra que se debe utilizar para conseguir con una potencia del 90% y un riesgo de equivocarnos controlado por el valor alpha (5%) que la diferencia entre r1 y r2 sea estadísticamente significativa. Si se quiere hallar el tamaño mínimo de muestra para que se de una diferencia estadísticamente significativa entre dos correlaciones, como en el caso ejemplificado, pero teniendo en cuenta que las dos correlaciones son muestrales (provenientes de muestras con el mismo tamaño) y que, por tanto, r2 no es en este caso una correlación teórica poblacional, igualmente en este caso se deben introducir las correlaciones respectivas en los campos correspondientes (r1 y r2) y pulsar a continuación el botón «Alt». Bajo las mismas condiciones explicitadas en el párrafo anterior para las mismas correlaciones, necesitaríamos en este caso una muestra mínima de 110 unidades muestrales. 4.5.- Correlaciones parciales y correlaciones múltiples Para obtener las correlaciones parciales de primer orden entre tres coeficientes de correlación, se deben introducir estos tres coeficientes rxy, rzy y rxz en los campos r1, r2 y r3 respectivamente y, a continuación, pulsar el botón «Calculate». Ejemplo (datos utilizados en una aplicación anterior dentro del apartado 3.1 de correlaciones parciales): Podemos comprobar cómo las correlaciones parciales obtenidas coinciden con las de la aplicación anterior citada. Por otro lado, vemos como se muestran otros resultados, concretamente una tabla ANOVA que informa sobre la correlación múltiple (R-sq), que representa la variancia explicada de Y por la variable X (expresada como r2yx) más la variancia explicada de Y por la variable Z cuando ha sido eliminada de esta última la influencia de X (que se expresa como r2y(z.x)), es decir, tal como vimos en el apartado 3.3 sobre correlaciones múltiples: de forma que en este caso R2y.zx = 0.6996, desglosándose de la siguiente manera: r2yx=(0.6069) =0.3683 y r2y(z.x) =0.5244*0.6317=0.3313 (correlación semiparcial). Se puede demostrar cómo aplicando a la fórmula de la correlación semiparcial los datos con los que trabajamos llegamos a obtener este valor r2y(z.x)=0.3313. de forma que si elevamos al cuadrado dicho valor calculado llegamos a la conclusión de que la variancia explicada de Y por la variable Z cuando ha sido eliminada de esta última la influencia de X es del 33.13%, que sumado al 36.83% de variancia de Y explicada por X, nos lleva a poder decir que la variancia total de Y explicada por el resto de variables es del 69.96%. Por último, el applet también nos puede dar información respecto a la significación estadística del valor R2 y.xz obtenido, así como el intervalo de confianza de R y.xz = √0.6996=0.8364 para distintos niveles de confianza. Para ello, se debe incluir el tamaño de muestra en )2 y pulsar el botón «Alt». Vemos como la correlación múltiple obtenida es estadísticamente significativa (p=0.0001), hecho que se corrobora cuando comprobamos que los intervalos de confianza de R y.xz no incluyen el valor nulo. 5.- Coeficiente de correlación ordinal de Spearman El cálculo del coeficiente de correlación lineal de Pearson entre dos variables cuantitativas requiere que las dos variables tengan distribuciones normales y que la distribución conjunta de las dos variables sea normal bivariante.. Cuando no se cumpla esta condición o ésta no pueda ser evaluada, utilizaremos el coeficiente de correlación de Spearman. La correlación de Spearman es una aplicación del coeficiente de correlación de Pearson a n pares de observaciones cuyos valores son números de orden. Para su cálculo se procede según los pasos siguientes: Se transforman los valores originales por sus rangos. Esta transformación se realiza independientemente para cada variable. Se obtiene, para cada sujeto, la diferencia, en valor absoluto, entre los rangos. Estas diferencias permiten obtener el valor del coeficiente de correlación de Spearman, por medio de la siguiente formulación: La interpretación de rs es idéntica a la del coeficiente de correlación de Pearson. Su valor oscila en el intervalo [-1,+1] siendo el valor 0 indicador de independencia entre las dos variables. El valor +1 aparece cuando los rangos asignados a los dos valores de un mismo sujeto son iguales, y el valor -1 aparece cuando los rangos asignados son opuestos. Ox 1 3 4 2 6 5 Oy 1 3 4 2 6 5 rs=+1 Ox 1 3 4 2 6 5 Oy 6 4 3 5 1 2 rs=-1 La expresión anterior sólo proporciona el resultado correcto cuando todas las observaciones sean diferentes y por tanto le correspondan rangos diferentes a cada observación. Cuando haya observaciones empatadas, el coeficiente de Spearman se debe obtener por medio de la siguiente relación: donde los valores de A y B se obtienen a través de: donde los valores T1 y T2 corresponden al grupo 1 y grupo 2 respectivamente, obtenidos por medio de Ti = t3 - t, siendo t el número de observaciones ligadas (empates) en el rango i: La significación del coeficiente de correlación de Spearman se estudia contrastando el valor de rs con el valor de las tablas rs (n,α ). Criterio de decisión: En cualquiera de los dos casos anteriores, sin empates o con empates, una vez obtenido el valor del coeficiente de correlación de Spearman, habrá que acudir a los valores tabulados para decidir la verosimilitud de la hipótesis nula, por medio del siguiente esquema: Si rs ≤ rs(n,α ) Ho Si rs > rs(n,α ) H1 Las tablas para estudiar la significación del coeficiente de correlación de Spearman suelen llegar hasta n=50. Para tamaños de muestra superiores, cuando n≥ 50, la significación del coeficiente de correlación de Spearman se puede obtener por medio del valor del índice t: el cual se distribuye según la t de Student con n-2 grados de libertad. Si t > t(n-2,α ) H1 en caso contrario se sigue manteniendo la hipótesis nula. Ejemplo Con los datos utilizados en el apartado 2.2, vamos a calcular el coeficiente de correlación. X Y X*X Y*Y X*Y 10 13 100 169 130 12 17 144 289 204 16 15 256 225 240 14 15 196 225 210 10 16 100 256 160 12 12 144 144 144 74 88 940 1308 1088 Con estos datos, el coeficiente de correlación de Pearson vendría dado por: rxy=0.1225 < r(4,0.05)=0.811 Ho Se realiza la transformación de valores originales en números de orden, por separado: valores: 10 10 12 12 14 16 ; 12 13 15 15 16 17 rango: 1 2 3 4 5 6 ; 1 2 3 4 5 6 rango asignado: 1.5 3.5 5 6 ; 1 2 3.5 5 6 A partir de los números de orden se genera la variable D=Ox-Oy, cuyos valores, así como sus cuadrados, aparecen en la tabla siguiente: Ox Oy D D*D 1.5 2 0.5 0.25 3.5 6 2.5 6.25 6 3.5 2.5 6.25 5 3.5 1.5 2.25 1.5 5 3.5 12.25 3.5 1 2.5 6.25 33.5 El valor y la significación del coeficiente de correlación de Spearman, son: rs = 1 - [6(33.5)/6(36-1)] = 0.0428 rs(6,0.05) = 0.886 Puesto que rs < rs(n,α ) Ho Ya que hay empates en los rangos procederemos a realizar la corrección: Los valores de A y B se obtienen a través de: Así pues, el valor de la correlación de Spearman es: A través de Internet también es posible realizar el cálculo del coeficiente de correlación de Spearman entre dos variables: http://fonsg3.let.uva.nl:8001/Service/Statistics/RankCorrelation_coefficient.html. Institute of Phonetic Sciences. Faculty of the Humanities. University of Amsterdam. La aplicación a la que se accede calcula el coeficiente de correlación de Spearman para datos cuantitativos (aunque sin corrección por empates), realizando la transformación previa de dichos datos en rangos. Incluye una explicación de todo el procedimiento seguido en el cálculo del coeficiente. Ejemplo: Hay que introducir las parejas de observaciones, de forma que cada fila representa los valores recogidos para un sujeto o caso (cada observación de un sujeto tiene que estar separada por un espacio en blanco) y cada columna representa los valores de una variable. Al hacer clic sobre el botón «Submit» se calcula el valor del coeficiente de correlación de Spearman (R), su significación (p) y la aproximación de dicho valor en la distribución Normal (Z). Con los mismos datos utilizados en el cálculo manual del coeficiente de correlación de Spearman (sin corrección por empates) podemos comprobar que se obtiene el mismo valor en la aplicación (rs=0.0428), cuyo valor p indica que no existe una correlación estadísticamente significativa entre las dos variables X e Y, ya que si aceptáramos la hipótesis alternativa (relación estadísticamente significativa) cometeríamos un error muy superior al que podamos tolerar (generalmente, 0.05). Por otro lado, no hay que olvidar que esta correlación es inferior, y por tanto menos significativa, cuando realizamos su corrección debido a la presencia de valores empatados en los mismos rangos (rs=0, que indica independencia absoluta entre las variables). 5.1- Una visión general del coeficiente de correlación de Spearman El coeficiente de correlación de Spearman representa, en definitiva, un coeficiente de correlación de Pearson aplicado a números de orden. Tomando los datos del ejemplo anterior podemos llevar a cabo el análisis. Los números de orden, por separado, para cada puntuación en las dos condiciones experimentales vienen dados por: Ox Oy 1.5 2 3.5 6 6 3.5 5 3.5 1.5 5 3.5 1 21 21 Se debe cumplir que: ΣOx = ΣOy = n(n+1)/2 = 6x7/2 = 21 Para utilizar el coeficiente de correlación de Pearson sobre estos datos necesitamos obtener la suma de los cuadrados y la suma de productos cruzados de los números de orden. OxOx OyOy OxOy 2.25 4 3 12.25 36 21 36 12.25 21 25 12.25 17.5 2.25 25 7.5 12.25 1 7.5 90.0 90.5 73.5 Aplicando la fórmula del coeficiente de correlación de Pearson: Esta utilización es válida en cualquier caso, tanto si hay empates entre los rangos como si no los hay. 5.2.- Intervalo de confianza para ρs A partir de un tamaño mínimo n≥ 30, el intervalo de confianza de ρs puede obtenerse por medio de: 5.3.- Prueba de conformidad de ρs Podemos probar la hipótesis Ho: ρs=0 por medio de: Daniel (1990, 2ªed.,pág 362) señala que para estudiar la significación de rs a través de la distribución normal Z, se debería tener un tamaño de muestra superior a 100. BIBLIOGRAFIA BRUNING, J.L. y KINTZ, B.L. (1987). Computational handbook of statistics. 3rd edition. London: Scott, Foresman and Company. DANIEL, W. (1990, 2ª ed.). Applied nonparametric statistics. Boston: PWS-KENT. OLKIN, I. y PRATT, J. (1958). Unbiased estimation of certain correlation coefficients. Annals of Mathematical Statistics 29, 201-211. PALMER, A. (1995). El análisis del diseño completamente aleatorizado. I: La comparación de dos medias. Palma de Mallorca: Servei de Publicacions i Intercanvi Científic. Col.lecció Materials Didàctics, 8. Sèrie de Metodologia. Universitat de les Illes Balears. SAN MARTIN, R., ESPINOSA, L. y FERNANDEZ, L. (1987). Psicoestadística. Estimación y contraste. Madrid: Ed. Pirámide. WILCOX, R. (1987). )ew statistical procedures for the social sciences. Hillsdale, NJ: LEA. http://www.psiquiatria.com/psicologia/revista/51/2815

Descargar PDF - Psiquiatria.com

Documentos relacionados

Productos

Apoyo

Descargar PDF - Psiquiatria.com

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib