Artículo de los payasos

Anuncio
Artículo de los payasos
(Página 230 a 232 del libro de Técnica estadística y diseño de investigación)
Utilizando los datos de la tabla 3 podemos completar la siguiente información (valores p de
probabilidad de las pruebas t de Student, tamaño del efecto de diferencia estandarizada de medias de d de
Cohen e intervalo de confianza de cada tamaño del efecto). En rojo se anotan los datos que se han obtenido
con los datos ofrecidos en la tabla 3.
 Para estimar el tamaño del efecto y su intervalo de confianza:
http://www.campbellcollaboration.org/resources/effect_size_input.php
DIFERENCIA ESTANDARIZADA DE MEDIAS (d de Cohen):
1

Para calcular el valor p de probabilidad
http://onlinestatbook.com/2/calculators/t_dist.html
 TABLA 3B: INCLUYE LOS DESCRIPTIVOS DE LAS VARIABLES (Media, Desviación
Típica y n por condición), EL RESULTADO DE LA PRUEBA ESTADÍSTICA, SU VALOR P DE
PROBABILIDAD, Y EL TAMAÑO DEL EFECTO CON SU INTERVALO DE CONFIANZA. Teniendo
en cuenta el N total los grados de libertad del error de la prueba estadística t de Student
es N-2= 59.
Tabla 3 B. Diferencias de niveles de malestar psicológico (FAS) y conductas desadaptativas (PHBQ) en el
grupo experimental y control, medidos antes y después.
FAS-1pre
FAS-2post
PHB-1pre
PHB-2post
Media
0.33
0.38
22.88
19
DT
0.30
0.32
9.97
11.73
n
28
28
28
28
Media
0.34
0.38
25.53
25.30
DT
0.33
0.29
15.36
13.27
n
33
33
33
33
t
-0.21
-0.01
-0.76
-1.86
Valor p
0.834
0.992
0.450
0.068
d
-0.0316
0
-0.2012
-0,5005
95%CI d
-0,5352, 0,472
-0.5036, 0.5036
-0.7061, 0.3036
-1.0118, 0.0109
Interpretación. RESULTADOS NULOS: MANTENER LA HIPÓTESIS NULA
Cuando los resultados de la investigación conducen a mantener la hipótesis nula sólo podemos concluir que con la
evidencia encontrada en el estudio o pruebas no se puede rechazar la hipótesis nula (p>alfa). Algunos autores optan por
estimar la potencia a posteriori de la prueba estadística pues este dato se puede calcular fácilmente en el SPSS pero no es
una solución correcta. Evidentemente si la prueba estadística no ha rechazado la hipótesis nula ha sido porque no tenía
potencia estadística. De este modo si calculamos la potencia estadística a posteriori ya sabemos que va a ser baja cuando
se mantiene la hipótesis nula. Lo interesante de la potencia estadística es la denominada potencia estadística a priori que
es necesaria para que el análisis tenga una alta probabilidad de detectar un efecto si realmente existe. Se considera que al
menos la potencia estadística tendría que ser de 0.80, luego el error de Tipo II debe ser como mucho de 0.20 (Error de tipo
II: 1-potencia).
La potencia estadística a priori se utiliza en la fase de planificación del diseño estadístico suponiendo un determinado
tamaño del efecto que se obtendrá en el experimento y la elección de un nivel de alfa. Por ejemplo, la planificación podría
ser: potencia estadística de 0.80, alfa 0.05 y tamaño del efecto esperable en términos de d de Cohen=0.5 (tamaño del
efecto mediano), entonces el tamaño de la muestra que se requiere es de 64 participantes por grupo o condición cuando se
aplica una prueba t de Student. (Ver la tabla de la página 165 del libro “Técnica estadística y diseño de investigación”).
Por lo tanto el tamaño total de la muestra sería de 128 (N total) para que la prueba tenga una potencia estadística de 0.80,
para trabajar con un alfa de 0.05 y si se obtiene un tamaño del efecto en el estudio de 0.5.
2
Una mejor solución ante un resultado nulo (mantener la hipótesis nula) es calcular el tamaño del efecto y su intervalo de
confianza y de esta manera interpretar conjuntamente los valores de la decisión estadística (con el valor p de
probabilidad) y los valores de la magnitud del efecto (tamaño del efecto y su intervalo de confianza).
En el estudio de los payasos se ha utilizado una metodología cuasi-experimental. Se comprueba que en el pre-test los
grupos no son estadísticamente diferentes en las variables dependientes medidas. Sin embargo, en la fase de post-test se
plantean las hipótesis de investigación donde es esperable que los payasos provoquen un efecto en las puntuaciones de los
dos instrumentos.
Es en el post-test donde sí se plantean hipótesis de efectos del tratamiento (payasos/control). En el FAS el valor del
tamaño del efecto es cero pues las medias son iguales. En el caso del PHB el tamaño del efecto es -0.5005, es decir, el
grupo experimental tiene una puntuación media que está media desviación típica por debajo del grupo control en la
variable de conductas desadaptativas. Es decir, si ‘acompañamos’ el valor p de probabilidad de la prueba estadística o
contraste (t de Student) con el valor del tamaño del efecto (recomendación del Manual de la American Psychological
Association, 2010) entonces podemos encontrar una mejor explicación o al menos plantear una hipótesis de trabajo más
elaborada para el futuro. Un tamaño del efecto de 0.5 se considera ‘medio’ en términos de Cohen y representa el valor del
efecto en la mayoría de las intervenciones psicológicas. Por lo tanto, a pesar de que no se obtienen diferencias
estadísticamente significativas entre los dos grupos, sí que existe un tamaño del efecto medio. Esta cuestión es importante
porque supongamos que se mantiene la hipótesis nula pero al estimar el efecto se obtiene que d=0.02, efecto trivial. En
este último caso se podría concluir que no hay diferencias estadísticamente significativas y que el tamaño del efecto es
muy escaso o trivial. Sin embargo, en los resultados del estudio de los payasos no se rechaza la hipótesis nula pero
conviene señalar que el efecto es medio, es decir, las puntuaciones del grupo control están por encima de las puntuaciones
medias del grupo experimental en media desviación típica. Conviene recordar que el tamaño del efecto obtenido era
negativo (d=-0.5005), lo que significa que la media del grupo experimental (que se suele colocar en primer lugar en la
diferencia de medias) es menor que la media del grupo de control (que se suele colocar detrás en la diferencia de medias).
Por lo tanto, si se mantiene la hipótesis nula pero el tamaño del efecto es medio entonces sí se podría suponer que
probablemente el resultado nulo está relacionado con la falta de potencia estadística pues tamaño del efecto sí hay. Sin
embargo, si se mantiene la hipótesis nula con un tamaño del efecto trivial entonces sólo podemos concluir que con los
resultados aportados no hay evidencia para rechazar la hipótesis nula, siendo el tamaño del efecto trivial. De este modo, al
incorporar el valor del tamaño del efecto la interpretación dicotómica del modelo tradicional de la hipótesis nula adquiere
una mayor dimensión que mantener o rechazar H0 y ofrece una interpretación más amplia de la realidad. Por todo ello, el
movimiento de la reforma estadística y el Manual de la American Psychological Association (2010) recomiendan
acompañar siempre los valores p de probabilidad del valor del tamaño del efecto y su intervalo de confianza.
El intervalo de confianza del tamaño del efecto permite valorar la precisión de la estimación del valor puntual del tamaño
del efecto. Por ello, intervalos de confianza amplios son menos precisos ya que incluyen un amplio rango de valores
puntuales del tamaño del efecto. Cuanto menor el intervalo de confianza mayor es la precisión de la estimación puntual
realizada. Si el intervalo de confianza del tamaño del efecto incluye el valor de 0 entonces se mantiene la hipótesis nula
ya que el valor de cero es una posibilidad de todos los valores que forman el intervalo de confianza y el cero es el valor
compatible con la hipótesis nula. De este modo, conociendo el intervalo de confianza del tamaño del efecto se puede
realizar directamente la comprobación estadística de la hipótesis nula. Pero conviene tener en cuenta que una utilidad
destacada del conocimiento del intervalo de confianza es su amplitud para poder valorar el grado de precisión de la
estimación puntual. Por ejemplo, si el tamaño del efecto d de Cohen es igual a 0.8, que es un tamaño del efecto grande,
pero su intervalo de confianza oscila desde 0.04 a 1.56 entonces resulta que la estimación puntual de 0.8 tiene escasa
precisión pues el tamaño del efecto podría ser desde muy pequeño (d=0.04) hasta muy grande (d=1.56).
En definitiva, lo ideal es encontrar más trabajos sobre la temática de los payasos y comparar los tamaños del efecto
obtenidos en cada estudio para poder hacer interpretaciones más ajustadas a la realidad. Sería ideal tener un estudio de
meta-análisis donde se resumieran los efectos de los payasos de hospital en un conjunto de estudios que aborden la misma
temática resumiendo la evidencia con un tamaño del efecto medio y su intervalo de confianza que es el estadístico que
aporta el estudio de meta-análisis.
3
Por lo tanto, lo que queda claro en el artículo es que no hay diferencias estadísticamente entre los grupos en el post-test de
FAS y PHB pero en el cuestionario de FAS se observa un tamaño del efecto medio cuyo intervalo oscila desde -1.0118 a
0.0109. El intervalo tiene el valor de cero lo que indica que se mantiene la hipótesis nula pero sus valores van desde
tamaños del efecto grande (>0.80) hasta 0.01, siendo la precisión de la estimación puntual escasa. De nuevo nos señala
que su valor p de probabilidad está cercano al 0.05 (pero es un poco mayor, exactamente p = 0.0679) porque el intervalo
casi no contiene el valor de cero.
La interpretación de los hallazgos será más completa si se interpretan conjuntamente la decisión estadística y el tamaño
del efecto tal y como recomienda el Manual del APA (2010). Por lo tanto, la redacción del apartado de resultados podría
ser más adecuada si se realizase teniendo en cuenta ambos elementos. Como ejemplo podría ser así en el caso de las
puntuaciones de post-test (ver tabla 3B):
Tabla 3 B. Diferencias de niveles de malestar psicológico (FAS) y conductas desadaptativas (PHBQ) en el
grupo experimental y control, medidos antes y después.
FAS-1pre
FAS-2post
PHB-1pre
PHB-2post
Media
0.33
0.38
22.88
19
DT
0.30
0.32
9.97
11.73
n
28
28
28
28
Media
0.34
0.38
25.53
25.30
DT
0.33
0.29
15.36
13.27
n
33
33
33
33
t
-0.21
-0.01
-0.76
-1.86
Valor p
0.834
0.992
0.450
0.068
d
-0.0316
0
-0.2012
-0,5005
95%CI d
-0,5352, 0,472
-0.5036, 0.5036
-0.7061, 0.3036
-1.0118, 0.0109
Nueva redacción de los resultados primeros
En la tabla 3B se presentan las medias, desviaciones estándar, pruebas t-Student y el tamaño del efecto d de Cohen junto
con su intervalo de confianza de los niveles de malestar psicológico y de las conductas desadaptativas de los niños/as de
nuestra muestra.
Los payasos no tuvieron un efecto estadísticamente significativo sobre el malestar de los niños y niñas. Tampoco se
observan efectos de interacción entre la intervención de los payasos y las medidas antes y después del malestar
psicológico (tabla 4). Si observamos las medias, en ambos grupos, experimental y control, hay un aumento del malestar
psicológico que experimental los niños/as, registrado mediante la escala FAS (Tabla 3B).(Esta frase no tiene sentido pues
no se analizan los datos ni se aporta información de ningún tipo ni es objetivo de las hipótesis).
No se halló un efecto estadísticamente significativo de los payasos en las conductas desadaptativas, ni efectos de
interacción entre las medidas antes y después de las conductas desadaptativas, ausencia y presencia de payasos (tabla 5).
Sin embargo, si observamos las puntuaciones medias, el grupo que recibe la intervención (grupo experimental) presenta
una puntuación menor en la variable de conductas desadaptativas una semana después de la intervención quirúrgica
(Media: 19, DT: 11.73) en comparación al grupo control (Media: 25.30, DT: 13.27) una semana después de la
intervención de los payasos. Aunque se puede observar una fuerte tendencia (p=0.06), no hay diferencias estadísticamente
significativas (tabla 3B). Las diferencias entre los dos grupos no son estadísticamente significativas pero se observa que el
tamaño del efecto es medio (d=-0.50, 95%IC -1.01-0.01). Por lo tanto, conviene considerar la posibilidad de la falta de
potencia estadística para detectar un tamaño del efecto medio ya que con 61 sujetos no es suficiente para detectar un valor
del tamaño del efecto de o.5 con un alfa de 0.05 y una potencia estadística de 0.8.
4
Diferencia estandarizada de medias (d de Cohen)
El estimador de tamaño del efecto más utilizado en la investigación psicológica es la denominada d de Cohen
cuando el diseño incluye una variable continua (variable dependiente Y) y una variable nominal de tipo
dicotómico con dos grupos (variable independiente con dos condiciones, A=2).
La diferencia estandarizada de medias d de Cohen es la diferencia entre las medias de las puntuaciones del
grupo A y las del grupo B dividido por la desviación típica común.
El signo del valor d es arbitrario. Generalmente la diferencia de medias se obtiene como puntuaciones del grupo
experimental menos las puntuaciones del grupo de control. Así, si el cambio en la variable dependiente supone
aumentar las puntuaciones entonces el signo de la d de Cohen se espera que sea positivo. Si, por el contrario, el
efecto del tratamiento supone disminuir la puntuación en la variable dependiente entonces el signo del valor de
d de Cohen se espera negativo.
En términos de estimación muestral (Cohen, 1988; Hedges, 1981) (se conoce también como la g de Hedges) el
valor d de Cohen se obtiene como:
d
M1  M 2
S´COMÚN
[1]
Donde M1 es la media del grupo 1, M2 es la media del grupo 2 y SCOMÚN es la desviación típica común de las
puntuaciones de los dos grupos. La desviación típica común se estima a través de:
SCOMÚN 
(n1  1) S12  (n2  1) S 22
n1  n2  2
[2]
Donde n1 y n2 son los tamaños muestrales de los grupos experimental y control respectivamente y S²1 y S² son
las varianzas de los dos grupos mencionados.
Transformaciones que permiten una aproximación al tamaño del efecto
Se puede obtener el valor de tamaño del efecto si se hace una transformación de la t de Student a d de Cohen
con la siguiente fórmula para diseños entre-sujetos o muestras independientes:
d

t n1  n2 
grados libertad n1  n2 


[3]
O, lo que es lo mismo,
d  tentresujetos
n1  n2
n1n2
[4]
5
La interpretación del tamaño del efecto se realiza en términos de puntuaciones de diferencia estandarizada tipo
puntuaciones z. Es decir, la diferencia estandarizada de medias entre dos grupos se interpreta en unidades de
desviación típica.
Las indicaciones de tamaño del efecto ofrecidas por Cohen (1988) dentro del área de las Ciencias Sociales
definen al tamaño del efecto como pequeño cuando d = 0.2 desviaciones estándar, al tamaño del efecto como
mediano cuando d = 0.5 desviaciones estándar y al tamaño del efecto como grande cuando d = 0.8 desviaciones
estándar. Por ejemplo, si d = 1 el tamaño del efecto es grande (mayor a 0,8) señalando que la media del grupo
experimental se encuentra una desviación típica por encima del grupo de control o grupo de comparación.
Normalmente para calcular la puntuación de diferencia se sitúa primero el grupo experimental donde
generalmente se esperan efectos positivos y por lo tanto mayores que los del grupo de control (media del grupo
experimental-Media del grupo de control). Si el valor de d de Cohen fuese negativo entonces el grupo
experimental presenta una puntuación menor que la del grupo de control.
Valorar el contexto donde se estiman los efectos
Los valores de los tamaños del efecto propuestos por Cohen (1988) no son valores fijos para todas las áreas de
investigación porque un tamaño del efecto de 0.20 podría ser grande en algunos contextos teniendo en cuenta
sus implicaciones prácticas mientras que en otros ámbitos podría ser pequeño o quizás mediano. Por ejemplo la
vacuna de Jonas Salk para prevenir la polio en la población pediátrica general o el efecto de la aspirina para
prevenir el infarto de miocardio tienen valores de tamaño del efecto pequeños pero representan efectos grandes
desde su análisis sustantivo o de importancia clínica. Teniendo en cuenta el bajo coste de la aspirina y la
posibilidad de salvar vidas entonces su efecto es grande desde un punto de vista sustantivo o de prevención. En
cambio, un tamaño del efecto de 0.80 podría ser pequeño en otros contextos como por ejemplo sería el caso del
tratamiento farmacológico para la depresión y el incremento del riesgo de suicidio.
Hay que tener en cuenta que la estimación del tamaño del efecto no nos informa de la significación práctica,
clínica o social del hallazgo. Sólo el juicio del profesional podrá informar de la utilidad de los hallazgos. El
tamaño del efecto es un índice estadístico y no informa de la utilidad clínica o social de los efectos del
tratamiento y por lo tanto tampoco aporta información directa de la importancia de los efectos. La significación
clínica de un tratamiento está relacionada con estándares externos proporcionados por los propios clínicos o
profesionales y no por el valor del índice del tamaño del efecto estimado. Un valor del tamaño del efecto
pequeño puede ser clínicamente significativo y un valor del tamaño del efecto grande puede ser insignificante o
trivial desde el punto de vista práctico del hallazgo.
Tamaño del efecto y solapamiento de las distribuciones de los grupos
Cohen (1988) proporciona una imagen mental de los tamaños del efecto gracias a la conversión de sus valores
en términos de solapamiento de las curvas normales de los dos grupos (grupo experimental y grupo de control)
donde el grado de solapamiento está determinado por el valor de tamaño del efecto d. Cuanto mayor el tamaño
del efecto menor es el solapamiento entre las curvas de ambas poblaciones. Es decir, asumiendo que las dos
distribuciones de puntuaciones tiene una forma similar entonces las medias de los dos grupos serán diferentes si
el solapamiento de sus distribuciones es pequeño. De este modo, el tamaño del efecto se obtiene midiendo el
grado de solapamiento de las puntuaciones de los grupos experimental y control.
El valor de tamaño del efecto de 0 indica un completo solapamiento (100%) entre las distribuciones de los dos
grupos, siendo por lo tanto sus medias idénticas y las puntuaciones de los grupos indistinguibles (ver Tabla 1).
En cambio, si un investigador obtiene un tamaño del efecto de d = 0,1 entonces el porcentaje de solapamiento
entre los dos grupos sería de 92.3% lo que significa que sólo el 7,7% de los sujetos del grupo 1 obtendrían
puntuaciones que no son obtenidas por los del grupo 2. En otras palabras, aproximadamente el 92% de los
sujetos del grupo 1 obtienen puntuaciones que están dentro de la distribución de las puntuaciones obtenidas por
el grupo 2 dado que el porcentaje de solapamiento es del 45%. Si el tamaño del efecto fuese de d = 3,0 entonces
6
existiría sólo un 7% de solapamiento entre las dos distribuciones de manera que podríamos concluir que el
efecto del tratamiento pudo discriminar de forma fiable a los grupos. El 92% de los sujetos del grupo 1 obtuvo
puntuaciones superiores a las del grupo de control.
Tabla 1. Interpretación de los valores de tamaño del efecto de d de Cohen
d de
r
Cohen
Correlación
1.4
1.3
1.2
1.1
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.573
0.545
0.514
0.482
0.447
0.410
0.371
0.330
0.287
0.243
0.196
0.148
0.100
0.050
0.000
R2
Coeficiente de determinación
(% varianza explicada)
0.329
0.297
0.265
0.232
0.200
0.168
0.138
0.109
0.083
0.059
0.038
0.022
0.010
0.002
0.000
7
Percentil
%*
91.9
90.0
88.0
86.0
84.0
82.0
79.0
76.0
73.0
69.0
66.0
62.0
58
54
50
% de
Solapamiento
(Overlap Percent OL %)
31.9
34.7
37.8
41.1
44.6
48.4
52.6
57.0
61.8
66.6
72.6
78.7
85.3
92.3
100.0
Descargar