EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL

Anuncio
CAPÍTULO 24
EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL
APRENDIZAJE DE LOS TESTS DE HIPÓTESIS1
ANGUSTIAS VALLECILLOS
[email protected]
Universidad de Granada
A pesar de las numerosas referencias a problemas derivados del uso incorrecto de
los contrastes de hipótesis estadísticas o de interpretaciones incorrectas de sus
resultados por parte de investigadores experimentales en diversas áreas, el mundo
de la educación, como posible origen de los problemas denunciados, ha permanecido hasta el momento de espaldas a esta realidad. En este artículo incluimos una
recopilación de trabajos de investigación sobre el aprendizaje de estos temas en
diversos niveles de enseñanza. También presentamos un resumen de los resultados
obtenidos en una amplia investigación llevada a cabo por la autora con el fin de
realizar una evaluación comprensiva del aprendizaje de los contrastes de hipótesis por estudiantes universitarios. Señalamos algunas dificultades y errores de
aprendizaje que pueden estar en el origen de los problemas denunciados y que la
enseñanza deberá tener en cuenta con el fin de mejorar tanto la enseñanza de la
estadística inferencial como sus aplicaciones. También describimos las concepciones de los estudiantes sobre los conceptos clave en los contrastes de hipótesis
estadísticas. Se incluye un resumen de los aspectos teóricos y epistemológicos
para ayudar al lector a ubicar más fácilmente los resultados descritos.
INTRODUCCIÓN
Existen numerosas referencias de investigación acerca de los usos incorrectos de los
tests de significación en la investigación experimental o de interpretaciones erróneas
de sus resultados, especialmente en el campo de la Psicología. A modo de resumen
citamos el libro de Morrison y Henkel (1970) y la polémica mantenida por Menon,
Bourke, Clements y Rowley en el número 5 de la revista Mathematics Education
Research Journal. Hasta tal punto se ha abusado de ellos que incluso, su uso o no, se
1. Versión española ampliada de la ponencia invitada presentada en la 52nd Session of the International
Statistical Institute, celebrada del 10 al 18 de Agosto de 1999 en Helsinki, Finlandia.
En Gómez, P., y Rico, L. (Eds.). Iniciación a la investigación en didáctica de la matemática.
Homenaje al profesor Mauricio Castro. Granada: Editorial Universidad de Granada.
340
ANGUSTIAS VALLECILLOS
ha empleado como criterio para seleccionar los trabajos a publicar en algunas revistas
especializadas (Melton, citado por Bakan, 1970, p. 236). En (Thompson, 1996)
encontramos nuevas propuestas de reforma de los usos de los tests de significación y
la política editorial de las revistas editadas por AERA al respecto. También podemos
encontrar una gran cantidad de tales referencias en la siguiente dirección de internet:
http://acs.tamu.edu/~bbt6147/.
Muy recientemente, Poitevineau (1998) describe un estudio sobre la metodología
del análisis de datos experimentales en este campo, volviendo sobre el tema del uso y
abuso de los tests de hipótesis en el área de la psicología experimental.
En otro orden de cosas, la naturaleza del propio razonamiento inductivo ha sido
importante objeto de estudio por filósofos y filósofos de la ciencia durante siglos.
También su relación con el tipo de razonamiento usado en la inferencia estadística ha
sido analizada y continua siéndolo en la actualidad (Rivadulla, 1991; Moses, 1992).
Las implicaciones para la enseñanza de las evidentes dificultades de tipo epistemológico del tema apenas han sido tenidas en cuenta (Vallecillos, 1995b).
Sin embargo, sólo muy recientemente la investigación educativa está prestando
alguna atención a la enseñanza de la estadística inferencial como posible origen de
muchos de los problemas denunciados, que están relacionados con sus aplicaciones
en casos concretos en diversos ámbitos. En menor medida aún, se están llevando a
cabo investigaciones experimentales que puedan poner de manifiesto los previsibles
problemas de enseñanza, dificultades de aprendizaje, errores, posibles planificaciones
incorrectas de la enseñanza de los temas inferenciales, etc. Algunos problemas detectados en la enseñanza de la estadística inferencial en el nivel universitario tienen su
origen en los niveles previos de escolaridad en donde se introducen los conceptos
estadísticos básicos (MEC, 1990 (LOGSE); Cockcroft, 1982; NCTM, 1989). De esta
manera se hace patente la necesidad de atender también la mejora de la enseñanza
desde los comienzos, esto es, desde el nivel introductorio elemental en la enseñanza
primaria y secundaria. En Vallecillos (1998a) se hacen algunas propuestas generales
para mejorar la enseñanza de la estadística inferencial en los distintos niveles de
enseñanza.
En este trabajo pretendemos sintetizar algunos de los resultados de investigación
publicados que se refieren a dificultades de aprendizaje de los alumnos relacionados
con el tema en los distintos niveles de enseñanza, principalmente en el nivel universitario (Vallecillos, 1999). Su objetivo fundamental es mostrar a los profesores implicados en la enseñanza de estos temas las evidencias empíricas obtenidas hasta el
momento acerca de problemas de aprendizaje de nuestros estudiantes, con el fin de
concienciarles de la necesidad de prestarles una mayor atención así como de integrar
en la docencia los resultados de la investigación específica (Vallecillos, 1997a;
1998a). Con el fin de facilitar la lectura del texto y ubicar mejor los resultados de las
investigaciones citadas en el mismo, se han incluido dos apartados introductorios: el
primero, contiene un breve resumen de los apartados teóricos del contraste de hipótesis estadísticas y las referencias de consulta precisas; el segundo, ilustra brevemente
acerca de un aspecto de la inferencia estadística que tradicionalmente ha sido descuidado: su estrecha relación con la inducción y los problemas que históricamente ha
planteado la validación del conocimiento adquirido inductivamente.
EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS
341
LOS TESTS DE HIPÓTESIS Y SU ENSEÑANZA
En síntesis, en la teoría clásica sobre el contraste de hipótesis (Zaks, 1981, DeGroot,
1988), una hipótesis paramétrica es una afirmación acerca de un parámetro ϕ desconocido de una variable aleatoria en una determinada población. Usualmente solemos
referirnos a ella como hipótesis nula H 0 :ϕ ∈ Θ 0 . Asociada a esta hipótesis también
se considera la hipótesis alternativa H 1 :ϕ ∈ Θ – Θ 0 , siendo Θ el conjunto de posibles valores que puede tomar el parámetro o espacio paramétrico. Consideraremos en
lo que sigue solamente el caso en que la hipótesis nula es simple H 0 :ϕ = ϕ 0 y nos
referiremos sólo a los aspectos básicos de los tests de hipótesis cuya comprensión es
necesaria para su aplicación con fines prácticos en el entorno universitario en el que
desarrollamos nuestra investigación.
Un contraste de hipótesis es un procedimiento de decisión entre dos hipótesis
estadísticas H0 y H1 a partir de la observación de una muestra x = (x1, x2,...., xn) de
valores de la variable aleatoria. Para llevarlo a cabo se utiliza un estadístico Ψ(x),
que es una variable aleatoria función de los valores muestrales, cuya distribución es
conocida, dependiente del parámetro.
El conjunto de posibles valores del estadístico, supuesto que se verifica la hipótesis nula H0, se divide en dos regiones complementarias, denominadas región de aceptación A y región de rechazo o crítica C. Una vez observado el valor particular del
estadístico en la muestra, la hipótesis nula H0 se acepta si este pertenece a la región A
y se rechaza si pertenece a C.
La aplicación de un procedimiento de contraste de hipótesis puede dar lugar a dos
clases de errores diferentes: rechazar la hipótesis nula cuando es verdadera, llamado
error de tipo I, y aceptarla cuando es falsa, llamado error de tipo II. Aunque no es
posible saber con seguridad si hemos cometido uno de estos errores en un caso dado,
se puede determinar la probabilidad de cometer un error de tipo I en función del valor
ϕ del parámetro mediante la función de potencia del contraste
℘(ϕ) = P(rechazar H0 ϕ)
En el caso particular ϕ = ϕ 0 , tendremos la probabilidad de rechazar H0 con el criterio elegido, supuesto que H0 sea cierta, esto es, la probabilidad de error de tipo I, que
se conoce como nivel de significación del contraste.
α = P(rechazar H0  ϕ 0 ) = P(rechazar H0  H0 cierta)
La probabilidad del suceso contrario, aceptar la hipótesis H0, también puede expresarse en función del parámetro ϕ :
β(ϕ)
= P(aceptar H0  ϕ )
342
ANGUSTIAS VALLECILLOS
En este caso, y siempre que ϕ sea distinto del valor supuesto ϕ 0 , se comete un error
de tipo II. Esto es, en el caso de una hipótesis nula simple, mientras que la probabilidad
de error de tipo I es constante, α , la probabilidad de error de tipo II es una función del
parámetro desconocido.
Por último, teniendo en cuenta que los dos sucesos aceptar y rechazar la hipótesis
son complementarios, sus probabilidades respectivas están relacionadas por la expresión siguiente:
α = 1 – β ( ϕ0 )
Resumiendo, una hipótesis estadística no es mas que una afirmación con respecto a alguna característica desconocida de una población de interés. En ese caso, como hemos
visto, la esencia del contraste de hipótesis es decidir si la misma se encuentra apoyada
o no por la evidencia experimental obtenida mediante una muestra aleatoria. La decisión de admitir que los datos muestrales “soportan” la hipótesis estadística o no, se
toma basándose en una probabilidad y cuando esta es mínima la hipótesis es rechazada. Para DeGroot (1988) la teoría de los tests de hipótesis se desarrolla según la siguiente metodología: ante un problema de test de hipótesis el experimentador tiene
solamente dos decisiones: aceptar la hipótesis nula H0 o rechazarla, pero comprendiendo siempre que esta decisión, como toda decisión tomada en un proceso inferencial, está sujeta a error. La decisión de rechazar H0 no significa que H0 sea
necesariamente falsa, sino que la evidencia que hemos obtenido de su verosimilitud a
partir de una muestra aleatoria es tan escasa que, en la práctica, podemos operar como
si H0 fuera falsa. La metodología de los tests de hipótesis solamente permite, pues, tomar una decisión de entre dos posibles: aceptar o rechazar la hipótesis nula. A pesar
de esto “también es cierto, sin embargo, que la metodología de contraste de hipótesis
se aplica en muchas situaciones en las que el experimentador esta interesado principalmente en conocer la verosimilitud de que la hipótesis H0 sea cierta y en las que no
necesariamente tiene que elegir una de dos decisiones” (DeGroot, 1988, p. 471). Esto
ha llevado al desarrollo de una cierta metodología del contraste de hipótesis, aplicada
en muchos campos de la estadística, basada en la determinación de un nivel de significación mínimo α 0 tal que la hipótesis nula H0 sea rechazada para cualquier α superior y aceptada para cualquiera inferior. Esta metodología ha inducido en diversas
ramas de la ciencia, una concepción basada en la creencia de que α 0 mide la probabilidad de error en la decisión tomada. Aunque el experimentador este interesado en
determinar la probabilidad de que la hipótesis H0 sea cierta
debe subrayarse que esta probabilidad no se puede calcular mediante la metodología de contraste de hipótesis que se ha tratado en esta sección. El área de la
cola o el valor p que se calcula a partir de la muestra observada no proporciona,
por si misma una idea de la probabilidad de que H0 sea cierta, aunque en ocasiones el valor p se malinterpreta de esta manera. De hecho, los experimentadores afirman, a veces incorrectamente, que el rechazo de H0 con un nivel de
significación específico α indica que la probabilidad de que H0 sea cierta es
menor que α 0 . Esta interpretación no es correcta. Para poder determinar la pro-
EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS
343
babilidad de que H0 sea cierta es experimentador debe adoptar un enfoque bayesiano, (DeGroot, 1988, p. 474)
Es claro, pues, que en esta teoría no caben consideraciones acerca de la probabilidad
de que ninguna de la hipótesis puestas en juego sea cierta o no. A pesar de la claridad
con que esto es expuesto en la enseñanza del tema, es llamativo que un altísimo porcentaje de los estudiantes participantes en nuestra investigación experimental (Vallecillos, 1994) cree que, mediante un contraste de hipótesis estadísticas correctamente
realizado, es posible demostrar la verdad de la hipótesis como si se tratara de una deducción lógica o una demostración matemática (Vallecillos, 1995a, 2000).
INFERENCIA CIENTÍFICA Y TEST DE HIPÓTESIS
La inferencia estadística ha jugado un papel relevante, aunque discutido (Morrison y
Henkel, 1970), como herramienta capaz de proporcionar conocimiento científico. En
el proceso de inferencia, como proceso de paso de unas afirmaciones dadas a nuevos
enunciados, intervienen fundamentalmente dos tipos de razonamiento: deductivo e
inductivo. El razonamiento lógico por excelencia es el deductivo que, a partir de premisas verdaderas obtiene una conclusión necesariamente verdadera. Por el contrario,
en el razonamiento inductivo, la conclusión es una afirmación más general que las
premisas, siendo por tanto posible su falsedad, aunque estas sean ciertas.
En síntesis, el problema lógico de la inducción o problema de Hume, tan largamente debatido por los filósofos, surge de la aparente incompatibilidad entre el principio fundamental del empirismo, según el cual la aceptación y el rechazo de las
teorías científicas debe depender de resultados observacionales y experimentales, y el
principio de invalidez de la inducción, según el cual no pueden hacerse inferencias
válidas de observaciones singulares a principios generales. La aparente contradicción
se resuelve admitiendo la posibilidad de efectuar inferencias falseadoras, esto es, de
la constatación de las observaciones a la falsedad de la teoría: de la búsqueda de un
contraejemplo a la falsedad de la teoría (Popper, 1967). Para hacer compatibles el
principio de invalidez de la inducción con el hecho de la existencia de conocimiento
científico, el problema de la inducción debe ser replanteado en términos de “preferir
racionalmente una teoría frente a otras con las que se encuentra en competencia”
(Rivadulla, 1991, p. 26).
Una de las soluciones posibles aportadas históricamente al problema de Hume ha
sido tratar de debilitar la conclusión en el razonamiento inductivo recurriendo a la
probabilidad. Si no es posible conseguir garantías de certeza para la conclusión, al
menos sería deseable tener algún tipo de probabilidad para la misma (Black, 1979).
Sin embargo las aportaciones en este sentido que ha hecho la inferencia estadística
hasta la fecha tampoco han supuesto la solución al problema histórico de la inducción, como en algún momento se ha supuesto.
Respecto al contraste de hipótesis, tanto en el sentido de Fisher como en el de
Neyman-Pearson, no proporcionan un tipo de inferencia inductiva de la muestra a la
población, sino una inferencia deductiva de la población de posibles muestras obteni-
344
ANGUSTIAS VALLECILLOS
das de la población a la muestra particular obtenida en cada caso (Rivadulla, 1991).
Para Fisher un test es sólo un criterio de clasificación de los resultados experimentales en dos clases; los que muestran una evidencia en contra de la hipótesis contrastada
(resultados estadísticamente significativos) y los que no. En la teoría de NeymanPearson un test de hipótesis estadísticas es una regla de conducta inductiva o criterio
de decisión probabilístico que permite aceptar o rechazar una hipótesis con unos riesgos asumidos de antemano (Lehmann, 1993). Una vez tomada la decisión no conocemos la probabilidad de error a posteriori. Las probabilidades de error de tipos I y II
son probabilidades a priori. La confusión en este sentido es el error señalado por
autores como Falk (1986) o Falk y Greenbaum (1995) y también ha sido encontrado
en las respuestas de los alumnos participantes en nuestra propia investigación experimental (Vallecillos, 1994).
Además de las referencias citadas en este brevísimo planteamiento de cuestiones
epistemológicas relacionadas con el tema que nos ocupa, para estudiar este tema con
un poco más de detalle puede consultarse (Vallecillos, 1995b).
ESTUDIOS SOBRE EL APRENDIZAJE DE LA ESTADÍSTICA
INFERENCIAL
Sin pretender ser exhaustivos, recogemos a continuación los resultados publicados de
investigaciones sobre el aprendizaje de contenidos de estadística inferencial en distintos niveles de enseñanza. La intención es mostrar la diversidad de problemas encontrados, aún teniendo en cuenta la relativamente escasa investigación educativa
específica sobre la cuestión.
Hemos clasificado los resultados según grandes bloques que se desprenden de
nuestra propia investigación experimental sobre el aprendizaje de los contrastes de
hipótesis en estudiantes universitarios (Vallecillos, 1994).
Poblaciones y muestras
En primer lugar citaré las conocidas investigaciones de Kahneman, Slovic y Tversky
(1982) acerca de las heurísticas de razonamiento que emplean los sujetos para manejar situaciones de incertidumbre y tomar decisiones en ellas. Por ejemplo, la heurística de la representatividad, tiene una gran importancia por su incidencia en la
selección de muestras adecuadas para los estudios en los que se usa la estadística
inferencial.
Pollatsek y cols. (1984) describen también problemas relacionados con el intento
de combatir desde la enseñanza, por ejemplo, el tipo de razonamiento conocido como
falacia del jugador, intentando cambiar el modelo que emplean los estudiantes en sus
razonamientos. El intento resulta infructuoso ya que los estudiantes no parecen tener
un modelo para el trabajo con muestras aleatorias y por tanto es imposible cambiarlo.
Lavoie y Caillé (1986) han estudiado la comprensión del concepto probabilístico
y estadístico de población y determinado distintos niveles y subniveles de comprensión del mismo.
EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS
345
Rubin y cols. (1990) han llevado a cabo una investigación para analizar la variabilidad y representatividad muestral como importantes conceptos contrapuestos y el
uso de heurísticas en razonamientos de tipo inferencial. Concluyen con la afirmación
de la dificultad del análisis que supone el razonamiento inferencial para los alumnos
ya que estos tienen modelos inconsistentes de relación entre poblaciones y muestras,
incluso en situaciones cuyo modelo matemático es el más sencillo posible.
Jacobs (1996) ha realizado dos estudios experimentales con niños, encaminados a
investigar la comprensión informal de conceptos relacionados con muestreo y la estadística inferencial en un contexto de interpretación y evaluación de resultados de
encuestas. Concluye lo mismo afirmando la gran dificultad que supone la evaluación
de la comprensión de los niños, si bien algunos niños demuestran comprensión de
algunos conceptos inferenciales.
Lógica del proceso de contraste de hipótesis
Brewer (1986) informa de una investigación realizada con el fin de probar su hipótesis de que son los libros de texto y la literatura estadística utilizada en las ciencias del
comportamiento los principales causantes de los errores de aprendizaje y de las aplicaciones incorrectas de la estadística inferencial.
Brewer (1989) propone el uso de analogías para la enseñanza de la lógica del proceso de contraste de hipótesis. Afirma que ésta puede ser comparada con la demostración por reducción al absurdo y también con el proceso de declaración de inocencia o
culpabilidad en un juicio legal.
Falk y Greenbaum (1995) presentan una crítica de la estructura lógica de los tests
de hipótesis estadísticas y analizan las posibles causas de la persistencia en el uso de
los mismos en la investigación experimental en el campo de la Psicología, a pesar de
los numerosos problemas denunciados. En particular, sugieren la existencia de profundas razones psicológicas que inducen a creer a las personas que se enfrentan a
situaciones en las que interviene el azar, que minimizan su incertidumbre cuando
obtienen un resultado significativo. Describen la ilusión de la prueba probabilística
por contradicción, o creencia errónea en que la hipótesis nula se convierte en improbable cuando se obtiene un resultado significativo.
En nuestra propia investigación, hemos podido constatar que muchos estudiantes
no consiguen captar correctamente la lógica de un proceso que permite decidir entre
dos hipótesis estadísticas usando un criterio no estrictamente subjetivo sino basado
en datos obtenidos de una muestra aleatoria de una población de referencia. Por
ejemplo, muchos estudiantes creen que el test de hipótesis correctamente realizado
demuestra la veracidad de la hipótesis nula como si de un procedimiento deductivo se
tratara.
En nuestra investigación aparecen claramente diferenciadas cuatro concepciones
(Artigue, 1990) diferentes acerca del tipo de validación de la hipótesis que proporciona un contraste (Vallecillos, 1995a; Vallecillos, 1996a; 2000).
Concepción del contraste como una regla de decisión. El contraste no establece la
verdad de la hipótesis, sino sólo una regla de decisión para aceptar una de la dos
346
ANGUSTIAS VALLECILLOS
hipótesis investigadas. Estos estudiantes se aproximan así a la teoría del contraste
presentada por Neyman y Pearson. Como Lehmann (1993, p. 1243) señala:
La introducción de Neyman-Pearson a los dos tipos de error contenía una frase
corta que se convirtió mas tarde en el foco del debate: Sin aspirar a conocer, escriben los autores, cuando cada una de las hipótesis es verdadera o falsa, podemos buscar reglas que gobiernen nuestro comportamiento con respecto a ellas,
de tal manera que aseguremos que, en la experimentación a la larga no estemos
equivocados demasiado a menudo.
Y en este y los siguientes párrafos se refieren a los tests (i.e., una regla para rechazar
o aceptar la hipótesis) como una regla de comportamiento.
Concepción del contraste como procedimiento para obtener soporte empírico para la
hipótesis investigada. Para estos estudiantes el contraste de hipótesis no establece la
verdad de la hipótesis, sólo si está apoyada o no por la evidencia experimental obtenida usando una muestra aleatoria. Esta concepción de la lógica del proceso de contraste está próxima a la mantenida por Fisher. Éste consideró la Estadística como la
ciencia de las inferencias inciertas, capaz de proporcionar la clave al largo debate histórico del problema de la inducción. Pero, como él mismo expresó:
Aunque algunas inferencias inciertas pueden ser expresadas en términos de
probabilidad matemática estrictamente, no puede deducirse que la probabilidad matemática es un concepto adecuado para la expresión propia de cualquier inferencia incierta.... Todas las inferencias de la teoría clásica de la
probabilidad son de naturaleza deductiva. Son proposiciones sobre el comportamiento de individuos o muestras o series de muestras tomadas de poblaciones
que son totalmente conocidas. (Fisher, 1935, p. 39)
Neyman y Fisher consideraron ambos la distinción entre “comportamiento inductivo”
e “inferencia inductiva” el centro de su desacuerdo (Lehmann, 1993).
Concepción del contraste como prueba probabilística de la hipótesis. La “ilusión de
la prueba probabilística por reducción al absurdo” aparece claramente como ha sido
descrita por Falk y Greenbaum (1995), esto es, la creencia en que el contraste de
hipótesis proporciona como resultado la probabilidad a posteriori de la hipótesis,
dependiendo de los datos obtenidos. Estos estudiantes hacen una generalización abusiva (Artigue, 1990) de sus conocimientos sobre el tipo de demostración llamado
“por reducción al absurdo’, que es válido en razonamientos de tipo deductivo. Este
conocimiento se ha convertido aquí en un obstáculo para comprender correctamente
la lógica del contraste hipótesis estadísticas. Esta concepción esta relacionada también con la interpretación incorrecta del nivel de significación como probabilidad a
posteriori de la hipótesis, dependiendo de los datos obtenidos, esto es, el error descrito por Birnbaum (1982) y Falk (1986).
Concepción del contraste como prueba matemática de la verdad de la hipótesis.
Estos estudiantes esperan que, ya que están usando un procedimiento matemático,
obtendrán de él una única solución posible, que será la demostración de una de las
EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS
347
dos hipótesis. En este caso, como en el anterior, se da también una generalización
abusiva de la demostración por reducción al absurdo.
Nivel de significación
Diaconis y Freedman (1981) reconocen dificultades en la discriminación entre las
dos probabilidades condicionales P(A B) y P(B A) y llaman a esta confusión falacia de la condicional traspuesta. Esta dificultad incide en la compresión del nivel de
significación de los contrastes que, como sabemos, está definido mediante una probabilidad condicional.
Falk (1986) sugiere que, en el caso particular del nivel de significación, que es
una probabilidad condicional bien definida, la ambigüedad verbal en la expresión
“error de Tipo I”, que es una expresión no condicionada, puede provocar confusión
entre los estudiantes, que pueden creer que están trabajando con la probabilidad de un
suceso simple. Menon (1993), afirma que la expresión “error de Tipo I” induce la
idea de un solo suceso y, además, que la gente tiende a olvidar que están trabajando
con una probabilidad condicional, que necesariamente envuelve dos sucesos. Esta
situación induce a error cuando se interpreta el nivel de significación en términos de
la conjunción de los dos sucesos, “la hipótesis nula es cierta” y “la hipótesis nula es
rechazada”, de alguna de las dos maneras siguientes:
• la hipótesis nula es cierta y después es rechazada; o
• la hipótesis nula es rechazada y después es encontrada cierta.
Otros autores, como Oakes (1986) y Pollard y Richardson (1987) describen errores
también en la interpretación de tests estadísticos en investigadores y personas con conocimientos estadísticos. Análogamente, White (1980) señala multitud de errores relacionados con la creencia de la conservación del valor del nivel de significación α
cuando se realizan contrastes sucesivos sobre los mismos datos, esto es, el llamado
“problema de las comparaciones múltiples”.
Williams (1997, 1998) ha llevado a cabo una investigación experimental con 18
estudiantes universitarios de un curso de estadística a nivel introductorio para analizar su comprensión del concepto de nivel de significación. Les propuso tareas de tipo
conceptual y la realización de dos problemas tipo con el fin de analizar el conocimiento de tipo procedimental. En sus conclusiones afirma que “el conocimiento de la
mayoría de los estudiantes sobre el nivel de significación era limitado. Sin embargo,
la definición correcta y la descripción precisa de su papel en el proceso de toma de
decisión parecía estar asociado con una mejor aplicación del procedimiento” y que
“el estudio pone de manifiesto muchos problemas de los estudiantes asociados con el
conocimiento del concepto” (Williams, 1998, p. 748).
En nuestro propio trabajo hemos encontrado una gran variedad de interpretaciones del concepto de nivel de significación, hasta quince distintas, y la mayor parte de
ellas incorrectas. Estas no se limitan al intercambio entre los dos sucesos que intervienen en la definición de (descrito por Falk y Greenbaum (1995), sino que abarcan
mucha mayor variedad y están asociadas a diversas interpretaciones incorrectas, por
348
ANGUSTIAS VALLECILLOS
ejemplo, de la probabilidad condicional que lo define o del resultado del test (Vallecillos, 1996b, 1998b).
Sin embargo, para estos estudiantes, las explicaciones dadas por Falk y
Greenbaum (1995) a los mecanismos psicológicos que producen las concepciones
erróneas sobre el nivel de significación no pueden ser aplicados. En particular, mostramos que estudiantes que entienden correctamente las probabilidades condicionales
también malinterpretan el significado del nivel de significación y que sus interpretaciones incorrectas se relacionan con errores conceptuales ligados a otros conceptos
implicados en los contrastes de hipótesis estadísticas. Estos estudiantes no tienen en
cuenta la naturaleza aleatoria de las muestras y no relacionan la distribución muestral
con las regiones crítica y de aceptación y el nivel de significación. Nosotros hemos
encontrado otra posible causa que puede explicar esta interpretación incorrecta del
nivel de significación concreta que consiste en el intercambio de los dos sucesos que
intervienen en la definición del mismo. Esto es, la que consiste en tomar como α la
probabilidad de que la hipótesis nula sea cierta una vez que ha sido rechazada,
P (H 0 cierta rechazada H 0 ) ≠ α . En efecto, esta interpretación errónea del nivel de
significación ha sido descrita con anterioridad y relacionada con la incomprensión
del concepto de probabilidad condicional implicado (Falk, 1986), pero, en nuestra
opinión, encuentra mejor explicación en relación con una interpretación incorrecta
del resultado del contraste, aquella que lleva a creer que éste demuestra la verdad de
la hipótesis nula como si de un procedimiento deductivo se tratara (Vallecillos y
Batanero, 1997). Esto nos señala, a su vez, una interrelación fuerte entre las concepciones erróneas sobre el concepto de nivel de significación y las de la lógica global
del proceso no analizada hasta el momento ni tenida en cuenta en la enseñanza
(Vallecillos, 1998a).
En particular podemos determinar entre los estudiantes que han participado en
nuestra investigación, además de los que manifiestan un conocimiento correcto del
concepto de nivel de significación, tres principales concepciones incorrectas:
Nivel de significación como probabilidad condicional referida a alguna de las hipótesis. Se pone de manifiesto en las respuestas de los alumnos que conservan la idea de
probabilidad condicional en la definición del nivel de significación, pero cambiando
los sucesos condición y condicionado o ambos. Incluye la confusión que acabamos
de describir anteriormente como caso particular.
Nivel de significación como probabilidad simple de la hipótesis nula. La manifiestan los alumnos que interpretan el nivel de significación como probabilidad no condicional de la hipótesis nula, tanto en el caso de aceptación como de rechazo.
Nivel de significación como probabilidad de error. Incluimos aquí las respuestas que
se refieren a α como la probabilidad de error, tanto si se asocia a la hipótesis nula
como a la alternativa e indistintamente si se acepta o se rechaza cualquiera de ellas.
Estadístico y parámetro. Distribución muestral del estadístico
Schuyten (1991) informa de la dificultad que supone para los estudiantes la utilización simultánea de conceptos con diferentes niveles de concreción. Por ejemplo, la
EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS
349
media de la muestra, la de la población y la de la distribución muestral de medias se
utilizan simultáneamente en inferencia y estas tienen diferentes niveles de abstracción que confunden y complican el trabajo de los alumnos. También informa de otras
dificultades adicionales reseñables como son el uso de un lenguaje formal (notación
empleada incorrectamente, a veces en conceptos cuya comprensión se manifiesta
correcta y, al revés, notación adecuada con manifestación de una comprensión incorrecta del concepto); el manejo de tablas y las representaciones gráficas.
En las respuestas de los estudiantes participantes en nuestra investigación hemos
encontrado frecuentemente el error de confundir la media muestral x con la media
poblacional µ . Esta es la manifestación concreta de un error bien conocido por los
profesores, el de confundir conceptos teóricamente bien diferenciados como el de
estadístico muestral con el de parámetro poblacional. Con la información escrita proporcionada por los estudiantes en sus respuestas al cuestionario propuesto, es tarea
poco menos que imposible el averiguar las posibles causas de este error tan generalizado. En una entrevista realizada posteriormente a un grupo seleccionado de estudiantes se les preguntó específicamente por la interpretación dada y la notación
empleada para referirse a estos conceptos. Hemos podido constatar que, al menos en
los casos analizados, no se trata de un problema de uso incorrecto de la notación adecuada para cada concepto, sino al hecho de no tomar en consideración las distintas
medias y distribuciones implicadas, en concreto la distribución muestral del estadístico (Vallecillos y Batanero, 1997).
Comprensión del papel de las hipótesis en los contrastes
El establecimiento de hipótesis adecuadas a la situación de que se trate, que den respuesta al problema que se intenta resolver, es, evidentemente, crucial y básico. Sin
embargo, esta cuestión que es el primer paso en la resolución de un problema de contraste de hipótesis y en las aplicaciones de todos los procesos de contraste, presenta
grandes dificultades de comprensión para los estudiantes que no logran identificar
cuáles serían las hipótesis adecuadas en cada caso, no comprenden el papel que juegan en el proceso o confunden las hipótesis nula y alternativa (Vallecillos, 1997b).
En particular, además de los estudiantes que manifiestan una concepción correcta,
hemos determinado tres concepciones principales sobre el papel que desempeña la
hipótesis nula en un contraste:
Hipótesis nula como hipótesis a demostrar. Una parte importante de los alumnos han
manifestado una concepción de la hipótesis nula que se asemeja más a un enunciado
a demostrar que a una opción a elegir entre las dos posibles en un problema de decisión. Esta concepción parece claramente ligada a la suposición de que el contraste de
hipótesis estadísticas es un procedimiento deductivo que finaliza con la demostración
de la verdad de la hipótesis nula.
Hipótesis nula referida indistintamente a la población o a la muestra. En
este
caso, aunque las hipótesis que se plantean en un contraste se refieren siempre a una
población determinada, los datos con los que se trabaja pertenecen a una muestra de
la misma. Los estudiantes confunden frecuentemente la población y la muestra y
plantean hipótesis que se refieren a esta última.
350
ANGUSTIAS VALLECILLOS
Hipótesis nula referida a una única población o a un único parámetro. Esto es, los
alumnos manifiestan una concepción muy restrictiva de los tipos de hipótesis admisibles. Sin embargo, creemos que, en este caso, puede haber razones de tipo didáctico
que expliquen la situación dado que los ejemplos empleados en clase y los textos utilizados ponen el énfasis en estos casos.
En muchos casos, hemos observado, además, la ocurrencia del fenómeno de compartimentalización entre los conocimientos de tipo conceptual y procedimental. Muchos
alumnos manifiestan conocimientos de tipo conceptual correctos que no aplican en la
resolución de los problemas propuestos aunque, en otros casos, se ve la influencia que
los errores de tipo conceptual tienen en la resolución de los mismos.
CONCLUSIONES
Hemos analizado someramente algunos aspectos filosóficos acerca de la validez del
razonamiento inductivo como herramienta capaz de producir conocimiento científico
válido y comprobado su posible incidencia en las dificultades de todo tipo que afectan tanto a los aspectos educacionales como a las aplicaciones en procedimientos de
tipo inductivo, encontradas posteriormente en la investigación.
Existen numerosísimas referencias de investigación sobre aplicaciones incorrectas de los contrastes de hipótesis en la investigación experimental o interpretaciones
inadecuadas de sus resultados.
Hemos detectado experimentalmente también errores y problemas de aprendizaje
que afectan a multitud de conceptos, aspectos y aplicaciones de los contrastes de
hipótesis estadísticas. Algunos de los errores detectados tienen su origen en niveles
previos de enseñanza (confusión entre poblaciones y muestras, insuficiente comprensión de la variabilidad muestral y el proceso de muestreo, etc.) lo que plantea la necesidad de trabajar estos conceptos en los niveles previos a la universidad.
La investigación experimental permite detectar los posibles problemas de enseñanza a todos los niveles. Sus resultados han de servir como base sólida para planificar la enseñanza y validarla científicamente con el fin de conseguir el mayor nivel de
eficiencia para ella. Por el momento, las evidencias empíricas obtenidas en nuestro
campo son escasas aunque espero que animen a los investigadores a proseguir con el
esfuerzo de obtenerlas.
Terminamos con una recomendación adicional para los investigadores en el tema:
promover la incorporación en los equipos de trabajo de profesores de niveles preuniversitarios cuya experiencia y colaboración pueden ser muy valiosas para mejorar
también la investigación educativa.
Agradecimientos: A los Proyectos de Investigación PB96-1411 y PB97-0826 financiados por la Dirección General de Enseñanza Superior e Investigación Científica,
M.E.C., Madrid, España.
EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS
351
REFERENCIAS
Artigue, M. (1990). Épistémologie et Didactique. Recherches en Didactique des Mathématiques, 10 (2-3), 241-286.
Bakan, D. (1970). The Test of Significance in Psychological Research. En D. E Morrison y R.
E. Henkel (Eds.), The significance test controversy, pp. 231-251. Chicago: Aldine.
Birnbaum, I. (1982). Interpreting Statistical Significance. Teaching Statistic, 4, 24-27.
Black, M. (1979). Inducción y Probabilidad. Madrid: Cátedra, S. A.
Bourke, S. (1993). Babies, Bathwater and Straw Person: A response to Menon. Mathematics
Education Research Journal, 5 (1), 19-22.
Brewer, J. K. (1986). Behavioural statistics textbooks: source of myths and misconceptions?.
En R. Davidson y J. Swift (Eds.), Proceedings of the ICOTS II, pp. 127-131. Victoria, Canada: University of Victoria.
Brewer, J. K. (1989). Analogies and Parables in the Teaching of Statistics. Teaching Statistics,
11, 21-23.
DeGroot, M. H. (1988). Probabilidad y Estadística. México: Addison Wesley Iberomericana,
S. A.
Diaconis, P. y Freedman, D. (1981). The persistence of cognitive illusions. The behavioural
and brain sciences, 4, 333-334.
Clements, M. A. (1993). Statistical Significance Testing: Providing Historical Perspective for
Menon’s paper. Mathematics Education Research Journal, 5, 1, 23-27.
Cockcroft, W. H. (1982). Mathematics Counts. Report of the Committee of Inquiry into the
Teaching of Mathematics in Schools. London: Her Majesty’s Stationery Office.
Kahneman, D., Slovic, P. y Tversky, A. (1982). Judgement under uncertainty: Heuristics and
biases. Cambridge: Cambridge University Press.
Falk, R. (1986). Misconceptions of statistical significance. Journal of structural learning, 9,
83-96.
Falk, R. y Greenbaum, C. (1995). Significance test die hard. Theory y Psychology, 5 (1), 75-98.
Fisher, R. A. (1935). The logic of inductive inference. Journal of the Royal Statistical Society,
98, 39-54.
Jacobs, V. (1996). Children’s informal interpretations and evaluation of statistical sampling in
surveys. Ph. D. University of Wisconsin-Madison.
Lavoie, R. y Caillé, A. (1986). Compréhension du concept de population: un étude exploratoire. Ann. Sc. Math. Québec, 10 (1), 27-49.
Lehmann, E. L. (1993). The Neyman-Pearson Theories of testing hypothesis: one theory or
two? Journal of the American Statistical Association, 88, 424, 1242-1249.
Menon, R. (1993). Statistical Significance Testing Should be Discontinued in Mathematics
Education Research. Mathematics Education Research Journal, 5 (1), 4-18.
Ministerio de Educación y Ciencia. (1990). Ley Orgánica 1/1990 de Ordenación General del
Sistema Educativo. (LOGSE, BOE de 4 de Octubre de 1990). Madrid: Autor.
352
ANGUSTIAS VALLECILLOS
Morrison, D. E. y Henkel, R. E. (Eds.). (1970). The significance test controversy. Chicago:
Aldine.
Moses, L. E. (1992). The reasoning of statistical inference. En Hoaglin, D. C. y Moore, D. S.
(Eds.), Perspectives on Contemporary Statistics (107-122). Washington D. C.: Mathematical Association of America.
National Council of Teachers of Mathematics. (1989). Curriculum and evaluation standards of
schools mathematics. Reston Va.: NCTM.
Oakes, M. (1986). Statistical inference: A commentary for the social and behavioural sciences.
Chichester: J. Wiley y Sons, Inc.
Poitevineau, J. (1998). Méthodologie de l’analyse des données expérimentales: Étude de la
pratique des tests statistiques chez les chercheurs en psychologie, approches normative,
prescriptive et descriptive. Ph. D. Université de Rouen.
Pollard, P. y Richardson, J. T. E. (1987). On the probability of making Type I errors. Psychological Bulletin, 10, 159-163.
Pollatsek, A.; Konold, C.; Weel, A. D. y Lima, S. D. (1991). Belief underlying random sampling. Memory and Cognition, 12, 395-401.
Popper, K. (1967). La lógica de la investigación científica. Madrid: Tecnos.
Reeves, C. A. y Brewer, J. K. (1980). Hypothesis Testing and Proof by Contradiction: an Analogy. Teaching Statistic, 1 (2), 57-59.
Rivadulla, A. (1991). Probabilidad e Inferencia científica. Barcelona: Anthropos.
Rowley, G. (1993). Response to Menon. Mathematics Education Research Journal, 5, 1, 2829.
Rubin, A.; Bruce, B. y Tenney, Y. (1990). Learning About Sampling: Trouble at the Core of
Statistic. Proceedings of the ICOTS III. Dunedin, New Zealand: University of Otago.
Schuyten, G. (1991). Statistical Thinking in Psychology and Education. Proceedings of the
ICOTS III. Dunedin, New Zealand: University of Otago.
Thompson, B. (1996). AERA Editorial Policies Regarding Statistical Significance Testing:
Three Suggested Reform. Educational Researcher, 25 (2), 26-30.
Vallecillos, A. (1994). Estudio teórico-experimental de errores y concepciones sobre el contraste estadístico de hipótesis en estudiantes universitarios. Tesis Doctoral. Universidad de
Granada.
Vallecillos, A. (1995a). Comprensión de la lógica del contraste de hipótesis en estudiantes universitarios. Recherches en Didactique des Mathématiques, 15 (3), 53-81.
Vallecillos, A. (1995b). Consideraciones epistemológicas sobre la inferencia estadística: implicaciones para la práctica docente. UNO, 5, 80-90.
Vallecillos, A. (1996a). Students’ conceptions of the logic of hypotheses testing. Hiroshima
Journal of Mathematics Education, 4, 43-61.
Vallecillos, A. (1996b). Inferencia estadística y enseñanza: un análisis didáctico del contraste
de hipótesis estadísticas. Granada: Comares.
EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS
353
Vallecillos, A. (1997a). La investigación educativa y sus implicaciones curriculares. Revista
EMA, 3 (1), 33-44.
Vallecillos, A. (1997b). El papel de las hipótesis estadísticas en los contrastes: concepciones y
dificultades de aprendizaje. Educación Matemática, IX, 2, 5-20.
Vallecillos, A. (1998a). Research and Teaching of Statistical Inference. En Proceeding of the
International Conference on the Teaching of Mathematics, pp. 296-298. Boston: J. Wiley y
Sons, Inc.
Vallecillos, A. (1998b). Experimental Study on the Learning of the significance level concept.
En L. Pereira-Mendoza, L. Seu Kea, T. Wee Kee y W. Wong (Eds.), Proceedings of the
ICOTS 5, pp. 1475-1476. Singapore: Nanyang Technological University.
Vallecillos, A. (1999). Some empirical evidences on learning difficulties about testing hypothesis. En Proceedings of the 52nd Session of the International Statistical Institute, Vol. 2, pp.
201-204. The Netherlands: ISI.
Vallecillos, A. (2000). Understanding of the logic of hypothesis testing amongst university students. Journal für Mathematik-Didaktik, 21 (2), 101-123.
Vallecillos, A. y Batanero, C. (1997). Conceptos activados en el contraste de hipótesis estadísticas y su comprensión por estudiantes universitarios. Recherches en Didactique des
Mathématiques, 17 (1), 29-48.
White, A. L. (1980). Avoiding errors in Educational Research. In R. J. Shumway (Ed.),
Research in Mathematics Education, pp. 47-65. Reston, Va.: NCTM.
Williams, A. M. (1997). Students’ understanding of hypothesis testing: the case of the significance concepts. F. Biddulph y K. Karr (Eds.), People in Mathematics Education, Proceedings of the MERGA 20, 585-591. Australia: Aotearoa.
Williams, A. M. (1998). Students’ understanding of the significance level concept. En L.
Pereira-Mendoza, L. Seu Kea, T. Wee Kee y W. Wong (Eds.), Proceedings of the ICOTS 5,
743-749. Singapore: Nanyang Technological University.
Zacks, S. (1981). Parametric Statistical Inference. Basic Theory and Modern Approaches.
Oxford: Pergamon Press.
354
ANGUSTIAS VALLECILLOS
Descargar