El módulo para manejo de notas ofrece las siguientes

Anuncio
UNIVERSIDAD PERUANA CAYETANO HEREDIA
FACULTAD DE PSICOLOGIA
GABINETE DE INSTRUMENTOS PSICOLÓGICOS
MATERIALES DE INFORMÁTICA
PHEP v. 1.0
Prueba de hipótesis y
estimación de
parámetros
Lic. Andrés Burga León
LIMA, 2003
©Derechos Reservados
Universidad Peruana Cayetano Heredia
Facultad de Psicología
PRESENTACION DE LA SERIE
El presente programa se ubica dentro de una serie producida por el Gabinete
de Instrumentos Psicológicos de la Facultad de Psicología de la Universidad
Peruana Cayetano Heredia, dirigida a estudiantes y profesionales de la
psicología y diversas especialidades.
Esta serie, denominada “Materiales de Informática” surge a partir de la
experiencia de los docentes de los cursos vinculados a las áreas de
matemáticas, estadística y psicometría, pues el realizar los cálculos de forma
manual, si bien fomenta el aprendizaje matemático, hace más probable la
ocurrencia de errores de cálculo, los cuales pueden impactar de forma
negativa al proceso de toma de decisiones.
Sabemos que una decisión se toma sobre la base de la información, y esta
información debe ser lo más válida y confiable posible.
En ese sentido, con esta serie de programas, creemos que al reducir la
probabilidad del error de cálculo, estamos contribuyendo de una forma
sustancial a la calidad de la información de base cuantitativa sobre la cual se
basan muchas de las decisiones profesionales.
En nuestro medio, además en muchos caso no encontramos un software
accesible por cuestiones económicas que cumpla las funciones que desempeñan
los programas de esta serie, que por su sencillez, creemos que presentan una
gran utilidad.
La serie hasta el momento cuenta con los siguientes paquetes informáticos:

TAPF v.1.0, programa para el manejo de notas

ETCon v.1.0 Estadísticos para Tablas de Contingencia

MCP v. 1.0 Módulo de Cálculos Psicométricos

PHEP v 1.0 Prueba de Hipótesis y Estimación de Parámetros
Esperemos que esta entrega le resulte útil y sea de su agrado.
Andrés Burga León
INDICE
PRIMERA PARTE
1. INTRODUCCIÓN ..................................................................................................... 9
1.1
¿QUÉ ES LA ESTADÍSTICA? ......................................................................... 9
1.2
VARIABLES Y CONSTANTES .................................................................... 10
1.3
TIPOS DE VARIABLES ................................................................................ 11
2. LAS ESCALAS DE MEDICIÓN............................................................................. 12
3. LA INFERENCIA ESTADÍSTICA ......................................................................... 13
3.1
LA DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO ......................... 14
3.2
EL ERROR TÍPICO........................................................................................ 15
3.3
3.4
ESTIMACION DE PARAMETROS .............................................................. 15
3.3.1
ESTIMACION PUNTUAL Y POR INTERVALOS ........................... 16
3.3.2
ESTIMACIÓN DE LA MEDIA ARITMÉTICA ................................. 19
3.3.3
ESTIMACIÓN DE PROPORCIONES ................................................ 19
3.3.4
ESTIMACIÓN DE LA VARIANZA ................................................... 20
CONTRASTE DE HIPÓTESIS ...................................................................... 21
3.4.1
HIPOTESIS NULA E HIPÓTESIS ALTERNA .................................. 22
3.4.2
DIRECCIONALIDAD DE LAS HIPÓTESIS ..................................... 22
3.4.3
TOMA DE DECISIONES ................................................................... 23
3.4.4
CONTRASTE DE HIPÓTESIS SOBRE LA MEDIA ......................... 26
3.4.4.1
UNA SÓLA MUESTRA ................................................................. 26
3.4.4.2
DOS MUESTRAS INDEPENDIENTES SUPONIENDO
VARIANZAS IGUALES ................................................................ 26
3.4.4.3
DOS MUESTRAS INDEPENDIENTES SUPONIENDO
VARIANZAS DISTINTAS ............................................................ 27
3.4.4.4
DOS MUESTRAS RELACIONADAS ........................................... 28
3.4.5
CONTRASTE DE PROPORCIONES .................................................28
3.4.5.1
EL CASO DE UNA MUESTRA .....................................................29
3.4.5.2
DOS MUESTRAS INDEPENDIENTES ........................................29
3.4.5.3
DOS MUESTRAS RELACIONADAS ...........................................29
3.4.6
CONSTASTE DE HIPÓTESIS SOBRE LA VARIANZA ..................30
3.4.6.1
DOS MUESTRAS INDEPENDIENTES ........................................31
3.4.6.2
DOS GRUPOS RELACIONADOS.................................................31
SEGUNDA PARTE
1. ESTIMACION DE PARAMETROS........................................................................35
1.1
ESTIMACION DE LA MEDIA ......................................................................35
1.2
ESTIMACION DE PROPORCIONES ...........................................................36
1.3
ESTIMACION DE LA VARIANZA ..............................................................37
2. CONTRASTE DE HIPÓTESIS ...............................................................................38
2.1
CONTRASTE DE MEDIAS ...........................................................................38
2.1.1
UN SOLO GRUPO ..............................................................................38
2.1.2
DOS GRUPOS INDEPENDIENTES SUPONIENDO VARIANZAS
HOMOGÉNEAS ................................................................................40
2.1.3
DOS GRUPOS INDEPENDIENTES SUPONIENDO VARIANZAS
HETEROGENEAS .............................................................................41
2.1.4
2.2
2.3
DOS GRUPOS RELACIONADOS .....................................................43
CONTRASTE DE PROPORCIONES ............................................................44
2.2.1
UN SOLO GRUPO ..............................................................................45
2.2.2
DOS GRUPOS INDEPENDIENTES ...................................................47
2.2.3
DOS GRUPOS DEPENDIENTES .......................................................48
CONTRASTE DE VARIANZAS ...................................................................51
2.3.1
DOS GRUPOS INDEPENDIENTES ...................................................51
2.3.2
DOS GRUPOS RELACIONADOS .....................................................52
3. REFERENCIAS .......................................................................................................55
PRESENTACIÓN DEL PROGRAMA
El programa PHEP v. 1.0 ha sido desarrollado con la finalidad de
facilitar los procedimientos de cálculo propios de la estadística
inferencial, como son la estimación de parámetros y el contraste de
hipótesis.
Para el primer caso, hemos considerados la estimación de medias, de la
varianza y de una proporción.
En cuanto al contraste de hipótesis, puede efectuarse para la media,
contrastándola con un valor teórico, en dos grupos independientes, o en
dos grupos dependientes.
Se puede además contrastar hipótesis referidas a proporciones, para el
caso de dos grupos independientes, dos grupos dependientes, o un valor
teórico.
Finalmente tenemos la posibilidad de efectuar contrastes de hipótesis
referidas a la varianza, tanto para dos grupos independientes, como
para dos dependientes.
Esperamos que este programa le resulte muy útil tanto a los estudiantes
como profesionales de la Psicología y Ciencias Sociales en general.
Lic. Andrés Burga León
7
8
1.
INTRODUCCIÓN
Esta primera parte no pretende ser una revisión teórica exhaustiva de todos los
aspectos vinculados a la estimación de parámetros y al contraste de hipótesis.
Lo que queremos es dar unos lineamientos generales que sirvan principalmente
como soporte de los temas tratados.
1.1
¿QUÉ ES LA ESTADÍSTICA?
Al enfrentarnos a esta pregunta, muchos personas legas en la materia, podemos
asociar a este término las tablas y gráficas con datos numéricos que aparecen
muchas veces en diversos diarios, revistas o en la televisión (Botella, León y
San Martín, 1996).
Es decir, el término estadística (o estadístico) es usado para denotar a los datos
en sí mismos, o números derivados de ellos. Por ejemplo, si decimos que el
promedio de notas en Matemáticas I es 15.76, este valor constituye una
estadística.
Nosotros proponemos que la estadística es una rama aplicada de las
matemáticas que se encarga del estudio de los métodos para recoger, organizar,
resumir y analizar datos. Todo esto se realiza para poder extraer conclusiones
válidas y tomar decisiones razonables basadas en los datos numéricos.
También en importante considerar que la estadística puede dividirse en dos
ramas (Guilford y Fruchter, 1986; Botella, León y San Martín, 1996):
9
La estadística descriptiva que nos sirve, tal y como su nombre lo indica, para
describir las características de un grupo. Se habla aquí de distribuciones de
frecuencias, medidas de tendencia central, medidas de variabilidad, medidas de
posición y medidas de asociación.
Y la estadística inferencial que nos informa del grado de bondad en el cual las
mediciones obtenidas en muestras representan a la población. Dentro de este
campo se ubica la estimación de parámetros y el contraste de hipótesis.
1.2
VARIABLES Y CONSTANTES
La estadística trabaja con variables y constantes, mediante las cuales se realizan
las diferentes operaciones matemáticas, tanto descriptivas como inferenciales.
(Spiegel, 1961; Garret, 1971)
Una variable puede ser entendida como algo que varía (Spiegel, 1961;
Kerlinger y Lee 2001), es decir, algo que puede obtener diferentes valores.
Además las variables generalmente reciben un nombre mediante el cual se las
identifica.
Por ejemplo, la variable llamada “sexo”, puede recibir los valores “masculino”
o “femenino”. También podemos poner como ejemplo a la variable “Nota en
lenguaje”, que según nuestro sistema educativo, puede obtener cualquier valor
entre 0 y 20. Otro ejemplo de variable puede ser “Coeficiente Intelectual”, que
podría recibir valores como 102, 98, 121, 110, etc.
En cambio una constante tiene valores fijos y generalmente se representa por
letras (Spiegel, 1961). Por ejemplo, si decimos que en la siguiente ecuación
(llamada ecuación lineal simple): Y = a + bX
10
“a” y “b” son constantes
con valores 3 y 2 respectivamente; además “X” e “Y” son variables, la ecuación
puede definirse numéricamente como: (7) = 3 + 2(2) ó (11) = 3 + 2(4) ó (9) = 3
+ 2(3), etc. Vemos que los valores de “a” y “b” no han cambiado(son
constantes) y los valores de “X” e “Y” si han cambiado (son variables).
1.3
TIPOS DE VARIABLES
En general podemos diferenciar entre variables continuas y discretas.
(Guilford y Fruchter, 1984; Spiegel, 161)
Las variables discretas tienen únicamente valores enteros. Es decir, la variable
B puede recibir valores como 2, 5, 6, 8, 12.
Las variables continuas pueden tener valores decimales. Es decir, la variable A
puede recibir valores como 12.33, 5.39, 6.81, 8.34, 12.01.
Otra forma de clasificar a las variables está dada por le número de categorías,
teniendo básicamente sólo dos categorías o más de dos categorías (Elorza,
1987; Amón, 1993).
Se denomina variable politómica a aquella que tiene más de dos valores. Por
ejemplo, los puntajes directos de una prueba de inteligencia, o los niveles
socio-económicos (alto, medio, bajo).
Cuando la variable tiene únicamente dos valores nos podemos encontrar frente
a dos casos: las variables dicotómicas y las variables dicotomizadas.
11
Una variable dicotómica tiene únicamente dos valores, por ejemplo “sexo” sólo
tiene los valores “masculino” y “femenino”. La repuesta a una pregunta de
opción múltiple solo tiene “acierto” o “fallo”.
La variable dicotomizada si bien presente sólo dos categorías, es en realizada
una variable politómica que a sido recodificada en dos. Por ejemplo, las notas
en una curso de matemáticas (entre 0 y 20) pueden ser dicotomizadas en
“aprobados” (11 a 20) y “desaprobados” (0 a 10).
2.
LAS ESCALAS DE MEDICIÓN
Los datos que se utilizan como resultado de las mediciones en los
procedimientos de recolección de datos, pertenecen a diversas escalas de
medición. Estas escalas difieren en el tipo de información que pueden brindar,
así tenemos escalas nominales o categóricas, escalas ordinales, escalas de
intervalo y escalas de razón. (Amón, 1993; Blalock, 1998; Kerlinger y Lee,
2001)
Las escalas nominales son aquellas que nos permiten determinar la presencia o
no de un atributo en un objeto y brindan información con respecto a la
frecuencia con que el atributo se presenta en una colección de objetos. Estas
escalas no implican ningún tipo de relación matemáticas aparte del conteo. Por
ejemplo uno puede ser clasificado según la variable “Religión” como
“Católico”, Protestante”, “Mormón”, “Judío”, sin que ello implique que una
religión e mejor que otra.
Las escalas ordinales nos permiten, como su nombre lo indica, ordenar una
colección de objetos en función a la propiedad mayor que o menor que,
referidas a la magnitud con que presentan un determinado atributo. Por
12
ejemplo, podemos referirnos a la clase social, que según un conjunto de
indicadores podría categorizarse como “Alta”, “Media” y “Baja”.
Las escalas de intervalo permiten medir la magnitud con que se presenta un
atributo en una objeto y además brinda información con respecto a la magnitud
de la diferencia que presenta un objeto con respecto a los demás que objetos
que poseen
la misma propiedad en distintas magnitudes. Sin embargo, el
establecimiento del punto cero es arbitrario. Es decir, no existe un cero
absoluto. Como ejemplo podemos señalar a las escalas de temperatura C° y F°.
También se considera que las puntuaciones directas de la mayoría de prueba
psicológicas constituyen escalas de intervalo.
Las escalas de razón tienen las mismas propiedades que las escalas de
intervalo, pero además poseen un cero absoluto. Como ejemplo podemos
mencionar a los grados Kelvin, que tiene un cero absoluto de temperatura, cuyo
equivalente en grados centígrados es – 273 grados.
3.
LA INFERENCIA ESTADÍSTICA
La utilización de un método de muestreo apropiado implica que la información
obtenida en la muestra es un reflejo de la información de la población (Calzada,
1996; Martínez, 1997).
Podemos utilizar los datos de la muestra para tener una idea de las propiedades
de la población, es decir, podemos efectuar inferencias sobre las poblaciones a
partir de las muestras. Estas inferencias pueden adoptar múltiples formas, pero
las más usuales son la estimación de parámetros y el contraste de hipótesis
(Pardo y San Martín, 1999). Como lo señalan Guilford y Fruchter (1984), la
13
estadística inferencial o muestral nos indicará con qué grado de bondad las
mediciones obtenidas en muestras aisladas representan a las poblaciones de las
cuales se sacaron las muestras.
3.1
LA DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
El término distribución muestral hace referencia a la función de probabilidad de
un estadístico (Botella y otros, 1996). Se constituye en una distribución teórica
que asigna una probabilidad concreta a cada uno de los valores que puede
tomar un estadístico en todas las muestras del mismo tamaño que es posible
extraer de una determinada población (Pardo y San Martín, 1999).
El conocimiento de la forma de la distribución muestral de un estadístico es
importante pues a partir de su conocimiento se pueden establecer conclusiones
que en nuestro caso constituyen las inferencias estadísticas (Guilford y
Fruchter, 1984).
Como lo señalan Guilford y Frchter (1984), para comprender mejor el concepto
de distribución muestral de un estadístico, supongamos que se procede a sacar
muestras aleatorias y todas de igual tamaño de una población, una al mismo
tiempo. Además, el muestreo se efectúa con reposición, es decir, se vuelve a
colocar en la población cada elemento que se saque después de anotar su valor
y antes de sacar el elemento siguiente. Si a cada una de esas muestras se le
calcula la media aritmética, se podrá trazar una distribución de frecuencias con
esos valores. Esta distribución es la llamada distribución muestral, que cuando
es lo suficientemente grande tiene una media igual a la media de la población
14
3.2
EL ERROR TÍPICO
El error típico o error estándar es la desviación estándar de una distribución
muestral (Calzada, 1996; Kerlinger y Lee, 2001) es decir, constituye la
dispersión del estadístico y la cuantía de esta dispersión nos permite saber hasta
dónde se puede esperar que los estadísticos muestrales se aparten de los
parámetros en la población. Si se va a utilizar un estadístico como estimación
de su parámetro, toda desviación del estadístico respecto a su valor en la
población puede considerarse como un error de estimación (Pardo y San
Martín, 1999).
El error típico de la distribución muestral del estadístico nos informa sobre la
magnitud de esos errores de estimación en una situación de muestreo
específica. Por lo cual se le llama error típico o error estándar (Guilford y
Fruchter, 1984).
3.3
ESTIMACION DE PARAMETROS
La estimación de parámetros trata de definir cuál es el valor de un parámetro a
partir del conocimiento de un estadístico en la muestra (Elorza, 1987; Blalock
1999)
Un parámetro es un valor numérico que describe una característica de una
población y suele representarse mediante los caracteres del alfabeto griego
(Spiegel, 1966; Pardo y San Martín, 1999). Los términos universo y población
suelen ser intercambiables en el lenguaje de la estadística (Blalock, 1998)
15
Un estadístico es un valor numérico que describe una característica en una
muestra y se representa mediante caracteres del alfabeto occidental (Spiegel,
1966; Pardo y San Martín, 1999). Aquel estadístico que es utilizado como
punto de partida para estimar el valor de su parámetro correspondiente se le
conoce como estimador (pardo y San Martín, 1999).
A continuación presentamos una tabla, que nos muestra la manera como se
pueden simbolizar algunos estadísticos (muestra) y sus parámetros (población)
correspondientes:
Indicador
3.3.1
Muestra
Población
Media Aritmética
x

Varianza
s2
2
Desviación Estándar
s

Proporción
p

Correlación de Pearson
r

ESTIMACION PUNTUAL Y POR INTERVALOS
La estimación de parámetros muestra dos vertientes (Blalock, 1998, Pardo y
San Martín, 1999). Una de ellas es la más sencilla y se conoce como estimación
puntual. Consiste en asignar un valor muestral concreto al parámetro
poblacional que se desea estimar, es decir, se atribuye al parámetro poblacional
el valor tomado por su correspondiente estadístico en una muestra concreta. La
otra vertiente es la estimación por intervalos. Consiste en atribuir al parámetro
que se desea estimar no un valor concreto sino un rango de valores entre los
16
que se espera que pueda encontrarse el verdadero valor del parámetro o una
probabilidad alta y conocida.
Pardo y San Martín (1999), señalan que un estadístico será considerado como
buen estimador de su correspondiente parámetro si posee las siguientes
propiedades:
1.
Carencia de sesgo: El valor esperado del estadístico coincide con el
parámetro que estima. Esto implica que un buen estimador debe ofrecer en
promedio estimaciones correctas.
2.
Consistencia: Implica que a medida que va aumentando el tamaño de la
muestra también va aumentando la probabilidad de que el estimador
coincida con su parámetro. Esto se debe a que cuando el tamaño muestral
tiende al infinito, el error estándar del estimador es cero.
3.
Eficiencia: Indica que el estimador varía menos de una muestra a otra
mientras más eficiente es. Esto quiere decir que, mientras menor es la
varianza de un estimador, mayor es su eficiencia, lo cual a su vez impacta
de manera positiva en la precisión de las estimaciones realizadas.
4.
Suficiencia: Un estimador es suficiente si utiliza toda la información
muestral relacionada con dicho estimador para inferir el parámetro de la
población. Esto quiere decir que la estimación del parámetro no puede ser
mejorada si se consideran otros aspectos de los datos, aparte de aquellos
incluidos en la distribución muestral del estadístico usado como estimador.
En términos generales, en la estimación por intervalos se trata de obtener dos
valores que permitan afirmar que existe una alta probabilidad de que el
verdadero valor del parámetro se encuentre entre dichos valores (Garret, 1971;
Hays, 1973).
17
Para obtener estos valores se suma y resta una cantidad a un estimador puntual.
Dicha cantidad se encuentra relacionada con el error típico de su distribución
muestral (Guilford y Fruchter, 1984; Elorza, 1987; Pardo y San Martín, 1999).
Esta operación matemática, nos dará como resultado dos valores, llamados
límites de confianza a los cuales se les denomina límite inferior y límite
superior.
Además, llamamos intervalo de confianza al rango de valores comprendidos
entre los límites de confianza (Blalock, 1998). El intervalo de confianza lleva
asociado un nivel de confianza, el cual representa la probabilidad de que el
intervalo construido incluya el verdadero valor del parámetro (Pardo y San
Martín, 1999). Se ha convenido hacer una elección arbitraria para adoptar dos
niveles de confianza especiales (Guilford y Fruchter, 1984). Estos son el nivel
del 5% (0.05) y 1% (0.01). Sin embargo, es posible utilizar cualquier nivel de
confianza específico, si se conoce la distribución muestral del estimador.
En resumen, la estrategia general para estimar un parámetro consiste en pensar
que el verdadero valor del parámetro no se alejará del estadístico obtenido en
más de una cantidad determinada, relacionada con el error estándar o error
típico (Pardo y San Martín, 1999).
De manera resumida Pardo y San martín (1999) nos dicen que el proceso de
estimación por intervalos es el siguiente:
1. Se determina el nivel de riesgo o probabilidad de que el intervalo
construido no incluya el verdadero valor del parámetro. A este riesgo se le
conoce como nivel alpha.
2. Se busca la puntuación en la distribución muestral del estadístico
correspondiente a ese nivel de riesgo.
18
3. Se calcula el error típico de la distribución muestral del estadístico.
4. Se calcula el valor del error máximo, es decir, el tamaño de la distancia
máxima que con una determinada probabilidad esperamos que exista entre
el verdadero valor del parámetro estimado y el valor del estadístico
utilizado como estimador.
5. Se calcula el límite superior y el límite inferior a partir de los cuales se
construye el intervalo de confianza.
3.3.2
ESTIMACIÓN DE LA MEDIA ARITMÉTICA
Si se está trabajando con una variable que se distribuye normalmente, o si el
tamaño de la muestra es lo bastante grande, la distribución muestral de la media
aritmética es normal.
El intervalo de confianza puede construirse mediante la siguiente fórmula,
basada en la distribución t de Student. Si la muestra es los suficientemente
grande, la distribución tiende a la normalidad (Pardo y San Martín, 1999):
X
3.3.3
t
 / 2 n 1
Sx
n 1
ESTIMACIÓN DE PROPORCIONES
La distribución muestral de la proporción tiende a la normalidad a medida que
el tamaño de la muestra va aumentando.
Los límites de confianza para la proporción, en muestras pequeñas se pueden
obtener a través de la siguiente ecuación (Pardo y San Martín, 1999):
19
n
nZ2
2

p Z Z

2n

p(1  p) Z 2
 2
n
4n




Pardo y San Martín (1999) señalan que si la muestra es bastante grande, puede
emplearse la siguiente ecuación para obtener los límites de confianza:
p  Z / 2
3.3.4
p(1  p)
n
ESTIMACIÓN DE LA VARIANZA
La varianza tiene una distribución muestral según Chi Cuadrado con n – 1
grados de libertad.
Li 
nS x2
1 / 2
 n21
Ls 
nS x2
 /2
 n21
Si el tamaño de la muestra es bastante grande (mayor a 100), la distribución
muestral de la varianza tiende a la normalidad pudiendo construirse un
intervalo de confianza con la siguiente fórmula (Pardo y San Martín, 1999):
S x2  Z / 2 S x2
20
2
n
3.4
CONTRASTE DE HIPÓTESIS
Gran parte de la labor de la investigación esta orientada a determinar en que
medida las hipótesis planteadas son aceptables (Kerlinger y Lee, 2001). Para
realizar una decisión objetiva es necesario utilizar procedimientos que lleven a
un criterio objetivo para aceptar o rechazar las hipótesis; es este el papel que
desempeñan las pruebas estadísticas planteadas.
Pardo y San Martín (1999) consideran que el contraste de hipótesis puede ser
entendido como un método de toma de decisiones pues es un procedimiento
que nos permite decidir si una proposición acerca de una población puede ser
mantenida o rechazada sobre la base de la información que podemos ver en una
muestra. Además estos autores resumen del proceso de la siguiente manera:
1.
El primer paso del contraste de hipótesis consiste en formular
estadísticamente la hipótesis científica que se desea contrastar, es decir, se
supone que una hipótesis científica puede ser formulada en términos de la
forma de una o varias distribuciones poblacionales o en términos del valor
de uno o más parámetros de dichas distribuciones.
2.
El segundo paso implica la búsqueda de evidencia empírica relevante para
establecer si la hipótesis planteada puede o no ser sostenida.
3.
El tercer paso implica establecer una regla de decisión en términos
probabilísticos. Si el resultado muestral observado es, suponiendo correcta
nuestra hipótesis muy poco probable, consideraremos que nuestra hipótesis
es incompatible con los datos. Por el contrario, si el resultado muestral es
probable, suponiendo nuestra hipótesis correcta, consideraremos que
nuestra hipótesis es compatible con los datos.
21
3.4.1
HIPOTESIS NULA E HIPÓTESIS ALTERNA
El contraste de hipótesis se basa en la formulación de dos hipótesis exhaustivas
y mutuamente excluyentes conocidas como: hipótesis nula e hipótesis alterna
(Garret, 1971; Everitt, 1999; Kerlinger y Lee, 2001).
La hipótesis nula es aquella que se somete a contraste y su nombre hace
referencia a que suele afirmar que el valor de los parámetros es el mismo, es
decir, la diferencia entre ellos es nula. Por ejemplo, la hipótesis: “El nivel de
ansiedad del grupo control es igual al nivel de ansiedad del grupo
experimental” puede formularse en términos estadísticos como se muestra a
continuación:
H 0 : x1  x 2
Por el contrario, la hipótesis alterna es la negación de la hipótesis nula e incluye
todo lo que ésta excluye. Esta hipótesis es inexacta en el sentido que establece
que una variable es distinta, menor o mayor que otra. Siguiendo el ejemplo
anterior, la hipótesis alterna puede formularse como: “El nivel de ansiedad del
grupo control es diferente al nivel de ansiedad del grupo experimental”, lo cual
se simboliza como:
H 1 : x1  x 2
3.4.2
DIRECCIONALIDAD DE LAS HIPÓTESIS
En general, los contrastes de hipótesis pueden plantearse como unilaterales o
bilaterales (Garret, 1971; Blalock, 1998; Pardo y San Martín, 1999).
22
Un contraste bilateral no establece direccionalidad en el sentido que no se
señala si un grupo contrastado es menor o mayor que otro grupo, sino que
simplemente se establece como hipótesis alterna que ambos grupos son
diferentes. En esta caso, la hipótesis nula será descartada tanto si el estadístico a
contrastar en el grupo 1 es mayor o menor que en el grupo 2, en términos de
significancia probabilística.
El contraste unilateral contiene una predicción concreta sobre la dirección en la
que se puede producir un resultado muestral incompatible con la proposición de
la hipótesis nula. Esta direccionalidad se expresa en la hipótesis alterna
mediante los signos “” ó “”.
A manera de resumen podemos mostrar la siguiente tabla con las
correspondientes hipótesis, tanto nula como alterna para los diferentes tipos de
contraste.
Tipo de contraste
3.4.3
Hipótesis nula (H0)
Hipótesis alterna (H1)
Bilateral
1  2
1  2
Unilateral derecho
1  2
1  2
Unilateral izquierdo
1  2
1  2
TOMA DE DECISIONES
La toma de decisiones en el contexto del contraste de hipótesis implica la
aceptación o rechazo de H0 (Calzada, 1966; Hays, 1973; Blalock, 1998).
Una alternativa usual, consiste en trazar regiones críticas o regiones de rechazo,
teniendo en cuenta la distribución muestral del estadístico y el nivel de
23
confianza deseado. Si el valor del estadístico de contraste calculado cae dentro
de la región crítica, se rechaza la hipótesis nula, y se acepta la hipótesis alterna
(Garret, 1971; Guilford y Fruchter, 1984; Kerlinger y Lee, 2001).
Otra alterativa para la toma de decisiones (aceptación o rechazo de H 0) se basa
el valor p que equivale a la probabilidad de obtener un resultado estadístico
(valor del estadístico calculado) tan extremo como el observado, siendo la
hipótesis nula verdadera (Everitt, 1996)
Los diferentes programas informáticos para el manejo estadístico arrojan entre
sus resultados el valor p asociado a la distribución muestral del estadístico de
contraste, y se suele rechazar H0 cuando su valor es inferior al nivel de
significancia previamente establecido. Generalmente, cuando el valor p es
menor a 0.05 se rechaza H0, aunque pueden establecerse valores más
conservadores como 0.01 (Everitt, 1996; Kerlinger y Lee, 2001)
Es importante considerar que la decisión estadística, siempre lleva asociada una
probabilidad de error (Guirford y Fruchter, 1984). En concreto, podemos
señalar que estos errores van a depender de la combinación de la decisión que
tomemos con respecto a la hipótesis nula (aceptarla o rechazarla) y la
naturaleza de la hipótesis nula (si realmente es verdadera o es falsa).
NATURALEZA
DECISIÓN
Aceptar
Rechazar
24
Verdadera
Falsa
Correcto
Error tipo 2
1-

Error tipo I
Correcto

1-
Es decir, se pueden cometer dos tipos de errores al enfrentarse con la decisión
de aceptar o rechazar la hipótesis nula (Guilford y Fruchter, 1984; Pardo y San
Martín, 1999; Kerlinger y Lee, 2000):
-
Error tipo I: se descarta la hipótesis nula cuando en realidad es verdadera
-
Error tipo II: aceptar la hipótesis nula cuando en realidad es falsa.
La probabilidad de cometer un error tipo uno, está fijada de antemano por el
investigador, y como se dijo con anterioridad, suelen fijarse niveles de
confianza de 0.05 ó 0.01 (Guilford y Fruchter, 1984).
Sin embargo la probabilidad de cometer un error tipo II es un poco más
compleja, pues depende de factores como la verdadera naturaleza de la
hipótesis alterna, el tamaño del error estándar de la distribución muestral
utilizada para efectuar el contraste, y el nivel de significancia alpha (Pardo y
San Martín, 1999).
25
3.4.4
CONTRASTE DE HIPÓTESIS SOBRE LA MEDIA
Presentamos a continuación las diversas fórmulas que se pueden emplear en el
contraste de hipótesis referida a la diferencia de medias. Todas ellas suponen
que la variable que se está contrastando tiene una distribución normal. Es decir,
son pruebas paeramétricas.
3.4.4.1
UNA SÓLA MUESTRA
Si queremos contrastar la media obtenida en una muestra (x) con un valor
teórico () podemos usar una distribución t de Student con n-1 grados de
libertad:
t
3.4.4.2
DOS
MUESTRAS
x
sx n 1
INDEPENDIENTES
SUPONIENDO
VARIANZAS IGUALES
Para este tipo de contraste, también se emplea la distribución t de Student, con
(n1 + n2) - 2 grados de libertad:
t
26
x1  x 2
(n1  1) s12  (n2  1) s 22
n1  n2  2
1
1 
  
 n1 n2 
3.4.4.3
DOS
MUESTRAS
INDEPENDIENTES
SUPONIENDO
VARIANZAS DISTINTAS
En el caso de suponer o comprobar que las varianzas de los dos grupos a
contrastarse son distintas, se puede utilizar también una distribución t de
Student, sólo que los grados de libertad deberán aproximarse con fórmulas más
complejas, como mostraremos luego. El contraste t tiene la siguiente fórmula:
t
x1  x 2
s12 s 22

n1 n 2
Los grados de libertad pueden aproximarse con diferentes fórmulas, pero
presentamos la optimización de Welch, cuyo resultado debe redondearse al
entero más próximo, a fin de obtener los grados de libertad con los cuales se
puede obtener la probabilidad asociada al valor t calculado (Pardo y San
Martín, 1999):
g .l. 
 s12 s 22 
  
 n1 n2 
2
2
2
 s12 
 s 22 
 
 
 n1    n 2 
n1  1 n2  1
27
3.4.4.4
DOS MUESTRAS RELACIONADAS
Las muestras relacionadas son típicas de los diseños antes y después (conocidos
también como diseños pre y post test (Kerlinger y Lee, 2001). En esta
situación, también se aplica un contraste basado en la distribución t de Student,
que se distribuye con n-2 grados de libertad. Se contraste la media obtenida en
el pre test (x1) con la media obtenida en el post test (x2). La fórmula se presenta
a continuación:
t
x1  x 2
sD n
En este caso el error estándar que se obtiene está basado en la desviación
estándar de los puntajes diferenciales. El puntaje diferencial (D) se obtiene al
restar del puntaje obtenido en el pre test de cada persona, el puntaje obtenido en
el post test. Posteriormente se calcula la desviación estándar insesgada de
dichos puntajes diferenciales:
 D  D 
2
sD 
3.4.5
n 1
CONTRASTE DE PROPORCIONES
En esta parte, mostramos las diversas fórmulas que se pueden emplear en el
contraste de hipótesis referida a las diferencias de proporciones.
28
3.4.5.1
EL CASO DE UNA MUESTRA
Se puede contrastar el valor obtenido en una muestra (p) frente a un valor
teórico (), según una distribución Z:
Z
3.4.5.2
p 
 (1   )
n
DOS MUESTRAS INDEPENDIENTES
Cuando se quiere contrastar dos proporciones obtenidas en dos muestras
independientes, también se emplea la distribución Z:
Z
3.4.5.3
p1  p2
p1 (1  p1 ) p2 (1  p2 )

n1
n2
DOS MUESTRAS RELACIONADAS
Para este tipo de contraste no sólo se necesita el dato de la proporción, sino la
cantidad de personas que caen dentro de las categorías dicotómicas (1/0) en
cada una de las mediciones, de tal manera que se completa una tabla de doble
entrada. Es decir, se cruzan las categorías 1/0 de la primera medida, con las
categorías 1/0 de la segunda medida, dando origen a una tabla de 2x2.
29
Antes
Después
Categoría 1
Categoría 0
Categoría 1
n11
n10
Categoría 0
n01
n00
Pardo y San Martín (1999) señalan que si tenemos dos muestras relacionadas
grandes (n > 30), se puede utilizar un contraste basado en la distribución Chi
cuadrado, que se distribuye con n-1 grados de libertad:
2 
(n10  n01 ) 2
n10  n01
Los mismos autores indican que para muestras pequeñas, se puede usar el
estadístico de contraste T que sigue una distribución binomial, siendo sus
parámetros n = n10 + n01 y =0.5
T  n10
3.4.6
CONSTASTE DE HIPÓTESIS SOBRE LA VARIANZA
Finalmente presentamos las fórmulas empleadas en los contrastes de hipótesis
sobre la varianza.
30
3.4.6.1
DOS MUESTRAS INDEPENDIENTES
Para el caso de dos muestras independientes, se emplea un contraste según la
distribución F de Snedecor, con g.l. 1 = ng - 1 y g.l. 2 = np -1. Los subíndices
“g” y “p” hacen referencia al grupo con la varianza más grande (g) y al grupo
con la varianza más pequeña (p). La fórmula para realizar el contraste es
bastante sencilla:
F
3.4.6.2
s g2
s 2p
DOS GRUPOS RELACIONADOS
Cuando se tienen dos muestras relacionadas y se quiere contrastar la diferencia
de sus varianzas, se emplea un contraste basado en la distribución t de Student
con n - 2 grados de libertad:
t
( F  1) n  2
2 F (1  r 2 )
En esta fórmula “F” hace referencia al cociente presentado para el caso de las
varianzas independientes, y “r” se refiere al coeficiente de correlación entre los
puntajes en ambas situaciones (pre y post test, por ejemplo).
31
32
SEGUNDA PARTE
USO DEL PROGRAMA PHEP v. 1.0
33
34
1.
ESTIMACION DE PARAMETROS
El programa nos permite construir intervalos de confianza para diversos
parámetros de la población (media, varianza y proporción) a partir del
conocimiento de los estadísticos obtenidos en una muestra representativa.
1.1
ESTIMACION DE LA MEDIA
Con estos módulos, podemos construir intervalos de confianza para la media
poblacional, conociendo el valor que tiene esta en una muestra.
Por ejemplo, si hemos aplicado una prueba de actitudes hacia la matemática en
una muestra de 200 estudiantes de psicología, y hemos obtenido una media de
38.34 y una desviación estándar de 17.57, entre que valores se espera que esté
la media poblacional, con un 95% de confianza?
Para hacerlo introducimos en el módulo correspondiente los valores referidos a
la media, desviación estándar, tamaño de la muestra y finalmente señalamos el
nivel de confianza. El programa se verá como se muestra a continuación.
Ilustración 1 : Estimación de la media
35
En el ejemplo anterior, podemos señalar que existe un 95% de probabilidades
de que la media de la población se encuentre entre los valores 35.90 y 40.78
1.2
ESTIMACION DE PROPORCIONES
A partir de una proporción obtenida en una muestra (p) se puede construir un
intervalo de confianza para el parámetro en la población ().
Supongamos que se desea estimar la proporción de escolares pertenecientes a
colegios particulares que han asistido al servicio psicopedagógico por lo menos
una vez de manera voluntaria.
Si se determina que en la muestra de 400 alumnos, el 25% cumple con dicha
condición, ¿qué porcentaje de la población se estima al 99% de confianza que
ha asistido por lo menos una vez al servicio psicopedagógico por voluntad
propia?
Para responder a esta pregunta sólo debemos introducir los datos referidos al
tamaño de la muestra (n) y a la proporción calculada en la muestra (p).
Ilustración 2: Estimación de una proporción
36
Como observamos en la ilustración 2, se estima con un 99% de confianza, que
entre el 19% y el 31% de la población ha asistido por lo menos una vez de
manera voluntaria al servicio psicopedagógico de los colegios.
1.3
ESTIMACION DE LA VARIANZA
La estimación de la varianza en la población (2) puede hacerse partiendo del
conocimiento de la desviación estándar (s) en una muestra, construyendo así el
intervalo de confianza.
Supongamos que hemos aplicado una prueba de comprensión lectora en una
muestra de 200 escolares de 1° de secundaria en colegios estatales. ¿Si la
desviación estándar de puntajes fue de 12.34, entre que valores podemos
esperar que se encuentre la varianza de la población, con un 95% de confianza?
Para responder a esta pregunta sólo debemos introducir los datos en las casillas
correspondientes y seleccionar en el menú desplegable el nivel de confianza
que queremos darle al intervalo que vamos a construir.
Luego de hacerlo, el programa de forma automática nos construye el intervalo:
Ilustración 3: Estimación de la varianza
37
Como podemos ver en la ilustración 3, el error estándar para la varianza es
igual a 15.23. Esto nos indique que existe un 95% de probabilidades de que la
varianza de la población se encuentre entre 122.43 y 182.12.
2.
CONTRASTE DE HIPÓTESIS
En estos módulos podemos realizar pruebas de hipótesis, referidas a las
diferencias de medias, proporciones y varianza.
Es posible efectuar contrastes bilaterales y unilaterales tanto izquierdos como
derechos.
2.1
CONTRASTE DE MEDIAS
El contraste de hipótesis para la media, puede realizarse al comparar aquella
obtenida en una muestra con un valor teórico. Esto se conoce como contraste de
un solo grupo.
También
podemos
contrastar
las
medias
obtenidas
de
dos
grupos
independientes suponiendo varianzas iguales (homogéneas) o varianzas
distintas (heterogéneas); o las medias obtenidas en dos grupos dependientes.
2.1.1
UN SOLO GRUPO
Se sabe a partir e investigaciones anteriores, que en la población de chicos entre
12 a 15 años de zonas urbano marginales, el promedio de rendimiento en una
prueba estandarizada de ciencias era de 30 puntos.
38
Luego de 5 años se vuelve a realizar un muestreo a fin de saber si el
rendimiento en ciencias de dicha población ha variado. Para ello se toma una
muestra representativa de 500 chicos. Los datos en esa muestra arrojan una
media de 27.34 y una desviación estándar de 9.76.
Con estos datos, ¿es posible afirmar que el rendimiento en ciencias de los
chicos entre 12 y 15 años de zonas urbano marginales ha cambiado en los
últimos cinco años?
Para responder esta pregunta sólo debemos introducir la información
correspondiente en las casillas referidas al valor teórico en la población (30.00),
la media y desviación estándar obtenidas en la muestra (27.34 y 9.76
respectivamente) junto con el tamaño muestral.
Además nuestra hipótesis sólo se pregunta si el valor teórico ha cambiado en
los últimos años, no se pregunta si un valor es superior al otro. Por lo tanto
nuestra hipótesis es bilateral. Así, marcamos la casilla que nos señala “H0:
Media = Media teórica.”
Ilustración 4: Contraste de medias para un sólo grupo
De acuerdo a los resultados mostrados en la ilustración 4, apreciamos un
estadístico t de – 6.088 que para 499 grados de libertad tiene un valor p <
39
0.001. Es decir, que podemos afirmar que la nueva media en la población,
difiere de manera estadísticamente significativa, del valor teórico de 30.00.
2.1.2
DOS
GRUPOS
INDEPENDIENTES
SUPONIENDO
VARIANZAS HOMOGÉNEAS
En otras situaciones queremos comparar las medias obtenidas en dos muestras
independientes, a fin de saber si dichas diferencias, también representan reales
diferencias para dichos grupos al nivel de población.
En este tipo de contraste se asume que las varianzas de ambos grupos no
difieren al nivel de la población. Luego mostraremos cómo este supuesto
también puede ser contrastado con una prueba de hipótesis referidas a la
varianza.
Por ejemplo, un investigador está interesado en saber si existen diferencias
entre los niveles intelectuales de niños de 5° de primaria educados en colegios
religiosos frente a aquellos educados en colegios laicos.
Para ellos toma dos muestras representativas, una de 200 niños de colegios
religiosos (grupo 1) y otra de colegios laicos (grupo 2).
El grupo 1 presenta una media de 107.23, junto con una desviación estándar de
14.56, mientras que el grupo 2 tiene una media de 108.12 y una desviación
estándar de 15.32.
Para poder contrastar su hipótesis, sólo debe introducir los datos de cada grupo
en los lugares correspondientes. Además en su hipótesis sólo se pregunta por la
existencia de diferencias, así esta será bilateral: “H0: Grupo 1 = Grupo 2.”
40
Ilustración 5: Contraste de medias, dos grupos independientes y varianzas
homogéneas
Como apreciamos en la ilustración 5, se obtuvo un estadístico t de – 0.60 que
para 398 grados de libertad tiene un valor p = 0.552. Con estos resultados
podemos señalar que no existen diferencias estadísticamente significativas
entre las medias aritméticas de ambos grupos. En otras palabras, los niveles
intelectuales de los niños de quinto de primaria educados en colegios religiosos
no son diferentes a las de los educados en colegios laicos.
2.1.3
DOS
GRUPOS
INDEPENDIENTES
SUPONIENDO
VARIANZAS HETEROGENEAS
También podemos efectuar el contraste de medias en dos grupos
independientes si suponemos o mejor aún, comprobamos que las varianzas de
ambos grupos no son equivalentes en la población.
Por ejemplo, un psicólogo quiere investigar si la ansiedad ante los exámenes de
matemáticas en estudiantes de secundaria de colegios particulares (grupo 1) es
menor a la de los alumnos de colegios estatales (grupo 2). Toma una muestra
representativa de 150 alumnos de cada grupo y les aplica una escala de
41
ansiedad ante los exámenes de matemáticas. El grupo 1 presenta una media de
21.34 y una desviación estándar de 3.54. El grupo dos tiene una media de
23.45 y una desviación estándar de 8.30.
Para responder a la pregunta de investigación, se deben introducir los datos
correspondientes a ambos grupos en sus casillas respectivas como lo vemos en
la ilustración 6.
En cuanto a la hipótesis de investigación, esta es de tipo unilateral, pues se está
postulando que la media del grupo 1 es menor que la media del grupo dos.
Dicha hipótesis puede ser descartada si la media del grupo 1 es mayor o igual a
la media del grupo 2.
Por lo tanto, señalamos como hipótesis nula: “H 0 Grupo 1  Grupo 2”, con lo
cual tenemos un contraste unilateral izquierdo.
Ilustración 6: Contraste de medias, dos grupos independientes y varianzas
heterogéneas
Los resultados nos presentan un estadístico t de –2.86, que para 201 grados de
libertad, tiene un valor p = 0.002. estos resultados nos llevan a rechazar la
hipótesis nula y a aceptar la hipótesis alterna (grupo 1 < grupo 2). Es decir, el
nivel de ansiedad frente a los exámenes de matemáticas de los alumnos de
42
colegios particulares es inferior en términos estadísticamente significativos, al
nivel de ansiedad frente a los exámenes de matemáticas de los alumnos de
colegios estatales.
2.1.4
DOS GRUPOS RELACIONADOS
También es posible realizar contraste de dos medias cuando estas provienen de
dos grupos relacionados. Este es el caso de los diseños pre y post test, o cuando
se trabaja con grupos apareados (o emparejados).
Por ejemplo, un psicólogo está interesado en comprobar si un programa para
mejorar los niveles de atención reduce el número de errores cometidos por
alumnos de 1° y 2° de primaria, en una prueba estandarizada de matemáticas.
Para ellos toma una muestra de 37 alumnos y les aplica un pre-test. Los
resultados de ese pre-test (condición 1) muestran un promedio de 23.45 errores.
Luego de aplicar el programa para la mejora de la atención, se aplica una forma
paralela de la prueba de matemáticas y se obtiene una media de 18.34 errores.
¿Indican estos resultados una disminución significativa en el número de errores
cometidos?
Para responder a esta pregunta necesitamos algo más de información que la
usual. Esta información se refiere a la desviación estándar de los puntajes
diferenciales. El puntaje diferencial se obtiene al restar del puntaje obtenido en
el pre test de cada persona, el puntaje obtenido en el post test. Posteriormente
se calcula la desviación estándar de dichos puntajes diferenciales, a la cual se le
denomina desviación estándar de las diferencias.
43
Supongamos que luego de calcularla su valor resulta ser 8.86. Ya tenemos toda
la información necesaria, y sólo debemos introducirla en las casillas
correspondientes.
Como el psicólogo está interesado en comprobar si el programa disminuye la
cantidad de errores cometidos (media de errores en el grupo 1 > media de
errores en el grupo 2), se plantea una hipótesis nula unilateral derecha: media
de errores en el grupo 1  media de errores en el grupo 2.
Ilustración 7: Contraste de medias para dos grupos relacionados
Los resultados nos presentan un estadístico t de 3.51, que para 36 grados de
libertad, tiene un valor p = 0.001. estos resultados nos llevan a rechazar la
hipótesis nula y a aceptar la hipótesis alterna (grupo 1 > grupo 2). Es decir, el
número de errores cometidos disminuye, en términos estadísticamente
significativos, luego de aplicar el programa de mejora de la capacidad de
atención en los alumnos de 1° y 2° de primaria.
2.2
CONTRASTE DE PROPORCIONES
En el caso de la proporción, podemos realizar contrastes tanto con un valor
teórico (un solo grupo), como también podemos contrastar las proporciones
obtenidas en dos grupos independientes o en dos grupos dependientes.
44
2.2.1
UN SOLO GRUPO
Podemos comprara una proporción teórica con un valor obtenido en una
muestra. Además podemos obtener dos tipos de probabilidades, aquellas
asociadas a una distribución binomial cuando el tamaño de la muestra es
menor o igual a 25 (Pardo y San Martín, 1999) y las asociadas ala distribución
Z para los demás tamaños muestrales.
Por ejemplo, un psicólogo organizacional quiere saber si por lo menos el 51%
de los trabajadores de una empresa embotelladora de gaseosas, está satisfecho
con el nuevo programa de incentivos. Para ellos aplica una encuesta a una
muestra representativa de 200 trabajadores y obtiene una proporción de 0.47.
La hipótesis planteada es unilateral izquierda, pues se quiere saber si el valor de
la proporción en la muestra nos lleva a plantear que el valor en la proporción es
igual o mayor que 0.51.
Ilustración 8. Contraste de una proporción con un valor teórico
Como apreciamos en la ilustración 8, se obtuvo un valor z de –1.132, que tiene
un valor p = 0.129. estos resultados nos llevan aceptar la hipótesis nula. Es
decir, se pude pensar que por lo menos el 51% de los trabajadores de la
empresa están satisfechos con el nuevo programa de incentivos.
45
En el caso de tener una muestra pequeña, el lugar de realizar un contraste de
hipótesis basado en la distribución Z, se efectúa un contraste sobre la base de la
distribución binomial.
Por ejemplo si en un salón de 200 personas, se toma una muestra aleatoria
simple de 20 personas y se obtiene una proporción de .25 respuestas correctas a
un ítem, ¿es posible señalar que dicha proporción difiere de .33 respuestas
correctas al nivel de salón?
Igual que en el caso anterior, introducimos los datos en sus respectivas casillas,
y señalamos el tipo de hipótesis nula con la cual queremos trabajar.
Vamos a trabajar con una hipótesis bilateral, pues nos preguntamos si la
proporción obtenida en la muestra difiere de un valor teórico, sin postular la
dirección de dicha diferencia.
Ilustración 9: Contraste sobre una proporción, muestra pequeña
En este caso (ilustración 9), vemos un valor p = 0.617 para una distribución
binomial. Este resultados nos lleva a aceptar la hipótesis nula. Es decir, los
resultados obtenidos en la muestra no nos permiten señalar que la proporción
de aciertos al ítem en el salón sea diferente a .33.
46
2.2.2
DOS GRUPOS INDEPENDIENTES
Si queremos contrastar la diferencia de proporciones entre dos muestras
independientes, podemos hacerlo mediante este módulo.
Supongamos que se tiene dos muestras una compuesta por 172 personas que
han sido catalogadas como altamente introvertidas (grupo 1) según el NEO-PI
R y otra de 223 que son altamente extrovertidas (grupo 2) según la misma
prueba.
Se pregunta a ambas muestra si alguna vez han recibido psicoterapia. En el
grupo 1 el 24% la ha recibido, y en el grupo 2 el 33%. ¿Se puede afirmar que
ambos grupos difieren en la proporción de personas que han asistido a
psicoterapia?
Para responder a esa pregunta de investigación, introducimos los datos en las
casillas correspondientes (proporciones y tamaños de cada muestra). Además
señalamos que tipo de hipótesis es. Además se trata de una hipótesis bilateral,
pues no se postula que un grupo sea mayor que otro, sólo que ambas
proporciones son diferentes.
Ilustración 10: Contraste de proporciones, muestras independientes
47
En la ilustración 10 vemos un valor Z de –1.537 que tiene un valor p = 0.124.
Estos resultados nos llevan a aceptar la hipótesis nula. Es decir, el grupo de
personas altamente introvertidas no difiere del grupo de personas altamente
extrovertidas en cuanto a la proporción que ha recibido psicoterapia alguna vez.
2.2.3
DOS GRUPOS DEPENDIENTES
Se puede efectuar el contraste de hipótesis sobre dos proporciones que
provienen de una sola muestra medida en dos momentos diferentes. Para este
tipo de contraste no sólo se necesita el dato de la proporción, sino la cantidad
de personas que caen dentro de las categorías dicotómicas (1/0) en cada una de
las mediciones, de tal manera que se completa una tabla de doble entrada. Es
decir, se cruzan las categorías 1/0 de la primera medida, con las categorías 1/0
de la segunda medida, dando origen a una tabla de 2x2.
Supongamos que un psicólogo considera que el trastorno depresivo en los niños
puede estar asociado a los niveles de melatonina. Para ello toma una muestra
aleatoria de 100 niños entre 8 y 10 años con dicho diagnostico, y efectúa una
medición de los niveles de melatonina, dicotomizando los niveles en alto = 1 y
bajo = 0 (condición 1). Los resultados del pre test muestran que 40 de los niños
tenían niveles altos, mientras que los otros 60 presentaban niveles bajos.
Luego de un tratamiento psicoterapéutico, el trastorno remite totalmente en los
100 niños, a los cuales se les vuelven a medir los niveles de melatonina
(condición 2). De los 40 niños que antes presentaban niveles altos, 30 presentan
ahora niveles bajos, mientras que de los 60 que antes tenían niveles bajos, 40
presentan ahora niveles altos. ¿Puede señalarse que los niveles de melatonina
han cambiado significativamente?
48
Para responder a esta pregunta, sólo tenemos que insertar en las casillas
correspondientes los datos que completan la tabla de doble entrada, señalando
la frecuencia absoluta simple que queda en cada categoría, para cada una de las
condiciones, tal y como se muestra en la ilustración 11. También indicamos que
estamos frente a una hipótesis de tipo bilateral.
Ilustración 11: Contraste de proporciones, dos grupos relacionados
Los resultados observados en la ilustración 11 muestran un valor chi cuadrado
de 1.43, que posee una probabilidad de .232. Estos resultados nos llevan a
aceptar la hipótesis nula, y señalar que las proporciones de los niveles de
melatonina no han variado significativamente.
En el caso de muestras pequeñas el contraste se basa en las probabilidades de la
distribución binomial, en lugar de usar las probabilidades de una distribución
Chi cuadrado.
Por ejemplo, en un grupo de 20 matrimonios que asisten a terapia de pareja, 10
señalaron el un primer momento (con. 1) que su vida sexual era insatisfactoria
49
(1) y las otras 10 señalaron que era satisfactoria (0). Luego de 6 meses de
terapia, se volvió a aplicar la misma encuesta a los 20 matrimonios (con. 2). 9
de los 10 que antes señalaron insatisfacción (1) con su vida sexual, pasaron a
señalar ahora que estaban satisfechos con su vida sexual (0), y una de las
parejas que antes señaló que estaba satisfecha, pasó ahora a señalar que estaba
insatisfecha. ¿Podemos señalar que la proporción de matrimonios que se siente
insatisfecho con su vida sexual ha disminuido significativamente en estos seis
meses de terapia?
Nuevamente introducimos los datos en sus lugares respectivos, considerando el
pre test (con 1) como filas y el post test (con. 2) en las columnas.
El interés principal en este problema está vinculado a la efectividad de la
intervención, en tanto su capacidad para mejorar la vida sexual de las parejas,
por eso planteamos con hipótesis nula que la proporción de matrimonios
insatisfechos con su vida sexual es mayor o igual en el post tests al compararla
con la proporción del pre test. Es decir, es una hipótesis unilateral derecha.
Ilustración 12: Contraste de proporciones dependientes, para muestras
pequeñas
50
Los datos observados en la ilustración 12 nos arrojan un valor T igual a 9, que
tiene una probabilidad binomial asociada de .001. Estos resultados nos llevan a
rechazar la hipótesis nula y aceptar la alterna, es decir, podemos señalar que
luego de la terapia de pareja, la proporción de matrimonios satisfechos con su
vida sexual ha incrementado significativamente.
2.3
CONTRASTE DE VARIANZAS
En estos módulos podremos contrastar la presencia de diferencias
estadísticamente significativas en las varianzas obtenidas entre dos grupos
independientes o dependientes.
2.3.1
DOS GRUPOS INDEPENDIENTES
Esta parte nos permite comprobar si las varianzas obtenidas en dos muestras
independientes, tiene varianzas homogéneas al nivel de población. Esta
información puede ser útil tanto si queremos estudiar directamente el cambio en
la variabilidad como objeto de estudio, o si queremos usar esta información
para saber si tenemos que aplicar una prueba t de Student para grupos
independientes suponiendo
varianzas iguales o suponiendo varianzas
diferentes.
U n psicólogo aplicó una Escala de Actitudes hacia la Homosexualidad en dos
grupos de adolescentes, una de 58 provenientes de colegios religiosos y otro de
52 jóvenes de colegios laicos. Desea saber si debe aplicar un contraste de
medias entre ambos grupos, pero no sabe si es adecuado suponer varianzas
homogéneas o heterogéneas. Para ello aplica en los datos un contraste de
varianzas.
51
Al introducir los datos correspondientes en las casillas de la matriz de Excel, y
señalar que se trata de una hipótesis bilateral, vemos los siguientes resultados:
Ilustración 13: Contraste de varianzas, dos grupos independientes
Se ha obtenido un estadístico F igual a 1.32 que para 51 y 57 grados de libertad
tiene una valor p = 0.305. Estos resultados nos llevan a aceptar la hipótesis
nula. Es decir, podemos señalar que las varianza de ambos grupos no difieren
en términos estadísticamente significativos. Por lo tanto se puede aplicar una
prueba t que asume varianzas homogéneas.
2.3.2
DOS GRUPOS RELACIONADOS
En esta parte podemos contrastar hipótesis referidas a la diferencia de varianzas
que provienen de grupos relacionado, como los diseños pre y post test y los
grupos emparejados.
Por ejemplo, un psicólogo está interesado en saber si un programa de
entrenamiento en solución de problemas hace más homogéneo el rendimiento
de los alumnos de los cursos de estadística para psicólogos.
Para ello toma una muestra representativa de alumnos, les aplica una prueba de
competencia estadística y los somete al programa. La desviación estándar en el
pre test fue de 8.72 y la obtenida en el post test fue 5.19. Además la correlación
52
de los puntajes en ambos momentos fue de 0.69. ¿Puede señalarse a partir de
dichos datos que el rendimiento de los alumnos en estadística se hace más
homogéneo como consecuencia del programa de entrenamiento en solución de
problemas?
Para responder a dicha pregunta sólo tenemos que insertar los datos en la
sección correspondiente y señalar el tipo de hipótesis nula que estamos
interesados en contrastar. Note que en lugar de introducir los valores de la
varianza, estamos introduciendo los valores de la desviación estándar. El
programa la eleva automáticamente al cuadrado para efectuar el cálculo del
estadístico T sobre la base de las varianzas.
En este caso queremos probar que la varianza del pos test es menor que la
varianza del pre test, por lo tanto nuestra hipótesis nula señala que la varianza
del pre tests es menor o igual que la varianza del post test. Es una hipótesis
unilateral derecha.
Ilustración 14: Contraste de varianzas para grupos relacionados.
Obtenemos un valor t de 6.62 que para 78 grados de libertad tiene un valor p <
0.001. estos resultados nos llevan a rechazar la hipótesis nula y a aceptar la
alterna. Es decir, podemos señalar que luego del entrenamiento en solución de
problemas, el rendimiento de los niños se hace más homogéneo.
53
54
3.
REFERENCIAS
Amón, J. (1993) Estadística para psicólogos. Madrid: Pirámide.
Blalock, H. (1998) Estadística social. 6ta reimpresión. México: Fondo de
Cultura Cconómica.
Botella, J. León, O. y San Martín, R. (1996) Análisis de Datos en Psicología I.
Madrid: Pirámide.
Calzada, J. (1966) Estadística General con Énfasis en Muestreo. Lima:
Jurídica.
Elorza, H. (1987) Estadística para Ciencias del Comportamiento. México:
Harla.
Everitt, B. (1996) Making Sense of Statistics in Psychology. Oxford: Oxford
University Press.
Garrett, H. (1971) Estadística en psicología y Educación. Buenos Aires:
Paidós.
Guilford, J.P. y Fuchter, B. (1984) Estadística Aplicada a la Psicología y la
Educación. México: MCGraw Hill.
Hays, W. (1973) Statistics for the Social Science. Londrwes: Holt, Rinehart y
Winston.
Kerlinger, F. Y Lee, H. (2001) Investigación del comportamiento. 4ª ed.
México: McGraw Hill.
Martinez, C. (1997) Estadística y Muestreo. 8ª ed. Bogotá. Fondo Educativo
Interamericano.
Pardo, A. y San Martín, R. (1999) Análisis de datos en Psicología II. Madrid.
Pirámide
Spiegel, M. (1961). Theory and problems of statistics. New York: Schaum.
55
56
Descargar