PROGRAMA_Y_MATERIAL_DE_CUANTITATIVA

Anuncio
.UNIVERSIDAD LATINOAMERICANA Y DEL CARIBE
CARACAS
'
DOCTORADO EN CIENCIAS DE LA EDUCACIÓN
TERMINO
ACADÉMICO
PROGRAMA: CIENCIAS DE LA EDUCACIÓN
CÓDIGO:
UNIDAD CURRICULAR: MÉTODOS CUANTITATIVOS DE INVESTIGACIÓN
EDUCATIVA
HORAS/SEMANAL
TEÓRICAS
PRÁCTICAS
OTRAS
ACTIVIDADES
HORARIO: DOMINGOS DE 9:00 A.M. a 5:00 pm
UNIDADES
CRÉDITO
03CE0204
PRELACION:
NINGUNA
HORAS/TERMINO
3
24
NÚCLEO: SAN CARLOS
PROFESOR RESPONSABLE: DR. CARLOS CRESPO
1. INTRODUCCIÓN
El propósito del presente estudio consiste en conferirle a los aspirantes a los estudiantes
las competencias necesarias para desarrollar su trabajo de investigación a la luz de la
metodología cuantitativa en el marco del paradigma positiviasta. Para ello se enfatiza en el
trabajo teórico práctico a objeto de profundizar en los diferentes diseños de investigación en
el marco de la citada perspectiva epistemológica. Se espera que con el desarrollo de este
módulo el participante esté en capacidad de manejar los problemas ontológicos,
epistemológicos y metodológicos que implica el desarrollo de un proceso de investigación de
corte cuantitativa.
2.
OBJETIVOS GENERAL Y ESPECÍFICOS.
Objetivo General.
Reconocer, desarrollar y evaluar trabajos de investigación en el marco del paradigma positivista.
3. DESCRIPCIÓN DE LOS CONTENIDOS
-La epistemología como rama de la filosofía. El conocimiento y sus componentes. La relación entre
sujeto y objeto del conocimiento. El origen, el alcance y las posibilidades del conocimiento. El
concepto de paradigma. Los paradigmas el campo de las ciencias sociales. Las implicaciones
epistemológicas en el proceso de investigación en general y de la educación en particular.
El diseño de investigación. Los diseños cuantitativos: experimental y no experimenetal El muetreo
en la investigación cuantitativa. El muetreo probabilística y no probabilistico. La población y el
tamaño de la muestra. La estadística inferencial. La curva normal. Hipótesis estadísticas. Pruebas de
hipótesis. Pruebas para los diferentes tipos de estudio.
El SPSS (Statistical Package for Social Sciences.). Su studio, manejo, uso y aplicaci ón en la
organización y análisis de los datos.
Aplicación del SPSS en el desarrollo de estudios cuantitativos. Ejercicios. Revisión de trabajos finales.
4. ESTRATEGIAS METODOLÓGICAS
1.
2.
3.
4.
Clases expositivas y discusión de lecturas a cargo del docente del curso.
Resolución de problemas.
Revisión de trabajos de investigación.
Talleres socializados, lectura de ponencias..
5. PROGRAMACIÓN
SESIÓN
1.
2.
CONTENIDOS
La decisión epistemológica y sus implicaciones en el trabajo de investigación..
3.
Los diferentes tipos de diseños cuantitativos y sus implicaciones en el desarrollo de la
investigación.
Aplicación del SPSS en el desarrollo de estudios cuantitativos.
4.
La utilización del SPSS en trabajos prácticos. Resolución de problemas
6.PLAN DE EVALUACIÓN
Plan de Evaluación.
1.- Resolución de problemas en metodología cuantitativa (30%) 2.- Talleres
socializados contentivos de los diferentes tópicos estudiados. (30%) 3.Participacipación individual (20%) 3.- Presentación del trabajo final.. (20%)
7. BIBLIOGRAFÍA INICIAL
Blalock, H. (2000). Fundamentos de Investigación Social. 2a edición en español. México. Edit.
Thompson.
Hernández, R., Fernández, C. y Baptista, P. (2006) Metdología de la Investigación. Cuarte
edición. México, D. F. Me Graw Hill Interamericana.
Ruiz Olabuénaga, J., Austegui, A. Y Melgasa L. (S/f) Como Elaborar un Proyecto de
Investigación. Bilbao, España. Universidad de Desuto. ICE.
Visauta, B. (1997) Análisis Estadístico con SPSS para Windows. Madrid. Me Graw Hill.
Carlos E. Crespo H.
Docente-investigador
C.l:
FIRMA DEL DELEGADO DE CURSO
C.l.
Caracas 20 de abril de 2008
ESTADÍSTICA APLICADA A LA INVESTIGACIÓN
Dr. José Clemente Ventura
Material en validación
No se permite su reproducción
ESTADÍSTICA APLICADA A LA INVESTIGACIÓN
NOTAS DE CLASE
Dr. José Clemente Ventura
Este curso está dirigido a suministrar una visión general sobre el uso apropiado de un conjunto
de técnicas de análisis de datos. Para esto se identificarán varias de dichas técnicas, se
establecerán las situaciones en las cuales pueden emplearse y se darán ejemplos de su uso.
Los ejemplos que se desarrollarán en este material se refieren al archivo de datos
ORGANIZACIÓN el cual se anexa al final de estas notas.
CONCEPTOS BÁSICOS
La estadística es un área de la matemática relativa a la descripción análisis e interpretación de
datos numéricos obtenidos sistemáticamente por encuestas o experimentos. De acuerdo con
esta definición, la estadística tiene como objetivos:
1. Describir conjuntos de datos. Esto implica sintetizar datos, resumirlos de manera que el
conjunto original quede representado en forma condensada por unas pocas expresiones,
tablas y gráficos.
2. Analizar datos. El propósito del análisis de datos es el de aplicar técnicas estadísticas de
manera que produzcan respuestas a las preguntas de la investigación que se desarrolla.
La pregunta fundamental de análisis de datos es: ¿Cuál técnica de análisis debe emplearse?
La respuesta depende de (a)¿Cuáles son las preguntas de investigación? (b)¿Cuáles son las
técnicas estadísticas aplicables para responder dichas preguntas? (c)¿Cuál es el nivel de
medición de las variables?
El análisis de datos es una de las herramientas con amplio uso en investigación. Sin embargo,
debe tenerse presente que, tal como lo plantean Kinnear y Taylor (1998) el análisis más
complejo disponible no compensa una definición inadecuada del problema, un mal diseño
del estudio, un muestreo inadecuado, una deficiente medición, un mal trabajo de campo o
un procesamiento inadecuado; el análisis de datos es una más de las actividades a realizar
adecuadamente en una investigación.
3-. Interpretar los resultados obtenidos. Se trata de buscar el más amplio sentido a las respuestas
dadas en el análisis de datos. No es raro observar que a pesar de tener datos bien recogidos
y aplicar las técnicas apropiadas se lleguen a conclusiones erróneas
Con base en estos tres objetivos se tiene que la estadística comprende:
Estadística Descriptiva: Conjunto de técnicas para la reducción de datos cuantitativos a un
número pequeño de términos descriptivos más adecuados y de lectura más simple.
Los estudios descriptivos se dirigen principalmente a dar respuesta al ¿qué es?. Por ejemplo:
• ¿Qué tipo de actividades se cumplen en las clases de sexto grado y con cuál frecuencia?
• ¿Cuál es la tendencia del índice de crecimiento de una empresa en los últimos cinco años?
• ¿Tiene la población de un determinado pueblo una actitud positiva hacia la implantación de
un nuevo programa comunitario?
Estadística Inferencíal: Conjunto de técnicas dirigidas a la toma de decisiones respecto a la
población a partir de resultados obtenidos en muestras de esa población. La estadística
¡nferencial contesta preguntas tales como:
• ¿Mejora el rendimiento el uso de una nueva estrategia instruccional?
• ¿Qué factores determinan la elección de un determinado producto?
Dos términos implícitos en ia definición de estadística inferencial son:
Población: Conjunto de individuos, objetos o medidas que tienen alguna característica común
observable y forman el universo para el propósito del problema de investigación.
Muestra: Cualquier subconjunto de la población
Los métodos de estadística inferencial requieren especificar claramente la población a la cual
se aplica ia inferencia. La población puede ser claramente definida tal como ocurre cuando se
toma una muestra de habitantes de un barrio para determinar su opinión sobre el problema de
la inseguridad. Si la muestra está bien tomada, los resultados pueden generalizarse a la
población del barrio.
La población puede también ser conceptual; esta es una población que no existe pero que
puede ser hipotéticamente conceptualizada. Por ejemplo, supóngase que se quiere determinar
el efecto de un nuevo curso de estadística en estudiantes de Economía; en este caso, se
analiza el efecto del curso en varios grupos de estudiante de esta carrera. Los resultados se
generalizan a estudiantes con características similares a los grupos considerados.
Otros términos que requieren definiciones son:
Elemento o unidad de muestreo: Miembro individual de una población. No necesariamente es
un individuo; puede ser un evento, un grupo de sujetos o incluso una ciudad.
Dato: Para un elemento o unidad de muestreo, es un número o medida obtenida como
resultado de observación o experimento.
Parámetro: Número que resume una característica medible de la población el cual resulta de la
manipulación de datos a nivel poblacional. Por ejemplo: media aritmética (p), desviación
estándar (6), coeficiente de correlación (p).
Estadígrafo: Número resultante de la manipulación de datos en una muestra de acuerdo a
ciertos procedimientos específicos. Igual que en el caso anterior se tienen como ejemplos:
media aritmética (x), desviación estándar (s), coeficiente de correlación (r).
El cálculo de parámetros resulta difícil por lo complejo del manejo de la población. En
consecuencia, se calculan estadígrafos y se estiman parámetros a partir de ellos.
VARIABLES
Una variable es una propiedad en la cual los miembros de una población difieren entre si. Edad,
calificación, lugar de residencia, sueldo mensual son variables. La figura 1 muestra para el
archivo ORGANIZACIÓN un esquema de representación de datos, variables y elementos.
ID
DT
SEXO
1 A
2 A
i. A
4 A
M
M
M
5
6
7
8
9
10
A
A
A
A
A
CON
1m-
CA
ESP
AGR
ASO
EDAD
n*£
M
7 -•'
M
2 • ------ TIT
1
39
29
3
4 J _ ------ r*2
,
r
-9- ----- ' ¿1,
—7D
3
3 44
33
M
M
M
M
M
M
INv3
¿
-"2-.v --'- INS
2
INS
1 . ,ASI
2
INS
2.v.
ASI
I
2
2
2
1
1
2
^sn
2o
28
33
33
27
32
10
23
29
19
22
25
SCT
SI
2 4 _ JX- -----36
26
?1
23
í*.
31 •
32
26
24
25
26
20
3o
27
29
27
27
36
Dato
Elemento
Figura 1: Esquema de representación de
se obtiene a partir de la
datos.
forma en la cual se define
Para los efectos de este taller, las
conceptual
variables se clasificarán en:
operacionalmente
Variable continua: Puede tomar
variable.
cualquier valor entre dos valores
dados. Por ejemplo: promedio
y
una
Los niveles que se tienen
son:
de calificaciones, peso, estatura.
Variable discreta: Toma sólo
valores específicos. Por ejemplo:
número de hijos, calificaciones.
Nominal: Los elementos
se clasifican en dos o
NIVELES DE MEDICIÓN
más
categorías
mutuamente excluyentes
El nivel de medición de una
y totalmente exhaustivas
variable es importante ya que los
de
estadísticos a utilizar dependen
elemento se clasifica en
del mismo. El nivel de medición
sólo
modo
una
que
cada
categoría
y
todos
los
elementos
clasificados.
Por
secciones
de
estén
calificaciones, etc.
ejemplo:
un
Nivel
curso,
Diferentes
Rangos
Se
mide distancia
entre Cero
absoluto
asignaturas en un determinado
año escolar, departamentos en
una empresa.
__________ c
ategorías
____________ c
ategorías _____
Nominal
X
Ordinal
X
X
Intervalo
X X
Razón ____________ x__________ x ________
Ordinal: Los elementos no sólo se
clasifican en categorías sino que
entre las categorías existe un
orden determinado por el grado
en el cual cada categoría posee
Tabla 1: Características de los
cuatro niveles de medición
una característica de Interés. Sin
ESTADÍSTICA
DESCRIPTIVA
embargo, no se establece cuanto
más o menos tiene una categoría
respecto a otra, sólo se tiene un
orden
entre
categorías.
ejemplo:
nivel
de
categoría
académica
Por
estudios,
de
La primera etapa en el
análisis de datos es la
de describir o reducir
los
datos. La estadística
docentes,
prestigio
de
descriptiva ofrece un
profesiones,
clasificación
de
conjunto de técnicas y
empleados.
procedimientos para este
Intervalo: Conjunto de valores
fin, los cuales se analizan
numéricos para los cuales la
a continuación.
distancia
entre
sucesivos
es
constante
y
dos
valores
FRECUENCIAS Y
de
tamaño
PORCENTAJES
medible.
Estas
Para
caracterizar
un
escalas tienen un punto de
conjunto
origen arbitrario. Por ejemplo: la
generalmente se utilizan
mayoría de las pruebas y tests
frecuencia y porcentajes.
utilizados
y
La frecuencia de una
evaluación de eficiencia. Razón:
categoría se define como
Representa el más alto nivel de
el número de datos en la
medición.
las
categoría; por ejemplo,
niveles
el número de sujetos con
anteriores más un punto de
nivel de doctorado en el
origen absoluto, por lo cual la
archivo ORGANIZACIÓN
razón entre dos medidas tiene
es
significado. Escalas de este nivel
frecuencia.
en
Educación
Tiene
características
de
todas
los
son: peso, estatura, promedio de
9,
de
ésta
datos
es
la
El porcentaje es una medida
condensada.
relativa que se obtiene al dividir
acuerdo
la frecuencia entre el total de
escala que se utiliza se
casos y multiplicarla por 100.
tiene
Por ejemplo, el porcentaje de
tablas
doctores
apropiados.
en
el
archivo
ORGANIZACIÓN es:
al
un
De
tipo
conjunto
y
de
de
gráficos
VARIABLES NOMINALES U
ORDINALES
g
—
x100=12,5
que se
expresa
como 12,5%
Corno tablas se tienen
las
distribuciones
frecuencia
de
con
frecuencias absolutas y
relativas
(porcentajes).
El porcentaje tiene la ventaja
Una
de que al ser una medida
frecuencias
relativa
resumen en forma de
permite
comparar
distribución
es
de
un
Por
tabla de un conjunto de
ejemplo, supóngase que se tiene
datos en el cual se
otro conjunto de 50 datos con 8
muestra la frecuencia de
doctores.
cada
distribuciones
El
diferentes.
porcentaje
de
una
de
las
doctores en el segundo conjunto
categorías de la variable
es
en
tabla
—
x
1
0
0
=
1
6
%
5
0
consideración.
2
presenta
distribución
de
segundo
de
doctores
grupo.
Si
una
medida
en
escala nominal.
Tabla de
frecuenc
ia
NIVEL
DE
ESPECI
ALIZAC
IÓN
Relativamente hay un mayor
número
la
de
frecuencias
variable
La
en
el
bien
la
Frecuencia
cantidad es menor también lo es
el total de casos, por lo que el
porcentaje es mayor.
Válidos
PREORADO
MAESTRÍA
DOCTORADO
Total
TABLAS Y GRÁFICOS
Se utilizan para reducir datos y
presentarlos
en
forma
Tabla 2: Distribución de
frecuencias de la variable Nivel
de especialización
27
36
Porcentaje
37.5
50.0
9
12.5
72
100.0
5
0
Las distribuciones de frecuencias
responden preguntas como:
Relativamente
hay
• ¿Cuántos usuarios de la marca
mayor
pueden considerarse leales?
doctores en el segundo
• ¿Qué porcentaje de
grupo.
número
Si
un
de
bien
la
estudiantes puede
cantidad
considerarse como usuarios
también lo es el total de
frecuentes de la
casos, por lo que el
biblioteca, usuarios medios,
porcentaje es mayor.
es
menor
usuarios esporádicos y no
TABLAS Y GRÁFICOS
usuarios?
• Cuál es la distribución del
Se utilizan para reducir
ingreso de los clientes?
datos y presentarlos en
Un gráfico sirve como ayuda
forma condensada. De
visual en la presentación de
acuerdo
datos estadísticos. En el caso de
escala que se utiliza se
variables nominales u ordinales
tiene
se usan básicamente dos tipos:
tablas
gráficos de barras y diagramas
apropiados.
circulares. La figura 2 presenta
VARIABLES NOMINALES U
ORDINALES
dos tipos de gráficos de barras
y
un
gráfico
variables
circular
del
para
archivo
al
un
tipo
conjunto
y
de
de
gráficos
Corno tablas se tienen
las
distribuciones
de
ORGANIZACIÓN.
frecuencia
El porcentaje tiene la ventaja
frecuencias absolutas y
de que al ser una medida
relativas
relativa
Una
permite
distribuciones
comparar
diferentes.
Por
con
(porcentajes).
distribución
frecuencias
es
de
un
ejemplo, supóngase que se tiene
resumen en forma de
otro conjunto de 50 datos con 8
tabla de un conjunto de
doctores.
de
datos en el cual se
doctores en el segundo conjunto
muestra la frecuencia de
es
cada
El
porcentaje
—
x
1
0
0
=
1
6
%
una
de
las
categorías de la variable
en
tabla
consideración.
2
presenta
distribución
frecuencias
variable
La
la
de
de
medida
una
en
DISTRIBUCIÓN POR ESPECIALIZACIÓN
escala nominal.
Tabla de
frecuencia NIVEL
DE
ESPECIALIZACI
ÓN
Frecuencia
Válidos
PREORADO
MAESTRÍA
27
36
37.5
50.0
9
12.5
72
100.0
DOCTORADO
Total
Tabla 2: Distribución de frecuencias de la
variable Nivel de especialización
Las distribuciones de frecuencias
responden preguntas como:
• ¿Cuántos usuarios de la marca
pueden considerarse leales?
• ¿Qué porcentaje de
estudiantes puede
considerarse como usuarios
frecuentes de la
biblioteca, usuarios medios,
usuarios esporádicos y no
usuarios?
• Cuál es la distribución del
ingreso de los clientes?
Un gráfico sirve como ayuda
visual en la presentación de
datos estadísticos. En el caso de
variables nominales u ordinales
se usan básicamente dos tipos:
gráficos de barras y diagramas
circulares. La figura 2 presenta
dos tipos de gráficos de barras
y
un
variables
gráfico
circular
del
Porcentaje
para
archivo
ORGANIZACIÓN.
DISTRIBUCIÓN POR CATEGORÍA ACADÉMICA
INSTRUCTOR ASISTENTE AGREGADO ASOCIADO
TTTULAR
CATEGORÍA ACADÉMICA
DISTRIBUCIÓN POR CATEGORÍA ACADÉMICA Y POR SEXO
SEXO
CU MASCULINO
FEMENINO
INSTRUCTOR
AGREGADO
ASISTENTE
T IT UL A
ASOCIADO
CATEGORÍA ACADÉMICA
Figura 2: Gráficos para variables nominales y ordinales
Al elaborar un gráfico de barras deben considerarse las siguientes convenciones:
1. Todas las barras deben ser del mismo tamaño.
2. Las separaciones entre barras deben ser iguales y, a lo sumo, de la mitad del ancho
de las
barras.
3. El eje de las abscisas (frecuencias) debe medir entre 50 y 70 % del eje de las
ordenadas
(categorías).
4. El eje de las abscisas (frecuencias) debe comenzar en cero.
Cuando se irrespeta alguna de estas condiciones se producen errores que dan origen a
mala interpretación de los datos (ver ejercicio 10 de Estadística Descriptiva).
VARIABLES DE INTERVALO Y DE RAZÓN
Como tabla generalmente se utiliza la distribución de frecuencias con frecuencias
absolutas y relativas, simples y acumuladas. Como gráficos, además de los gráficos
utilizados con las variables nominales u ordinales, se tienen el polígono de frecuencias y
el histograma los cuales se muestran en la figura 3.
Tabla de frecuencias de Satisfacción con institución
Frecuencia
Válidos
Porcentaje
Porcentaje
válido
Porcentaje
acumulado
20-22
6
8,3
8,3
8,3
23-25
9
12,5
12,5
20,8
26-28
13
18,1
18,1
38,9
29-31
9
12,5
12,5
51,4
32-34
10
13,9
13,9
65.3
35-37
9
12,5
12,5
77,8
38-40
10
13,9
13,9
91.7
41-43
6
8,3
8,3
100,0
Total
100,0
Tabla 3: Tabla de frecuencias de una variable de intervalo
Histograma de Satisfacción con la institución
20-22
23-25
26-28
29-31
32-34
35-37
38-40
41-43
Satisfacción con institución
Polígono de frecuencias de Satisfacción con institución
21
24
27
30
Satisfacción con institución
Figura 3: Histograma y polígono de frecuencias de la variable Satisfacción con la institución
Para los histogramas y los polígonos de frecuencias también son válidas las condiciones 1, 3 y 4
enunciadas para los gráficos de barras (página 6).
Con respecto a la tabla de frecuencias el número de clases a considerar debe situarse entre 5 y
15, dependiendo del número de datos y el rango de los valores. Menos de 5 clases implica
pérdida de información por exceso de agrupamiento; más de 15 clases lleva a diluir la
distribución. Las clases se construyen de tal modo que los intervalos sean de igual tamaño y no
se sobrepongan (mutuamente excluyentes).
Al elaborar un gráfico como un polígono de frecuencias puede observarse la distribución de los
datos. Puede observarse si los datos se congregan alrededor de uno o más puntos o si se
distribuyen simétricamente.
Si los datos toman la forma de una curva normal muchos de los puntajes se concentran cerca
del "medio" de los puntajes observados y hay un decrecimiento gradual y simétrico en ambas
direcciones desde el área media de puntajes, la curva semeja una campana.
En una distribución sesgada muchos de los puntajes terminan siendo "altos" (o bajos) con un
pequeño porcentaje en la otra dirección. Estas no son distribuciones simétricas.
Si los puntajes tienden a concentrarse alrededor de más de un punto, se tiene una distribución
multfmodal.
Si los puntajes se distribuyen más o menos equitativamente a lo largo del continuo de valores,
entonces se tiene una distribución rectangular.
a) curva normal
c) distribución multimodal Figura
b) distribuciones sesgadas
d) distribución rectangular
4: Tipos de distribuciones de datos
MEDIDAS DE POSICIÓN
Una medida de posición provee información sobre la localización de parte de la distribución.
Percentil: Indica el puntaje por debajo del cual está un porcentaje dado de datos de una
distribución. Por ejemplo: PercentiUo = 120 significa que por debajo del puntaje 120 está el 60%
de los casos.
Rango percentíl: Indica el porcentaje de datos de una distribución por debajo de un valor
dado. Por ejemplo: Rp45=72 significa que el 72% de los casos está por debajo del puntaje 45.
El rango percentil toma valores entre 1 y 100 mientras que el percentil toma valores en el rango
de la escala de medición.
La tabla 4 muestra los percentiles 10, 25 50 y 75 para las variables Edad Autoestima, Satisfacción
con la institución y Satisfacción con condiciones de trabajo del archivo ORGANIZACIÓN,
producidos por el paquete estadístico SPSS.
Estadísticos
N
Percentiles
Perdidos
EDAD
AUTOESTIMA
SATISFACCIÓN CON
INSTITUCIÓN
SATISFACCIÓN CON
CONDICIONES DE
TRABAJO
10
25
50
75
Válidos 72
0
29.30
32.00
36.00
40.00
72
0
15.30
18.00
21.50
26.00
72
0
23.00
26.00
31.00
37.00
72
0
20.00
24.00
30.00
38.00
Tabla 4: Percentiles 10, 25 50 y 75 de variables del archivo ORGANIZACIÓN
MEDIDAS DE TENDENCIA CENTRAL
Una medida de tendencia central es un valor numérico que se usa para describir el "centro" de
una distribución de datos. El "centro" puede ser determinado de varias maneras; las medidas
más comunes para describirlo son la moda, la mediana y la medía aritmética. Las medidas de
tendencia central comúnmente se les llama promedios.
Moda (Mo): Se define como el puntaje o la categoría de una distribución con la frecuencia más
alta. Puede ocurrir que se tenga más de un puntaje o categoría con la frecuencia más alta; en
este caso se tiene más de una moda. Además, la moda es inestable, basta que cambien
algunos valores para que la moda cambie de valor o de categoría. Es la única medida posible
con variables nominales.
Mediana (Md): Se utiliza con variables ordinales o de orden superior. Se define como el punto
que divide la distribución en dos partes iguales; 50% por encima y 50% por debajo de dicho
valor. La mediana no toma en cuenta cada puntaje de la distribución por lo que no considera
valores muy extremos que pudieran existir.
Media aritmética (x): Se utiliza con variables de intervalo o de razón. Es el punto de equilibrio de
una distribución; esto implica que la suma de valores por encima de la media es igual a la suma
de valores por debajo de ella. Su expresión matemática está dada pon
_Zx¡
Se suman todos los datos de la distribución y se divide entre el número de casos. Como la media
considera todos los datos, responde a la posición de cada puntaje de la distribución. & además
sensible a valores extremos.
Comparación de las medidas de tendencia central
No existe una mejor medida de tendencia central. La selección de la medida depende del
problema que se está estudiando y del nivel de medición de la variable que se analiza.
Cuando la variable es de intervalo o de razón y la distribución es simétrica y unimodal, las tres
medidas coinciden. Si la distribución es asimétrica, las medidas son diferentes; en tal caso, dada
la sensibilidad de la media a valores extremos, se prefiere la mediana cono m edida de
tendencia central.
La tabla 5 muestra la media aritmética, la mediana y la moda para un conjunto de variables del
archivo ORGANIZACIÓN.
Estadísticos
N
EDAD
AUTOESTIMA
Válidos
72
Perdidos
0
72
0
M^tfja"^^
Mediana
( V 36^4)
36.00
SATISFACCIÓN CON
INSTITUCIÓN
Moda
35
22.15
21.50
18
31.24
31.00
33"
30.61
30.00
20
SATISFACCIÓN CON
CONDICIONES DE
TRABAJO
72
a
0
• Existen varías modas. Se mostrará el menor de los valores.
7ajb/a 5: Medidas de tendencia central para variables del archivo ORGANIZACIÓN.
MEDIDAS DE VARIABILIDAD
Las medidas de tendencia central dan solo información sobre el "centro" de una distribución.
Otra característica de la distribución que es necesario conocer se refiere a como los datos se
distribuyen alrededor de ese "centro"; las medidas de variabilidad o dispersión proporcionan
información sobre la distribución de datos de una variable.
El término "variabilidad" puede usarse para establecer si una distribución de puntajes es
homogénea (si los puntajes son similares), heterogénea (si los puntajes son disímiles) o se
encuentra en algún punto entre estas posiciones extremas.
Las medidas de variabilidad más utilizadas son:
Rango (R): Se defina como la diferencia entre el mayor y el menor valor de una distribución:
R =
XM
- Xm
Como se basa en los dos valores extremos es altamente inestable. Además, no refleja el patrón
de dispersión de la distribución.
Rango Intercuartll: Comprende el 50% intermedio de las observaciones, Se define como la
diferencia entre el percentil 75 y el percentil 25. Dado que no considera valores extremos, se
prefiere al rango como medida de dispersión; es apropiado cuando se usa la mediana.
Varianza y desviación estándar: Éstas son medidas de dispersión que consideran cada caso de
la distribución. La desviación estándar es una medida del grado en el cual, en promedio, los
puntajes se desvían de la media aritmética; la varianza es el cuadrado de la desviación
estándar.
s
n-1
Como consideran todos los puntajes de una distribución, estas medidas son afectadas por
valores extremos.
Coeficiente de variación: Expresa la variación relativa de una distribución. Simbólicamente se
define como:
cv=4ioo
x
Como el coeficiente no tiene unidades, es útil para comparar la distribución de distintas
distribuciones.
La tabla 6 presenta medidas de dispersión para el conjunto de variables que se está
considerando.
Estadísticos
Coeficiente
N
Válidos
de
Perdidos
1 Desv^tfp^
Varianza
Rango
Mínimo
Máximo
EDAD
72
0
(5.23)
27.31
26
27
53
(443
AUTOESTIMA
72
0
5.58
31.17
23
10
33
^^-_
SATISFACCIÓN CON
INSTITUCIÓN
72
0
6.53
42.58
23
20
43
20.90
72
0
8.46
71.51
30
15
45
27.64
SATISFACCIÓN CON
CONDICIONES DE
TRABAJO
Tabla 6: Medidas de dispersión
PUNTAJES ESTANDARIZADOS
Se utilizan para medir cuan lejos queda un puntaje de la media aritmética de la distribución en
términos de unidades de desviación estándar.
Los puntajes estandarizados se refieren a la posición relativa que ocupa el dato en la
distribución, no al puntaje absoluto. Son útiles para determinar y comparar la posición relativa
de un sujeto en dos o más distribuciones.
Una distribución de puntajes estandarizados tiene media aritmética igual a 0 y desviación
estándar igual a'l:
=1
z=0
La tabla 7 presenta los puntajes estandarizados, además de la identificación del sujeto y los
puntajes originales para la variable Satisfacción con la institución (SI). Obsérvese que mientras
los puntajes originales varían entre 20 (caso 64) y 42 (caso 37), los valores estandarizados varían
entre-1,68718 y 1,84056.
ID
1
2
3
4
5
6
1
8
9
10
11
12
13
14
15
16
17
18
SI
24
26
21
23
32
26
24
25
26
20
26
21
27
38
31
31
32
33
ZSI
-1.10896
-.80245
-1.56872
-1.26221
.11707
-.80245
-1.10896
-.95571
-.80245
-1.72198
-.80245
-1.56872
-.64920
1.03659
-.03618
-.03618
.11707
.27032
ID
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
SI
42
38
27
33
42
38
33
28
20
27
23
23
29
28
33
25
29
34
ZSI
1.64961
1.03659
-.64920
.27032
1.64961
1.03659
.27032
-.49595
-1.72198
-.64920
-1.26221
-1.26221
-.34269
-.49595
.27032
-.95571
-.34269
.42358
ID
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51 •
52
53
54
SI
43
33
33
37
35
36
27
30
37
43
36
27
40
38
35
28
37
41
ZSI
1.80286
.27032
.27032
.88334
.57683
.73008
-.64920
-.18944
.88334
1.80286
.73008
-.64920
1.34310
1.03659
.57683
-.49595
.88334
1.49635
ID
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
SI
40
37
42
38
28
38
37
33
30
20
39
29
38
20
23
30
30
23
ZSI
1.34310
.88334
1.64961
1.03659
-.49595
1.03659
.88334
.27032
-.18944
-1.72198
1.18985
-.34269
1.03659
-1.72198
-1.26221
-.18944
-.18944
-1.26221
Tabla 7: Puntajes estandarizados.
DISTRIBUCIONES BIVARIADAS
Cuando se mide más de una variable es común determinar la naturaleza de la relación entre
pares de variables, preguntar si el conocimiento de puntajes individuales en una variable da
información respecto a la posición individual en la otra variable; si los incrementos o
decrementos en una variable están relacionados con incrementos o decrementos en la otra.
También son de interés la dirección y la fuerza de la relación.
Una distribución bivariada representa los valores de dos venables sobre los mismos sujetos.
Puede ser representada por tablas y gráficos, los cuales dependen del nivel de medición de las
variables.
Una tabla D'ivariada consta de filas en las cuales se representan las categorías de una variable y
columnas en las cuales se representan las categorías de la otra variable.
Cuando una de las variables es nominal u ordinal (categórica), la otra variable-debe ser
i
también categórica; en caso de ser de intervalo o de razón se reduce a unas pocas categorías,
agrupando valores. En este caso su representación tabular viene dada por una tabla de
contingencia, tal como se muestra en la tabla 8.
Tabla de contingencia CATEGORÍA ACADÉMICA *
CONDICIÓN
Recuento
Tabla de contingencia NIVEL DE ESPECIALIZACICN * EDAD
CONDICIÓN
CATEGORÍA
ACADÉMICA
Recuento ____ ^ _____________________________________________
ORDINARIO
OTROS
Total
12
7
12
12
24
19
AGREGADO
5
9
14
ASOCIADO
4
e
10
INSTRUCTOR
ASISTENTE
TITULAR
Total
1
4
5
29
43
72
EDAD
Ss|o
27-36
NIVEL DE
ESPECULACIÓN
Alto
46-53
Total
27
9
72
PREGRADO
DOCTORADO
Total
a) dos variables categóricas
M
e
d
io 3644
18
8
W
«
7
35
b) una variable categórica y una variable
de Intervalo recodificada
33
Tabla de contingencia satisfacción con Institución * Satisfacción con Condiciones de Trabajo
Recuento
Satisfacción con Condiciones de Trabajo
Muy
Insatisfecho
27-32
satisfacción
con
Institución
Muy
insatisfecho
20-24
3
21
3
7
1
Insatisfecho
25-29
7
1
7
2
3
20
Med. satisf.
30-34
4
2
1
5
3
15
Satisfecho
35-39
2
4
4
Muy
satisfecho
40-44
Total
Med.
Muy Insatisfecho
Satisfecho
satisfecho 15-20
21-26
39-45
Total
saüsf.
33-38
3
13
9
1
2
20
6
2
14
16
8
16
72
c) dos variables de intervalo recodificadas
Tabla 8: Ejemplos de tablas de contingencia
En la primera tabla se incluyen las venables Condición y Categoría académica, ambas
categóricas. En la segunda tabla se tienen las variables Especialización (ordinal) y Edad (razón)
que se transformó en variable categórica al definir las categorías: Baja (27 a 35 años). Media (36
a 44 años) y Alta (45 a 53 años). La tercera tabla incluye variables (SI y SCT) recodificadas.
En el cruce de una categoría de la primera variable con una categoría de la segunda se tiene
la frecuencia de casos que cumplen ambas condiciones. Por ejemplo, en la segunda tabla se
tienen 18 sujetos con nivel de maestría y edad entre 35 y 44 años.
Una forma frecuente de resumir información es con el uso de porcentajes, de este modo
pueden compararse diversas categorías de diferente tamaño. La tabla 9 presenta los dos
primeros casos de la tabla 8 como porcentajes; el primero respecto al total de cada fila y el
segundo respecto al total de cada columna.
Tabla de contingencia CATEGORÍA ACADÉMICA' CONDICIÓN
Tabla d« contingencia NIVEL DE ESPECIALIZACIÓN • EDAD
Recuento_________________________________________________________
CONDICIÓN
ORDINARIO
CATEGORÍA
ACADÉMICA
OTROS
EDAD
Total
100
INSTRUCTOR
ASISTENTE
AGREGADO
50 36,8
35,7
ASOCIADO
TITULAR
Total
Recuento
40
20
40,3
50 63,2
S4.3
100
SO
SO
100
100
5S.7
100
NIVEL DE
PREGRADO
ESPECULACIÓN
^^
DOCTORADO
100
Total
a) Porcentaje respecto a filas
Bajo 27- Medio
35
36-44
51,4
24,2
Alto 45Total
53
25,0
37,5
48,8
54,8
21,2
25,0
50,0
50,0
12,5
100
100
100
100
b) Porcentaje respecto a columnas
Tabla 9: Tablas de contingencia expresadas en porcentajes
En la primera tabla pueden compararse las categorías académicas respecto a la condición del
docente. En la segunda se comparan los porcentajes de los grupos de edades respecto al nivel
de especialización de los docentes.
Cuando las variables son de intervalo o de razón, la distribución bivariada puede representarse
gráficamente mediante un diagrama de dispersión. En este tipo de gráfico los dos ejes de un
plano cartesiano representan las dos variables de la distribución; cada caso se incluye si tiene
puntajes en las dos variables; la representación de cada sujeto está dada por un punto donde
se cortan las dos rectas que pasan por el puntaje del sujeto en cada eje y son paralelas al otro
eje.
Un diagrama de dispersión muestra la relación entre dos variables a través del patrón que se
forma por el conjunto de puntos. La figura 5 muestra el diagrama de dispersión con las variables
Autoestima (AE) y Satisfacción con condiciones de trabajo (SCT).
DIAGRAMA DE DISPERSIÓN
D
O
O
O
a o
a
D
D QB o
f
1
8
O
30 1
oa
o
a
a
Q
o
X
5
10
15
20
25
30
35
AutoestimaF/gura
5: Diagrama de dispersión de AE con SCT.
En un diagrama de dispersión se pueden analizar tres aspectos:
- Forma: las relaciones pueden ser nulas, lineales o curvilíneas. En el ejemplo anterior la relación
es lineal ya que puede ajustarse una línea recta a los puntos representados.
- Dirección: las relaciones lineales pueden ser positivas o negativas. En el primer caso, a
medida que crecen los puntajes de una variable también lo hacen los puntajes de la otra
variable. En las relaciones negativas a medida que crece el puntaje de una variable, los de
la otra disminuyen. En el ejemplo, la relación es positiva.
- Precisión: se refiere a la dispersión de los puntos en torno a la recta o curva que se ajusta a
ellos. Alta precisión implica que los puntos se encuentran muy próximos a la recta o curva
que los representa. En el ejemplo se tiene una dispersión moderada.
La figura 6 representa otros tipos de relación adicionales a la mostrada en la figura 5.
a) lineal negativa
•r -1
c) curvilínea
d) no relación
Figura 6: Diagramas de dispersión para varías formas de relación entre dos variables
Relación entre variables
En una distribución bivariada puede medirse la fuerza de la asociación entre las dos variables;
para esto se utiliza un coeficiente bivariado, estadístico que mide como varían conjuntamente
ambas variables.
Cuando la relación entre variables es lineal, el coeficiente es un número que varía entre -1 y 1. Si
las dos variables están altamente relacionadas, el valor del coeficiente se aproxima a 1 o -1
dependiendo de si la relación es positiva o negativa (ver figura 5 y figura 6a); cuando el valor se
aproxima a O, significa que la relación lineal entre las variables tiende a desaparecer.
Los coeficientes más utilizados son:
- El coeficiente de correlación de Pearson para variables de intervalo o razón.
- El coeficiente de correlación de Spearman cuando por lo menos una de las variables es
ordinal; la otra variable es ordinal o de orden superior, en cuyo caso la variable se transforma
en ordinal.
La tabla 10 incluye en primer lugar los coeficientes de correlación de Pearson entre las variables
Autoestima, Edad, Satisfacción con condiciones de trabajo y Satisfacción con la institución. El
valor más alto se da entre Autoestima y Satisfacción con condiciones de trabajo (0,416); el más
bajo entre Autoestima y Edad (0,112). La segunda parte se refiere a la significación de estos
coeficientes la cual se analizará al estudiar Estadística Inferencia!. La última parte incluye el
número de casos en cada cálculo.
Correlaciones
AUTOESTIMA
Correlación
de Pearson
AUTOESTIMA
EDAD
SATISFACCIÓN CON
CONDICIONES DE TRABAJO
SATISFACCIÓN CON
INSTITUCIÓN
Slg.
(bilateral)
AUTOESTIMA
EDAD
SATISFACCIÓN CON
CONDICIONES DE TRABAJO
SATISFACCIÓN CON
INSTITUCIÓN
N
SATISFACCIÓN CON
DE
CON EDAD
INSTITUCIÓN
1.000
.112
.112
1.000
TISFACCIt CONDICIONES
TRABAJO
.418"
.388"
.122
.093
.416"
.122
1.000
.171
.398"
.093
.171
1.000'
.000
.001
.348
.348
309
.438
,151
.000
.309
•
.001
.438
.151
AUTOESTIMA
72
72
72
72
EDAD
72
72
72
72
SATISFACCIÓN CON
CONDICIONES DE TRABAJO
72
72
72
72
SATISFACCIÓN CON
INSTITUCIÓN
72
72
72
72
*'• La corraiscjcn es significativa al mve¡ 0,01 (bilateral)
Tabla 10: Correlaciones de Pearson.
La tabla 11 presenta el coeficiente de Spearman entre las variables Categoría académica
(ordinal) y Edad (razón); este coeficiente es rs=0,799. El segundo y tercer cuadro son similares al
caso anterior.
Correlaciones
CATEGORÍA
ACADÉMICA
Rho de
Spearman
correlación
Coeficiente
de
CATEGORÍA
ACADÉMICA
EDAD
1.000
EDAD
.799**
1.000
. 799"
Sig.
(bilateral)
N
CATEGORÍA
ACADÉMICA
EDAD
.000
.000
CATEGORÍA
ACADÉMICA
72
72
EDAD
72
72
"• La correlación es significativa al nivel 0,01 (bilateral)
Tabla11: Coeficiente de correlación de Spearman
La magnitud de un coeficiente de correlación es sensible a varios factores:
1. Unos pocos pares de valores extremos pueden influenciar un coeficiente.
2. Mediciones imprecisas en alguna de las variables pueden reducir un coeficiente.
3. Cuando se reduce el rango de una de las venables, puede reducirse un coeficiente. Por
ejemplo, si se consideran sólo aquellos aspirantes a ingresar a la educación superior que
están en el tercio superior de puntajes, posiblemente muestre baja correlaci ón con el
rendimiento académico en el primer año de estudios superiores.
4. La combinación de distintos grupos con diferentes medias puede influenciar el coeficiente
de correlación.
En la figura 7 se representan las situaciones descritas.
a) Influencia de valores extremos
b) Restricción de rango
r=0
•••¡r=+
• • *»
pr$wi¿'-k^¿v
$$PS?$
r=-
c)Combinación de grupos
Figura 7): Factores que influyen en un coeficiente de correlación.
Un punto importante a tener en cuenta es que la ausencia de relación entre dos variables
implica un coeficiente de correlación nulo; sin embargo, el reciproco no es necesariamente
cierto: una relación puede ser curvilínea perfecta y su coeficiente de correlación lineal es nulo.
Por otra parte, la correlación no implica causalidad; sólo indica la existencia de una relación
entre variables sin especificar en lo absoluto cuál es la causa y cuál el efecto. En ocasiones se
presentan relaciones sin sentido con coeficientes de correlación relativamente "altos". Por
ejemplo, para sujetos menores de 25 años existe una relación positiva entre el tamaño del
dedo pulgar y la distancia máxima que se recorre en un minuto. Este tipo de relación se
llama relación espuria y generalmente se debe a la influencia de una o más variables
llamadas variables intervinientes. En el ejemplo anterior, es evidente que la edad
influye en ambas variables provocando la relación entre ellas; si se elimina la influencia de la
edad, la relación entre tamaño del dedo pulgar y la distancia máxima que se recorre en un
minuto será muy próxima a 0.
El coeficiente de correlación parcial entre dos variables controlando por una tercera variable o
grupo de variables que puedan tener influencia sobre las dos primeras, permite manejar
situaciones como la descrita. La tabla 12 incluye el coeficiente de correlación parcial entre las
variables Satisfacción con la institución y Satisfacción con condiciones de trabajo controlando
por la influencia de Autoestima; obsérvese que el coeficiente de correlación de Pearson baja
de r=0,151 (tabla 10) a r=0,061, la diferencia es debida a la influencia de Autoestima.
- - P A R T Í
Controlling for..
SCT
AL
C O R R E L A T I O N
AE
SCT
SI
1.0000
(
0)
P= .
.0061
(
69)
P= .960
C O E F F I C I E N T S
- - -
SI
.0061
1.0000
í
69)
(
0)
P= .960
P= .
(Coeffícient / (D.F.) / 2-tailed Significance)
Tabla 12: Coeficiente de correlación parcial entre SI y SCT.
Regresión lineal simple
El análisis de regresión es un procedimiento estadístico dirigido a estudiar la naturaleza de la
relación entre una variable de intervalo o razón llamada variable de criterio y un conjunto
formado por una o más variables llamadas variables predictoras. Una vez determinada la
dirección de la relación entre variables, el análisis permite hacer predicciones sobre los valores
de la variable de criterio con base en el conocimiento de los valores de las variables
predictoras.
El análisis de regresión puede ser simple o múltiple, lineal o no lineal. El modelo más sencillo es el
de regresión lineal simple con el cual se explica la relación lineal entre una variable de criterio y
una variable predictora; su representación está dada por una línea recta: Y = bo + biX donde los
coeficientes bo y bi se calculan de tal manera que la recta minimice los errores que se cometan
al ajustaría a los puntos que representan la relación.
Una relación lineal no requiere que todos los puntos estén sobre una línea recta, es necesario
•que el patrón de puntos de datos sea recto. El patrón en si mismo puede ser concentrado con
muchos puntos cerca de la imaginaria línea recta o puede ser disperso (ver figura 6).
La tabla 13 y la figura 8 muestran los resultados del programa estadístico SPSS al ajustar una
recta que explique la relación entre Satisfacción con condiciones de trabajo (SCT) como
variable de criterio y Autoestima (AE) como variable predictora.
Coeficientes '
Coeficientes no
Coeficientes
estandarizados
estandarizados
B
Error tlp.
Beta
Modelo
1
(Constante)
AUTOESTIMA
16.646
3.759
.630
.165
t
4.429
.416
a. Variable dependiente: SATISFACCIÓN CON CONDICIONES DE TRABAJO
Tabl 13: Resultados de la rec jresión lineal de SCT sobre AE.
50 •
a
a
o
ao
3.830
Sig.
.000
.000
§«,
o
o
ao
£
a
18
í
o
o
a
c
*-/- — o a
1
D
a ^^^^^
a
o
a
-
o
o
oo
1° '
a
o
|j
e
ttlf^ffo
2~**^a
DD
aa
0
ooo
O
Í}S~~Q
u
30 •
o oo
DO
ao
1
.9
a
oo
aa
aa
a
a
a ot»«rv»d»
° Lineal
1 10
10
13
20
ÍS
30
35
AUTOESTIMA
Figura 8: Representación de la recta de regresión lineal de SCT sobre AE.
En la tabla 13 se tienen los coeficientes bo y bi de la ecuación de regresión lineal:
bo: 16,64ó (constante)
bi: 0,630 (coeficiente de AE)
La ecuación de regresión es: SCT = 16,646 + 0,630AE
El coeficiente de la variable de criterio (bi = 0,630) se le llama pendiente de la recta y
representa el cambio en SCT al varia r AE en una unidad. El coeficiente constante (bo = 16,646)
es el punto de corte de la recta de regresión con el eje de SCT; esto es, el valor de SCT cuando
AE es igual a 0.
El gráfico de la figura 8 muestra la recta de regresión y los puntos del diagrama de dispersión de
la distribución bivariada de SCT y AE. Obsérvese como la recta se ajusta a los puntos de manera
tal que se minimizan los errores cometidos.
ESTADÍSTICA INFERENCIA!.
La estadística inferencial tiene como objeto obtener conclusiones respecto a poblaciones a
partir del conocimiento del comportamiento de una muestra. En esta clase de estudio se
considera que los datos se obtienen en una muestra y el objetivo de la investigación es obtener
un enunciado sobre la población. Estas conclusiones no son exactas, existe cierta probabilidad
de que los resultados sean erróneamente interpretados; la teoría estadística permite fijar esa
probabilidad.
CONCEPTO DE PROBABILIDAD
Para definir probabilidad es necesario un conjunto de definiciones previas:
Un experimente es un proceso mediante el cual se obtiene una observación o medición; por
ejemplo, registrar los puntajes de una prueba de conocimientos.
Un experimento puede producir uno o más resultados a los que se llama eventos o sucesos; por
ejemplo, el rendimiento de cada estudiante en la prueba anterior.
Un evento es simple cuando no puede ser descompuesto en otros eventos. Un evento formado
por varios eventos simples es un evento compuesto. Por ejemplo, cada una de las calificaciones
posibles en la prueba anterior es un evento simple mientras que aprobado y aplazado son
eventos compuestos.
Al conjunto de todos los eventos simples posibles se le llama espado muestra!. Así, si la escala de
calificaciones de la prueba en estudio es de 1 a 20, el conjunto E = {1,2, ...,20} es Despacio
muesíral.
A partir de estos conceptos puede definirse la probabilidad de ocurrencia de un evento A. Esta
definición puede tomar dos formas: .
a. Definición teórica que considera en un espacio muestral los casos favorables al evento A y el
total de casos del espacio.
/ - . _ número de casos favorables a A
'
número total de casos
Por ejemplo, la probabilidad de obtener una puntuación inferior a 10 puntos en la prueba en
referencia es:
b. Definición empírica que es igual a la teórica salvo el hecho de que la información no
proviene de un espacio muestral sino de la observación de casos. Así, en el ejemplo anterior,
se considera un conjunto de sujetos a los cuales se les aplicó la prueba; la probabilidad de
obtener un puntaje inferior a 10 puntos está dada por:
/ x_ número de sujetos con puntaje Inferior a 10 puntos
número total de sujetos
MUESTREO
El término muestreo se refiere a las estrategias para seleccionar una muestra de una población
como base para llegar a conclusiones sobre toda la población. Para esto la muestra debe ser
tan similar a la población como sea posible.
El uso de una muestra en lugar de estudiar una población presenta una serie de beneficios:
1. Se ahorra tiempo y dinero
2. Una muestra puede ser más exacta ya que elimina o minimiza varia fuentes de inexactitud y
error como son la trascripción de un número mayor de datos, uso de una mayor cantidad de
encuestadores y otros similares.
3. No siempre es posible estudiar toda la población.
4. Una muestra es mejor si el estudio conlleva la destrucción o contaminación del elemento
muestreado.
Proceso de muestreo
La figura 9 muestra la secuencia de pasos necesarios para el proceso de selecci ón de una
muestra.
Establecer el
tamaño de la
muestra
Figura 9: Proceso para la selección de una muestra.
El primer paso, definir la población, implica la definición precisa de:
-> Elementos de la población: Unidades acerca de las cuales se solicita la información. Son la
base del análisis que se llevará a cabo. -> Unidad de muestreo: Se refiere a los elementos
disponibles para su selección en alguna
etapa del proceso de muesíreo. Cuando el muestreo es de una sola etapa, coinciden con
los elementos de la población. -> La extensión o alcance, referidos a los límites
geográficos en los que se encuentra la
población. -» El tiempo en el cual se
realiza el estudio.
El segundo paso implica, cuando es posible, la determinación del marco muestra!; éste
generalmente consiste en una lista de todas las unidades de muestreo para su selección en una
etapa del proceso. Cuando el muestreo es de una sola etapa, coincide con la población.
El tercer paso se refiere a la selección de un procedimiento para fijar la muestra a utilizar. Estos
procedimientos se revisarán más adelante.
El cuarto paso se relaciona con la determinación del tamaño de una muestra. Una muestra
pequeña generalmente conduce a conclusiones erróneas; una muestra grande produce
perdida de tiempo y dinero. Más adelante se revisarán procedimientos para la determinación
del tamaño ideal de la muestra.
El último paso, selección de la muestra, es la consecuencia de los cuatro anteriores.
Procedimientos de muestreo
-
E n l a f i gu ra 1 0 se ti ene u n es qu e ma de lo s p roc edi mie nt os de mu es tre o; és tos p ue de n
clasificarse en procedimientos probabilísticos y procedimientos no probabil ísticos.
Procedimientos de
muestreo
Probabilísimo:
- Simple
- Sistemático
- Estratificado
- Por conglomerados
No probabilístico:
- Por conveniencia o accidental
- Por juicio o intencional
- Por cuota
- Bola de nieve
- Secuencia!
Figura 10: Tipos de muestreo
En un muestreo probabilístico cada elemento de la población tiene una probabilidad conocida de ser seleccionado
como integrante de la muestra. El muestreo se hace mediante reglas matemáticas específicas.
En el muestreo no probabilístico la selección de casos depende del juicio personal del ¡nvestlgadoVquien puede
decidir de manera arbitraria o consciente los elementos a incluir en la muestra. Muchas veces se usa en lugar del
muestreo probabilístico, especialmente cuando no se puede definir con claridad la población.
El segundo paso implica, cuando es posible, la determinación del marco muestral; éste generalmente consiste en
una lista de todas las unidades de muestreo para su selección en una etapa del proceso. Cuando el muestreo es de
una sola etapa, coincide con la población.
El tercer paso se refiere a la selección de un procedimiento para fijar la muestra a utilizar. Estos procedimientos se
revisarán más adelante.
El cuarto paso se relaciona con la determinación del tamaño de una muestra. Una muestra pequeña
generalmente conduce a conclusiones erróneas; una muestra grande produce perdida de tiempo y dinero. Más
adelante se revisarán procedimientos para la determinación del tamaño ideal de la muestra.
El último paso, selección de la muestra, es la consecuencia de los cuatro anteriores.
Muestreo probabllístfco
Simple: Es el muesíreo probabilístico básico. En su versión más elemental, cada miembro de la población se
representa'por un disco o una ficha los cuales se colocan en una urna, se mezclan bien y se extrae la muestra de
tamaño deseado. Puede utilizarse también una tabla de números aleatorios, una calculadora con función de
generación de números aleatorios o un paquete estadístico de computador.
Sistemático: Se selecciona aleatoriamente un primer elemento de la muestra y a partir de éste se toma cada i-simo
elemento siendo i el cociente entre el tamaño de la población y el tamaño de la muestra.
Estratificado: Se divide la población en subpoblaciones llamadas estratos. Estos estratos deben ser mutuamente
excluyentes y colectivamente exhaustivos lo cual significa que cada elemento debe pertenecer a un solo estrato y
que los estratos deben contener todos los elementos de la población. La división en estratos puede obedecer a
uno o más criterios; por ejemplo, puede dividirse la población en hombres y mujeres dando origen a dos estratos o
puede dividirse por sexo y por lugar de residencia con lo cual cada combinación de sexo y algún lugar de
residencia definido da lugar a un estrato. A continuación, dentro de cada estrato se procede a seleccionar los
elementos por alguno de los procedimientos anteriores.
Por conglomerados: La población se divide en grupos o conglomerados mutuamente excluyentes y
colectivamente exhaustivos, luego se selecciona una muestra aleatoria de grupos. Para cada grupo
seleccionado pueden considerarse todos los elementos o se toma una muestra de elementos por muestreo aleatorio
simple o sistemático.
Muestreo no probabilístico
Accidental: El investigador toma cualquier unidad de muestreo accesible hasta alcanzar el
número deseado. Se utiliza cuando no es posible obtener una lista de la población. Aún así, se
recomienda evitarlo en lo posible ya que la muestra obtenida generalmente no representa la
población.
Intencional: Un "experto" escoge casos que considera "representativos" de la población.
Por cuotas: Se selecciona un conjunto de características de la población tales como edad, sexo y clase social y se
toman muestras de acuerdo con el porcentaje que dichas características ocupan en la población utilizando alguno
de los procedimientos anteriores.
Bola de nieve: Se selecciona un grupo inicial de casos; los siguientes se eligen con base en la información o las
referencias que se derivan de los casos iniciales.
Secuencia!: Se toman casos, generalmente por muestreo intencional, hasta que la inclusión de un nuevo caso no
aporte información relevante adicional. La idea es incorporar casos hasta que se alcanza un punto de saturación.
Otros tipos de muestreo no probabilístico pueden consultarse en un texto de metodología de la investigación.
Con respecto a la población y la muestra debe tenerse en cuenta que factores comp un bajo número de
respuestas, falta de participación de sujetos seleccionados para la muestra o mortalidad de los elementos de la
muestra puede varia la población para la cual se generalizan los resultados. La población definitiva debe definirse
en función de los integrantes finales de la muestra y no de la muestra inicial aún cuando el muestreo sea
probabilístico.
Distribuciones muéstrales
Una distribución muestral es una distribución de los valores de algún estadístico muestral obtenido de muestras
aleatorias del mismo tamaño, de una población dada.
Una distribución muestral importante es la distribución muestral de medias aritméticas obtenidas de muestras del
mismo tamaño n de una población. Para obtener una distribución de este tipo se toman todas las muestras del
mismo tamaño de la población, se calculan todas sus medias aritméticas. La distribución tiende a ser normal, puede
visualizarse en el gráfico de la figura 11.
Figura 11: Curva normal
La gráfica obtenida se llama curva normal. Esta distribución representa el comportamiento poblacional de
muchas variables tanto en Ciencias Sociales como en Ciencias Naturales. La curva tiene las siguientes propiedades:
1. El punto más alto de la curva normal corresponde a la media aritmética de la distribución
que coincide con la mediana y la moda.
2. La curva normal es simétrica respecto a un eje que pasa por la media aritmética y es
perpendicular al eje de las abscisas.
3. La curva normal es asintótica respecto al eje de las abscisas lo cual significa que la curva no
se cierra.
4. El área bajo la curva se distribuye de acuerdo con:
- Entre la media aritmética (n) y una desviación estándar (a) se encuentra el 68,26% de los
puntos (34,13% a cada lado de \i).
- Entre la media aritmética (n) y dos desviaciones estándar (2a) se encuentra el 95,44% de los
puntos (47,72% a cada lado de ja).
- Entre la media aritmética (n) y tres desviaciones estándar (3a) se encuentra el 99,72% de los
puntos (49,86% a cada lado de u,).
•>
La distribución de todas las medias aritméticas de muestras del mismo tamaño de una población dada
tiene como media aritmética a la media aritmética de la población (u.) y como desviación estándar a
la desviación estándar de la población (a) dividida por la raíz
cuadrada del tamaño de la muestra (n); esto es: a/
ESTIMACIÓN
El objetivo de ia estimación es el de inferir parámetros poblacionales a partir del conocimiento de
estadísticos muéstrales. La estimación puede hacerse de dos maneras: estimación puntual y estimación por
intervalos.
ESTIMACIÓN PUNTUAL
La estimación puntual es un solo valor que se mide a partir de una muestra y se usa como estimación del
parámetro poblacional correspondiente. Por ejemplo, en el archivo ORGANIZACIÓN, puede estimarse
puntualmente las medias aritméticas de una población mayor a los 72 casos incluidos, diciendo que las
medias poblacionales de las variables del archivo son iguales a las medias de dichas variables para los 72
casos (ver tabla 13).
Estimaciones
Media
aritmética
(puntual)
Intervalo de confianza
del 95% para la media
Límite
superior
Intervalo de confianza del
99% para la media
Límite
Límite
inferior
superior
EDAD
36,24
Límite
35,01
inferior
37,46
34,61
3737
AUTOESTIMA
22,15
20,84
23,46
20,41
23,89
SATISFACCIÓN CON
INSTITUCIÓN
31,24
29,70
32,77
29,20
332?
SATISFACCIÓN CON CONDICIONES
DE TRABAJO
30,61
26,42
32,60
27,97
33,25
Tabla 14: Estimación puntual y por intervalos de Edad, AE, SI y SCT.
ESTIMACIÓN POR INTERVALOS
En este caso se construye un intervalo dentro del cual, con cierto nivel de probabilidad, se encuentra el
parámetro poblaclonal. Se trata de hacer una predicción razonable del parámetro no ya como un punto sino
como un intervalo en el cual dicho parámetro pudiera estar incluido.
Estimación de la media poblaclonai
La estimación por intervalo de la media poblacional Implica sumar y restar una determinada cantidad a la media
muestral para así construir un Intervalo dentro del cual existe alguna probabilidad de que se encuentre la media
poblacional. .
Sin considerar los pormenores teóricos relativos a la construcción de este Intervalo, se dirá que si x y s son la media
aritmética y la desviación estándar de una muestra de tamaño n tomada aleatoriamente de la población,
entonces:
- Existe aproximadamente un 95% de probabilidad de que el intervalo comprendido entre los
s
s
límites x-2-j= y x+2—¡= contendrá la media aritmética poblacional.
Vn
Vn
- Existe aproximadamente un 99% de probabilidad de que el intervalo comprendido entre los
s
s
límites x-2,57-pr y x+2,57-p- contendrá la media aritmética poblacional.
Vn
Vn
Por ejemplo, en la tabla 14 se tiene que con 95% de probabilidad es posible que el intervalo (35,01 ;37,4ó)
contenga la media poblaclonal de EDAD.
A 95% y 99% se les llama nivel de confianza y al intervalo obtenido se le llama intervalo de confianza. El nivel de
confianza que se quiere alcanzar es una estimación, la fija el investigador; obsérvese que para mayor nivel de
confianza es más amplio el intervalo por lo que se pierde precisión en la estimación.
TAMAÑO ÓPTIMO DE UNA MUESTRA
Cuando se quiere determinar una muestra para una investigación surge la pregunta: ¿Cuál debe ser el tamaño
de la muestra a considerar? Tamaños "grandes" implican gastos Innecesarios mientras que tamaños
"pequeños" pueden llevar a conclusiones erróneas.
En el caso más general de medias aritméticas se sabe que el error de estimación está dado pon
donde, cuando se tienen muestras mayores a 30 elementos, t es aproximadamente 2 para un nivel de confianza
del 95% y aproximadamente 2,57 para un nivel de confianza de l 99%.
Cuando la muestra es menor a 30, este valor debe consultarse en una tabla de distribución t de
Student.
Con un simple despeje se obtiene el valor de n.
e
Obsérvese que
la determinación de n depende de tres factores:
1. El nivel de
confianza deseado. Este nivel es establecido por el
investigador; niveles de
confianza más fuertes (99% en lugar de 95%) determinan muestras más grandes.
2. La desviación estándar poblacional, la cual generalmente es desconocida y se estima a
partir de estudios pilotos con pequeñas muestras (s). Cuando esto no es posible y se tiene
conocimiento de que la distribución de la variable es normal, entonces se sabe que el 99,72%
de los datos están a 3 desviaciones estándar por encima y por debajo de la media
aritmética, por lo que el rango de la variable termina siendo prácticamente igual a a; por lo
tanto una estimación de la desviación estándar viene dada por:
0 = rango 6
3. El error tolerable e; esto es, el error máximo que se está dispuesto a aceptar, el cual también
es fijado por el investigador.
Por otra parte, si el tamaño de la población es finito entonces puede aplicarse una corrección
al tamaño obtenido dada por:
n
n=
1+n-1
N
donde n es el tamaño óptimo muestral calculado de acuerdo con las expresiones anteriores y N
es el tamaño de la población .
PRUEBA DE HIPÓTESIS
La prueba de hipótesis implica hacer inferencias acerca de la naturaleza de la población sobre
la base de observaciones de una muestra obtenida de dicha población.
En términos generales, una hipótesis es una conjetura sobre algún fenómeno o conjunto de
hechos. En estadística inferencial una hipótesis es una conjetura sobre uno o más parámetros
poblacionales.
Antes de iniciar el procedimiento de prueba de hipótesis deben considerarse los siguientes
aspectos:
-¿Cuál es la población relevante?
-¿Cómo puede obtenerse la muestra de la población?
- ¿Cuáles características de la muestra se considerarán para medición?
- ¿Cuál(es) es(son) el(los)'estadístico(s) a considerar para la comprobación de la hipótesis?
El proceso para una prueba de hipótesis parte del establecimiento de dos hipótesis
mutuamente excluyeníes.
a) Hipótesis nula (Ho): en la cual se especifican valores hipotéticos para uno o más de los
parámetros poblacionales. La hipótesis nula es una afirmación de la situación actual.
b) Hipótesis alterna(Hi): en la cual se afirma que el parámetro poblacional tiene un valor distinto
al hipotético, representa la conclusión para la cual se busca evidencia, la. pregunta de
investigación.
i
Por ejemplo, pudiera tenerse interés en determinar si el puntaje promedio poblacional de la
variable Satisfacción con condiciones de trabajo (SCT), del archivo ORGANIZACIÓN, es de 27
puntos. La hipótesis nula se plantea como:
Ho: U.SCT =27
La hipótesis alterna puede plantearse como:
esto es, el puntaje promedio de la población es diferente a 27.
Puede también establecerse como hipótesis alterna que el promedio poblacional de SCT es
mayor (o menor) a 27.
HI:U.SCT >27
En el primer caso se tiene una hipótesis no direccional; en el segundo caso la hipótesis es
direccional.
En una hipótesis no direccional se establece que hay diferencia entre parámetros, pero no se
determina la relación exacta entre los mismos. En una hipótesis direccional se establece la
dirección de la relación entre parámetros.
El procedimiento para la prueba de estas hipótesis puede resumirse en los siguientes pasos:
1 . Se asume cierta la hipótesis nula.
2. Se examinan los datos empíricos obtenidos (a través de alguna prueba estadística).
Se establece la pregunta: ¿Cuál es la probabilidad de obtener una diferencia igual o mayor
a la observada al diseñar muestras aleatorias de poblaciones donde Ho se supone cierta? Lo
cual equivale a la pregunta ¿Es la evidencia empírica inconsistente con lo que se esperaría si
la hipótesis nula fuera cierta?
4. Si la probabilidad es pequeña (menor a un valor predeterminado) se rechaza Ho y se acepta
Hi. En caso contrario, no se tienen evidencias para rechazar Ho y la diferencia observada
puede ser atribuida a errores muéstrales.
La prueba estadística a utilizar en el punto 2 depende del problema en estudio. Recuérdese que
para el caso de la media aritmética (como el ejercicio en consideración) se estableció que las
medias aritméticas de muestras de tamaño n se distribuyen normalmente, con:
Cuando la desviación estándar poblacional (a) es desconocida y sólo se conocen estadísticos
de las muestras, se utiliza s como estimación de a y las distribuciones t como distribución
muestral de las medias aritméticas. Estas distribuciones son similares a la normal a la cual se
aproximan a medida que aumenta el tamaño de la muestra. Las distribuciones t introducen el
conceptee grados de libertad, el cual se asocia con el número de datos y el número de
restricciones que se imponen a las variables.
Los cuatro pasos del proceso de prueba de hipótesis aplicados a este caso son: 1
.- Se asume cierta la hipótesis nula Ho: usa =27
2.- Se examinan los datos empíricos a través de una prueba estadística. En este caso se quiere
ver cuan lejos está la media muestral de la supuesta media poblacional; la situación se
presenta en la figura 12.
p= 27
X = 30,61
Figura 12: Representación gráfica de la prueba de hipótesis.
El problema puede traducirse en la determinación de cuan alejada está la media aritmética
muestral (x) de la media poblacional supuesta de usa =27. Las tablas 5 y 6 muestran que para
la variable SCT se tienen:
A 30,61
S=8,46
La pregunta que surge es: Si la muestra es representativa de la población ¿Es la diferencia entre
i
la media muestral y la media poblacional supuesta lo suficientemente "grande" para suponer
que la muestra proviene de una población cuya media no sea 27?
Sin entrar en los detalles sobre la aplicación de la prueba t para este ejercicio, los resultados de
su aplicación se muestran en la tabla 14.
Prueba para una muestra
Valor de prueba = 27
Sig. (bilateral)
SATISFACCIÓN CON
CONDICIONES DE TRABAJO
Tabla 14: Prueba t para una muestra de la variable SCT.
Los resultados de la tabla muestran:
- Valor de la prueba t = 3,623
- Grados de libertad: n-1 =71
- Significación: se analiza más adelante
3.- Se establece la pregunta: ¿Cuál es la probabilidad de obtener una diferencia igual o mayor
a la observada al diseñar muestras aleatorias de poblaciones donde Ho se supone cierta?
En la columna significación de la tabla 14 se tiene la probabilidad buscada; p = 0,001
(significación bilateral) lo cual significa que la probabilidad de que, siendo la media
poblacional de 27 se obtenga una muestra aleatoria de tamaño 72 con una media que se
aleje 3,61 unidades o más de 27 es de p= 0,001. La probabilidad de obtener una muestra
aleatoria de tamaño 72 con una media de 30,61 es de £= '
=0,0005 (un solo lado).
En el primer caso, significación bilateral, la hipótesis alterna es:
Hi:Mscr*27
En el segundo caso, significación unilateral, la hipótesis alterna es:
Hi:psa>27
4.- La última parte establece que si la probabilidad es menor a un valor predeterminado, se
rechaza Ho y se acepta Hi . El valor predeterminado se llama nivel de significación; este
valor es arbitrario y depende del investigador. Normalmente se fija en 0,05 lo cual significa
que se rechaza Ho cuando la probabilidad de obtener una diferencia igual o mayor a la
observada es menor a 0,05. En el ejercicio en análisis la probabilidad es de p=0,0005 (para
hipótesis direccional) que evidentemente es menor a 0,05, por lo que se rechaza Ho y se
acepta que la media poblacional es mayor a 27 (hipótesis alterna).
TIPOS DE ERRORES
Al hacer una prueba de hipótesis se trabaja con una muestra, no con la población, por lo que
no llega a tenerse absoluta seguridad de tomar una decisión correcta.
Puede ocurrir que Ho sea verdadera y no se rechace o que Ho sea falsa y se tome la decisión
de rechazarla; en ambos casos la decisión tomada es correcta. El problema surge cuando se
dan situaciones cruzadas; esto es, cuando Ho es verdadera y se rechaza o cuando Ho es falsa y
no se rechaza.
Obsérvese que cuando se toma el nivel de significación como 0,05 se está aceptando que se
va a rechazar Ho cuando la probabilidad de obtener una diferencia tan grande como la
observada es 0,05 o menos; puede ocurrir que la diferencia ocurra porque la muestra no
provenga de la población a la cual se refiere Ho o porque la diferencia sea debida a
desviaciones de la muestra y no a una diferencia real; en el primer caso la decisión tomada es
correcta, en el segundo caso se comete un error.
Al fijar el nivel de significación en 0,05 se acepta la posibilidad de tomar una decisión errónea
(rechazar Ho siendo cierta) 5% de las veces o menos. El nivel de significación puede bajarse, por
ejemplo a 0,01, pero dado que se trabaja con muestras no puede suprimirse.
Al disminuir el nivel de significación, se reduce la probabilidad de rechazar Ho siendo cierta. Sin
embargo, esto trae como consecuencia el incremento en la probabilidad de cometer un
segundo error: no rechazar Ho siendo falsa. El diagrama en la tabla 15 muestra la situación que
se plantea.
Ho
No se rechaza
Se rechaza
Cierta
Falsa
Decisión correcta
Error tipo II
Error tipo 1 a
Decisión correcta
e
Tabla 15: Resumen de errores de prueba de hipótesis.
El nivel de significación puede definirse ahora como la probabilidad de cometer un error de tipo
PRUEBAS DE SIGNIFICACIÓN
La prueba de significación a utilizar en un proceso dado es determinada por una serie de
factores. En primer lugar depende de las hipótesis que se formulan, las cuales pueden dar lugar
a pruebas de asociación o de diferencias. En segundo lugar depende del tipo de datos con el
cual se trabajan, lo que puede determinar el uso de una prueba paramétrica o de una prueba
no paramétrica.
Las pruebas paramétricas son más potentes, lo cual significa que se reduce la posibilidad de
cometer un error tipo II (no rechazar una hipótesis nula que es falsa). Sin embargo, deben
cumplirse ciertos requisitos para el uso de estas técnicas:
• Los datos deben representarse en escala de intervalo o razón.
• A nivel poblacional, la variable debe tener una distribución normal (o por lo menos la
distribución debe ser conocida).
• Los sujetos en el estudio deben ser seleccionados en forma aleatoria. En este sentido, autores
como Kertinger (1981) plantean que la aleatorizacíón debe ser siempre considerada y debe
hacerse, por lo menos, con los tratamientos a aplicar.
Entre las pruebas paramétricas se tienen:
• Prueba t para una muestra.
• Prueba t para determinar la significación de la diferencia entre dos medias muéstrales.
Puede ocurrir que las medias se refieran a muestras independientes, a muestras relacionadas
o a las mismas muestras en dos momentos diferentes.
• Pruebas t para determinar la significación de un coeficiente de significación y la pendiente
de una recta de regresión.
• Análisis de varianza para estudiar la diferencia de medias muéstrales en más de dos grupos
de una variable.
Entre las pruebas no paramétricas se tienen:
» Prueba %2 para estudiar la bondad de ajuste de una variable categórica a una distribución
determinada o la independencia entre dos variables categóricas.
Prueba t para una muestra
Esta prueba se utiliza en investigaciones en las cuales se quiere determinar si una muestra es
representativa de una población; esto equivale a preguntarse si una media muestral está tan
alejada de la media poblacional (real o supuesta) que la muestra no proviene de la población
considerada. Un ejemplo de aplicación de esta prueba se desarrolló en el ejercicio anterior
sobre prueba de hipótesis.
Algunas hipótesis en las cuales se aplica la prueba t para una muestra son:
- El promedio semanal de accidentes de transito en el estado x durante el año
pasado fue igual
al promedio semanal nacional en el mismo periodo.
- El nivel de comprensión lectora de los niños de tercer grado del distrito
escolar Y está por
encima del nivel de los niños en el estado.
- En promedio, los habitantes del barrio z que requieren el uso del transporte
público, caminan
15 minutos para llegar a la parada del transporte.
Prueba t para muestras independientes
En investigación varias hipótesis se relacionan con los parámetros de dos
poblaciones diferentes; por ejemplo, la satisfacción de los hombres con la
institución puede ser diferente a la satisfacción de las mujeres; la
autoestima en docentes ordinarios puede varias respecto a la autoestima de
los docentes contratados. Las muestras deben ser independientes; esto es,
no debe existir relación entre los sujetos de ambas muestras; la mejor
manera de lograr independencia es la aleatoriedad en la selección de
muestras.
En general, en este caso la hipótesis nula se plantea en términos de igualdad
de medias. Por ejemplo, para el caso de la variable Satisfacción con la
institución (SI), se tiene:
HO:U.M = U.F
ó
HO:(JM-U.F = O
La hipótesis alterna no direccional viene dada por:
H1:|JM*MF
ó
H !: MM - MF * O
La tabla 16 presenta los resultados obtenidos al probar esta hipótesis.
'
Estadísticos del grupo
_____________ SEXO
SATISFACCIÓN
CON INSTITUCIÓN
FEMENINO
M A SC U L|N O
__________ N
36
„,
32.81
^
Desviación
Error típ. de
Media _______ tip_. ________ la media
6~Í2
M
1.02
„„
Prueba de muestras independientes
Prueba T para la igualdad de medias ________________
Diferencia de
Tabla 16: Prueba t para muestras independientes.
La primera parte de la tabla incluye estadísticos descriptivos de la variable SI para los dos grupos
(femenino, masculino):
Número de casos (N)
Media aritmética (x)
Desviación estándar (s)
Error estándar de la media (s/>/ñ)
Al considerar los cuatro pasos planteados para la prueba de hipótesis se tiene que, en primer
lugar se asume cierta la hipótesis nula:
Ho: PM = U.F
En segundo lugar se examinan los datos. La idea de esta prueba es la de determinar cu ál es la
probabilidad de que, siendo cierta la hipótesis nula, se obtenga aleatoriamente una diferencia
entre medias muéstrales igual o mayor a la observada: Xf-Xm = 32,81-29,67 = 3,14 (figura 15)
Xm-Xf=-3.14
Mm-Mf=°
Xf-Xm*3,14
Figura 15: Representación de la prueba de hipótesis para la diferencia de des medias muéstrales.
La prueba a aplicar en este caso es la prueba t para muestras independientes. Los resultados
de la aplicación de esta prueba se muestran en el segundo cuadro de la tabla 16. El resultado
obtenido es t = 2,089 con 70 grados de libertad.
El tercer paso en la prueba de hipótesis se refiere a la pregunta: ¿Cuál es la probabilidad de
obtener una diferencia igual o mayor 3,14 al diseñar muestras aleatorias de una población
donde Ho (diferencia igual a cero) se supone cierta? Esta probabilidad est á dada por la
significación 0,040.
El último paso consiste en comparar la probabilidad obtenida con un valor predeterminado. Si
se fija este valor en 5%, esto implica que se acepta que la diferencia es distinta a la esperada
(0) cuando la probabilidad de que ocurra por azar es menor al 5%, lo que ocurre en este caso
ya que la probabilidad de obtener por azar una diferencia de 3,14 o más es de 0,40 o 4%. Por lo
tanto, se rechaza Ho y se acepta que a nivel pobiacional s! hay diferencia significativa entre los
grupos femenino y masculino en cuanto a la satisfacción con la Institución.
Prueba t para muestras relacionadas
Estas pruebas se utilizan en situaciones tales como:
-
Comparación entre pre-test y post- test de un mismo grupo antes y después de un
tratamiento.
i
-
Cuando se tienen grupos pareados en los cuales los sujetos se aparean en cuanto a alguna
variable.
-
Para comparar el comportamiento de un grupo en dos variables medidas en escalas
similares (pueden ser estandarizadas); esta última situación es la que se plantea en el
ejercicio que se presenta en la tabla ] 7, en la cual se comparan las variables SCT y SI sobre el
mismo grupo de sujetos.
El problema es similar a los estudiados; se trata de determinar la probabilidad de obtener
aleatoriamente una diferencia de medias igual a la obtenida cuando se supone cierta la
hipótesis nula. Las hipótesis estadísticas son:
Ho: MSCT= MSI
Hi:
La prueba estadística que se utiliza para este caso en la tabla 1 7.
Estadísticos de muestras relacionadas
Desviación
Media
Par
SATISFACCIÓN CON 1
CONDICIONES DE TRABAJO
N
tlp.
Error tip. de
la media
1.00
3124
SATISFACCIÓN CON INSTITUCIÓN
6 53
'
72
.77
Prueba de muestras relacionadas
Diferencias relacionadas
t
Par
SATISFACCIÓN CON 1
CONDICIONES DE TRABAJOSATISFACCIÓN CON
INSTITUCIÓN
Desviación
Error tfp. de
tlp.
la media
Si9 '
gi
(bilateral)
71
.589
Tabla 17: Prueba t para muestras relacionadas.
Los resultados muestran que:
Xsa =30,61
X si = 31,24
d = XSCT - Xsi = 30,61 -31,24 = -0,63
La prueba estadística utilizada es la prueba t para muestras relacionadas la cual en este caso tiene el siguiente
resultado t = -0,543 con 71 grados de libertad.
La probabilidad de obtener una diferencias de -0,63 o menos 8o de 0,63 o más) es p = 0,589. Este valor es mayor de
0,05 por lo que se concluye que no hay bases para suponer que a nivel poblacional exista diferencia entre satisfacción
con las condiciones de trabajo y satisfacción con la institución.
Prueba t para coeficientes de correlación lineal
Para un coeficiente de correlación lineal determinado entre dos variables a nivel muestral, puede plantearse la
hipótesis de que dicho coeficiente es nulo a nivel poblacional, lo cual es equivalente a decir que no existe relación
lineal entre las variables.
Ho: p = O La hipótesis alterna puede ser no
direccional:
Hi:p*0 o puede plantearse como hipótesis direccional, tal
como:
Hi:p>0
Esta prueba se aplica a hipótesis tales como:
s Existe relación negativa entre el nivel de pobreza y los años de escolaridad.
s El grado de satisfacción con el trabajo se relaciona con el rendimiento en el mismo.
s A mayor interés por una tarea, mayor es el nivel de participación.
La mayoría de los paquetes estadísticos no incluye explícitamente el resultado de la prueba t para determinar la
significación de un coeficiente de correlación, sólo presentan el nivel de significación. Por ejemplo, en la tabla 10
de la página 17 se observa que el coeficiente de correlación entre Autoestima (AE) y Satisfacción con trabajo (SCT) es
r = 0,416.
Como este coeficiente se obtiene en la muestra, surge la pregunta: ¿Es el coeficiente de correlación entre AE y
SCT tan diferente de cero como para concluir que a nivel poblacional existe correlación lineal entre ambas variables?
La respuesta se obtiene en la segunda parte de la tabla 10 donde están los niveles de significación; para el
coeficiente entre AE y SCT se tiene 0,000 lo cual no significa que el nivel sea cero sino que es muy pequeño y que
alguna cifra menor a 5 está después del tercer decimal.
Si se toma a = 0,05 como nivel de significación, ei valor obtenido de p es bastante menor a este nivel por lo que se
rechaza Ho y se acepta que en la población el coeficiente de correlación lineal de Pearson entre AE y SCT es
diferente a cero.
También existe una prueba t para determinar la significación de la pendiente de una recta de regresión, lo cual
equivale a determinar la significación de la recta de regresión
En la tabla 13 se tiene la recta de regresión de SCT sobre AE dada por: SCT = 0,630AE + 16,646
Se quiere probar que a nivel poblacional la pendiente es no nula; el conjunto de hipótesis viene dado por:
Ho: pi = O Hi: pi*0
donde |3i es la pendiente de ka recta a nivel poblacional.
En la tabla 13 se tiene que el estadístico t para la pendiente es 3,83 con significación menor a 0,0005 por lo que si se
toma como nivel de significación a = 0,05, se concluye que se rechaza Ho y se acepta que a nivel poblacional la
pendiente es diferente de cero lo que significa que existe una recta de regresión entre AE y SCT.
Prueba %2 de bondad de ajuste
Esta prueba se utiliza con variables categóricas en las cuales las categorías son mutuamente excluyentes (un sujeto
no puede pertenecer a dos categorías) y totalmente Inclusivas (todos los sujetos pertenecen por lo menos a una
categoría). En esta prueba se compara una distribución hipotética con una distribución generada por una muestra.
Las hipótesis para esta prueba se plantean como:
Ho: La distribución observada es igual a la distribución teórica Hi: Ambas
distribuciones son diferentes
Esta prueba se aplica a problemas tales como: . - ¿Es de esperar que la distribución de alumnos sea igual en el
futuro para los tres docentes de
Estadística? - ¿Se distribuyen por igual las ventas de cuatro marcas de jabón en los supermercados de país?
El estadístico de prueba está dado por:
X2=X
'
Con K - 1 grados de libertad
donde O: es la frecuencia observada en cada categoría
E: es la frecuencia esperada K: es el número de
categoría
Para cada categoría se calcula el cociente (O - E)2/E y se suman los resultados.
Por ejemplo, se supone que en toda institución de educación superior por cada docente con
grado de doctor hay dos docentes con grado de maestría y tres sólo con título de pregrado
(distribución 3:2:1). En el archivo ORGANIZACIÓN, la distribución de los sujetos es 27 sujetos con
título de pregrado, 36 con grado de maestría y 8 con doctorado(la distribución teórica debe ser
36:24:12). se quiere probar si ambas distribuciones difieren significativamente entre si. La
distribución de sujetos por el nivel de especialización máximo alcanzado y la distribución
esperada se muestran en el primer cuadro de la tabla 18.
NIVEL DE ESPECIALIZACIÓ
N observado
N esperado
Residual
PREGRADO
27
36.0
-9.0
MAESTRÍA
36
24.0 9
12.0 -
DOCTORADO
12.0 72
3.0
Total
Estadísticos de contraste
NIVEL DE
ESPECIALIZACIÓN
Chi-cuadrado ° 9l
9.000 2
Sig. asintót.
X2=X
'
.011
Con K - 1 grados de libertad
donde O: es la frecuencia observada en cada categoría
E: es la frecuencia esperada K: es el número de
categoría
Para cada categoría se calcula el cociente (O - E)2/E y se suman los resultados.
Por ejemplo, se supone que en toda institución de educación superior por cada docente con
grado de doctor hay dos docentes con grado de maestría y tres sólo con título de pregrado
(distribución 3:2:1). En el archivo ORGANIZACIÓN, la distribución de los sujetos es 27 sujetos con
título de pregrado, 36 con grado de maestría y 8 con doctorado(la distribución teórica debe ser
36:24:12). se quiere probar si ambas distribuciones difieren significativamente entre si. La
distribución de sujetos por el nivel de especialización máximo alcanzado y la distribución
esperada se muestran en el primer cuadro de la tabla 18.
NIVEL DE ESPECIALIZACIÓN
N observado
N esperado
Residual
PREGRADO
27
36.0
-9.0
MAESTRÍA
36
24.0 9
12.0 -
DOCTORADO
12.0 72
3.0
Total
Estadísticos de contraste
j
NIVEL DE
ESPECIALIZACIÓN
Chi-cuadrado ° 9l
Sig. asintót.
9.000 2
.011
Tabla 18: Prueba x2 para bondad de ajuste
Se quiere probar la hipótesis de que ambas distribuciones coinciden a nivel poblacional. La
prueba a utilizar es x 2 para bondad de ajuste.
Los resultados muestran que x 2 = 9 con dos grados de libertad y una significación de p=0,0l I. Si
se toma a = 0,05 como nivel de significación se rechaza Ho y se acepta que a nivel poblacional
hay diferencias entre las distribuciones.
Prueba x2 para independencia de variables
Con esta prueba se determina si dos variables categ óricas son independientes o están
relacionadas. Las hipótesis en este caso son:
Ho: Ambas variables son independientes Hi: Las
variables están relacionadas
Para la prueba estadística se construye primero una tabla de doble entrada o de contingencia en la cual
se colocan las categorías de una variable como filas y las categorías de la otra variable como
columnas (ver primer cuadro de la tabla 19). La frecuencia esperada de una casilla determinada £.5 se
obtiene como:
donde c¡: total de la columna i f¡: total de la
fila j n : total de casos
El estadístico de prueba es:
,(0£)!
x-?r
f
c
-
Esta prueba se aplica a hipótesis tales como:
- ¿Se venden los tres productos de la marca X de la misma forma en las dos cadenas de tiendas
YyZ?
-¿Existe relación entre turno de trabajo (diurno o nocturno) y rendimiento en el trabajo (alto, medio o
bajo)?
- En la población de la cual se extrajo el archivo ORGANIZACIÓN ¿Existe relación entre nivel
académico (pregrado, maestría, doctorado) y condición académica (ordinario, contratado)?
Por ejemplo, se plantea que la variables Sexo y Edad del archivo ORGANIZACIÓN están relacionadas.
Dado que Edad es una variable de razón debe primero reducirse a pocas categorías.
Los resultados de la aplicación de la prueba %2 se presentan en la tabla 19. La tabla de contingencia
muestra que la variable Edad se ha agrupado en tres categorías, las cuales corresponden a las
columnas; la variable Sexo se distribuye en las dos filas. En cada casilla se tienen, tanto la frecuencia
observada como la frecuencia esperada.
Prueba x2 para independencia de variables
Con esta prueba se determina si dos variables categ óricas son independientes o están
relacionadas. Las hipótesis en este caso son:
Ho: Ambas variables son independientes Hi: Las
variables están relacionadas
Para la prueba estadística se construye primero una tabla de doble entrada o de contingencia en la cual
se colocan las categorías de una variable como filas y las categorías de la otra variable como
columnas (ver primer cuadro de la tabla 19). La frecuencia esperada de una casilla determinada £.5 se
obtiene como:
donde c¡: total de la columna i f¡: total de la
fila j n : total de casos
El estadístico de prueba es:
,(0£)!
x-?r
f
c
-
Esta prueba se aplica a hipótesis tales como:
- ¿Se venden los tres productos de la marca X de la misma forma en las dos cadenas de tiendas
YyZ?
-¿Existe relación entre turno de trabajo (diurno o nocturno) y rendimiento en el trabajo (alto, medio o
bajo)?
- En la población de la cual se extrajo el archivo ORGANIZACIÓN ¿Existe relación entre nivel
académico (pregrado, maestría, doctorado) y condición académica (ordinario, contratado)?
Por ejemplo, se plantea que la variables Sexo y Edad del archivo ORGANIZACIÓN están relacionadas.
Dado que Edad es una variable de razón debe primero reducirse a pocas categorías.
Los resultados de la aplicación de la prueba %2 se presentan en la tabla 19. La tabla de contingencia
muestra que la variable Edad se ha agrupado en tres categorías, las cuales corresponden a las
columnas; la variable Sexo se distribuye en las dos filas. En cada casilla se tienen, tanto la frecuencia
observada como la frecuencia esperada.
Tabla de contingencia SEXO * EDAD
EDAD
Bajo
35
Medio
36-44
Alto 2745-53
Total
SEXO
FEMENINO
Recuento
15
19
2
36
2
36
Frecuencia esperada
MASCULINO
Recuento
Frecuencia
^
20
^
14
^ esperada
Total
Frecuencia
Recuento
35 Q
33 Q
35
33
4
72
^ esperada
Pruebas de chi-cuadrado
Sig. asint Valor
(bilateral)
Cuadrado
Pearson
N de casos 72
válidos
gl
.
^ de
a- 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5. U frecuencia mínima esperada es 2.00
Tabla 19: Prueba x2 para independencia de variables
El segundo cuadro tiene el valor calculado de x2 = I --472 con 2 grados de libertad y p=0,479. Si se toma a= 0,05 como
nivel de significación, no se tienen bases para rechazar la hipótesis nula de independencia de variables
ERRORES COMUNES AL UTILIZAR ESTADÍSTICA EN UNA INVESTIGACIÓN
Como último punto se señalan algunos errores comunes que se cometen al seleccionar una técnica estadística en
una investigación:
- Seleccionar una técnica estadística que no es apropiada para el análisis a efectuar.
- Recolectar datos antes de decidir la técnica estadística a utilizar.
- Seleccionar un método estadístico complicado en lugar de uno simple. Recuérdese que la
estadística debe servir a la investigación, no dominarla. Nada se gana con emplear
procedimientos sofisticados, cuando puede llegarse a conclusiones similares con procesos
más simples.
Indicar someramente las técnicas estadísticas a utilizar, recoger los datos y luego decidir
sobre las técnicas específicas. En estas condiciones se corre el riesgo de recoger datos para
luego encontrar que no existe un análisis apropiado, que el estudio requiere un conocimiento.
que va más allá del nivel estadístico del investigador o que la técnica que se pensaba
aplicar no es pertinente para los datos existentes. -
Seleccionar en primer lugar los procedimientos estadísticos a
utilizar y luego diseñar el estudio
ajustándolo a las técnicas seleccionadas.
Por otra parte, debe tenerse claro que la significación estadística no necesariamente implica significación práctica. La
primera se refiere a los resultados de una prueba estadística lo cual no siempre implica resultados significativos en una
investigación. Puede ocurrir por ejemplo que el nivel de participación de los ciudadanos de un pueblo en un
determinado proyecto se incremente en un 3% y que este resultado sea estadísticamente significativo, pero cabe
preguntarse cuáles implicaciones prácticas tiene el incremento del 3%.
Por último, debe enfatizarse que la Estadística es un auxiliar de la investigación. No se trata de ajustar la investigación
a la Estadística sino de determinar cuál técnica estadística se debe utilizar para dar respuesta a una pregunta de
investigaciòn
Descargar