Subido por andy delvis villegas cabrejos

Estadistica en la Investigacion Educativ

Anuncio
En homenaje a Julio Antonio Mella
(Foto del autor)
CURSO CORTO
RELME 33
UNIVERSIDAD DE LAS
CIENCIAS INFORMÁTICAS
CUBA 2019
ESTADÍSTICA EN LA
INVESTIGACIÓN
EDUCATIVA
Dr.C., Ing. Tito Díaz Bravo
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Índice
Contenido
Página
Prólogo
3
1. Investigación educativa. Introducción a la Metodología de la
Investigación. Variables en la investigación, tipos y escala de
medición
4
1.1 Investigación Educativa
4
1.2 Introducción a la Metodología de la Investigación Educativa
7
1.2.1 Algunas clasificaciones de las investigaciones científicas
7
1.2.2 Pasos en la investigación educativa
11
1.3 Variables en la investigación, tipos y escala de medición
14
1.3.1 Variables en la investigación
14
1.3.2 Escalas de medición
17
1.3.3 Operacionalización de las variables de significado complejo o
constructos
20
2. Nociones de Probabilidades y Estadística. Estadística y Método
Estadístico. Estadística Descriptiva y Estadística Inferencial. Muestreo
22
2.1 Nociones de Probabilidades
22
2.1.1 Probabilidades y variables discretas. Distribución Uniforme.
Distribución Binomial
26
2.1.1.1 Definiciones de Probabilidad
30
2.1.1.2 Distribución Binomial
31
2.1.2 Probabilidades y variables continuas. Distribuciones Normal, t de
Student y Ji (Chi) Cuadrado
33
2.1.2.1 Distribuciones Normal y t de Student
34
2.1.2.2 Distribuciones Ji (Chi) Cuadrado
40
2.2 Estadística, Método Estadístico y Tipos de Muestreo
41
2.2.1 Estadística y Método Estadístico
41
2.2.1.1 Método Estadístico
43
2.2.2 Muestra. Tipos de muestreo
47
2.2.3 Factores que deben tenerse en cuenta para obtener una buena
muestra
49
2.2.4 Procedimientos de muestreo probabilístico. Muestreos Aleatorios
Simple, Estratificado y por Conglomerados
50
1
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
2.2.5 Muestreos en procesos continuos
54
2.2.6 Parámetros (estadísticos, estadígrafos) poblacionales y muestrales
55
2.2.7 Distribución muestral de la media aritmética, cuando la variable
original es normal
62
2.3 Estimación puntual y por intervalos
64
2.3.1 Estimación por intervalo de confianza de la media poblacional (µ)
con 𝜎 conocida y desconocida
64
2.3.2 Estimación por intervalo de confianza de una proporción poblacional
(P)
66
2.3.3 Precisión y tamaño de muestra
67
3. Elementos de Estadística Inferencial (Paramétrica y no Paramétrica)
71
3.1 Estadística Inferencial paramétrica
72
3.1.1 Errores de Tipos I y II. Nivel de significación
75
3.1.2 Pruebas de bondad de ajuste
77
3.1.3 Pruebas de Hipótesis acerca de la media poblacional 𝝁, con 
conocida y desconocida
77
3.1.4 Prueba de Hipótesis acerca de una Proporción Poblacional
81
3.1.5 Estadística Inferencial no paramétrica
82
Referencias
Anexo 1. Hoja de datos, calificaciones de estudiantes de 3 grupos, en
escala de 0 a 20
86
Anexo 2. Funciones estadísticas del EXCEL
87
2
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Prólogo
El presente documento recoge en síntesis información imprescindible para apoyar
el curso Estadística en la Investigación Educativa, a ser impartido como parte de
las actividades de RELME 33. Es de esperar que el número de horas que le
programen seguramente sea muy reducido y en consecuencia se ajustan los
objetivos a alcanzar, a esta condición determinante. En adición, está presente la
circunstancia de deber dedicársele alguna fracción del tiempo a contenidos
propios de Metodología de la Investigación Educativa, dada la muy estrecha
relación existente entre las dos áreas de conocimientos explícitas en el nombre del
curso que nos ocupa. El curso se impartirá propiciando un protagonismo dinámico
de los participantes en los contenidos a tratar, a partir de la experiencia de la que
sean portadores, obtenida en su labor profesional.
Será especialmente útil la literatura científica pertinente y actualizada, accedida
por internet. Se utilizaran recursos de las Tecnologías de la Información y las
Comunicaciones, lo que resulta deseable en las acciones de formación a llevar a
cabo; y con un enfoque de semipresencialidad, flexible en su naturaleza, para
satisfacer necesidades de los participantes.
Índice
3
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
1. Investigación educativa. Introducción a la Metodología de la Investigación
Educativa. Variables en la investigación, tipos y escala de medición
1.1 Investigación Educativa
La denominación de Investigación Educativa, un poco rara y que aparentemente
niega que otras llevadas a cabo en entornos diferentes no lo sean (más bien
debería llamársele Investigación en Educación), es extendida en la parte de la
comunidad científica que se ocupa de mejorar la educación y en particular lo
concerniente a los procesos de enseñanza y aprendizaje. Una versión del
concepto, la presenta Rosas Becerril (2018):
"Hablar de investigación educativa es hablar de un proceso de
construcción, explicación y comprensión del fenómeno educativo, en el que
se presenta la producción de conocimientos vinculados a la vida social y la
intervención de diversos campos de conocimiento como la sociología, la
psicología, la antropología y la economía (Calvo, et al. 2008; Herrera,
1999). Lo anterior nos lleva a pensar en una interacción de carácter
disciplinario, a partir de un marco metodológico, en donde no baste con
ordenar ideas y conocimientos, sino también generar resultados diversos
que planteen nuevas ideas, conceptos y teorías en donde se vean
involucrados comportamientos, valores y actitudes, que pueden llevar a
plantear a la investigación educativa como una disciplina dentro del ámbito
educativo, cuya naturaleza involucre expresiones y problemas de carácter
epistemológico y metodológico; su objetivo será la búsqueda de
conocimiento que nos permitirá llegar a nuevas concepciones y significados
en la resolución de problemas educativos."
En lo adelante se adopta el concepto expuesto anteriormente, en el que se
expresa que la investigación educativa es el proceso de construcción, explicación
y comprensión del fenómeno educativo, del cual se genera la producción de
conocimientos que permite llegar a nuevas concepciones y significados en la
resolución de problemas educativos que transcurren influenciados por diversos
factores, de los que puede añadirse que acrecientan su complejidad.
Las sociedades de los distintos países organizan sus distintos niveles de
subsistemas de educación con vistas a la formación de niños y jóvenes para
enfrentar la vida y satisfacer las demandas de fuerza de trabajo existente en los
distintos sectores que la conforman. Es en el entorno de los procesos de
enseñanza y aprendizaje, en el que interaccionan educandos y educadores,
4
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
siendo necesario atender la eficacia con el que transcurren estos procesos
complejos. Así, la investigación educativa es la actividad que desarrollan
profesionales de la educación para ir obteniendo nuevos conocimientos que den
solución a las problemáticas existentes, las cuales influyen con efectos negativos
en los resultados deseados. Existe abundante literatura sobre la investigación
educativa; en particular sobre este tipo de investigación, Rosas (2018) expresa:
"En conclusión, uno de los aspectos importantes en el que se desarrolló la
investigación educativa, se centra en la construcción del fenómeno
educativo vinculado a diversos campos de conocimiento, cuya historia
marca un análisis y búsqueda de saberes y conocimientos que permiten
llegar a concepciones y significados en la resolución de problemas a través
de diversas disciplinas. En consecuencia, se innovará la práctica educativa
mejorando los procesos de enseñanza y aprendizaje en donde se desarrolla
una metodología que involucra la formación de profesionales con perfiles
definidos formados en instituciones cuya actividad llevan al ejercicio de la
investigación y que han transitado por diversos momentos históricos que las
ha hecho ser reconocidas como las verdaderas fundadoras de la
investigación educativa."
En el ámbito mexicano, una obra de especial importancia es la de Buendía y
Álvarez (2019), en la que se refieren a la investigación educativa ante el cambio
de gobierno en su país, resaltando la situación que se presenta en:
I.
II.
III.
IV.
V.
VI.
VII.
VIII.
IX.
X.
XI.
XII.
Desigualdad, calidad y equidad en la educación
Gobernanza, políticas y gestión
El alcance de las estrategias de evaluación docente implementadas en
el sistema educativo para la justicia social: equidad e inclusión
Evaluación de los aprendizajes y de los docentes en la educación básica
Los profesores del sistema educativo mexicano: formación, actualización
y prácticas académicas en educación básica y media superior
La formación y actualización de profesores en México. Avances,
retrocesos y propuestas
El Modelo Educativo 2017, el currículo y el aprendizaje: perspectivas
críticas
Inclusión, equidad y violencia escolar en la educación media y superior
Educación de jóvenes y adultos: rezago educativo y alfabetizaciones
Educación y trabajo
La evaluación del trabajo académico en la educación superior
Financiamiento educativo. Retos y alcances para una educación
5
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
XIII.
Sociedad, economía y políticas de ciencia y tecnología con calidad y con
justicia
Los trece temas integrados en la obra anterior, cubren un extenso e importante
conjunto de aspectos sobre los que se han venido llevando a cabo investigaciones
educativas en ese país y que les sirven de referentes además, para próximas
investigaciones a llevar a cabo en un futuro,
Se investiga para obtener nuevos conocimientos que permitan resolver
problemáticas que afectan la actividad en determinada instancia. Qué, para qué y
cómo investigar, son tres interrogantes iniciales trascendentes que deben ser
respondidas de modo convincente.
En aquellas actividades en que nos desempeñamos y para las cuales hemos
alcanzado una competencia apropiada, somos capaces de identificar los aspectos
buenos, regulares y malos que prevalecen, lo que nos permite iniciar el camino de
la selección de un tema de investigación, factible de llevar a cabo, con el propósito
de contribuir a la solución de algún problema existente que sea tanto de interés
personal como para la comunidad a la que se tributa - (Qué investigar).
Existe una necesidad imperiosa de mejorar la efectividad de los procesos de
enseñanza y aprendizaje, de lograr cada vez más un aprendizaje perdurable, una
enseñanza que responda a las necesidades de los entornos en los que se
desempeñarán los futuros egresados, que influya en sus habilidades de
autosuperación continua, y con una decisiva integración de las tecnologías de la
información y las comunicaciones, TIC - (Para qué investigar).
La Metodología de la Investigación Educativa en esencia no se diferencia de la
Metodología de la Investigación en general, sino que la primera se ocupa de tratar
de darles solución a un subconjunto de problemas que pudieran considerarse
también de los que corresponden a la segunda. Así los pasos básicos en una y
otra son de hecho los mismos que deben llevarse a cabo en cualquier trabajo de
investigación. No obstante, dado que existe disponible una valiosa y extensa
bibliografía específica de Metodología de la Investigación Educativa, será esta la
priorizada en las referencias a las que se haga alusión a lo largo del presente
documento, en particular las del ámbito latinoamericano - (Cómo investigar).
Índice
6
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
1.2 Introducción a la Metodología de la Investigación Educativa
1.2.1 Algunas clasificaciones de las investigaciones científicas
Existen clasificaciones generales para las investigaciones científicas, que
constituyen referentes valiosos para orientarse en las circunstancias en las que el
investigador debe llevar a cabo su labor en determinados momentos. Algunas de
dichas clasificaciones toman en cuenta distintos aspectos, como son:
El nivel de conocimiento precedente, de partida
Grado de profundidad del estudio a llevarse a cabo
Enfoque o paradigma en el que se sustenta: cuantitativo, cualitativo y mixto
Atención a la dinámica de las variables bajo estudio, debe hacerse en corto
tiempo – transversal, y puede realizarse sin que apremie tanto el tiempo,
longitudinal
Ausencia o presencia de experimentación
Ampliando ligeramente la información sobre las clasificaciones que toman en
cuenta los aspectos enumerados antes, se tiene:
I. De acuerdo al nivel de conocimiento de partida: Puras o Fundamentales,
Aplicadas, y De desarrollo. En las diferencias entre estas, el nivel de
conocimientos existentes del cual se parte es definitorio. En el caso de la Puras
o Fundamentales, es inexistente el conocimiento previo sobre lo que se estudia;
están dirigidas precisamente a identificar características, propiedades,
comportamientos, sobre lo nuevo que se decide estudiar. De antemano no está
siquiera prevista la aplicabilidad de los posibles hallazgos que deban tener
lugar. Se llevan a cabo en instituciones de muy alto prestigio, son propias de
países con alto nivel de desarrollo económico y científico. Las investigaciones
Puras o Fundamentales se distinguen además por ser las de mayores
requerimientos de personal de elevada calificación, equipamiento,
financiamiento y tiempo para realizarse. Tales requerimientos disminuyen de las
Puras o Fundamentales a las De Desarrollo. Las Aplicadas se apoyan en
conocimientos ya existentes (obtenidos en investigaciones Puras o
Fundamentales, a cuyos resultados se haya tenido acceso) para resolver
problemáticas latentes de interés, de aquí su denominación de Aplicadas;
resultan más numerosas que las mencionadas antes. Y las menos complejas
son las De Desarrollo, entre las que pueden citarse las de transferencia de
tecnología.
II. Grado de profundidad del estudio a llevarse a cabo, de las más elementales a
las de mayor alcance respecto a las posibles respuestas a dar (según la
profundidad o alcance previsto, la complejidad esperada): Observacionales,
7
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Descriptivas, Explicativas (No experimentales y experimentales). En estas,
a partir de la segunda, incluyen en su realización a las que le anteceden.
III. Respecto
al paradigma (enfoque) de investigación, se subdividen en
Cualitativas, Cuantitativas y Mixtas.
A continuación ejemplos de investigaciones de los tres tipos de paradigmas o
enfoques mencionados.
Ejemplo 1
En una investigación acerca de las preferencias de los estudiantes del nivel
preuniversitario respecto a estudiar una u otra carrera universitaria, se está en
el enfoque cualitativo.
Fin del ejemplo 1
Ejemplo 2
Cuantitativas podrían ser investigaciones en las que se centraran los objetivos
en el tiempo que les lleva a los estudiantes llegar a la escuela y retornar a sus
casas diariamente.
Fin del ejemplo 2
Ejemplo 3
Una investigación de rendimiento docente de los estudiantes que tome en
cuenta el tiempo diario (cuantitativa) de estudio y las modalidades (individual,
colectiva y combinada) de ese estudio, es de corte mixto.
Fin del ejemplo 3
Cabe puntualizar que las investigaciones educativas más frecuentes son las de
paradigma mixto.
IV.
En dependencia con el tiempo a ejecutarse: Longitudinales y Transversales.
Esto tiene relación con la sensibilidad al cambio en el tiempo de la variable
bajo estudio.
Ejemplo 4
Si la variable bajo estudio cambia en el orden de los años, como ocurre con
las teorías del aprendizaje, la investigación puede llevarse a cabo digamos,
durante varios meses y hasta más de un año, y sería una investigación
8
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
longitudinal. Si se estuviera indagando entre los estudiantes, sobre la
disponibilidad de dispositivos móviles con determinadas prestaciones, debería
planificarse en cuestión de días o semanas, dado que dicha tecnología viene
cambiando en términos menores de un año; se trataría de una investigación
transversal.
Fin del ejemplo 4
V.
Forma de proceder, posibilidad y necesidad o no de realización de
experimentos: No experimentales y Experimentales. Generalmente las no
experimentales resultan más sencillas que las experimentales. En las no
experimentales se trabaja con dos muestras, tales que la variable
independiente posee de forma espontánea un valor en una de las muestras y
otro valor en la otra muestra. En las experimentales existe al menos una
variable independiente sobre la que el investigador está en la posibilidad de
efectuar cambios según sus criterios, para apreciar qué efectos se producen
sobre la variable dependiente bajo estudio. En muchos casos de
investigaciones educativas, el aula o la institución de enseñanza, son los
laboratorios en los que se lleva a cabo la investigación.
Ejemplo 5
Un estudio no experimental sobre la influencia de la disponibilidad de
aplicaciones en dispositivos móviles, de contenidos de una asignatura
determinada versus la no disponibilidad de tales aplicaciones, en el
rendimiento docente de dicha asignatura, estaría planteando la necesidad de
identificar dos muestras en la población de interés: una de estudiantes con la
disponibilidad aludida, y la otra sin dicha disponibilidad. Es no experimental
porque el investigador no influye sobre la existencia de la disponibilidad de las
aplicaciones referidas; tal disponibilidad se presenta de modo natural.
Fin del ejemplo 5
Ejemplo 6
Suponga que se experimenta sobre el rendimiento docente en una asignatura,
planificando una hora de estudio de esa asignatura, fuera del horario de clases
y bajo la atención del profesor, dos veces a la semana, durante todo el periodo
de clases. Una parte de los alumnos se incorpora a la actividad y la otra no,
supuesto que ambas muestras sean similares respecto al rendimiento docente
anterior al inicio del experimento. (Esta situación es de reconocer que no
resulta sencilla de alcanzar, más aún cuando toda investigación debe
responder a la ética educativa, que estaría violentándose si se le limita el
derecho de incorporarse al que lo desee). Por lo descrito antes, esta es una
9
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
investigación experimental; lo de una hora de estudio como se expuso, fue
decisión del investigador y así, una muestra transcurrió el periodo bajo un
régimen, y la otra no. Al final habrá que analizar si existen o no diferencias
significativas en el rendimiento docente de la asignatura para la que se diseñó
el experimento.
Fin del ejemplo 6
Las anteriores clasificaciones trascienden lo formal para convertirse en
referencias importantes que le van permitiendo al investigador tener más
conocimientos generales sobre lo que pudiera interesarle (o verse obligado a)
hacer en un momento determinado y decidir incluso hasta dónde llegar de
acuerdo a sus posibilidades. Cualquiera que sea la clasificación apropiada,
estarán presentes las interrogantes planteadas antes (Qué, Para qué y Cómo
investigar), junto a otros elementos de importancia a tomar en consideración en
una investigación. Cabe señalar que cualquier investigación puede ser ubicada
en más de una de las clasificaciones anteriores; por ejemplo:
-
Las Observacionales y las Descriptivas son ambas, asimismo, No
explicativas y De Desarrollo, y pudieran ser además Transversales o
Longitudinales. Y además estar atendiendo a alguno de los enfoques o
paradigmas Cualitativo, Cuantitativo o Mixto.
-
Las Experimentales generalmente son Longitudinales y Mixtas. Y no son ni
Observacionales ni Descriptivas, con estas se está buscando influencias de
una o más variables (independientes) sobre al menos alguna otra
dependiente); son de naturaleza Explicativas. Por lo general corresponden
a las Aplicadas o De Desarrollo.
-
Las Descriptivas son No experimentales, y pudieran ser Transversales o
Longitudinales. Además pudieran estarse llevando a cabo con cualquiera
de los tres paradigmas Cualitativo, Cuantitativo o Mixto.
En particular, refiriéndose a los enfoques cualitativo y cuantitativo de investigación,
Martínez (2008) expresa:
Tanto si se trabaja con un enfoque o con el otro, el investigador necesita ser
riguroso, pero también creativo; ser parte de la investigación y poder
reflexionar sobre ella. El maestro del siglo XXI, deberá ser una gran
persona con gran capacidad de autorreflexión y prospectiva sobre su propia
acción; esto implica formarse en una actitud investigativa, convirtiendo sus
asignaturas en fuentes de estudio. Construyendo, deconstruyendo y
reconstruyendo permanentemente su acción pedagógica cada día.”
10
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Las cualidades y el proceder del investigador formador, y el carácter riguroso,
creativo, dialéctico y de desarrollo en espiral de la investigación educativa, quedan
brillantemente sintetizados en el párrafo anterior.
Qué resultados científicos se espera obtener como resultado de una investigación
educativa, es una cuestión que determina de antemano el tipo de investigación
que se llevará a cabo. Entre las varias clasificaciones existentes para estos
resultados, se encuentra la que atiende al aspecto de la realidad que se
transforma, en específico: la teoría o la práctica. Al respecto De Armas Ramírez y
Valle Lima (2011) plantean:
"Los resultados teóricos son aquellos que permiten enriquecer; modificar o
perfeccionar la teoría científica, aportando conocimientos sobre el objeto y
sobre los métodos de la investigación de la ciencia, que pueden ser
clasificados a su vez en sistemas de conocimientos y metodológicos ̎. Y
sobre los resultados prácticos consideran que ̎… se incluyen aquellos que
tienen un carácter instrumental para transformar el funcionamiento del
objeto en la realidad haciéndolo más eficiente, más productivo y más viable,
entre ellos señalamos: programas, estrategias, tecnologías, metodologías
de trabajo, medios de enseñanza, modelos materiales y otros."
Índice
1.2.2 Pasos en la investigación educativa
Existen una serie de pasos presentes en la mayor parte de las investigaciones,
que resultan comunes indistintamente de lo que se requiera investigar; no es
propósito del presente documento entrar en detalles de lo interno en dichos pasos.
Entre los numerosos libros que se han escrito de esta materia, caben citarse las
ediciones 5ta, y 6ta. de Metodología de la Investigación, de los autores Hernández
Sampieri, Fernández Collado y Baptista Lucio (2010) y (2014), obras estas
valiosas, detalladas y extensas, ricas en ejemplos incluidos de investigaciones
educativas, apropiadas para el autoestudio y de apoyo a cursos extensos de dicha
temática.
Sin embargo, para el propósito del presente documento se prefiere dirigir la
atención del lector al Manual para la elaboración de las investigaciones
educativas, de Martínez Barrientos (2008), porque en el mismo los interesados
podrán encontrar una información bastante resumida y enfocada plenamente al
tipo de investigación de la que estamos tratando. Asimismo dicha autora,
atendiendo a necesidades de la Carrera de Educación en la que es profesora, se
circunscribe a solo dos formas básicas diferentes, la investigación aplicada
cuantitativa o investigación cuasi-experimental, y la investigación aplicada
11
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
cualitativa o investigación acción. De su Manual, y suponiendo que de las
Recomendaciones pueda ser emprendida una nueva investigación, se ilustran en
la Figura 1 los pasos a realizar en una Investigación Educativa.
El documento resultante de la propuesta de investigación recoge la información de
los tres primeros pasos de la Figura 1; algunos autores le denominan Diseño
teórico y metodológico de la investigación. En "Método" debe incluirse hasta el
cronograma para ejecutar las acciones necesarias que permitan alcanzar el
objetivo propuesto, por lo que estarán presentes las tareas concernientes al propio
desarrollo de la investigación, la recopilación y análisis de resultados, y la escritura
del informe final. En numerosos casos esta propuesta debe presentarse a modo
de Protocolo o Proyecto de investigación, debiéndose cumplir con toda la
información requerida por los destinatarios encargados de evaluar y aprobar o no
la propuesta en cuestión.
12
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Marco
contextual
Conclusiones y
Recomendaciones
Resultados
Presentación de la
problemática
(Planteamiento del
Problema Justificación - Marco
teórico de referencia
- Objetivos )
Método (Características de la
investigación - Hipótesis Participantes - Ambiente Variables / Categorías de
investigación - Instrumentos y
Técnicas - Diseño de
investigación - Procedimiento)
Figura 1. Pasos en la Investigación Educativa (Síntesis realizada a partir del
Manual para la elaboración de investigaciones educativas, de Alejandra
Martínez Barrientos, 2008)
Índice
13
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
1.3 Variables en la investigación, tipos y escala de medición
1.3.1 Variables en la investigación
Al concepto de variable nos aproximamos desde edades tempranas en la vida,
primero desde la familia y después se incorporan las influencias de la sociedad y
la escuela; intuitivamente conocemos que los sabores difieren, lo que nos gusta o
no nos gusta; lo que nos resulta entretenido o aburrido, interesante o sin
importancia; número de hijos; carácter agradable o desagradable de las personas
con las que nos relacionamos; edad; estatura alcanzada en determinado momento
de la vida; temperatura corporal; año que se cursa en uno u otro nivel de
educación; calificación obtenida en alguna asignatura, entre otras. En la Tabla 1
se introduce una primera posible clasificación para las diez variables acabadas de
mencionar.
Tabla 1. Ejemplos de variables y una posible variante de clasificación atendiendo a
la naturaleza de estas.
Variable
1
2
3
4
5
6
7
8
9
10
Entorno
de
influencias
Sabor
Grado de
entretenimiento
Nivel de interés
Número de hijos
Afinidad al
carácter de otro
Estatura
Tiempo
transcurrido
realizando una
evaluación
Año escolar que
se está cursando
Calificación
obtenida en una
asignatura
Cualitativa
Cualitativa/
cuantitativa
Nominal
Cualitativa
x
Ordinal
Cualitativa
x
Cualitativa
x
Cualitativa
Cuantitativa
x
Cualitativa
x
Cuantitativa
Continua
x
Cuantitativa
x
Cuantitativa
x
Cuantitativa
Cuantitativa
Discreta
x
x
Otros autores como Newbold, Carlson, & Thorne (2008), a las variables
cualitativas le denominan categóricas y lo asocian a que estas producen
respuestas que pertenecen a grupos o categorías, lo cual es equivalente a lo
expresado en el presente documento para tales variables. Especifican dichos
14
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
autores que una variable numérica continua puede tomar cualquier valor de un
intervalo dado de números reales y normalmente proviene de un proceso de
medición (no de recuento) y que en todos los casos, el valor podría desviarse
dentro de un cierto margen, dependiendo de la precisión del instrumento de
medición utilizado.
Lo mostrado en la Tabla 1 puede cambiar como se verá de inmediato. Un poco
más de información al respecto, sin pretensión de exhaustividad resulta necesaria.
En general, para clasificar a una variable como cualitativa debe partir tanto de su
naturaleza, como de la forma en que nos interese tratar a dicha variable. Si lo
esencial es un atributo de calidad, que no permite o amerita distinción de orden o
preferencia entre los distintos valores que constituyen los resultados posibles, se
considera cualitativa nominal (Entorno de influencias – Lugar: casa, escuela,
parque, calle, etc.); por supuesto, que pudiera en determinada investigación
considerarse como cualitativa ordinal, si en el estudio en cuestión fuese importante
considerar el nivel de preferencia por uno u otro entorno. El Sabor, atendiendo a
que guste o no guste, es cualitativa ordinal; ahora, si interesase solo especificar
cuan dulce es un alimento, pudiera llegar a ser tratada como cuantitativa continua
y se estaría midiendo en base a la concentración de azúcar existente en dicho
alimento. El Tiempo transcurrido en la realización de una evaluación final escrita
por parte de un estudiante, a partir del inicio de la actividad en cualquier
asignatura, es por su esencia cuantitativa continua; sin embargo, como
ordinariamente es suficiente medirlo en horas y minutos, el tratamiento puede ser
el de variable cuantitativa discreta; por otra parte, se estaría considerando como
cualitativa ordinal, si solo se registran para cada estudiante dos niveles: Si y No
(respecto a si el tiempo máximo programado para esta evaluación, le resultó
suficiente o no para responder las preguntas formuladas).
Es de esperar que según el tipo de investigación (Cualitativas, Cuantitativas y
Mixtas), serán las variables predominantes en esta. En el contexto de una
investigación, las denominaciones siguientes resultan de especial relevancia para
distinguir el tipo de variable:
Dependientes: Variables que indican si el tratamiento o manipulación de las
variables independientes tuvo algún efecto. Se les denomina también variables
resultantes, efectos o variables de criterio. Por ejemplo, calificación en una
asignatura. En las investigaciones con frecuencia interesa solo una variable
dependiente.
Independientes: Variables que se manipulan por interés del investigador para
estudiar el efecto que producen en las variables dependientes. Se les llama a
veces tratamientos, factores o variables predictivas. Por ejemplo, cantidad de
15
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
horas presenciales dedicadas a la impartición de una asignatura (al menos hay
que considerar dos niveles, digamos impartición con 70 horas y con 90 horas). La
consideración de solo una variable independiente simplifica marcadamente el
estudio que pueda estar llevándose a cabo, aunque lo puede limitar notablemente
en su alcance.
De control: Variables relacionadas con las variables dependientes y cuya
influencia debe eliminarse. Por ejemplo, la hora y la sesión del día en que se
imparte una asignatura pudiera influir en el aprendizaje de esta; existe consenso
en que la sesión de la mañana es más apropiada que la de la tarde y que los
primeros turnos dentro de la sesión son asimismo los más favorables para el
aprendizaje.
Extrañas: Variables relacionadas con las variables dependientes o
independientes pero que no forman parte del experimento. Se les denominan en
ocasiones como variables amenazadoras. Un ejemplo lo constituye la cantidad
de clases previstas pero no impartidas.
Moderadoras: Variables relacionadas con las variables independientes y
dependientes y que tienen impacto en las variables dependientes. Se les llama
también variables de interacción. Por ejemplo, nivel de confort del salón en el
que tienen lugar las clases.
Otras clasificaciones de las variables resultan también de importancia en el
contexto de una investigación, como lo son:
Variables Cualitativas y Cuantitativas
Esta clasificación fue mencionada antes; se amplían de inmediato aspectos de
interés de la misma. Las Cualitativas incorporan la información de alguna cualidad,
y las Cuantitativas de algún atributo cuantificable, como sugieren sus respectivas
denominaciones.
Las Cualitativas a su vez se dividen en Nominales y Ordinales. Las Nominales
pueden ser Dicotómicas (por ejemplo: sexo biológico de una persona) o
Politómicas (por ejemplo: Centro Docente en el que un alumno cursó sus
estudios de preuniversitario, bajo el supuesto de que existan más de dos centros
de ese nivel de estudio).
Por su parte, las Cuantitativas pueden ser Continuas (p.e. tiempo transcurrido
desde el inicio de una actividad evaluativa) o Discretas (p.e. Cantidad de clases
de una asignatura específica en una semana)
16
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Variables Determinísticas y Aleatorias (también denominada esta última como
estocásticas o probabilísticas)
Esta subdivisión obedece al nivel de incertidumbre asociado a los posibles valores
que puede tomar la variable. Nivel de incertidumbre cero es el asociado a los
posibles valores de una variable determinística, como es el caso de la posición
del planeta Tierra con respecto al Sol en un momento determinado. Y como
variable aleatoria puede mencionarse al resultado posible (aprobado o
desaprobado) de un estudiante en una evaluación.
Índice
1.3.2 Escalas de medición
Es conocido que el nivel de medida de una variable en matemática y estadística,
denominado además como escala de medición, es una clasificación adoptada con
el propósito de identificar la naturaleza de la información contenida dentro de los
caracteres alfanuméricos que registran valores de los atributos de los objetos y
sujetos, y por tanto, corresponden a datos de una variable. Las escalas de
medición son propias para cada tipo de variable; las de mayor grado de
información de sus posibles valores, corresponde a las cuantitativas continuas; le
siguen las cuantitativas discretas, después las cualitativas ordinales; y ya para las
cualitativas nominales no existe escala, sus posibles valores tienen una
importancia similar, no son siquiera ordenables por tipo de ventaja alguna.
Las dos escalas propias de variables cuantitativas son: 1. Escala de intervalo (se
caracteriza por la invariabilidad de las longitudes de dos intervalos cualesquiera,
bajo un cambio de escala del tipo y= ax + b). Y, 2. Escala de razón (similar a la de
intervalo, pero respecto a la transformación y= ax. La mayor diferencia entre
ambas escalas consiste en que en la primera el cero es relativo, mientras que en
la segunda es absoluto. Ejemplos de ambos tipos de escalas se encuentran en las
utilizadas para medir la variable Temperatura; Las escalas Celsius y Fahrenheit
son de intervalo, y sus ceros se establecieron de forma relativa, a partir del punto
de congelación del agua para la Celsius, y de una disolución saturada de sal
común en agua en la Farenheit. Para convertir de Celsius a Farenheit se emplea
ºF = 9/5 ºC + 32. Mientras que la escala Kelvin es de razón, pues se estableció a
partir de la existencia de un cero absoluto calculado experimentalmente
(aproximadamente -273 ºC).
En el caso de las variables cualitativas, la definición de sus categorías debe
cumplir tres condiciones principales: 1. Categorías mutuamente excluyentes. 2.
17
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ser exhaustivas, o sea, cubrir todos los casos que pudieran existir. Y, 3. Las
categorías deben precisarse lo suficiente, como para ser medidas.
En cuestionarios de recogida de opiniones, la información a registrar sobre
determinado aspecto, puede tomar la forma de una variable cualitativa ordinal
politómica. En este caso se recomienda que se utilice un número impar de niveles
o categorías (con simetría adecuada); estaría entonces en decidirse por tres, cinco
o siete; tres implica perdida de información y siete apunta a exceso de desglose;
en consecuencia, se recomienda asumir cinco; por ejemplo, para Grado de
interés, se estaría preguntando del modo siguiente:





Muy bajo o Inexistente
Bajo
Medio
Alto
Muy alto o Total
Una variante práctica de escala en este tipo de requerimiento de información, es la
de solicitar que, en escalas ascendentes de 0 a 5, o de 0 a 10, especificando que
0 es lo peor, y 5 o 10 lo mejor, según seleccione una u otra, indique el número que
se corresponda con su criterio al respecto.
Las operaciones aritméticas comunes (+, -, * y /) y la mayor parte de los cálculos
de estadísticos o estadígrafos (a presentar más adelante), se realizan solo con
variables cuantitativas. El tipo de prueba estadística permitida y gráficos a obtener,
dependerán de los tipos de variables con los que se esté trabajando.
De las escalas para calificación de evaluaciones docentes que se han utilizado en
la Educación Superior en Cuba, pueden citarse la de 0 a 100, con el aprobado en
70 durante un buen tiempo (en algunos lugares y momentos con 60), y ya
oficialmente descartada; y la actual, de 2- Desaprobado, 3- Aprobado, 4- Notable,
y 5- Excelente. Esta última es muy mala por su asimetría; posee solo una
categoría para los desaprobados y tres para los aprobados; buena parte de los
análisis docentes se apoyan en tratamientos estadísticos de media aritmética, lo
que reduce la calidad de la información utilizada y disminuye la credibilidad de las
conclusiones expuestas, causado parcialmente por el uso de una escala en
extremo inapropiada. Da pena observar el desconocimiento, desatención o
resignación, que numerosos directivos docentes muestran en sus análisis al
respecto. El autor del presente documento preferiría escalas de 0 a 10, o de 0 a
20, las que sin dejar de ser de carácter cualitativo, permitirían distinguir mejor los
niveles de aprendizaje mostrados por el estudiante.
18
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ejercicio 1
A partir de la información de la Figura 2:
a. Clasifique la variable en las diferentes variantes con las que podría asumirse.
Aprecie que falta la denominación del intervalo de la extrema izquierda y su
valor de área bajo la curva, y un valor dentro de uno de los paréntesis,
¡complételos!
b. Ubique en la vertical correspondiente del eje horizontal en blanco, los valores
de Z que corresponden a los coeficientes de inteligencia estandarizados,
considerando 𝑍 =
CI−100
15
Coeficiente de
Inteligencia
estandarizado
(Z)
Figura 2. Coeficiente de inteligencia (Tomada de:
(Tomado
https://sites.google.com/site/estadisticadescriptivaenedu/4o-sem-estadisticaaplicada-a-la-investigacion-educativa )
de:
Nota: El autor del presente documento, al igual que muchos otros profesionales,
estima que asumir mecánicamente el alcance del significado del coeficiente
de inteligencia para encasillar a las personas, es cuestionable. Sin
embargo, considerándolo a modo de diagnóstico resulta una información de
valor.
Fin del Ejercicio 1
Índice
19
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
1.3.3 Operacionalización de las variables de significado complejo o
constructos
Existen variables con distintos niveles de complejidad; las sencillas no hay que
operacionalizarlas, sus valores se recopilan directamente como lo son las
calificaciones resultantes en una evaluación, las horas de inasistencia de un
estudiante a las clases de una asignatura, los años de experiencia en la docencia
de un profesor, etc. Es suficiente identificar el tipo de variable y la correspondiente
escala de medición a utilizar. Otra situación tiene lugar con las que no resultan
sencillas de medir; a estas se les denominan Constructos, término proveniente
de la sicología en la que son tratadas como entidades hipotéticas de difícil
definición dentro de alguna teoría científica. Un constructo es algo que nos
encontramos, pero cuya definición es difícil o controvertida, es un fenómeno
no tangible que mediante un proceso particular de operacionalización se convierte
en una variable que puede ser medida y estudiada.
Algunos de los constructos que aparecen con frecuencia en las investigaciones
educativas son la inteligencia, la motivación y la efectividad de una estrategia de
enseñanza, por ejemplo. En estos casos se pueden definir dimensiones en las
que se consideran a su vez, indicadores los cuales si pueden medirse y es a
través de la información recopilada de estos últimos, que se asignan determinados
niveles o valores al constructo o variable original de significado complejo de
la que se necesita obtener información en las condiciones de un estudio dado. No
es objetivo del presente documento un tratamiento en mayor grado de detalles de
tales variables; se le recomienda al interesado que mediante un estudio
documental identifique cuál es el consenso actualizado del tratamiento de
variables de tal naturaleza con la que necesite trabajar en un momento dado, no
obstante y a continuación se hace alusión a un interesante trabajo publicado
recientemente.
Un buen ejemplo de operacionalización de variables es el publicado por Montes
Castillo, Valencia Castillo y Gracia Olivas (2017). Estos autores realizaron la
investigación Indicadores de uso y aceptación de redes sociales virtuales en
jóvenes de escuelas secundarias públicas en Sonora. Muestran resultados
preliminares de 100 jóvenes de 8 secundarias públicas, sobre el uso y aceptación
de redes sociales. Identifican 7 dimensiones con un total de 26 indicadores. Los
indicadores los trabajan como variables cualitativas ordinales, a responder cada
uno a partir de: Siempre/Casi siempre/A veces/Nunca. En la Tabla 2 se muestran
las dimensiones e indicadores, considerados por los autores mencionados antes.
20
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Los autores desglosan sus conclusiones por las dimensiones asumidas. De las
dos primeras expresan: "En cuanto a expectativa de rendimiento, los jóvenes
encuestados consideraron que no existe mucha relación entre el uso de redes
sociales y una posible utilidad y eficiencia en su vida, o en su rendimiento
académico. Y en consideración a expectativa de esfuerzo los jóvenes percibieron
las redes sociales muy fáciles de usar, y que poseen gran habilidad en su
manejo".
Tabla 2. Dimensiones e indicadores de uso y aceptación de redes sociales
virtuales en jóvenes de escuelas secundarias públicas en Sonora
Dimensiones
Expectativa de
rendimiento
Expectativa de
esfuerzo
Influencia
social
Condiciones
facilitadoras
Motivación
Hedónica
Hábito
Indicadores
1. El uso de redes sociales aumenta mis posibilidades de
lograr cosas que son importantes para mí
2. El uso de redes sociales me ayuda a lograr cosas más
rápidamente
3. El uso de redes sociales me ayuda a lograr cosas más
rápidamente
4. El uso de redes sociales aumenta mi rendimiento escolar
5. El uso de redes sociales aumenta mi productividad
6. Aprender a usar las nuevas redes sociales es fácil para mí
7. Mi interacción con las redes sociales es clara y
comprensible
8. Encuentro las redes sociales fáciles de usar
9. Es fácil para mí ser hábil en el uso de redes sociales
10. Las personas que son importantes para mí piensan que
debo
usar
redes sociales
11. Las personas que influyen en mi comportamiento piensan
que debo usar redes sociales
12. Personas cuyas opiniones valoro, prefieren que utilice
redes sociales
13. Tengo los recursos necesarios para usar redes sociales
14. Tengo el conocimiento necesario para utilizar redes
sociales
15. Las redes sociales son compatibles con otra tecnología
que utilizo
16. Puedo obtener ayuda de otros cuando tengo algún
problema con redes sociales
17. Usar redes sociales es divertido
18. El uso de redes sociales es agradable
19. El uso de redes sociales me entretiene mucho
20. El uso de redes sociales se ha convertido en un hábito para
mí
21. Soy adicto al uso de redes sociales
21
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Intención
conductual
22. Debo usar redes sociales
23. El uso de redes sociales se ha convertido en algo natural
para mí
24. Tengo la intención de seguir usando redes sociales en el
futuro
25. Siempre intentaré usar redes sociales en mi vida diaria
26. Planeo seguir usando frecuentemente redes sociales
Ejercicio 2
Suponga una investigación educativa, de interés y factible de realizar en su ámbito
de labor (descríbala brevemente). Identifique las variables involucradas en el
estudio y clasifíquelas según corresponda; entre en detalles sobre los posibles
valores que puedan tomar las variables en cuestión. Intercambie su propuesta con
algún otro colega.
Fin del ejercicio 2
Índice
2. Nociones de Probabilidades y Estadística. Estadística y Método
Estadístico. Estadística Descriptiva y Estadística Inferencial. Muestreo
2.1 Nociones de Probabilidades
De modo muy elemental se presenta en este epígrafe información sobre las
importantes ramas del conocimiento matemático Probabilidades y Estadística.
Necesariamente el interesado en profundizar deberá hacerlo en otras fuentes
documentales; aquí el alcance está en el entorno de lo mínimo necesario para
alcanzar un fundamento básico y a la vez robusto de los conceptos y técnicas de
cálculo, necesarios para una aplicación preliminar y productiva de la Estadística en
la Investigación Educativa, así como para el intercambio con especialistas
versados en la materia a los que se debe acudir cuando se estime necesario.
La teoría de las probabilidades tiene sus inicios al principio del siglo XVII y su
surgimiento está relacionado a los diferentes juegos al azar de la época, es de
señalar que durante mucho tiempo estos juegos fue la única motivación para el
desarrollo de los conceptos y métodos de la teoría de las probabilidades
destacándose algunos matemáticos de la época tales como: Fermat, Pascal,
Bernoulli, etc. Hoy en día su aplicación abarca diversas disciplinas tales como la
física, la biología, la psicología, la teoría de la información, la informática, etc.
22
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
La teoría de las probabilidades estudia las leyes que rigen ciertos tipos de
fenómenos naturales o como resultado de experimentos realizados por el hombre,
llamados fenómenos, sucesos, eventos o experimentos aleatorios. En estos no se
pueden predecir los resultados posibles; es decir, aunque tengan lugar en
igualdad de condiciones, en cada ocasión que ocurran los resultados pueden ser
diferentes.
De la vida diaria, se tienen nociones cercanas a los conceptos teóricos sobre
variables aleatorias, tanto para variables discretas como para continuas, y de
hecho se tienen en consideración en alguna que otra decisión frecuente a tomar
en la vida. A continuación algunos ejemplos:
Ejemplo 7
Se espera que un estudiante bien preparado para una evaluación en determinada
asignatura, tenga alta probabilidad de obtener resultados satisfactorios en esta. En
este caso al evento se le puede denominar Realizar una evaluación y los
resultados posibles considerarlos como dos: Satisfactorio y No satisfactorio. La
variable es cualitativa, dicotómica y de escala ordinal.
Fin del Ejemplo 7
Ejemplo 8
Un profesor que muestre empatía por sus estudiantes y que tenga buenos
métodos de enseñanza, tiene mayores probabilidades de que sus estudiantes
alcancen buenos resultados, que otro profesor que no se distinga por estos dos
aspectos. Como variable se tendría la unión de Cualidades y Desempeño,
cualitativa dicotómica ordinal, y los resultados posibles
Fin del Ejemplo 8
Ejemplo 9
Como Director de una Escuela que tiene que decidir sobre un nuevo miembro del
claustro entre varios Docentes que aspiran a la plaza, Usted estaría considerando
con menos probabilidades a aquellos candidatos que poseen en su historial
cualidades de ausentistas injustificados. En este ejemplo se puede definir como
variable aleatoria a la Decisión (Cualitativa dicotómica y ordinal) y los resultados
posibles son los Si o No para cada candidato.
Fin del Ejemplo 9
23
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ejemplo 10
La intuición estaría fijando como variable aleatoria discreta El número de días
que en una semana (de 5 días con clases), un estudiante estaría asistiendo a la
escuela. Los resultados posibles serían 𝑋 = {𝑥1 , 𝑥2 , 𝑥3 , 𝑥4, 𝑥5 𝑦 𝑥6 } = {5, 4, 3, 2, 1, 0},
lo que significa:
5- Asiste todos los días
1- Asiste solo un día
4- Asiste 4 días
0- No asiste ningún día
3- Asiste 3 días
2- Asiste 2 días
Fin del Ejemplo 10
Ejemplo 11
Para el mismo entorno del ejemplo anterior, una variable aleatoria continua sería
El Tiempo que dicho estudiante permanece en la escuela determinado día. Dado
que el tiempo es por su esencia una variable continua, los valores posibles (en
horas) estarían definidos cuando más, por los infinitos valores
correspondientes al intervalo X ∈ [0, 24]. En este caso, para proseguir con los
cálculos deseados de probabilidad se podría utilizar, por ejemplo, la Distribución
Normal de probabilidades, que se presenta más adelante.
Fin del Ejemplo 11
Ejercicio 3
Relativo a los ejemplos 5 y 6 anteriores del entorno estudiante-escuela, defina dos
nuevas variables aleatorias, una discreta y otra continua. Fundamente su elección.
Fin del ejercicio 3
La teoría de la probabilidad es la parte de las matemáticas que se encarga del
estudio de los fenómenos o experimentos aleatorios. Por experimento, fenómeno,
proceso, cuestión o asunto, de naturaleza aleatoria, se entenderá todo aquel que
cuando se le repite bajo las mismas condiciones iniciales, los resultados que se
24
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
obtienen de las variables aleatorias bajo estudio, no siempre son los mismos. Los
5 ejemplos anteriores cumplen con lo de naturaleza aleatoria (El número de días
que en una semana - de 5 días con clases - un estudiante estaría asistiendo a la
escuela. Y El Tiempo que dicho estudiante permanece en la escuela determinado
día).
Al trabajar con variables aleatorias discretas, resultan importantes los conceptos
de Espacio muestral y Espacio de probabilidades. Al conjunto de resultados
posibles de una variable aleatoria X, 𝑋 = {𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 }, se le denomina
Espacio muestral. El Espacio de probabilidades correspondiente, es el
conjunto de valores de probabilidades que está asociado a cada uno de los
resultados posibles. Si se designa por 𝑝(𝑋 = 𝑥𝑖 ) = 𝑝(𝑥𝑖 ) a la probabilidad asociada
al resultado 𝑥𝑖 , el Espacio de probabilidad (EP) puede representarse por:
𝐸𝑃(𝑋) = {𝑝(𝑥1 ), 𝑝(𝑥2 ), 𝑝(𝑥3 ), … , 𝑝(𝑥𝑘 )}
En la teoría de probabilidades y estadística, existen para una variable aleatoria,
la función de densidad de la distribución de probabilidad, y la función
acumulativa de probabilidad. La primera es una tal que asigna, para variables
discretas, a cada resultado posible o suceso independiente definido sobre la
variable, la probabilidad de que dicho suceso ocurra; mientras que, para
variables continuas, a cada intervalo de resultados independientes posibles que
pueda tomar la variable, le asigna también un valor de probabilidad de que dicho
suceso pueda tener lugar. La segunda, como su nombre indica, es la suma para
variables discretas, e integración para variables continuas, de las probabilidades
que corresponden a las ocurrencias posibles de resultados de la variable aleatoria,
desde su valor menor posible hasta un valor mayor fijado de esta.
Las funciones de densidad de distribución y acumulativa, en su carácter de
valiosos modelos teóricos para describir el comportamiento de los valores de
determinadas variables aleatorias, se distinguen por poseer parámetros para la
población. Como se constatará más adelante, sucede que raras veces se conocen
los parámetros de la población respecto a la variable, y en la investigación será
imprescindible (en pruebas paramétricas de inferencia estadística) hacer
estimaciones de estos, a partir del conjunto de datos que se recopilen de la
variable que se está estudiando.
Un muy preciado beneficio es que, una vez que se pruebe estadísticamente que
una variable aleatoria particular sigue el comportamiento de determinado modelo
teórico de probabilidades, todas las propiedades de dicho modelo teórico que se
definen detalladamente en la literatura, pasan a ser de inmediato comportamientos
25
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
que poseen los valores de la variable aleatoria en cuestión, un jalón importante en
el avance del conocimiento dentro de la investigación.
Índice
2.1.1
Probabilidades y variables
Distribución Binomial
discretas.
Distribución
Uniforme.
El comportamiento de los valores de variables aleatorias discretas, puede ser
descrito por distintos modelos teóricos de probabilidad que se recogen en la
literatura. En este documento se presta atención solo a los de Distribución
Uniforme y Distribución Binomial, por ser dos de los más utilizados.
A continuación se presentan de modo simplificado y con carácter intuitivo, algunos
conceptos necesarios para comprender, por ejemplo, qué significa que todos los
alumnos de un grupo de estudiantes puedan tener igual posibilidad (igual
probabilidad) de integrar una muestra a seleccionar de dicho grupo. Si el grupo
tuviese 20 estudiantes (N= 20), se estará hablando de que cualquiera de ellos
1
tiene una probabilidad 𝑝 = 𝑁 = 1/20 = 0,05 de ser seleccionado; el espacio
muestral o población de todos los resultados posibles está compuesto por 20
sujetos. Aquí prevalece, se cumple satisfactoriamente, el comportamiento
correspondiente a la Distribución Uniforme de probabilidades, modelo teórico
más simple de los que caracterizan tales distribuciones de probabilidades de algún
fenómeno o proceso (La Distribución Uniforme tiene su equivalente para variables
aleatorias continuas).
Veinte muestras de tamaño 𝑛 = 1, pueden como máximo ser extraídas del grupo
de 20 estudiantes, las que en su conjunto constituyen la población (N= 20), como
se dijo antes. No es obvio decir cuántas muestras de tamaño 2, 3, 4, 5 o más (𝑛 ≤
𝑁) pueden sacarse del grupo anterior. La respuesta se obtiene de:
𝑁!
𝑁
El coeficiente binomial 𝐶(𝑛, 𝑁) = ( ) = 𝑛!(𝑁−𝑛)!permite obtener el número
𝑛
de subconjuntos de n elementos escogidos de un conjunto con N
elementos.
Considerando 𝑛 = 10, resultarían:
20!
10!∗11∗12∗13∗14∗15∗16∗17∗18∗19∗20
20
𝐶(10,20) = ( ) = 10!(20−10)! =
=
10!∗10!
10
6,70443𝐸+11
10!
= 184756
¡Cifra muy grande!
26
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ejercicio 4
Cambiemos a N=5, {A,B,C,D,E}, y n=2. Complete en el cuadro siguiente, las respuestas a las
interrogantes y el cálculo de las fórmulas de abajo:
A,B
A, C
A, D
A, E
B, C
B, D
B, E



Total de muestras posibles (de tamaño n=2)=
Probabilidad de que una cualquiera de las muestras de tamaño n=2 sea la
seleccionada (considerando Distribución uniforme de probabilidades )=
5!
3!∗4∗5
5
𝐶(2,5) = ( ) = 2!(5−2)! = 2!∗3! =
2
Fin del ejercicio 4
Ejemplo 12
Los cálculos de los resultados del Coeficiente Binomial usualmente se obtienen
directamente por funciones suministradas en calculadoras y software. En el caso
del EXCEL está disponible la función COMBINAT(N, x), donde:
N – número de repeticiones
x – cantidad de éxitos en n repeticiones
A continuación se muestran los resultados de los cálculos en EXCEL
considerando N= 5 para valores de x desde 0 hasta 5:
x
COMBINAT(5,x)
0
1
1
5
2
10
3
10
4
5
5
1
Fin del Ejemplo 12
¿Por qué el EXCEL?
¡Porque es bueno y está en todas partes!
(Ver en el Anexo 2 las valiosas funciones estadísticas del EXCEL)
27
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ejercicio 5
Suponga que Usted labora en una institución de educación en la que las
calificaciones
de
las
actividades
evaluativas
responden
a:
2 - Suspenso, (𝑥1 ); 3 - Aprovechado, (𝑥2 ); 4.- Notable, (𝑥3 ) y 5 - Excelente, (𝑥4 )

Considerando Distribución uniforme de probabilidades para el espacio muestral
que conforman los cuatro resultados posibles anteriores (N= 4), cuál sería la
probabilidad que le corresponde a la ocurrencia de cualquiera de estos

Obtenga la probabilidad P(Notable o Excelente)
Fin del ejercicio 5
Usted debe haber notado que para eventos independientes (𝑥𝑖 ) simples, como lo
son las calificaciones a obtener en una evaluación, se cumple:


𝟎 < 𝑃(𝒙𝒊 ) < 1
∑𝑵
𝒊=𝟏 𝑷(𝒙𝒊 ) = 𝟏
Se conoce como evento seguro aquel para el cual 𝑷 = 𝟏.
Ejemplo 13
El tiempo transcurre independiente de la voluntad humana.
Fin del ejemplo 13
Ejemplo 14
El estudiante que hizo la evaluación obtendrá alguno de los cuatro resultados
definidos para otorgar la calificación (Con escala de 2, 3, 4 y 5).
Fin del ejemplo 14
28
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Se le llama evento imposible al que le corresponde 𝑷 = 𝟎.
Ejemplo 15
Manteniéndose la fuerza gravitatoria, una pelota de beisbol lanzado al aire termina
subiendo.
Fin del ejemplo 15
Ejemplo 16
El estudiante que no se presentó a determinada evaluación escrita, sin tener
comunicación de ningún tipo con alguna otra persona o recurso virtual de apoyo,
una vez que esta concluyó, y en lugar en el que se realizó, entregó al igual que los
demás alumnos, su documento de constancia de haberla hecho).
Fin del ejemplo 16
La probabilidad mayor que cero es la característica de un evento, que hace que
existan razones para creer que éste ocurrirá. Considerando que p es la
probabilidad de que ocurra un evento, y q la probabilidad de que no ocurra,
entonces tiene que cumplirse que p + q = 1 (opcionalmente puede escribirse como
q = 1 – p).
Eventos compuestos son los que incluyen más de un evento simple, como el del
ejercicio 4, P(Notable o Excelente)= P(Notable) + P(Excelente)= 0,25 + 0,25= 0,5.
Ejercicio 6
En una asignatura determinada se conoce que el comportamiento habitual de la
distribución de calificaciones no es la de la Distribución Uniforme, sino la
correspondiente a:
P(2 -Suspenso)= 0,4
P(3 - Aprovechado)= 0,3
P(4 - Notable)= 0,2
P(5 - Excelente)= 0,1
a. Obtenga la probabilidad P(No Suspenso)
b. Pronúnciese sobre el acercamiento a la realidad, del modelo empírico de
probabilidades correspondiente a los cuatro niveles de ocurrencia dado en este
ejercicio para una asignatura determinada (del comportamiento habitual de la
29
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
distribución de calificaciones), con respecto al modelo teórico de la Distribución
Uniforme para este tipo de sucesos.
Fin del Ejercicio 6
Índice
2.1.1.1 Definiciones de Probabilidad
Existen varias definiciones de probabilidad que el lector puede buscar. La
definición clásica plantea que la probabilidad es la característica de un evento,
que hace que existan razones para creer que este ocurrirá. La probabilidad p de
que suceda un evento 𝒙𝒊 de un total de N casos posibles igualmente probables es
igual a la razón entre el número de ocurrencias h de dicho evento (casos
favorables) y el número total de casos posibles N:
𝑷 = 𝑷𝒓𝒐𝒃{𝒙𝒊 } =
𝒉
𝑵
Ejemplo 17
Utilizando la fórmula de la definición anterior, y para una semana escolar con
actividades de lunes a viernes, los siguientes cálculos resultan válidos para
cualquier semana escolar:

Probabilidad que un día de clases seleccionado aleatoriamente en esa
semana, sea lunes,
𝑃(𝑙𝑢𝑛𝑒𝑠) = 1/5

Probabilidad de que un día de clases seleccionado aleatoriamente, no sea
ni lunes ni viernes,
𝑃(𝑛𝑜 𝑙𝑢𝑛𝑒𝑠 𝑛𝑖 𝑣𝑖𝑒𝑟𝑛𝑒𝑠) = 3/5
Fin del Ejemplo 17
Definición de Probabilidad a partir de la frecuencia (Definición empírica)
Supóngase que cierto experimento aleatorio se lleva a cabo n veces con el
propósito de obtener la probabilidad de que ocurra un resultado o evento
determinado A. Designando por 𝑛(𝐴) el número de ocurrencias de dicho evento
A, en las 𝑛 realizaciones del experimento, se define la probabilidad de A, a partir
de la frecuencia, según:
𝑛(𝐴)
𝑛→∞ 𝑛
𝑃(𝐴) = lim
30
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
El hecho de que el número de repeticiones exija 𝑛 → ∞, conlleva a que no sea
posible realizarlo en la práctica, no obstante ofrece cierta información de interés.
Índice
2.1.1.2 Distribución Binomial
Suponga que Usted desearía conocer la probabilidad de que en 20 sesiones de
trabajo con la computadora conectado a internet durante un mes, logra evadir un
número de veces específico (0, 1, 2,…, 20) al riesgo de infectarse con un virus
informático, ¿cómo lo hace? ¡Con la Distribución Binomial, otro modelo teórico
para distribuciones de probabilidades de variables discretas!
La Distribución Binomial es una distribución de probabilidad discreta que le
permite contar el número de éxitos en una secuencia de n ensayos (o
repeticiones) de Bernoulli independientes entre sí, con una probabilidad fija p de
ocurrencia del éxito en cualquiera de los ensayos. Un experimento de Bernoulli se
caracteriza porque sólo son posibles en cada repetición o ensayo, dos resultados.
A cualquiera de estos se le puede denominar éxito, con una probabilidad de
ocurrencia p; y al otro, fracaso, con una probabilidad q = 1 –p (note que equivale
a plantear que p + q = 1).
En la Distribución Binomial el experimento se repite n veces de forma
independiente, y se trata de calcular la probabilidad de un determinado número de
éxitos (desde 0 hasta n) en esas repeticiones. De existir más de dos resultados
posibles en una realización del experimento, estos pueden asumirse en dos
grupos, los que se asumen que corresponden al éxito (no necesariamente lo que
se está acostumbrado a valorar de bueno), y los demás se agrupan en los que
corresponden al fracaso. Otro ejemplo de este tipo de comportamiento es el que
se asocia con la asistencia de todos los maestros a la escuela un día de clases de
la semana: p - éxito (asisten todos) y q- fracaso (no asisten todos), ¿Qué valores
asumiría Usted de p y q para su escuela? ¿Qué probabilidad existe de que tengan
lugar 0, 1, 2, 3, 4 o 5 éxitos en la semana? En breve le resultará sencillo
determinarlo.
Debe tenerse muy presente la elección de éxito o fracaso para realizar los
cálculos necesarios y hacer la posterior conclusión respecto al enunciado original
que corresponda al problema que se esté solucionando; una u otra selección sería
para tomar el camino más sencillo en los cálculos necesarios, si fuese este un
requisito.
Puede representarse que una variable aleatoria X sigue el comportamiento o
modelo teórico de una Distribución Binomial de parámetros n y p, a partir de:
𝑋~ 𝐵(𝑛, 𝑝)
31
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Para variables discretas se definen: a) Función de distribución de probabilidad, fp
(valores puntuales), y b) Función acumulativa de distribución de probabilidad, fdp
(valores acumulados de probabilidad según aumentan los valores de la variable
aleatoria). Para la Distribución Binomial, estas son:
𝑛
𝑓𝑝𝐵 = ( ) 𝑝𝑘 𝑞 𝑛−𝑘 y𝑓𝑑𝑝 = ∑𝑘𝑖=0 𝑓𝑝𝐵 𝑖
𝑘
Ejercicio 7
Retomando la información del modelo empírico de distribución de probabilidades
del ejercicio 6, (PSuspenso=0,4; PAprovechado= 0,3 PNotable= 0,2 y PExcelente=0,1),
obtenga:
a. El valor q de la Distribución Binomial, si dicha probabilidad significa PSuspenso
b. El valor p de la Distribución Binomial, si dicha probabilidad significa PAprobado
c. Los valores de 𝑓𝑝𝐵 , probabilidad de que un estudiante apruebe en k= 0, 1,
2, 3, 4 y 5 oportunidades, al presentarse a un total de 5 evaluaciones.
Solución:
a. PSuspenso= 0,4 (Por dato)
b. PAprobado= PAprovechado (0,3) + PNotable (0,2) + PExcelente (0,1)= 0,6
Aprecie que se cumple la condición establecida antes de p + q= 1
c. Tomando "éxito" que un estudiante apruebe, p= 0,6 y q= 1 − 0,6 = 0,4
k
Función de distribución de probabilidad,
𝑛
𝑓𝑝𝐵 = ( ) 𝑝𝑘 𝑞 𝑛−𝑘
𝑘
Función de
distribución
acumulativa de
probabilidad,
𝑘
∑ 𝑓𝑝𝐵 𝑖
0
1
2
3
4
5
5!
5
( ) 0,60 ∗ 0,45−0 =
∗ 0,60 ∗ 0,45−0 =
0!(5−0)!
0
5!
5
( ) 0,61 ∗ 0,45−1 =
∗ 0,61 ∗ 0,45−1 =
1!(5−1)!
1
5!
5
( ) 0,62 ∗ 0,45−2 =
∗ 0,62 ∗ 0,43 =
2!(5−2)!
2
5!
5
( ) 0,63 ∗ 0,45−3 =
∗ 0,63 ∗ 0,42 =
3!(5−3)!
3
5!
5
( ) 0,64 ∗ 0,45−4 =
∗ 0,64 ∗ 0,41 =
4!(5−4)!
4
5!
5
( ) 0,65 ∗ 0,45−5 =
∗ 0,65 ∗ 0,40 =
5!(5−5)!
5
𝑖=0
0.01024
0.01024
0.0768
0.08704
0.2304
0.31744
0.3456
0.66304
0.2592
0.92224
0.07776
1.00000
Fin del Ejercicio 7
Índice
32
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
2.1.2 Probabilidades y variables continuas. Distribuciones Normal, t de
Student y Ji (Chi) Cuadrado
Las variables continuas son aquellas que pueden tomar todos los infinitos valores
existentes entre dos de estos.
Ejemplo 17
Considérese el tiempo que le toma a un estudiante responder parte de una
pregunta en el examen final de una asignatura; digamos que ese evento fue
diseñado para responderse con una media de 10 minutos, con un intervalo
probable de 4 a 16 minutos (equivalente a 10 ± 6 min) de valores posibles. Para
este ejemplo, está además presente la condición de aleatoriedad, por el hecho de
no existir un modelo determinístico a partir del cual pueda calcularse con precisión
el tiempo aludido, que le pueda llevar a un estudiante cualquiera.
Fin del Ejemplo 17
En la práctica, numerosas variables continuas se trabajan con un nivel de
discretización razonable, que no influye en perdida de información trascendente a
los fines del evento en cuestión, lo que por lo general lo define el propio
investigador a partir de su propio conocimiento.
Ejemplo 18
En la expresión anterior con valores esperados de 10 ± 6 min, (intervalo cerrado
de 4 a 16), se tienen implícitos media poblacional 𝜇 = 10 min. y semiamplitud 3
veces la desviación estándar poblacional, 3𝜎 = 6 min., o sea, 𝜎 = 2 min. Se trata
de un evento en el que se considera que la precisión es suficiente registrando las
mediciones de tiempo aproximándolas a minutos.
Fin del Ejemplo 18
Ejemplo 19
Si en lugar del ejemplo anterior, se estuviese midiendo el tiempo en que se
demora un estudiante en recorrer 50 metros en una prueba de velocidad de los
más ágiles de un grupo, posiblemente se estaría hablando en términos de hasta
décimas de segundo. Pudiera tenerse como caracterización de los resultados
esperados 50.0± 12.0 seg., significando media poblacional 𝜇 = 50.0 seg. y
semiamplitud 3 veces la desviación estándar poblacional, 3𝜎 = 12 seg.; o sea, 𝜎 =
4 seg. En este caso la sensibilidad de la magnitud de la respuesta pudiera estar
33
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
conllevando a trabajar con décimas de segundos, en lugar de valores enteros
aproximados de segundos o minutos, y que se desecharía asimismo la variante de
medir hasta las centésimas de segundo.
Fin del Ejemplo 19
Existen diversas distribuciones de probabilidades de variables continuas, a
continuación se presenta alguna información solo de tres de estas.
Índice
2.1.2.1 Distribuciones Normal y t de Student
Dos de las Distribuciones de probabilidades para variables continuas más
utilizadas son las Distribución Normal y la t de Student. Los valores de una
variable continua aleatoria que siguen el modelo teórico de la Distribución Normal,
se distinguen por estar agrupados mayormente alrededor de la media poblacional,
con simetría por ambos lados, mostrando una forma acampanada (Ver Figura 3) y
con porcentajes fijos de probabilidad en los intervalos qe pudieran definirse,
siendo de importancia frecuente los comprendidos en 𝑋𝜖[𝜇 ± 𝑛𝜎] para 𝑛 = 1,
2 𝑦 3, a los que corresponden probabilidades aproximadas de:
𝑝(𝑋𝜖[𝜇 ± 𝜎]) = 68,2%
𝑝(𝑋𝜖[𝜇 ± 2𝜎]) = 95,4%
𝑝(𝑋𝜖[𝜇 ± 3𝜎]) = 99,7%
Figura 3. Representación del comportamiento de los valores de una variable con
distribución Normal (μ, N), a partir de su función de distribución de
probabilidad
Tenga en consideración que, por el significado de Probabilidad, tiene que
cumplirse que 𝑃(𝑋𝜖[𝜇 ± ∞]) = 100% = 1. Debe estarse atento a la representación
equivalente de valores de probabilidad tanto en porcentaje como en fracciones.
Los software utilizan principalmente la de fracciones y a las personas en general le
es más reveladora en porcentaje. Asimismo hay que estar alerta en el uso de P
para indicar probabilidad; notará que se utiliza con cierta frecuencia que un mismo
problema para denotar distintas probabilidades, además de emplear otros
símbolos con el mismo propósito.
34
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
La Distribución Normal es una de las más utilizadas en la Estadística Inferencial,
incluso para desechar su posibilidad de uso cuando no representa
apropiadamente el comportamiento de los valores de la variable que se esté
estudiando, y decidirse en tal caso por transformaciones de los datos primarios,
por aplicar la Distribución t de Student, o por el uso de pruebas no paramétricas.
Funciones de densidad y acumulativa de probabilidades de la Distribución
Normal.
La función de densidad de la distribución de probabilidad de una variable aleatoria
X que sigue una distribución normal X es:
1
𝑓(𝑥) = 𝜎√2𝜋 𝑒
1 𝑥−𝜇 2
)
2 𝜎
− (
−∞ < 𝑥 < ∞
para
donde μ y σ son los parámetros poblacionales media y desviación estándar
respectivamente, 𝑒 = 2,71828…y 𝜋 = 3,14159...Se representa abreviadamente
como N(μ, σ).
Propiedades de la función de densidad de probabilidades del Distribución
Normal
 El área total comprendida entre la función de densidad y el eje de las abscisas
es igual a uno
 Es asintótica a ese eje, esto quiere decir que teóricamente x toma valores entre
- y+
 Es simétrica respecto a la media donde alcanza su máximo valor
 La distancia entre el eje vertical que pasa por la media y el punto donde cambia
de concavidad (punto de inflexión ) la curva, es igual a al valor de .
La
1
𝜎√2𝜋
función
𝑒
acumulativa
1 𝑥−𝜇 2
− (
)
2 𝜎
como
de
la
Distribución
Normal,
se
plantea
para
𝑓(𝑥) =
a:
𝑡
𝐹(𝑡) = ∫ 𝑓(𝑥)𝑑𝑥
−∞
35
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
La propiedad de que la suma de las probabilidades correspondientes a todos los
resultados posibles de un evento, vista antes para variables discretas,
necesariamente tiene que cumplirse también para variables continuas, y significa
que:
∞
∫ 𝑓(𝑥)𝑑𝑥 = 1
−∞
Por importantes razones prácticas resulta necesario trabajar con la variable
𝑥−𝜇
aleatoria estandarizada 𝑍 = 𝜎 . Ver Figura 4.
Figura 4. Funciones de densidad y acumulativa probabilísticas, de la
Distribución Normal estandarizada (con 𝜇 = 0 𝑦 𝜎 = 1) (gráficos obtenidos con
EXCEL utilizando ∆𝑍 = 1).
La estandarización de los valores de la variable aleatoria X a partir de 𝑍 =
𝑥−𝜇
𝜎
tiene
la notable connotación de transformar la variable original, cualquiera que esta sea,
a una adimensional, de parámetros media y desviación estándar 𝜇 = 0 𝑦 𝜎 = 1
como se dijo antes.
𝐶
En la Tabla 3 se muestran varios cálculos de 𝑍, 𝑓(𝑍) 𝑦 ∫0 𝑓(𝑍)𝑑𝑍 para un
ejemplo de la variable original Calificación [𝜇𝐶 = 7, 𝜎𝐶 = 1], suponiendo que se
utiliza una escala de valor máximo 10.
36
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Tabla 3. Resultados de la función de densidad probabilística estandarizada𝑓(𝑍), y
de su función acumulativa de la Distribución Normal Estandarizada
Acumulativa, correspondientes a N(7, 1) para 4 ≤ 𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 ≤ 10,
obtenidos con el EXCEL
Calificación
𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 − 7
𝑍=
1
𝑓(𝑍) =
1
√2𝜋
𝑒
1
− (𝑍)2
2
Distribución Normal
Estandarizada
Acumulativa
(DISTR.NORM.ESTAND(Z))
4
4.5
5
5.5
6
6.5
7
7.5
8
8.5
9
9.5
-3
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
0.004
0.018
0.054
0.130
0.242
0.352
0.399
0.352
0.242
0.130
0.054
0.018
0.001
0.006
0.023
0.067
0.159
0.309
0.500
0.691
0.841
0.933
0.977
0.994
10
3
0.004
1.000-
Más adelante se utilizarán dos probabilidades denominadas Nivel de significación
(∝) y Nivel de confianza (𝑝), las que se relacionan de acuerdo a:
∝+𝑝=1
En la Tabla 4 se muestran algunos valores de uso frecuente de Z, que delimitan
𝑥−𝜇
los intervalos −𝑍𝑐 ≤ 𝑍 = 𝜎 ≤ 𝑍𝑐 (alrededor del valor medio 𝜇𝑍 = 0),
correspondientes a valores de probabilidad de 95, 97.5 y 99 % respetivamente.
Tabla 4. Valores de 𝑍𝑐 que delimitan intervalos de la variable normal estándar Z,
𝑥−𝜇
−𝑍𝑐 ≤ 𝑍 = 𝜎 ≤ 𝑍𝑐 , para distintos niveles de significación de uso
frecuente (Probabilidad∝).
∝ (𝑝 = 1−∝)
0.05 (𝑝 = 0.95)
0.025(𝑝 = 0.975)
0.01(𝑝 = 0.99)
𝒁𝒄
1.645
1.960
2.495
37
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ejercicio 8
Este ejercicio se relaciona con el 1. Complete la Tabla de los intervalos de más
abajo, apoyándose en la información dada a continuación y recordando que
∞
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑡𝑖𝑣𝑎, ∫ 𝑓(𝑥)𝑑𝑥 = 1
−∞
Coef. de intelig.
55
70
85
100
115
130
145
Z
-3
-2
-1
0
1
2
3
DISTR.NORM.ESTAND()
(Prob acumulativa)
0.0013
0.0228
0.1587
0.5000
0.8413
0.9772
0.9987
Probabilidad acumulativa
hasta el contorno
derecho del intervalo
Probabilidad
correspondiente al intervalo (%
con solo una cifra decimal)
0.0013
0.0013 (0.1)
0.0013 y 0.0228
0.0228 - 0.0013= 0.0215 (2.1)
Inteligencia (I) débil, [70;
85)
0.0228 y 0.1587
0.1587 - 0.0228= 0.1359 (13.6)
I media baja, [85; 100)
0.1587 y 0.5000
0.5000
(34.1)
Coeficiente de inteligencia
I muy baja <55
Insuficiencia mental, [55;
70)
I media alta, [100; 115)
–
0.1587=
0.3413
0.5000 y
Gran I, [115; 130)
0.9772 - 0.8413=
(
)
I superior, [130; 145)
I Superdotados, ≥145
0.9987 y 1.0000
1.0000 -0.9987= 0.0013 (
)
Fin del Ejercicio 8
38
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
En el EXCEL están disponibles las funciones siguientes, de variantes de utilización
de la Distribución Normal, las cuales requieren una breve familiarización para
utilizarlas con seguridad:
1. DISTR.NORM - Devuelve la distribución normal acumulativa
2. DISTR.NORM.INV - Devuelve la función inversa de la distribución normal
acumulativa
3. DISTR.NORM.ESTAND - Devuelve la distribución normal estándar
acumulativa
4. DISTR.NORM.ESTAND.INV - Devuelve la función inversa de la distribución
normal estándar acumulativa
Índice
Distribución t de Student
Tiene su origen en el problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño, aunque puede utilizase
también para muestras grandes (𝑛 ≥ 30), caso en cuyo comportamiento tiende
cada vez más al de la Distribución Normal.
Dada Z una variable aleatoria normal estándar y V una variable aleatoria chi
cuadrada con ν grados de libertad y considerando Z y V independientes, la
distribución de la variable aleatoria T, definida a partir de 𝑇 =
𝑍
𝑉
ν
, posee el modelo
√
teórico representado por la función de densidad
𝛤[
ν+1
]
𝑡2
2
ℎ(𝑡) =
(1
+
)
ν
ν
𝛤( )√𝜋ν
−(ν+1)
2
, −∞ <𝑡 < ∞
2
conocida como la Distribución t de Student, con ν grados de libertad. Constate
que esta distribución posee solo el parámetro ν. (Ver figura 5)
Más adelante se estarán calculando los grados de libertad a partir del tamaño de
muestra, según:
ν=n−1
39
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Distribución
Normal
Figura 5. Distribución t de Student para varios grados de libertad
Índice
2.1.2.2 Distribución Ji (Chi) Cuadrado
La Distribución de Pearson, también llamada Ji cuadrada(o) o Chi cuadrado(a)
(𝜒²), es una distribución de probabilidad continua con un parámetro 𝛎 que
representa los grados de libertad de la variable aleatoria
𝑋 = 𝑍12 + 𝑍22 + ⋯ + 𝑍ν2 ,
donde 𝑍𝑖2 son variables aleatorias normales estandarizadas (𝜇 = 0 𝑦 𝜎 2 = 1) e
independientes. La cualidad de que la variable aleatoria 𝝌² tenga este tipo de
distribución se representa habitualmente como: 𝑋~ 𝝌².
La distribución Ji cuadrada (𝜒 2 ) tiene la función de densidad:
1
𝜈
𝜈
𝑓(𝑥, 𝝂) = { 22 𝛤(𝜈)
𝜈
𝑥 2−1 𝑒 −2 ,
𝑥>0
2
0,
𝑥≤0
Como se dijo antes, el único parámetro de esta distribución de probabilidades es 𝜈
(grados de libertad); se calcula a partir de:
𝜈 = n − 1, donde n es el tamaño de la muestra.
40
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Esta distribución posee media y varianza poblacionales definidas como:
𝜇 = 𝜈 y 𝜎2 = 2 𝜈
En la Figura 6, se ilustran varios miembros de esta familia de curvas para distintos
grados de libertad.
Figura 6. Distribución 𝝌² para varios valores de 𝛎
Índice
2.2 Estadística, Método Estadístico y Tipos de Muestreo
2.2.1 Estadística y Método Estadístico
La Estadística es más que una simple compilación y presentación de datos en
tablas y gráficos, aunque usualmente es este el concepto intuitivo que la mayor
parte de los individuos poseen sobre la esencia de esta disciplina, a lo que
ciertamente se reduce en numerosas aplicaciones sencillas. La Estadística deriva
su nombre del hecho de haber sido aplicada primeramente a la recolección de
datos, que permitieron la administración de los estados con propósitos militares e
impositivos, o sea, los gobernantes necesitaban conocer cierta información
referente al número y riquezas de sus súbditos. A los datos sobre determinado
asunto hoy día se les suele denominar estadísticas; estas pueden referirse a la
41
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
educación, la salud, al deporte, al comercio, etc. Siempre que el término se utilice
en plural, es sinónimo de datos.
Estadística es la ciencia encargada de suministrar las diferentes técnicas y
procedimientos, que permiten, desde organizar la recolección de datos, hasta su
procesamiento, análisis e interpretación. Se utiliza cuando los datos primarios
resultan numerosos y requieren procedimientos de cálculo de parámetros
(estadígrafos o estadísticos) que resuman en pocos resultados, las principales
cualidades del comportamiento de los valores de las variables que se estén
estudiando, en términos de estimadores de tendencia central, dispersión y
posición relativa de cada conjunto de datos de las distintas variables que se estén
utilizando en el estudio.
De particular beneficio resulta la Estadística, cuando los datos recopilados poseen
además incertidumbre en sus magnitudes, propias de los errores ordinarios de
medición. Cabe enfatizar que son similarmente perniciosas las situaciones
consistentes en utilizar la Estadística innecesariamente, cuando resultan evidentes
las cualidades del comportamiento observado, como cuando se soslaya su
aplicación en condiciones de discernimiento objetable. Ante la duda de una
frontera difusa, debe aplicarla. Tenga presente además, que la aplicación de la
Estadística Inferencial para situaciones que lo ameriten, le permitirá profundizar el
alcance de su análisis, con respecto a llegar solo a la Estadística Descriptiva,
como podrá valorar más adelante.
Según los objetivos de su aplicación, se divide en Descriptiva e Inferencial:
Estadística
Descriptiva
• Constituida por el conjunto de métodos
estadísticos dedicados al procesamiento
inicial de los datos primarios, o sea, el
resumen y presentación de la información
recogida sobre un determinado aspecto o
problema, en términos de estimadores o
parámetros de tendencia central, dispersión
y posición relativa.
Estadística
Inferencial
• Rama de esta ciencia dedicada al análisis
de la información, que permite las pruebas
de hipótesis, para servir como elemento de
apoyo en la interpretación de los resultados
y posterior toma de decisiones sobre la base
de los mismos. La aplicación de la
Estadística Inferencial tiene implícita en su
primera etapa, el empleo de la Estadística
Descriptiva.
:
42
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
2.2.1.1 Método Estadístico
El Método Estadístico es una forma particular del Método Científico de
investigación, de ahí que sus etapas tengan puntos comunes entre sí.
Etapas del Método Estadístico
Las acciones a realizar se agrupan en cuatro etapas, las que se ilustran en la
Figura 7; son muy similares a las que deben acometerse en una Investigación
Educativa, tal y como se presentó con antelación; de hecho, muy similares a las
de cualquier otra investigación en la que se esté aplicando el Método Científico,
como es de esperar; no obstante, se precisan de inmediato algunos aspectos que
ameritan detallarse en este momento de la etapa de Planificación de la
investigación.
Elaboración o
procesamiento
de los datos
recogidos
Planificación de
la investigación
Recolección
de la
información
Análisis e
interpretación
Figura 7. Etapas del Método Estadístico
Antes de proceder a la recolección de la información, en la etapa de Planificación
de la Investigación, deben precisarse la Población y la Muestra con las que se
trabajará. Cabe dejar sentado que la mayor confiabilidad de los resultados a
alcanzar corresponde a aquellos estudios que se lleven a cabo con todos los
43
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
elementos de la población. El muestreo conlleva ineludiblemente algún grado de
pérdida de información, por muy riguroso que se realice. Se trabaja sobre la
muestra en numerosas oportunidades, dado que se presenta como la única opción
factible ante la magnitud de la población, ya sea por recursos financieros o de otra
índole. Es trascendente reconocer debidamente los conceptos de Población y
Muestra, y el carácter relativo que poseen. Así, se tiene que:
Usted puede tener en un
momento dado tres grupos de
clases con un total de 60
estudiantes, esa podría ser su
población. Y por ejemplo, para
participar
en
acciones
sistemáticas de beneficio al
medio ambiente, le invitan a
participar en cada ocasión a 12
estudiantes en los que estén
representados los tres grupos
en equidad numérica; 12 de 60
sería la muestra (20% de 60).
Ejemplo 20
En una investigación en la Universidad de las Ciencias Informáticas, en
dependencia del estudio que se vaya a realizar (digamos, resultados docentes en
Matemática I), pueden tener lugar entre otras algunas de las situaciones
siguientes:
44
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Variante 2
Variante 1
POBLACIÓN
POBLACIÓN
Todos los estudiantes de
primer año (alrededor de
mil alumnos)
Total de estudiantes de los grupos
atendidos por uno de los profesores
conferencistas (usualmente entre dos y 6
grupos de alrededor de 20 estudiantes
cada uno)
MUESTRA
MUESTRA
Cualquier subconjunto de
estudiantes tomados de la
Población
Determinada fracción del total de
estudiantes de ese profesor (garantizando
representatividad de cada grupo aludido)
Fin del Ejemplo 20
Por circunstancias como las de los ejemplos anteriores, los conceptos de
Población y Muestra son relativos. Se debe estar consciente que la
generalización de los resultados será válida solo para aquella población de la cual
la muestra con la que se haya trabajado resulte debidamente representativa.
Índice
En la recolección de la información, se distinguen a su vez tres etapas, cuya
identificación y desarrollo poseen marcada importancia en el éxito de la
investigación a ejecutar. Estas son:
Planificación
Ejecución
Verificación
Existen tres niveles en los que puede darse la recolección de la información,
atendiendo de modo decreciente a su magnitud, denominados: Censo, Encuesta
y Entrevista. El Censo incluye a todos los elementos de la población; es costoso,
trabajoso; su realización lleva un tiempo apreciable; proporciona una información
máxima de las variables en estudio; en el caso de los poblacionales que habitan
45
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
un país, se realiza comúnmente con frecuencia no menor de 4 años. La Encuesta
por su parte, se le aplica al sector de la población que se estime pertinente, es
menos costosa que el Censo y se puede hacer con mayor frecuencia que este,
aunque como es lógico, el valor de su información es más limitado. Mientras que
la Entrevista es de estos tres, el escalón menos abarcador de recolección de
información, supuesto que se le aplique a muchas menos personas que en la
encuesta. Cabe puntualizar que tanto en el Censo como en la Encuesta pueden
estarse haciendo entrevistas, como de hecho es práctica en algunos lugares,
aunque ajustadas en su extensión a la magnitud de tales investigaciones.
Algunas de las técnicas e instrumentos para la obtención y registro de los
datos, en la recolección de la información, son:
Registro
Cuestionario
Planilla de recolección de datos
Bases de Datos
Antes de confeccionar los instrumentos de recolección de información, se les debe
prestar atención a la operacionalización de las variables, garantizando que se
correspondan con el nivel de información necesario para cumplir los objetivos
propuestos en el estudio. Relacionados con los instrumentos para la recolección,
se debe considerar además, el equipo de medición, si se fuese a utilizar, y los
requisitos de objetividad-exactitud, confiabilidad y validez que deben cumplir de
ser necesarios tales equipos. En cuanto a las preguntas es importante ver que
existen los tipos de preguntas: cerrada, abierta y semi-abierta.
La Recolección de la información constituye para el investigador una etapa de
alta trascendencia. La calidad de la información determina decisivamente en la de
los resultados del estudio. Mientras que la elaboración y el resumen puede hacerlo
un técnico estadístico competente, la recolección tiene que estar en manos del
propio investigador, vigilarla constantemente, garantizando que se realice
conforme a los planes trazados previamente. Una mala recolección traerá
resultados catastróficos.
La información también se recolecta durante la Observación o el Análisis
documental, según el tipo de investigación.
Entre los principales aspectos que deben considerarse al recoger la
información están:
-
Los errores que pueden cometerse en la recolección de datos y la manera
de controlarlos.
Las ventajas y limitaciones de los diversos métodos empleados en la
recolección de la información.
46
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
-
Las condiciones que deben reunir los individuos que se estudian y los
procedimientos más convenientes para su elección.
El diseño de formularios exhaustivos que servirán para registrar la
información.
Ejemplo 21
Si en un estudio se toma como unidad de análisis a estudiantes que han
suspendido asignaturas en los años precedentes, se está considerando como
población al conjunto de estudiantes que han suspendido alguna asignatura
en los años precedentes; pero esto, aún cuando concuerda con lo definición
vista, resulta bastante impreciso para ser utilizado en una investigación. Es
evidente la necesidad de delimitar mejor la población, por lo que el investigador se
debe detener a pensar ¿Hacia qué población se desean generalizar los
resultados? Si el interés es generalizarlo hacia una asignatura X de la Disciplina
Matemática (le corresponden las asignaturas Matemática I, II, III y IV), entonces la
población definitivamente es: el conjunto de estudiantes que han suspendido
alguna asignatura X de la Disciplina Matemática en los años precedentes; y
si se va a trabajar solo con una muestra, obligadamente esta debe extraerse de
esa población.
Fin del Ejemplo 21
Algunos de los Errores más comunes que se presentan en la recolección de la
información, pueden ser:
 No definir conceptualmente las variables, no operacionalizar debidamente a las
que lo requieren
 Uso sin validación de instrumentos desarrollados en otro espacio y tiempo
 Cualidades del instrumento (redacción, claridad, etc.)
 No realizar pruebas pilotos que determinen confiabilidad y validez del
instrumento
 Falta de respeto al informante al poner por escrito en el cuestionario frases
como Responda con sinceridad
Índice
2.2.2 Muestra. Tipos de muestreo
Atendiendo al uso de las probabilidades en el momento de definir la muestra,
existen dos caminos para el muestreo, que identifican su tipo: No probabilístico
47
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
(Por criterios - a juicio - del investigador, o circunstancias que se presentan) y
Probabilístico (Aleatorio). Si en un grupo de sus estudiantes precisa declarar el
o los que más participan en las clases, esta sería una muestra no probabilística,
no son cualesquiera de los estudiantes los que integrarían el subgrupo en
cuestión. Asimismo sucedería si resultase necesario precisar los de menor
aprovechamiento docente; estaría definiendo una segunda muestra atendiendo a
este nuevo criterio. No resultan pocas las ocasiones en las que resulta
prácticamente obligado trabajar con muestreo no probabilístico, lo que sitúa al
investigador en condiciones de no poder generalizar los resultados a los que
arriba.
A diferencia del anterior, el Muestreo probabilístico o Diseños muestrales
probabilísticos, son aquellos en los que se usa la teoría de la probabilidad para
seleccionar las unidades muestrales, mediante un plan bien definido antes de
recopilar cualquier dato. Los elementos de una muestra o unidades muestrales,
deben ser escogidos adecuadamente para poder extender los resultados que se
observen a los elementos de toda la población. En ese caso la muestra será
llamada una muestra representativa, y como su nombre lo indica, representa a
toda la población. Debe estarse bien alerta porque aún cuando se utilice un
procedimiento probabilístico en la selección de la muestra, esta pudiera no resultar
lo representativa que es esperado.
Sobre muestreo el interesado que no satisfaga sus necesidades en el presente
documento, podrá consultar Técnicas de muestreo, Cochran (SA); y los capítulos
8 y 13, de Metodología de la Investigación, Hernández, Fernández y Baptista
(2014), entre otras obras que tratan ese contenido.
Ejercicio 9
Complete la información en el diagrama siguiente;
Tipos de muestreo
atendiendo o no al uso
de las probabilidades
Fin del Ejercicio 9 \Índice
48
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
2.2.3 Factores que deben tenerse en cuenta para obtener una buena
muestra:
I. El tamaño de la muestra
Se recurre a una muestra cuando no resulta posible por diferentes motivos
realizar el estudio en toda la población. Las limitantes para hacer el estudio
directamente sobre el total de la población pueden ser de índole económico, de
tiempo, conveniencia, factibilidad, etc. o limitantes que estén dadas en la
combinación de dos o más factores de los mencionados. Muestra es por lo
general pérdida de información, conlleva a menos exactitud de los resultados.
Siempre que el estudio pueda llevarse a cabo con todos los elementos que
integran la población, se estará haciendo un estudio más riguroso. No obstante,
en numerosos casos prácticos no queda otra alternativa que recurrir a la
selección de una muestra para hacer el estudio deseado.
La muestra debe tener en cuenta si los elementos de la población tienen poca
o mucha variabilidad en los valores de las variables más importantes del estudio
que deba hacerse; para obtener la información a priori sobre la variabilidad de
la variable de mayor interés en el estudio dentro de población, se puede
consultar con un investigador de experiencia en el campo de interés, realizar un
pilotaje (estudio preliminar con una muestra de menor tamaño) o buscar
información en la literatura sobre investigaciones similares en la que se reporte
este estimador.
De cómo obtener el tamaño de una muestra en determinadas circunstancias se
estará hablando más adelante en este documento cuando se presente el
estadígrafo Z de pruebas de hipótesis con la Distribución Normal.
II. Las condiciones de selección de la muestra
La muestra debe ser seleccionada tomando en consideración determinados
criterios (métodos o esquemas de muestreo) que respondan a las condiciones
específicas de cómo los valores de las principales variables de interés en el
estudio, están dados en el seno de la población, de manera que refleje los
aspectos esenciales de la misma de una manera adecuada.
Un elemento trascendente adicional, es el de las condiciones que debe poseer
una muestra representativa, buena, válida. La muestra representativa es aquella
que posee, a su menor escala, características similares en las variables que se
están estudiando, con respecto a las que poseen dichas variables en la población
de la que es extraída. Las condiciones de una muestra representativa, se
asocian con sus atributos de:
49
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019


Tamaño (cantidad de elementos de la población incluidos en la
muestra)
Calidad (forma en que fueron seleccionados los elementos que la
integran)
Una muestra representativa será la que posee un tamaño y calidad apropiados
para hacer mínimos los errores del muestreo. Más adelante se tratará cómo
proceder para inducir el logro de estas condiciones en la selección de la muestra
en cuestión.
\Índice
2.2.4 Procedimientos de muestreo probabilístico. Muestreos Aleatorios
Simple, Estratificado y por Conglomerados
Para que las conclusiones deducidas a partir de los resultados obtenidos de una
muestra sean válidas, lo primero que debe tenerse en cuenta es el método o
procedimiento de elegir la muestra, de manera que la selección no esté permeada
por el criterio personal del investigador o preferencias profesionales de diversa
índole; además, el proceso de selección debe ser comparable con un experimento
aleatorio (Cada vez que se repite bajo las mismas condiciones, existen factores
del azar que causan variaciones en los resultados de los valores de las variables
observadas). Es en esas circunstancias que se elige obtener una
muestra
aleatoria. Los tres tipos de muestreo probabilístico más utilizados son: muestreos
aleatorio simple, estratificado y por conglomerados.
I. Muestreo Aleatorio Simple (MAS)
Este muestreo constituye el enfoque más directo para obtener una muestra
probabilística. Es aplicable cuando la población tiene poca variabilidad en los
valores de las variables principales objeto de estudio, es decir, cuando hay un
comportamiento más o menos uniforme de las características principales que se
desean estudiar en toda la población.
El MAS consiste en:
1.
2.
3.
4.
Identificar la población en la que se realizará el estudio (tamaño N)
Calcular el tamaño de la muestra, n
Numerara cada elemento de la población
Determinar una cantidad de números aleatorios igual al tamaño de la muestra
50
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
5. Extraer la muestra que estará integrada por cada uno de los elementos de la
población que correspondan a los números aleatorios determinados con
antelación.
Ejemplo 21
Casos en los que el MAS estaría fundamentado, serían en investigaciones sobre:
a. Conocimientos de Español en alumnos de todos los grupos, de un mismo
maestro y grado, de una escuela primaria
b. Nivel de estudio alcanzado por los padres de los alumnos de distintos
grados de una escuela primaria
c. Disponibilidad de tablet y teléfonos celulares en alumnos de 6to grado
Fin del Ejemplo 21
Ejemplo 22
Dada la población que representan19 alumnos de un aula, seleccione una muestra
aleatoria de tamaño 5.
Solución:
1. Aquí ya es dato el tamaño de la población, N=19.
2. Asimismo, ya es un dato el tamaño de la muestra, n= 5
3. Se numera la población. En este caso es usual la existencia de un registro de
asistencia en el que, por orden alfabético del primer apellido, ya estén los
nombres de todos los alumnos.
4. Se seleccionan por algún procedimiento apropiado, tantos números aleatorios
como tamaño de muestra se requiera. Por ejemplo, con el EXCEL pondría en
una celda =ALEATORIO.ENTRE(1,19), y desplazando por 5 celdas se
obtuvieron los números 8, 9, 5, 19 y 1
5. Se procede al estudio en cuestión con los cinco alumnos cuyos nombres se
corresponden en el listado con los cinco números aleatorios determinados
antes
Fin del Ejemplo 22
Más adelante se estudiará la Distribución Normal y de sus propiedades se
presentará una fórmula para el cálculo del tamaño de muestra.
Índice
51
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
II. Muestreo Aleatorio Estratificado (MAE).
Estratificar significa dividir la población en subgrupos (estratos) en función de las
variables o características que interesan ser estudiadas; la estratificación permite
una mayor correspondencia entre la población y la muestra, respecto a las
variables o aspectos por los que se realizó la estratificación.
Es conveniente aplicar la estratificación cuando la variabilidad de los valores de
las variables de interés en el estudio resulta muy cambiante dentro de la
población, buscando que dentro de cada estrato la variabilidad disminuya, aunque
entre estratos si existan diferencias importantes. En otras palabras, los valores de
la variable de interés principal en el estudio se encuentran en el seno de la
población de modo tal, que por estratos posee cierta homogeneidad, mientras que
de un estrato a otro las diferencias son significativas. Tal sería el caso de
Conocimientos de Español en alumnos de 2do. a 6to.grado de una escuela
primaria
Ejemplo 23
A modo de ejemplo, para el cálculo de una muestra en MAE, considérese una
escuela de nivel primario con N=700 estudiantes, distribuidos supuestamente a
razón de 100 por cada nivel (desde preescolar hasta el 6to. grado). Suponga que
tiene que sacar una muestra aleatoria de 21 alumnos de cada nivel (ntotal= 21x7=
147) para posteriormente hacer un estudio socio económico de las familias en las
cuales conviven. De acuerdo a los datos y requerimientos, se cumple:
N𝑃𝑟𝑒𝑒𝑠𝑐𝑜𝑙𝑎𝑟 = N1𝑟𝑜. = N2𝑑𝑜. = N3𝑟𝑜. = N4𝑡𝑜. = N5𝑡𝑜. = N6𝑡𝑜. = 100
𝑖=6
𝑡𝑜.
N𝑡𝑜𝑡𝑎𝑙 = ∑𝑖=𝑃𝑟𝑒𝑒𝑠𝑐𝑜𝑙𝑎𝑟
N𝑖 =N𝑃𝑟𝑒𝑒𝑠𝑐𝑜𝑙𝑎𝑟 + N1𝑟𝑜. + N2𝑑𝑜. + N3𝑟𝑜. + N4𝑡𝑜. + N5𝑡𝑜. + N6𝑡𝑜. = 700
npreescolar= n1ro.= n2do. = n3ro. = n4to.= n5to. = n6to.=21 y
𝑖=6
𝑡𝑜.
𝑛𝑡𝑜𝑡𝑎𝑙 = ∑𝑖=𝑃𝑟𝑒𝑒𝑠𝑐𝑜𝑙𝑎𝑟
𝑛𝑖 = npreescolar + 𝑛1𝑟𝑜. + 𝑛2𝑑𝑜. + 𝑛3𝑟𝑜. +𝑛4𝑡𝑜. + 𝑛5𝑡𝑜. + 𝑛6𝑡𝑜. )=147.
52
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Para definir los 21 alumnos de cada nivel se numera previamente a los 100 del
mismo; por alguna vía obtiene 21 números aleatorios en el intervalo [1, 100]
(puede
hacerlo
en
EXCEL
auxiliándose
de
la
función
=ALEATORIO.ENTRE(inferior, superior) y pasan a integrar la muestra de dicho
nivel aquellos alumnos que se corresponden con los números aleatorios obtenidos
para el nivel en cuestión (Nota: Debe obtener para cada nivel 21 nuevos números
aleatorios, alguno pudiera coincidir)
Fin del Ejemplo 23
Las fórmulas de trabajo a utilizar cuando el tamaño de los estratos sea diferente y
también pueda serlo la cantidad de elementos a seleccionar de cada estrato, para
integrar la muestra total, son:
1. Identificar el tamaño de la población N, la cantidad de estratos K y el tamaño Nj
de cada uno (Note que para K estratos, 𝑁 = 𝑁1 + 𝑁2 + ⋯ + 𝑁𝐾 )
2. Calcular el tamaño de muestra total 𝑛
3. Hallar proporcionalmente el tamaño de la muestra 𝑛𝑗 de cada estrato,
medio de asignación proporcional, es decir:
Nj
Peso relativo de cada estrato: p j 
N
Tamaño de muestra a obtener de cada estrato: 𝑛𝑗 = 𝑝𝑗 ∗ 𝑛, para 𝑗 = 1, 𝐾
por
Índice
III. Muestreo Aleatorio por Conglomerados
Usualmente se acude a este tipo de muestreo cuando se presume que puede
existir una asociación física, de ubicación geográfica, de la variable de interés del
estudio con el lugar del que proviene, o se encuentra, el sujeto que integra la
población. Supóngase que se desea indagar sobre el tiempo promedio que le
toma a los alumnos llegar a la escuela; habría que hacer una muestra
representativa de alumnos atendiendo a las zonas en las que residen. Se procede
de modo similar al MAE, lo que ahora la zona de residencia pasaría a tomar el
lugar del estrato.
Ejercicio 10
Enlace con segmentos de recta el tipo de muestreo que aplicaría en los ejemplos
de investigaciones relacionadas a continuación y complete las celdas en blanco de
la primera columna con dos nuevos ejemplos:
53
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ejemplos
Estado de tranquilidad social del lugar de
residencia del alumno
Horas dedicadas a ver televisión de los alumnos
de los 3 grupos existentes de 5to. Grado en una
escuela
Años de experiencia docente de los profesores
de una escuela
Nivel de conocimientos de Historia de los
alumnos en una escuela
Tipos de
muestreo
aleatorio
Simple
Estratificado
Por
Conglomerados
Fin del Ejercicio 10
Índice
2.2.5 Muestreos en procesos continuos (sistemáticos, repetitivos)
Numerosos procesos en la naturaleza y en la sociedad transcurren de modo
continuo por su propia esencia, como es el movimiento de los planetas del sistema
solar (de carácter determinístico), siempre en cada instante en la misma posición
esperada y con igual velocidad de rotación alrededor del sol.
En la industria, los procesos de tecnologías más avanzadas, también suelen tener
tal cualidad, como son los que tienen lugar en las plantas petroquímicas y en las
modernas potabilizadoras de agua (de carácter aleatorio en las propiedades de los
productos, aunque con poca dispersión respecto a los índices de calidad a
cumplir), entre otras.
Para el comportamiento de la asistencia a una escuela, considerando de lunes a
viernes y en periodos de clases, diariamente se estaría en presencia de un
proceso continuo de carácter aleatorio.
El nivel de atención de los alumnos durante una clase, es también una variable
continua y de carácter aleatorio.
El muestreo sistemático solo se realiza en los procesos continuos de naturaleza
aleatoria.
54
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ejemplo 24
A modo de ejemplo, considere el presentado antes (una escuela de nivel primario
con N=700 estudiantes, distribuidos supuestamente a razón de 100 por cada nivel,
desde preescolar hasta el 6to. grado). Ahora se propone hacer un estudio durante
20 semanas con dos variables a medir en cada alumno: puntualidad (en tiempo, y
atrasado) y forma de uso del uniforme (incorrecto y correcto). Al respecto y fijando
el momento de registro de la información, cuatro de las formas de acometer el
estudio pueden ser:
a) Todas las 20 semanas y a la llegada de cada uno de los estudiantes
b) Seleccionar aleatoriamente 4 de las 20 semanas y a la llegada de cada uno
de los estudiantes
c) Seleccionar aleatoriamente 1 semana dentro de cada uno de los 4periodos
consecutivos de 5 semanas (semanas 1 a la 5, 6 a la 10, 11 a la 15y 16 a la
20) y a la llegada de cada uno de los estudiantes
d) Seleccionar aleatoriamente una semana dentro de las primeras 5 (suponga
que sale la semana 3), y después repetir el registro cada una de las
próximas 5 semanas (semanas 8, 13 y 18) y a la llegada de cada uno de los
estudiantes
El caso a) sería un estudio sin muestreo, se estaría realizando con toda la
población o universo, exhaustivo, requeriría más tiempo del personal para
realizarlo. Sus resultados serían los más exactos posibles. Los casos b), c) y d)
toman en cuenta muestreo con aleatoriedad, manteniendo fijo lo del registro de la
información solo en 4 semanas de las 20. Con mayor peso, los casos c) y d)
toman en consideración lo de continuo del proceso, por lo que los resultados a
alcanzar deberán ser los más confiables.
Fin del Ejemplo 24
Algo más de información sobre este tipo de muestreo puede encontrarlo en
Selección sistemática de elementos muestrales (Hernández Sampieri, Fernández
Collado y Baptista Lucio, 2014).
Índice
2.2.6 Parámetros (Estadísticos o estadígrafos) poblacionales y muestrales
Muy importante son los conceptos de parámetros (estadísticos o estadígrafos)
poblacionales y muestrales. Los estadísticos o estadígrafos, son valores
calculados a partir de un conjunto de datos primarios, de la (o las) variable de
interés que indican determinadas cualidades relevantes que caracterizan a ese
55
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
conjunto de datos recopilados. Pueden agruparse en tres tipos según lo que
representan:
De tendencia central (moda, mediana, y media aritmética o promedio)
De dispersión (varianza, desviación estándar, coeficiente de variación y
rango)
De posición relativa (centiles, deciles y cuartiles)
Más adelante se definen otros estadísticos para finalidades a explicar en su
momento.
Estadígrafo o estadístico, como lo llaman indistintamente algunos autores, son
números que se obtienen de fórmulas o funciones, que se calculan a partir de los
valores (datos primarios) de una muestra aleatoria.
Los estadígrafos son variables aleatorias, ya que al depender de los valores de
una muestra aleatoria, el carácter de ésta se trasmite al valor del estadígrafo. Por
lo tanto también los valores del estadígrafo, obtenidos para distintas muestras,
siguen un modelo teórico de probabilidad. Al conjunto de valores que toma el valor
del estadígrafo, correspondientes a diferentes muestras se le denomina la
distribución muestral de los valores del estadígrafo. De tal modo, la distribución de
las medias muestrales puede representarse por: 𝑋 = {𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 }.
Una propiedad de suma importancia, cuya demostración puede encontrarse en la
literatura especializada, es que la distribución de las medias muestrales sigue el
comportamiento de la Distribución Normal, independientemente de la distribución
teórica que pueda representar al comportamiento de los valores de la variable
original de que se trate.
Índice
Existen dos estadísticos especialmente útiles para procesar valores de variables
cualitativas: Razón y Proporción
RAZÓN (R): Sean los datos A y B que cumplen que A no está contenido en B (no
tienen elementos comunes). La razón es la relación A/B. Puede tomar valores
mayores de 1.
PROPORCIÓN (P).- Sean los datos A y A+B, para los cuales se establece la
relación: A/(A+B). Observe que A está presente también en el denominador. Se
cumple que 0 ≤ 𝑃 ≤ 1.
56
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Tabla 4. Algunos parámetros indicadores de Tendencia central y de Dispersión
Parámetro
(Estadístico)
Media (promedio
aritmético),
medida de
tendencia central
Población (tamaño N)
Muestra
(tamaño n)
∑𝑁
𝑖=1 𝑥𝑖
𝜇=
𝑁
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛
Ordenado previamente en
orden ascendente (o
descendente) los valores, se
toma el que ocupa la posición
Mediana
intermedia si el total es impar,
o la semisuma de los que
ocupan las posiciones
alrededor de la intermedia si el
total de valores es de orden par
Valor que más se repite
Moda
(pueden existir más de una
Moda)
2
∑𝑁
Varianza (medida
𝑖=1(𝑥𝑖 − 𝜇)
2
𝜎
=
de dispersión)
𝑁
Desviación
𝜎 = √𝜎 2
estándar o típica
𝜎
Coeficiente de
𝐶𝑉 = ∗ 100
𝜇
variación, CV (%)
𝑅𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 = 𝑉𝑎𝑙𝑜𝑟 𝑚𝑎𝑦𝑜𝑟
Rango
− 𝑉𝑎𝑙𝑜𝑟 𝑚𝑒𝑛𝑜𝑟
Idem al procedimiento de
la población
Idem a la población, en
los valores de la muestra
𝑠2 =
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑠 = √𝑠 2
𝑠
𝐶𝑉(%) = ∗ 100
𝑥̅
Idem a la población, con
los valores de la muestra
Nota: Todos los parámetros muestrales (𝑥̅ , Mediana, Moda, 𝑠 2 y 𝑠), son
estimadores puntuales de los respectivos parámetros poblacionales 𝜇,
Mediana, Moda, 𝜎 2 y 𝜎.
Ejemplo 25
Suponga que la información del lugar de procedencia de los 17 estudiantes del
Grupo 16 de la FICI, atendiendo a provincias occidentales (OC), centrales (CE) y
orientales (OR) es:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
OR
OR
OC
CE
OC
OC
CE
OR
OC
OC
OR
CE
OC
OR
OC
OC
OC
Calcular Razón y Proporción de estudiantes de las provincias OC
57
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Solución:
Por inspección se identifican 9 de las OC, 3 de las CE y 5 de las OR.
𝑅𝑂𝐶 =
9
= 1.125~ 1.1
8
𝑦 𝑃𝑂𝐶 =
9
= 0.529~ 0.5
17
Fin del Ejemplo 25
Se seguirá el convenio, cuando resulte necesario identificar la Razón y Proporción
muestrales, de escribirlas como 𝑅̂ y 𝑃̂, y las poblacionales solo con R y P
respectivamente. Se cumple que 𝑅̂ y 𝑃̂ son estimadores de los respectivos
parámetros poblacionales R y P.
Ejemplo 26
En el recién realizado examen final de Matemática I, los 17 estudiantes del grupo
16 de la Facultad Introductoria de Ciencias Informáticas de la Universidad de las
Ciencias Informáticas, obtuvieron las calificaciones (en escala de 2 a 5) siguientes:
4; 3; 4; 2; 5; 3; 3; 2; 2; 3; 3; 5; 2; 2, 3; 3 y 4
Calcule media aritmética (promedio), mediana, moda, varianza, desviación
estándar (o típica), coeficiente de variación (en porcentaje) y Rango.
Solución:
Media aritmética
𝑥̅ =
4 + 3 + 4 + 2 + 5 + 3 + 3 + 2 + 2 + 3 + 3 + 5 + 2 + 2 + 3 + 3 + 4 53
=
~ 3.1−
17
17
Mediana
Requiere el ordenamiento previo de los valores en cuestión:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
2 2 2 2 2 3 3 3 3 3
3
3
4
4
4
5
5
El total de valores es impar, la posición intermedia corresponde al número
de orden 9 y la mediana es 3. Significa que la mitad de las calificaciones
58
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
resultan o están por debajo de 3. Asimismo, que la mitad de los valores son
o están por encima de 3. El valor de calificación 3 es una medida de
tendencia central del conjunto de datos primarios utilizados.
Moda
La Moda es 3; valor que se repite 7 veces. Más de lo que se repite el 2 (5
veces), el 4 (3 veces) o el 5 (dos veces)
Varianza
Para el cálculo de 𝑠 2 es recomendable tomar el mayor número de cifras
decimales significativas del cálculo precedente, por lo que ahora se
retomará 𝑥̅ = 3,11764706
𝑠2 =
(4 − 3,11764706)2 + (3 − 3,11764706)2 + … + (4 − 3,11764706)2
= 0,985294118
17 − 1
Desviación estándar
𝑠 = √𝑠 2 = √0,985294118 = 0,992619825~ 0,99
Ciertamente, este valor no es sencillo de asociar con el nivel de dispersión que
poseen los datos primarios. Hay que tener muy presente el rango en los que
estos están comprendidos, para apreciar así cuánto es 0,99 respecto al mismo.
Coeficiente de variación (%)
0,992619825
𝐶𝑉(%) = 3,117647059 ∗ 100 = 31,8387491% ~ 32% ¡El mejor parámetro de los
de Dispersión! Es muy informativo lo que significa 32%, sin tener que estar
entrando en detalles sobre los valores de los datos primarios en cuestión.
Rango
𝑅𝑎𝑛𝑔𝑜 = 5 − 2 = 3
Fin del Ejemplo 26
59
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Con el SPSS 20 para los datos anteriores, se obtuvo:
Estadísticos descriptivos
N
Rango
Calificación
17
3
N válido (según
lista)
17
Mínimo Máximo
2
5
Media
Desv.
típ.
3.12
.993
Índice
60
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
ATENCIÓN, ESTÉ ALERTA DE NO COMUNICAR
RESULTADOS
CON CIFRAS DECIMALES INNECESARIAS.
EVITE LAS MALAS PRÁCTICAS QUE TANTO
ABUNDAN.
¡QUE EL RIDÍCULO LO HAGAN OTROS!
Los software convenientemente trabajan con el mayor número de
cifras decimales que pueden, atendiendo a las características de las
computadoras o calculadoras para los que fueron desarrollados, con
la finalidad de que al ejecutar internamente los cálculos, los errores
no se propaguen indebidamente en los pasos intermedios y puedan
llegar a resultados absurdos. Ahora bien, el que tiene que pensar y
decidir, respecto al número de cifras decimales con las que se queda
finalmente, es el que muestra los resultados, sobre todo de modo
público. Para el ejemplo anterior, los datos primarios no tienen
cifras decimales y son solo del orden de las unidades; no se refiere a
cálculos con grandes cantidades de dinero. E s suficiente entonces
dar los resultados de la media con una sola cifra decimal y el de la
desviación estándar con dos (no se daría el resultado de la varianza
porque su información de la dispersión del conjunto de datos
primarios es de peor calidad que la que proporciona el resultado de
la desviación estándar). La desviación estándar posee las mismas
unidades en que están dados los datos primarios, es la que puede
llegar a comprenderse mejor su magnitud en cualquier caso
específico. Sin embargo, el estimador de dispersión de mayor calidad
es el coeficiente de variación, que calculado en porcentaje para este
ejemplo (con un resultado del orden de las tres decenas), debe
mostrarse con no más de una cifra decimal a lo sumo; finalmente, si
se reporta el coeficiente de variación, es redundante informar el
valor de la desviación estándar.
Índice
61
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
2.2.7 Distribución muestral de la media aritmética, cuando la variable original
es normal.
Cuando se estudió la Distribución Normal se mostró que esta queda plenamente
definida por dos parámetros: la media  y la desviación estándar . Ahora
tenemos dos variables aleatorias: 𝑋 𝑦 𝑋̅. Se describen a continuación algunas
particularidades de la distribución de 𝑋̅ cuando 𝑋 tiene Distribución Normal.
Considerense todas las muestras posibles de tamaño n que puede extraerse
aleatoriamente, con o sin reemplazamiento de una población dada. Para cada
muestra pueden calcularse estadígrafos tales como la media, la varianza y la
desviación estándar; se apreciará que para cada muestra estos estadígrafos
varian, lo que ermite obtener una distribución del estadígrafo al que se le
denominará Distribución muestral.
Ejemplo 27
Sea la población formada por los valores 1 ; 2 ; 3. La media poblacional es 𝜇 = 2
De inmediato se obtienen todas las muestras de tamaño 2 que se puede extraer
de la población dada y su media muestral ( Muestras posibles 32 = 9 ).
(1;1)
x 1
(1;2)
x  1,5
(1;3)
x2
(2;1)
x  1,5
(2;2)
x2
(2;3)
(3;1)
( 3; 2 )
(3;3)
x  2,5
x2
x  2,5
x3
Como se observa, para cada muestra se obtuvo su media muestral, pero si
caalcula la media de todas las medias muestrales, ocurrirá que esta coincide con
la media poblacional:
62
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
1  1,5  2  1,5  2  2,5 2  2,5 3
2
9
De la misma forma se puede verificar que la desviación estándar de todas las
desviaciones estándar muestrales dividida por la raíz del tamaño de muestra es la
desviación estándar de la población. ¡ Verifíquelo !
Fin del Ejemplo 27
Luego, para evitar confusiones, se le llamará 𝜇𝑋 y 𝜎𝑋 a los valores de la media y la
desviación estándar respectivamente de la distribución de la variable 𝑋, mientras
denotaremos por 𝜇𝑋̅ y 𝜎𝑋̅ a los valores parámetros de la distribución de 𝑋̅.
Cuando la distribución de la variable 𝑋 es normal con media 𝜇𝑋 y desviación
estándar 𝜎𝑋̅ , entonces la distribución o modelo teórico de la media muestral 𝑋̅ con
una media igual a 𝜇𝑋 , (𝜇𝑋 =𝜇𝑋̅ ), y una desviación estándar  x 
x
n
donde n es el
tamaño de la muestra.
El valor  x 
x
, que representa la desviación estándar del modelo de 𝑋̅, en otras
n
palabras, la desviación teórica que tienen los valores de 𝑋̅ con respecto a la
media  x , se conoce también con el nombre de error estándar de 𝑋̅, se le denota
por EE 𝑋̅ y se estima puntualmente por medio de la expresión 𝐸𝐸𝑋̅ =
𝑠
√𝑛
.
Es importante señalar que aunque la variable 𝑋 no siga el comportamiento de la
Distribución Normal, si se tiene una cntidad numerosa de observaciones
independientes, entonces el modelo de 𝑋̅ puede ser aproximado por el modelo de
la Distribución Normal.
Como se puede apreciar, al estimar el valor de un parámetro  a partir de su
estimador puntual  , casi siempre existe una diferencia entre los valores real y
estimado que se define como error de muestreo y se calcula por  - .
Índice
63
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
2.3 Estimación puntual y por intervalos
Hay dos tipos de estimación, la estimación puntual, en la que la estimación es un
valor numérico calculado a partir de algún estadístico (media, varianza, …); y la
estimación por intervalos, en la que se selecciona un valor de probabilidad
determinado, el cual es directamente proporcional a la amplitud del intervalo de
estimación del parámetro en cuestión. En la estimación lo que se persigue es
obtener un valor aproximado (estimado) de un valor poblacional que se
desconoce, a partir de datos muestrales y fijar el grado de incertidumbre que
corresponde a obtener esa estimación por intervalo, en términos de probabilidad.
(El estimador es una función y la estimación, un valor).
Las fórmulas de trabajo de los estimadores puntuales son las ya presentadas
(Tabla 4, Algunos parámetros indicadores de Tendencia central y de Dispersión):
𝑥̅ → 𝜇; 𝑠 2 → 𝜎 2 ; 𝑠 → 𝜎; … ; 𝑅̂ → 𝑅 𝑦 𝑃̂ → 𝑃
Propiedades de los estimadores:
Existen propiedades que todo estimador debe cumplir, las cuales son:
 Insesgado: Cuando el valor que se espera del estimador, coincide con el valor
del parámetro.
 Eficiente: Dado dos estimadores insesgados de un mismo parámetro, se
considera el más eficiente al que tiene menor varianza.
 Consistente: Si a medida que aumenta el tamaño de la muestra, sucede quela
probabilidad de que la estimación sea el verdadero valor del parámetro tiende a
uno.
 Suficiente: Cuando emplea toda la información que existe en la muestra.
En la estimación puntual no se mide el grado de incertidumbre que se tiene al
hacer la inferencia al resto de la población, y se sabe que los estimados varían de
muestra a muestra, por lo que es importante que siempre vaya acompañado de
una medida de la precisión de la estimación. Para esto es necesario emplear otro
método de estimación conocido como estimación por intervalos de confianza.
Índice
2.3.1 Estimación por intervalo de confianza de la media poblacional (µ) con 
conocida y desconocida.
En este tipo de estimación se busca un intervalo en el que se pueda afirmar que la
media poblacional (o cualquier parámetro) se encuentra en el intervalo con una
confianza determinada expresada en términos de probabilidad. Por ejemplo, para
64
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
nivel de significación nivel de confianza, p= 1- (95%) es de
esperar que de cada 100 estimaciones de intervalos que se determinen a partir de
100 medias muestrales, el valor de la media poblacional, se encuentre en 95 de
los intervalos calculados.
1.
 conocida o no, pero n>30, entonces el intervalo de confianza se halla por la
siguiente expresión:
x Z
1
2.


2
n

xZ
1

2
n
(Utilizando la Distribución Normal)
 desconocida con n<30; en este caso es necesario estimar y
el intervalo
se calcula por la siguiente expresión:
x  t


; n  1
1 


2
s
   x  t
1 
n



; n  1

2
s
(Utilizando la Distribución t de Student)
n
Ejemplo 28
Se desea conocer la estimación por intervalo de confianza para la media
poblacional de calificación final (en escala de 0 a 10) en una asignatura con una
confiabilidad de 0,95. Se seleccionó una muestra aleatoria de 60 estudiantes para
los que resultó una media de 7.4 y la desviación estándar de 0.8.
Solución:
Como se desconoce la varianza poblacional pero n > 30, se utiliza la fórmula de
estimación por intervalo con la Distribución Normal, variable Z.
1    0,95    0,05
1

2
 0,975  Z
1

=1.96*0.8/RAIZ(60)= 0.2
 Z 0,975  1,96
2
=DISTR.NORM.ESTAND.INV(0.975)= 1.96
x Z
1

2
s
s
xZ 
1
n
n
2
65
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
7,41,96
0,8
0,8
  7,41,96
60
60
7,4 – 0,2  7,4 + 0,2
7,27,6
La media poblacional desconocida, de las calificaciones de la que se tomó la
muestra, se encuentra entre 7,2 y 7,6, calculado con 𝛼 = 0,05 (nivel de
significación 5%, equivalente a nivel de confianza 95%)
Fin del Ejemplo 28
Índice
2.3.2 Estimación por intervalo de confianza de una proporción poblacional
(P)
𝐴
Es conocido que se le llama proporción al cociente de 𝐴+𝐵 y en este caso también
se puede determinar un intervalo de confianza para la proporción poblacional, a
partir de las fórmulas:
p
ˆ Z 1
2
p
ˆ t 1 ; n1 


2


p
ˆ .q
ˆ
 P p
ˆ Z 1
n
2
p
ˆ .q
ˆ
n
p
ˆ .q
ˆ
 P p
ˆ t 1 ; n1 


n
2


p
ˆ .q
ˆ
n
Para 𝑛 ≥ 30
Cualquier 𝑛
Este tipo de estimación es especialmente útil para el procesamiento de variables
cualitativas, ya que tanto A como B pueden obtenerse por conteo. La proporción
tiene que cumplir: 0 ≤ 𝑃 ≤ 1. Multiplicar su resultado por 100 para llevarla a
porcentaje resulta frecuente.
Cuando no conozca
p̂
y
q̂
puede asumir el valor 0.5 para ambas y estaría
obteniendo el intervalo de mayor amplitud posible.
Ejemplo 29
En una escuela se desea estimar con una confianza del 95% el porcentaje de
estudiantes que participan en los Juegos Deportivos anuales. Para ello se escoge
al azar una muestra de 120 estudiantes de los que se llega a conocer que 31
66
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
participan. Estime la proporción poblacional de estudiantes que participan en esos
juegos.
Solución:
31
pˆ 
0,26
120
qˆ 1 pˆ 10,26 0,74
1 0,95  0,05
=1.96*RAIZ(0.74*0.26/120) =0.08

1 0,975  Z   Z 0 , 975 1,96
1
2
2
p  Z
1

2
p . q
 P  p  Z 
1
n
2
p . q
n
0,26 – 0.08 < P < 0,26 + 0.08
0.18 < P < 0.34
La participación de estudiantes en los juegos, en términos de estimado por
intervalo de la proporción poblacional, llevada a porcentaje, está entre el 18 y el
34%.
Fin del Ejemplo 29
Nota: Existen fórmulas similares de estimación por intervalos para los demás
parámetros poblacionales, como la varianza. No se presentan por quedar
fuera del alcance elegido para el presente documento.
Índice
2.3.3 Precisión y tamaño de muestra
Las expresiones Z

1
2

;
n
t


 1  ; n  1


2
s
n
y
Z
1

2
p . q
n
reciben el nombre
de error máximo permisible (emp); también se conocen como precisión y se
denotan por "d". (Más adelante serán útiles también para el cálculo del tamaño de
una muestra). De tal modo, se tiene que
67
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
𝑑=Z

1
2
s

= t 
= Z 

n
 1  ; n  1
n
1


2
2
p . q
n
En general las fórmulas de intervalos de confianza para la media poblacional 𝜇 y la
proporción poblacional 𝑃, mostradas antes, se pueden expresar como:
𝜇 ∈ {x̅ ± d} 𝑦 𝑃 ∈ {p̂ ± d}
Debe tenerse en cuenta que la amplitud de los intervalos de estimación, son
directamente proporcionales a 𝑍1−∝ y
2
t


 1 ; n1 
 2

en los casos de la estimación de
la media y proporción poblacionales (𝜇 y 𝑃) respectivamente, e inversamente
proporcional a √𝑛 .
Los cálculos del Ejemplo 29 se hicieron con 𝛼 = 0.05; en consecuencia, para un
menor valor de 𝛼 (mayor nivel de confianza, 𝑝 = 1−∝) aumentarán, los valores de
𝑍1−∝ y
2
t


 1 ; n1 
 2

haciendo que sea mayor la amplitud del intervalo, mayor valor de
"d" o "emp", menos precisa la estimación.
Por otra parte, teniendo en cuenta que
hay una relación de proporcionalidad
inversa en los tres casos con el tamaño de muestra (𝑑 = Z
=
Z
1

2

1
2
s

= t 

n
 1  ; n  1
n


2
p . q
), para un 𝛼 fijo, el recurso para disminuir el emp, o sea, de
n
aumentar la precisión de la estimación, está en trabajar con una muestra mayor,
de ser posible.
Se puede observar que todos los intervalos están en función del tamaño de la
muestra 𝑛. Y, que a medida que aumente el tamaño de la muestra 𝑛, la amplitud
del intervalo disminuye, es decir, la estimación se hace más precisa. Conocer que
Cuba se encuentra en el Golfo de México (una ubicación relativamente reducida,
es más preciso que solo tener una noción de que se encuentra en el hemisferio
occidental (región bastante más extensa).
Algo que inquieta mucho a los investigadores es cómo determinar el tamaño de
muestra, de modo que no sea tan pequeña que los resultados carezcan de validez
(el intervalo de estimación de los parámetros poblacionales podría ser tan amplio
que no brinde información interesante), pero tampoco tan grande que obtener la
68
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
información y procesarla represente gastos innecesarios de tiempo y recursos
humanos y financieros.
El tamaño de muestra depende de tres factores fundamentales:
a. Variabilidad, dispersión, de los valores de las variables de interés en el
universo o población. Mientras más dispersos sean estos valores, más
diferentes unos de los otros, mayor ha de ser el tamaño de la muestra.
b. Precisión que se necesita en los resultados, es decir, magnitud del error que se
puede tolerar.
Ejemplo 30
Si se está investigando la cantidad de horas de estudio semanales de
estudiantes universitarios, pudiera esperarse un intervalo de 15 a 30 horas, con
amplitud de 15 horas; aquí un error máximo permisible de 5 horas (33% de 15,
equivale a 𝑑 = 0.33) pudiera ser aceptado.
Fin del Ejemplo 30
Ejemplo 31
En otro contexto de un estudio similar al del Ejemplo 30, pero en niños de 1er.
Grado, el intervalo esperado de horas de estudio a la semana pudiera ser de 5
a 10 horas, de amplitud 5 horas; 1 hora como error máximo permisible ya es
alto, representa un 20%, o sea, 𝑑 = 0.20.
Fin del Ejemplo 31
c. Margen de certeza, confianza (por ejemplo, 95% → 𝑝 = 0.95; ∝= 0.05 o
99% → 𝑝 = 0.99; ∝= 0.01) con los que se desean obtener las estimaciones de
los parámetros poblacionales Media, Desviación estándar, Proporción, … ,
(𝜇, 𝜎, 𝑃, ) … , al generalizar los resultados; mientras mayor sea la certeza
deseada, mayor deberá ser el tamaño de la muestra.
Para fijar el tamaño de muestra se debe en primer lugar, decidir sobre la precisión
(d) que se desea y sobre el nivel de certeza o de confianza a elegir (𝑝 = 1−∝). A
partir de la precisión 𝑑 y el nivel de significación ∝, se está en condiciones de
calcular el tamaño de la muestra despejando 𝑛 de la ecuación de trabajo:
2
2

𝑍1−
𝛼 ∗𝜎
𝑑= Z 
2
→
𝑛=
1
n
2
𝑑2
69
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
f
Luego
si se desea hallar el tamaño de la muestra se tiene que su primera
F
aproximación
𝑛0 = 𝑛 es:
l
2
i
 Z  . 
1



2
p
n0  
 para datos cuantitativos,
d


H


0
f
F
lSi los datos son de variable cualitativa, la primera aproximación se calcula a través
ide la expresión:
p
V
Z c2 p 1  p
Z c2 1 p 
n

n0 
o
,
0
0
d2
CV 2. p
p
i
Nota: Si no conoce los valores de éxito y fracaso (𝑝 𝑦 1 − 𝑝 = 𝑞) para el cálculo
c
de la expresión anterior, asuma 0.5 para ambos. Se demuestra que con
t
esos valores estaría calculando la muestra de mayor tamaño, la que le
u
asegurará de hecho los resultados más seguros.
r
e
Y el dominado tamaño de muestra óptimo se obtiene en cálculos sucesivos
G
(retomando en cada caso 𝑛0 = 𝑛 ) de:
r
a
n0
, donde N es el tamaño de la población.
n
y
n0
1
0
N
p
i¿Cántos cálculos sucesivos? Siga las magnitudes que le corresponderían al error
c

máximo
permisible 𝑑= Z 
en la nueva circunstancia.
t
1
n
2
u
r
¡No pocos software estadísticos hacen los cálculos de tamaño de muestra por las
e
fórmulas anteriores!
B
i¿Y que sucede si no conoce el parámetro poblacional 𝜎? Utilice formulas similares
L
que emplean la desviación estándar 𝑠, obtenible de los propios datos recopilados
e
para la muestra de la variable bajo estudio.
v
e
l
0
f
70
F
i
l


Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Ejercicio 11
Suponga que Usted se propone hacer un estudio acerca de horas de estudio a la
semana (HES) entre 100 estudiantes del mismo grado de una escuela de nivel
medio superior. Asuma (o genere aleatoriamente) 20 valores de HES entre 1 y 15
(o algún otro intervalo que Usted considere razonable) y obtenga de los mismos
los valores de la varianza y el error típico (Con el SPSS entre por Analizar,
seleccione Estadísticos descriptivos …. Con el EXCEL calcule los valores de
tamaño inicial y óptimo de muestra para valores de niveles de significación de 0,1;
0,05 y 0,01. Obtenga el valor de t a partir de la función DISTR.T.INV. Haga un
gráfico de tamaño óptimo versus valores de nivel de significación. Interprete cómo
cambian dichos valores según aumenta el nivel de significación.
Fin del Ejercicio 11
Índice
3. Elementos de Estadística Inferencial (Paramétrica y no Paramétrica)
En la Investigación Educativa se hace un uso intenso de la Estadística con
carácter profesional, lo que se refleja en las numerosas publicaciones científicas
especializadas, entre otras fuentes de divulgación del conocimiento, dirigidas a
hacer cada vez más efectivo los procesos de formación, en particular los de
enseñanza aprendizaje de niños, jóvenes y adultos, y cuando este no es el caso,
al menos a contrarrestar factores adversos que se fortalecen con la modernidad,
no pocos de los cuales se logran llegar a revertir a favor de los propósitos de la
escuela y la sociedad.
No se debe subestimar la investigación educativa que se realiza de modo
espontáneo y no formal en el día a día, en primer lugar en la necesaria
interrelación del maestro consigo mismo, así como con sus alumnos e
interrelación con los demás docentes y personal de la escuela en general. De
hecho, lo hacen no solo los docentes sino también los alumnos y sus familiares
más cercanos, los cuales en cualquier momento están en capacidad de dar a
conocer su diagnóstico acertado, que ya han venido conformando en sus mentes,
de sus maestros y del proceso de enseñanza y aprendizaje en el que están
inmersos en su sociedad.
Con los recursos de la Estadística Descriptiva, expuesta en las páginas anteriores
de este documento, se está en capacidad de planificar la investigación precisando
cuáles deben ser las variables a tomar en consideración en el estudio, que
71
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
permitan alcanzar los objetivos propuestos, y en fases tempranas de la misma, ir
analizando y regulando la efectividad del procedimiento de recogida de
información, la calidad de esta última y las características del objeto de
investigación que se deben ir revelando a partir de los estadísticos muestrales que
se calculan de tendencia central, dispersión y posición relativa. Y en paralelo, el
buen uso de tablas y gráficos va sentando los elementos para un buen informe de
investigación y ulterior publicación de sus resultados.
El campo de la Estadística Inferencial, que se desarrolla sucintamente a
continuación, amplía con creces los recursos al alcance del investigador en su
afán de transformar para mejorar los procesos en los que participa. El tratamiento
de la incertidumbre en los datos, es el principal elemento que incorporan los
métodos propios de la Estadística Inferencial en sus dos grandes componentes, la
Paramétrica apoyada en el comportamiento de los valores de las variables de
estudio, cumpliendo con las cualidades del modelo teórico de la Distribución
Normal, y la no Paramétrica, cuando tal condición no está presente.
Índice
3.1 Estadística Inferencial Paramétrica
Resultan de trascendente utilidad, las inferencias estadísticas que puedan hacerse
sobre los parámetros de la población de valores de determinada variable, que sea
portadora de algún aspecto relevante de la investigación educativa que se esté
llevando a cabo. Es en esta dirección en la que las hipótesis estadísticas tienen su
papel relevante.
Las Hipótesis Estadísticas se emplean para hacer inferencias sobre:
1. Tipo de distribución teórica o empírica que se corresponde con el
comportamiento de una variable. Ejemplo: La calificación en el examen final de
una asignatura posee el comportamiento de la Distribución Normal, N(μ, σ)
2. Valores de parámetros poblacionales (media μ y desviación estándar σ en el
caso de la Distribución Normal). Ejemplo: El porcentaje promedio de aprobados
en el examen final de una asignatura en el presente año, es significativamente
mayor al que se venía obteniendo años atrás
Las suposiciones que constituyen las hipótesis, podrán ser verdaderas o falsas, y
los procedimientos que se estudiarán permitirán delimitar dicho resultado, con un
nivel de significación α (valor de probabilidad α) asociado a la decisión, prefijado
de antemano. Esto se hace planteando dos hipótesis: Hipótesis nula (H0) e
Hipótesis alternativa (H1). Es común tomar como Hipótesis nula (H0) la
72
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
afirmación o igualdad. Las Pruebas de Hipótesis permitirán contrastar la veracidad
de afirmaciones tales como:
a) El Sistema de ejercicios complementarios introducidos en la enseñanza de
la Matemática en el último curso, tiene una aceptación favorable del orden
de 80% de los estudiantes:
i. H0: Nivel de aceptación, sist. de ejerc, compl.= 80
ii. H1: Nivel de aceptación, sist. de ejerc, compl.≠ 80
b) Los resultados docentes logrados con la nueva Estrategia de enseñanza y
aprendizaje (RDNE), resultaron superiores a los que se venían obteniendo
(RDA) con anterioridad:
i. H0: RDNE= RDA
ii. H1: RDNE> RDA
c) El aprovechamiento docente de los estudiantes (ADE) del maestro
Ruaniolder es peor que los de la profesora Saudemnia:
H0: ADEEst. de Ruanilder = ADEEst. de Saudemia
H1: ADEEst. de Ruanilder < ADEEst. de Saudemia
Volviendo a lo de las hipótesis, según el número de colas, existen dos tipos de
pruebas: de dos colas (bilaterales) o de una sola cola (unilaterales, ya sea a la
derecha o a la izquierda). Corresponden dos colas al análisis de igualdad vs
desigualdad; mientras que las de una sola cola abarcan dos casos, igualdad vs
mayor que (unilateral a la derecha) e de igualdad vs menor que, (unilateral a la
izquierda).
Ejercicio 12
Complete con cruces las celdas que caractericen los tipos de hipótesis de los tres
casos anteriores:
Casos
Dos colas
(H1 de
desigualdad)
Unilateral a la
derecha
(H1de mayor que)
Unilateral a la
izquierda
(H1 de menor que)
a)
b)
c)
Fin del Ejercicio 12
73
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Para el ejemplo de Porcentaje promedio de aprobados en el examen final de una
asignatura en el presente año, considerando que el que se venía obteniendo en
años a tras era de 75 %, sería:
H0: μAprobados= 75%
(De forma general: H0: μ= μ0)
El término "nula" significa que no existe diferencia estadística significativa (más
allá de la que correspondería a los errores aleatorios existentes) entre los
resultados obtenidos en las nuevas circunstancias o experimento y la hipótesis
planteada; y en consecuencia, las diferencias encontradas pueden ser explicadas
por las fluctuaciones del azar.
El ejemplo anterior toma en cuenta la inferencia a partir de datos de una media
muestral sobre la correspondiente media poblacional. Más adelante se plantearán
hipótesis nula con otros parámetros como son la varianza y la proporción.
La Hipótesis alternativa puede en general ser cualquiera que difiera de la nula,
coincide por lo general con la hipótesis de la investigación. Para el ejemplo
anterior, pudieran ser:
H1: μAprobados>75%;
H1: μAprobados< 75%
o
H1: μAprobados75%).
La notación convencional de la hipótesis alternativa, se representa como:
H1: μ μ0
ó
H1: μ < μ0
ó
H1: μ > μ0
El valor μ0 se corresponde con el del parámetro poblacional esperado, histórico,
acostumbrado, establecido, etc., como se le suele denominar comúnmente.
En los ejemplos anteriores se utilizó el parámetro poblacional μ, lo cual resultará
equivalente en su formulación para cualquier otro parámetro poblacional con el
que se necesite trabajar.
Observen que se está haciendo inferencia a toda la población a partir de datos
muestrales, por lo que existe una probabilidad de cometer errores que se
clasifican en Tipos I y II, lo que se describe más adelante.
De lo anterior Usted debe estarse percatando de la diferencia entre la aritmética y
la estadística en este asunto de pruebas de hipótesis. Tal sería el caso para:
H0: μAprobados= 75%,
74
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Suponga que en un estudio se calculan, a partir de diferentes muestras, medias
muestrales porcentuales con valores de 74,6; 76,2; 73,1 y 75,8. No quedan dudas
de las diferencias aritméticas de cada una con respecto al valor 75 de H0. Sin
embargo, desde el punto de vista estadístico pudieran o no, llevar al no rechazo
de la H0, según sean en cada caso el tamaño de la muestra y las varianzas
muestrales respectivas (recuérdese del error máximo permisible, d  t



 1 ; n1 
 2

s ).
n
Con la información posterior este asunto quedará más esclarecido.
Índice
3.1.1 Errores de Tipos I y II. Nivel de significación
Se le denomina error de Tipo I, al hecho de rechazar la Hipótesis nula (H0) cuando
en realidad ésta es verdadera (existe una probabilidad α de que esto suceda).
Asimismo y muy relacionado con el anterior, se le llama error de Tipo II al caso de
no rechazar la Hipótesis nula (H0), cuando en realidad ésta es falsa (probabilidad
). Ambas serían decisiones erróneas y de las cuáles no existirían evidencias de
haber incurrido en las mismas.
Aumentando el tamaño de la muestra se puede reducir el riesgo de rechazar una
hipótesis que sea verdadera (o lo que guarda muy estrecha relación: el riesgo de
aceptar una hipótesis que sea falsa). Se sugiere a los interesados que profundicen
estos aspectos en la literatura especializada.
Las variantes existentes de probabilidad de tomar una decisión determinada,
frente a una realidad bajo estudio, y el posible error latente asociado a dicha
decisión, se recogen en la Tabla 5, la mitad de las veces puede existir error, ya
sea de tipo I o II.
La probabilidad de cometer error de tipo I es muy utilizada en la práctica y se
denomina nivel de significación. El nivel de significación (α), cuantifica el
riesgo de rechazar una hipótesis que sea verdadera, y puede llegar a suceder si al
procesar los valores de la muestra ocurre, por puras fluctuaciones del azar, que
las discrepancias observadas resultasen significativas.
75
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Tabla 5. Posibles errores de Tipo I o II asociados la decisión
sobre la hipótesis nula
Realidad
Decisión
Ho verdadera
Ho falsa
No rechazar
Ho
(Aceptar)
No hay error
(Probabilidad 1-)
Error de tipo II
(Probabilidad )
No aceptar
Ho
(Rechazar)
Error de tipo I
(Probabilidad )
No hay error
(Probabilidad 1-)
Ejemplo 32
Suponga que es verdadero que para cierta población de 200 estudiantes que
examinaron una asignatura, no se rechaza que H0: μAprobados= 75%. Pero ocurre
que en una muestra de 10 estudiantes, se encuentra que todos están aprobados
(100% de aprobados). Tuvo lugar un suceso poco frecuente en el que los
resultados observados difieren, por azar, marcadamente de los esperados.
Fin del Ejemplo 32
Los valores de α usuales son 0,05 y 0,01. Al complemento para llegar a 1 (área
total bajo la curva de la Distribución Normal) se le denomina nivel de confianza o
confiabilidad (1-). Expresados en porcentajes, los valores de p que
corresponden a los α anteriores, son 95 y 99% respectivamente. Los valores de α
se estarían fijando menores, según sea mayor el nivel de confianza que se tenga
sobre el cumplimiento de la hipótesis en cuestión, o viceversa, de acuerdo a la
experiencia del investigador.
Similar al razonamiento que se había hecho en intervalos de confianza, asumir un
nivel de significación de 0,05 (nivel de confianza de 0,95), es asumir que si se
repite el experimento 100 veces, en 5 de ellas (5% de las veces) se podría estar
tomando una decisión equivocada; es decir, el 95% de las veces se estaría
llegando a elegir la decisión correcta.
A la probabilidad de error de tipo II se le denomina . Se demuestra que  y 
están relacionadas se acuerdo a:  decrece   crece. Una variante en la
76
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
práctica es fijar  y buscar el menor , paso este que no es frecuente detenerse a
hacerlo.
Índice
3.1.2 Pruebas de bondad de ajuste
En cualquier Prueba de Hipótesis habrá que definir previamente a qué Distribución
Teórica de Probabilidades se ajustan los valores de la variable aleatoria que se
corresponde el comportamiento de los valores de la variable que se esté
estudiando. Si dicha información no está disponible, se debe proceder a indagarlo
mediante alguna variante de prueba de hipótesis no paramétrica, denominadas
pruebas de bondad de ajuste, como las que se basan el estadígrafo, Chi
Cuadrado definido por:
𝝌𝟐𝒅𝒂𝒕𝒐𝒔 = ∑𝒏𝒊=𝟏
(𝒗𝒂𝒍𝒐𝒓 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒐𝒊 −𝒗𝒂𝒍𝒐𝒓 𝒆𝒔𝒑𝒆𝒓𝒂𝒅𝒐𝒊 )𝟐
𝒗𝒂𝒍𝒐𝒓 𝒆𝒔𝒑𝒆𝒓𝒂𝒅𝒐𝒊
; 𝒄𝒐𝒏 𝒈𝒓𝒂𝒅𝒐𝒔 𝒅𝒆 𝒍𝒊𝒃𝒆𝒓𝒕𝒂𝒅, 𝝂 = 𝒏 − 𝟏
Suponiendo que se trate de corroborar si determinada variable tiene el
comportamiento de la Distribución Normal, y fijado el nivel de significación α con el
que se desea realizar la prueba, para cada valor observado de la muestra se
determina de la Distribución Normal, cuál sería el valor esperado correspondiente,
se obtiene 𝝌𝟐𝒅𝒂𝒕𝒐𝒔 y se verifica si se cumple 𝝌𝟐𝒅𝒂𝒕𝒐𝒔 ∈ ∈ (𝝌𝟐𝒊𝒛𝒒𝒖𝒊𝒆𝒓𝒅𝒐 , 𝝌𝟐𝒅𝒆𝒓𝒆𝒄𝒉𝒐 ). Los
valores de 𝝌𝟐𝒊𝒛𝒒𝒖𝒊𝒆𝒓𝒅𝒐 𝒚 𝝌𝟐𝒅𝒆𝒓𝒆𝒄𝒉𝒐 se obtienen de la distribución
𝝌𝟐 para el 
seleccionado.
Índice
3.1.3 Pruebas de Hipótesis acerca de la media poblacional 𝝁, con  conocida
y desconocida
Suposiciones básicas:

La variable objeto de estudio es cuantitativa continua

La población tiene Distribución Normal de probabilidad ó la muestra
aleatoria es “grande” (diversos autores consideran n  30)

Los xi que integran la muestra son aleatorios e independientes
Los pasos en el cálculo manual para realizar esta prueba de hipótesis, son:
77
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
1. Elegir o calcular, según corresponda, los valores de α, μ0, n, y σ o s según la
situación particular. Determinar el valor de Zc o tc que delimitan el intervalo de
nivel de confianza 𝒑 = 𝟏 − 𝜶 según corresponda (utilizando la Distribución
Normal para σ conocida, o la Distribución t de Student para σ desconocida
2. Plantear H0 y H1
̅ , y Zdatos o 𝑿
̅ , s y tdatos según  sea conocida o desconocida
3. Calcular 𝑿
4. Decidir sobre rechazo o no de H0, (Ver Figura 8 para Z)
La esencia de los pasos anteriores Usted debe interiorizarla, aún cuando se apoye
en un software estadístico para los cálculos, en el sentido de poder interpretar
debidamente los resultados que obtendría con el software. En la Tabla 6 se
resumen los principales elementos de estas pruebas de hipótesis.
Tabla 6. Hipótesis en pruebas sobre media poblacional
Hipótesis
Estadígrafo
Región Crítica, no se rechaza H1
H0:  = 0
H1: 0
Z datos 
x  0
Zdatos<Z½ o Zdatos> Z1-½

n
 conocida
Distribución Normal
H0:  = 0
H1: 0
 desconocida
t datos 
x  0
s
Distribución t de Student
tdatos <t½ n-1 o tdatos> t1-½n-1
n
78
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Con 
conocida no se rechaza H0 cuando se cumple que Zdatos queda
comprendida en el intervalo  Z c , Z c 
Similar situación para  desconocida, si
tdatos pertenece al intervalo  tc , tc  ,
En todos los casos puede observarse que el estadígrafo cuantifica una
discrepancia o diferencia aritmética (en este caso entre x y μ0) a partir de la
información de los datos y el valor del parámetro poblacional sobre el que se está
haciendo la prueba; tal diferencia aritmética está determinada además por los
datos de σ ó s, y n , según la fórmula particular que se deba usar en esta
prueba. Tal discrepancia aritmética se emplea en la prueba de hipótesis para
concluir si su magnitud representa o no una diferencia significativa, lo que se
determina al comparar el valor del estadígrafo de los datos con el correspondiente
de la distribución teórica con la que se esté trabajando. Observe que si el valor
absoluto de Zdatos es grande (con signo positivo o negativo), está causado porque
que la diferencia entre X y μ0 es grande, por eso es que si Zdatos es mayor que
Zc (cola de la derecha), o menor que –Zc (cola de la izquierda), no se acepta la
hipótesis H0 : μ=μ0
Ejemplo 33
Con SPSS y entrando previamente el juego de datos del Anexo 1,
Calificaciones de tres grupos, en escala de 0 a 20; por la entrada
Analizar/Comparar medias/Prueba t para una media, de la Vista de Datos,
seleccionando Grupo 1, se llega al cuadro de diálogo:
79
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
En la ventanita Valor de prueba se debe introducir el valor deseado para 𝜇0 . En
este ejemplo se asumió el valor 16. Los resultados obtenidos están a continuación:
Prueba para una muestra
t
Grupo
1
-.229
Valor de prueba = 16
Sig.
Diferencia
(bilateral)
de medias
gl
33
.820
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-.059
-.58
.46
En la columna de Sig. (bilateral), aparece debajo el valor de probabilidad 0.820;
este es el resultado clave para seguir el análisis y el modo de hacerlo es el
siguiente:
Sig. (bilateral)>
𝛼
No se
rechaza Ho
Sig. (bilateral)
<𝛼
No se acepta
Ho
Valor de 𝛼 (0.05
u otro)
Dado que .820 > 0.05, no se rechaza H0; se concluye que las calificaciones del
Grupo 1 se corresponden con la media poblacional 𝜇 = 16
Fin del Ejemplo 33
Índice
80
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
3.1.4 Prueba de Hipótesis acerca de una Proporción Poblacional
Se trata ahora de inferir, conociendo la proporción en que un determinado
resultado se presenta en una muestra, cómo se está comportando con respecto al
̂ → 𝑷). Por ejemplo, Usted puede
parámetro poblacional correspondiente (𝒑
interesarse en estudiar la proporción de estudiantes incorporados al trabajo
científico en su centro, determina una muestra, recoge la información prevista, y
desea inferir si la muestra en cuestión corresponde a una población con una
proporción deseada P0 de estudiantes incorporados a esa actividad formativa. Se
está en el caso de:
H0: P=P0
H1: PP0
Se parte de la suposición que las proporciones p calculadas en muestras de
tamaño n siguen la Distribución N(P,
PQ / N ).
El procedimiento es muy similar a la prueba anterior, con el estadígrafo,
p  P0
Recuerde que:
p+q = P+Q = P0+Q0 = 1
P0 Q0
n
k
donde p 
, es decir la estimación de la proporción a partir de la muestra, o
n
lo que es lo mismo, el número de individuos que presentan la característica
estudiada dividido el número total de casos en la muestra.
Z datos 
La región crítica o de rechazo de H0 es:
Zdatos > Z 1-/2 ó Zdatos < Z /2
Ejemplo 34
Se dispone de una muestra de 36 estudiantes, de un año de una Escuela; de la
muestra se obtiene que la proporción de estudiantes incorporados al trabajo
científico es de 0,25. Confirme con un nivel de significación de 0,05 sí puede
afirmarse que la proporción de estudiantes en esa actividad en ese año puede
considerarse de 0,30.
81
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Solución:
Siguiendo de modo equivalente los pasos generales indicados para la prueba
anterior:
1. Identificar los valores de α, P0, n, p y q, y Zdatos.
α = 0,05, P0=0,30, p= 0,25, Q0=1 – P0= 0,70,
n= 36 y Zc=1,96
2. H0: P= 0,30
H1: P 0,30
3. Calcular Zdatos
Z datos 
0,25  0,30
 0,05  0,05 * 6


 0,65
0,46
0,30 * 0,70
0,21
36
36
4. El valor de Zdatos no corresponde a la región rechazo de H0 (menor de
𝒎𝒆𝒏𝒐𝒓 𝒅𝒆 − 𝟏. 𝟗𝟔; 𝒎𝒂𝒚𝒐𝒓 𝒅𝒆 𝟏. 𝟗𝟔), no existen existen razones para rechazar
esta hipótesis y por tanto se acepta que la muestra de estudiantes se
corresponde a la población del año, que posee una proporción de estudiantes
incorporados al trabajo científico de P= 0,30.
Fin del Ejemplo 34
Índice
3.1.5 Estadística Inferencial no paramétrica
Los métodos estadísticos no paramétricos tienen la gran ventaja de permitir obviar
el requisito de ajuste de las variables a la Distribución Normal, son muy simples de
usar y se pueden aplicar utilizando la mayoría de los buenos software estadísticos
presentes en el mercado, como el SPSS. Su presentación queda fuera del objetivo
del presente documento, solo adelantar la información de la Tabla 7 y alertar que
operan con la mediana en lugar de la media aritmética.
82
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Tabla 7. Relación de algunas pruebas de estadística no paramétrica
Análisis
Test Paramétrico
Test no paramétrico
Una muestra
No hay
Si
la
distribución
supuesta es consistente
con
los
datos,
denominadas pruebas de
bondad de ajuste: test de
la 𝜒 2 , de KolmogorovSmirnov, de Shapiro-Wilk
y de Jarque-Bera
Una muestra
Test t simple
Test del signo de rangos
de Wilcoxon
Muestras pareadas
Test t simple
Test del signo de rangos
de Wilcoxon
Dos muestras
independientes
Test t para muestras
independientes
Test de suma de rangos
de Wilcoxon
Más de dos muestras
independientes
ANOVA de un factor
Test de Kruskal-Wallis
Diseño en bloques
aleatorios
ANOVA con bloques
Ji cuadrado de Friedman
Índice
83
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Referencias
Buendía Espinosa, Angélica y Álvarez Mendiola, Germán. Coordinadores. (2019).
La investigación educativa ante el cambio de gobierno en México.
Reflexiones y propuestas para el futuro. -- 1ª ed. -- Ciudad de México:
Consejo Mexicano de Investigación Educativa, 2019, 461p. ISBN 978-6077923-27-5
Cochran, William G. Técnicas de muestreo. Compañía Editorial Continental.
México
Congacha Aushay, Jorge Washington (2016). Estadística aplicada a la
Educación. Escuela Superior Politécnica de Chimborazo. Ecuador
De Armas Ramírez, Nerelys y Valle Lima, Alberto (2011). Resultados científicos
en la Investigación Educativa. Editorial Pueblo y Educación. Cuba
Hernández Sampieri, Roberto; Fernández Collado, Carlos, y Baptista Lucio, María
Del Pilar (2010). Metodología de la Investigación. 5ta. ed. McGRAW-HILL /
INTERAMERICANA EDITORES, S.A. DE C.V.
Hernández Sampieri, Roberto; Fernández Collado, Carlos, y Baptista Lucio, María
Del Pilar (2014). Metodología de la Investigación.de los autores, 6ta. ed.
McGRAW-HILL / INTERAMERICANA EDITORES, S.A. DE C.V
Martínez Barrientos, Alejandra. (2008). Manual para la elaboración de
Investigaciones Educativas. Universidad Católica Boliviana San Pablo”. La
Paz. Bolivia. 108 pág. Recuperado de:
http://www.cimm.ucr.ac.cr/wordpress/wpcontent/uploads/2010/12/Mart%C3%ADnez-A.-Manual-2008.pdf
McMillan, James H. y Schumacher, Sally. (2005). Investigación Educativa. Una
introducción conceptual. 5ta. Edición. Virginia Commonwealth University
PEARSON EDUCACIÓN, S. A., Madrid
Montes Castillo, Mariel M.; Valencia Castillo, Flavio; y Gracia Olivas, Paola
Guadalupe (2017). Indicadores de uso y aceptación de redes sociales
virtuales en jóvenes de escuelas secundarias públicas en Sonora.
Publicado en: REDES ACADÉMICAS, DOCENCIA E INVESTIGACIÓN
EDUCATIVA.
Recuperado
de:
http://www.reed-edu.org/wpcontent/uploads/2017/11/REDES-ACAD%C3%89MICAS-DOCENCIA-EINVESTIGACI%C3%93N-EDUCATIVA.pdf
84
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Newbold, Paul; Carlson, William L. y Thorne, Betty M. (2008). Estadística para
Administración y Economía. 6ta. ed. Pearson Educación
Nolberto Sifuentes, Violeta Alicia y Ponce Aruneri, María Estela (2006).
Estadística Inferencial Aplicada. Universidad Nacional Mayor de San
Marcos. Perú
Rincón, Luis (2006). Una introducción a la PROBABILIDAD Y ESTADÍSTICA.
Facultad
de
Ciencias
UNAM.
México.
Tomado
de:
http://www.matematicas.unam.mx/lars
Rosas Becerril, Patricia (2018). La Investigación Educativa: concepto y
antecedentes. p. 57-61
Índice
85
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Anexo 1. Hoja de datos, calificaciones de estudiantes de 3 grupos, en escala de 0
a 20
Estudiantes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
1
16
15
19
17
14
18
18
14
15
14
14
15
15
17
17
17
14
15
17
16
14
17
17
16
17
17
13
17
16
16
16
18
14
17
.
.
.
Grupos
2
13
14
13
17
14
8
12
14
13
13
14
12
14
15
11
13
14
15
14
15
15
15
11
15
12
14
15
12
14
15
14
9
.
.
.
.
.
3
19
18
16
19
17
18
17
17
15
17
17
18
16
15
18
17
18
18
16
17
19
17
16
17
17
18
17
16
18
18
15
16
17
16
16
17
17
86
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
Anexo 2. Funciones estadísticas del EXCEL
Función
Descripción
DESVPROM
Devuelve el promedio de las desviaciones
absolutas de la media de los puntos de datos
PROMEDIO
Devuelve el promedio de sus argumentos
PROMEDIOA
Devuelve el promedio de sus argumentos,
incluidos números, texto y valores lógicos
PROMEDIO.SI
Devuelve el promedio (media aritmética) de
todas las celdas de un rango que cumplen unos
criterios determinados
PROMEDIO.SI.CONJUNTO
Devuelve el promedio (media aritmética) de
todas las celdas que cumplen múltiples
criterios.
DISTR.BETA
Devuelve la
acumulativa
DISTR.BETA.INV
Devuelve la función inversa de la función de
distribución acumulativa de una distribución
beta especificada
DISTR.BINOM
Devuelve la probabilidad de una variable
aleatoria discreta siguiendo una distribución
binomial
DISTR.CHI
Devuelve la probabilidad de una variable
aleatoria continua siguiendo una distribución chi
cuadrado de una sola cola
PRUEBA.CHI.INV
Devuelve la función inversa de la probabilidad
de una variable aleatoria continua siguiendo
una distribución chi cuadrado de una sola cola
PRUEBA.CHI
Devuelve la prueba de independencia
INTERVALO.CONFIANZA
Devuelve el intervalo de confianza de la media
de una población
COEF.DE.CORREL
Devuelve el coeficiente de correlación entre dos
conjuntos de datos
función
de
distribución
beta
87
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
CONTAR
Cuenta cuántos números hay en la lista de
argumentos
CONTARA
Cuenta cuántos valores hay en la lista de
argumentos
CONTAR.BLANCO
Cuenta el número de celdas en blanco de un
rango
CONTAR.SI
Cuenta las celdas del rango que no están en
blanco y que cumplen los criterios especificados
COVAR
Devuelve la covarianza, que es el promedio de
los productos de las desviaciones para cada
pareja de puntos de datos
BINOM.CRIT
Devuelve el menor valor cuya distribución
binomial acumulativa es menor o igual a un
valor de criterio
DESVIA2
Devuelve la suma de los cuadrados de las
desviaciones
DISTR.EXP
Devuelve la distribución exponencial
DISTR.F
Devuelve la distribución de probabilidad F
DISTR.F.INV
Devuelve la función inversa de la distribución de
probabilidad F
FISHER
Devuelve la transformación Fisher
PRUEBA.FISHER.INV
Devuelve
la
función
transformación Fisher
PRONOSTICO
Devuelve un valor en una tendencia lineal
FRECUENCIA
Devuelve una distribución de frecuencia como
una matriz vertical
PRUEBA.F
Devuelve el resultado de una prueba F
DISTR.GAMMA
Devuelve la distribución gamma
DISTR.GAMMA.INV
Devuelve la función inversa de la distribución
gamma acumulativa
GAMMA.LN
Devuelve el logaritmo natural de la función
inversa
de
la
88
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
gamma, Γ(x)
MEDIA.GEOM
Devuelve la media geométrica
CRECIMIENTO
Devuelve valores en una tendencia exponencial
MEDIA.ARMO
Devuelve la media armónica
DISTR.HIPERGEOM
Devuelve la distribución hipergeométrica
INTERSECCION.EJE
Devuelve la intersección
regresión lineal
CURTOSIS
Devuelve la curtosis de un conjunto de datos
K.ESIMO.MAYOR
Devuelve el k-ésimo mayor valor de un conjunto
de datos
ESTIMACION.LINEAL
Devuelve los parámetros de una tendencia
lineal
ESTIMACION.LOGARITMICA
Devuelve los parámetros de una tendencia
exponencial
DISTR.LOG.INV
Devuelve la función inversa de la distribución
logarítmico-normal
DISTR.LOG.NORM
Devuelve la
acumulativa
MAX
Devuelve el mayor valor de una lista de
argumentos
MAXA
Devuelve el valor máximo de una lista de
argumentos, incluidos números, texto y valores
lógicos
MEDIANA
Devuelve la mediana de los números dados
MIN
Devuelve el valor mínimo de una lista de
argumentos
MINA
Devuelve el valor mínimo de una lista de
argumentos, incluidos números, texto y valores
lógicos
MODA
Devuelve el valor más común de un conjunto de
datos
distribución
de
la
línea de
logarítmico-normal
89
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
NEGBINOMDIST
Devuelve la distribución binomial negativa
DISTR.NORM
Devuelve la distribución normal acumulativa
DISTR.NORM.INV
Devuelve la función inversa de la distribución
normal acumulativa
DISTR.NORM.ESTAND
Devuelve la
acumulativa
DISTR.NORM.ESTAND.INV
Devuelve la función inversa de la distribución
normal estándar acumulativa
PEARSON
Devuelve el coeficiente de momento
correlación de producto Pearson
PERCENTIL
Devuelve el k-ésimo percentil de los valores de
un rango
RANGO.PERCENTIL
Devuelve el rango porcentual de un valor de un
conjunto de datos
PERMUTACIONES
Devuelve el número de permutaciones de un
número determinado de objetos
POISSON
Devuelve la distribución de Poisson
PROBABILIDAD
Devuelve la probabilidad de que los valores de
un rango se encuentren entre dos límites
CUARTIL
Devuelve el cuartil de un conjunto de datos
JERARQUIA
Devuelve la jerarquía de un número en una lista
de números
COEFICIENTE.R2
Devuelve el cuadrado del coeficiente de
momento de correlación de producto Pearson
COEFICIENTE.ASIMETRIA
Devuelve la asimetría de una distribución
PENDIENTE
Devuelve la pendiente de la línea de regresión
lineal
K.ESIMO.MENOR
Devuelve el k-ésimo menor valor de un conjunto
de datos
NORMALIZACION
Devuelve un valor normalizado
distribución
normal
estándar
de
90
Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019
DESVEST
Calcula la desviación estándar a partir de una
muestra
DESVESTA
Calcula la desviación estándar a partir de una
muestra, incluidos números, texto y valores
lógicos
DESVESTP
Calcula la desviación estándar en función de
toda la población
DESVESTPA
Calcula la desviación estándar en función de
toda la población, incluidos números, texto y
valores lógicos
ERROR.TIPICO.XY
Devuelve el error estándar del valor de "y"
previsto para cada "x" de la regresión
DISTR.T
Devuelve la distribución de t de Student
DISTR.T.INV
Devuelve la función inversa de la distribución de
t de Student
TENDENCIA
Devuelve valores en una tendencia lineal
MEDIA.ACOTADA
Devuelve la media del interior de un conjunto de
datos
PRUEBA.T
Devuelve la probabilidad asociada a una prueba
t de Student
VAR
Calcula la varianza de una muestra
VARA
Calcula la varianza a partir de una muestra,
incluidos números, texto y valores lógicos
VARP
Calcula la varianza en función de toda la
población
VARPA
Calcula la varianza en función de toda la
población, incluidos números, texto y valores
lógicos
DIST.WEIBULL
Devuelve la distribución de Weibull
PRUEBA.Z
Devuelve el valor de una probabilidad de una
cola de una prueba z
91
Descargar