En homenaje a Julio Antonio Mella (Foto del autor) CURSO CORTO RELME 33 UNIVERSIDAD DE LAS CIENCIAS INFORMÁTICAS CUBA 2019 ESTADÍSTICA EN LA INVESTIGACIÓN EDUCATIVA Dr.C., Ing. Tito Díaz Bravo Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Índice Contenido Página Prólogo 3 1. Investigación educativa. Introducción a la Metodología de la Investigación. Variables en la investigación, tipos y escala de medición 4 1.1 Investigación Educativa 4 1.2 Introducción a la Metodología de la Investigación Educativa 7 1.2.1 Algunas clasificaciones de las investigaciones científicas 7 1.2.2 Pasos en la investigación educativa 11 1.3 Variables en la investigación, tipos y escala de medición 14 1.3.1 Variables en la investigación 14 1.3.2 Escalas de medición 17 1.3.3 Operacionalización de las variables de significado complejo o constructos 20 2. Nociones de Probabilidades y Estadística. Estadística y Método Estadístico. Estadística Descriptiva y Estadística Inferencial. Muestreo 22 2.1 Nociones de Probabilidades 22 2.1.1 Probabilidades y variables discretas. Distribución Uniforme. Distribución Binomial 26 2.1.1.1 Definiciones de Probabilidad 30 2.1.1.2 Distribución Binomial 31 2.1.2 Probabilidades y variables continuas. Distribuciones Normal, t de Student y Ji (Chi) Cuadrado 33 2.1.2.1 Distribuciones Normal y t de Student 34 2.1.2.2 Distribuciones Ji (Chi) Cuadrado 40 2.2 Estadística, Método Estadístico y Tipos de Muestreo 41 2.2.1 Estadística y Método Estadístico 41 2.2.1.1 Método Estadístico 43 2.2.2 Muestra. Tipos de muestreo 47 2.2.3 Factores que deben tenerse en cuenta para obtener una buena muestra 49 2.2.4 Procedimientos de muestreo probabilístico. Muestreos Aleatorios Simple, Estratificado y por Conglomerados 50 1 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 2.2.5 Muestreos en procesos continuos 54 2.2.6 Parámetros (estadísticos, estadígrafos) poblacionales y muestrales 55 2.2.7 Distribución muestral de la media aritmética, cuando la variable original es normal 62 2.3 Estimación puntual y por intervalos 64 2.3.1 Estimación por intervalo de confianza de la media poblacional (µ) con 𝜎 conocida y desconocida 64 2.3.2 Estimación por intervalo de confianza de una proporción poblacional (P) 66 2.3.3 Precisión y tamaño de muestra 67 3. Elementos de Estadística Inferencial (Paramétrica y no Paramétrica) 71 3.1 Estadística Inferencial paramétrica 72 3.1.1 Errores de Tipos I y II. Nivel de significación 75 3.1.2 Pruebas de bondad de ajuste 77 3.1.3 Pruebas de Hipótesis acerca de la media poblacional 𝝁, con conocida y desconocida 77 3.1.4 Prueba de Hipótesis acerca de una Proporción Poblacional 81 3.1.5 Estadística Inferencial no paramétrica 82 Referencias Anexo 1. Hoja de datos, calificaciones de estudiantes de 3 grupos, en escala de 0 a 20 86 Anexo 2. Funciones estadísticas del EXCEL 87 2 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Prólogo El presente documento recoge en síntesis información imprescindible para apoyar el curso Estadística en la Investigación Educativa, a ser impartido como parte de las actividades de RELME 33. Es de esperar que el número de horas que le programen seguramente sea muy reducido y en consecuencia se ajustan los objetivos a alcanzar, a esta condición determinante. En adición, está presente la circunstancia de deber dedicársele alguna fracción del tiempo a contenidos propios de Metodología de la Investigación Educativa, dada la muy estrecha relación existente entre las dos áreas de conocimientos explícitas en el nombre del curso que nos ocupa. El curso se impartirá propiciando un protagonismo dinámico de los participantes en los contenidos a tratar, a partir de la experiencia de la que sean portadores, obtenida en su labor profesional. Será especialmente útil la literatura científica pertinente y actualizada, accedida por internet. Se utilizaran recursos de las Tecnologías de la Información y las Comunicaciones, lo que resulta deseable en las acciones de formación a llevar a cabo; y con un enfoque de semipresencialidad, flexible en su naturaleza, para satisfacer necesidades de los participantes. Índice 3 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 1. Investigación educativa. Introducción a la Metodología de la Investigación Educativa. Variables en la investigación, tipos y escala de medición 1.1 Investigación Educativa La denominación de Investigación Educativa, un poco rara y que aparentemente niega que otras llevadas a cabo en entornos diferentes no lo sean (más bien debería llamársele Investigación en Educación), es extendida en la parte de la comunidad científica que se ocupa de mejorar la educación y en particular lo concerniente a los procesos de enseñanza y aprendizaje. Una versión del concepto, la presenta Rosas Becerril (2018): "Hablar de investigación educativa es hablar de un proceso de construcción, explicación y comprensión del fenómeno educativo, en el que se presenta la producción de conocimientos vinculados a la vida social y la intervención de diversos campos de conocimiento como la sociología, la psicología, la antropología y la economía (Calvo, et al. 2008; Herrera, 1999). Lo anterior nos lleva a pensar en una interacción de carácter disciplinario, a partir de un marco metodológico, en donde no baste con ordenar ideas y conocimientos, sino también generar resultados diversos que planteen nuevas ideas, conceptos y teorías en donde se vean involucrados comportamientos, valores y actitudes, que pueden llevar a plantear a la investigación educativa como una disciplina dentro del ámbito educativo, cuya naturaleza involucre expresiones y problemas de carácter epistemológico y metodológico; su objetivo será la búsqueda de conocimiento que nos permitirá llegar a nuevas concepciones y significados en la resolución de problemas educativos." En lo adelante se adopta el concepto expuesto anteriormente, en el que se expresa que la investigación educativa es el proceso de construcción, explicación y comprensión del fenómeno educativo, del cual se genera la producción de conocimientos que permite llegar a nuevas concepciones y significados en la resolución de problemas educativos que transcurren influenciados por diversos factores, de los que puede añadirse que acrecientan su complejidad. Las sociedades de los distintos países organizan sus distintos niveles de subsistemas de educación con vistas a la formación de niños y jóvenes para enfrentar la vida y satisfacer las demandas de fuerza de trabajo existente en los distintos sectores que la conforman. Es en el entorno de los procesos de enseñanza y aprendizaje, en el que interaccionan educandos y educadores, 4 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 siendo necesario atender la eficacia con el que transcurren estos procesos complejos. Así, la investigación educativa es la actividad que desarrollan profesionales de la educación para ir obteniendo nuevos conocimientos que den solución a las problemáticas existentes, las cuales influyen con efectos negativos en los resultados deseados. Existe abundante literatura sobre la investigación educativa; en particular sobre este tipo de investigación, Rosas (2018) expresa: "En conclusión, uno de los aspectos importantes en el que se desarrolló la investigación educativa, se centra en la construcción del fenómeno educativo vinculado a diversos campos de conocimiento, cuya historia marca un análisis y búsqueda de saberes y conocimientos que permiten llegar a concepciones y significados en la resolución de problemas a través de diversas disciplinas. En consecuencia, se innovará la práctica educativa mejorando los procesos de enseñanza y aprendizaje en donde se desarrolla una metodología que involucra la formación de profesionales con perfiles definidos formados en instituciones cuya actividad llevan al ejercicio de la investigación y que han transitado por diversos momentos históricos que las ha hecho ser reconocidas como las verdaderas fundadoras de la investigación educativa." En el ámbito mexicano, una obra de especial importancia es la de Buendía y Álvarez (2019), en la que se refieren a la investigación educativa ante el cambio de gobierno en su país, resaltando la situación que se presenta en: I. II. III. IV. V. VI. VII. VIII. IX. X. XI. XII. Desigualdad, calidad y equidad en la educación Gobernanza, políticas y gestión El alcance de las estrategias de evaluación docente implementadas en el sistema educativo para la justicia social: equidad e inclusión Evaluación de los aprendizajes y de los docentes en la educación básica Los profesores del sistema educativo mexicano: formación, actualización y prácticas académicas en educación básica y media superior La formación y actualización de profesores en México. Avances, retrocesos y propuestas El Modelo Educativo 2017, el currículo y el aprendizaje: perspectivas críticas Inclusión, equidad y violencia escolar en la educación media y superior Educación de jóvenes y adultos: rezago educativo y alfabetizaciones Educación y trabajo La evaluación del trabajo académico en la educación superior Financiamiento educativo. Retos y alcances para una educación 5 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 XIII. Sociedad, economía y políticas de ciencia y tecnología con calidad y con justicia Los trece temas integrados en la obra anterior, cubren un extenso e importante conjunto de aspectos sobre los que se han venido llevando a cabo investigaciones educativas en ese país y que les sirven de referentes además, para próximas investigaciones a llevar a cabo en un futuro, Se investiga para obtener nuevos conocimientos que permitan resolver problemáticas que afectan la actividad en determinada instancia. Qué, para qué y cómo investigar, son tres interrogantes iniciales trascendentes que deben ser respondidas de modo convincente. En aquellas actividades en que nos desempeñamos y para las cuales hemos alcanzado una competencia apropiada, somos capaces de identificar los aspectos buenos, regulares y malos que prevalecen, lo que nos permite iniciar el camino de la selección de un tema de investigación, factible de llevar a cabo, con el propósito de contribuir a la solución de algún problema existente que sea tanto de interés personal como para la comunidad a la que se tributa - (Qué investigar). Existe una necesidad imperiosa de mejorar la efectividad de los procesos de enseñanza y aprendizaje, de lograr cada vez más un aprendizaje perdurable, una enseñanza que responda a las necesidades de los entornos en los que se desempeñarán los futuros egresados, que influya en sus habilidades de autosuperación continua, y con una decisiva integración de las tecnologías de la información y las comunicaciones, TIC - (Para qué investigar). La Metodología de la Investigación Educativa en esencia no se diferencia de la Metodología de la Investigación en general, sino que la primera se ocupa de tratar de darles solución a un subconjunto de problemas que pudieran considerarse también de los que corresponden a la segunda. Así los pasos básicos en una y otra son de hecho los mismos que deben llevarse a cabo en cualquier trabajo de investigación. No obstante, dado que existe disponible una valiosa y extensa bibliografía específica de Metodología de la Investigación Educativa, será esta la priorizada en las referencias a las que se haga alusión a lo largo del presente documento, en particular las del ámbito latinoamericano - (Cómo investigar). Índice 6 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 1.2 Introducción a la Metodología de la Investigación Educativa 1.2.1 Algunas clasificaciones de las investigaciones científicas Existen clasificaciones generales para las investigaciones científicas, que constituyen referentes valiosos para orientarse en las circunstancias en las que el investigador debe llevar a cabo su labor en determinados momentos. Algunas de dichas clasificaciones toman en cuenta distintos aspectos, como son: El nivel de conocimiento precedente, de partida Grado de profundidad del estudio a llevarse a cabo Enfoque o paradigma en el que se sustenta: cuantitativo, cualitativo y mixto Atención a la dinámica de las variables bajo estudio, debe hacerse en corto tiempo – transversal, y puede realizarse sin que apremie tanto el tiempo, longitudinal Ausencia o presencia de experimentación Ampliando ligeramente la información sobre las clasificaciones que toman en cuenta los aspectos enumerados antes, se tiene: I. De acuerdo al nivel de conocimiento de partida: Puras o Fundamentales, Aplicadas, y De desarrollo. En las diferencias entre estas, el nivel de conocimientos existentes del cual se parte es definitorio. En el caso de la Puras o Fundamentales, es inexistente el conocimiento previo sobre lo que se estudia; están dirigidas precisamente a identificar características, propiedades, comportamientos, sobre lo nuevo que se decide estudiar. De antemano no está siquiera prevista la aplicabilidad de los posibles hallazgos que deban tener lugar. Se llevan a cabo en instituciones de muy alto prestigio, son propias de países con alto nivel de desarrollo económico y científico. Las investigaciones Puras o Fundamentales se distinguen además por ser las de mayores requerimientos de personal de elevada calificación, equipamiento, financiamiento y tiempo para realizarse. Tales requerimientos disminuyen de las Puras o Fundamentales a las De Desarrollo. Las Aplicadas se apoyan en conocimientos ya existentes (obtenidos en investigaciones Puras o Fundamentales, a cuyos resultados se haya tenido acceso) para resolver problemáticas latentes de interés, de aquí su denominación de Aplicadas; resultan más numerosas que las mencionadas antes. Y las menos complejas son las De Desarrollo, entre las que pueden citarse las de transferencia de tecnología. II. Grado de profundidad del estudio a llevarse a cabo, de las más elementales a las de mayor alcance respecto a las posibles respuestas a dar (según la profundidad o alcance previsto, la complejidad esperada): Observacionales, 7 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Descriptivas, Explicativas (No experimentales y experimentales). En estas, a partir de la segunda, incluyen en su realización a las que le anteceden. III. Respecto al paradigma (enfoque) de investigación, se subdividen en Cualitativas, Cuantitativas y Mixtas. A continuación ejemplos de investigaciones de los tres tipos de paradigmas o enfoques mencionados. Ejemplo 1 En una investigación acerca de las preferencias de los estudiantes del nivel preuniversitario respecto a estudiar una u otra carrera universitaria, se está en el enfoque cualitativo. Fin del ejemplo 1 Ejemplo 2 Cuantitativas podrían ser investigaciones en las que se centraran los objetivos en el tiempo que les lleva a los estudiantes llegar a la escuela y retornar a sus casas diariamente. Fin del ejemplo 2 Ejemplo 3 Una investigación de rendimiento docente de los estudiantes que tome en cuenta el tiempo diario (cuantitativa) de estudio y las modalidades (individual, colectiva y combinada) de ese estudio, es de corte mixto. Fin del ejemplo 3 Cabe puntualizar que las investigaciones educativas más frecuentes son las de paradigma mixto. IV. En dependencia con el tiempo a ejecutarse: Longitudinales y Transversales. Esto tiene relación con la sensibilidad al cambio en el tiempo de la variable bajo estudio. Ejemplo 4 Si la variable bajo estudio cambia en el orden de los años, como ocurre con las teorías del aprendizaje, la investigación puede llevarse a cabo digamos, durante varios meses y hasta más de un año, y sería una investigación 8 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 longitudinal. Si se estuviera indagando entre los estudiantes, sobre la disponibilidad de dispositivos móviles con determinadas prestaciones, debería planificarse en cuestión de días o semanas, dado que dicha tecnología viene cambiando en términos menores de un año; se trataría de una investigación transversal. Fin del ejemplo 4 V. Forma de proceder, posibilidad y necesidad o no de realización de experimentos: No experimentales y Experimentales. Generalmente las no experimentales resultan más sencillas que las experimentales. En las no experimentales se trabaja con dos muestras, tales que la variable independiente posee de forma espontánea un valor en una de las muestras y otro valor en la otra muestra. En las experimentales existe al menos una variable independiente sobre la que el investigador está en la posibilidad de efectuar cambios según sus criterios, para apreciar qué efectos se producen sobre la variable dependiente bajo estudio. En muchos casos de investigaciones educativas, el aula o la institución de enseñanza, son los laboratorios en los que se lleva a cabo la investigación. Ejemplo 5 Un estudio no experimental sobre la influencia de la disponibilidad de aplicaciones en dispositivos móviles, de contenidos de una asignatura determinada versus la no disponibilidad de tales aplicaciones, en el rendimiento docente de dicha asignatura, estaría planteando la necesidad de identificar dos muestras en la población de interés: una de estudiantes con la disponibilidad aludida, y la otra sin dicha disponibilidad. Es no experimental porque el investigador no influye sobre la existencia de la disponibilidad de las aplicaciones referidas; tal disponibilidad se presenta de modo natural. Fin del ejemplo 5 Ejemplo 6 Suponga que se experimenta sobre el rendimiento docente en una asignatura, planificando una hora de estudio de esa asignatura, fuera del horario de clases y bajo la atención del profesor, dos veces a la semana, durante todo el periodo de clases. Una parte de los alumnos se incorpora a la actividad y la otra no, supuesto que ambas muestras sean similares respecto al rendimiento docente anterior al inicio del experimento. (Esta situación es de reconocer que no resulta sencilla de alcanzar, más aún cuando toda investigación debe responder a la ética educativa, que estaría violentándose si se le limita el derecho de incorporarse al que lo desee). Por lo descrito antes, esta es una 9 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 investigación experimental; lo de una hora de estudio como se expuso, fue decisión del investigador y así, una muestra transcurrió el periodo bajo un régimen, y la otra no. Al final habrá que analizar si existen o no diferencias significativas en el rendimiento docente de la asignatura para la que se diseñó el experimento. Fin del ejemplo 6 Las anteriores clasificaciones trascienden lo formal para convertirse en referencias importantes que le van permitiendo al investigador tener más conocimientos generales sobre lo que pudiera interesarle (o verse obligado a) hacer en un momento determinado y decidir incluso hasta dónde llegar de acuerdo a sus posibilidades. Cualquiera que sea la clasificación apropiada, estarán presentes las interrogantes planteadas antes (Qué, Para qué y Cómo investigar), junto a otros elementos de importancia a tomar en consideración en una investigación. Cabe señalar que cualquier investigación puede ser ubicada en más de una de las clasificaciones anteriores; por ejemplo: - Las Observacionales y las Descriptivas son ambas, asimismo, No explicativas y De Desarrollo, y pudieran ser además Transversales o Longitudinales. Y además estar atendiendo a alguno de los enfoques o paradigmas Cualitativo, Cuantitativo o Mixto. - Las Experimentales generalmente son Longitudinales y Mixtas. Y no son ni Observacionales ni Descriptivas, con estas se está buscando influencias de una o más variables (independientes) sobre al menos alguna otra dependiente); son de naturaleza Explicativas. Por lo general corresponden a las Aplicadas o De Desarrollo. - Las Descriptivas son No experimentales, y pudieran ser Transversales o Longitudinales. Además pudieran estarse llevando a cabo con cualquiera de los tres paradigmas Cualitativo, Cuantitativo o Mixto. En particular, refiriéndose a los enfoques cualitativo y cuantitativo de investigación, Martínez (2008) expresa: Tanto si se trabaja con un enfoque o con el otro, el investigador necesita ser riguroso, pero también creativo; ser parte de la investigación y poder reflexionar sobre ella. El maestro del siglo XXI, deberá ser una gran persona con gran capacidad de autorreflexión y prospectiva sobre su propia acción; esto implica formarse en una actitud investigativa, convirtiendo sus asignaturas en fuentes de estudio. Construyendo, deconstruyendo y reconstruyendo permanentemente su acción pedagógica cada día.” 10 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Las cualidades y el proceder del investigador formador, y el carácter riguroso, creativo, dialéctico y de desarrollo en espiral de la investigación educativa, quedan brillantemente sintetizados en el párrafo anterior. Qué resultados científicos se espera obtener como resultado de una investigación educativa, es una cuestión que determina de antemano el tipo de investigación que se llevará a cabo. Entre las varias clasificaciones existentes para estos resultados, se encuentra la que atiende al aspecto de la realidad que se transforma, en específico: la teoría o la práctica. Al respecto De Armas Ramírez y Valle Lima (2011) plantean: "Los resultados teóricos son aquellos que permiten enriquecer; modificar o perfeccionar la teoría científica, aportando conocimientos sobre el objeto y sobre los métodos de la investigación de la ciencia, que pueden ser clasificados a su vez en sistemas de conocimientos y metodológicos ̎. Y sobre los resultados prácticos consideran que ̎… se incluyen aquellos que tienen un carácter instrumental para transformar el funcionamiento del objeto en la realidad haciéndolo más eficiente, más productivo y más viable, entre ellos señalamos: programas, estrategias, tecnologías, metodologías de trabajo, medios de enseñanza, modelos materiales y otros." Índice 1.2.2 Pasos en la investigación educativa Existen una serie de pasos presentes en la mayor parte de las investigaciones, que resultan comunes indistintamente de lo que se requiera investigar; no es propósito del presente documento entrar en detalles de lo interno en dichos pasos. Entre los numerosos libros que se han escrito de esta materia, caben citarse las ediciones 5ta, y 6ta. de Metodología de la Investigación, de los autores Hernández Sampieri, Fernández Collado y Baptista Lucio (2010) y (2014), obras estas valiosas, detalladas y extensas, ricas en ejemplos incluidos de investigaciones educativas, apropiadas para el autoestudio y de apoyo a cursos extensos de dicha temática. Sin embargo, para el propósito del presente documento se prefiere dirigir la atención del lector al Manual para la elaboración de las investigaciones educativas, de Martínez Barrientos (2008), porque en el mismo los interesados podrán encontrar una información bastante resumida y enfocada plenamente al tipo de investigación de la que estamos tratando. Asimismo dicha autora, atendiendo a necesidades de la Carrera de Educación en la que es profesora, se circunscribe a solo dos formas básicas diferentes, la investigación aplicada cuantitativa o investigación cuasi-experimental, y la investigación aplicada 11 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 cualitativa o investigación acción. De su Manual, y suponiendo que de las Recomendaciones pueda ser emprendida una nueva investigación, se ilustran en la Figura 1 los pasos a realizar en una Investigación Educativa. El documento resultante de la propuesta de investigación recoge la información de los tres primeros pasos de la Figura 1; algunos autores le denominan Diseño teórico y metodológico de la investigación. En "Método" debe incluirse hasta el cronograma para ejecutar las acciones necesarias que permitan alcanzar el objetivo propuesto, por lo que estarán presentes las tareas concernientes al propio desarrollo de la investigación, la recopilación y análisis de resultados, y la escritura del informe final. En numerosos casos esta propuesta debe presentarse a modo de Protocolo o Proyecto de investigación, debiéndose cumplir con toda la información requerida por los destinatarios encargados de evaluar y aprobar o no la propuesta en cuestión. 12 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Marco contextual Conclusiones y Recomendaciones Resultados Presentación de la problemática (Planteamiento del Problema Justificación - Marco teórico de referencia - Objetivos ) Método (Características de la investigación - Hipótesis Participantes - Ambiente Variables / Categorías de investigación - Instrumentos y Técnicas - Diseño de investigación - Procedimiento) Figura 1. Pasos en la Investigación Educativa (Síntesis realizada a partir del Manual para la elaboración de investigaciones educativas, de Alejandra Martínez Barrientos, 2008) Índice 13 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 1.3 Variables en la investigación, tipos y escala de medición 1.3.1 Variables en la investigación Al concepto de variable nos aproximamos desde edades tempranas en la vida, primero desde la familia y después se incorporan las influencias de la sociedad y la escuela; intuitivamente conocemos que los sabores difieren, lo que nos gusta o no nos gusta; lo que nos resulta entretenido o aburrido, interesante o sin importancia; número de hijos; carácter agradable o desagradable de las personas con las que nos relacionamos; edad; estatura alcanzada en determinado momento de la vida; temperatura corporal; año que se cursa en uno u otro nivel de educación; calificación obtenida en alguna asignatura, entre otras. En la Tabla 1 se introduce una primera posible clasificación para las diez variables acabadas de mencionar. Tabla 1. Ejemplos de variables y una posible variante de clasificación atendiendo a la naturaleza de estas. Variable 1 2 3 4 5 6 7 8 9 10 Entorno de influencias Sabor Grado de entretenimiento Nivel de interés Número de hijos Afinidad al carácter de otro Estatura Tiempo transcurrido realizando una evaluación Año escolar que se está cursando Calificación obtenida en una asignatura Cualitativa Cualitativa/ cuantitativa Nominal Cualitativa x Ordinal Cualitativa x Cualitativa x Cualitativa Cuantitativa x Cualitativa x Cuantitativa Continua x Cuantitativa x Cuantitativa x Cuantitativa Cuantitativa Discreta x x Otros autores como Newbold, Carlson, & Thorne (2008), a las variables cualitativas le denominan categóricas y lo asocian a que estas producen respuestas que pertenecen a grupos o categorías, lo cual es equivalente a lo expresado en el presente documento para tales variables. Especifican dichos 14 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 autores que una variable numérica continua puede tomar cualquier valor de un intervalo dado de números reales y normalmente proviene de un proceso de medición (no de recuento) y que en todos los casos, el valor podría desviarse dentro de un cierto margen, dependiendo de la precisión del instrumento de medición utilizado. Lo mostrado en la Tabla 1 puede cambiar como se verá de inmediato. Un poco más de información al respecto, sin pretensión de exhaustividad resulta necesaria. En general, para clasificar a una variable como cualitativa debe partir tanto de su naturaleza, como de la forma en que nos interese tratar a dicha variable. Si lo esencial es un atributo de calidad, que no permite o amerita distinción de orden o preferencia entre los distintos valores que constituyen los resultados posibles, se considera cualitativa nominal (Entorno de influencias – Lugar: casa, escuela, parque, calle, etc.); por supuesto, que pudiera en determinada investigación considerarse como cualitativa ordinal, si en el estudio en cuestión fuese importante considerar el nivel de preferencia por uno u otro entorno. El Sabor, atendiendo a que guste o no guste, es cualitativa ordinal; ahora, si interesase solo especificar cuan dulce es un alimento, pudiera llegar a ser tratada como cuantitativa continua y se estaría midiendo en base a la concentración de azúcar existente en dicho alimento. El Tiempo transcurrido en la realización de una evaluación final escrita por parte de un estudiante, a partir del inicio de la actividad en cualquier asignatura, es por su esencia cuantitativa continua; sin embargo, como ordinariamente es suficiente medirlo en horas y minutos, el tratamiento puede ser el de variable cuantitativa discreta; por otra parte, se estaría considerando como cualitativa ordinal, si solo se registran para cada estudiante dos niveles: Si y No (respecto a si el tiempo máximo programado para esta evaluación, le resultó suficiente o no para responder las preguntas formuladas). Es de esperar que según el tipo de investigación (Cualitativas, Cuantitativas y Mixtas), serán las variables predominantes en esta. En el contexto de una investigación, las denominaciones siguientes resultan de especial relevancia para distinguir el tipo de variable: Dependientes: Variables que indican si el tratamiento o manipulación de las variables independientes tuvo algún efecto. Se les denomina también variables resultantes, efectos o variables de criterio. Por ejemplo, calificación en una asignatura. En las investigaciones con frecuencia interesa solo una variable dependiente. Independientes: Variables que se manipulan por interés del investigador para estudiar el efecto que producen en las variables dependientes. Se les llama a veces tratamientos, factores o variables predictivas. Por ejemplo, cantidad de 15 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 horas presenciales dedicadas a la impartición de una asignatura (al menos hay que considerar dos niveles, digamos impartición con 70 horas y con 90 horas). La consideración de solo una variable independiente simplifica marcadamente el estudio que pueda estar llevándose a cabo, aunque lo puede limitar notablemente en su alcance. De control: Variables relacionadas con las variables dependientes y cuya influencia debe eliminarse. Por ejemplo, la hora y la sesión del día en que se imparte una asignatura pudiera influir en el aprendizaje de esta; existe consenso en que la sesión de la mañana es más apropiada que la de la tarde y que los primeros turnos dentro de la sesión son asimismo los más favorables para el aprendizaje. Extrañas: Variables relacionadas con las variables dependientes o independientes pero que no forman parte del experimento. Se les denominan en ocasiones como variables amenazadoras. Un ejemplo lo constituye la cantidad de clases previstas pero no impartidas. Moderadoras: Variables relacionadas con las variables independientes y dependientes y que tienen impacto en las variables dependientes. Se les llama también variables de interacción. Por ejemplo, nivel de confort del salón en el que tienen lugar las clases. Otras clasificaciones de las variables resultan también de importancia en el contexto de una investigación, como lo son: Variables Cualitativas y Cuantitativas Esta clasificación fue mencionada antes; se amplían de inmediato aspectos de interés de la misma. Las Cualitativas incorporan la información de alguna cualidad, y las Cuantitativas de algún atributo cuantificable, como sugieren sus respectivas denominaciones. Las Cualitativas a su vez se dividen en Nominales y Ordinales. Las Nominales pueden ser Dicotómicas (por ejemplo: sexo biológico de una persona) o Politómicas (por ejemplo: Centro Docente en el que un alumno cursó sus estudios de preuniversitario, bajo el supuesto de que existan más de dos centros de ese nivel de estudio). Por su parte, las Cuantitativas pueden ser Continuas (p.e. tiempo transcurrido desde el inicio de una actividad evaluativa) o Discretas (p.e. Cantidad de clases de una asignatura específica en una semana) 16 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Variables Determinísticas y Aleatorias (también denominada esta última como estocásticas o probabilísticas) Esta subdivisión obedece al nivel de incertidumbre asociado a los posibles valores que puede tomar la variable. Nivel de incertidumbre cero es el asociado a los posibles valores de una variable determinística, como es el caso de la posición del planeta Tierra con respecto al Sol en un momento determinado. Y como variable aleatoria puede mencionarse al resultado posible (aprobado o desaprobado) de un estudiante en una evaluación. Índice 1.3.2 Escalas de medición Es conocido que el nivel de medida de una variable en matemática y estadística, denominado además como escala de medición, es una clasificación adoptada con el propósito de identificar la naturaleza de la información contenida dentro de los caracteres alfanuméricos que registran valores de los atributos de los objetos y sujetos, y por tanto, corresponden a datos de una variable. Las escalas de medición son propias para cada tipo de variable; las de mayor grado de información de sus posibles valores, corresponde a las cuantitativas continuas; le siguen las cuantitativas discretas, después las cualitativas ordinales; y ya para las cualitativas nominales no existe escala, sus posibles valores tienen una importancia similar, no son siquiera ordenables por tipo de ventaja alguna. Las dos escalas propias de variables cuantitativas son: 1. Escala de intervalo (se caracteriza por la invariabilidad de las longitudes de dos intervalos cualesquiera, bajo un cambio de escala del tipo y= ax + b). Y, 2. Escala de razón (similar a la de intervalo, pero respecto a la transformación y= ax. La mayor diferencia entre ambas escalas consiste en que en la primera el cero es relativo, mientras que en la segunda es absoluto. Ejemplos de ambos tipos de escalas se encuentran en las utilizadas para medir la variable Temperatura; Las escalas Celsius y Fahrenheit son de intervalo, y sus ceros se establecieron de forma relativa, a partir del punto de congelación del agua para la Celsius, y de una disolución saturada de sal común en agua en la Farenheit. Para convertir de Celsius a Farenheit se emplea ºF = 9/5 ºC + 32. Mientras que la escala Kelvin es de razón, pues se estableció a partir de la existencia de un cero absoluto calculado experimentalmente (aproximadamente -273 ºC). En el caso de las variables cualitativas, la definición de sus categorías debe cumplir tres condiciones principales: 1. Categorías mutuamente excluyentes. 2. 17 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ser exhaustivas, o sea, cubrir todos los casos que pudieran existir. Y, 3. Las categorías deben precisarse lo suficiente, como para ser medidas. En cuestionarios de recogida de opiniones, la información a registrar sobre determinado aspecto, puede tomar la forma de una variable cualitativa ordinal politómica. En este caso se recomienda que se utilice un número impar de niveles o categorías (con simetría adecuada); estaría entonces en decidirse por tres, cinco o siete; tres implica perdida de información y siete apunta a exceso de desglose; en consecuencia, se recomienda asumir cinco; por ejemplo, para Grado de interés, se estaría preguntando del modo siguiente: Muy bajo o Inexistente Bajo Medio Alto Muy alto o Total Una variante práctica de escala en este tipo de requerimiento de información, es la de solicitar que, en escalas ascendentes de 0 a 5, o de 0 a 10, especificando que 0 es lo peor, y 5 o 10 lo mejor, según seleccione una u otra, indique el número que se corresponda con su criterio al respecto. Las operaciones aritméticas comunes (+, -, * y /) y la mayor parte de los cálculos de estadísticos o estadígrafos (a presentar más adelante), se realizan solo con variables cuantitativas. El tipo de prueba estadística permitida y gráficos a obtener, dependerán de los tipos de variables con los que se esté trabajando. De las escalas para calificación de evaluaciones docentes que se han utilizado en la Educación Superior en Cuba, pueden citarse la de 0 a 100, con el aprobado en 70 durante un buen tiempo (en algunos lugares y momentos con 60), y ya oficialmente descartada; y la actual, de 2- Desaprobado, 3- Aprobado, 4- Notable, y 5- Excelente. Esta última es muy mala por su asimetría; posee solo una categoría para los desaprobados y tres para los aprobados; buena parte de los análisis docentes se apoyan en tratamientos estadísticos de media aritmética, lo que reduce la calidad de la información utilizada y disminuye la credibilidad de las conclusiones expuestas, causado parcialmente por el uso de una escala en extremo inapropiada. Da pena observar el desconocimiento, desatención o resignación, que numerosos directivos docentes muestran en sus análisis al respecto. El autor del presente documento preferiría escalas de 0 a 10, o de 0 a 20, las que sin dejar de ser de carácter cualitativo, permitirían distinguir mejor los niveles de aprendizaje mostrados por el estudiante. 18 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ejercicio 1 A partir de la información de la Figura 2: a. Clasifique la variable en las diferentes variantes con las que podría asumirse. Aprecie que falta la denominación del intervalo de la extrema izquierda y su valor de área bajo la curva, y un valor dentro de uno de los paréntesis, ¡complételos! b. Ubique en la vertical correspondiente del eje horizontal en blanco, los valores de Z que corresponden a los coeficientes de inteligencia estandarizados, considerando 𝑍 = CI−100 15 Coeficiente de Inteligencia estandarizado (Z) Figura 2. Coeficiente de inteligencia (Tomada de: (Tomado https://sites.google.com/site/estadisticadescriptivaenedu/4o-sem-estadisticaaplicada-a-la-investigacion-educativa ) de: Nota: El autor del presente documento, al igual que muchos otros profesionales, estima que asumir mecánicamente el alcance del significado del coeficiente de inteligencia para encasillar a las personas, es cuestionable. Sin embargo, considerándolo a modo de diagnóstico resulta una información de valor. Fin del Ejercicio 1 Índice 19 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 1.3.3 Operacionalización de las variables de significado complejo o constructos Existen variables con distintos niveles de complejidad; las sencillas no hay que operacionalizarlas, sus valores se recopilan directamente como lo son las calificaciones resultantes en una evaluación, las horas de inasistencia de un estudiante a las clases de una asignatura, los años de experiencia en la docencia de un profesor, etc. Es suficiente identificar el tipo de variable y la correspondiente escala de medición a utilizar. Otra situación tiene lugar con las que no resultan sencillas de medir; a estas se les denominan Constructos, término proveniente de la sicología en la que son tratadas como entidades hipotéticas de difícil definición dentro de alguna teoría científica. Un constructo es algo que nos encontramos, pero cuya definición es difícil o controvertida, es un fenómeno no tangible que mediante un proceso particular de operacionalización se convierte en una variable que puede ser medida y estudiada. Algunos de los constructos que aparecen con frecuencia en las investigaciones educativas son la inteligencia, la motivación y la efectividad de una estrategia de enseñanza, por ejemplo. En estos casos se pueden definir dimensiones en las que se consideran a su vez, indicadores los cuales si pueden medirse y es a través de la información recopilada de estos últimos, que se asignan determinados niveles o valores al constructo o variable original de significado complejo de la que se necesita obtener información en las condiciones de un estudio dado. No es objetivo del presente documento un tratamiento en mayor grado de detalles de tales variables; se le recomienda al interesado que mediante un estudio documental identifique cuál es el consenso actualizado del tratamiento de variables de tal naturaleza con la que necesite trabajar en un momento dado, no obstante y a continuación se hace alusión a un interesante trabajo publicado recientemente. Un buen ejemplo de operacionalización de variables es el publicado por Montes Castillo, Valencia Castillo y Gracia Olivas (2017). Estos autores realizaron la investigación Indicadores de uso y aceptación de redes sociales virtuales en jóvenes de escuelas secundarias públicas en Sonora. Muestran resultados preliminares de 100 jóvenes de 8 secundarias públicas, sobre el uso y aceptación de redes sociales. Identifican 7 dimensiones con un total de 26 indicadores. Los indicadores los trabajan como variables cualitativas ordinales, a responder cada uno a partir de: Siempre/Casi siempre/A veces/Nunca. En la Tabla 2 se muestran las dimensiones e indicadores, considerados por los autores mencionados antes. 20 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Los autores desglosan sus conclusiones por las dimensiones asumidas. De las dos primeras expresan: "En cuanto a expectativa de rendimiento, los jóvenes encuestados consideraron que no existe mucha relación entre el uso de redes sociales y una posible utilidad y eficiencia en su vida, o en su rendimiento académico. Y en consideración a expectativa de esfuerzo los jóvenes percibieron las redes sociales muy fáciles de usar, y que poseen gran habilidad en su manejo". Tabla 2. Dimensiones e indicadores de uso y aceptación de redes sociales virtuales en jóvenes de escuelas secundarias públicas en Sonora Dimensiones Expectativa de rendimiento Expectativa de esfuerzo Influencia social Condiciones facilitadoras Motivación Hedónica Hábito Indicadores 1. El uso de redes sociales aumenta mis posibilidades de lograr cosas que son importantes para mí 2. El uso de redes sociales me ayuda a lograr cosas más rápidamente 3. El uso de redes sociales me ayuda a lograr cosas más rápidamente 4. El uso de redes sociales aumenta mi rendimiento escolar 5. El uso de redes sociales aumenta mi productividad 6. Aprender a usar las nuevas redes sociales es fácil para mí 7. Mi interacción con las redes sociales es clara y comprensible 8. Encuentro las redes sociales fáciles de usar 9. Es fácil para mí ser hábil en el uso de redes sociales 10. Las personas que son importantes para mí piensan que debo usar redes sociales 11. Las personas que influyen en mi comportamiento piensan que debo usar redes sociales 12. Personas cuyas opiniones valoro, prefieren que utilice redes sociales 13. Tengo los recursos necesarios para usar redes sociales 14. Tengo el conocimiento necesario para utilizar redes sociales 15. Las redes sociales son compatibles con otra tecnología que utilizo 16. Puedo obtener ayuda de otros cuando tengo algún problema con redes sociales 17. Usar redes sociales es divertido 18. El uso de redes sociales es agradable 19. El uso de redes sociales me entretiene mucho 20. El uso de redes sociales se ha convertido en un hábito para mí 21. Soy adicto al uso de redes sociales 21 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Intención conductual 22. Debo usar redes sociales 23. El uso de redes sociales se ha convertido en algo natural para mí 24. Tengo la intención de seguir usando redes sociales en el futuro 25. Siempre intentaré usar redes sociales en mi vida diaria 26. Planeo seguir usando frecuentemente redes sociales Ejercicio 2 Suponga una investigación educativa, de interés y factible de realizar en su ámbito de labor (descríbala brevemente). Identifique las variables involucradas en el estudio y clasifíquelas según corresponda; entre en detalles sobre los posibles valores que puedan tomar las variables en cuestión. Intercambie su propuesta con algún otro colega. Fin del ejercicio 2 Índice 2. Nociones de Probabilidades y Estadística. Estadística y Método Estadístico. Estadística Descriptiva y Estadística Inferencial. Muestreo 2.1 Nociones de Probabilidades De modo muy elemental se presenta en este epígrafe información sobre las importantes ramas del conocimiento matemático Probabilidades y Estadística. Necesariamente el interesado en profundizar deberá hacerlo en otras fuentes documentales; aquí el alcance está en el entorno de lo mínimo necesario para alcanzar un fundamento básico y a la vez robusto de los conceptos y técnicas de cálculo, necesarios para una aplicación preliminar y productiva de la Estadística en la Investigación Educativa, así como para el intercambio con especialistas versados en la materia a los que se debe acudir cuando se estime necesario. La teoría de las probabilidades tiene sus inicios al principio del siglo XVII y su surgimiento está relacionado a los diferentes juegos al azar de la época, es de señalar que durante mucho tiempo estos juegos fue la única motivación para el desarrollo de los conceptos y métodos de la teoría de las probabilidades destacándose algunos matemáticos de la época tales como: Fermat, Pascal, Bernoulli, etc. Hoy en día su aplicación abarca diversas disciplinas tales como la física, la biología, la psicología, la teoría de la información, la informática, etc. 22 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 La teoría de las probabilidades estudia las leyes que rigen ciertos tipos de fenómenos naturales o como resultado de experimentos realizados por el hombre, llamados fenómenos, sucesos, eventos o experimentos aleatorios. En estos no se pueden predecir los resultados posibles; es decir, aunque tengan lugar en igualdad de condiciones, en cada ocasión que ocurran los resultados pueden ser diferentes. De la vida diaria, se tienen nociones cercanas a los conceptos teóricos sobre variables aleatorias, tanto para variables discretas como para continuas, y de hecho se tienen en consideración en alguna que otra decisión frecuente a tomar en la vida. A continuación algunos ejemplos: Ejemplo 7 Se espera que un estudiante bien preparado para una evaluación en determinada asignatura, tenga alta probabilidad de obtener resultados satisfactorios en esta. En este caso al evento se le puede denominar Realizar una evaluación y los resultados posibles considerarlos como dos: Satisfactorio y No satisfactorio. La variable es cualitativa, dicotómica y de escala ordinal. Fin del Ejemplo 7 Ejemplo 8 Un profesor que muestre empatía por sus estudiantes y que tenga buenos métodos de enseñanza, tiene mayores probabilidades de que sus estudiantes alcancen buenos resultados, que otro profesor que no se distinga por estos dos aspectos. Como variable se tendría la unión de Cualidades y Desempeño, cualitativa dicotómica ordinal, y los resultados posibles Fin del Ejemplo 8 Ejemplo 9 Como Director de una Escuela que tiene que decidir sobre un nuevo miembro del claustro entre varios Docentes que aspiran a la plaza, Usted estaría considerando con menos probabilidades a aquellos candidatos que poseen en su historial cualidades de ausentistas injustificados. En este ejemplo se puede definir como variable aleatoria a la Decisión (Cualitativa dicotómica y ordinal) y los resultados posibles son los Si o No para cada candidato. Fin del Ejemplo 9 23 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ejemplo 10 La intuición estaría fijando como variable aleatoria discreta El número de días que en una semana (de 5 días con clases), un estudiante estaría asistiendo a la escuela. Los resultados posibles serían 𝑋 = {𝑥1 , 𝑥2 , 𝑥3 , 𝑥4, 𝑥5 𝑦 𝑥6 } = {5, 4, 3, 2, 1, 0}, lo que significa: 5- Asiste todos los días 1- Asiste solo un día 4- Asiste 4 días 0- No asiste ningún día 3- Asiste 3 días 2- Asiste 2 días Fin del Ejemplo 10 Ejemplo 11 Para el mismo entorno del ejemplo anterior, una variable aleatoria continua sería El Tiempo que dicho estudiante permanece en la escuela determinado día. Dado que el tiempo es por su esencia una variable continua, los valores posibles (en horas) estarían definidos cuando más, por los infinitos valores correspondientes al intervalo X ∈ [0, 24]. En este caso, para proseguir con los cálculos deseados de probabilidad se podría utilizar, por ejemplo, la Distribución Normal de probabilidades, que se presenta más adelante. Fin del Ejemplo 11 Ejercicio 3 Relativo a los ejemplos 5 y 6 anteriores del entorno estudiante-escuela, defina dos nuevas variables aleatorias, una discreta y otra continua. Fundamente su elección. Fin del ejercicio 3 La teoría de la probabilidad es la parte de las matemáticas que se encarga del estudio de los fenómenos o experimentos aleatorios. Por experimento, fenómeno, proceso, cuestión o asunto, de naturaleza aleatoria, se entenderá todo aquel que cuando se le repite bajo las mismas condiciones iniciales, los resultados que se 24 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 obtienen de las variables aleatorias bajo estudio, no siempre son los mismos. Los 5 ejemplos anteriores cumplen con lo de naturaleza aleatoria (El número de días que en una semana - de 5 días con clases - un estudiante estaría asistiendo a la escuela. Y El Tiempo que dicho estudiante permanece en la escuela determinado día). Al trabajar con variables aleatorias discretas, resultan importantes los conceptos de Espacio muestral y Espacio de probabilidades. Al conjunto de resultados posibles de una variable aleatoria X, 𝑋 = {𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 }, se le denomina Espacio muestral. El Espacio de probabilidades correspondiente, es el conjunto de valores de probabilidades que está asociado a cada uno de los resultados posibles. Si se designa por 𝑝(𝑋 = 𝑥𝑖 ) = 𝑝(𝑥𝑖 ) a la probabilidad asociada al resultado 𝑥𝑖 , el Espacio de probabilidad (EP) puede representarse por: 𝐸𝑃(𝑋) = {𝑝(𝑥1 ), 𝑝(𝑥2 ), 𝑝(𝑥3 ), … , 𝑝(𝑥𝑘 )} En la teoría de probabilidades y estadística, existen para una variable aleatoria, la función de densidad de la distribución de probabilidad, y la función acumulativa de probabilidad. La primera es una tal que asigna, para variables discretas, a cada resultado posible o suceso independiente definido sobre la variable, la probabilidad de que dicho suceso ocurra; mientras que, para variables continuas, a cada intervalo de resultados independientes posibles que pueda tomar la variable, le asigna también un valor de probabilidad de que dicho suceso pueda tener lugar. La segunda, como su nombre indica, es la suma para variables discretas, e integración para variables continuas, de las probabilidades que corresponden a las ocurrencias posibles de resultados de la variable aleatoria, desde su valor menor posible hasta un valor mayor fijado de esta. Las funciones de densidad de distribución y acumulativa, en su carácter de valiosos modelos teóricos para describir el comportamiento de los valores de determinadas variables aleatorias, se distinguen por poseer parámetros para la población. Como se constatará más adelante, sucede que raras veces se conocen los parámetros de la población respecto a la variable, y en la investigación será imprescindible (en pruebas paramétricas de inferencia estadística) hacer estimaciones de estos, a partir del conjunto de datos que se recopilen de la variable que se está estudiando. Un muy preciado beneficio es que, una vez que se pruebe estadísticamente que una variable aleatoria particular sigue el comportamiento de determinado modelo teórico de probabilidades, todas las propiedades de dicho modelo teórico que se definen detalladamente en la literatura, pasan a ser de inmediato comportamientos 25 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 que poseen los valores de la variable aleatoria en cuestión, un jalón importante en el avance del conocimiento dentro de la investigación. Índice 2.1.1 Probabilidades y variables Distribución Binomial discretas. Distribución Uniforme. El comportamiento de los valores de variables aleatorias discretas, puede ser descrito por distintos modelos teóricos de probabilidad que se recogen en la literatura. En este documento se presta atención solo a los de Distribución Uniforme y Distribución Binomial, por ser dos de los más utilizados. A continuación se presentan de modo simplificado y con carácter intuitivo, algunos conceptos necesarios para comprender, por ejemplo, qué significa que todos los alumnos de un grupo de estudiantes puedan tener igual posibilidad (igual probabilidad) de integrar una muestra a seleccionar de dicho grupo. Si el grupo tuviese 20 estudiantes (N= 20), se estará hablando de que cualquiera de ellos 1 tiene una probabilidad 𝑝 = 𝑁 = 1/20 = 0,05 de ser seleccionado; el espacio muestral o población de todos los resultados posibles está compuesto por 20 sujetos. Aquí prevalece, se cumple satisfactoriamente, el comportamiento correspondiente a la Distribución Uniforme de probabilidades, modelo teórico más simple de los que caracterizan tales distribuciones de probabilidades de algún fenómeno o proceso (La Distribución Uniforme tiene su equivalente para variables aleatorias continuas). Veinte muestras de tamaño 𝑛 = 1, pueden como máximo ser extraídas del grupo de 20 estudiantes, las que en su conjunto constituyen la población (N= 20), como se dijo antes. No es obvio decir cuántas muestras de tamaño 2, 3, 4, 5 o más (𝑛 ≤ 𝑁) pueden sacarse del grupo anterior. La respuesta se obtiene de: 𝑁! 𝑁 El coeficiente binomial 𝐶(𝑛, 𝑁) = ( ) = 𝑛!(𝑁−𝑛)!permite obtener el número 𝑛 de subconjuntos de n elementos escogidos de un conjunto con N elementos. Considerando 𝑛 = 10, resultarían: 20! 10!∗11∗12∗13∗14∗15∗16∗17∗18∗19∗20 20 𝐶(10,20) = ( ) = 10!(20−10)! = = 10!∗10! 10 6,70443𝐸+11 10! = 184756 ¡Cifra muy grande! 26 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ejercicio 4 Cambiemos a N=5, {A,B,C,D,E}, y n=2. Complete en el cuadro siguiente, las respuestas a las interrogantes y el cálculo de las fórmulas de abajo: A,B A, C A, D A, E B, C B, D B, E Total de muestras posibles (de tamaño n=2)= Probabilidad de que una cualquiera de las muestras de tamaño n=2 sea la seleccionada (considerando Distribución uniforme de probabilidades )= 5! 3!∗4∗5 5 𝐶(2,5) = ( ) = 2!(5−2)! = 2!∗3! = 2 Fin del ejercicio 4 Ejemplo 12 Los cálculos de los resultados del Coeficiente Binomial usualmente se obtienen directamente por funciones suministradas en calculadoras y software. En el caso del EXCEL está disponible la función COMBINAT(N, x), donde: N – número de repeticiones x – cantidad de éxitos en n repeticiones A continuación se muestran los resultados de los cálculos en EXCEL considerando N= 5 para valores de x desde 0 hasta 5: x COMBINAT(5,x) 0 1 1 5 2 10 3 10 4 5 5 1 Fin del Ejemplo 12 ¿Por qué el EXCEL? ¡Porque es bueno y está en todas partes! (Ver en el Anexo 2 las valiosas funciones estadísticas del EXCEL) 27 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ejercicio 5 Suponga que Usted labora en una institución de educación en la que las calificaciones de las actividades evaluativas responden a: 2 - Suspenso, (𝑥1 ); 3 - Aprovechado, (𝑥2 ); 4.- Notable, (𝑥3 ) y 5 - Excelente, (𝑥4 ) Considerando Distribución uniforme de probabilidades para el espacio muestral que conforman los cuatro resultados posibles anteriores (N= 4), cuál sería la probabilidad que le corresponde a la ocurrencia de cualquiera de estos Obtenga la probabilidad P(Notable o Excelente) Fin del ejercicio 5 Usted debe haber notado que para eventos independientes (𝑥𝑖 ) simples, como lo son las calificaciones a obtener en una evaluación, se cumple: 𝟎 < 𝑃(𝒙𝒊 ) < 1 ∑𝑵 𝒊=𝟏 𝑷(𝒙𝒊 ) = 𝟏 Se conoce como evento seguro aquel para el cual 𝑷 = 𝟏. Ejemplo 13 El tiempo transcurre independiente de la voluntad humana. Fin del ejemplo 13 Ejemplo 14 El estudiante que hizo la evaluación obtendrá alguno de los cuatro resultados definidos para otorgar la calificación (Con escala de 2, 3, 4 y 5). Fin del ejemplo 14 28 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Se le llama evento imposible al que le corresponde 𝑷 = 𝟎. Ejemplo 15 Manteniéndose la fuerza gravitatoria, una pelota de beisbol lanzado al aire termina subiendo. Fin del ejemplo 15 Ejemplo 16 El estudiante que no se presentó a determinada evaluación escrita, sin tener comunicación de ningún tipo con alguna otra persona o recurso virtual de apoyo, una vez que esta concluyó, y en lugar en el que se realizó, entregó al igual que los demás alumnos, su documento de constancia de haberla hecho). Fin del ejemplo 16 La probabilidad mayor que cero es la característica de un evento, que hace que existan razones para creer que éste ocurrirá. Considerando que p es la probabilidad de que ocurra un evento, y q la probabilidad de que no ocurra, entonces tiene que cumplirse que p + q = 1 (opcionalmente puede escribirse como q = 1 – p). Eventos compuestos son los que incluyen más de un evento simple, como el del ejercicio 4, P(Notable o Excelente)= P(Notable) + P(Excelente)= 0,25 + 0,25= 0,5. Ejercicio 6 En una asignatura determinada se conoce que el comportamiento habitual de la distribución de calificaciones no es la de la Distribución Uniforme, sino la correspondiente a: P(2 -Suspenso)= 0,4 P(3 - Aprovechado)= 0,3 P(4 - Notable)= 0,2 P(5 - Excelente)= 0,1 a. Obtenga la probabilidad P(No Suspenso) b. Pronúnciese sobre el acercamiento a la realidad, del modelo empírico de probabilidades correspondiente a los cuatro niveles de ocurrencia dado en este ejercicio para una asignatura determinada (del comportamiento habitual de la 29 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 distribución de calificaciones), con respecto al modelo teórico de la Distribución Uniforme para este tipo de sucesos. Fin del Ejercicio 6 Índice 2.1.1.1 Definiciones de Probabilidad Existen varias definiciones de probabilidad que el lector puede buscar. La definición clásica plantea que la probabilidad es la característica de un evento, que hace que existan razones para creer que este ocurrirá. La probabilidad p de que suceda un evento 𝒙𝒊 de un total de N casos posibles igualmente probables es igual a la razón entre el número de ocurrencias h de dicho evento (casos favorables) y el número total de casos posibles N: 𝑷 = 𝑷𝒓𝒐𝒃{𝒙𝒊 } = 𝒉 𝑵 Ejemplo 17 Utilizando la fórmula de la definición anterior, y para una semana escolar con actividades de lunes a viernes, los siguientes cálculos resultan válidos para cualquier semana escolar: Probabilidad que un día de clases seleccionado aleatoriamente en esa semana, sea lunes, 𝑃(𝑙𝑢𝑛𝑒𝑠) = 1/5 Probabilidad de que un día de clases seleccionado aleatoriamente, no sea ni lunes ni viernes, 𝑃(𝑛𝑜 𝑙𝑢𝑛𝑒𝑠 𝑛𝑖 𝑣𝑖𝑒𝑟𝑛𝑒𝑠) = 3/5 Fin del Ejemplo 17 Definición de Probabilidad a partir de la frecuencia (Definición empírica) Supóngase que cierto experimento aleatorio se lleva a cabo n veces con el propósito de obtener la probabilidad de que ocurra un resultado o evento determinado A. Designando por 𝑛(𝐴) el número de ocurrencias de dicho evento A, en las 𝑛 realizaciones del experimento, se define la probabilidad de A, a partir de la frecuencia, según: 𝑛(𝐴) 𝑛→∞ 𝑛 𝑃(𝐴) = lim 30 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 El hecho de que el número de repeticiones exija 𝑛 → ∞, conlleva a que no sea posible realizarlo en la práctica, no obstante ofrece cierta información de interés. Índice 2.1.1.2 Distribución Binomial Suponga que Usted desearía conocer la probabilidad de que en 20 sesiones de trabajo con la computadora conectado a internet durante un mes, logra evadir un número de veces específico (0, 1, 2,…, 20) al riesgo de infectarse con un virus informático, ¿cómo lo hace? ¡Con la Distribución Binomial, otro modelo teórico para distribuciones de probabilidades de variables discretas! La Distribución Binomial es una distribución de probabilidad discreta que le permite contar el número de éxitos en una secuencia de n ensayos (o repeticiones) de Bernoulli independientes entre sí, con una probabilidad fija p de ocurrencia del éxito en cualquiera de los ensayos. Un experimento de Bernoulli se caracteriza porque sólo son posibles en cada repetición o ensayo, dos resultados. A cualquiera de estos se le puede denominar éxito, con una probabilidad de ocurrencia p; y al otro, fracaso, con una probabilidad q = 1 –p (note que equivale a plantear que p + q = 1). En la Distribución Binomial el experimento se repite n veces de forma independiente, y se trata de calcular la probabilidad de un determinado número de éxitos (desde 0 hasta n) en esas repeticiones. De existir más de dos resultados posibles en una realización del experimento, estos pueden asumirse en dos grupos, los que se asumen que corresponden al éxito (no necesariamente lo que se está acostumbrado a valorar de bueno), y los demás se agrupan en los que corresponden al fracaso. Otro ejemplo de este tipo de comportamiento es el que se asocia con la asistencia de todos los maestros a la escuela un día de clases de la semana: p - éxito (asisten todos) y q- fracaso (no asisten todos), ¿Qué valores asumiría Usted de p y q para su escuela? ¿Qué probabilidad existe de que tengan lugar 0, 1, 2, 3, 4 o 5 éxitos en la semana? En breve le resultará sencillo determinarlo. Debe tenerse muy presente la elección de éxito o fracaso para realizar los cálculos necesarios y hacer la posterior conclusión respecto al enunciado original que corresponda al problema que se esté solucionando; una u otra selección sería para tomar el camino más sencillo en los cálculos necesarios, si fuese este un requisito. Puede representarse que una variable aleatoria X sigue el comportamiento o modelo teórico de una Distribución Binomial de parámetros n y p, a partir de: 𝑋~ 𝐵(𝑛, 𝑝) 31 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Para variables discretas se definen: a) Función de distribución de probabilidad, fp (valores puntuales), y b) Función acumulativa de distribución de probabilidad, fdp (valores acumulados de probabilidad según aumentan los valores de la variable aleatoria). Para la Distribución Binomial, estas son: 𝑛 𝑓𝑝𝐵 = ( ) 𝑝𝑘 𝑞 𝑛−𝑘 y𝑓𝑑𝑝 = ∑𝑘𝑖=0 𝑓𝑝𝐵 𝑖 𝑘 Ejercicio 7 Retomando la información del modelo empírico de distribución de probabilidades del ejercicio 6, (PSuspenso=0,4; PAprovechado= 0,3 PNotable= 0,2 y PExcelente=0,1), obtenga: a. El valor q de la Distribución Binomial, si dicha probabilidad significa PSuspenso b. El valor p de la Distribución Binomial, si dicha probabilidad significa PAprobado c. Los valores de 𝑓𝑝𝐵 , probabilidad de que un estudiante apruebe en k= 0, 1, 2, 3, 4 y 5 oportunidades, al presentarse a un total de 5 evaluaciones. Solución: a. PSuspenso= 0,4 (Por dato) b. PAprobado= PAprovechado (0,3) + PNotable (0,2) + PExcelente (0,1)= 0,6 Aprecie que se cumple la condición establecida antes de p + q= 1 c. Tomando "éxito" que un estudiante apruebe, p= 0,6 y q= 1 − 0,6 = 0,4 k Función de distribución de probabilidad, 𝑛 𝑓𝑝𝐵 = ( ) 𝑝𝑘 𝑞 𝑛−𝑘 𝑘 Función de distribución acumulativa de probabilidad, 𝑘 ∑ 𝑓𝑝𝐵 𝑖 0 1 2 3 4 5 5! 5 ( ) 0,60 ∗ 0,45−0 = ∗ 0,60 ∗ 0,45−0 = 0!(5−0)! 0 5! 5 ( ) 0,61 ∗ 0,45−1 = ∗ 0,61 ∗ 0,45−1 = 1!(5−1)! 1 5! 5 ( ) 0,62 ∗ 0,45−2 = ∗ 0,62 ∗ 0,43 = 2!(5−2)! 2 5! 5 ( ) 0,63 ∗ 0,45−3 = ∗ 0,63 ∗ 0,42 = 3!(5−3)! 3 5! 5 ( ) 0,64 ∗ 0,45−4 = ∗ 0,64 ∗ 0,41 = 4!(5−4)! 4 5! 5 ( ) 0,65 ∗ 0,45−5 = ∗ 0,65 ∗ 0,40 = 5!(5−5)! 5 𝑖=0 0.01024 0.01024 0.0768 0.08704 0.2304 0.31744 0.3456 0.66304 0.2592 0.92224 0.07776 1.00000 Fin del Ejercicio 7 Índice 32 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 2.1.2 Probabilidades y variables continuas. Distribuciones Normal, t de Student y Ji (Chi) Cuadrado Las variables continuas son aquellas que pueden tomar todos los infinitos valores existentes entre dos de estos. Ejemplo 17 Considérese el tiempo que le toma a un estudiante responder parte de una pregunta en el examen final de una asignatura; digamos que ese evento fue diseñado para responderse con una media de 10 minutos, con un intervalo probable de 4 a 16 minutos (equivalente a 10 ± 6 min) de valores posibles. Para este ejemplo, está además presente la condición de aleatoriedad, por el hecho de no existir un modelo determinístico a partir del cual pueda calcularse con precisión el tiempo aludido, que le pueda llevar a un estudiante cualquiera. Fin del Ejemplo 17 En la práctica, numerosas variables continuas se trabajan con un nivel de discretización razonable, que no influye en perdida de información trascendente a los fines del evento en cuestión, lo que por lo general lo define el propio investigador a partir de su propio conocimiento. Ejemplo 18 En la expresión anterior con valores esperados de 10 ± 6 min, (intervalo cerrado de 4 a 16), se tienen implícitos media poblacional 𝜇 = 10 min. y semiamplitud 3 veces la desviación estándar poblacional, 3𝜎 = 6 min., o sea, 𝜎 = 2 min. Se trata de un evento en el que se considera que la precisión es suficiente registrando las mediciones de tiempo aproximándolas a minutos. Fin del Ejemplo 18 Ejemplo 19 Si en lugar del ejemplo anterior, se estuviese midiendo el tiempo en que se demora un estudiante en recorrer 50 metros en una prueba de velocidad de los más ágiles de un grupo, posiblemente se estaría hablando en términos de hasta décimas de segundo. Pudiera tenerse como caracterización de los resultados esperados 50.0± 12.0 seg., significando media poblacional 𝜇 = 50.0 seg. y semiamplitud 3 veces la desviación estándar poblacional, 3𝜎 = 12 seg.; o sea, 𝜎 = 4 seg. En este caso la sensibilidad de la magnitud de la respuesta pudiera estar 33 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 conllevando a trabajar con décimas de segundos, en lugar de valores enteros aproximados de segundos o minutos, y que se desecharía asimismo la variante de medir hasta las centésimas de segundo. Fin del Ejemplo 19 Existen diversas distribuciones de probabilidades de variables continuas, a continuación se presenta alguna información solo de tres de estas. Índice 2.1.2.1 Distribuciones Normal y t de Student Dos de las Distribuciones de probabilidades para variables continuas más utilizadas son las Distribución Normal y la t de Student. Los valores de una variable continua aleatoria que siguen el modelo teórico de la Distribución Normal, se distinguen por estar agrupados mayormente alrededor de la media poblacional, con simetría por ambos lados, mostrando una forma acampanada (Ver Figura 3) y con porcentajes fijos de probabilidad en los intervalos qe pudieran definirse, siendo de importancia frecuente los comprendidos en 𝑋𝜖[𝜇 ± 𝑛𝜎] para 𝑛 = 1, 2 𝑦 3, a los que corresponden probabilidades aproximadas de: 𝑝(𝑋𝜖[𝜇 ± 𝜎]) = 68,2% 𝑝(𝑋𝜖[𝜇 ± 2𝜎]) = 95,4% 𝑝(𝑋𝜖[𝜇 ± 3𝜎]) = 99,7% Figura 3. Representación del comportamiento de los valores de una variable con distribución Normal (μ, N), a partir de su función de distribución de probabilidad Tenga en consideración que, por el significado de Probabilidad, tiene que cumplirse que 𝑃(𝑋𝜖[𝜇 ± ∞]) = 100% = 1. Debe estarse atento a la representación equivalente de valores de probabilidad tanto en porcentaje como en fracciones. Los software utilizan principalmente la de fracciones y a las personas en general le es más reveladora en porcentaje. Asimismo hay que estar alerta en el uso de P para indicar probabilidad; notará que se utiliza con cierta frecuencia que un mismo problema para denotar distintas probabilidades, además de emplear otros símbolos con el mismo propósito. 34 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 La Distribución Normal es una de las más utilizadas en la Estadística Inferencial, incluso para desechar su posibilidad de uso cuando no representa apropiadamente el comportamiento de los valores de la variable que se esté estudiando, y decidirse en tal caso por transformaciones de los datos primarios, por aplicar la Distribución t de Student, o por el uso de pruebas no paramétricas. Funciones de densidad y acumulativa de probabilidades de la Distribución Normal. La función de densidad de la distribución de probabilidad de una variable aleatoria X que sigue una distribución normal X es: 1 𝑓(𝑥) = 𝜎√2𝜋 𝑒 1 𝑥−𝜇 2 ) 2 𝜎 − ( −∞ < 𝑥 < ∞ para donde μ y σ son los parámetros poblacionales media y desviación estándar respectivamente, 𝑒 = 2,71828…y 𝜋 = 3,14159...Se representa abreviadamente como N(μ, σ). Propiedades de la función de densidad de probabilidades del Distribución Normal El área total comprendida entre la función de densidad y el eje de las abscisas es igual a uno Es asintótica a ese eje, esto quiere decir que teóricamente x toma valores entre - y+ Es simétrica respecto a la media donde alcanza su máximo valor La distancia entre el eje vertical que pasa por la media y el punto donde cambia de concavidad (punto de inflexión ) la curva, es igual a al valor de . La 1 𝜎√2𝜋 función 𝑒 acumulativa 1 𝑥−𝜇 2 − ( ) 2 𝜎 como de la Distribución Normal, se plantea para 𝑓(𝑥) = a: 𝑡 𝐹(𝑡) = ∫ 𝑓(𝑥)𝑑𝑥 −∞ 35 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 La propiedad de que la suma de las probabilidades correspondientes a todos los resultados posibles de un evento, vista antes para variables discretas, necesariamente tiene que cumplirse también para variables continuas, y significa que: ∞ ∫ 𝑓(𝑥)𝑑𝑥 = 1 −∞ Por importantes razones prácticas resulta necesario trabajar con la variable 𝑥−𝜇 aleatoria estandarizada 𝑍 = 𝜎 . Ver Figura 4. Figura 4. Funciones de densidad y acumulativa probabilísticas, de la Distribución Normal estandarizada (con 𝜇 = 0 𝑦 𝜎 = 1) (gráficos obtenidos con EXCEL utilizando ∆𝑍 = 1). La estandarización de los valores de la variable aleatoria X a partir de 𝑍 = 𝑥−𝜇 𝜎 tiene la notable connotación de transformar la variable original, cualquiera que esta sea, a una adimensional, de parámetros media y desviación estándar 𝜇 = 0 𝑦 𝜎 = 1 como se dijo antes. 𝐶 En la Tabla 3 se muestran varios cálculos de 𝑍, 𝑓(𝑍) 𝑦 ∫0 𝑓(𝑍)𝑑𝑍 para un ejemplo de la variable original Calificación [𝜇𝐶 = 7, 𝜎𝐶 = 1], suponiendo que se utiliza una escala de valor máximo 10. 36 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Tabla 3. Resultados de la función de densidad probabilística estandarizada𝑓(𝑍), y de su función acumulativa de la Distribución Normal Estandarizada Acumulativa, correspondientes a N(7, 1) para 4 ≤ 𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 ≤ 10, obtenidos con el EXCEL Calificación 𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 − 7 𝑍= 1 𝑓(𝑍) = 1 √2𝜋 𝑒 1 − (𝑍)2 2 Distribución Normal Estandarizada Acumulativa (DISTR.NORM.ESTAND(Z)) 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 0.004 0.018 0.054 0.130 0.242 0.352 0.399 0.352 0.242 0.130 0.054 0.018 0.001 0.006 0.023 0.067 0.159 0.309 0.500 0.691 0.841 0.933 0.977 0.994 10 3 0.004 1.000- Más adelante se utilizarán dos probabilidades denominadas Nivel de significación (∝) y Nivel de confianza (𝑝), las que se relacionan de acuerdo a: ∝+𝑝=1 En la Tabla 4 se muestran algunos valores de uso frecuente de Z, que delimitan 𝑥−𝜇 los intervalos −𝑍𝑐 ≤ 𝑍 = 𝜎 ≤ 𝑍𝑐 (alrededor del valor medio 𝜇𝑍 = 0), correspondientes a valores de probabilidad de 95, 97.5 y 99 % respetivamente. Tabla 4. Valores de 𝑍𝑐 que delimitan intervalos de la variable normal estándar Z, 𝑥−𝜇 −𝑍𝑐 ≤ 𝑍 = 𝜎 ≤ 𝑍𝑐 , para distintos niveles de significación de uso frecuente (Probabilidad∝). ∝ (𝑝 = 1−∝) 0.05 (𝑝 = 0.95) 0.025(𝑝 = 0.975) 0.01(𝑝 = 0.99) 𝒁𝒄 1.645 1.960 2.495 37 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ejercicio 8 Este ejercicio se relaciona con el 1. Complete la Tabla de los intervalos de más abajo, apoyándose en la información dada a continuación y recordando que ∞ 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑡𝑖𝑣𝑎, ∫ 𝑓(𝑥)𝑑𝑥 = 1 −∞ Coef. de intelig. 55 70 85 100 115 130 145 Z -3 -2 -1 0 1 2 3 DISTR.NORM.ESTAND() (Prob acumulativa) 0.0013 0.0228 0.1587 0.5000 0.8413 0.9772 0.9987 Probabilidad acumulativa hasta el contorno derecho del intervalo Probabilidad correspondiente al intervalo (% con solo una cifra decimal) 0.0013 0.0013 (0.1) 0.0013 y 0.0228 0.0228 - 0.0013= 0.0215 (2.1) Inteligencia (I) débil, [70; 85) 0.0228 y 0.1587 0.1587 - 0.0228= 0.1359 (13.6) I media baja, [85; 100) 0.1587 y 0.5000 0.5000 (34.1) Coeficiente de inteligencia I muy baja <55 Insuficiencia mental, [55; 70) I media alta, [100; 115) – 0.1587= 0.3413 0.5000 y Gran I, [115; 130) 0.9772 - 0.8413= ( ) I superior, [130; 145) I Superdotados, ≥145 0.9987 y 1.0000 1.0000 -0.9987= 0.0013 ( ) Fin del Ejercicio 8 38 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 En el EXCEL están disponibles las funciones siguientes, de variantes de utilización de la Distribución Normal, las cuales requieren una breve familiarización para utilizarlas con seguridad: 1. DISTR.NORM - Devuelve la distribución normal acumulativa 2. DISTR.NORM.INV - Devuelve la función inversa de la distribución normal acumulativa 3. DISTR.NORM.ESTAND - Devuelve la distribución normal estándar acumulativa 4. DISTR.NORM.ESTAND.INV - Devuelve la función inversa de la distribución normal estándar acumulativa Índice Distribución t de Student Tiene su origen en el problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño, aunque puede utilizase también para muestras grandes (𝑛 ≥ 30), caso en cuyo comportamiento tiende cada vez más al de la Distribución Normal. Dada Z una variable aleatoria normal estándar y V una variable aleatoria chi cuadrada con ν grados de libertad y considerando Z y V independientes, la distribución de la variable aleatoria T, definida a partir de 𝑇 = 𝑍 𝑉 ν , posee el modelo √ teórico representado por la función de densidad 𝛤[ ν+1 ] 𝑡2 2 ℎ(𝑡) = (1 + ) ν ν 𝛤( )√𝜋ν −(ν+1) 2 , −∞ <𝑡 < ∞ 2 conocida como la Distribución t de Student, con ν grados de libertad. Constate que esta distribución posee solo el parámetro ν. (Ver figura 5) Más adelante se estarán calculando los grados de libertad a partir del tamaño de muestra, según: ν=n−1 39 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Distribución Normal Figura 5. Distribución t de Student para varios grados de libertad Índice 2.1.2.2 Distribución Ji (Chi) Cuadrado La Distribución de Pearson, también llamada Ji cuadrada(o) o Chi cuadrado(a) (𝜒²), es una distribución de probabilidad continua con un parámetro 𝛎 que representa los grados de libertad de la variable aleatoria 𝑋 = 𝑍12 + 𝑍22 + ⋯ + 𝑍ν2 , donde 𝑍𝑖2 son variables aleatorias normales estandarizadas (𝜇 = 0 𝑦 𝜎 2 = 1) e independientes. La cualidad de que la variable aleatoria 𝝌² tenga este tipo de distribución se representa habitualmente como: 𝑋~ 𝝌². La distribución Ji cuadrada (𝜒 2 ) tiene la función de densidad: 1 𝜈 𝜈 𝑓(𝑥, 𝝂) = { 22 𝛤(𝜈) 𝜈 𝑥 2−1 𝑒 −2 , 𝑥>0 2 0, 𝑥≤0 Como se dijo antes, el único parámetro de esta distribución de probabilidades es 𝜈 (grados de libertad); se calcula a partir de: 𝜈 = n − 1, donde n es el tamaño de la muestra. 40 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Esta distribución posee media y varianza poblacionales definidas como: 𝜇 = 𝜈 y 𝜎2 = 2 𝜈 En la Figura 6, se ilustran varios miembros de esta familia de curvas para distintos grados de libertad. Figura 6. Distribución 𝝌² para varios valores de 𝛎 Índice 2.2 Estadística, Método Estadístico y Tipos de Muestreo 2.2.1 Estadística y Método Estadístico La Estadística es más que una simple compilación y presentación de datos en tablas y gráficos, aunque usualmente es este el concepto intuitivo que la mayor parte de los individuos poseen sobre la esencia de esta disciplina, a lo que ciertamente se reduce en numerosas aplicaciones sencillas. La Estadística deriva su nombre del hecho de haber sido aplicada primeramente a la recolección de datos, que permitieron la administración de los estados con propósitos militares e impositivos, o sea, los gobernantes necesitaban conocer cierta información referente al número y riquezas de sus súbditos. A los datos sobre determinado asunto hoy día se les suele denominar estadísticas; estas pueden referirse a la 41 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 educación, la salud, al deporte, al comercio, etc. Siempre que el término se utilice en plural, es sinónimo de datos. Estadística es la ciencia encargada de suministrar las diferentes técnicas y procedimientos, que permiten, desde organizar la recolección de datos, hasta su procesamiento, análisis e interpretación. Se utiliza cuando los datos primarios resultan numerosos y requieren procedimientos de cálculo de parámetros (estadígrafos o estadísticos) que resuman en pocos resultados, las principales cualidades del comportamiento de los valores de las variables que se estén estudiando, en términos de estimadores de tendencia central, dispersión y posición relativa de cada conjunto de datos de las distintas variables que se estén utilizando en el estudio. De particular beneficio resulta la Estadística, cuando los datos recopilados poseen además incertidumbre en sus magnitudes, propias de los errores ordinarios de medición. Cabe enfatizar que son similarmente perniciosas las situaciones consistentes en utilizar la Estadística innecesariamente, cuando resultan evidentes las cualidades del comportamiento observado, como cuando se soslaya su aplicación en condiciones de discernimiento objetable. Ante la duda de una frontera difusa, debe aplicarla. Tenga presente además, que la aplicación de la Estadística Inferencial para situaciones que lo ameriten, le permitirá profundizar el alcance de su análisis, con respecto a llegar solo a la Estadística Descriptiva, como podrá valorar más adelante. Según los objetivos de su aplicación, se divide en Descriptiva e Inferencial: Estadística Descriptiva • Constituida por el conjunto de métodos estadísticos dedicados al procesamiento inicial de los datos primarios, o sea, el resumen y presentación de la información recogida sobre un determinado aspecto o problema, en términos de estimadores o parámetros de tendencia central, dispersión y posición relativa. Estadística Inferencial • Rama de esta ciencia dedicada al análisis de la información, que permite las pruebas de hipótesis, para servir como elemento de apoyo en la interpretación de los resultados y posterior toma de decisiones sobre la base de los mismos. La aplicación de la Estadística Inferencial tiene implícita en su primera etapa, el empleo de la Estadística Descriptiva. : 42 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 2.2.1.1 Método Estadístico El Método Estadístico es una forma particular del Método Científico de investigación, de ahí que sus etapas tengan puntos comunes entre sí. Etapas del Método Estadístico Las acciones a realizar se agrupan en cuatro etapas, las que se ilustran en la Figura 7; son muy similares a las que deben acometerse en una Investigación Educativa, tal y como se presentó con antelación; de hecho, muy similares a las de cualquier otra investigación en la que se esté aplicando el Método Científico, como es de esperar; no obstante, se precisan de inmediato algunos aspectos que ameritan detallarse en este momento de la etapa de Planificación de la investigación. Elaboración o procesamiento de los datos recogidos Planificación de la investigación Recolección de la información Análisis e interpretación Figura 7. Etapas del Método Estadístico Antes de proceder a la recolección de la información, en la etapa de Planificación de la Investigación, deben precisarse la Población y la Muestra con las que se trabajará. Cabe dejar sentado que la mayor confiabilidad de los resultados a alcanzar corresponde a aquellos estudios que se lleven a cabo con todos los 43 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 elementos de la población. El muestreo conlleva ineludiblemente algún grado de pérdida de información, por muy riguroso que se realice. Se trabaja sobre la muestra en numerosas oportunidades, dado que se presenta como la única opción factible ante la magnitud de la población, ya sea por recursos financieros o de otra índole. Es trascendente reconocer debidamente los conceptos de Población y Muestra, y el carácter relativo que poseen. Así, se tiene que: Usted puede tener en un momento dado tres grupos de clases con un total de 60 estudiantes, esa podría ser su población. Y por ejemplo, para participar en acciones sistemáticas de beneficio al medio ambiente, le invitan a participar en cada ocasión a 12 estudiantes en los que estén representados los tres grupos en equidad numérica; 12 de 60 sería la muestra (20% de 60). Ejemplo 20 En una investigación en la Universidad de las Ciencias Informáticas, en dependencia del estudio que se vaya a realizar (digamos, resultados docentes en Matemática I), pueden tener lugar entre otras algunas de las situaciones siguientes: 44 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Variante 2 Variante 1 POBLACIÓN POBLACIÓN Todos los estudiantes de primer año (alrededor de mil alumnos) Total de estudiantes de los grupos atendidos por uno de los profesores conferencistas (usualmente entre dos y 6 grupos de alrededor de 20 estudiantes cada uno) MUESTRA MUESTRA Cualquier subconjunto de estudiantes tomados de la Población Determinada fracción del total de estudiantes de ese profesor (garantizando representatividad de cada grupo aludido) Fin del Ejemplo 20 Por circunstancias como las de los ejemplos anteriores, los conceptos de Población y Muestra son relativos. Se debe estar consciente que la generalización de los resultados será válida solo para aquella población de la cual la muestra con la que se haya trabajado resulte debidamente representativa. Índice En la recolección de la información, se distinguen a su vez tres etapas, cuya identificación y desarrollo poseen marcada importancia en el éxito de la investigación a ejecutar. Estas son: Planificación Ejecución Verificación Existen tres niveles en los que puede darse la recolección de la información, atendiendo de modo decreciente a su magnitud, denominados: Censo, Encuesta y Entrevista. El Censo incluye a todos los elementos de la población; es costoso, trabajoso; su realización lleva un tiempo apreciable; proporciona una información máxima de las variables en estudio; en el caso de los poblacionales que habitan 45 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 un país, se realiza comúnmente con frecuencia no menor de 4 años. La Encuesta por su parte, se le aplica al sector de la población que se estime pertinente, es menos costosa que el Censo y se puede hacer con mayor frecuencia que este, aunque como es lógico, el valor de su información es más limitado. Mientras que la Entrevista es de estos tres, el escalón menos abarcador de recolección de información, supuesto que se le aplique a muchas menos personas que en la encuesta. Cabe puntualizar que tanto en el Censo como en la Encuesta pueden estarse haciendo entrevistas, como de hecho es práctica en algunos lugares, aunque ajustadas en su extensión a la magnitud de tales investigaciones. Algunas de las técnicas e instrumentos para la obtención y registro de los datos, en la recolección de la información, son: Registro Cuestionario Planilla de recolección de datos Bases de Datos Antes de confeccionar los instrumentos de recolección de información, se les debe prestar atención a la operacionalización de las variables, garantizando que se correspondan con el nivel de información necesario para cumplir los objetivos propuestos en el estudio. Relacionados con los instrumentos para la recolección, se debe considerar además, el equipo de medición, si se fuese a utilizar, y los requisitos de objetividad-exactitud, confiabilidad y validez que deben cumplir de ser necesarios tales equipos. En cuanto a las preguntas es importante ver que existen los tipos de preguntas: cerrada, abierta y semi-abierta. La Recolección de la información constituye para el investigador una etapa de alta trascendencia. La calidad de la información determina decisivamente en la de los resultados del estudio. Mientras que la elaboración y el resumen puede hacerlo un técnico estadístico competente, la recolección tiene que estar en manos del propio investigador, vigilarla constantemente, garantizando que se realice conforme a los planes trazados previamente. Una mala recolección traerá resultados catastróficos. La información también se recolecta durante la Observación o el Análisis documental, según el tipo de investigación. Entre los principales aspectos que deben considerarse al recoger la información están: - Los errores que pueden cometerse en la recolección de datos y la manera de controlarlos. Las ventajas y limitaciones de los diversos métodos empleados en la recolección de la información. 46 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 - Las condiciones que deben reunir los individuos que se estudian y los procedimientos más convenientes para su elección. El diseño de formularios exhaustivos que servirán para registrar la información. Ejemplo 21 Si en un estudio se toma como unidad de análisis a estudiantes que han suspendido asignaturas en los años precedentes, se está considerando como población al conjunto de estudiantes que han suspendido alguna asignatura en los años precedentes; pero esto, aún cuando concuerda con lo definición vista, resulta bastante impreciso para ser utilizado en una investigación. Es evidente la necesidad de delimitar mejor la población, por lo que el investigador se debe detener a pensar ¿Hacia qué población se desean generalizar los resultados? Si el interés es generalizarlo hacia una asignatura X de la Disciplina Matemática (le corresponden las asignaturas Matemática I, II, III y IV), entonces la población definitivamente es: el conjunto de estudiantes que han suspendido alguna asignatura X de la Disciplina Matemática en los años precedentes; y si se va a trabajar solo con una muestra, obligadamente esta debe extraerse de esa población. Fin del Ejemplo 21 Algunos de los Errores más comunes que se presentan en la recolección de la información, pueden ser: No definir conceptualmente las variables, no operacionalizar debidamente a las que lo requieren Uso sin validación de instrumentos desarrollados en otro espacio y tiempo Cualidades del instrumento (redacción, claridad, etc.) No realizar pruebas pilotos que determinen confiabilidad y validez del instrumento Falta de respeto al informante al poner por escrito en el cuestionario frases como Responda con sinceridad Índice 2.2.2 Muestra. Tipos de muestreo Atendiendo al uso de las probabilidades en el momento de definir la muestra, existen dos caminos para el muestreo, que identifican su tipo: No probabilístico 47 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 (Por criterios - a juicio - del investigador, o circunstancias que se presentan) y Probabilístico (Aleatorio). Si en un grupo de sus estudiantes precisa declarar el o los que más participan en las clases, esta sería una muestra no probabilística, no son cualesquiera de los estudiantes los que integrarían el subgrupo en cuestión. Asimismo sucedería si resultase necesario precisar los de menor aprovechamiento docente; estaría definiendo una segunda muestra atendiendo a este nuevo criterio. No resultan pocas las ocasiones en las que resulta prácticamente obligado trabajar con muestreo no probabilístico, lo que sitúa al investigador en condiciones de no poder generalizar los resultados a los que arriba. A diferencia del anterior, el Muestreo probabilístico o Diseños muestrales probabilísticos, son aquellos en los que se usa la teoría de la probabilidad para seleccionar las unidades muestrales, mediante un plan bien definido antes de recopilar cualquier dato. Los elementos de una muestra o unidades muestrales, deben ser escogidos adecuadamente para poder extender los resultados que se observen a los elementos de toda la población. En ese caso la muestra será llamada una muestra representativa, y como su nombre lo indica, representa a toda la población. Debe estarse bien alerta porque aún cuando se utilice un procedimiento probabilístico en la selección de la muestra, esta pudiera no resultar lo representativa que es esperado. Sobre muestreo el interesado que no satisfaga sus necesidades en el presente documento, podrá consultar Técnicas de muestreo, Cochran (SA); y los capítulos 8 y 13, de Metodología de la Investigación, Hernández, Fernández y Baptista (2014), entre otras obras que tratan ese contenido. Ejercicio 9 Complete la información en el diagrama siguiente; Tipos de muestreo atendiendo o no al uso de las probabilidades Fin del Ejercicio 9 \Índice 48 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 2.2.3 Factores que deben tenerse en cuenta para obtener una buena muestra: I. El tamaño de la muestra Se recurre a una muestra cuando no resulta posible por diferentes motivos realizar el estudio en toda la población. Las limitantes para hacer el estudio directamente sobre el total de la población pueden ser de índole económico, de tiempo, conveniencia, factibilidad, etc. o limitantes que estén dadas en la combinación de dos o más factores de los mencionados. Muestra es por lo general pérdida de información, conlleva a menos exactitud de los resultados. Siempre que el estudio pueda llevarse a cabo con todos los elementos que integran la población, se estará haciendo un estudio más riguroso. No obstante, en numerosos casos prácticos no queda otra alternativa que recurrir a la selección de una muestra para hacer el estudio deseado. La muestra debe tener en cuenta si los elementos de la población tienen poca o mucha variabilidad en los valores de las variables más importantes del estudio que deba hacerse; para obtener la información a priori sobre la variabilidad de la variable de mayor interés en el estudio dentro de población, se puede consultar con un investigador de experiencia en el campo de interés, realizar un pilotaje (estudio preliminar con una muestra de menor tamaño) o buscar información en la literatura sobre investigaciones similares en la que se reporte este estimador. De cómo obtener el tamaño de una muestra en determinadas circunstancias se estará hablando más adelante en este documento cuando se presente el estadígrafo Z de pruebas de hipótesis con la Distribución Normal. II. Las condiciones de selección de la muestra La muestra debe ser seleccionada tomando en consideración determinados criterios (métodos o esquemas de muestreo) que respondan a las condiciones específicas de cómo los valores de las principales variables de interés en el estudio, están dados en el seno de la población, de manera que refleje los aspectos esenciales de la misma de una manera adecuada. Un elemento trascendente adicional, es el de las condiciones que debe poseer una muestra representativa, buena, válida. La muestra representativa es aquella que posee, a su menor escala, características similares en las variables que se están estudiando, con respecto a las que poseen dichas variables en la población de la que es extraída. Las condiciones de una muestra representativa, se asocian con sus atributos de: 49 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Tamaño (cantidad de elementos de la población incluidos en la muestra) Calidad (forma en que fueron seleccionados los elementos que la integran) Una muestra representativa será la que posee un tamaño y calidad apropiados para hacer mínimos los errores del muestreo. Más adelante se tratará cómo proceder para inducir el logro de estas condiciones en la selección de la muestra en cuestión. \Índice 2.2.4 Procedimientos de muestreo probabilístico. Muestreos Aleatorios Simple, Estratificado y por Conglomerados Para que las conclusiones deducidas a partir de los resultados obtenidos de una muestra sean válidas, lo primero que debe tenerse en cuenta es el método o procedimiento de elegir la muestra, de manera que la selección no esté permeada por el criterio personal del investigador o preferencias profesionales de diversa índole; además, el proceso de selección debe ser comparable con un experimento aleatorio (Cada vez que se repite bajo las mismas condiciones, existen factores del azar que causan variaciones en los resultados de los valores de las variables observadas). Es en esas circunstancias que se elige obtener una muestra aleatoria. Los tres tipos de muestreo probabilístico más utilizados son: muestreos aleatorio simple, estratificado y por conglomerados. I. Muestreo Aleatorio Simple (MAS) Este muestreo constituye el enfoque más directo para obtener una muestra probabilística. Es aplicable cuando la población tiene poca variabilidad en los valores de las variables principales objeto de estudio, es decir, cuando hay un comportamiento más o menos uniforme de las características principales que se desean estudiar en toda la población. El MAS consiste en: 1. 2. 3. 4. Identificar la población en la que se realizará el estudio (tamaño N) Calcular el tamaño de la muestra, n Numerara cada elemento de la población Determinar una cantidad de números aleatorios igual al tamaño de la muestra 50 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 5. Extraer la muestra que estará integrada por cada uno de los elementos de la población que correspondan a los números aleatorios determinados con antelación. Ejemplo 21 Casos en los que el MAS estaría fundamentado, serían en investigaciones sobre: a. Conocimientos de Español en alumnos de todos los grupos, de un mismo maestro y grado, de una escuela primaria b. Nivel de estudio alcanzado por los padres de los alumnos de distintos grados de una escuela primaria c. Disponibilidad de tablet y teléfonos celulares en alumnos de 6to grado Fin del Ejemplo 21 Ejemplo 22 Dada la población que representan19 alumnos de un aula, seleccione una muestra aleatoria de tamaño 5. Solución: 1. Aquí ya es dato el tamaño de la población, N=19. 2. Asimismo, ya es un dato el tamaño de la muestra, n= 5 3. Se numera la población. En este caso es usual la existencia de un registro de asistencia en el que, por orden alfabético del primer apellido, ya estén los nombres de todos los alumnos. 4. Se seleccionan por algún procedimiento apropiado, tantos números aleatorios como tamaño de muestra se requiera. Por ejemplo, con el EXCEL pondría en una celda =ALEATORIO.ENTRE(1,19), y desplazando por 5 celdas se obtuvieron los números 8, 9, 5, 19 y 1 5. Se procede al estudio en cuestión con los cinco alumnos cuyos nombres se corresponden en el listado con los cinco números aleatorios determinados antes Fin del Ejemplo 22 Más adelante se estudiará la Distribución Normal y de sus propiedades se presentará una fórmula para el cálculo del tamaño de muestra. Índice 51 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 II. Muestreo Aleatorio Estratificado (MAE). Estratificar significa dividir la población en subgrupos (estratos) en función de las variables o características que interesan ser estudiadas; la estratificación permite una mayor correspondencia entre la población y la muestra, respecto a las variables o aspectos por los que se realizó la estratificación. Es conveniente aplicar la estratificación cuando la variabilidad de los valores de las variables de interés en el estudio resulta muy cambiante dentro de la población, buscando que dentro de cada estrato la variabilidad disminuya, aunque entre estratos si existan diferencias importantes. En otras palabras, los valores de la variable de interés principal en el estudio se encuentran en el seno de la población de modo tal, que por estratos posee cierta homogeneidad, mientras que de un estrato a otro las diferencias son significativas. Tal sería el caso de Conocimientos de Español en alumnos de 2do. a 6to.grado de una escuela primaria Ejemplo 23 A modo de ejemplo, para el cálculo de una muestra en MAE, considérese una escuela de nivel primario con N=700 estudiantes, distribuidos supuestamente a razón de 100 por cada nivel (desde preescolar hasta el 6to. grado). Suponga que tiene que sacar una muestra aleatoria de 21 alumnos de cada nivel (ntotal= 21x7= 147) para posteriormente hacer un estudio socio económico de las familias en las cuales conviven. De acuerdo a los datos y requerimientos, se cumple: N𝑃𝑟𝑒𝑒𝑠𝑐𝑜𝑙𝑎𝑟 = N1𝑟𝑜. = N2𝑑𝑜. = N3𝑟𝑜. = N4𝑡𝑜. = N5𝑡𝑜. = N6𝑡𝑜. = 100 𝑖=6 𝑡𝑜. N𝑡𝑜𝑡𝑎𝑙 = ∑𝑖=𝑃𝑟𝑒𝑒𝑠𝑐𝑜𝑙𝑎𝑟 N𝑖 =N𝑃𝑟𝑒𝑒𝑠𝑐𝑜𝑙𝑎𝑟 + N1𝑟𝑜. + N2𝑑𝑜. + N3𝑟𝑜. + N4𝑡𝑜. + N5𝑡𝑜. + N6𝑡𝑜. = 700 npreescolar= n1ro.= n2do. = n3ro. = n4to.= n5to. = n6to.=21 y 𝑖=6 𝑡𝑜. 𝑛𝑡𝑜𝑡𝑎𝑙 = ∑𝑖=𝑃𝑟𝑒𝑒𝑠𝑐𝑜𝑙𝑎𝑟 𝑛𝑖 = npreescolar + 𝑛1𝑟𝑜. + 𝑛2𝑑𝑜. + 𝑛3𝑟𝑜. +𝑛4𝑡𝑜. + 𝑛5𝑡𝑜. + 𝑛6𝑡𝑜. )=147. 52 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Para definir los 21 alumnos de cada nivel se numera previamente a los 100 del mismo; por alguna vía obtiene 21 números aleatorios en el intervalo [1, 100] (puede hacerlo en EXCEL auxiliándose de la función =ALEATORIO.ENTRE(inferior, superior) y pasan a integrar la muestra de dicho nivel aquellos alumnos que se corresponden con los números aleatorios obtenidos para el nivel en cuestión (Nota: Debe obtener para cada nivel 21 nuevos números aleatorios, alguno pudiera coincidir) Fin del Ejemplo 23 Las fórmulas de trabajo a utilizar cuando el tamaño de los estratos sea diferente y también pueda serlo la cantidad de elementos a seleccionar de cada estrato, para integrar la muestra total, son: 1. Identificar el tamaño de la población N, la cantidad de estratos K y el tamaño Nj de cada uno (Note que para K estratos, 𝑁 = 𝑁1 + 𝑁2 + ⋯ + 𝑁𝐾 ) 2. Calcular el tamaño de muestra total 𝑛 3. Hallar proporcionalmente el tamaño de la muestra 𝑛𝑗 de cada estrato, medio de asignación proporcional, es decir: Nj Peso relativo de cada estrato: p j N Tamaño de muestra a obtener de cada estrato: 𝑛𝑗 = 𝑝𝑗 ∗ 𝑛, para 𝑗 = 1, 𝐾 por Índice III. Muestreo Aleatorio por Conglomerados Usualmente se acude a este tipo de muestreo cuando se presume que puede existir una asociación física, de ubicación geográfica, de la variable de interés del estudio con el lugar del que proviene, o se encuentra, el sujeto que integra la población. Supóngase que se desea indagar sobre el tiempo promedio que le toma a los alumnos llegar a la escuela; habría que hacer una muestra representativa de alumnos atendiendo a las zonas en las que residen. Se procede de modo similar al MAE, lo que ahora la zona de residencia pasaría a tomar el lugar del estrato. Ejercicio 10 Enlace con segmentos de recta el tipo de muestreo que aplicaría en los ejemplos de investigaciones relacionadas a continuación y complete las celdas en blanco de la primera columna con dos nuevos ejemplos: 53 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ejemplos Estado de tranquilidad social del lugar de residencia del alumno Horas dedicadas a ver televisión de los alumnos de los 3 grupos existentes de 5to. Grado en una escuela Años de experiencia docente de los profesores de una escuela Nivel de conocimientos de Historia de los alumnos en una escuela Tipos de muestreo aleatorio Simple Estratificado Por Conglomerados Fin del Ejercicio 10 Índice 2.2.5 Muestreos en procesos continuos (sistemáticos, repetitivos) Numerosos procesos en la naturaleza y en la sociedad transcurren de modo continuo por su propia esencia, como es el movimiento de los planetas del sistema solar (de carácter determinístico), siempre en cada instante en la misma posición esperada y con igual velocidad de rotación alrededor del sol. En la industria, los procesos de tecnologías más avanzadas, también suelen tener tal cualidad, como son los que tienen lugar en las plantas petroquímicas y en las modernas potabilizadoras de agua (de carácter aleatorio en las propiedades de los productos, aunque con poca dispersión respecto a los índices de calidad a cumplir), entre otras. Para el comportamiento de la asistencia a una escuela, considerando de lunes a viernes y en periodos de clases, diariamente se estaría en presencia de un proceso continuo de carácter aleatorio. El nivel de atención de los alumnos durante una clase, es también una variable continua y de carácter aleatorio. El muestreo sistemático solo se realiza en los procesos continuos de naturaleza aleatoria. 54 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ejemplo 24 A modo de ejemplo, considere el presentado antes (una escuela de nivel primario con N=700 estudiantes, distribuidos supuestamente a razón de 100 por cada nivel, desde preescolar hasta el 6to. grado). Ahora se propone hacer un estudio durante 20 semanas con dos variables a medir en cada alumno: puntualidad (en tiempo, y atrasado) y forma de uso del uniforme (incorrecto y correcto). Al respecto y fijando el momento de registro de la información, cuatro de las formas de acometer el estudio pueden ser: a) Todas las 20 semanas y a la llegada de cada uno de los estudiantes b) Seleccionar aleatoriamente 4 de las 20 semanas y a la llegada de cada uno de los estudiantes c) Seleccionar aleatoriamente 1 semana dentro de cada uno de los 4periodos consecutivos de 5 semanas (semanas 1 a la 5, 6 a la 10, 11 a la 15y 16 a la 20) y a la llegada de cada uno de los estudiantes d) Seleccionar aleatoriamente una semana dentro de las primeras 5 (suponga que sale la semana 3), y después repetir el registro cada una de las próximas 5 semanas (semanas 8, 13 y 18) y a la llegada de cada uno de los estudiantes El caso a) sería un estudio sin muestreo, se estaría realizando con toda la población o universo, exhaustivo, requeriría más tiempo del personal para realizarlo. Sus resultados serían los más exactos posibles. Los casos b), c) y d) toman en cuenta muestreo con aleatoriedad, manteniendo fijo lo del registro de la información solo en 4 semanas de las 20. Con mayor peso, los casos c) y d) toman en consideración lo de continuo del proceso, por lo que los resultados a alcanzar deberán ser los más confiables. Fin del Ejemplo 24 Algo más de información sobre este tipo de muestreo puede encontrarlo en Selección sistemática de elementos muestrales (Hernández Sampieri, Fernández Collado y Baptista Lucio, 2014). Índice 2.2.6 Parámetros (Estadísticos o estadígrafos) poblacionales y muestrales Muy importante son los conceptos de parámetros (estadísticos o estadígrafos) poblacionales y muestrales. Los estadísticos o estadígrafos, son valores calculados a partir de un conjunto de datos primarios, de la (o las) variable de interés que indican determinadas cualidades relevantes que caracterizan a ese 55 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 conjunto de datos recopilados. Pueden agruparse en tres tipos según lo que representan: De tendencia central (moda, mediana, y media aritmética o promedio) De dispersión (varianza, desviación estándar, coeficiente de variación y rango) De posición relativa (centiles, deciles y cuartiles) Más adelante se definen otros estadísticos para finalidades a explicar en su momento. Estadígrafo o estadístico, como lo llaman indistintamente algunos autores, son números que se obtienen de fórmulas o funciones, que se calculan a partir de los valores (datos primarios) de una muestra aleatoria. Los estadígrafos son variables aleatorias, ya que al depender de los valores de una muestra aleatoria, el carácter de ésta se trasmite al valor del estadígrafo. Por lo tanto también los valores del estadígrafo, obtenidos para distintas muestras, siguen un modelo teórico de probabilidad. Al conjunto de valores que toma el valor del estadígrafo, correspondientes a diferentes muestras se le denomina la distribución muestral de los valores del estadígrafo. De tal modo, la distribución de las medias muestrales puede representarse por: 𝑋 = {𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 }. Una propiedad de suma importancia, cuya demostración puede encontrarse en la literatura especializada, es que la distribución de las medias muestrales sigue el comportamiento de la Distribución Normal, independientemente de la distribución teórica que pueda representar al comportamiento de los valores de la variable original de que se trate. Índice Existen dos estadísticos especialmente útiles para procesar valores de variables cualitativas: Razón y Proporción RAZÓN (R): Sean los datos A y B que cumplen que A no está contenido en B (no tienen elementos comunes). La razón es la relación A/B. Puede tomar valores mayores de 1. PROPORCIÓN (P).- Sean los datos A y A+B, para los cuales se establece la relación: A/(A+B). Observe que A está presente también en el denominador. Se cumple que 0 ≤ 𝑃 ≤ 1. 56 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Tabla 4. Algunos parámetros indicadores de Tendencia central y de Dispersión Parámetro (Estadístico) Media (promedio aritmético), medida de tendencia central Población (tamaño N) Muestra (tamaño n) ∑𝑁 𝑖=1 𝑥𝑖 𝜇= 𝑁 ∑𝑛𝑖=1 𝑥𝑖 𝑥̅ = 𝑛 Ordenado previamente en orden ascendente (o descendente) los valores, se toma el que ocupa la posición Mediana intermedia si el total es impar, o la semisuma de los que ocupan las posiciones alrededor de la intermedia si el total de valores es de orden par Valor que más se repite Moda (pueden existir más de una Moda) 2 ∑𝑁 Varianza (medida 𝑖=1(𝑥𝑖 − 𝜇) 2 𝜎 = de dispersión) 𝑁 Desviación 𝜎 = √𝜎 2 estándar o típica 𝜎 Coeficiente de 𝐶𝑉 = ∗ 100 𝜇 variación, CV (%) 𝑅𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 = 𝑉𝑎𝑙𝑜𝑟 𝑚𝑎𝑦𝑜𝑟 Rango − 𝑉𝑎𝑙𝑜𝑟 𝑚𝑒𝑛𝑜𝑟 Idem al procedimiento de la población Idem a la población, en los valores de la muestra 𝑠2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛−1 𝑠 = √𝑠 2 𝑠 𝐶𝑉(%) = ∗ 100 𝑥̅ Idem a la población, con los valores de la muestra Nota: Todos los parámetros muestrales (𝑥̅ , Mediana, Moda, 𝑠 2 y 𝑠), son estimadores puntuales de los respectivos parámetros poblacionales 𝜇, Mediana, Moda, 𝜎 2 y 𝜎. Ejemplo 25 Suponga que la información del lugar de procedencia de los 17 estudiantes del Grupo 16 de la FICI, atendiendo a provincias occidentales (OC), centrales (CE) y orientales (OR) es: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 OR OR OC CE OC OC CE OR OC OC OR CE OC OR OC OC OC Calcular Razón y Proporción de estudiantes de las provincias OC 57 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Solución: Por inspección se identifican 9 de las OC, 3 de las CE y 5 de las OR. 𝑅𝑂𝐶 = 9 = 1.125~ 1.1 8 𝑦 𝑃𝑂𝐶 = 9 = 0.529~ 0.5 17 Fin del Ejemplo 25 Se seguirá el convenio, cuando resulte necesario identificar la Razón y Proporción muestrales, de escribirlas como 𝑅̂ y 𝑃̂, y las poblacionales solo con R y P respectivamente. Se cumple que 𝑅̂ y 𝑃̂ son estimadores de los respectivos parámetros poblacionales R y P. Ejemplo 26 En el recién realizado examen final de Matemática I, los 17 estudiantes del grupo 16 de la Facultad Introductoria de Ciencias Informáticas de la Universidad de las Ciencias Informáticas, obtuvieron las calificaciones (en escala de 2 a 5) siguientes: 4; 3; 4; 2; 5; 3; 3; 2; 2; 3; 3; 5; 2; 2, 3; 3 y 4 Calcule media aritmética (promedio), mediana, moda, varianza, desviación estándar (o típica), coeficiente de variación (en porcentaje) y Rango. Solución: Media aritmética 𝑥̅ = 4 + 3 + 4 + 2 + 5 + 3 + 3 + 2 + 2 + 3 + 3 + 5 + 2 + 2 + 3 + 3 + 4 53 = ~ 3.1− 17 17 Mediana Requiere el ordenamiento previo de los valores en cuestión: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 5 5 El total de valores es impar, la posición intermedia corresponde al número de orden 9 y la mediana es 3. Significa que la mitad de las calificaciones 58 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 resultan o están por debajo de 3. Asimismo, que la mitad de los valores son o están por encima de 3. El valor de calificación 3 es una medida de tendencia central del conjunto de datos primarios utilizados. Moda La Moda es 3; valor que se repite 7 veces. Más de lo que se repite el 2 (5 veces), el 4 (3 veces) o el 5 (dos veces) Varianza Para el cálculo de 𝑠 2 es recomendable tomar el mayor número de cifras decimales significativas del cálculo precedente, por lo que ahora se retomará 𝑥̅ = 3,11764706 𝑠2 = (4 − 3,11764706)2 + (3 − 3,11764706)2 + … + (4 − 3,11764706)2 = 0,985294118 17 − 1 Desviación estándar 𝑠 = √𝑠 2 = √0,985294118 = 0,992619825~ 0,99 Ciertamente, este valor no es sencillo de asociar con el nivel de dispersión que poseen los datos primarios. Hay que tener muy presente el rango en los que estos están comprendidos, para apreciar así cuánto es 0,99 respecto al mismo. Coeficiente de variación (%) 0,992619825 𝐶𝑉(%) = 3,117647059 ∗ 100 = 31,8387491% ~ 32% ¡El mejor parámetro de los de Dispersión! Es muy informativo lo que significa 32%, sin tener que estar entrando en detalles sobre los valores de los datos primarios en cuestión. Rango 𝑅𝑎𝑛𝑔𝑜 = 5 − 2 = 3 Fin del Ejemplo 26 59 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Con el SPSS 20 para los datos anteriores, se obtuvo: Estadísticos descriptivos N Rango Calificación 17 3 N válido (según lista) 17 Mínimo Máximo 2 5 Media Desv. típ. 3.12 .993 Índice 60 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 ATENCIÓN, ESTÉ ALERTA DE NO COMUNICAR RESULTADOS CON CIFRAS DECIMALES INNECESARIAS. EVITE LAS MALAS PRÁCTICAS QUE TANTO ABUNDAN. ¡QUE EL RIDÍCULO LO HAGAN OTROS! Los software convenientemente trabajan con el mayor número de cifras decimales que pueden, atendiendo a las características de las computadoras o calculadoras para los que fueron desarrollados, con la finalidad de que al ejecutar internamente los cálculos, los errores no se propaguen indebidamente en los pasos intermedios y puedan llegar a resultados absurdos. Ahora bien, el que tiene que pensar y decidir, respecto al número de cifras decimales con las que se queda finalmente, es el que muestra los resultados, sobre todo de modo público. Para el ejemplo anterior, los datos primarios no tienen cifras decimales y son solo del orden de las unidades; no se refiere a cálculos con grandes cantidades de dinero. E s suficiente entonces dar los resultados de la media con una sola cifra decimal y el de la desviación estándar con dos (no se daría el resultado de la varianza porque su información de la dispersión del conjunto de datos primarios es de peor calidad que la que proporciona el resultado de la desviación estándar). La desviación estándar posee las mismas unidades en que están dados los datos primarios, es la que puede llegar a comprenderse mejor su magnitud en cualquier caso específico. Sin embargo, el estimador de dispersión de mayor calidad es el coeficiente de variación, que calculado en porcentaje para este ejemplo (con un resultado del orden de las tres decenas), debe mostrarse con no más de una cifra decimal a lo sumo; finalmente, si se reporta el coeficiente de variación, es redundante informar el valor de la desviación estándar. Índice 61 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 2.2.7 Distribución muestral de la media aritmética, cuando la variable original es normal. Cuando se estudió la Distribución Normal se mostró que esta queda plenamente definida por dos parámetros: la media y la desviación estándar . Ahora tenemos dos variables aleatorias: 𝑋 𝑦 𝑋̅. Se describen a continuación algunas particularidades de la distribución de 𝑋̅ cuando 𝑋 tiene Distribución Normal. Considerense todas las muestras posibles de tamaño n que puede extraerse aleatoriamente, con o sin reemplazamiento de una población dada. Para cada muestra pueden calcularse estadígrafos tales como la media, la varianza y la desviación estándar; se apreciará que para cada muestra estos estadígrafos varian, lo que ermite obtener una distribución del estadígrafo al que se le denominará Distribución muestral. Ejemplo 27 Sea la población formada por los valores 1 ; 2 ; 3. La media poblacional es 𝜇 = 2 De inmediato se obtienen todas las muestras de tamaño 2 que se puede extraer de la población dada y su media muestral ( Muestras posibles 32 = 9 ). (1;1) x 1 (1;2) x 1,5 (1;3) x2 (2;1) x 1,5 (2;2) x2 (2;3) (3;1) ( 3; 2 ) (3;3) x 2,5 x2 x 2,5 x3 Como se observa, para cada muestra se obtuvo su media muestral, pero si caalcula la media de todas las medias muestrales, ocurrirá que esta coincide con la media poblacional: 62 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 1 1,5 2 1,5 2 2,5 2 2,5 3 2 9 De la misma forma se puede verificar que la desviación estándar de todas las desviaciones estándar muestrales dividida por la raíz del tamaño de muestra es la desviación estándar de la población. ¡ Verifíquelo ! Fin del Ejemplo 27 Luego, para evitar confusiones, se le llamará 𝜇𝑋 y 𝜎𝑋 a los valores de la media y la desviación estándar respectivamente de la distribución de la variable 𝑋, mientras denotaremos por 𝜇𝑋̅ y 𝜎𝑋̅ a los valores parámetros de la distribución de 𝑋̅. Cuando la distribución de la variable 𝑋 es normal con media 𝜇𝑋 y desviación estándar 𝜎𝑋̅ , entonces la distribución o modelo teórico de la media muestral 𝑋̅ con una media igual a 𝜇𝑋 , (𝜇𝑋 =𝜇𝑋̅ ), y una desviación estándar x x n donde n es el tamaño de la muestra. El valor x x , que representa la desviación estándar del modelo de 𝑋̅, en otras n palabras, la desviación teórica que tienen los valores de 𝑋̅ con respecto a la media x , se conoce también con el nombre de error estándar de 𝑋̅, se le denota por EE 𝑋̅ y se estima puntualmente por medio de la expresión 𝐸𝐸𝑋̅ = 𝑠 √𝑛 . Es importante señalar que aunque la variable 𝑋 no siga el comportamiento de la Distribución Normal, si se tiene una cntidad numerosa de observaciones independientes, entonces el modelo de 𝑋̅ puede ser aproximado por el modelo de la Distribución Normal. Como se puede apreciar, al estimar el valor de un parámetro a partir de su estimador puntual , casi siempre existe una diferencia entre los valores real y estimado que se define como error de muestreo y se calcula por - . Índice 63 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 2.3 Estimación puntual y por intervalos Hay dos tipos de estimación, la estimación puntual, en la que la estimación es un valor numérico calculado a partir de algún estadístico (media, varianza, …); y la estimación por intervalos, en la que se selecciona un valor de probabilidad determinado, el cual es directamente proporcional a la amplitud del intervalo de estimación del parámetro en cuestión. En la estimación lo que se persigue es obtener un valor aproximado (estimado) de un valor poblacional que se desconoce, a partir de datos muestrales y fijar el grado de incertidumbre que corresponde a obtener esa estimación por intervalo, en términos de probabilidad. (El estimador es una función y la estimación, un valor). Las fórmulas de trabajo de los estimadores puntuales son las ya presentadas (Tabla 4, Algunos parámetros indicadores de Tendencia central y de Dispersión): 𝑥̅ → 𝜇; 𝑠 2 → 𝜎 2 ; 𝑠 → 𝜎; … ; 𝑅̂ → 𝑅 𝑦 𝑃̂ → 𝑃 Propiedades de los estimadores: Existen propiedades que todo estimador debe cumplir, las cuales son: Insesgado: Cuando el valor que se espera del estimador, coincide con el valor del parámetro. Eficiente: Dado dos estimadores insesgados de un mismo parámetro, se considera el más eficiente al que tiene menor varianza. Consistente: Si a medida que aumenta el tamaño de la muestra, sucede quela probabilidad de que la estimación sea el verdadero valor del parámetro tiende a uno. Suficiente: Cuando emplea toda la información que existe en la muestra. En la estimación puntual no se mide el grado de incertidumbre que se tiene al hacer la inferencia al resto de la población, y se sabe que los estimados varían de muestra a muestra, por lo que es importante que siempre vaya acompañado de una medida de la precisión de la estimación. Para esto es necesario emplear otro método de estimación conocido como estimación por intervalos de confianza. Índice 2.3.1 Estimación por intervalo de confianza de la media poblacional (µ) con conocida y desconocida. En este tipo de estimación se busca un intervalo en el que se pueda afirmar que la media poblacional (o cualquier parámetro) se encuentra en el intervalo con una confianza determinada expresada en términos de probabilidad. Por ejemplo, para 64 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 nivel de significación nivel de confianza, p= 1- (95%) es de esperar que de cada 100 estimaciones de intervalos que se determinen a partir de 100 medias muestrales, el valor de la media poblacional, se encuentre en 95 de los intervalos calculados. 1. conocida o no, pero n>30, entonces el intervalo de confianza se halla por la siguiente expresión: x Z 1 2. 2 n xZ 1 2 n (Utilizando la Distribución Normal) desconocida con n<30; en este caso es necesario estimar y el intervalo se calcula por la siguiente expresión: x t ; n 1 1 2 s x t 1 n ; n 1 2 s (Utilizando la Distribución t de Student) n Ejemplo 28 Se desea conocer la estimación por intervalo de confianza para la media poblacional de calificación final (en escala de 0 a 10) en una asignatura con una confiabilidad de 0,95. Se seleccionó una muestra aleatoria de 60 estudiantes para los que resultó una media de 7.4 y la desviación estándar de 0.8. Solución: Como se desconoce la varianza poblacional pero n > 30, se utiliza la fórmula de estimación por intervalo con la Distribución Normal, variable Z. 1 0,95 0,05 1 2 0,975 Z 1 =1.96*0.8/RAIZ(60)= 0.2 Z 0,975 1,96 2 =DISTR.NORM.ESTAND.INV(0.975)= 1.96 x Z 1 2 s s xZ 1 n n 2 65 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 7,41,96 0,8 0,8 7,41,96 60 60 7,4 – 0,2 7,4 + 0,2 7,27,6 La media poblacional desconocida, de las calificaciones de la que se tomó la muestra, se encuentra entre 7,2 y 7,6, calculado con 𝛼 = 0,05 (nivel de significación 5%, equivalente a nivel de confianza 95%) Fin del Ejemplo 28 Índice 2.3.2 Estimación por intervalo de confianza de una proporción poblacional (P) 𝐴 Es conocido que se le llama proporción al cociente de 𝐴+𝐵 y en este caso también se puede determinar un intervalo de confianza para la proporción poblacional, a partir de las fórmulas: p ˆ Z 1 2 p ˆ t 1 ; n1 2 p ˆ .q ˆ P p ˆ Z 1 n 2 p ˆ .q ˆ n p ˆ .q ˆ P p ˆ t 1 ; n1 n 2 p ˆ .q ˆ n Para 𝑛 ≥ 30 Cualquier 𝑛 Este tipo de estimación es especialmente útil para el procesamiento de variables cualitativas, ya que tanto A como B pueden obtenerse por conteo. La proporción tiene que cumplir: 0 ≤ 𝑃 ≤ 1. Multiplicar su resultado por 100 para llevarla a porcentaje resulta frecuente. Cuando no conozca p̂ y q̂ puede asumir el valor 0.5 para ambas y estaría obteniendo el intervalo de mayor amplitud posible. Ejemplo 29 En una escuela se desea estimar con una confianza del 95% el porcentaje de estudiantes que participan en los Juegos Deportivos anuales. Para ello se escoge al azar una muestra de 120 estudiantes de los que se llega a conocer que 31 66 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 participan. Estime la proporción poblacional de estudiantes que participan en esos juegos. Solución: 31 pˆ 0,26 120 qˆ 1 pˆ 10,26 0,74 1 0,95 0,05 =1.96*RAIZ(0.74*0.26/120) =0.08 1 0,975 Z Z 0 , 975 1,96 1 2 2 p Z 1 2 p . q P p Z 1 n 2 p . q n 0,26 – 0.08 < P < 0,26 + 0.08 0.18 < P < 0.34 La participación de estudiantes en los juegos, en términos de estimado por intervalo de la proporción poblacional, llevada a porcentaje, está entre el 18 y el 34%. Fin del Ejemplo 29 Nota: Existen fórmulas similares de estimación por intervalos para los demás parámetros poblacionales, como la varianza. No se presentan por quedar fuera del alcance elegido para el presente documento. Índice 2.3.3 Precisión y tamaño de muestra Las expresiones Z 1 2 ; n t 1 ; n 1 2 s n y Z 1 2 p . q n reciben el nombre de error máximo permisible (emp); también se conocen como precisión y se denotan por "d". (Más adelante serán útiles también para el cálculo del tamaño de una muestra). De tal modo, se tiene que 67 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 𝑑=Z 1 2 s = t = Z n 1 ; n 1 n 1 2 2 p . q n En general las fórmulas de intervalos de confianza para la media poblacional 𝜇 y la proporción poblacional 𝑃, mostradas antes, se pueden expresar como: 𝜇 ∈ {x̅ ± d} 𝑦 𝑃 ∈ {p̂ ± d} Debe tenerse en cuenta que la amplitud de los intervalos de estimación, son directamente proporcionales a 𝑍1−∝ y 2 t 1 ; n1 2 en los casos de la estimación de la media y proporción poblacionales (𝜇 y 𝑃) respectivamente, e inversamente proporcional a √𝑛 . Los cálculos del Ejemplo 29 se hicieron con 𝛼 = 0.05; en consecuencia, para un menor valor de 𝛼 (mayor nivel de confianza, 𝑝 = 1−∝) aumentarán, los valores de 𝑍1−∝ y 2 t 1 ; n1 2 haciendo que sea mayor la amplitud del intervalo, mayor valor de "d" o "emp", menos precisa la estimación. Por otra parte, teniendo en cuenta que hay una relación de proporcionalidad inversa en los tres casos con el tamaño de muestra (𝑑 = Z = Z 1 2 1 2 s = t n 1 ; n 1 n 2 p . q ), para un 𝛼 fijo, el recurso para disminuir el emp, o sea, de n aumentar la precisión de la estimación, está en trabajar con una muestra mayor, de ser posible. Se puede observar que todos los intervalos están en función del tamaño de la muestra 𝑛. Y, que a medida que aumente el tamaño de la muestra 𝑛, la amplitud del intervalo disminuye, es decir, la estimación se hace más precisa. Conocer que Cuba se encuentra en el Golfo de México (una ubicación relativamente reducida, es más preciso que solo tener una noción de que se encuentra en el hemisferio occidental (región bastante más extensa). Algo que inquieta mucho a los investigadores es cómo determinar el tamaño de muestra, de modo que no sea tan pequeña que los resultados carezcan de validez (el intervalo de estimación de los parámetros poblacionales podría ser tan amplio que no brinde información interesante), pero tampoco tan grande que obtener la 68 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 información y procesarla represente gastos innecesarios de tiempo y recursos humanos y financieros. El tamaño de muestra depende de tres factores fundamentales: a. Variabilidad, dispersión, de los valores de las variables de interés en el universo o población. Mientras más dispersos sean estos valores, más diferentes unos de los otros, mayor ha de ser el tamaño de la muestra. b. Precisión que se necesita en los resultados, es decir, magnitud del error que se puede tolerar. Ejemplo 30 Si se está investigando la cantidad de horas de estudio semanales de estudiantes universitarios, pudiera esperarse un intervalo de 15 a 30 horas, con amplitud de 15 horas; aquí un error máximo permisible de 5 horas (33% de 15, equivale a 𝑑 = 0.33) pudiera ser aceptado. Fin del Ejemplo 30 Ejemplo 31 En otro contexto de un estudio similar al del Ejemplo 30, pero en niños de 1er. Grado, el intervalo esperado de horas de estudio a la semana pudiera ser de 5 a 10 horas, de amplitud 5 horas; 1 hora como error máximo permisible ya es alto, representa un 20%, o sea, 𝑑 = 0.20. Fin del Ejemplo 31 c. Margen de certeza, confianza (por ejemplo, 95% → 𝑝 = 0.95; ∝= 0.05 o 99% → 𝑝 = 0.99; ∝= 0.01) con los que se desean obtener las estimaciones de los parámetros poblacionales Media, Desviación estándar, Proporción, … , (𝜇, 𝜎, 𝑃, ) … , al generalizar los resultados; mientras mayor sea la certeza deseada, mayor deberá ser el tamaño de la muestra. Para fijar el tamaño de muestra se debe en primer lugar, decidir sobre la precisión (d) que se desea y sobre el nivel de certeza o de confianza a elegir (𝑝 = 1−∝). A partir de la precisión 𝑑 y el nivel de significación ∝, se está en condiciones de calcular el tamaño de la muestra despejando 𝑛 de la ecuación de trabajo: 2 2 𝑍1− 𝛼 ∗𝜎 𝑑= Z 2 → 𝑛= 1 n 2 𝑑2 69 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 f Luego si se desea hallar el tamaño de la muestra se tiene que su primera F aproximación 𝑛0 = 𝑛 es: l 2 i Z . 1 2 p n0 para datos cuantitativos, d H 0 f F lSi los datos son de variable cualitativa, la primera aproximación se calcula a través ide la expresión: p V Z c2 p 1 p Z c2 1 p n n0 o , 0 0 d2 CV 2. p p i Nota: Si no conoce los valores de éxito y fracaso (𝑝 𝑦 1 − 𝑝 = 𝑞) para el cálculo c de la expresión anterior, asuma 0.5 para ambos. Se demuestra que con t esos valores estaría calculando la muestra de mayor tamaño, la que le u asegurará de hecho los resultados más seguros. r e Y el dominado tamaño de muestra óptimo se obtiene en cálculos sucesivos G (retomando en cada caso 𝑛0 = 𝑛 ) de: r a n0 , donde N es el tamaño de la población. n y n0 1 0 N p i¿Cántos cálculos sucesivos? Siga las magnitudes que le corresponderían al error c máximo permisible 𝑑= Z en la nueva circunstancia. t 1 n 2 u r ¡No pocos software estadísticos hacen los cálculos de tamaño de muestra por las e fórmulas anteriores! B i¿Y que sucede si no conoce el parámetro poblacional 𝜎? Utilice formulas similares L que emplean la desviación estándar 𝑠, obtenible de los propios datos recopilados e para la muestra de la variable bajo estudio. v e l 0 f 70 F i l Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Ejercicio 11 Suponga que Usted se propone hacer un estudio acerca de horas de estudio a la semana (HES) entre 100 estudiantes del mismo grado de una escuela de nivel medio superior. Asuma (o genere aleatoriamente) 20 valores de HES entre 1 y 15 (o algún otro intervalo que Usted considere razonable) y obtenga de los mismos los valores de la varianza y el error típico (Con el SPSS entre por Analizar, seleccione Estadísticos descriptivos …. Con el EXCEL calcule los valores de tamaño inicial y óptimo de muestra para valores de niveles de significación de 0,1; 0,05 y 0,01. Obtenga el valor de t a partir de la función DISTR.T.INV. Haga un gráfico de tamaño óptimo versus valores de nivel de significación. Interprete cómo cambian dichos valores según aumenta el nivel de significación. Fin del Ejercicio 11 Índice 3. Elementos de Estadística Inferencial (Paramétrica y no Paramétrica) En la Investigación Educativa se hace un uso intenso de la Estadística con carácter profesional, lo que se refleja en las numerosas publicaciones científicas especializadas, entre otras fuentes de divulgación del conocimiento, dirigidas a hacer cada vez más efectivo los procesos de formación, en particular los de enseñanza aprendizaje de niños, jóvenes y adultos, y cuando este no es el caso, al menos a contrarrestar factores adversos que se fortalecen con la modernidad, no pocos de los cuales se logran llegar a revertir a favor de los propósitos de la escuela y la sociedad. No se debe subestimar la investigación educativa que se realiza de modo espontáneo y no formal en el día a día, en primer lugar en la necesaria interrelación del maestro consigo mismo, así como con sus alumnos e interrelación con los demás docentes y personal de la escuela en general. De hecho, lo hacen no solo los docentes sino también los alumnos y sus familiares más cercanos, los cuales en cualquier momento están en capacidad de dar a conocer su diagnóstico acertado, que ya han venido conformando en sus mentes, de sus maestros y del proceso de enseñanza y aprendizaje en el que están inmersos en su sociedad. Con los recursos de la Estadística Descriptiva, expuesta en las páginas anteriores de este documento, se está en capacidad de planificar la investigación precisando cuáles deben ser las variables a tomar en consideración en el estudio, que 71 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 permitan alcanzar los objetivos propuestos, y en fases tempranas de la misma, ir analizando y regulando la efectividad del procedimiento de recogida de información, la calidad de esta última y las características del objeto de investigación que se deben ir revelando a partir de los estadísticos muestrales que se calculan de tendencia central, dispersión y posición relativa. Y en paralelo, el buen uso de tablas y gráficos va sentando los elementos para un buen informe de investigación y ulterior publicación de sus resultados. El campo de la Estadística Inferencial, que se desarrolla sucintamente a continuación, amplía con creces los recursos al alcance del investigador en su afán de transformar para mejorar los procesos en los que participa. El tratamiento de la incertidumbre en los datos, es el principal elemento que incorporan los métodos propios de la Estadística Inferencial en sus dos grandes componentes, la Paramétrica apoyada en el comportamiento de los valores de las variables de estudio, cumpliendo con las cualidades del modelo teórico de la Distribución Normal, y la no Paramétrica, cuando tal condición no está presente. Índice 3.1 Estadística Inferencial Paramétrica Resultan de trascendente utilidad, las inferencias estadísticas que puedan hacerse sobre los parámetros de la población de valores de determinada variable, que sea portadora de algún aspecto relevante de la investigación educativa que se esté llevando a cabo. Es en esta dirección en la que las hipótesis estadísticas tienen su papel relevante. Las Hipótesis Estadísticas se emplean para hacer inferencias sobre: 1. Tipo de distribución teórica o empírica que se corresponde con el comportamiento de una variable. Ejemplo: La calificación en el examen final de una asignatura posee el comportamiento de la Distribución Normal, N(μ, σ) 2. Valores de parámetros poblacionales (media μ y desviación estándar σ en el caso de la Distribución Normal). Ejemplo: El porcentaje promedio de aprobados en el examen final de una asignatura en el presente año, es significativamente mayor al que se venía obteniendo años atrás Las suposiciones que constituyen las hipótesis, podrán ser verdaderas o falsas, y los procedimientos que se estudiarán permitirán delimitar dicho resultado, con un nivel de significación α (valor de probabilidad α) asociado a la decisión, prefijado de antemano. Esto se hace planteando dos hipótesis: Hipótesis nula (H0) e Hipótesis alternativa (H1). Es común tomar como Hipótesis nula (H0) la 72 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 afirmación o igualdad. Las Pruebas de Hipótesis permitirán contrastar la veracidad de afirmaciones tales como: a) El Sistema de ejercicios complementarios introducidos en la enseñanza de la Matemática en el último curso, tiene una aceptación favorable del orden de 80% de los estudiantes: i. H0: Nivel de aceptación, sist. de ejerc, compl.= 80 ii. H1: Nivel de aceptación, sist. de ejerc, compl.≠ 80 b) Los resultados docentes logrados con la nueva Estrategia de enseñanza y aprendizaje (RDNE), resultaron superiores a los que se venían obteniendo (RDA) con anterioridad: i. H0: RDNE= RDA ii. H1: RDNE> RDA c) El aprovechamiento docente de los estudiantes (ADE) del maestro Ruaniolder es peor que los de la profesora Saudemnia: H0: ADEEst. de Ruanilder = ADEEst. de Saudemia H1: ADEEst. de Ruanilder < ADEEst. de Saudemia Volviendo a lo de las hipótesis, según el número de colas, existen dos tipos de pruebas: de dos colas (bilaterales) o de una sola cola (unilaterales, ya sea a la derecha o a la izquierda). Corresponden dos colas al análisis de igualdad vs desigualdad; mientras que las de una sola cola abarcan dos casos, igualdad vs mayor que (unilateral a la derecha) e de igualdad vs menor que, (unilateral a la izquierda). Ejercicio 12 Complete con cruces las celdas que caractericen los tipos de hipótesis de los tres casos anteriores: Casos Dos colas (H1 de desigualdad) Unilateral a la derecha (H1de mayor que) Unilateral a la izquierda (H1 de menor que) a) b) c) Fin del Ejercicio 12 73 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Para el ejemplo de Porcentaje promedio de aprobados en el examen final de una asignatura en el presente año, considerando que el que se venía obteniendo en años a tras era de 75 %, sería: H0: μAprobados= 75% (De forma general: H0: μ= μ0) El término "nula" significa que no existe diferencia estadística significativa (más allá de la que correspondería a los errores aleatorios existentes) entre los resultados obtenidos en las nuevas circunstancias o experimento y la hipótesis planteada; y en consecuencia, las diferencias encontradas pueden ser explicadas por las fluctuaciones del azar. El ejemplo anterior toma en cuenta la inferencia a partir de datos de una media muestral sobre la correspondiente media poblacional. Más adelante se plantearán hipótesis nula con otros parámetros como son la varianza y la proporción. La Hipótesis alternativa puede en general ser cualquiera que difiera de la nula, coincide por lo general con la hipótesis de la investigación. Para el ejemplo anterior, pudieran ser: H1: μAprobados>75%; H1: μAprobados< 75% o H1: μAprobados75%). La notación convencional de la hipótesis alternativa, se representa como: H1: μ μ0 ó H1: μ < μ0 ó H1: μ > μ0 El valor μ0 se corresponde con el del parámetro poblacional esperado, histórico, acostumbrado, establecido, etc., como se le suele denominar comúnmente. En los ejemplos anteriores se utilizó el parámetro poblacional μ, lo cual resultará equivalente en su formulación para cualquier otro parámetro poblacional con el que se necesite trabajar. Observen que se está haciendo inferencia a toda la población a partir de datos muestrales, por lo que existe una probabilidad de cometer errores que se clasifican en Tipos I y II, lo que se describe más adelante. De lo anterior Usted debe estarse percatando de la diferencia entre la aritmética y la estadística en este asunto de pruebas de hipótesis. Tal sería el caso para: H0: μAprobados= 75%, 74 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Suponga que en un estudio se calculan, a partir de diferentes muestras, medias muestrales porcentuales con valores de 74,6; 76,2; 73,1 y 75,8. No quedan dudas de las diferencias aritméticas de cada una con respecto al valor 75 de H0. Sin embargo, desde el punto de vista estadístico pudieran o no, llevar al no rechazo de la H0, según sean en cada caso el tamaño de la muestra y las varianzas muestrales respectivas (recuérdese del error máximo permisible, d t 1 ; n1 2 s ). n Con la información posterior este asunto quedará más esclarecido. Índice 3.1.1 Errores de Tipos I y II. Nivel de significación Se le denomina error de Tipo I, al hecho de rechazar la Hipótesis nula (H0) cuando en realidad ésta es verdadera (existe una probabilidad α de que esto suceda). Asimismo y muy relacionado con el anterior, se le llama error de Tipo II al caso de no rechazar la Hipótesis nula (H0), cuando en realidad ésta es falsa (probabilidad ). Ambas serían decisiones erróneas y de las cuáles no existirían evidencias de haber incurrido en las mismas. Aumentando el tamaño de la muestra se puede reducir el riesgo de rechazar una hipótesis que sea verdadera (o lo que guarda muy estrecha relación: el riesgo de aceptar una hipótesis que sea falsa). Se sugiere a los interesados que profundicen estos aspectos en la literatura especializada. Las variantes existentes de probabilidad de tomar una decisión determinada, frente a una realidad bajo estudio, y el posible error latente asociado a dicha decisión, se recogen en la Tabla 5, la mitad de las veces puede existir error, ya sea de tipo I o II. La probabilidad de cometer error de tipo I es muy utilizada en la práctica y se denomina nivel de significación. El nivel de significación (α), cuantifica el riesgo de rechazar una hipótesis que sea verdadera, y puede llegar a suceder si al procesar los valores de la muestra ocurre, por puras fluctuaciones del azar, que las discrepancias observadas resultasen significativas. 75 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Tabla 5. Posibles errores de Tipo I o II asociados la decisión sobre la hipótesis nula Realidad Decisión Ho verdadera Ho falsa No rechazar Ho (Aceptar) No hay error (Probabilidad 1-) Error de tipo II (Probabilidad ) No aceptar Ho (Rechazar) Error de tipo I (Probabilidad ) No hay error (Probabilidad 1-) Ejemplo 32 Suponga que es verdadero que para cierta población de 200 estudiantes que examinaron una asignatura, no se rechaza que H0: μAprobados= 75%. Pero ocurre que en una muestra de 10 estudiantes, se encuentra que todos están aprobados (100% de aprobados). Tuvo lugar un suceso poco frecuente en el que los resultados observados difieren, por azar, marcadamente de los esperados. Fin del Ejemplo 32 Los valores de α usuales son 0,05 y 0,01. Al complemento para llegar a 1 (área total bajo la curva de la Distribución Normal) se le denomina nivel de confianza o confiabilidad (1-). Expresados en porcentajes, los valores de p que corresponden a los α anteriores, son 95 y 99% respectivamente. Los valores de α se estarían fijando menores, según sea mayor el nivel de confianza que se tenga sobre el cumplimiento de la hipótesis en cuestión, o viceversa, de acuerdo a la experiencia del investigador. Similar al razonamiento que se había hecho en intervalos de confianza, asumir un nivel de significación de 0,05 (nivel de confianza de 0,95), es asumir que si se repite el experimento 100 veces, en 5 de ellas (5% de las veces) se podría estar tomando una decisión equivocada; es decir, el 95% de las veces se estaría llegando a elegir la decisión correcta. A la probabilidad de error de tipo II se le denomina . Se demuestra que y están relacionadas se acuerdo a: decrece crece. Una variante en la 76 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 práctica es fijar y buscar el menor , paso este que no es frecuente detenerse a hacerlo. Índice 3.1.2 Pruebas de bondad de ajuste En cualquier Prueba de Hipótesis habrá que definir previamente a qué Distribución Teórica de Probabilidades se ajustan los valores de la variable aleatoria que se corresponde el comportamiento de los valores de la variable que se esté estudiando. Si dicha información no está disponible, se debe proceder a indagarlo mediante alguna variante de prueba de hipótesis no paramétrica, denominadas pruebas de bondad de ajuste, como las que se basan el estadígrafo, Chi Cuadrado definido por: 𝝌𝟐𝒅𝒂𝒕𝒐𝒔 = ∑𝒏𝒊=𝟏 (𝒗𝒂𝒍𝒐𝒓 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒐𝒊 −𝒗𝒂𝒍𝒐𝒓 𝒆𝒔𝒑𝒆𝒓𝒂𝒅𝒐𝒊 )𝟐 𝒗𝒂𝒍𝒐𝒓 𝒆𝒔𝒑𝒆𝒓𝒂𝒅𝒐𝒊 ; 𝒄𝒐𝒏 𝒈𝒓𝒂𝒅𝒐𝒔 𝒅𝒆 𝒍𝒊𝒃𝒆𝒓𝒕𝒂𝒅, 𝝂 = 𝒏 − 𝟏 Suponiendo que se trate de corroborar si determinada variable tiene el comportamiento de la Distribución Normal, y fijado el nivel de significación α con el que se desea realizar la prueba, para cada valor observado de la muestra se determina de la Distribución Normal, cuál sería el valor esperado correspondiente, se obtiene 𝝌𝟐𝒅𝒂𝒕𝒐𝒔 y se verifica si se cumple 𝝌𝟐𝒅𝒂𝒕𝒐𝒔 ∈ ∈ (𝝌𝟐𝒊𝒛𝒒𝒖𝒊𝒆𝒓𝒅𝒐 , 𝝌𝟐𝒅𝒆𝒓𝒆𝒄𝒉𝒐 ). Los valores de 𝝌𝟐𝒊𝒛𝒒𝒖𝒊𝒆𝒓𝒅𝒐 𝒚 𝝌𝟐𝒅𝒆𝒓𝒆𝒄𝒉𝒐 se obtienen de la distribución 𝝌𝟐 para el seleccionado. Índice 3.1.3 Pruebas de Hipótesis acerca de la media poblacional 𝝁, con conocida y desconocida Suposiciones básicas: La variable objeto de estudio es cuantitativa continua La población tiene Distribución Normal de probabilidad ó la muestra aleatoria es “grande” (diversos autores consideran n 30) Los xi que integran la muestra son aleatorios e independientes Los pasos en el cálculo manual para realizar esta prueba de hipótesis, son: 77 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 1. Elegir o calcular, según corresponda, los valores de α, μ0, n, y σ o s según la situación particular. Determinar el valor de Zc o tc que delimitan el intervalo de nivel de confianza 𝒑 = 𝟏 − 𝜶 según corresponda (utilizando la Distribución Normal para σ conocida, o la Distribución t de Student para σ desconocida 2. Plantear H0 y H1 ̅ , y Zdatos o 𝑿 ̅ , s y tdatos según sea conocida o desconocida 3. Calcular 𝑿 4. Decidir sobre rechazo o no de H0, (Ver Figura 8 para Z) La esencia de los pasos anteriores Usted debe interiorizarla, aún cuando se apoye en un software estadístico para los cálculos, en el sentido de poder interpretar debidamente los resultados que obtendría con el software. En la Tabla 6 se resumen los principales elementos de estas pruebas de hipótesis. Tabla 6. Hipótesis en pruebas sobre media poblacional Hipótesis Estadígrafo Región Crítica, no se rechaza H1 H0: = 0 H1: 0 Z datos x 0 Zdatos<Z½ o Zdatos> Z1-½ n conocida Distribución Normal H0: = 0 H1: 0 desconocida t datos x 0 s Distribución t de Student tdatos <t½ n-1 o tdatos> t1-½n-1 n 78 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Con conocida no se rechaza H0 cuando se cumple que Zdatos queda comprendida en el intervalo Z c , Z c Similar situación para desconocida, si tdatos pertenece al intervalo tc , tc , En todos los casos puede observarse que el estadígrafo cuantifica una discrepancia o diferencia aritmética (en este caso entre x y μ0) a partir de la información de los datos y el valor del parámetro poblacional sobre el que se está haciendo la prueba; tal diferencia aritmética está determinada además por los datos de σ ó s, y n , según la fórmula particular que se deba usar en esta prueba. Tal discrepancia aritmética se emplea en la prueba de hipótesis para concluir si su magnitud representa o no una diferencia significativa, lo que se determina al comparar el valor del estadígrafo de los datos con el correspondiente de la distribución teórica con la que se esté trabajando. Observe que si el valor absoluto de Zdatos es grande (con signo positivo o negativo), está causado porque que la diferencia entre X y μ0 es grande, por eso es que si Zdatos es mayor que Zc (cola de la derecha), o menor que –Zc (cola de la izquierda), no se acepta la hipótesis H0 : μ=μ0 Ejemplo 33 Con SPSS y entrando previamente el juego de datos del Anexo 1, Calificaciones de tres grupos, en escala de 0 a 20; por la entrada Analizar/Comparar medias/Prueba t para una media, de la Vista de Datos, seleccionando Grupo 1, se llega al cuadro de diálogo: 79 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 En la ventanita Valor de prueba se debe introducir el valor deseado para 𝜇0 . En este ejemplo se asumió el valor 16. Los resultados obtenidos están a continuación: Prueba para una muestra t Grupo 1 -.229 Valor de prueba = 16 Sig. Diferencia (bilateral) de medias gl 33 .820 95% Intervalo de confianza para la diferencia Inferior Superior -.059 -.58 .46 En la columna de Sig. (bilateral), aparece debajo el valor de probabilidad 0.820; este es el resultado clave para seguir el análisis y el modo de hacerlo es el siguiente: Sig. (bilateral)> 𝛼 No se rechaza Ho Sig. (bilateral) <𝛼 No se acepta Ho Valor de 𝛼 (0.05 u otro) Dado que .820 > 0.05, no se rechaza H0; se concluye que las calificaciones del Grupo 1 se corresponden con la media poblacional 𝜇 = 16 Fin del Ejemplo 33 Índice 80 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 3.1.4 Prueba de Hipótesis acerca de una Proporción Poblacional Se trata ahora de inferir, conociendo la proporción en que un determinado resultado se presenta en una muestra, cómo se está comportando con respecto al ̂ → 𝑷). Por ejemplo, Usted puede parámetro poblacional correspondiente (𝒑 interesarse en estudiar la proporción de estudiantes incorporados al trabajo científico en su centro, determina una muestra, recoge la información prevista, y desea inferir si la muestra en cuestión corresponde a una población con una proporción deseada P0 de estudiantes incorporados a esa actividad formativa. Se está en el caso de: H0: P=P0 H1: PP0 Se parte de la suposición que las proporciones p calculadas en muestras de tamaño n siguen la Distribución N(P, PQ / N ). El procedimiento es muy similar a la prueba anterior, con el estadígrafo, p P0 Recuerde que: p+q = P+Q = P0+Q0 = 1 P0 Q0 n k donde p , es decir la estimación de la proporción a partir de la muestra, o n lo que es lo mismo, el número de individuos que presentan la característica estudiada dividido el número total de casos en la muestra. Z datos La región crítica o de rechazo de H0 es: Zdatos > Z 1-/2 ó Zdatos < Z /2 Ejemplo 34 Se dispone de una muestra de 36 estudiantes, de un año de una Escuela; de la muestra se obtiene que la proporción de estudiantes incorporados al trabajo científico es de 0,25. Confirme con un nivel de significación de 0,05 sí puede afirmarse que la proporción de estudiantes en esa actividad en ese año puede considerarse de 0,30. 81 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Solución: Siguiendo de modo equivalente los pasos generales indicados para la prueba anterior: 1. Identificar los valores de α, P0, n, p y q, y Zdatos. α = 0,05, P0=0,30, p= 0,25, Q0=1 – P0= 0,70, n= 36 y Zc=1,96 2. H0: P= 0,30 H1: P 0,30 3. Calcular Zdatos Z datos 0,25 0,30 0,05 0,05 * 6 0,65 0,46 0,30 * 0,70 0,21 36 36 4. El valor de Zdatos no corresponde a la región rechazo de H0 (menor de 𝒎𝒆𝒏𝒐𝒓 𝒅𝒆 − 𝟏. 𝟗𝟔; 𝒎𝒂𝒚𝒐𝒓 𝒅𝒆 𝟏. 𝟗𝟔), no existen existen razones para rechazar esta hipótesis y por tanto se acepta que la muestra de estudiantes se corresponde a la población del año, que posee una proporción de estudiantes incorporados al trabajo científico de P= 0,30. Fin del Ejemplo 34 Índice 3.1.5 Estadística Inferencial no paramétrica Los métodos estadísticos no paramétricos tienen la gran ventaja de permitir obviar el requisito de ajuste de las variables a la Distribución Normal, son muy simples de usar y se pueden aplicar utilizando la mayoría de los buenos software estadísticos presentes en el mercado, como el SPSS. Su presentación queda fuera del objetivo del presente documento, solo adelantar la información de la Tabla 7 y alertar que operan con la mediana en lugar de la media aritmética. 82 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Tabla 7. Relación de algunas pruebas de estadística no paramétrica Análisis Test Paramétrico Test no paramétrico Una muestra No hay Si la distribución supuesta es consistente con los datos, denominadas pruebas de bondad de ajuste: test de la 𝜒 2 , de KolmogorovSmirnov, de Shapiro-Wilk y de Jarque-Bera Una muestra Test t simple Test del signo de rangos de Wilcoxon Muestras pareadas Test t simple Test del signo de rangos de Wilcoxon Dos muestras independientes Test t para muestras independientes Test de suma de rangos de Wilcoxon Más de dos muestras independientes ANOVA de un factor Test de Kruskal-Wallis Diseño en bloques aleatorios ANOVA con bloques Ji cuadrado de Friedman Índice 83 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Referencias Buendía Espinosa, Angélica y Álvarez Mendiola, Germán. Coordinadores. (2019). La investigación educativa ante el cambio de gobierno en México. Reflexiones y propuestas para el futuro. -- 1ª ed. -- Ciudad de México: Consejo Mexicano de Investigación Educativa, 2019, 461p. ISBN 978-6077923-27-5 Cochran, William G. Técnicas de muestreo. Compañía Editorial Continental. México Congacha Aushay, Jorge Washington (2016). Estadística aplicada a la Educación. Escuela Superior Politécnica de Chimborazo. Ecuador De Armas Ramírez, Nerelys y Valle Lima, Alberto (2011). Resultados científicos en la Investigación Educativa. Editorial Pueblo y Educación. Cuba Hernández Sampieri, Roberto; Fernández Collado, Carlos, y Baptista Lucio, María Del Pilar (2010). Metodología de la Investigación. 5ta. ed. McGRAW-HILL / INTERAMERICANA EDITORES, S.A. DE C.V. Hernández Sampieri, Roberto; Fernández Collado, Carlos, y Baptista Lucio, María Del Pilar (2014). Metodología de la Investigación.de los autores, 6ta. ed. McGRAW-HILL / INTERAMERICANA EDITORES, S.A. DE C.V Martínez Barrientos, Alejandra. (2008). Manual para la elaboración de Investigaciones Educativas. Universidad Católica Boliviana San Pablo”. La Paz. Bolivia. 108 pág. Recuperado de: http://www.cimm.ucr.ac.cr/wordpress/wpcontent/uploads/2010/12/Mart%C3%ADnez-A.-Manual-2008.pdf McMillan, James H. y Schumacher, Sally. (2005). Investigación Educativa. Una introducción conceptual. 5ta. Edición. Virginia Commonwealth University PEARSON EDUCACIÓN, S. A., Madrid Montes Castillo, Mariel M.; Valencia Castillo, Flavio; y Gracia Olivas, Paola Guadalupe (2017). Indicadores de uso y aceptación de redes sociales virtuales en jóvenes de escuelas secundarias públicas en Sonora. Publicado en: REDES ACADÉMICAS, DOCENCIA E INVESTIGACIÓN EDUCATIVA. Recuperado de: http://www.reed-edu.org/wpcontent/uploads/2017/11/REDES-ACAD%C3%89MICAS-DOCENCIA-EINVESTIGACI%C3%93N-EDUCATIVA.pdf 84 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Newbold, Paul; Carlson, William L. y Thorne, Betty M. (2008). Estadística para Administración y Economía. 6ta. ed. Pearson Educación Nolberto Sifuentes, Violeta Alicia y Ponce Aruneri, María Estela (2006). Estadística Inferencial Aplicada. Universidad Nacional Mayor de San Marcos. Perú Rincón, Luis (2006). Una introducción a la PROBABILIDAD Y ESTADÍSTICA. Facultad de Ciencias UNAM. México. Tomado de: http://www.matematicas.unam.mx/lars Rosas Becerril, Patricia (2018). La Investigación Educativa: concepto y antecedentes. p. 57-61 Índice 85 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Anexo 1. Hoja de datos, calificaciones de estudiantes de 3 grupos, en escala de 0 a 20 Estudiantes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 1 16 15 19 17 14 18 18 14 15 14 14 15 15 17 17 17 14 15 17 16 14 17 17 16 17 17 13 17 16 16 16 18 14 17 . . . Grupos 2 13 14 13 17 14 8 12 14 13 13 14 12 14 15 11 13 14 15 14 15 15 15 11 15 12 14 15 12 14 15 14 9 . . . . . 3 19 18 16 19 17 18 17 17 15 17 17 18 16 15 18 17 18 18 16 17 19 17 16 17 17 18 17 16 18 18 15 16 17 16 16 17 17 86 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 Anexo 2. Funciones estadísticas del EXCEL Función Descripción DESVPROM Devuelve el promedio de las desviaciones absolutas de la media de los puntos de datos PROMEDIO Devuelve el promedio de sus argumentos PROMEDIOA Devuelve el promedio de sus argumentos, incluidos números, texto y valores lógicos PROMEDIO.SI Devuelve el promedio (media aritmética) de todas las celdas de un rango que cumplen unos criterios determinados PROMEDIO.SI.CONJUNTO Devuelve el promedio (media aritmética) de todas las celdas que cumplen múltiples criterios. DISTR.BETA Devuelve la acumulativa DISTR.BETA.INV Devuelve la función inversa de la función de distribución acumulativa de una distribución beta especificada DISTR.BINOM Devuelve la probabilidad de una variable aleatoria discreta siguiendo una distribución binomial DISTR.CHI Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución chi cuadrado de una sola cola PRUEBA.CHI.INV Devuelve la función inversa de la probabilidad de una variable aleatoria continua siguiendo una distribución chi cuadrado de una sola cola PRUEBA.CHI Devuelve la prueba de independencia INTERVALO.CONFIANZA Devuelve el intervalo de confianza de la media de una población COEF.DE.CORREL Devuelve el coeficiente de correlación entre dos conjuntos de datos función de distribución beta 87 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 CONTAR Cuenta cuántos números hay en la lista de argumentos CONTARA Cuenta cuántos valores hay en la lista de argumentos CONTAR.BLANCO Cuenta el número de celdas en blanco de un rango CONTAR.SI Cuenta las celdas del rango que no están en blanco y que cumplen los criterios especificados COVAR Devuelve la covarianza, que es el promedio de los productos de las desviaciones para cada pareja de puntos de datos BINOM.CRIT Devuelve el menor valor cuya distribución binomial acumulativa es menor o igual a un valor de criterio DESVIA2 Devuelve la suma de los cuadrados de las desviaciones DISTR.EXP Devuelve la distribución exponencial DISTR.F Devuelve la distribución de probabilidad F DISTR.F.INV Devuelve la función inversa de la distribución de probabilidad F FISHER Devuelve la transformación Fisher PRUEBA.FISHER.INV Devuelve la función transformación Fisher PRONOSTICO Devuelve un valor en una tendencia lineal FRECUENCIA Devuelve una distribución de frecuencia como una matriz vertical PRUEBA.F Devuelve el resultado de una prueba F DISTR.GAMMA Devuelve la distribución gamma DISTR.GAMMA.INV Devuelve la función inversa de la distribución gamma acumulativa GAMMA.LN Devuelve el logaritmo natural de la función inversa de la 88 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 gamma, Γ(x) MEDIA.GEOM Devuelve la media geométrica CRECIMIENTO Devuelve valores en una tendencia exponencial MEDIA.ARMO Devuelve la media armónica DISTR.HIPERGEOM Devuelve la distribución hipergeométrica INTERSECCION.EJE Devuelve la intersección regresión lineal CURTOSIS Devuelve la curtosis de un conjunto de datos K.ESIMO.MAYOR Devuelve el k-ésimo mayor valor de un conjunto de datos ESTIMACION.LINEAL Devuelve los parámetros de una tendencia lineal ESTIMACION.LOGARITMICA Devuelve los parámetros de una tendencia exponencial DISTR.LOG.INV Devuelve la función inversa de la distribución logarítmico-normal DISTR.LOG.NORM Devuelve la acumulativa MAX Devuelve el mayor valor de una lista de argumentos MAXA Devuelve el valor máximo de una lista de argumentos, incluidos números, texto y valores lógicos MEDIANA Devuelve la mediana de los números dados MIN Devuelve el valor mínimo de una lista de argumentos MINA Devuelve el valor mínimo de una lista de argumentos, incluidos números, texto y valores lógicos MODA Devuelve el valor más común de un conjunto de datos distribución de la línea de logarítmico-normal 89 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 NEGBINOMDIST Devuelve la distribución binomial negativa DISTR.NORM Devuelve la distribución normal acumulativa DISTR.NORM.INV Devuelve la función inversa de la distribución normal acumulativa DISTR.NORM.ESTAND Devuelve la acumulativa DISTR.NORM.ESTAND.INV Devuelve la función inversa de la distribución normal estándar acumulativa PEARSON Devuelve el coeficiente de momento correlación de producto Pearson PERCENTIL Devuelve el k-ésimo percentil de los valores de un rango RANGO.PERCENTIL Devuelve el rango porcentual de un valor de un conjunto de datos PERMUTACIONES Devuelve el número de permutaciones de un número determinado de objetos POISSON Devuelve la distribución de Poisson PROBABILIDAD Devuelve la probabilidad de que los valores de un rango se encuentren entre dos límites CUARTIL Devuelve el cuartil de un conjunto de datos JERARQUIA Devuelve la jerarquía de un número en una lista de números COEFICIENTE.R2 Devuelve el cuadrado del coeficiente de momento de correlación de producto Pearson COEFICIENTE.ASIMETRIA Devuelve la asimetría de una distribución PENDIENTE Devuelve la pendiente de la línea de regresión lineal K.ESIMO.MENOR Devuelve el k-ésimo menor valor de un conjunto de datos NORMALIZACION Devuelve un valor normalizado distribución normal estándar de 90 Curso Estadística en la Investigación Educativa - RELME 33 - La Habana, 2019 DESVEST Calcula la desviación estándar a partir de una muestra DESVESTA Calcula la desviación estándar a partir de una muestra, incluidos números, texto y valores lógicos DESVESTP Calcula la desviación estándar en función de toda la población DESVESTPA Calcula la desviación estándar en función de toda la población, incluidos números, texto y valores lógicos ERROR.TIPICO.XY Devuelve el error estándar del valor de "y" previsto para cada "x" de la regresión DISTR.T Devuelve la distribución de t de Student DISTR.T.INV Devuelve la función inversa de la distribución de t de Student TENDENCIA Devuelve valores en una tendencia lineal MEDIA.ACOTADA Devuelve la media del interior de un conjunto de datos PRUEBA.T Devuelve la probabilidad asociada a una prueba t de Student VAR Calcula la varianza de una muestra VARA Calcula la varianza a partir de una muestra, incluidos números, texto y valores lógicos VARP Calcula la varianza en función de toda la población VARPA Calcula la varianza en función de toda la población, incluidos números, texto y valores lógicos DIST.WEIBULL Devuelve la distribución de Weibull PRUEBA.Z Devuelve el valor de una probabilidad de una cola de una prueba z 91