Conceptos Básicos de Estadística Dra. Noemí L. Ruiz Limardo 2011-01 © Derechos Reservados ¿Qué es estadística para ti? ¿Cuáles son los paradigmas investigativos y las metodologías de investigación que se aplican en la educación? ¿Cómo se relaciona la estadística con la investigación? Identifica situaciones en el área de educación donde se requiere o se utiliza la estadística. ¿Cómo puede la estadística ayudar a resolver problemas de la sala de clases? Utilidad de la Estadística e Importancia de la Ética • Utilidad del conocimiento estadístico – Descubrir la existencia o no existencia de problemas – Identificar posibles factores explicativos de problemas previamente formulados – Evaluar soluciones aplicadas a los problemas • Importancia de la ética Ética en la estadística • Usos ilegítimos de la estadística – Comparar datos que no siempre son comparables – Derivar conclusiones de datos no representativos – Esconder parte de las evidencias – Manipular representaciones gráficas – Confundir asociación con causalidad – Derivar conclusiones que no pueden sostenerse con la evidencia disponible – Medir cambio a partir de bases inadecuadas – Interpretaciones acomodaticias Ética en la estadística • Continuación de usos ilegítimos de la estadística – Buenas matemáticas y malas estadísticas – Gráficas engañosas – Información insuficiente – Muestras pequeñas – Confundir estimaciones con conjeturas – Uso de por cientos en forma distorsionada – Datos parciales – Distorsiones deliberadas – Preguntas predispuestas – Presión del encuestador Factores que pueden afectar la ética • Sesgo (“bias”) en selección de la muestra • Exclusión individuos que puedan responder preguntas específicas • Presentación de resultados sin dar tamaño de muestra ni el margen de error • Preguntas sesgadas • Entrevistador con actitudes y tono de voz deliberado que promueve respuestas en cierta dirección • Persona que responde a encuesta puede proveer información falsa a propósito Definiciones Estadística • Ciencia que trata sobre la recopilación, organización, presentación, análisis e interpretación de información, con apoyo matemático, a través de estudios investigativos científicamente diseñados y realizados con el objetivo de tomar decisiones respecto a un problema. Estadística Descriptiva • Rama de la estadística que se encarga de describir un conjunto de datos recopilados en una muestra. • Se realizan los siguientes procesos en una muestra: – Recopilación de datos – Organización y tabulación de los datos recopilados – Presentación de los datos en tablas y gráficas (Ayuda a resumir e interpretar los datos) – Análisis estadístico (Aplicación de medidas estadísticas tales como: Tendencia Central, Posición, Variación) – Interpretación del análisis estadístico Estadística Inferencial • Es la rama de la estadística que utiliza información obtenida del estudio de una muestra para hacer inferencias sobre la población. • Comprende la aplicación de una serie de técnicas estadísticas especializadas que permiten inferir las características de la población. Población • Es la totalidad de sujetos (personas, animales, u objetos) que comparten en común la característica o variable bajo estudio. • Representa el universo de donde se extrae una muestra. Muestra • La muestra es un subconjunto de la población • Muestra representativa- Tiene las mismas características de la población en la misma proporción. • En una muestra representativa cada sujeto en la población tiene la misma oportunidad de ser seleccionado. Parámetro y Estadígrafo • ParámetroMedida que se obtiene por medio del estudio de una población. • Estadígrafo o estadísticaMedida que se obtiene por medio del estudio de una muestra. Tipos de Muestreo Tipos de Muestreo Aleatorio o probabilístico No-aleatorio o No-probabilístico • Muestreo aleatorioProcedimiento que utiliza métodos aleatorios para seleccionar la muestra. En este tipo de muestra se conoce de antemano cuál es la oportunidad que cada sujeto tiene de ser seleccionado. • Muestreo no-aleatorioIntervienen factores no-aleatorios en la selección de los sujetos Muestreo Aleatorio • Tipos de muestreo aleatorio: – Simple – Conglomerado o grupos intactos – Estratificado – Sistemático • Para poder hacer inferencias a una población se necesita tener muestras aleatorias Muestreo Simple Cada sujeto de la población (N) tiene la misma probabilidad de ser elegido. Se tiene una lista de los n sujetos de la muestra rotulados o identificados con un número. Se utilizan métodos de selección tipo urna o al azar. Puede ser con reemplazo o sin reemplazo. Muestreo Simple Tabla de Números Aleatorios A veces es inconveniente usar una urna por la dificultad de poder mover bien las tarjetas, los bolos o los objetos que representan los sujetos de la muestra. Por eso, se usa la tabla de números aleatorios. Demostrar ejemplo de la utilización de la tabla de números aleatorios. Selección de una muestra de 10 sujetos de una población de 50 sujetos. Muestreo Simple Tabla de Números Aleatorios También, se puede utilizar una calculadora o computadora que genere números aleatorios. La tabla de números aleatorios es generada por una computadora. Muestreo Sistemático • Se usa este muestreo cuando se tiene una lista de los N miembros de la población. • Se llama sistemático porque se selecciona sistemáticamente cada k-ésimo miembro de la lista de la población. • O sea, si k es 50, se selecciona cada 50-ésimo sujeto de la lista • El primer sujeto de la muestra se halla al azar. • Luego, se determina la fracción que nos da el número k. Muestreo Sistemático • Ejemplo: N es 15,000. Se desea seleccionar una muestra que represente el 2% de la población. (15,000) (0.02) 300 • Por tanto, n es 300. • Para determinar k, se divide simplifica: n 300 1 N 15,000 50 n y se N Observa que el numerador de la fracción es 1. • El denominador de la fracción anterior representa k. Muestreo Sistemático • Continuación: N es 15,000, n es 300, k es 50. • Se selecciona al azar el primer sujeto de la muestra entre 1 y k. Supón que seleccionamos el sujeto número 37. • El segundo sujeto de la muestra será el 50ésimo sujeto después del primero, o sea: 37 + 50 = 87. • El tercer sujeto será: 87 + 50 = 137. • Se continúa seleccionando los demás sujetos cada 50-ésimo sujeto después de anterior hasta completar los 300 sujetos de la muestra. Muestreo Sistemático • Muestras simples o sistemáticas podrían no ser representativas de la población. • ¿Por qué? • Supón que la lista está por orden alfabético, ¿qué probabilidad tiene de salir el primer y el último sujeto de la lista?, Si hay dos hermanos en la lista, ¿qué probabilidad hay de que salgan ambos? • Recomendación: La lista de la población debe estar organizada aleatoriamente. • Si se utiliza una lista alfabética, se debe asegurar que está libre de sesgo. Muestreo Sistemático • El muestreo sistemático es más conveniente que el muestreo simple cuando se tiene una lista de la población. • No siempre es tan fácil de obtener como este ejemplo. • A veces se torna compleja cuando en la 1 fracción , k es decimal. k • Se usa muestreo sistemático cuando el proceso de selección es más fácil que el muestreo simple. • En caso de que k sea decimal, quizás conviene mejor usar el muestreo simple. Muestreo Estratificado • Los muestreos anteriores asumen que la población es homogénea. • Sin embargo, la población pudiera ser heterogénea y consistir de varias subpoblaciones o estratos. • Ejemplo: Estudiantes de una universidad. • Posibles estratos: Año de estudio, subgraduadograduado, Programa académico, Género, Diurno-Nocturno, etc. Muestreo Estratificado • Proceso para seleccionar la muestra estratificada: • Se dividen los N sujetos en subpoblaciones o estratos de acuerdo a la característica en común que se interesa estudiar. • Se realiza un muestreo aleatorio simple (o estratificado) en cada estrato para sacar sujetos dentro de cada uno. • Se unen todos los sujetos de las muestras aleatorias separadas para formar la muestra. • La muestra seleccionada dentro de cada estrato puede ser la misma para todos los estratos o puede ser proporcional a cada subpoblación. Muestreo Estratificado • En algunos casos, el muestreo estratificado es más eficiente que los métodos anteriores porque garantiza representación de la característica que se interesa estudiar, principalmente en la misma proporción que la subpoblación estudiada. • Pero, esta no es la razón principal. • Muestreo simple tiende a distribuirse proporcionalmente. • En el muestreo estratificado, si los estratos son heterogéneos, aumenta la precisión estadística. Esto es muy deseable cuando se va a determinar el proceso de selección de la muestra. • Si se disminuye la variación en la distribución muestral de la medida estadística que se utilice, los resultados serán más precisos. Muestreo Conglomerado o Grupos Intactos • A veces no se pueden seleccionar sujetos individuales de una población. Los sujetos pertenecen a grupos que no pueden separarse de ellos. • Ejemplo: estudiantes en salones de clases, estudiantes en escuelas de un distrito. • En estos casos, los conglomerados, y no los individuos, son los que se seleccionan aleatoriamente de la población de conglomerados. • Cada sujeto de la población debe pertenecer a un solo conglomerado (uno y solo uno). • Los conglomerados pueden tener diferente número de sujetos. Muestreo Conglomerado o Grupos Intactos • Se dividen los N sujetos en varios conglomerados de manera que cada conglomerado sea representativo de la población. • Después se obtiene una muestra aleatoria de los conglomerados y se estudian todos los sujetos de los conglomerados seleccionados. • Ejemplo: El director de una escuela elemental desea conocer la opinión de los padres sobre los servicios de consejería que se ofrecen en la escuela. • Decide que la muestra debe ser 750. Sabe que los grupos promedian 26 estudiantes, así que selecciona 29 grupos de tercero, cuarto y quinto 750 grado: 28.85 29 26 Muestreo Conglomerado o Grupos Intactos • Ver dificultad del ejemplo anterior usando muestra simple, sistemática o estratificada. • Este método tiende a ser menos eficiente que el simple, sistemático y el estratificado. Para subsanar esto requiere una muestra más grande. • Se considera una muestra grande si es mayor o igual a 30 sujetos. • Se puede usar el muestreo conglomerado en multietapas. Ejemplo: 2-etapas: Se va a administrar un cuestionario en un área geográfica grande (San Juan). Se pueden seleccionar regiones (urbanizaciones) y luego bloques (calles). Finalmente, se encuesta a todos los seleccionados en los bloques. Muestreo No-Aleatorio • Tipos de muestreo no-aleatorio– Juicio, opinión del investigador o subjetivo – Voluntarios – Conveniencia • No hay tal cosa como muestreo casi aletaorio. O la muestra es aleatoria o no lo es. Muestreo No-Aleatorio • Juicio de investigador o subjetivoEl investigador decide, de acuerdo a su experiencia y su juicio, la muestra que mejor podría usar. • VoluntariosEl investigador utiliza los sujetos que estén disponibles voluntariamente para participar. • ConvenienciaEl investigador utiliza los sujetos que estén disponibles de acuerdo a cierta conveniencia pre-establecida. Ejemplo: sujetos que estén en cierto lugar en el momento adecuado, etc. Muestreo No-Aleatorio • Cuestionarios por correoCuando se envian cuestionarios por correo, aún si la muestra fue aleatoria, no representará muestreo aleatorio. El que devuelve el cuestionario contestado decide voluntariamente participar. Tipos de Datos • DatosCifras, números, cantidades, puntuaciones, índices, cualidades o atributos. Datos Categóricos Cuantitativos Discretos Contínuos Tipos de Variables Tipos de Variables Discretas Contínuas • VariableCualquier característica bajo estudio que puede tomar distintos valores numéricos. • Variables discretasVariables que únicamente pueden asumir valores que son cantidades enteras. • Variables contínuasVariables que pueden asumir valores fraccionarios o intermediarios entre dos valores que representan cantidades enteras. Tipos de Escalas de la Variable Escalas de una Variable Nominal Ordinal Intervalo Razón • Cada nivel próximo en la escala, presupone las mismas características del nivel anterior más otras que se añaden en ese nivel. Tipos de Escalas • NominalSe agrupan los datos solamente en clases o categorías que son mutuamente excluyentes y no tienen un orden en particular. Ej. Variables categóricas tales como: género, religión, partido político Tipos de Escalas • OrdinalSe agrupan los datos en categorías que tiene un orden específico pero no se puede diferenciar entre sí la magnitud o el alcance de los valores de las distintas categorías. Ej. Variables categóricas tales como: clase social, minerales de acuerdo a tipo de resistencia (mucha, regular o poca), grado de agresividad (mucha, poca, ninguna) Tipos de Escalas • IntervaloSe agrupan los datos en categorías que representan un orden específico y además ese orden implica un intervalo específico de diferencias entre las distintas categorías que es igual para todas las categorías. El valor 0 es un valor más, no implica ausencia de la característica. Ej.- Variables cuantitativas tales como: temperatura, cociente intelectual Tipos de Escalas • RazónSe agrupan los datos en categorías que representan un orden específico en el cual las diferencias entre las distintas categorías son iguales para todas las categorías y además el 0 implica la ausencia de la característica. Ej. Variables cuantitativas contínuaspeso, estatura, edad EJERCICIO DE PRÁCTICA Fin de la Lección Tabla de Números Aleatorios