Compilación y armado Sergio Pellizza biblioises Apoyatura Académica Bibliotecas digitales para todos ESTADISTICA INTRODUCCION 2 1 -Estadística Descriptiva: Metodos que implican llevar a cabo determinadas acciones con un conjunto de datos a fin de describir en forma apropiada las diversas características del mismo. Recopilación de datos ya sea internos (sueldos de un mes, ventas anuales) o externos, los ultimos se obtienen de dos maneras: por publicaciones de otros entes, que es mas facil de conseguir que la segunda manera que es por encuesta, tarea costosa, tediosa y consumidora de tiempo. Organización: Los datos publicados generalmente estan ordenados a diferencia de los encuestados que necesitan de una correccion, en la que se eliminan las inconsistencias y las respuestas irrelevantes, una clasificacion en base a la cual seran agrupados, paso muy importante ya que de el dependen los posteriores; y una tabulacion, en donde se numeran y registran los datos Presentación: su objetivo es facilitar la lectura y exiten tres formas: a traves de enunciados (sirven para pocos item de lo contrario se vulve ineficiente y pesado), de tablas estadísticas (dan valores exactos y son efectivas si estan bien construidas), y de graficas estadísticas (dan idea de un valor aproximado y al igual que las anteriores son efectivas si estan bien construidas) Análisis: Existen numerosas variedades, desde la simple observación de los datos hasta metodos complicados, sofisticados y de investigación altamente matemática. A pesar de ello, se podrían distinguir 4 principales: el análisis estadístico simple (con operaciones matemáticas basicas), la inducción estadística (metodo para obtener inferencias a partir de muestras), análisis de series de tiempo (es importante en el estudio de cambios en las actividades de negocios y economicas dentro de varios periodos de tiempo), análisis de relaciones (relacion entre dos o mas conjunto de datos estadísticos) Interpretación de datos: permite llegar a una conclusión y ayudar a tomar desiciones. Datos estadísticos: el estadístico se maneja con variables aleatoreas, porque querra desarrollar un instrumento en que se hagan distintas preguntas y trate con una variedad de fenómenos. Hay 2 tipos básicos de variables aleatorias: Cualitativas: dan respuestas numerosas, y pueden ser discretas (surgen de las nociones de conteo, ej: en cuantas materias esta inscripto?), o continuas (surgen de procesos de medicion, ej.: Cual es su edad?). Cuantitativas: dan respuestas categóricas, ej.: Cursa materias todos los dias? Propiedades de los datos: Medidas de posición: es la característica mas importante que describe un grupo de datos. La mayoria de los conjuntos de datos sufren una tendencia a agruparse en torno a cierto punto. Por ello para cualquier conjunto particular de datos suele ser posible seleccionar un valor tipico descriptivo: promedio (medida de tendencia contral o posición) que consta de 3 medidas primarias: Media aritmética: promedio mas conocido o de mas uso por ser facil de calcular. Es la sumatoria de los valores en la muestra dividido la sumatoria de los numeros de observación de la muestra. Mediana: aparece en el medio de una sucesión ordenada de valores. Modo: valor mas tipico o comun observado en un conjunto de datos. Medidas de dispersión:Es la cantidad de variación, desperdigamiento o diseminación en los datos. Las medidas son: 1) recorrido, 2) recorrido intercuartilico, 3) varianza, 4) desviación estandar, 5) coeficiente de variación. Medidas de forma Es la manera en la cual estan distribuidos los datos. Se compara solo la media y la mediana. Media = mediana => datos simétricos o sesgamiento Media > mediana => datos positivos o consesgamiento a la derecha Media < mediana => datos negativos o consesgamiento a la izquierda. 2- E STADISTICAS a) ¿QUÉ ES LA ESTADÍSTICA? Estadística es una disciplina que sistematizado las técnicas de recolección y análisis de datos; nos permite inferir consecuencias a partir de estos. b) ¿QUÉ ES UNA POBLACION? Una población es el conjunto total de todos los individuos u objetos que poseen una característica común observable, que sean de interés en un estudio. Son ejemplos de una población: Los alumnos de un curso. Los pacientes de un hospital. Los votantes de una comuna. c) ¿QUÉ ES UNA MUESTRA? Es un subconjunto de la población. Es de un tamaño menor al total de la población y la estadística pretende obtener conclusiones válidas que pueden aplicarse al total a partir de los resultados observados en la muestra. Son ejemplos de muestra: 1.820 televidentes escogidos al azar. Los automovilistas que acceden a contestar una encuesta de opinión. Uno de cada diez sacos de maíz de un cargamento. d) ¿A QUE SE LLAMA "MARCA DE CLASE"? Se le llama marca de clase a los valores representativos de todos los valores incluidos en el intervalo respectivo; equivale a la semisuma de los límites inferior y superior de un intervalo. e) ¿QUÉ SON LOS LIMITES INFERIORES Y SUPERIORES? Los límites inferiores y superiores son los valores mínimo y máximo de una distribución. V.g: En un curso de 50 alumnos, se le pidió a un profesor que pesará a todos, los datos obtenidos son los siguientes: 88 - 77 - 74 - 64 - 67 - 69 - 49 - 82 - 69 - 71 38 - 65 - 86 - 68 - 77 - 84 - 66 - 73 - 75 - 58 94 - 78 - 67 - 75 - 78 - 89 - 69 - 91 - 84 - 62 50 - 72 - 39 - 62 - 58 - 74 - 79 - 81 - 70 - 79 90 - 81 - 79 - 86 - 97 - 78 - 75 - 90 - 98 - 81. LIMITE SUPERIOR: 98 LIMITE INFERIOR: 38 f) ¿QUÉ ES LA AMPLITUD? La amplitud es el tamaño numérico que existe entre los intervalos. Considerando el siguiente ejemplo, la amplitud es igual a 5. intervalo 11 - 15 16 - 20 Frecuencia 5 8 g) ¿QUÉ ES EL RECORRIDO? El recorrido o campo de variación de la variable, es la diferencia entre el mayor valor que toma la variable y el menor. Por ejemplo, si el mayor valor es 85 y el menor es 17, entonces el recorrido es: h) CON UNA RECOLECCION DE DATOS CONSTRUYA UNA TABLA DE FRECUENCIAS. Situación: En un curso de 50 alumnos, se le pidió a un profesor que pesará a todos los alumnos, los datos obtenidos son los siguientes: 88 - 77 - 74 - 64 - 67 - 69 - 49 - 82 - 69 - 71 38 - 65 - 86 - 68 - 77 - 84 - 66 - 73 - 75 - 58 94 - 78 - 67 - 75 - 78 - 89 - 69 - 91 - 84 - 62 50 - 72 - 39 - 62 - 58 - 74 - 79 - 81 - 70 - 79 90 - 81 - 79 - 86 - 97 - 78 - 75 - 90 - 98 - 81. Al organizar los datos en una tabla de frecuencia, se obtiene: Intervalos (peso en kg.) 35 - 39 40 - 44 45 - 49 50 - 54 55 - 59 60 - 64 65 - 69 70 - 74 75 - 79 80 - 84 85 - 89 90 - 94 95 - 99 nº de alumnos Porcentaje (%) 2 0 1 1 2 3 8 6 11 6 4 4 2 4 0 2 2 4 6 16 12 22 12 8 8 4 i) Con los datos de esta tabla construir un histograma y un polígono de frecuencia. Peso Alumnos de un Curso (Histograma) 25 porcentaje (%) 20 15 10 5 0 35 - 39 40 - 44 45 - 49 50 - 54 55 - 59 60 - 64 65 - 69 70 - 74 75 - 79 80 - 84 85 - 89 90 - 94 peso en grs Peso Alumnos de un Curso (Polígono de frecuencia) nº de alumnos 25 20 15 10 5 0 35 - 39 40 - 44 45 - 49 50 - 54 55 - 59 60 - 64 65 - 69 70 - 74 75 - 79 80 - 84 85 - 89 90 - 94 95 - 99 peso en kgs j) ¿QUÉ ES LA MEDIA ARITMETICA, LA MODA, LA MEDIANA, LA DESVIACIÓN MEDIA Y LA DESVIACIÓN ESTANDÁR? Son valores que tipifican una muestra y en torno de los cuales se agrupan la mayoría de los datos, estos se denominan estadígrafos. A continuación definiremos cada uno de estos. MEDIA ARITMETICA: Corresponde a la suma de todos los datos dividido por el numero total de ellos. Es lo que se conoce como "promedio". La media aritmética es uno de los estadígrafos más usados, por el hecho de ser de muy fácil cálculo. MODA: Corresponde al valor que mas se repite, ésta sirve para describir una distribución si sólo se desea tener una idea aproximada y rápida de donde está la mayor concentración de observaciones. También se la utiliza para describir la forma de algunas distribuciones. Puede ocurrir que en un conjunto de datos no haya moda, como 95 - 99 en: 3; 4; 7; 9; 10; 11; 13. O también que haya varios valores con la mayor frecuencia, en estos casos la moda queda indeterminada. MEDIANA: La mediana es aquel valor que ocupa el lugar central, de modo que la mitad de los casos queda por debajo de ese valor y la otra mitad por encima. Por ejemplo si consideramos: 2; 3; 5; 7; 11; 13; 16; 18; 25. La mediana es M = 11. Si el conjunto de valores es un número par, entonces se calcula la media aritmética a los dos valores del centro. DESVIACION MEDIA: Corresponde a la diferencia numérica entre una medida individual o número y la media aritmética de una serie completa de tales medidas o números. Por ejemplo, si la media de alturas de todos los alumnos de un curso es 1,51 m y uno de ellos mide 1,63m, la desviación media de su altura con respecto a la media es de +0.12 metros. DESVIACIÓN ESTANDAR: Es un dato que representa la variabilidad existente en un conjunto de datos, ya que por ejemplo dos conjuntos de datos pueden presentar la misma media aritmética, pero poseer distinta variabilidad, por eso este estadígrafo nos permite saber acerca de la variabilidad o dispersión de los datos. Matemáticamente se define como "la raíz cuadrada del promedio de los cuadrados de las desviaciones medias de cada valor de la variable con respecto de la media aritmética" k) HACER UNA TABLA DE DONDE SE DETERMINE CADA UNO DE LOS ESTADIGRAFOS ANTERIORES. 1-2-2-2-3-3-4-4-5-67 - 7 - 8 - 8 - 8 - 8- 8- 8 - 8 - 9 9 - 10 - 12 - 13 - 15 - 16 - 19 Intervalos 1-5 6 - 10 11 - 15 16 - 20 Media Aritmética: 205 = 7.5 27 " 7.5 es el valor de la media aritmética para los datos dados." frecuencia 9 13 3 2 Moda: De los datos anteriores, la moda corresponde a "8". Mediana: En los datos anteriores, la mediana es el valor "8" ennegrecido. DESVIACIÓN MEDIA: Datos = 1- 2 - 2 - 2 - 3 - 3 - 4 - 4 - 5 - 6 -7 - 7 - 8 - 8 - 8D. media = -6.5 , -5.5, -5.5 , -5.5 , -4.5 , -4.5 , -3.5 , -3.5 , -2.5 , -1.5 , -0.5 , -0.5 , 0.5 , 0.5 , 0.5 Datos = 8 - 8 - 8 - 8 - 9 - 9 - 10 - 12 - 13 - 15 - 16 - 19 D. media = 0.5 , 0.5 , 0.5 , 0.5 , 1.5 , 1.5 , 2.5 , 4.5 , 5.5 , 7.5 , 8.5 , 11.5.- DESVIACIÓN ESTANDAR: las desviaciones medias de cada valor, calculadas anteriormente se elevan al cuadrado = 42.25 , 30.25 , 30.25 , 30.25 , 20.25 , 20.25 , 12.25 , 12.25 , 6.25 , 2.25 , 0.25 , 0.25 , 0.25 , 0.25 , 0.25 , 0.25 , 0.25 , 0.25 , 0.25 , 2.25 , 2.25 , 6.25 , 20.25 , 30.25 , 56.25 , 72.25 , 132.25. la suma de los cuadrados se divide por el promedio menos 1 = 530.75 / 7.5 - 1 = 81.65 calculamos la raíz cuadrada de 81.65 = 81.65 = 9.04 el valor de la desviación estándar es de 9.04 en el ejemplo señalado. 3 ESTADÍSTICA: Rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y de toma de decisiones. HISTORIA Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 a.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 a.C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el 594 a.C. para cobrar impuestos. El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes caloringios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente. Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el primer estudio estadístico notable de población, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres). Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales. En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos y físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico. OBJETO DE ESTADÍSTICA: La estadística tiene por objeto el desarrollo de técnicas para el conocimiento numérico de un conjunto. La estadística se divide en 2 ramas principales: Estadística descriptiva: Cuyo objetivo es examinar a todos los individuos de un conjunto. Estadística inferencial: Por la que, mediante el estudio de una muestra se sacan conclusiones válidas para la totalidad. POBLACIÓN Y MUESTRA: Se llama población al conjunto formado por todos los elementos cuyo conocimiento nos interesa. A cada uno de los elementos se lo llama individuo. Muestra es un subconjunto limitado extraído de una población, con objeto de reducir el campo de experiencias. Las propiedades que obtengamos se harán extensivas a toda la población. CARCACTERES: Para el conocimiento de una población estadística, deberemos analizar a cada uno de sus individuos (o a cada individuo de una muestra). Pero ese análisis no puede ser exhaustivo; deberemos seleccionar uno o varios detalles (caracteres) y ver cómo se manifiesta ese carácter en cada uno de los individuos. Por ejemplo, de una población de mazorcas de maíz, los caracteres dignos de estudio pueden ser: color, número de granos, longitud, peso, etc. Los caracteres pueden ser: Cualitativos: que se presentan bajo varias cualidades no medibles. Ej: color Cuantitativos: cuando son medibles. Ej: longitud de una mazorca, su peso, número de granos, etc. Un carácter cuantitativo es discreto (o de variación discreta) cuando sólo puede tomar determinados valores. Es el caso del número de granos de una mazorca. Y se llama continuo (o de variación continua) cuando puede tomar valores tan próximos como se quiera (longitud, peso, etc.) ESTADÍSTICA DESCRIPTIVA: Esta rama de la estadística trata de describir y analizar un grupo dado sin sacar conclusiones para un grupo mayor. Trabaja en poblaciones, no en muestras propiamente dichas. Para esa descripción y análisis de los individuos, que son el objeto de la estadística descriptiva, esta utiliza el siguiente método: Selección de caracteres: Dignos de estudio. Análisis de cada carácter. Este análisis consiste en: a. examinar cada individuo y anotar el valor de cada carácter. b. Establecer las clases de individuos que se desean distinguir respecto a ese carácter. c. Clasificar y contar los individuos incluidos en cada clase d. Calcular determinados valores numéricos (los parámetros estadísticos) a partir de los datos contenidos en las distribuciones anteriores. Cuando se pretende dar a conocer a un gran público los resultados de estos análisis, se suelen utilizar representaciones gráficas de los datos tabulados en el apartado anterior. ESTADÍSTICA INFERENCIAL: Cuando hay problemas cuya resolución se nos torna: Imposible debido a lo inmenso del problema (millones de individuos). Posible, pero ruinoso. Recurrimos a la estádistica inferencial (diseño de experimentos, teoría de muestras, teoría de la estimación, etc...) para hallar respuesta de los interrogantes. Los datos recogidos deben ser organizados, tabulados y presentados para que su análisis e interpretación sean rápidos y útiles. Por ejemplo, para estudiar e interpretar la distribución de las notas o calificaciones de un examen en una clase con 30 alumnos, primero se ordenan las notas en orden creciente: 3,0; 3,5; 4,3; 5,2; 6,1; 6,5; 6,5; 6,5; 6,8; 7,0; 7,2; 7,2; 7,3; 7,5; 7,5; 7,6; 7,7; 7,8; 7,8; 8,0; 8,3; 8,5; 8,8; 8,8; 9,0; 9,1; 9,6; 9,7; 10 y 10. Esta secuencia muestra, a primera vista, que la máxima nota es un 10, y la mínima es un 3; el rango, diferencia entre la máxima y la mínima es 7. En un diagrama de frecuencia acumulada, como el de la figura 1, las notas aparecen en el eje horizontal y el número de alumnos en el eje vertical izquierdo, con el correspondiente porcentaje a la derecha. Cada punto representa el número total de estudiantes que han obtenido una calificación menor o igual que el valor dado. Por ejemplo, el punto A corresponde a 7,2, y según el eje vertical, hay 12 alumnos, o un 40%, con calificaciones menores o iguales que 7,2. Para analizar las calificaciones obtenidas por 10 clases de 30 alumnos cada una en cuatro exámenes distintos (un total de 1.200 calificaciones), hay que tener en cuenta que la cantidad de datos es demasiado grande para representarlos como en la figura 1. El estadístico tiene que separar los datos en grupos elegidos previamente denominados intervalos. Por ejemplo, se pueden utilizar 10 intervalos para tabular las 1.200 calificaciones, que se muestran en la columna (a) de la tabla de distribución de datos adjunta; el número de calificaciones por cada intervalo, llamado frecuencia del intervalo, se muestra en la columna (c). Los números que definen el rango de un intervalo se denominan límites. Es conveniente elegir los límites de manera que los rangos de todos los intervalos sean iguales y que los puntos medios sean números sencillos. Una calificación de 8,7 se cuenta en el intervalo entre 8 y 9; una calificación igual a un límite de intervalo, como 9, se puede asignar a cualquiera de los dos intervalos, aunque se debe hacer de la misma manera a lo largo de toda la muestra. La frecuencia relativa, columna (d), es la proporción entre la frecuencia de un intervalo y el número total de datos. La frecuencia acumulada, columna (e), es el número de estudiantes con calificaciones iguales o menores que el rango de cada intervalo sucesivo. Así, el número de estudiantes con calificaciones menores o iguales a 3 se calcula sumando las frecuencias de la columna (c) de los tres primeros intervalos, dando 53. La frecuencia acumulada relativa, columna (f), es el cociente entre la frecuencia acumulada y el número total de notas. Los datos de una tabla de distribución de frecuencias se pueden representar gráficamente utilizando un histograma o diagrama de barras (como en la figura 2), o como un polígono de frecuencias acumuladas (como en la figura 3). El histograma es una serie de rectángulos con bases iguales al rango de los intervalos y con área proporcional a sus frecuencias. El polígono de la figura 3 se obtiene conectando los puntos medios de cada intervalo de un histograma de frecuencias acumuladas con segmentos rectilíneos. En los periódicos y otros medios de comunicación los datos se representan gráficamente utilizando símbolos de diferente longitud o tamaño que representan las distintas frecuencias. PARÁMETROS ESTADÍSTICOS: Las tablas estadísticas son una forma organizada de dar toda (o casi toda) la información, todos los datos de que disponemos. Con las gráficas estadísticas se pierde algo de información (mucho o poco, según los casos) pero el mensaje entre pos los ojos, que es lo que se pretende. En cualquiera de los dos casos, la cantidad de datos que se dan es excesiva para que sea operativo, para poder hacer referencias concisas a esa distribución o comparaciones rápidas con otras distribuciones. Esa es la razón de ser de los parámetros estadísticos, el resumir en un número un aspecto relevante de la distribución que pueda dar una idea de la misma o compararla en ese aspecto con otras. Hay muchos parámetros estadísticos. Suelen clasificarse en: VALORES DE LA TENDENCIA CENTRAL Una vez que los datos han sido reunidos y tabulados, comienza el análisis con el objeto de calcular un número único, que represente o resuma todos los datos. Dado que por lo general la frecuencia de los intervalos centrales es mayor que el resto, este número se suele denominar valor o medida de la tendencia central. Sean x1, x2, …, xn los datos de un estudio estadístico. El valor utilizado más a menudo es la media aritmética o promedio aritmético que se escribe y que es igual a la suma de todos los valores dividida por n: sumatorio, denota la suma de todos los datos. Si las x se agrupan en k intervalos, con puntos medios m1, m2, …, mk y frecuencias f1, f2, …, fk, la media aritmética viene dada por donde i = 1, 2, …, k. La mediana y la moda son otros dos valores de la tendencia central. Si las x se ordenan según sus valores numéricos, si n es impar la mediana es la x que ocupa la posición central y si n es par la mediana es la media o promedio de las dos x centrales. La moda es la x que aparece con mayor frecuencia. Si dos o más x aparecen con igual máxima frecuencia, se dice que el conjunto de las x no tiene moda, o es bimodal, siendo la moda las dos x que aparecen con más frecuencia, o es trimodal, con modas las tres x más frecuentes. MEDIDAS DE LA DISPERSIÓN Normalmente la estadística también se ocupa de la dispersión de la distribución, es decir, si los datos aparecen sobre todo alrededor de la media o si están distribuidos por todo el rango. Una medida de la dispersión es la diferencia entre dos percentiles, por lo general entre el 25 y el 75. El percentil p es un número tal que un p por ciento de los datos son menores o iguales que p. En particular, los percentiles 25 y 75 se denominan cuartiles inferior y superior respectivamente. La desviación típica es otra medida de la dispersión, pero más útil que los percentiles, pues está definida en términos aritméticos como se explica a continuación. La desviación de un elemento del conjunto es su diferencia con respecto a la media; por ejemplo, en la sucesión x1, x2, …, xn la desviación de x1 es x1 y el cuadrado de la desviación es (x1 varianza es la media del cuadrado de las desviaciones. Por último, la desviación típica, representada por la letra griega sigma ( ), es la raíz cuadrada de la varianza, y se calcula de la siguiente manera: Si la desviación típica es pequeña, los datos están agrupados cerca de la media; si es grande, están muy dispersos. Medidas de posición: cuartiles, deciles, centiles. Señalan la situación de algunos valores importantes en la distribución Medidas de asimetría: para señalar si la distribuci{on está sesgada hacia uno u otro lado. Medidas de apuntamiento: indican si la distribución es más o menos puntiaguda. PRECIO DE MIEL ENERO FEBRER MARZ ABRI MAY JUNIO JULIO AGOST SEP. OCT. NOV. DIC. O O L O O $ 0,25 $ 0,70 $ 1,00 $ 1,25 $ 1,50 $ 1,75 $ 2,00 $ 2,25 $ 2,50 $ 2,75 $ 3,00 $ 3,00 4 MUESTREO 1.- INTRODUCCIÓN El muestreo estadístico es la herramienta que la Matemática utiliza para el estudio de las características de una población a través de una determinada parte de la misma. La muestra de estudio debe ser lo más pequeña posible ya que del hecho de que una muestra sea más grande, no se desprende necesariamente que la información sea más fiable. Además, la muestra elegida debe serlo por un proceso aleatorio para que sea lo más representativa posible. Términos usuales en un estudio estadístico Población: conjunto de todos los individuos que son objeto del estudio. Muestra: parte de la población en la que miden las características estudiadas. Muestreo: proceso seguido para la extracción de una muestra. Encuesta: proceso de obtener información de la muestra. Métodos de muestreo 1.- Muestreo no probabilístico: no se usa el azar, sino el criterio del investigador. 2.- Muestreo probabilístico o aleatorio: 2.1.- Muestreo aleatorio simple: se asigna un número a cada uno de los individuos de la población, y seguidamente se van eligiendo al azar los componentes de la muestra. La elección de un individuo no debe afectar a la del siguiente, por tanto debe reemplazarse el nº, una vez extraído. 2.2.- Muestreo sistemático: se ordenan previamente los individuos de la población, después se elige uno al azar y a continuación, a intervalos constantes, se eligen todos los demás hasta completar la muestra. 2.3.- Muestreo estratificado: se divide la población total en clases homogéneas (estratos). La muestra se escoge aleatoriamente en número proporcional al de los componentes de cada estrato. Ejemplo: en un I.E.S. hay 120 alumnos en 2º de Bachillerato provenientes de 4 zonas o pueblos. Zona A: 20 alumnos Zona B: 32 alumnos Zona C: 60 alumnos Zona D: 8 alumnos Hay que elegir una muestra de 20 alumnos para hacerles una serie de preguntas. Utiliza los tres métodos de muestreo aleatorio para escoger la muestra. 2.- DISTRIBUCIONES DE MUESTREO Es evidente que los resultados obtenidos del estudio de una muestra no son del todo fiables, pero sí en buena medida. Los parámetros que obtienen de una muestra (estimadores estadísticos) nos permitirán arriesgarnos a predecir una serie de resultados para toda la población. De estas predicciones y del riesgo que conllevan se ocupa la Inferencia Estadística. Distribución de medias muestrales Si una población tiene N elementos, el nº de muestras distintas de tamaño n que se pueden elegir es N . Si pueden repetirse individuos, el número de muestras será igual a N n . n Ejemplo: calcular el nº de muestra de tamaño 21 que pueden elegirse en una población de 120 alumnos: a) sin reemplazamiento b) con reemplazamiento Repaso de la distribución normal Ejercicios: 1) Si Z es una N(0, 1), calcular las siguientes probabilidades: a) p(Z<1) b) p( Z>1´3) c) p(Z<-0´5) d) p(-0´5<Z<1´3) 2) Si X es una N(15, 3), responder a las siguientes cuestiones: a) tipificarla a una N(0, 1) con el cambio Z X b) calcular las siguientes probabilidades: p(X<21) p(X<-7) p(X>31) Parámetros muestrales Elegida una muestra, hallaremos en ella la media X y la desviación típica S. Lo que tendremos que estudiar será la representatividad de estos parámetros muestrales con los parámetros reales de la población, es decir: la media poblacional , y la desviación típica de la población . Si en una población de N individuos tomamos todas las muestras posibles de tamaño n, se puede demostrar que la media de las medias muestrales coincide con la media poblacional, esto es X Sin embargo, no se cumple lo mismo para la desviación típica de las medias muestrales, sino que se verifica que S n , siendo n el tamaño de las muestras. Teorema central del límite La distribución de las medias muestrales de tamaño n, extraídas de una población normal N ( , ) , se ajustan a una normal N ( , n ). Si las medias muestrales provienen de una población no normal, pero el tamaño de las mismas es n30, la distribución de las medias muestrales también se ajusta a una N ( , n ). Ejemplo: en el último año, el peso de los recién nacidos en una maternidad se ha distribuido según una ley normal de parámetros gramos y = 150 gramos. a) ¿Cuál es la probabilidad de que un recién nacido pese más de 3.130 gramos? b) ¿Qué distribución seguirán las muestras de tamaño 100 de recién nacidos? c) ¿Cuál será la probabilidad de que la media de una muestra de tamaño 100 sea superior a 3.130 gramos? Ejercicio: en una oposición en la que participan miles de candidatos se hizo un examen tipo test. Las calificaciones se distribuyeron normalmente con media =72 puntos y desviación típica =10. a) ¿Cuál es la probabilidad de que un opositor elegido al azar obtenga más de 76 puntos? b) ¿Cuál es la probabilidad de que una muestra de 64 opositores obtenga un promedio superior a 76 puntos? Ejercicios: 1) Supongamos que la estatura media de las alumnas de bachillerato es 165 cm, con desviación típica 8 cm. a) Halla los parámetros de las medias muestrales de tamaños n=36 y n= 64 b) ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media superior a 167 cm.? ¿Y de que una muestra de 64 alumnas supere esa misma medida? c) ¿Tiene algo de extraño que una muestra de tamaño 36 tenga una media de 170 cm.? 3.- INTERVALOS DE PROBABILIDAD A los intervalos simétricos respecto de la media o proporción poblacionales se les denomina intervalos de probabilidad. Intervalos de probabilidad para la media muestral Sabemos que la distribución de medias muestrales es normal de media X y desviación típica, donde y son los parámetros de la población. Nos haremos la siguiente pregunta: ¿Cuál es la probabilidad de que la media muestral se encuentre entre dos valores simétricos respecto de la media poblacional?, es decir, queremos evaluar las siguientes probabilidades: p( a X a) Se llama intervalo de probabilidad para la media a uno de la forma ; k k tal que se cumple que la probabilidad de que X se n n encuentre en él es igual a . Al parámetro se le llama nivel de confianza, y la diferencia (1-) es el riesgo asumido. Si tipificamos la variable X , llegaremos a una expresión de la forma: p( Z k ) 1 2 , donde Z es una variable que se ajusta a una N(0, 1). De este modo podremos evaluar el valor de k consultando la tabla de valores de dicha distribución. Ejemplo: vamos a hallar el intervalo de probabilidad para el peso medio de una muestra de 100 recién nacidos, con un nivel de confianza de 0,9, sabiendo que =3.100 gramos y =150 gramos. Solución: como se ha dicho anteriormente, tenemos que evaluar la siguiente expresión pZ k 0´9 1 0´95 2 si consultamos en la tabla de la N(0, 1), comprobaremos que k 1´645 , por lo tanto, el intervalo de probabilidad será el siguiente: 150 150 ; 3.100 1,645 3.100 1,645 100 100 que simplificado, es el intervalo (3.075´325 ; 3.124´675) Ejercicios: 1. Hallar el intervalo de probabilidad con una confianza de 0´95 para la misma distribución. 2. Para las muestra de tamaño 36 extraídas de la distribución de calificaciones en una población de 120 alumnos, con media 5´5 y desviación típica 2´04, halla los intervalos de probabilidad para un nivel de confianza de: a) 75´4% b) 0´87 Ejercicios: 1. Si la estatura de las alumnas de segundo de Bachillerato se ajusta a la normal N(165, 8), en cm, halla, para las muestras de tamaño 64: a) El porcentaje de ellas que dará una media entre 163 y 167 cm. b) El intervalo de probabilidad con un nivel de confianza del 80%. 2. El nivel medio de colesterol (en mg/dl), en individuos sanos, depende de la edad y el sexo; para los hombres con menos de 21 años su distribución es normal con media =160 y desviación típica =10. Un nivel fuera de 2 resulta extraño: indica que puede haber alguna anomalía. Lo mismo cabe decir de las muestras: un nivel muestral fuera de 2 x resulta extraño. ¿Cuál es el intervalo de probabilidad admisible (no extraño) para las muestra de tamaño a) 1 b) 9 c) 100 d) ¿Qué porcentaje de individuos o muestras se encuentran en los intervalos hallados para los diferentes tamaños de la muestra? ______________________________ ESTIMACIÓN ESTADÍSTICA 1.- ESTIMACIÓN A PARTIR DE UNA MUESTRA Habitualmente, lo normal es que se desconozcan la media y la desviación típica de la población y que, mediante técnicas de muestreo, se busque estimarlas con la fiabilidad necesaria. Así, si para 400 individuos de una región, elegidos al azar, se obtiene una renta per cápita de 1.215.000 ptas, con una desviación típica de 650.000 ptas, podemos hacernos dos preguntas: 1. ¿La renta per cápita de los habitantes de toda la región será de 1.215.000 ptas? 2. ¿Qué seguridad se tiene de tal afirmación? Cuando se contestan estas preguntas se está haciendo una estimación a partir de la muestra. 2.- INTERVALOS DE CONFIANZA En este apartado vamos a dar respuesta a las dos preguntas anteriores. Intervalo de confianza para la media muestral Al intervalo X k ; X k se le llama intervalo de confianza para la n n media poblacional, siendo los elementos que aparecen en dicho intervalo, los ya estudiados anteriormente. La probabilidad de que la media de la población se encuentre en este intervalo es , que es el nivel de confianza. Si la confianza es , suele decirse que el nivel de significación es 1- , o nivel de riesgo. En el caso en que la desviación típica de la población sea desconocida (), no tendríamos más remedio que sustituirla por la desviación muestral s; así el intervalo de confianza para la media poblacional , para n 30 , sería s s ; X k X k n n con una probabilidad de , siendo X y s la media y la desviación típica de la muestra, respectivamente. A s se le llama error típico de la media. n Ejemplo: para una muestra de 400 personas elegidas al azar se obtiene una renta per cápita de 1.215.000 ptas. Si la desviación típica de la renta per cápita para la población es de 700.000 ptas, calcula el intervalo de confianza para la media poblacional con un nivel de significación de: a) 0,1 b) 0,05 Ejercicios: 1. Para una muestra de 30 alumnos se obtuvo una nota media en el último examen de matemáticas de x 5'83 , con una desviación típica s= 1’92. Determina el intervalo de confianza al 80%. Interpreta el resultado. 2. El peso medio de una muestra de 100 recién nacidos es 3.200 gramos. Sabiendo que la desviación típica de los pesos de la población de recién nacidos es de 150 gramos, halla el intervalo de confianza para la media poblacional para una significación de 0’05 3.- ERROR ADMITIDO Y TAMAÑO DE LA MUESTRA Error admitido Cuando decimos que la media poblacional X k ; X k con un n n nivel de confianza , estamos admitiendo un error máximo de k n . A este número se le llama error máximo admisible. Tamaño muestral El tamaño muestral mínimo de una encuesta depende de la confianza que se desee para los resultados y del error máximo que se esté dispuesto a asumir. El tamaño mínimo n de una muestra viene dado por: Para la media: n k E 2 Para tamaños de muestra mayores que n el error será menor que E. Ejercicios: 1. Se desea realizar una investigación para estimar el peso medio de los hijos recién nacidos de madres fumadoras. Se admite un error máximo de 50 gramos, con una confianza del 95%. Si por estudios anteriores se sabe que la desviación típica del peso medio de tales recién nacidos es de 400 gramos, ¿qué tamaño mínimo de muestra se necesita en la investigación? 2. Para 96 familias españolas, elegidas al azar, se ha determinado que la televisión permanece encendida en la casa una media de 217 minutos diarios; la desviación típica de la muestra fue de 40 minutos. a) Para una fiabilidad del 95%, ¿qué error se asume cuando se da por bueno ese dato para el total de las familias españolas? b) ¿Qué tamaño muestral sería necesario para reducir ese error a la mitad? ========================