Unidad 11: LAS MUESTRAS ESTADÍSTICAS 11.1.- EL PAPEL DE LAS MUESTRAS Frecuentemente encontramos en los medios de comunicación referencias a resultados de encuestas de opinión relativas a diversos aspectos de la actualidad política o sociológica: “Valoración de diversos líderes políticos”, “Tipo de lectura que se prefiere”… Estas informaciones vienen acompañadas de la “ficha técnica” de la encuesta correspondiente. Ejemplos: FICHA TÉCNICA DE UN SONDEO Proyecto y dirección técnica: IMOP Universo: Población española mayor de 18 años. Muestra: 1278 individuos. Tipo de muestreo: aleatorio, mediante entrevistas personales siguiendo un método estratificado por regiones. Límite máximo de error: ±3,1% Nivel de confianza: 95% Veamos otro ejemplo: la ficha técnica del sondeo que hizo el periódico EL PAÍS en las últimas elecciones al Parlamento Europeo. http://www.elpais.com/articulo/espana/PP/aventaja/PSOE/37/punto s/elpepunac/20090531elpepinac_1/Tes#despiece1 1 En estos ejemplos se mencionan ciertos conceptos (universo, muestra, tipo de muestreo, límite del error…) que iremos analizando en esta unidad y la siguiente. Población y muestra Si estamos interesados en conocer lo que opinan los electores sobre algunos líderes políticos, el colectivo que es objeto de nuestro interés es el de todos los españoles que pueden votar: los mayores de 18 años. Es la población o universo. No es posible preguntar a todos (sería muy caro y muy lento), por lo que recurrimos a algunos de ellos: una muestra. La opinión de unas personas nos sirve para hacernos una idea de lo que opina la totalidad de la población. Población o universo es el conjunto de todos los individuos objeto de nuestro estudio. Muestra es un subconjunto extraído de la población. Su estudio sirve para inferir características de toda la población. ¿Por qué se recurre a las muestras? En la práctica, es muy frecuente tener que recurrir a una muestra para inferir datos de una población por alguno de los siguientes motivos: • La población es excesivamente numerosa. Por ejemplo, la totalidad de los españoles que pueden votar. • La población es muy difícil o imposible de controlar. 2 Por ejemplo, la totalidad de las personas que entran en unos grandes almacenes a lo largo de una semana. • El proceso de medición es destructivo. Por ejemplo, se desea conocer la duración media de las bombillas que hay en un almacén. La forma de averiguar la duración de una bombilla es dejarla encendida hasta que se funda y cronometrar el tiempo. Es claro que sólo podremos probar con algunas de ellas. • Se desea conocer rápidamente ciertos datos de la población y se tardaría demasiado en consultar a todos. Por ejemplo, los sondeos electorales o de opinión. 11.2.- ¿CÓMO DEBEN SER LAS MUESTRAS? Hay dos aspectos de las muestras a los que debemos prestar mucha atención: su tamaño y cómo se realiza la selección de los individuos que la forman. Respecto al tamaño, es claro que si la muestra es demasiado pequeña no podremos obtener de ella ninguna conclusión que merezca la pena. Sin embargo, se consiguen imágenes sorprendentemente buenas de la realidad con muestras relativamente pequeñas. En la próxima unidad aprenderemos a obtener con exactitud el tamaño (número de individuos) que debe tener una muestra para conseguir lo que nos proponemos. Veamos a continuación, cómo se seleccionan los elementos de la muestra. 3 Muestreo Al sustituir el estudio de la población por el de la muestra, se cometen errores. Pero con ellos contamos de antemano y pueden controlarse. Sin embargo, si la muestra está mal elegida (no es representativa), se producen errores adicionales imprevistos e incontrolables (sesgos). La elección de la muestra se llama muestreo. Veamos a continuación cómo debe realizarse el muestreo para que nos proporcione muestras representativas. UNA ANÉCDOTA INTERESANTE En las elecciones americanas de 1936, en las que ganó Rooselvet, una revista hizo una encuesta de intención de voto a más de cuatro millones de sus lectores y se equivocó en su pronóstico. Otra encuesta realizada solo a 4500 personas anunció el éxito de Rooselvet con mucha exactitud. La razón es que en el primer caso la muestra no era representativa de la sociedad americana, pues todos eran lectores de una misma revista, mientras que en las 4500 personas de la segunda estaban bien representados todos los estamentos e ideologías de dicha sociedad. Muestreo aleatorio Una condición casi indispensable para que una muestra sea representativa es que sus elementos se hayan elegido aleatoriamente, al azar. Si la elección es subjetiva, los prejuicios de quien hace la elección se proyectan en el 4 resultado de la muestra que reflejará lo que esta persona cree que es la realidad. Por ejemplo, imagina que en un centro escolar se desea saber el tiempo que dedican a estudiar, por término medio, los 1300 alumnos y alumnas y para ello se extrae una muestra de 100 de ellos. a) Si fuera el director o una comisión de profesores quienes eligieran a los alumnos, procurando que hubiera alumnos “buenos”, “medianos”, “flojos”… la muestra sería sesgada, pues no reflejaría la realidad sino lo que el director o los profesores creyeran ver de la realidad. b) Si se eligieran los 100 primeros alumnos y alumnas que lleguen al centro un cierto día, también la muestra estaría contaminada, porque es posible que el llegar pronto al centro tenga que ver con el grado de responsabilidad de dichos alumnos y, por tanto, con su dedicación al estudio. c) Si se seleccionan mediante sorteo (se eligen al azar) los 100 individuos de la muestra, sí será representativa. Este muestreo se llama aleatorio. Se dice que un muestreo es aleatorio cuando todos los individuos de la muestra se eligen al azar, de modo que todos los individuos de la población tienen, a priori, la misma probabilidad de ser elegidos. En el apartado siguiente veremos distintos tipos de muestreos aleatorios. Ejercicios: 1, 2 y 3 pág. 272 5 11.3.- TIPOS DE MUESTREOS ALEATORIOS Muestreo aleatorio simple Es el tipo de muestreo aleatorio más sencillo y en él se basan todos los demás. Para obtener una muestra, se numeran los elementos de la población y se seleccionan al azar los n elementos que debe contener la muestra. Si los individuos son, por ejemplo, tornillos contenidos en un cajón, para obtener la muestra basta tomar n de ellos por simple extracción. Muestreo aleatorio sistemático Se numeran los individuos y, a partir de uno de ellos elegidos al azar, se toman los siguientes mediante “saltos” numéricos iguales. Por ejemplo, si el primero es el 5º y el salto es de 13, se elegirán 5º, 18º, 31º, 44º, … El “salto” se llama coeficiente de elevación, h, y se obtiene mediante el cociente entero entre el número de individuos de la población, N, y el número de individuos de la muestra, n: h= N n El primer elemento, llamado origen, se elige al azar entre los números 1, 2, 3, …, h. Una vez numerados los N individuos de la población y sabiendo que la muestra ha de ser de tamaño n, el proceso que se sigue es: - Se calcula el coeficiente de elevación h, dividiendo N entre n. 6 - Se averigua el primer elemento de la muestra, a1, obteniéndolo aleatoriamente de entre los h primeros. - Se obtienen los restantes elementos de la muestra: a2 = a1 + h, a3 = a2 + h, a4 = a3 + h, … Esta forma de muestreo sólo es válida si el criterio por el que se han numerado los individuos de la población no tiene nada que ver con la característica que se quiere estudiar a partir de la muestra. Ejercicio resuelto 1 (pág. 266) En un centro escolar hay 1300 alumnos. Explicar cómo se elige una muestra de tamaño 100: a) Mediante muestreo aleatorio simple. b) Mediante muestreo aleatorio sistemático. a) Se sortean 100 números de entre los 1300. La muestra estará formada por los 100 alumnos a los que correspondan esos números. b) Coeficiente de elevación: h = 1300 = 13 100 - Se sortea un número del 1 al 13. Supongamos que sale el 5. - Los alumnos seleccionados para la muestra son los que corresponden a los números 5, 18, 31, 44, 57, …, 1292. 7 Muestreo aleatorio estratificado Si la población puede dividirse en estratos (por ejemplo, por edades: menores de 18 años; de 18 a 50; más de 50), a veces conviene elegir la muestra fijando de antemano el número de individuos de cada estrato. Cuando estos números son proporcionales a los tamaños de los estratos, se dice que el muestreo es estratificado con reparto proporcional. ESTRATOS Nº de individuos en la población Nº de individuos en la muestra F1 N1 n1 F2 N2 n2 F3 TOTAL N3 N n3 n n n1 n n = = 2 = 3 N N1 N2 N3 8 En cada estrato, los ni individuos de la muestra se eligen aleatoriamente. Se procede a un muestreo aleatorio estratificado cuando se supone que la pertenencia a uno u otro estrato influye en la variable que estamos analizando. Por ejemplo: - Se puede suponer que los alumnos de cursos superiores estudian más que los demás. - La edad influye en las opiniones sobre aspectos sociológicos. - La pertenencia a una u otra comunidad autónoma puede influir en la “renta per cápita”, en la “tasa de paro”, en el precio de la vivienda, … Ejercicio resuelto 1 (pág. 267) Los 1300 alumnos de un centro escolar se reparten así: 1º 2º 3º 4º 5º 426 359 267 133 115 ¿Cómo se elegirá una muestra de 100 alumnos mediante muestreo estratificado con reparto proporcional? Ha de cumplirse: Hallamos n1 : n 100 n n n n = 1 = 2 = 3 = 4 = 5 1300 426 359 267 133 115 100 n 100 = 1 → n1 = ⋅ 426 = 32, 77 1300 426 1300 Análogamente se obtienen los demás: n2 = 27, 62 ; n3 = 20, 54 ; n4 = 10,23 ; n5 = 8, 85 9 La parte entera de estos números suma: 32 + 27 + 10 + 20 + 8 = 97 Faltan 3 para llegar a 100. Aumentaremos una unidad a los tres cocientes cuya parte decimal sea mayor: n1, n2 y n5. Por tanto, los cien individuos de la muestra se obtienen eligiendo aleatoriamente los siguientes alumnos: 33 de 1º, 28 de 2º, 20 de 3º, 10 de 4º y 9 de 5º Para que sea razonable haber recurrido al muestreo estratificado con reparto proporcional, la característica que se analiza debe depender, en alguna medida, del curso en el que se encuentra el alumno. Por ejemplo, la estatura, o bien el número de horas semanales de estudio u otra. 11.4.- TÉCNICAS PARA OBTENER UNA MUESTRA ALEATORIA DE UNA POBLACIÓN FINITA Ya hemos dicho en los apartados anteriores que para obtener una muestra aleatoria se “sortean” los individuos de la población para decidir al azar cuáles de ellos forman parte de la muestra. El “sorteo” puede realizarse de diversas formas: Elección mediante extracción En una caja se introducen tantas bolas o papeletas numeradas como individuos hay en la población (N). Estos han sido previamente numerados (1, 2, 3, …, N). Se escogen al azar tantas papeletas como individuos ha de tener la muestra (n). Esta operación puede realizarse de dos formas distintas: 10 - Sin reemplazamiento: se eligen simultáneamente, o bien una a una, las n papeletas. - Con reemplazamiento: se eligen una a una n papeletas pero, después de cada extracción, la papeleta elegida (y anotada) se devuelve a la caja. Con ambos métodos se consigue una muestra aleatoria, pues todos los elementos de la población tienen, a priori, la misma probabilidad de ser elegidos. Sin embargo, si la extracción se realiza con reemplazamiento, podríamos obtener algún individuo repetido que habría que desechar y realizar otra extracción. Por eso, cuando se procede por extracción, se debe realizar sin reemplazamiento, pues, además, el proceso es más cómodo. El sorteo por extracción se denomina también, sorteo por insaculación. Literalmente, insaculación significa meter en un saco. Alude al procedimiento de introducir los números o papeletas en una bolsa o caja. Obtención de números aleatorios Las calculadoras tienen una tecla , que se llama generadora de números aleatorios, con lo cual se obtiene al azar un número decimal comprendido entre 0,000 y 0,999. Por ejemplo: 11 Si multiplicamos uno de estos números por N (número de elementos de la población), obtenemos un número decimal cuya parte entera está comprendida entre 0 y N-1. Por tanto, si tomamos la parte entera del número obtenido mediante la secuencia número elegido al azar entre 1 y N. , obtenemos un Por ejemplo, para N = 45: Hemos obtenido, así, dos números (32 y 6) elegidos al azar entre 1 y 45. Obtención de una muestra mediante números aleatorios Si repetimos n veces el proceso descrito anteriormente, obtendremos una muestra de n elementos similar a la que se obtendría mediante una extracción con reemplazamiento. Tendríamos que completar la operación suprimiendo los elementos repetidos (que acaso haya) y obteniendo nuevos elementos que los reemplacen. Para poblaciones numerosas este es, evidentemente, el método más cómodo, pues no hay que andar preparando papeletas en grandes cantidades. Si la población tuviera más de 1000 elementos, habría que obtener los números aleatorios con ordenador, pues necesitaremos que tengan más de tres cifras decimales para poder “separar” todos los elementos de la población. Resumiendo: 12 - Si se obtiene la muestra por insaculación (extracción de papeletas), debe realizarse sin reemplazamiento. - Si se recurre a los números aleatorios, se consigue una muestra como si fuera con reemplazamiento. Puede haber elementos repetidos que deben suprimirse y ser sustituidos por otros, también elegidos aleatoriamente. Ejercicio resuelto 1 (pág. 269) De una población de 423 individuos, queremos extraer una muestra de tamaño 5. Describir el proceso para obtenerla mediante números aleatorios. Para multiplicar por 423 cualquier número que aparezca en pantalla, procedemos así: (factor constante) Ahora recurrimos a los números aleatorios: Los individuos con esta numeración son los que forman la muestra. Ejercicios: 4 y 5 pág. 272, 8 pág. 273. 13