Inferencia Estadística La explicación que aquí iniciamos tiene como objetivo dar respuesta a las siguientes preguntas: 9Qué procedimientos de muestreo existen Tema 1 - Elementos de la teoría del muestreo 1.1. Conceptos básicos: muestra aleatoria y estadístico. 1.2. Otros tipos de muestreo. Introducción Cuando en estadística se puede observar todos los elementos de un colectivo (se puede realizar la llamada observación exhaustiva) entonces la tarea de la estadística se reduce a describir las características y regularidades. Es la materia tratada en Estadística Descriptiva. Pero frecuentemente, la observación de los elementos del colectivo NO puede ser exhaustiva (No podemos conocer TODOS los elementos) Como los siguientes casos: En estos casos se ha de proceder al estudio de las características de la Población a través de un subconjunto representativo del colectivo, Muestra. La información suministrada por el subconjunto puede servir para inducir o inferir, con mayor o menor exactitud, las características de la Población Es la materia tratada en Inferencia Estadística. 9Cómo se diseña un muestreo probabilístico 9Cuándo se emplea muestreo no probabilístico 9Ventajas e inconvenientes de los diversos tipos de muestreo 9Aplicaciones concretas de los métodos de muestreo expuestos 1. El estudio de los elementos del colectivo puede implicar la destrucción del propio elemento, como es el caso de los ensayos destructivos. Por ejemplo: estudiar la vida media de una partida de bombillas la tensión de rotura de un cable 2. Los elementos pueden existir conceptualmente, pero No en la realidad población de piezas defectuosas que producirá una máquina 3. Puede ser inviable económicamente (coste) estudiar toda la Población Por tanto, la naturaleza de la Inferencia Estadística está ligada a las nociones de Población y Muestra. Según lo ya explicado podemos definir: Población: Una Población está constituida por todos los elementos que poseen unas características por cuyo estudio estamos interesados Muestra: Una Muestra es un subconjunto REPRESENTATIVO seleccionado de una Población es la idea clave de esta relación queremos reflejar las características esenciales de la Población de la cual se obtuvo 1 La razón de ser de la Inferencia Estadística es la falta de conocimientos acerca de las características de la Población Pero aunque tales características se desconozcan no impide el que se actúe sobre las mismas toma de decisiones en un ambiente de incertidumbre: decisiones de políticos, empresarios, etc.- se decide sobre las características de la Población (estados de la naturaleza) sin estar del todo seguros de qué cosas son ciertas Lo que la mayoría de personas hacen, es realizar sus propias Estimaciones, lo más certeras posibles, sobre los estados de la naturaleza basándose para ello en la información disponible de esa Población Para asegurarnos de la realización correcta de la selección en la Muestra, por tanto, que no cometemos errores que puedan afectar al resultado obtenido se define el concepto de Muestra Aleatoria Además, también se definen ciertos procedimientos o mecanismos de cálculo de las Estimaciones basados exclusivamente en la información disponible de las observaciones, que conocemos con el nombre de Estadísticos proporcionan alguna información acerca del parámetro desconocido de la Población Es la materia tratada en el apartado de Teoría del Muestreo. Por ejemplo: La Media Muestral es un Estimador de la Media Poblacional - característica poblacional porque, 9proporciona un método para estimar la Media Poblacional 9es un Estadístico, y como distribución de probabilidad tal tiene una Es la materia tratada en el apartado de Estimación Estadística De forma parecida, la Inferencia Estadística hace estas Estimaciones utilizando las posibilidades o probabilidades Por ejemplo: a partir de la Media Muestral (calculada sobre la información disponible) se hace inferencia sobre la Media Poblacional (desconocida) No conoceremos cuál es la diferencia entre estas 2 medidas (una es desconocida), no obstante, si se puede saber con una cierta probabilidad que valores puede tomar Partiendo del hecho cierto de que una Muestra, en general, no da una información exacta de las características de la población que deseamos estudiar, puede procederse así: 1. Utilizar la Muestra para estimar las características de la Población. Este enfoque origina la llamada Teoría de la Estimación. Al estimar un parámetro poblacional desconocido se suele hacer una afirmación o juicio Este juicio solamente ofrece una Estimación ¾ Estimación: el valor particular obtenido mediante la utilización de métodos o procedimientos – Estimadores - para estimar una característica que sólo hace uso de las observaciones de la muestra 2. Emitir Hipótesis sobre las características tomando como base la experiencia, otras informaciones o incluso el presentimiento o la corazonada. Este enfoque da lugar a la llamada Teoría de la verificación o contrastación de Hipótesis. Una Hipótesis así formulada tiene, evidentemente, poco rigor o valor científico Este valor se adquiere tomando una Muestra de la Población y utilizándola para verificar o contrastar la hipótesis Es la materia tratada en el apartado de Contraste de Hipótesis 2 Conceptos fundamentales Población: se denomina población a una colección finita o infinita de unidades (individuos o elementos) de las cuales se desea obtener una información. Las unidades de la población pueden ser familias, empresas, personas, amas de casa, etc. En cada unidad es posible medir distintas características, o clasificarla con arreglo a éstas. Por ejemplo, se puede medir la edad, el nivel de renta, el status, la actitud hacia un producto, la compra mensual en euros, etc. Variables: En los elementos de una población se pueden definir distintas características o variables Unas pueden ser métricas, como el número de unidades consumidas de un producto, el gasto en ocio, la edad, o la renta Otras veces las variables son nominales, como la marca que se consume, o si es consumidor o no de un producto Estadístico o estimador: Es una función de los valores muestrales Una descripción resumida de la muestra, como la media de renta de las personas de la muestra o la proporción de personas de la muestra que consumen un producto, o tienen coche, etc. Los estadísticos se utilizan para estimar los valores de los parámetros o valores poblacionales Los estadísticos son aleatorios - No todas las muestras proporcionan el mismo valor para un estadístico – y como tal tiene una distribución de probabilidad Muestra: Se denomina muestra a una parte de las unidades que forman la población A partir de la muestra se pueden inferir o estimar las características de la población, como la media de consumo por unidad, el porcentaje de unidades que poseen determinada característica, etc. Generalmente se trata varianzas y proporciones de estimar medias, Parámetros: Un parámetro es un valor que describe de forma resumida la población Para variables métricas se utiliza la media: de unidades consumidas por familia, de edad, etc. Para variables nominales se utiliza la proporción: de consumidores de determinada marca Los parámetros son los verdaderos valores de la población y generalmente, son desconocidos. El objetivo del muestreo será determinar su magnitud Tipos de muestreo Se denomina muestreo al procedimiento mediante el cual se elige una muestra La muestra debe ser representativa de la población que se desea estudiar y reflejar las características de los elementos que la componen Solamente en este caso se pueden elevar los resultados de la muestra a la población, de ahí la importancia del procedimiento mediante el cual se elige la muestra Existen muchos tipos de muestreo que se pueden resumir en dos grandes grupos: muestreo probabilístico y no probabilístico. 3 Muestreo no probabilístico Muestreo probabilístico La selección de la muestra no es aleatoria, sino que se basa, en parte, en el juicio del entrevistador o del responsable de la investigación. Se eligen las unidades muestrales a través de un proceso aleatorio No se apoya en ninguna teoría de la probabilidad y, por lo tanto, no es posible calcular la precisión o acotar el error cometido. Existen varios procedimientos de muestreo no probabilístico: Muestreo de conveniencia, según criterio, diseño de bola de nieve y muestreo por cuotas. Cada elemento de la población tiene una probabilidad conocida de ser elegido. Este tipo de muestreo se base en la estadística teórica, lo que permite acotar los errores cometidos o evaluar la precisión Es el único método que puede evaluar la representatividad de la muestra Los costes y la dificultad del diseño son más reducidos. Existen diversos procedimientos, pero todos ellos se basan en un proceso de azar Puede dar buenos resultados, pero también apareja el riesgo de proporcionar una información errónea. En todo caso no es posible calcular estos errores, que, además, no siempre se reducen aumentando el tamaño de la muestra. No obstante, se utilizan, con frecuencia, de forma eficaz. La representatividad de una muestra depende del procedimiento con que se ha elegido, de ahí la importancia de hacer un diseño cuidadoso del muestreo. Un buen diseño puede obtener mayor representatividad que muestras más grandes obtenidas con otros procedimientos Procedimientos de muestreo probabilístico 1 - Muestreo aleatorio simple - M.A.S. – Es un muestreo sin reemplazamiento Todas las unidades que componen la población tienen la misma probabilidad de ser elegidas Para realizar un M.A.S se necesita la enumeración de las N unidades que componen la población para obtener aleatoriamente una muestra de números comprendidos entre 1 y N hasta formar una muestra de n unidades. La dificultad consiste en la localización previa de todos los elementos de la población, lo cual suele resultar muy difícil en la práctica. Por eso se acude a procedimientos pseudoaleatorios, intentando que todas las unidades de la población tengan la misma probabilidad de ser elegidas. Una muestra estratificada se selecciona de la siguiente forma: Se divide la población en subgrupos o estratos, de forma que éstos sean homogéneos Cada estrato tiene un tamaño Nh. El tamaño total de la población será la suma de los elementos de todos los estratos: N = ∑N h h Los estratos son excluyentes, de manera que cada individuo de la población pertenezca a un estrato y sólo a uno Los criterios de selección de los estratos deben estar relacionados con el objetivo de estudio Por ejemplo, si se quiere estudiar la proporción de jóvenes que consumen alcohol, la estratificación será según el nivel de edad, ya que se puede esperar que a los 15 años dicho consumo sea diferente que a los 25 años Procedimientos de muestreo probabilístico 2 - Muestreo estratificado Si en la población se pueden diferenciar grupos de tal forma que su comportamiento respecto a la variable a estudiar sea homogéneo en cada grupo y muy diferente de un grupo a otro, se puede lograr mayor precisión obteniendo una muestra estratificada. Se obtendría una mayor precisión si se obtuviera una muestra independiente en cada uno de estos estratos. Los criterios de estratificación más usuales en investigación comercial son: sexo, edad, hábitat, clase social, nivel profesional, número de hijos, zona geográfica, tamaño del establecimiento, etc. De cada uno de los estratos se obtiene una muestra aleatoria simple, de tamaño nh, independiente en cada uno de los estratos, de manera que: n = ∑ nh h El muestreo estratificado permite obtener una estimación más precisa de los parámetros de la población, pero además proporciona estimaciones de los parámetros en cada estrato Otra ventaja del muestreo estratificado es que se puede dar un tratamiento diferente a la población en cada estrato Por ejemplo, si para un estudio de opinión sobre una revista se consideran dos estratos, el de los lectores y el de los anunciantes, se pueden dar dos tratamientos diferentes. En el primer caso, recoger la información mediante encuesta postal con el incentivo de un sorteo, y en el de los anunciantes, mediante encuesta telefónica. 4 El mayor inconveniente es el diseño. Para planificarlo es necesario tener bastante información sobre algunos aspectos de la población para poder diseñar los estratos y disponer de un marco en cada uno de ellos En cuanto al número de estratos, no existe ninguna norma precisa. En general, si los estratos están bien definidos, cuanto mayor sea su número, mayor es la precisión, pero cuanto mayor es el número de estratos, más difícil es el diseño y más complicados los cálculos En el diseño no sólo hay que decidir sobre el tamaño de la muestra n, sino también sobre el reparto por estratos nh. Este reparto se denomina afijación La afijación en cada estrato, nh, depende del tamaño del estrato Nh y de la heterogeneidad del estrato Sh- a los estratos más heterogéneos se les asigna mayor tamaño muestral En general se cumple que la afijación óptima es más precisa que la proporcional y ésta más que la afijación simple Obsérvese que si todos los estratos tienen la misma varianza, la afijación óptima coincide con la proporcional El problema de la afijación óptima es que para su diseño se necesita mayor información que para la proporcional - el tamaño del estrato, Nh, su variabilidad Sh En la práctica no se suele conocer este parámetro y se recurre a procedimientos aproximados, igual que para la estimación de S en el M.A.S., como encuestas piloto, métodos subjetivos, etc. Existen distintas formas de realizar la afijación: Afijación Simple - En todos los estratos se obtiene una muestra de igual tamaño. Si hay L estratos, tendremos n1 = ... = nh = ... = nL = n L Afijación proporcional - El tamaño muestral de cada estrato está en proporción al tamaño del estrato en la población n1 n n n = ... = h = ... = L = N1 Nh NL N De donde nh = n Nh N en este caso el peso del estrato en la población es igual el nh peso del estrato en la muestra: N Wh = h y w h = n N Afijación Óptima - Se asignan los tamaños muestrales de forma que el error de la estimación del parámetro poblacional sea mínimo, es decir, los resultados, más precisos S ·N n1 nh nL n = = ... = = ... = nh = n h h S1 ·N1 S h ·N h S L ·N L S · N De donde S ·N Procedimientos de muestreo probabilístico 3 - Muestreo sistemático Constituye una alternativa a la selección aleatoria, ya que es sencillo de aplicar Exige la existencia de un listado en el que las unidades de la población estén numeradas Permite seleccionar cada elemento de una lista. Además, es más fácil de supervisar Consiste en tomar cada unidad k-ésima del muestreo después de un arranque aleatorio, como en el siguiente ejemplo. Consideremos una població población de tamañ tamaño N en la que se desea tomar una muestra de tamaño n. El intervalo de muestreo será k = N / n (número entero). Se selecciona al azar un número del 1 al k, éste es r, el arranque aleatorio. Los elementos seleccionados serán los numerados con: r, r + k, r + 2k, ..., r + (n-1)k Ejemplo. Si la población es de N = 4.000 y se desea obtener una muestra de tamaño n = 200, se obtendrá k = 4.000/200 = 20. 4.000 Si el número aleatorio obtenido no superior al 20 ha sido el r =15 se selecciona el elemento de la población numerado con el 15 como primer elemento de la muestra y se suma 20 a los números que se van obteniendo hasta completar la muestra; serán los numerados con 15, 35, 55, ..., 3.995. Si el orden de los elementos en la lista es al azar, este procedimiento es equivalente al M.A.S, aunque resulta más fácil de llevar a cabo sin errores Si por el contrario, el orden de los elementos es tal que los individuos próximos tienden a ser más semejantes que los alejados, el muestreo sistemático tiende a ser más preciso que el M.A.S, al cubrir más homogéneamente toda la Población 5