CAPÍTULO 14 – MUESTREO ALEATORIO SIMPLE Y TAMAÑO DE LA MUESTRA 1. ¿Cuál es la diferencia (si existe) entre un parámetro y un estadístico? Un parámetro es una descripción resumida de una medida en la población definida, mientras que un estadístico es una descripción resumida de una medida en la muestra seleccionada. Pregunta del instructor para sondeo: En vista de que es poco realista presumir que un investigador conocería la desviación estándar (σ) en una encuesta, ¿usaría valores estadísticos o parámetros en los cálculos? Respuesta sugerida al sondeo: El investigador usaría parámetros en los cálculos, los cuales son más correctos desde el punto de vista técnico que los valores estadísticos. 2. Identifique los símbolos que denotan parámetros y estadísticos comunes, tanto en las variables continuas como dicotómicas. Continua Dicotómica Población Muestra 1) media µ X 2) varianza σ2 s2 1) proporción que responde “sí” π p 2) proporción que responde “no” (1-π) (1-p) o q 3) varianza de la proporción σ2 s2 159 Pregunta del instructor para sondeo: ¿Cómo se relacionan la población y la muestra? Respuesta sugerida al sondeo: Una población es el universo entero de todos los elementos posibles. Una muestra es un subconjunto de una población dada. 3. Defina en palabras y en notación matemática la media y la varianza para una población y una muestra; maneje primero la variable como continua y luego como dicotómica. Variable continua 1) Población: La media es una medida de tendencia central deducida al sumar los valores y dividir entre el número en la población N µ= ∑X i =1 i N La varianza es una medida de la dispersión de una distribución de valores obtenidos al dividir la suma de las desviaciones al cuadrado con respecto a la media entre el número en la población. N σ 2 = ∑(X i =1 i − µ) 2 N 160 2) Muestra: La media se obtiene al dividir la suma de los valores en la muestra entre el número en la muestra. n X= ∑X i =1 i n La varianza es obtenida al dividir la suma de las desviaciones al cuadrado con respecto a la media de la muestra entre el número de grados de libertad en la muestra. n s2 = ∑(X i =1 i − X )2 n Dicotómica 1) Población: La media se obtiene al dividir el número de respuestas afirmativas entre el número total en la población. N π= ∑X i =1 i N 161 La varianza se obtiene al multiplicar la media de la población por uno menos la media. σ 2 = π(1 − π ) 2) Muestra: La media es la suma de las respuestas afirmativas dividido entre el número en la muestra. N p= ∑X i =1 i n La varianza es la media de la muestra por uno menos la media de la muestra, multiplicado por el factor de ajuste para los grados de libertad. n s 2 = p(1 − p ) n −1 Pregunta del instructor para sondeo: ¿Qué significa un valor de incremento de la desviación estándar (es decir, 1σ, 2σ, 3σ)? Respuesta sugerida al sondeo: Entre mayor sea la desviación, son más los elementos en la muestra que se garantiza estén dentro de esa desviación. Por tanto, casi todos los elementos estarán contenidos dentro de 3σ. 162 4. ¿Por qué el teorema del límite central es fundamental para medir el error muestral? El teorema del límite central permite al investigador conocer: 1) que la media de la muestra que ha calculado viene de una distribución de las medias muestrales que tienen la forma de una curva normal; y 2) el tamaño de la desviación estándar de la distribución muestral. Además, ya que conocemos el área bajo una curva normal como se midió en las desviaciones estándar para la media, podemos medir el error muestral. Pregunta del instructor para sondeo: ¿Cuál es la relación entre el tamaño de las muestras (n) y el error muestral, de acuerdo con el teorema del límite central? Respuesta sugerida al sondeo: Con base en el teorema del límite central, podemos concluir que conforme n crece, la curva de distribución del muestreo se vuelve cada vez más normal (en forma de campana) y, por tanto, disminuye la desviación estándar. 5. ¿Qué es un intervalo de confianza? Un intervalo de confianza es un intervalo acerca de un estadístico calculado de una muestra extraída de una población específica, correspondiente a un nivel específico de confianza y estimado para un tamaño de muestra dado. Para un nivel de confianza dado (digamos .95), declaramos que los intervalos de confianza construidos en 95 de 100 muestras al azar contendrían el parámetro de población verdadero. Pregunta del instructor para sondeo: ¿Cómo se relaciona el intervalo de confianza con el tamaño de la población muestral? Respuesta sugerida al sondeo: Con base en un nivel de confianza aceptable que los investigadores escogen, luego se determina la población muestral necesaria para lograr ese nivel de confianza. 163 6. ¿Qué afecta el tamaño de un intervalo de confianza? 1) El tamaño de la muestra se relaciona en forma inversa al tamaño del intervalo de confianza. 2) La desviación estándar de la variable de interés se relaciona en forma directa con el tamaño del intervalo de confianza. 3) El nivel de confianza elegido se relaciona en forma directa al tamaño del intervalo de confianza. Pregunta del instructor para sondeo: El intervalo de confianza, desde el punto de vista teórico, se basa en el conocimiento de la desviación estándar (σ). El conocimiento de la σ en un estudio real es poco realista. ¿Qué se usa entonces para explicar la σ desconocida en un estudio real? Respuesta sugerida al sondeo: La distribución t (también conocida como la distribución t de Student) es una distribución usada, por ejemplo, para explicar el hecho de que la σ no puede conocerse con exactitud. 7. ¿Cuáles son las propiedades deseables de los estimadores? 1) Imparcial – el valor esperado del estadístico es igual al parámetro. 2) Consistente – mientras se incrementa el tamaño de la muestra, el estadístico converge en el parámetro. 3) Eficiencia – la distribución del estadístico alrededor del parámetro tiene una varianza más pequeña que la de cualquier otro estimador. Pregunta del instructor para sondeo: ¿Cuál es el estimador más eficiente? Respuesta sugerida al sondeo: El estimador más eficiente es el término usado para describir un estimador que proporciona la varianza mínima y por tanto el error estándar máximo para cualquier tamaño de muestra dado. 164 8. ¿Hasta qué punto los intervalos de confianza aumentan nuestra certeza al hacer inferencias? Los intervalos de confianza se basan sólo en una medición del error muestral. Si están presentes errores no muestrales, se introduce un sesgo de grado y magnitud desconocidas, haciendo que la inferencia sea algo menos exacta. Pregunta del instructor para sondeo: ¿En qué situaciones de negocios prácticas sería útil un intervalo de confianza? ¿Cuándo sería inadecuado un intervalo de confianza? Respuesta sugerida al sondeo: Para la gerencia de una compañía manufacturera, un intervalo le daría a la gerencia una idea para ayudar a pronosticar la demanda y los programas de producción, evaluando por tanto el riesgo implicado en la producción de una cierta cantidad de bienes. Con base en esta información, la gerencia puede decidir una cuota de manufactura y ordenar a la planta manufacturera producir esa cantidad de artículos. Sin embargo, considere que en una instalación manufacturera, no se le puede decir al gerente de la planta que produzca algo entre 5,000 y 10,000 artículos a la semana. El gerente necesita que se le diga una cifra exacta, configurando por tanto la línea y a las personas para que produzcan esa cantidad. 9. La mayoría de los escrutinios políticos consideraron que la elección presidencial de 1980 era demasiado estrecha para predecir. Explique cómo pudo suceder esto. El intervalo de confianza acerca de cualquier candidato a ser elegido se superponía un 50%. Además, había demasiados votantes indecisos. No estaba claro cómo distribuir su voto. Pregunta del instructor para sondeo: ¿Cuál es una forma posible para explicar a los votantes indecisos? 165 Respuesta sugerida al sondeo: Un muestreo separado de los votantes indecisos con algún tipo de escala de clasificación gráfica mediría cuántas personas se inclinan hacia un candidato u otro. Con base en estos resultados, los votantes indecisos podrían explicarse entonces y podría predecirse un ganador global. 10. ¿Cuáles son los problemas que es probable que se presenten al implementar un estudio de campo utilizando el muestreo aleatorio simple? 1) Obtener una lista completa de elementos de muestreo de donde elegir. 2) Brincar por toda esta lista en función de los elementos específicos seleccionados por número aleatorio. 3) No control de otras variables que podrían estar afectando los valores de los elementos seleccionados. Note que esta pregunta en realidad es una entrada a los acercamientos al muestreo que se presentan en el siguiente capítulo. Pregunta del instructor para sondeo: ¿El muestreo aleatorio simple está libre de sesgo muestral? ¿Por qué sí o por qué no? Respuesta sugerida al sondeo: Sí, el muestreo aleatorio simple está libre de sesgo muestral en virtud de que cada muestra tiene una oportunidad igual de ser seleccionada. Sin embargo, en situaciones prácticas, como en el campo, la probabilidad de que un elemento sea seleccionado puede cambiar debido a las razones planteadas antes. 11. ¿Por qué algunos investigadores calculan los intervalos de confianza a partir de datos generados en muestras no probabilísticas? 1) No entienden que eso no debe hacerse; o 2) Creen que eso hace que los resultados parezcan más científicos y por consiguiente más válidos. 166 Pregunta del instructor para sondeo: ¿Cómo se determinan los intervalos de confianza en forma apropiada? Respuesta sugerida al sondeo: El investigador de mercados debe usar métodos de muestreo probabilístico. 12. Puesto que las muestras no probabilísticas no generan una medida de error muestral, ¿por qué estos procedimientos se utilizan en forma tan extensa en la práctica comercial y académica? Las restricciones de tiempo y costo, además del hecho de que ciertas decisiones pueden tolerar grandes errores. Pregunta del instructor para sondeo: ¿Por qué las instituciones usarían un método inmensurable de investigación, aun si permite estudios más baratos y más rápidos? Respuesta sugerida al sondeo: Muchas formas de investigación pretenden dar al tomador de decisiones una estimación de una situación y reducir la incertidumbre de una situación hasta cierto grado. No todas las muestras no probabilísticas conducirán a decisiones de marketing importantes. 13. ¿Qué es precisión absoluta? ¿Qué es precisión relativa? La precisión absoluta se expresa en unidades. La precisión relativa se expresa en porcentajes del valor medio. Pregunta del instructor para sondeo: ¿Cuál es el propósito al definir cuán exacta (la exactitud es un término bidimensional que consiste en confiabilidad y precisión) necesita ser una muestra? 167 Respuesta sugerida al sondeo: Al definir el nivel deseado de exactitud, pueden determinarse el tamaño de la muestra y los recursos asociados necesarios. 14. ¿Qué información se necesita para poder calcular un tamaño de muestra estadísticamente óptima para: a) una variable continua y b) una variable dicotómica? Para una variable continua: 1) nivel de confianza 2) precisión requerida 3) coeficiente de variación (s/ X ) Para una variable dicotómica: 1) nivel de confianza 2) precisión requerida 3) p Pregunta del instructor para sondeo: ¿Cuál es la diferencia clave entre las variables continuas y las variables dicotómicas? Respuesta sugerida al sondeo: De manera básica, las variables continuas miden un continuo de posibilidades, y las variables dicotómicas miden valores discretos específicos. 15. ¿Qué factores deben considerarse al determinar el tamaño de la muestra para un estudio? 1) Objetivos de estudio. 2) Costo involucrado. 168 3) Condiciones de tiempo. 4) Tipo de análisis de datos planeado. 5) Existencia de errores no muestrales. 6) Tamaño de muestra estadísticamente óptima. Pregunta del instructor para sondeo: ¿Cómo se relaciona el tamaño de la muestra seleccionada con la población de la que se extrae la muestra? Respuesta sugerida al sondeo: El tamaño de la muestra de estudio es afectado por la variabilidad de la población de la que se selecciona la muestra. Un ejemplo de variabilidad es que los estudiantes por lo general tienen ingresos bajos y por tanto la variabilidad en la población de ingreso de los estudiantes es muy baja. Mientras que, por otra parte, los doctores tienen una gran variabilidad de ingresos basada en la especialidad, la ubicación, etc... La variabilidad de una población se resume con la desviación estándar de la población y, por consiguiente, debe estimarse antes de realizar la encuesta de muestreo. 16. El director de afiliación de un club estudiantil nacional quería realizar un estudio de actitudes de los 2,500 miembros actualmente activos del club y los 12,000 ex alumnos. a. ¿Qué marco o marcos muestrales es probable que estuvieran disponibles para este propósito? Es probable que las listas bastante exactas de miembros actuales y ex alumnos estarían disponibles en la sede nacional general de la fraternidad. b. Explique cómo seleccionaría una muestra aleatoria simple de miembros actuales y ex alumnos. Codifique cada miembro en la lista con un número (de 1 hasta 14,500). Para hacer una selección aleatoria, elija números en el orden indicado por la lista de números aleatorios. 169 c. La mayor parte de las preguntas estaban en una escala de clasificación de 7 puntos. Para un tamaño de muestra de 200 miembros, ¿cuál es el intervalo de confianza del 95% para un resultado de escala de clasificación donde la respuesta media es 2.4 y la desviación estándar es 1.1? Dadas X = 2.4, n = 200 y s = 1.1. Queremos encontrar el rango numérico para el intervalo de confianza del 95% alrededor de x. Para eso usamos la fórmula para el intervalo de confianza, la cual es: intervalo de confianza del 95%: = x ± 2(s/ n ) Ponga los números dados en las fórmulas y resuelva las incógnitas. IC del 95% = x ± 2(s/ n ) = 2.4 ± 2(2.4 / 200) = 2.4 ± .34 = 2.06 a 2.74 d. Una pregunta se refería a la proporción de ex alumnos miembros que asisten a las reuniones de la organización local. Desde el punto de vista histórico, esta proporción ha sido alrededor de 20%. El director de afiliación concluyó que un error de ±5% era aceptable para realizar esta estimación. ¿Cuál es el tamaño de la muestra que generará este tipo de estimación al nivel de confianza de 95%? Dado que p = .2, IC = 95% y la precisión es ± .05. Para resolver este problema, use la fórmula para precisión de variables dicotómicas, la cual es: precisión = ±2 pq n 170 Podemos sustituir los números que tenemos y resolver para la variable incógnita n. .05 = 2 .2 × .8 n .05 n = 2 .16 elevando al cuadrado ambos lados, obtenemos .0025n = 4 × .16 .0025n = .64 n = 256 Pregunta del instructor para sondeo: ¿Qué sesgos posibles se encuentran en esta muestra en el campo? Respuesta sugerida al sondeo: Algunos sesgos posibles que pueden producirse en el campo incluyen localizar ex alumnos antiguos actualizados y darse cuenta del sesgo que se crea si los miembros activos y los miembros no activos son tratados igual (los miembros activos serán más positivos o negativos en forma inherente que los miembros no activos debido a su proximidad a la organización). 17. MINICASO El instituto del café quería estimar el número de tazas de café que consumían al día los residentes de California. El coeficiente de variación en los estudios previos de este tipo había sido .31. La gerencia deseaba una precisión de ± 5% de la media, y estaba dispuesta a utilizar el nivel de confianza de 95%. a. ¿Cuál es un tamaño de muestra apropiado? Hay dos formas de encontrar el tamaño de muestra apropiado. Uno es más difícil pero más exacto. Primero el método más exacto: 171 Para encontrar el tamaño de muestra apropiado, necesitamos realizar un poco de álgebra. Usando las fórmulas para la precisión y el coeficiente de variación, podemos resolver para el tamaño de la muestra. precisión = ±2s/ n = 5% de la media = .05 X coeficiente de variación = s/ X = .31 Podemos combinar las dos ecuaciones en la siguiente forma: s/ X = .31 de modo que X = s/.31 Eliminando la s 2/ n = .05/.31 Haciendo una multiplicación cruzada .62 = .05 n Luego se elevan al cuadrado ambos lados para eliminar el radical .3844 = .0025n Se dividen ambos lados entre .0025 para resolver n 154 = n 172 El método fácil es éste: Observe la figura 13-4. Proporciona un tamaño de muestra aproximado necesario para una precisión (error permisible relativo), nivel de confianza y coeficiente de variación dados. b. Si la gerencia cambiara la precisión requerida a ± 2% de la media y si se considerase que una mejor estimación del coeficiente de variación sería .4, ¿cuál sería el tamaño de muestra apropiado? precisión = ±2s/ n = 2% de la media = .02 X coeficiente de variación = s/ X = .4 Podemos combinar las dos ecuaciones en la siguiente forma: s/ X = .4 de modo que X = s/.4 Luego, sustituyendo esto por X en la fórmula de precisión, obtenemos 2 s/ n = .02 s/.4 Eliminando la s 2/ n = .02/.4 Haciendo una multiplicación cruzada .8 = .02 n 173 Luego se elevan al cuadrado ambos lados para eliminar el radical .64 = .0004n Se dividen ambos lados entre .0025 para resolver n 1600 = n Por tanto, podemos ver que al incrementar la precisión (disminuyendo el porcentaje de desviación) e incrementar el coeficiente de variación, necesitamos una muestra mucho mayor para generar un resultado en el nivel de confianza de 95%. Pregunta del instructor para sondeo: ¿Cuáles sesgos posibles se encuentran en esta muestra en el campo? Respuesta sugerida al sondeo: Algunos sesgos posibles que pueden resultar en el campo incluyen el periodo en que se aplica la encuesta (el clima tiende a estimular o desalentar la ingestión de café) y ciertas áreas, como los campus universitarios, que tienen un consumo mayor de café que otras áreas urbanizadas. 174