TEORÍA DE MUESTREO (HAMLET Mata Mata prof. Del Tecnologico de El Tigre) www.mipagina.cantv.net/hamletmatamata POBLACIÓN Y MUESTRA Una población está determinada por sus características definitorias. Por lo tanto, el conjunto de elementos que posea esta característica se denomina población o universo. Población es la totalidad del fenómeno a estudiar, donde las unidades de población poseen una característica común, la que se estudia y da origen a los datos de la investigación. Entonces, una población es el conjunto de todas las cosas que concuerdan con una serie determinada de especificaciones. Un censo, por ejemplo, es el recuento de todos los elementos de una población. Cuando seleccionamos algunos elementos con la intención de averiguar algo sobre una población determinada, nos referimos a este grupo de elementos como muestra. Por supuesto, esperamos que lo que averiguamos en la muestra sea cierto para la población en su conjunto. La exactitud de la información recolectada depende en gran manera de la forma en que fue seleccionada la muestra. Cuando no es posible medir cada uno de los individuos de una población, se toma una muestra representativa de la misma. La muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las características que definen la población de la que fue extraída, lo cual nos indica que es representativa. Por lo tanto, la validez de la generalización depende de la validez y tamaño de la muestra. Leyes del método de muestreo. El método de muestreo se basa en ciertas leyes que le otorgan su fundamento científico, las cuales son: Ley de los grandes números: si en una prueba, la probabilidad de un acontecimiento o suceso es P, y si éste se repite una gran cantidad de veces, la relación entre las veces que se produce el suceso y la cantidad total de pruebas (es decir, la frecuencia F del suceso) tiende a acercarse cada vez más a la probabilidad P. Cálculo de probabilidades: La probabilidad de un hecho o suceso es la relación entre el número de casos favorables (p) a este hecho con la cantidad de casos posibles, suponiendo que todos los casos son igualmente posibles. El método de establecer la probabilidad es lo que se denomina cálculo de probabilidad. De estas dos leyes fundamentales de la estadística, se infieren aquellas que sirven de base más directamente al método de muestreo: Ley de la regularidad estadística: un conjunto de n unidades tomadas al azar de un conjunto N, es casi seguro que tenga las características del grupo más grande. Ley de la inercia de los grandes números: esta ley es contraria a la anterior. Se refiere al hecho de que en la mayoría de los fenómenos, cuando una parte varía en una dirección, es probable que una parte igual del mismo grupo, varíe en dirección opuesta. Ley de la permanencia de los números pequeños: si una muestra suficientemente grande es representativa de la población, una segunda muestra de igual magnitud deberá ser semejante a la primera; y, si en la primera muestra se encuentran pocos individuos con características raras, es de esperar encontrar igual proporción en la segunda muestra. Inferencia Estadística La Inferencia Estadística es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan la función de distribución) que sigue una variable aleatoria de una determinada población, a través de una muestra (parte de la población) obtenida de la misma. La inferencia estadística es el proceso a través del cual se extraen conclusiones relativas a una población a partir de una muestra . La expresión inferencia se utiliza también para designar su resultado y la rama de la estadística que se ocupa de ella. Los estadísticos son funciones de los valores observados en la muestra. (ya se han visto algunos, como la media, la desviación típica, percentiles) Por ser funciones de una variable aleatoria, los estadísticos son también variables aleatorias y por lo tanto a cada uno de ellos se le puede asociar una distribución de probabilidad llamada distribución en el muestreo del estadístico dado. Es posible pasar de la Teoría de la Probabilidad a la Inferencia Estadística. En la mayor parte de las técnicas que se describen aquí, las inferencias (conclusiones) se refieren a parámetros poblacionales. Sin embargo, es posible realizar inferencias que no se relacionen con parámetros (ver análisis de frecuencias). Según la finalidad de la Inferencia Estadística se puede dividir en: * TEORÍA DE LA VERIFICACIÓN DE HIPÓTESIS. * TEORÍA DE LA ESTIMACIÓN. Los dos problemas fundamentales que estudia la inferencia estadística son el "Problema de la estimación" y el "Problema del contraste de hipótesis". Cuando se conoce la forma funcional de la función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los parámetros que la determinan, estamos en un problema de inferencia estadística paramétrica; por el contrario cuando no se conoce la forma funcional de la distribución que sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica. En lo que sigue nos vamos a limitar a problemas de inferencia estadística paramétrica, donde la variable aleatoria objeto de estudio sigue una distribución normal, y sólo tendremos que tratar de estimar los parámetros que la determinan, la media y la desviación típica. Esta situación se presenta con frecuencia debido a que es posible a menudo conocer la forma funcional de la distribución de probabilidad, por consideraciones teóricas, quedando únicamente indeterminados los parámetros que determinan la función de distribución. Como las poblaciones en las que se pretende estudiar una determinada variable aleatoria, son grandes, es muy caro o imposible, estudiar a todos sus individuos; lo que se hace, es estudiar una muestra ( una parte) de la población. En todos estos problemas que estudia la inferencia estadística juega un papel fundamental la "Teoría de la Probabilidad" (distintas formas funcionales de las distribuciones de probabilidad) y la "Teoría de Muestras" (procedimientos para tomar muestras de manera apropiada). TEORÍA DEL MUESTREO. La teoría de muestreo frecuentemente es llamada teoría de Nyquist o Shannon por los investigadores del primer trabajo sobre el tema, lo cual ocurrió en los años cuarenta.Conceptualmente definida como el estudio de las relaciones existentes entre una población y muestras extraídas de la misma. La teoría del muestreo tiene especial utilidad para determinar si las diferencias que se pueden observar entre dos muestras son debidas a la aleatoriedad de las mismas o si por el contrario son realmente significativas; lo que nos lleva a los procesos denominados ensayos e hipótesis de significación, fundamental para comprensión de la teoría de la decisión, en el área de la inferencia estadística. Abarca el estudio de las relaciones que existen entre una población y las muestras extraídas de la misma. Permite estimar los parámetros poblacionales (media, varianza, etc.) a partir de los correspondientes valores muestrales, denominados estadísticos. La teoría del muestreo también permite determinar si las diferencias observadas entre dos muestras son significativas o, por el contrario, debidas al azar, lo que supone la realización de ensayos e hipótesis de significación. Pues bien, la teoría del muestreo estudia las técnicas y procedimientos que debemos emplear para que las muestras sean representativas de la población que pretendemos estudiar, de forma que los errores en la determinación de los parámetros de la población objeto de estudio sean mínimos. Para conseguirlo, la muestra tiene que ser representativa de la población. Para que la extracción de la muestra sea representativa se deben cumplir dos principios básicos: Que haya independencia en la selección de los individuos que forman la muestra. Que todos los individuos tengan la misma probabilidad de ser incluidos en la muestra. El propósito de un estudio estadístico suele ser, extraer conclusiones acerca de la naturaleza de una población. Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de los casos, las conclusiones obtenidas deben basarse en el examen de solamente una parte de ésta, lo que lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de muestreo. Los primeros términos obligados a los que se debe hacer referencia, estimador. serán los de estadístico y Dentro de este contexto, será necesario asumir un estadístico o estimador como una variable aleatoria con una determinada distribución, y que será la pieza clave en las dos amplias categorías de la inferencia estadística: la estimación y el contraste de hipótesis. El concepto de estimador, como herramienta fundamental, se caracteriza mediante una serie de propiedades que servirán para elegir el ``mejor" para un determinado parámetro de una población, así como algunos métodos para la obtención de ellos, tanto en la estimación puntual como por intervalos. ¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población cuando sólo se conoce una muestra? Este es un problema que se enfrenta cuando por ejemplo se trata de estudiar la relación entre el fumar y el cáncer de pulmón y se intenta extender las conclusiones obtenidas sobre una muestra al resto de individuos de la población. La tarea fundamental de la estadística inferencial, es hacer inferencias acerca de la población a partir de una muestra extraída de la misma. Las técnicas estadísticas para ser utilizados requieren datos, cuya adquisición es un compromiso difícil. La teoría de muestras o muestreo tiene por objeto proporcionar una metodología que guíe los problemas de recogida de datos, es decir, cómo se hace para recoger esos datos. Por lo tanto, El muestreo es una herramienta de la investigación científica. Su función básica es determinar que parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población. El error que se comete debido a hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación de sólo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versión simplificada de la población, que reproduzca de algún modo sus rasgos básicos. En el muestreo se utilizan por lo general las siguientes Terminologías: UNIVERSO: Se define como un conjunto finito o infinito de elementos, seres o cosas que presentan características comunes entre si. POBLACIÓN: Está constituida por el conjunto de medidas de las variables en estudio, en cada una de las unidades que conforman el universo. Es decir, cada una de las variables en estudio constituye una población que viene dada por el conjunto de valores que ella toma de la realidad que conforman el universo. MUESTRA: Es un subconjunto del universo o de la población, dependiendo de que se haya seleccionado a un grupo de elementos o a un grupo de mediciones. Es el conjunto de unidades o elementos de análisis sacados del marco. UNIDADES ESTADÍSTICAS O UNIDAD DE INVESTIGACIÓN: Es la unidad mínima que mantiene la integridad de los datos que interesan estudiar y analizar. Es decir, el ente que contiene las partes que se van a analizar. UNIDAD DE ANÁLISIS: Está definida como el elemento que se examina y del que se busca la información dentro de la unidad de investigación. Es por lo tanto el objeto o individuo del que hay que obtener la información. UNIDAD DE OBSERVACIÓN: Se denomina a la unidad a través de la cual se obtiene la información, esta puede o no coincidir con el elemento. También se denomina unidad respondiente. UNIDADES DE MUESTREO: Son aquellas que contienen las unidades de análisis de la población y que se utilizarán para confeccionar o seleccionar la muestra. En general, es la selección de los conjuntos que serán tomados en cuenta para la conformar la muestra final en la investigación. En otras palabras es un número de elementos de la población, no reservados, que se van a estudiar. Todo miembro de la población pertenecerá a una y sólo una unidad de muestreo. MUESTREO: Es la técnica empleada para la selección de elementos (unidades de investigación) representativos de la calidad y condiciones medias de un todo que conformarán una muestra. Este muestre puede ser: No Probabilístico y Probabilístico. MARCO MUESTRAL: Es el proceso de definir y enumerar los elementos sobre los cuales se realizan las inferencias estadísticas en el muestreo probabilística. Es importante la construcción de un marco muestral lo más perfecto posible a fin de que exista una correspondencia biunívoca entre las unidades muestrales poblacionales y las listas físicas que lo conforman. Entre los factores que contribuyen a distorsionar la calidad de un buen marco muestral están: a) Elementos faltantes, b) Unidades ocultas por estar pareadas con otras, c) Unidades muestrales repetidas y d) Elementos extraños. Parámetro: Son las medidas o datos que se obtienen sobre la población. Estadístico. Son los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los parámetros. Error Muestral, de Estimación o Estándar. Es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varían muestra a muestra). Varía según se calcule al principio o al final. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución muestral de un estadístico y su fiabilidad. Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que queremos recoger está distribuida según una ley de probabilidad (Gauss o Student), así llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del parámetro. Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el número de entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos. SIGNIFICANCIA ESTADÍSTICA.- Este concepto es una forma de expresar matemáticamente si dos grupos son o no diferentes dentro de una muestra o si dos variables tienen diferencias dentro de un mismo grupo y esas diferencias no son debidas a factores aleatorios. El método utilizado para hallar la significación estadística, es un tipo especial de método matemático que se llama análisis estadístico. Es necesario crear una unidad de medida para lo cual se usa el valor de p, al estudiar distribución de frecuencias, o el estudio de las colas de las distribuciones, o el área bajo una determinada curva, etc. Por lo tanto p es la probabilidad de error al comparar dos o más muestras o grupos cuando aseguramos que ambos son diferentes. O sea que p es la probabilidad en el sentido de la significación estadística. Obtener una p < 0.05 significa que tenemos un 5% de probabilidades de error en las conclusiones, por lo cual la probabilidad de equivocarnos es baja. En otras palabras, en la estadística, se dice que un evento, suceso o valor, es significativo, cuando es poco probable y por lo tanto, seguramente no se debe al azar, sino a factores específicos. De forma más estricta, significación estadística, hace referencia a la cuestión de determinar estadísticamente, si un valor o resultado obtenido de una muestra, es poco probable, de modo que no puede explicarse por las fluctuaciones propias de esa muestra en cuestión. El diseño de muestras tiene dos procesos fundamentales: Proceso de selección: Reglas y operaciones mediante las cuales se incluyen algunas unidades de la muestra. Proceso de estimación: A partir de los datos seleccionados se estiman ciertos valores desconocidos de la muestra. El uso de una encuesta por muestreo tiene una serie de ventajas, como que su coste es mucho menor, es más rápida de realizar y los datos se obtienen con mayor exactitud debido al poco volumen de encuestados. VENTAJAS DEL MUESTREO: a) Costos reducidos. b) Mayor rapidez para obtener resultados. c) Mayor exactitud o mejor calidad de la información: debido a los siguientes factores 1.- Volumen de trabajo reducido. 2.- Puede existir mayor supervisión en el trabajo. 3.- Se puede dar más entrenamiento al personal. 4.- Menor probabilidad de cometer errores durante el procesamiento de la información. d) Factibilidad de hacer el estudio cuando la toma de datos implica técnicas destructivas, por ejemplo: - Pruebas de germinación. - Análisis de sangre. - Control de calidad. Tipos de muestreo Los investigadores proponen diversos criterios de clasificación para los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticas y métodos de muestreo no probabilísticas. Métodos de muestreo probabilísticas Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y dicha probabilidad no es nula para ningún elemento. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: PROPIEDADES DEL MUESTREO PROBABILÍSTICO a) Existe la posibilidad de definir inequívocamente un conjunto de muestras M1, M2, .... , Mt mediante la aplicación del procedimiento a una población. Esto significa que podemos indicar cuales unidades de muestreo pertenecen a M1, M2 y así sucesivamente. b) A cada posible muestra Mi se le asigna un probabilidad conocida de selección Pi. c) Seleccionamos una de las Mi por un proceso mediante el cual, cada Mi tiene una probabilidad Pi de ser seleccionada. d) El método de estimación se realiza en base a la muestra, siendo único para cualquiera de las posibles muestras Mi. PRINCIPALES ETAPAS DE UN ESTUDIO POR MUESTREO: Definición de objetivos: Esta etapa comprende la identificación del problema y el establecimiento de las metas del estudio. Definición del marco de muestreo: El marco de muestreo es el conjunto de las unidades de muestreo que constituyen una población. Este generalmente puede ser de dos tipos: a) Marco lista: Es una lista depurada (sin traslapes o duplicaciones) que permite identificar a cada unidad de muestreo. Por ejemplo, una lista que contenga el nombre de todos los proveedores de caña de azúcar de un ingenio. Es recomendable que además de identificar a cada unidad muestral, incluya algunas otras características de interés, por ejemplo, tamaño de la finca de cada proveedor. b) Es un plano o mapa que permite identificar pequeñas áreas usadas como unidades de muestreo en las que se ha dividido el área total. Variables a medir y Métodos de medición: Es importante considerar el tipo de variable a medir, por ejemplo: si se va a estudiar el rendimiento de caña de azúcar, la variable es de tipo continuo, si interesa estimar la proporción de agricultores que utilizan herbicidas para el control de malezas, se medirá una variable de tipo binomial. El tipo de variable a medir ayuda a definir el esquema o tipo de muestreo. Los métodos de medición deben de tener las siguientes características: a) uniformidad. b) practicabilidad. c) deber ser comprensibles para el grupo de trabajo. Tipo o Esquema de Muestreo: Existen actualmente una gran variedad de tipos o esquemas de muestreo que han sido desarrollados para diferentes situaciones, entre los más usados están: muestreo simple aleatorio, muestreo aleatorio estratificado, muestreo sistemático. Determinación del tamaño de muestra (n): Este punto depende de que es lo que se desea estimar y el esquema o tipo de muestreo seleccionado. Selección de las unidades de muestreo: Consiste en extraer un número n de unidades muestrales de una población de tamaño N. Premuestreo y pruebas de campo: En un estudio, es conveniente someter el método a un prueba previa por las siguientes razones: a) Algunas veces es imprescindible realizar un Premuestreo para tener una estimación preliminar de la variabilidad de la población. b) Verificar la funcionalidad de un método de muestreo. c) Estimar costos. d) Conocer la eficiencia de la organización del trabajo de campo. e) Captar la aceptación, rechazo o dificultad para obtener la información. Organización del trabajo de campo: Incluye la capacitación de personal y todas las operaciones necesarias para obtener la información buscada. Análisis y Edición de resultados: Puede consistir sólo en la presentación e interpretación de distribuciones simples, tabulaciones, gráficas o puede considerar un análisis estadístico más complejo (Estimación, pruebas de hipótesis, etc.) esto depende básicamente de los objetivos del trabajo. Muestreo aleatorio simple: (es el más importante): cada elemento de la población tiene la misma probabilidad de ser elegido, las observaciones se realizan con reemplazamiento, de manera que la población es idéntica en todas las extracciones, o sea, que la selección de un individuo no debe afectar a la probabilidad de que sea seleccionado otro cualquiera aunque ello comporte que algún individuo pueda ser elegido más de una vez. .( "se hacen tantas papeletas numeradas como individuos hay , se coge una y se devuelve , se vuelve a coger otra y se devuelve , etc" ) En el muestreo sistemático los elementos de la población están ordenados por listas . Se elige un individuo al azar y a continuación a intervalos constantes se eligen todos los demás hasta completar la muestra. Si el orden de los elementos es tal que los individuos próximos tienden a ser más semejantes que los alejados, el muestreo sistemático tiende a ser más preciso que el aleatorio simple, al cubrir más homogéneamente toda la población. El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. COMO SE SELECCIONA UNA MUESTRA ALEATORIO El procedimiento o sistema utilizado para la selección de las unidades de la muestra reviste vital importancia, ya que de dicha método depende básica y fundamentalmente el carácter representativo de la misma y la validez de la inducción estadística. Si el método de selección, no esta suficientemente ajustado a la condición casual de las unidades, la muestra estaría expuesta a una inclinación viciada, perjuicio o preferencia que desvirtuaría sus resultados. En la selección no pueden intervenir fuerzas especiales que efectúen la. Composición de la muestra, ya que la extracción de las unidades deben ser resultado de una combinación de factores entremezclados y exentos de propensión es decir, que la selección antes que todo debe hacerse de acuerdo al conjunto de causas fluctuantes conocidas como azar. Es necesario recalcar que la selección final de los elementos de la muestra habrá de estar basada en un método de azar, sea cual fuere el tipo de muestreo probabilística que se piensa utilizar. En relación con la pregunta, cómo tomamos una muestra aleatoria en la práctica, por suerte podemos tomarla sin recurrir en realidad al tedioso proceso de citar todas las muestras posibles. En cambio podemos citar los N elementos individuales de una población finita y después tomar una muestra aleatoria mediante la selección de los elementos que se incluirán en la muestra, uno a la vez sin sustitución, asegurándonos que en cada una de las elecciones sucesivas, cada uno de los elementos restantes de la población tenga la misma oportunidad de ser seleccionado. Esto nos conduce a la misma probabilidad de cada muestra posible. Por ejemplo, para tomar una muestra aleatoria de 20 cuentas vencidas de un archivo de 257 cuenta de este tipo, se pudiese escribir cada número de cuenta en un pedazo de papel, colocar los papeles en una caja y mezclarlos vigorosamente; luego tomaríamos (sin ver) 20 papeles, uno tras otro, sin sustitución. En la práctica, a menudo este procedimiento relativamente simple resulta innecesario, ya que la manera más simple de tomar una muestra aleatoria consiste en utilizar una tabla de cifras aleatorias (o números aleatorios). Las tablas publicadas de números aleatorios constan de paginas en las cuales se colocan los números 0, 1, 2, …….y 9 casi de la misma manera en que podrían figurar si hubiesen sido generadas por un dispositivo o juego de oportunidad que dé a cada cifra la misma probabilidad de figurar en cualquier sitio dado de la tabla. Hoy en día, estas tablas se elaboran mediante uso de computadoras. Existen diferentes métodos de selección al azar de uso frecuente, entre 1os que se pueden considerar los siguientes: a) Selección por sorteo b) Uso de tablas de números aleatorios. a).- Selección por Sorteo Bajo este método se enumera correlativamente la totalidad del universo y se procede más o menos similarmente a como se realiza un sorteo de lotería preparándose bolitas o similares que representan el universo y que son introducidas en una bolsa, bombo, globo, etc. , las cuales deben ser mezcladas y extraídas al azar tal como se efectúa un sorteo cualquiera. Los numeras extraídos en esa forma se confrontan con las unidades cuyos números concuerdan en la lista previamente elaborada, constituyendo los elementos de la muestra. b).- Uso de la Tabla de Números Aleatorios El objeto de las tablas de números aleatorios es facilitar la obtención de los elementos que han de constituir la muestra, sin tener que usar bombos, cajas para bolas u otros utensilios má s o menos complicados, pero consiguiendo que el procedimiento de selección no esté influenciado por la característica en estudio. Las tablas de numeras al azar son tablas con miles de números obtenidos por un procedimiento como el de la lotería, es decir, por un procedimiento al azar. La tabla puede empezarse a leer en cualquier parte, pero debe escogerse al azar la columna y fila de comienzo para lo cual es suficiente colocar a ciegas un dedo sobre el cuerpo de la tabla y empezar desde ese sitio la lectura. Un Ejemplo de una tabla aleatoria es la presentada en el cuadro N° 1. El procedimiento para seleccionar una muestra al azar de tamaño “ n” de una población de elementos ( n < N) es el siguiente: “N” 1).- Se obtiene un listado de todos los “N” elementos (unidades de muestreo) que componen a la población. 2).- Se numeran todos los elementos de la población del 1 al N. 3).- En una tabla de números aleatorios, se elige al azar una columna (o fila) comenzando en cualquier lugar. Se recomienda no comenzar en el mismo sitio si hay que tomar varias muestras. 4).- Una vez elegida la columna se procede a seleccionar los números que estén comprendidos entre 1 y N. Desechando aquellos que estén fuera de este intervalo y los números que aparezcan repetidos se consideran sólo una vez. OBSERVACIONES: Si el tamaño de la población es un número de un digito, como por ejemplo, N = 8, la numeración seria así: 1, 2, 3, 4, 5, 6, 7, 8. Si fueran de dos dígitos como por ejemplo, N = 20, la numeración sería: 01, 02, 03, 04, …….19, 20. Si la muestra fuese de N = 250, es decir de tres dígitos la numeración sería: 001, 002, 003, 004,….012,…099, 100,……250; y así sucesivamente se procede con los diferentes caso que se presenten. EJEMPLO: Supongamos que tenemos una población hipotética de 12 personas y queremos tomar una muestra aleatoria de 4 individuos, mediante el uso de una tabla de números aleatorios. Para realizar este problema, se siguen los pasos dados anteriormente.1).- Obtención del listado de los individuo de la población. Los nombres de los electos son: Juan Rojas Luis Mata Pedro Rodríguez Miguel Juárez Nicolás Mata Juan Marín José Mota Maria Peña Carlos Mata Ligia Larez Raúl Ron Magdalys Medías 2).- Se enumeran los elementos de la población así: 010203040506070809101112- Juan Rojas Luis Mata Pedro Rodríguez Miguel Juárez Nicolás Mata Juan Marín José Mota Maria Peña Carlos Mata Ligia Larez Raúl Ron Magdalys Medías Aplicando la tabla N° 1 de números aleatorios se seleccionan las n = 4 personas. Elegimos por ejemplo la primera y segunda columna (aquí se tienen que tomarse dos columnas, ya que la numeración de los elementos está hecha con dos dígitos) y comenzando en la primera fila se tiene que las personas seleccionadas son las siguientes: 04020312- Miguel Juárez Luis Mata Pedro Rodríguez Magdalys Mejias Si sucediera que el número de individuos a seleccionar no se alcance con las dos primeras columnas seleccionadas, se continúa con las dos siguientes columnas hasta completar el tamaño de la muestra requerida. TABLA N° 1 DE NÚMEROS ALEATORIOS * 04433 80674 24520 18222 l0610 05794 37515 60298 47829 72648 37414 75755 04717 29899 67884 5965l 67533 68123 17730 95862 08034 32653 01895 12506 88535 36553 23757 34209 95913 15405 13772 76638 48423 25018 99041 55864 21694 13122 44115 01601 50541 00147 35334 49810 91601 40617 72876 33967 73830 57729 32196 76487 11622 96297 24160 09903 86648 13697 63677 70119 94739 25875 38829 30574 47609 07967 32422 76791 39725 53711 83580 79974 45929 85113 26872 8l307 43694 02410 54905 79007 54939 21410 86980 91772 18969 75274 52233 62319 08598 09066 95288 87863 82384 66860 62297 80198 19347 73234 68397 7l708 15438 62311 72844 60203 46412 28529 54447 58729 10854 99058 l8260 38765 44285 06372 l5867 70418 57012 72122 36634 86299 83430 33571 23309 57040 29285 67870 84842 68668 90894 61658 15001 94055 36308 56970 83609 52098 04184 54967 72938 56834 83125 71257 60490 44369 66130 72936 69848 55503 52423 02464 26141 68779 66388 75242 47019 76273 33203 29608 54553 25971 69573 84828 32592 79526 29554 84580 37859 28504 68921 08141 79227 05748 51276 57143 31926 36458 96045 30424 98420 72925 40729 22337 95752 59445 36847 87729 81679 59126 59437 26768 47323 58454 56958 20575 76746 49878 42613 37056 43636 58085 06766 60227 96414 95457 30566 65482 25596 02678 54592 63607 95276 17894 63564 95958 39150 64379 46059 66954 52324 64776 92345 95110 59448 77249 17457 18481 14113 62462 02798 54977 48349 03704 36872 83214 59337 01695 60666 97410 21538 86497 33210 60337 27976 70661 08250 57178 67619 98310 70348 11317 71623 55510 31048 97558 94953 55866 96283 46620 52087 69799 55380 16498 80733 96422 58078 99643 90595 61867 59231 17772 67831 33317 00520 33570 04981 98939 78784 09977 29398 93896 15340 93460 57477 13898 48431 72936 78160 64079 42483 36512 56186 99098 48850 72521 63491 05546 67118 62063 74958 20946 28147 92003 63868 41034 28260 79708 00770 88643 52360 46658 66511 04172 73085 11795 52594 74622 12142 68355 65635 21828 39539 18988 04157 50079 61343 64315 70836 82857 35335 86003 60070 66241 32836 27573 11479 94114 41268 80187 20351 09636 84668 42486 71303 * Fuente: Basada en partes de Table of 105 000 Random Decimal Digits (Washington,p:.9.: 1nterstate Córnmerce Commission, Bureau óf Transport Economici anll Statistic TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA CON ALEATORIO MUESTREO SIMPLE Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relación: n N .S 2 Z 2 2 N .d 2 S 2 Z 2 2 de donde: n = tamaño de la muestra. N = tamaño de la población. Z 2 = variable estandarizada de distribución normal. S² = varianza de la muestra. d(e) = precisión del muestreo. = Nivel de significancia. Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una primera estimación de S². Ejemplo: En un lote de frascos para medicina, con una población de 8000 unidades, se desea estimar la media de la capacidad en centímetros cúbicos de los mismos. A través de un premuestreo de tamaño 35 se ha estimado que la desviación estándar es de 2 centímetros cúbicos. Si queremos tener una precisión 0.25 cms3, y un nivel de significancia del 5%. ¿De que tamaño debe de ser la muestra? DATOS: S = 2 cms3; N = 8000; d = 0.25 cms3; = 0.05 (5%) Z 2 = 1.96 n N .S 2 Z 2 2 Nd S 2 Z 2 2 8000 ( 2 )2 ( 1.96 )2 8000 ( 0.25 )2 ( 2 )2 ( 1.96 )2 122931 .2 239 Frascos. 515 .37 Solo faltaría muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo válidos. TAMAÑO DE LA MUESTRA PARA ESTIMAR PROPORCIONES CON MUESTREO SIMPLE ALEATORIO En bastantes ocasiones, la variable bajo estudio es de tipo binomial, en ese caso para calcular el tamaño de muestra bajo el muestreo simple aleatorio, se haría de la siguiente manera: n N . p.q.Z 2 2 N .d 2 p.q.Z 2 2 De donde: p = probabilidad de éxito. q = probabilidad de fracaso. d = precisión expresada en porcentaje. En este caso para la estimación de la varianza, tenemos dos opciones: a) hacer un premuestreo. b) asumir varianza máxima. Ejemplo: En una investigación, se desea determinar en que proporción los niños de una región toman leche en el desayuno. Si se sabe que existen 1.500 niños y deseamos tener una precisión del 10 %, con un nivel de significancia del 5 % . ¿De que tamaño debe de ser la muestra? DATOS: N = 1500; d = 10 % = 0.1; α = 5 % p = 0.5 y q = 0.5 (asumiendo varianza máxima). Zα/2 = 1.96 n N . p.q.Z 2 2 N .d 2 p.q.Z 2 2 1500 ( 0.5 )( 0.5 )(1.96 )2 1500 ( 0.1 ) ( 0.5 )( 0.5 ) / 1.96 ) 2 2 1440 .6 90 15 ,96 Se deben de muestrear 90 niños. Muestreo aleatorio sistemático: es cuando los elementos de la población están ordenados por listas. Se elige un individuo al azar y a continuación a intervalos constantes se eligen todos los demás hasta completar la muestra. Si el orden de los elementos es tal que los individuos próximos tienden a ser más semejantes que los alejados, el muestreo sistemático tiende a ser más preciso que el aleatorio simple, al cubrir más homogéneamente toda la población. Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i + k, i + 2k, i + 3k,...,i + (n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k = N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo se este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k =10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. Muestreo aleatorio estratificado: es aquel que se utiliza cuando se esta interesado en que la muestra tenga la misma composición a la de la población la cual se divide en clases o estratos. Si por ejemplo en la población el 20% son mujeres y el 80% hombres, se mantendrá la misma proporción en la muestra. Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Una muestra aleatoria estratificada es la obtenida mediante la separación de los elementos de la población en grupos que no se oculten maliciosamente (traslapen), llamados estratos y la selección posterior de una muestra irrestrictamente aleatoria simple en cada estrato. En resumen, los motivos principales para utilizar un muestreo aleatorio estratificado son los siguientes: a) La estratificación puede producir un error de estimación más pequeño que el que generaría una muestras del mismo tamaño. Este resultado es particularmente cierto si las mediciones dentro de los estratos son homogéneas. b) El costo por observación en la encuesta puede ser reducido mediante la estratificación de los elementos de la población en grupos convenientes. c) Se pueden obtener estimaciones de parámetros poblacionales para subgrupos de la población. Los subgrupos deben de ser entonces estratos identificables. Lo anterior debe de tomarse en cuenta cuando se está planeando estratificar o no una población o decidiendo en que forma se definirán los estratos. Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población (tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muestrales. Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. Supongamos que estamos interesados en estudiar el grado de aceptación que la implantación de la reforma educativa ha tenido entre los padres de una determinada provincia. A tal efecto seleccionamos una muestra de 600 sujetos. Conocemos por los datos del ministerio que de los 10000 niños escolarizados en las edades que nos interesan, 6000 acuden a colegios públicos, 3000 a colegios semiprivados y 1000 a colegios privados. Como estamos interesados en que en nuestra muestra estén representados todos los tipos de colegio, realizamos un muestreo estratificado empleando como variable de estratificación el tipo de centro. Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro, pero en este caso parece más razonable utilizar una afijación proporcional pues hay bastante diferencia en el tamaño de los estratos. Por consiguiente, calculamos que proporción supone cada uno de los estratos respecto de la población para poder reflejarlo en la muestra. Colegios públicos: 6000/10000 = 0.60 Colegios semiprivados: 3000/10000 = 0.30 Colegios privados: 1000/10000 = 0.10 Para conocer el tamaño de cada estrato en la muestra no tenemos más que multiplicar esa proporción por el tamaño muestral. Colegios públicos: 0.60x600 = 360 sujetos Colegios semiprivados: 0.30x600 =180 sujetos Colegios privados: 0.10x600 = 60 sujetos TAMAÑO DE MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO ALEATORIO ESTRATIFICADO Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relación: N i2 Si2 n wi N 2D N i Si2 De donde: Ni = tamaño del i ésimo estrato. N = tamaño de la población. S²i = varianza del i ésimo estrato. wi = importancia o peso del i ésimo estrato. D B2 , Donde B = Precisión 4 Ejemplo: En un Ingenio, se desea hacer una estimación del promedio de grados Brix con que llega la caña a la fábrica. Para tal el efecto, se desea realizar un muestreo aleatorio estratificado, puesto que la caña proviene de tres tipos de proveedores. Proveedor tipo A (estrato 1) la caña proviene de lotes de la misma finca. Proveedor tipo B (estrato 2) la caña proviene de fincas de particulares en donde el ingenio ha prestado servicios. Proveedor tipo C (estrato 3) la caña proviene de fincas de particulares en donde el ingenio no ha tenido ningún servicio. De estudios anteriores, se conoce el tamaño y desviación estándar de cada estrato y además se desea tener una precisión de un grado brix en el estudio. ¿De que tamaño debe de ser la muestra total y de cada estrato? En es siguiente cuadro se presentan los datos de Ni, Si, y Wi de los diferentes estratos. DATOS: ESTRATO Si 1 558 3.5 558/998 = 0.56 2 190 5.4 190/998 = 0.19 3 250 6.2 250/998 = 0.25 Total 998 * con distribución proporcional. N = Σ Ni = 998 N12 Si2 n wi N 2D wi* Ni N i Si2 N 2 i S i2 wi N 2 i S i2 wi N 2 i S i2 wi N 2 i S i2 wi N 2 i S i2 wi N12 S12 N 22 S 22 N 32 S 32 w1 w2 w3 (558) 2 (3.5) 2 (190) 2 (5.4) 2 (250) 2 (6.2) 2 0.56 0.19 0.25 3814209 1052676 2402500 0.56 0.19 0.25 6811087,5 5540400 9610000 21961487.5 N S 2 i N1 S12 N 2 S 22 N 3 S 32 N S 2 i 558(3.5) 2 190(5.4) 2 250(6.2) 2 N S 2 i 6835.5 5540.4 9610 N S 2 i 21985.9 i i i i La.. Pr esision..B..es..1. B 2 12 0.25 4 4 2 N D (998) 2 (0.25) 249001. D N n 2 i S i2 wi 21961487.5 21961487.5 81,..es..el ..tamaño..de. 2 249001 21986 270987 N D N i Si 2 .la..muestra..total . Como se utilizó distribución proporcional, a cada estrato le tocaría el siguiente tamaño de muestra: n1 = 81(558/998) = 45 ; n2 = 81(190/998) = 15; n3 = 81(250/998) = 20. Muestreo polietápico o por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muestrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son área geográfica suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. En una investigación en la que se trata de conocer el grado de satisfacción laboral los profesores de instituto necesitamos una muestra de 700 sujetos. Ante la dificultad de acceder individualmente a estos sujetos se decide hacer una muestra por conglomerados. Sabiendo que el número de profesores por instituto es aproximadamente de 35, los pasos a seguir serían los siguientes: 1. Recoger un listado de todos los institutos. 2. Asignar un número a cada uno de ellos. 3. Elegir por muestreo aleatorio simple o sistemático los 20 institutos (700/35=20) que nos proporcionarán los 700 profesores que necesitamos. Ventajas e inconvenientes de los distintos tipos de muestreo Probabilístico CARACTERÍSTICAS VENTAJAS INCONVENIENTES Se selecciona una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N. Sencillo y de fácil comprensión. Cálculo rápido de medias y varianzas. Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos Requiere que se posea antemano un listado completo toda la población. Cuando trabaja con muestras pequeñas posible que no represente a población adecuadamente. Conseguir un listado de los N elementos de la población. Determinar tamaño muestral n. Definir un intervalo k=N/n. Elegir un número aleatorio, r, entre 1 y k (r =arranque aleatorio). Seleccionar los elementos de la lista. Fácil de aplicar. No siempre es necesario tener un listado de toda la población. Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos. Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección Tiende a asegurar que la muestra represente adecuadamente a la población en función de unas variables seleccionadas. Se obtienen estimaciones más precisa Su objetivo es conseguir una muestra lo mas semejante posible a la población en lo que a la o las variables estratificadoras se refiere. Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación. Estratificado En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a muestrear. Una vez calculado el tamaño muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres. Conglomerados Se realizan varias fases de muestreo sucesivas (polietápico) La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior. Es muy eficiente cuando la población es muy grande y dispersa. No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo. El error estándar es mayor que en el muestreo aleatorio simple o estratificado. El cálculo del error estándar es complejo. Aleatorio simple Sistemático de de se es la PLANES DE MUESTREO ALEATORIO TIPO CARACTERÍSTICAS SIMPLE Cada elemento de la población tiene la misma probabilidad "a priori" de ser incluido en la muestra Es el muestreo más sencillo desde el punto de vista matemático. Es costoso y no provee información respecto a subpoblaciones ESTRATIFICADO La población se divide en subpoblaciones (estratos) identificados por niveles en los factores. En cada estrato se realiza MAS Se usa cuando se desea información precisa para cada estrato o cuando razones administrativas lo hacen conveniente La población se divide en subpoblaciones (conglomerados) que se consideran " a priori " similares en los factores. Se seleccionan conglomerados y dentro de éstos, unidades secundarias. Se usa cuando es imposible o muy caro construir un marco de muestreo o cuando los elementos están conglomerados en forma natural (p.ej. cercanía geográfica) La población se ordena con algún criterio (puede ser aleatorio). Se sortea un elemento primero para ser muestreado y se continúa muestreando uno cada tantos (paso) ( Por ejemplo 5, 15, 25,...,85) Es fácil de realizar cuando no se dispone de identificación de los elementos. Puede introducir variaciones cíclicas en los resultados POR CONGLOMERADO SISTEMÁTICO OBSERVACIONES Técnicas de muestreo sobre una población La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras. Las ventajas de estudiar una población a partir de sus muestras son principalmente: Coste reducido: Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando se realizan encuestas previas a un referéndum, es más barato preguntar a 4.000 personas su intención de voto, que a 30.000.000; Mayor rapidez: Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado; Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás. De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas: Elección de la muestra (muestreo). Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia). El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraídos; Aunque dependiendo del problema y con el objetivo de reducir los costes o aumentar la precisión, otros tipos de muestreo pueden ser considerados. Métodos de muestreo no probabilísticas En los muestreos no probabilísticos no se usa el azar, sino el criterio del investigador, suele presentar grandes sesgos y es poco fiable; no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población. Se utilizan a veces, para estudios exploratorios, ya que el muestreo Probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun estando conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. Estos muestreos pueden ser: Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. Por ejemplo, la Oficina de Sanidad desea estudiar la incidencia de las drogas en la adolescencia. Lo que deberíamos hacer sería: conocer por los informes de la Consejería de Educación cuales son los centros más afectados por el problema, fijar un número de sujetos a entrevistar proporcional a cada uno de los estratos (cuotas) y finalmente dejar en manos de los responsables del trabajo de campo a que sujetos concretos se deberá entrevistar Muestreo opinático o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. Muestreo casual o incidental: Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios. Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. SELECCIÓN ALEATORIA DE LAS MUESTRAS A veces no es fácil lograr una muestra aleatoria. Si la población de que se trata es pequeña, uno de los métodos más sencillos para obtenerla es formular una lista de integrantes (en pequeñas tiras de papel) y escoger la muestra al azar. Cuando se trata de poblaciones más grandes, se puede asignar un número entero a cada miembro y usar una tabla de números aleatorios, integrada por dígitos escogidos al azar. Para lograr la muestra aleatoria, se comienzan a leer los números de la tabla en un lugar también escogido al azar, así, para cada número seleccionado el miembro de la población consta de 100 miembros, se pueden asignar los números de 10 al 99. Si en la tabla se leen los números 2, 7, 22, 34, etc., se incluían dichos números en la muestra aleatoria. La muestra en estudio en cualquier investigación debe ser representativa del universo estadístico (población ideal que abarca a todos los individuos que posean las mismas características y en la misma proporción del colectivo). Cuando más grande sea la muestra, más representativa resultará; sin embargo, no necesita ser más grande cuando es suficiente representativa. Esta es la prueba de estabilidad de la muestra. TAMAÑO DE LA MUESTRA A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del tamaño muestral delimitemos estos factores. Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores: 1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total. 2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización. 3. El nivel de variabilidad que se calcula para comprobar la hipótesis. La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca un 95%. El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse. Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la confianza y el error. La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo a la investigación actual. El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y el porcentaje con el que se rechazó se la hipótesis es la variabilidad negativa El muestreo es el proceso de tomar una proporción o parte de un universo de elementos, con la finalidad de analizar en dichos elementos, características sujetas a estudio o fenómenos factibles de observación y en base al análisis de la muestra o proporción tomada obtener conclusiones que se refieran no sólo a la muestra sino a todo el universo. Para fines estadísticos, el universo puede considerarse finito o infinito. Se considera finito si el número de elementos que lo constituyen es menor a 500,000 e infinito si es igual o mayor a este número. Siempre que hagamos la elección de una muestra, debemos tener cuidado de que ésta reúna las siguientes características: · Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se requiere para que el nivel de confiabilidad sea el que se ha establecido previamente. · Que sea representativa: esto quiere decir que los elementos seleccionados deberán presentar características similares a las de la población o universo. Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las más importantes son: · El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte del universo (muestra tomada) y no por la totalidad de él. · Si la muestra es representativa, las deducciones resultantes sobre el universo serán confiables. · Como solamente se estudia una parte del universo, la información obtenida se realiza en menor tiempo. ¿Cómo obtener el tamaño de la muestra a utilizar? Una de las preguntas planteadas con mayor frecuencia al iniciar una investigación y difícil de contestar, sobre todo por falta de información del problema, es: ¿cuántas observaciones se deben obtener para que el tamaño de la muestra sea realmente representativo del universo estadístico? En este sentido -la decisión del tamaño de la muestra de una población -, es necesario considerar que las muestras varían en su composición de una a otra. La magnitud de la variación depende del tamaño de la muestra y de la variabilidad original de la población. Así, el tamaño de la muestra queda determinada por el grado de precisión que se desea obtener y por variabilidad inicial de la población. La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes: 1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a dicho nivel de confianza, un nivel de confianza igual o mayor al 92% es aceptable estadísticamente. 2. Evaluar la probabilidad a favor de que suceda un evento o situación esperada (esta probabilidad se le denomina p). 3. Evaluar la probabilidad en contra de que suceda en un evento o situación esperada (a esta probabilidad se le denomina q= 1 – p). 4. Determinar el error (e) máximo para el nivel de precisión que vayamos a permitir en los resultados (error máximo de estimación), comúnmente se trabaja con errores de estimación entre el 2% y el 6%, ya que la validez de la información se reduce demasiado para valores mayores del 6%. · Determinamos el tamaño de la población o universo. 5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra; dependiendo de si la población o universo sujeto a estudio se va a considerar infinito ó infinito. (Una población o universo se considera infinito si el número de elementos de los que consta es igual o mayor a 500,000 y es considerado finito si el número de elementos es menor a esta cantidad). Diferentes niveles de confianza utilizados en la práctica Nivel de Confianza Valores de Z 99.73% 3.00 99% 2.58 98% 2.33 96% 2.05 95.45% 2.00 95% 1.96 90% 1.645 80% 1.28 68.27% 1.00 50% 0.6745 TAMAÑO DE LA MUESTRA Una de las primeras preguntas que debe realizarse antes de emprender cualquier encuesta o estudio es: ¿qué tamaño de muestra necesito? La respuesta dependerá del diseño del estudio; es decir, de los objetivos, naturaleza y alcance del mismo, y del resultado previsto del mismo. Todo esto deberá tenerse en cuenta en la fase de planificación del estudio. El tamaño de la Muestra es importante porque tiene relación estrecha con el costo de la Muestra. Para reducir Costos se procura tomar una Muestra menor pero representativa y significativa. La cuestión de que tan grande tomar una muestra surge inmediatamente en la planificación de cualquier investigación o experimento. Esto es muy importante y no debe tratarse con ligereza. Tomar una muestra más grande de lo necesario para alcanzar los resultados deseados, es un desperdicio de recursos y tiempo, mientras que muestras muy pequeñas pueden conducir a conclusiones erróneas. El tamaño de la muestra depende de la desviación estándar (S), del grado de confiabilidad (Z) y del ancho del intervalo de confianza (e), o precisión. El tamaño de la Muestra se calcula mediante procedimientos estadísticos. Vamos a presentar la Fórmula que se aplican en el caso de que no se conozca con precisión el tamaño de la población, o universos considerados infinitos o desconocido o Cuando se trata de medir una variable binomial (acierto-error), es decir una proporción y que el tamaño de la población estudiada es grande, se puede emplear la fórmula siguiente: n Z 2 pq e2 2 Z2 Z , Si p = q = 50 %, entonces: n n 2 .(1) 4e 2e Donde n número de puntos de muestreo, p y q son la confiabilidad, e = error (medio intervalo de confianza) y Z = 1.96 para = 0.05. Como se puede observa en la ecuación (1), el intervalo de 2 confianza del estimado de esta confiabilidad depende del número de unidades de muestreo (más grande el tamaño de muestra, más pequeño el intervalo de confianza) y de la confiabilidad de la clase (con el mismo número de unidades de muestreo, la confiabilidad se estima con menos precisión si está cerca de 50 %). Cuando se requiere determinar el tamaño de la muestra para estimar una proporción se tienen que definir tres incógnitas: 1.- El nivel de confianza (Z) deseado. 2.- El error muestral permitido, e. 3.-La proporción real de éxito, p y la proporción de fracaso q = 1 – p. En la práctica con frecuencia resulta difícil seleccionar estas tres cantidades. Una vez que se determina el nivel de confianza deseado se estará en posibilidad de obtener el valor Z de la distribución normal apropiado. El error muestral e señala la cantidad de error qué se está dispuesto a aceptar al estimar la proporción de la población. La tercera cantidad, la proporción real de éxito, p, en realidad es el parámetro de la población que se esta intentando determinar. Para ello hay dos alternativas: l.-En muchas situaciones se cuenta con información anterior o con experiencias relevantes que permiten obtener un estimado o información de p. 2.- Si no se cuenta con información anterior o con experiencias relevantes se intenta proporcionar un valor para p que nunca subestime el tamaño de la muestra necesaria Es conveniente determinar el valor de p de una forma tal que el producto p.q sea lo mayor posible, alcanzándose el máximo producto cuando p = q = 0.50, entonces p.q = 0.25. Por lo tanto cuando se desconoce o no hay un estimado previo de la proporción real de p se debe utilizar un p = 0.5 como la forma mas conservadora para determinar el tamaño de la muestra. Sin embargo, la utilización de p puede dar como resultado una sobrestimación en el tamaño de la muestra, pero es un riego que se debe asumir. PROBLEMAS 1.- Un investigador social pretende que al investigar la proporción de deportistas existentes actualmente en una universidad no se cometa un error mayor del 15 %. ¿Cuál deberá ser el tamaño de la muestra para poder tener la certeza, con un grado de confianza del 99 %, de que la estimación sea correcta? SOLUCIÓN: Se puede observar que ante el desconocimiento, por cualquier medio, del parámetro p, debemos obtener el tamaño de la muestra requerida para satisfacer las exigencias del investigador por medio de la expresión: 2 Z2 Z n n 2 4e 2e Donde se tendrá que sustituir tanto el valor de Z correspondiente a un coeficiente de confianza de 99 % que no es otro que 2,58 como el error máximo admitido que es 0.15 y como no se conoce un valor estimado para p y q se tomara el máximo valor para este producto, es decir, p = q = 0.5. Luego se aplica la formula: 2 Z2 (2.58) 2 6.66 Z n n 2 70.0 . Por lo tanto el tamaño de la muestra será de 74. 2 4(0..023) 4e 4(0.15) 2e 2.- Supóngase que por estudios anteriores se tenga el conocimiento de que la proporción de deportistas entre los estudiantes de una universidad es de 0.65. Se pregunta ¿Qué tamaño de muestra deberá tomarse si se quiere que el error no exceda del 15 % Y con un grado de confianza del 99 %. SOLUCIÓN: Tomando en cuenta que se tiene conocimiento de que la proporción de estudiantes que practican algún deporte, en esa universidad, es de 0.65, se puede utilizar este valor como una estimación de la proporción verdadera, en cuyo caso nos valdremos de la siguiente formula matemática para obtener el tamaño de la muestra necesaria. Entonces, p 0.65,.q 0.35,.e 0.15.. y..Z 2.58. 2 2 n Z 2 pq e2 , sustituyendo los datos conocidos en esa formula se tiene: (2.58) 2 (0.65)(0.35) 6.66 x0.23 67. El tamaño de la muestra es entonces, 67. 0.23 (0.15) 2 n Puede observarse como el conocimiento de alguna estimación del parámetro p ha hecho disminuir el tamaño de la muestra necesaria para satisfacer la misma precisión. Esto demuestra que el valor que tiene la información de experiencias pasadas sobre el hecho que se estudia. En el caso de que sí se conozca el tamaño de la población, cuando la variable crítica es dicotomica o Binomial, para la estimación de proporciones poblacionales o Universos considerados finitos entonces el tamaño de la muestra se determina con la siguiente formula: n Z2 2 N . p.q e 2 N Z2 2 p.q , esta.. formula..se..usa.. para..N 30. Cuando N<30 la formula que se tiene que utilizar es: n Z2 2 N . p.q e 2 ( N 1) Z2 2 p.q . Donde n es el tamaño de la muestra; Z es el nivel de confianza; p es la variabilidad positiva; q es la variabilidad negativa; N es el tamaño de la población; e es la precisión o el error. Al conocer exactamente el tamaño de la población, el tamaño de la muestra resulta con mayor precisión y se pueden incluso ahorrarse recursos y tiempo para la aplicación y desarrollo de una investigación. Ejemplo 1: En los Colegios de Curas extendido por todo América del sur, se desea realizar una investigación sobre los alumnos inscritos en primer y segundo años, para lo cual se aplicará un cuestionario de manera aleatoria a una muestra, pues los recursos económicos y el tiempo para procesar la información resultaría insuficiente en el caso de aplicársele a la población estudiantil completa. En primera instancia, suponiendo que no se conoce el tamaño exacto de la población pero con la Z 2 pq seguridad de que ésta se encuentra cerca de los diez millardo, se aplicará la formula n 22 . e Se considerará una confianza del 95 %, un porcentaje de error del 5% y la máxima variabilidad (p.q) por no existir antecedentes en la institución sobre la investigación y porque no se puede aplicar una prueba previa. Primero habrá que obtener el valor de Z de tal forma que la confianza sea del 95 %, es decir, buscar un valor de Z tal que P(-Z<z<Z) = 0.95. Utilizando las tablas resulta que Z = 1.96. De esta manera se aplica la formula n Z 2 pq 2 e2 , se realiza la sustitución y se obtiene n así: (1.96) 2 (0.5)(0.5) (3,8416)(0.25) 0.9604 n 384. Esto quiere decir que el tamaño de la muestra 0.0025 0.0025 0.05 2 es de 384 alumnos. Supongamos ahora que sí se conoce el tamaño de la población estudiantil y es de 9,750, entonces se Z 2 2 Np.q n aplicará la fórmula . Utilizando los mismos parámetros la sustitución queda Ne 2 Z 2 pq como: n (1.96) 2 (0.5)(0.5)(9750) 9363.9 369.5 370.0 2 2 (9750)(0.05) (1.96) (0.5)(0.5) 25.34 Con lo que se tiene una cota mínima de 370 alumnos para la muestra y así poder realizar la investigación sin más costo del necesario, pero con la seguridad de que las condiciones aceptadas para la generalización (confiabilidad, variabilidad y error) se mantienen. Es importante destacar que el resultado que se obtiene cuando no se conoce N (384) es muy similar al que se obtiene cuando N es conocida (370). EJEMPLO 2: El jefe del Departamento de Control de Estudio del IUTJAA, quiere comprobar a través de una muestra aleatoria la proporción de estudiantes que han desertado del IUTJAA, cuya población esta constituida por 7.000 alumnos. El jefe del departamento especifica que el error máximo admisible no debe ser más de 5 % de la verdadera proporción, para el trabajo se requiere un nivel de confianza de 98 %, y el valor de p es estimado en 50 %. Encuentre el tamaño de la muestra requerido. DATOS: N = 7000 e = 0.05 Z al 98 % =2.33 P = 0.5 q = 0.5 n =? SOLUCIÓN: Como lo muestra solicitada se refiere a las proporciones se aplicara la siguiente formula: n Z2 2 N . p.q e 2 N Z2 2 p.q (2.33) 2 (2000)(0.5)(0.5) 2714.45 426.80 427.0 2 2 6.36 (0.05) (2000) (2.33) (0.5)(0.5) Luego el tamaño de la muestra necesario para el estudio es de 427 alumnos, que tendrá que Tamar por un muestreo del total. Cuando el muestreo es sin reemplazo a partir de una población finita, SUPONIENDO UNA DISTRIBUCIÓN NORMAL, se requiere la corrección por población finita, entonces la ecuación para obtener el TAMAÑO DE LA MUESTRA para la estimación de la media poblacional, queda así: e n N n N 1 ZS n N 2 Z2 2 e 2 ( N 1) 2 Z2 2 Los investigadores consideran que esta formula solo se utiliza cuando N<30. n N 2 Z2 2 e 2 N 2 Z2 2 , Se utiliza para N>30.. Donde n = es el tamaño de la muestra; Z = es el nivel de confianza o valor critico correspondiente al nivel de confianza elegido Varianza poblacional o en su defecto la desviación típica muestral (S). N = es el tamaño de la población o universo muestral e es la precisión o el error. El grado de confiabilidad se toma de la tabla de t de Student si n 30..o..de..Z ..si..n 30. La formula para el tamaño de la muestra requiere que se conozca 2 pero, generalmente este parámetro no se conoce; entonces hay que estimarla. Las fuentes de estimación para la varianza poblacional son: Se puede extraer una muestra piloto para usarse la varianza calculada a partir de la muestra como una estimación de 2 . Puede contarse con estimaciones de 2 , obtenidas de estudios previos o semejantes. EJEMPLO 1: Se desea determinar el tamaño de una muestra apropiada para medir la longitud de una serie de tubos para hacer un gasducto, con una precisión de 5 cm. en la longitud de cada tubo y un nivel de confianza de 95 %. Para tal efecto se tomo una muestra piloto de 10 tubos que arrojo una varianza de 30. DATOS: N = 20 σ2 = 30 Z = 1.96 e=5 SOLUCIÓN: Como se sabe que número de tubos por lotes es de 20, se requiere la corrección por población finita; luego se aplica la formula así: n N 2 Z2 2 e 2 ( N 1) 2 Z2 2 20.30(1.96) 2 2304.96 2 4.0 2 590.25 5 (19) 30(1.96) Se concluye que con la variación observada y la precisión escogida, el tamaño de muestra adecuada es 4 tubos por lote. EJEMPLO 2: Sea una población de obreros de tamaño N = 2000, de la que nos proponemos obtener una muestra mediante un muestreo aleatorio, para estimar el sueldo promedio. Se quiere que la estimación muestral no se aparte en más de 0.5 puntos (error máximo admisible) del promedio verdadero, con un nivel de confianza de 95 %. La varianza poblacional es de 2.5 puntos. DATOS: N = 2000 e = 0.5 Z al 95 % = 1.96 σ2 = 2.5 n =? SOLUCIÓN: Como se trata de la estimación de la media poblacional mediante muestreo aleatorio, se aplicara la siguiente formula: n N 2 Z2 2 e 2 N 2 Z 2 2 2000(2.5)(1.96) 2 19208 19208 37.69 38.0 2 2 500 9,604 509,604 (0.5) 2000 2.5(1.96) Entonces el número de obreros que hay que seleccionar para que la estimación esté en el intervalo ( 0.5;.. 0.5) con un nivel de confianza del 95 % es de n = 38 obreros. Teorema Central del Límite El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal. Es decir, Si x1, x2,.....en son variables aleatorias independientes cada una con media varianza i2 , se cumple que cuando n tiende a infinito el cociente xi i i2 i y tiende a distribuirse normalmente con media = 0 y varianza 2 =1, aunque las distribuciones de las xi sean distintas entre si. Ejemplo: La variable "tirar una moneda al aire" sigue la distribución Binomial. Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye según una distribución normal. Este teorema se aplica tanto a suma de variables discretas como de variables continuas. Los parámetros de la distribución normal son: Media: nµ (media de la variable individual multiplicada por el número de variables independientes) 2 Varianza: n. individuales) Ejemplo: Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale sello el valor 0. Cada lanzamiento es una variable independiente que se distribuye según el modelo Binomial, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100 lanzamientos salgan más de 60 caras. La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribución normal. Media = 100 x 0,5 = 50, Varianza = 100 x 0,25 = 25 Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada equivalente: Z X 60 50 5* (*) 5 es la raíz cuadrada de 25, o sea la desviación típica de esta distribución Por lo tanto: P (X > 60) = P (Z > 2,0) = 1- P (Z < 2,0) = 1 - 0,9772 = 0,0228 Es decir, la probabilidad de que al tirar 100 veces la moneda salga más de 60 caras es tan sólo del 2,28%