Unidad 7 Estimación de medias, proporciones y varianzas Introducción E n las unidades anteriores se ha venido desarrollando el significado y la utilidad de las medidas de tendencia central; éstas son medidas descriptivas que señalan hacia dónde tienden a concentrarse los valores contenidos en un conjunto de datos. Se dijo que el resultado de las medidas de tendencia central proporciona un valor que debe ser típico o representativo de la muestra o de la población que se esté examinando, el cual es utilizado para describir o analizar un fenómeno. El propósito de esta unidad consiste en presentar las técnicas de la estadística inferencial que son utilizadas para estimar los parámetros de una población. Específicamente se expondrán las técnicas para inferir el valor de la media poblacional, el valor de una proporción poblacional, la diferencia entre las proporciones de dos poblaciones distintas, así como el valor de la varianza poblacional utilizando tanto estimadores puntuales como intervalos de confianza. Para esto se hará uso de los conceptos del teorema central del límite y de la distribución muestral que, junto con losintervalosdeconfianza, hacen posiblelainferenciadeestosparámetros poblacionales con cierto nivel de confianza. 7.1. Estimación puntual y estimación por intervalos La estimación es un procedimiento que forma parte de la vida cotidiana en un sinnúmero de lugares y en los distintos campos del conocimiento, por ejemplo, en la administración de las empresas, en las finanzas, en la economía, en las ciencias de la comunicación, en la contabilidad, en la mercadotecnia o en la administración de la información. La estimación es un procedimiento de la estadística inferencial mediante el cual se realizan cálculos con los datos de una muestra para obtener valores o resultados que describan las características de la población. La estimación tiene el objetivo de obtener estadísticos, es decir, fórmulas matemáticas que permitan conocer, a partir de ellos y de manera resumida, las características más relevantes de 393 una población, utilizando la información contenida en una muestra. Al estadístico también se le conoce con el nombre de estimador. Recuerda que la inferencia estadística es el proceso mediante el cual una muestra es analizada y, con base en su información, se infiere, se deduce o se concluye sobre lo que está sucediendo en una población. El propósito de la estimación es proveer los estimadores o expresiones matemáticas que proporcionen un valor o un conjunto de valores que reflejen el valor del parámetro poblacional. Una buena estimación proporcionará técnicas correctas para encontrar los verdaderos parámetros poblacionales. Los siguientes son algunos ejemplos donde se utiliza en forma frecuente la estimación de la media poblacional : de producción en un periodo de tiempo para establecer planes y métodos que provean de mayor seguridad a los trabajadores. promedio de las familias de una ciudad para determinar qué tan factible resultará abrir una nueva sucursal, ya que dependiendo del nivel de ingreso será el nivel de consumo en artículos diversos. en una ciudad determinada, esto le sirve de indicador para establecer qué tan conveniente le resultará introducir al mercado un nuevo seguro, así como estimar el costo de la póliza. que son inducidos cada mes a comprar un producto debido al impacto producido por la presencia de un nuevo comercial. que son producidos diariamente, con el fin de proporcionar un mejor servicio al cliente. En todos y cada uno de los casos anteriores lo que interesa es conocer la medida promedio poblacional que facilite la toma de decisiones, por lo que la estimación es una herramienta importante que proporciona una serie de métodos y procedimientos para lograr esta finalidad. Es necesario denotar que existe una diferencia significativa entre un estimador y un estimado. El estimador es una fórmula o representación matemática que conduce a obtener un resultado y el estimado es el resultado que se obtiene al emplear datos de una muestra en la fórmula o expresión matemática definida por el estimador que se emplea. Frecuentemente el problema de la estimación suele abordarse a través de dos enfoques: la estimación puntual y la estimación por intervalos. 7.1.1. Estimación puntual La estimación puntual es un procedimiento de la estadística inferencial mediante el cual se realizan cálculos con los datos de una muestra cuyo resultado es un valor numérico único empleado para estimar el valor de un parámetro poblacional. En las unidades precedentes se han tratado algunos estimadores puntuales, como es el caso de la media muestral, la varianza muestral y la desviación estándar muestral para datos no agrupados, dichos estimadores representan la columna vertebral de la inferencia estadística. 394 ESTADÍSTICA PARA NEGOCIOS Estimador puntual X Xi n S2 (X X)2 n 1 S (X X)2 n 1 Parámetro poblacional que se desea estimar Xi N 2 (media poblacional) )2 (X N )2 (X N (varianza poblacional) (desviación estándar poblacional) Recuerda que el resultado que se obtiene en estostres tiposde estimadoresesun valor numérico único que es utilizado para describir la información contenida en una muestra, pero que también puede ser utilizado para inferir sobre la información contenida en una población. Los estimadores puntuales se utilizan con frecuencia en muchos casos prácticos, por ejemplo: se desea conocer la talla estándar exacta de los pantalones para los estudiantes de una secundaria; una empresa que produce detergente desea saber el peso promedio preciso que deben contener las bolsas de detergente; la Secretaría de Salud de una entidad federativa necesita conocer la estatura promedio exacta de loshabitantesde una región para realizar un balance sobre nutrición; una empresa productora de cerveza necesita determinar el promedio exacto de botes de cerveza que la población consume en su presentación de 355 ml. Noobstantesu utilidad, losestimadorespuntualestienen algunasdesventajaso limitaciones; por ejemplo, cuando la información utilizada en el estimador fue colectada de una muestra que no es representativa, el resultado de la estimación será equivocado o sesgado del verdadero parámetro poblacional. Sin embargo, la principal limitación de un estimador puntual es que su resultado varía de muestra en muestra, a pesar de que éstas sí sean representativas de la población. Recuerda que de una población es posible obtener varias muestras y cada una de éstas tiene una media determinada que no necesariamente tiene que ser de la misma magnitud que las demás y a la poblacional. Además, losestimadorespuntualesno proporcionan una medida dereferencia o un nivel de confianza que permita conocer cuánto le podemos creer o tener confianza al resultado obtenido de la estimación. En otras palabras, la limitante más importante que presenta la estimación puntual es que el resultado obtenido sólo representará un punto y no se puede apreciar si existe un posible rango de valores que pueda tomar el parámetro poblacional con un determinado nivel de confianza. 7.1.2. Estimación por intervalos Ante las limitaciones que presenta la estimación puntual se puede hacer uso de otro método de estimación, la estimación por intervalos, éste es un procedimiento alternativo cuando la estimación puntual no es capaz de proporcionar información eficiente para describir el comportamiento de una característica de la población. La estimación por intervalos es un procedimiento de la estadística inferencial mediante el cual se realizan intervalo o conjunto numérico que servirá para estimar el parámetro poblacional. UNIDAD 7. ESTIMACIÓN DE MEDIAS 395 Existe una gama de fenómenos donde la estimación puntual cuenta con ciertos inconvenientes, por lo que es preferible utilizar intervalos para realizar una estimación apropiada de los parámetros. En el caso de la estimación por intervalos de la media poblacional se utiliza la información contenida en una muestra de la que se obtienen dosvalores numéricos que definen un rango donde se encuentra la media poblacional. Por ejemplo, si se desea estimar el promedio de edad de la población estudiantil de una universidad y para ello elegimos una muestra, utilizando la estimación por intervalos se obtienen dos valores, por ejemplo 22.5 y 24.5, lo que quiere decir que el verdadero valor del promedio de edad de esa población estudiantil se encontrará dentro del rango de 22.5 a 24.5 años de edad, aunque nunca se sabrá con exactitud su verdadero valor. Una manera de expresar formalmente este resultado es utilizando corchetes: [22.5, 24.5]. La estimación por intervalos tiene varias ventajas; una es que no ofrece un valor único, sino un rango donde es muy posible o muy probable que el parámetro poblacional se encuentre incluido. De esta manera se supera la limitación de los estimadores puntuales de que su resultado único varía de muestra en muestra; es decir, con la estimación por intervalos tenemos más probabilidad de acertar al verdadero valor poblacional. La principal ventaja de la estimación por intervalos es que su resultado ofrece un nivel de confianza que permite conocer en cuánto le podemos creer o tenerle confianza al resultado obtenido de la estimación. Por esta razón, la estimación por intervalos también es conocida como estimación por intervalosdeconfianza, pues su nivel de confianza señala qué tan posible o qué tan probable es que el parámetro poblacional se encuentre incluido dentro del rango definido. El concepto de nivel de confianza se encuentra muy relacionado con el de probabilidad, pero en lugar de estimar la posibilidad de que un evento suceda, el nivel de confianza señala qué tanta confianza le podemos tener o le podemos creer a un resultado obtenido de un intervalo. Un nivel de confianza generalmente se mide en porcentajes y tiene un rango entre 0% y 100% de confianza. Un nivel alto de confianza, por ejemplo, 95% implica que se tiene mucha confianza en el resultado del intervalo; mientras que un nivel bajo de confianza, por ejemplo 40%, implica que se tiene poca confianza en el resultado proporcionado por el intervalo. Los siguientes son algunosejemplosdonde la estimación por intervalossuele ser de mucha utilidad: ejemplo: el valor promedio que el tipo de cambio tendrá para el siguiente mes con el propósito de estimar el nivel de exportacionesde una empresa; el precio promedio del barril de petróleo o mezcla mexicana que tendrá el siguiente año para así estimar el presupuesto del gobierno federal; el promedio de las tasas de interés durante los siguientes cinco años con la finalidad de medir el gasto por endeudamiento de un sector o de un país. en un determinado día del año de una gran ciudad o país; el nivel máximo y mínimo que adquirirá el índice bursátil de una bolsa; el nivel máximo y mínimo de la inflación esperada para el siguiente año con el fin de prever adecuadamente los planes de inversión de una empresa. dependencia gubernamental desea conocer qué porcentaje de la población gana entre 3 y 5 salarios mínimos, o cuando el departamento de mercadotecnia de una empresa de juguetes desea saber cuál es el rango de edad de los niños que se interesan por un nuevo diseño de carro de control remoto. 396 ESTADÍSTICA PARA NEGOCIOS 1. Es un procedimiento de la estadística inferencial con el cual se realizan cálculos con los datos de una muestra cuyo resultado son dos valores numéricos que definen un rango para estimar el parámetro poblacional: a) b) c) d) 2. Es un procedimiento de la estadística inferencial mediante el cual se realizan cálculos con los datos de una muestra para obtener valores o resultados que describan las características de la población: a) b) c) d) 3. Estimación. Estimación puntual. Estimación por intervalos. Nivel de confianza. Es un procedimiento de la estadística inferencial mediante el cual se realizan cálculos con los datos de una muestra cuyo resultado es un valor numérico único, empleado para estimar el valor de un parámetro poblacional: a) b) c) d) 4. Estimación. Estimación puntual. Estimación por intervalos. Nivel de confianza. Estimación. Estimación puntual. Estimación por intervalos. Nivel de confianza. Es un estimador de la media poblacional: a) X Xi N b) 5. Xi n c) S2 (X X)2 n 1 d) S (X X)2 n 1 Es el resultado que se obtiene al emplear datos de una muestra en la fórmula o expresión matemática para inferir sobre una población: a) b) c) d) Estimación. Estimador. Estimado. Nivel de confianza. UNIDAD 7. ESTIMACIÓN DE MEDIAS 3 97 6. Es una representación matemática que emplea datos de una muestra para estimar un parámetro poblacional: a) b) c) d) 7. Estimación. Estimador. Estimado. Nivel de confianza. Son algunas desventajas de realizar estimación puntual: a) Su resultado es expresado en niveles de confianza, aunque esto no implica que siempre se tendrá un 100% de confiabilidad. b) Su resultado varía de muestra en muestra y no ofrece un nivel de confianza para saber cuánto creerle al resultado. c) Siempre son estimadores insesgados y su uso no es muy frecuente en los negocios y en las ciencias sociales. d) No se puede utilizar para realizar pronósticos, ni para inferir sobre un verdadero parámetro de la población. 8. Son algunas ventajas de realizar estimación por intervalos de confianza: a) b) c) d) 9. Si le has prestado dinero a un familiar en 10 ocasiones y únicamente te ha devuelto el dinero en 9, el nivel de confianza que le tienes es de: a) b) c) d) 10. 9% 100% 90% 95% Si se tiene un intervalo de 95% de confianza para estimar la media poblacional de [300, 320], entonces: a) b) c) d) 398 Su resultado varía de muestra en muestra. Su intervalo se puede utilizar con mucha sabiduría. Siempre ofrece un 100% de nivel de confianza. Su resultado ofrece un nivel de confianza. La media poblacional se encontrará entre 300 y 320. La media muestral se encontrará fuera de este intervalo. La media muestral estará entre 300 y 320 con un 95% de confianza. La media poblacional estará entre 300 y 320 con un 95% de confianza. ESTADÍSTICA PARA NEGOCIOS 7.2. Estimación de la media de una población mediante intervalos de confianza Como se ha señalado uno de los métodos para estimar la media de una población es a través de intervalos de confianza. Existen dos fórmulas para poder estimar la media de una población a través de intervalos de confianza y el uso de cada una de ellas depende del caso que se examine. En primer lugar se mostrará un método generalmente utilizado cuando se dispone de muestras grandes, es decir, para aquellas muestras compuestas de 30 o más datos. Este método también puede ser utilizado para muestras menores a 30 datos, siempre y cuando se tenga pleno conocimiento que la distribución de los datos de la población sea normal y que se conozca el valor de la varianza poblacional o de la desviación estándar poblacional. En segundo lugar se mostrará un método empleado para el caso de muestras pequeñas cuando se desconoce el valor de la varianza poblacional o de la desviación estándar poblacional, siempre y cuando también se tenga pleno conocimiento de que la distribución de los datos de la población sea normal. Por último se presentará un método para estimar la diferencia que existe entre las medias poblacionales de dos conjuntos de datos distintos. Este método ofrece grandes ventajas cuando se desea conocer si existen diferencias significativas en la forma en que se concentran los datos de dos poblaciones distintas. 7.2.1. Muestras grandes El método de estimación de la media para muestras iguales o mayores a 30 datos se fundamenta en el teorema del límite central en la unidad anterior, el cual señala que conforme se incremente el tamaño n de cada muestra posible que se extrae de una población de tamaño N, la distribución muestral de la media irá adquiriendo la forma de una distribución normal. Cuando seconoceladesviación estándar poblacional, lafórmulaparaestimar lamediadeunapoblación a través de intervalos de confianza, con la información contenida en una muestra con 30 o más datoses: X Z n 2 X Z n 2 Fórmula 7.1 Cuando no se conoce la desviación estándar poblacional, la fórmula para estimar la media de una población a través de intervalos de confianza, con la información contenida en una muestra grande es: S n X Z 2 S n X Z 2 Fórmula 7.2 Es decir, la única diferencia radica en que la primera fórmula utiliza la desviación estándar poblacional, mientras que en la segunda fórmula se utiliza la desviación estándar que se obtiene de la muestra. Observa que ambas fórmulas proporcionan dos valores que definen un intervalo en el que se encuentra contenida la verdadera media poblacional , con un nivel de confianza que se traduce en la probabilidad de que la media poblacional se encuentre dentro de nuestro intervalo de confianza. El intervalo de confianza también puede expresarse como: X Z 2 n , X Z 2 UNIDAD 7. ESTIMACIÓN DE MEDIAS n 399 Observa que el intervalo se encuentra acotado por los dos valores resultantes. Al valor que se encuentra en la parte izquierda del intervalo se le conoce como la cota inferior, la cual señala el valor mínimo que puede adquirir la media poblacional. Al valor que se encuentra en la parte derecha de la fórmula se le conoce como la cota superior, la cual señala el valor máximo que puede adquirir la media de la población. Los elementos que conforman el intervalo de confianza son: = Media de la muestra. X Z 2 n = Es el valor de Z situado bajo la curva normal estandarizada. = Es el error estándar de la media muestral. El primer componente es el estadístico puntual X para la media poblacional, el cual sirve como referencia para establecer el intervalo de confianza. El segundo componente Z / 2 es un valor que se encuentra estrechamente relacionado con el nivel de confianza del intervalo y se obtiene de la tabla de la distribución normal estandarizada. El último componente, n o S n , es el error estándar de la media muestral o la desviación estándar de la distribución de X. El nivel de confianza sirve para determinar el valor de Z / 2. Para esto, uno determina un nivel de confianza considerable, por ejemplo, 90%, 95%, 98% o 99%. Este nivel de confianza se define como (1 – )% y señala el porcentaje de todos los intervalos que se pueden construir con todas las medias muestrales posibles que contendrán al verdadero valor de la media poblacional. Cabe señalar que se define como el nivel de significancia y representa la probabilidad de que el parámetro µ no se encuentre considerado dentro del intervalo estimado. Los niveles de confianza más comunes y sus respectivos valores de Z / 2 son: 1– 90% 95% 98% 99% Z /2 1.645 1.96 2.326 2.576 Tabla 7.1. Niveles de confianza más utilizados. Esto quiere decir que, si se está trabajando con un nivel de confianza de (1 – )% = 90%, el valor de Z / 2 que se debe utilizar en la fórmula del intervalo de confianza es 1.645. Lo mismo sucede para los niveles de confianza de 95%, 98% y de 99%, cuyos valores de Z / 2 son 1.96, 2.326 y 2.576, respectivamente. Recuerda que este método de estimación está basado en el teorema central del límite, el cual permite asegurar que al extraer una muestra grande para realizar inferencias sobre el comportamiento delapoblación, lamediamuestral tieneunadistribución normal, sin importar cómo sealadistribución original de los datosde la población. En ese sentido, el error que se puede cometer al utilizar a X como estimador de será de una magnitud aproximada al valor de E n , al que se le conoce /2 como el error máximo de la estimación. De una manera más formal, a continuación se expondrá el procedimiento para obtener la fórmula de intervalos de confianza para muestras grandes utilizando el teorema del límite central. Para ello se utilizará el estadístico Z de la distribución muestral estandarizada de la media estudiado en la unidad 8. Si se sabe que, en general, X es la media de una muestra de tamaño n 30, tomada de una población con media y desviación estándar , la distribución de la media muestral estandarizada es aproximadamente una normal con media uno y varianza cero, cuyo estadístico se representa por: 400 ESTADÍSTICA PARA NEGOCIOS Z= X Ahora bien, recordemos de la unidad 4 que el valor Z señala a qué distancia se encuentra alejado un valor específico de la media de una distribución. La relación que existe entre dos valores de Z y el porcentaje de datos de la población que se encuentra incluido entre esos dos valores de Z, (1 – )%, viene dado por: [ Z Z Z 2 ] (1 )% 2 La fórmula anterior establece que la variable aleatoria “Z” puede adquirir un valor comprendido en el intervalo que va de – Z / 2 a Z / 2, con una probabilidad de 1 – , o un porcentaje de (1 – )% de los valores de una población (véase la figura 7.1). (1– ) – Z /2 0 Z /2 Figura 7.1. Nivel de confianza. Sustituyendo el valor de la normal estandarizada en “Z” se tiene que: X Z 2 (1 Z n )% 2 Al realizar las operaciones algebraicas correspondientes se obtiene el intervalo de confianza para la media poblacional: X Z 2 n X Z 2 n (1 )% Observa que conforme se exija un mayor nivel de confianza, el valor de Z / 2 y el error máximo de la estimación (E) también se incrementarán, por lo que el intervalo se hará más ancho y se perderá precisión en la estimación de la media poblacional µ. Por el contrario, si se exige menos nivel de confianza, el valor de Z / 2 y el error máximo de la estimación (E) también se reducirán, por lo que el intervalo se hará más estrecho y se ganará precisión en la estimación de la media poblacional µ. Esto se convierte en un dilema para la persona que desea estimar la media poblacional µ. Por un lado se desea un nivel alto de confianza en el resultado del intervalo, pero también se requiere ganar precisión en la estimación de µ, es decir, intervalos de confianza que sean de preferencia muy estrechos. Cabe señalar que este método también puede ser utilizado para estimar intervalos de confianza para muestras pequeñas menores a 30 datos, siempre y cuando se tenga pleno conocimiento de que la distribución de los datos de la población sea normal y que se conozca el valor de la varianza poblacional o de la desviación estándar poblacional. UNIDAD 7. ESTIMACIÓN DE MEDIAS 4 01 Ejemplo 1 Una máquina de refrescos está ajustada de tal manera que la cantidad de líquido despachada se distribuye aproximadamente en forma normal con una desviación estándar igual a 0.15 litros. Si se toma una muestra de 25 refrescoscuya media fue de 2.25 litros, ¿cuál sería el intervalo de confianza de 95% para la media de todos los refrescos que sirva esta máquina? En este caso se tiene una muestra pequeña. No obstante, se sabe que la distribución de refrescos es normal y se conoce la desviación estándar poblacional = 0.15 litros, por lo que se utiliza la siguiente fórmula del intervalo de confianza: X Z 2 X Z n 2 n Si tenemos un nivel de confianza de 95%, el valor que tomará Z / 2, de acuerdo con la tabla 7.1, es de 1.96, por lo que los datos que utilicemos en la fórmula del intervalo de confianza son: n = 25 X = 2.25 Z / 2 = 1.96 = 0.15 Sustituyendo los datos en la fórmula se obtiene: 2.25 (1.96) 2.25 0.0588 2.1912 0.15 25 2.25 (1.96) 0.15 25 2.25 0.0588 2.3088 En conclusión, con un nivel de confianza de 95%, la media del contenido neto de losrefrescosque esta máquina envasa se encuentra entre 2.1912 y 2.3088 litros. Ejemplo 2 Al asumir la nueva administración de un banco, los nuevos directivos encontraron un problema: no disponen de información detallada sobre los préstamos otorgados a través de una tarjeta de crédito. Conseguir esta información les tomará varias semanas y el nuevo director general desea conocer, en menos de 24 horas, ¿cuál es el promedio aproximado de endeudamiento de los tarjetahabientes?Por lo anterior, el departamento de crédito revisó de manera aleatoria los expedientes de 36 clientes y observó que su promedio de endeudamiento ascendía a 8 168 pesos con una desviación estándar de 1 200 pesos. ¿Cuál es el intervalo para estimar el promedio de endeudamiento de toda la población de tarjetahabientes que se le informaría al nuevo director general si se utiliza un nivel de confianza de 90% y de 99%? No se conoce la distribución poblacional de los créditos otorgados mediante esta tarjeta. Sin embargo, al seleccionar un tamaño de la muestraden = 36, se cumplecon el teoremadel límite central, por lo que la media poblacional se puede estimar mediante un intervalo de confianza para muestras grandes. 4 02 ESTADÍSTICA PARA NEGOCIOS Los datos recolectados de la muestra son: n = 36 X =8 168 S =1 200 Si se desea un intervalo de 90% de confianza, el valor de Z en la fórmula se obtiene: 8 168 (1.645) 1 200 36 8 168 329 7 839 8 168 (1.645) /2 = 1.645. Sustituyendo los datos /2 = 2.576. Sustituyendo los datos 1 200 36 8 168 329 8 497 Si se desea un intervalo de 99% de confianza, el valor de Z en la fórmula se obtiene: 8 168 (2.576) 8 168 515.2 7 652.8 1 200 36 8 168 (2.576) 1 200 36 8 168 515.2 8 683.2 Con un 90% de confianza, se prevé que el promedio de endeudamiento estará comprendido en un intervalo de 7 839 a 8 497 pesos por cliente. En cambio, con un 99% de confianza, el promedio de endeudamiento se encuentra entre 7 652.8 a 8 683.2 pesospor cliente. Observa cómo al incrementarse el nivel de confianza de 90% a 99%, el intervalo se hace más ancho, por lo que se pierde precisión en la estimación de la media poblacional . 7.2.2. Muestras pequeñas En los apartados anteriores se utilizó la distribución normal pues resulta ser un buen instrumento para realizar inferencias cuando se trabaja con muestras grandes (n siempre y cuando la distribución de la población sea normal y se conozca la desviación estándar . Sin embargo, existen situaciones donde se desea estimar la media de una población en que únicamente se dispone de muestras pequeñas (n < 30) y la desviación estándar de la población no se conoce, este desconocimiento se debe en parte a situaciones en que el número de observaciones no es lo suficientemente representativo de una población. Para estimar la media poblacional con muestraspequeñasse puede acudir al uso de la distribución “t”, también conocida como la distribución t student, la cual es útil cuando se trabaja con muestras pequeñasy se sabe que la distribución de losdatosesnormal, pero se desconoce la desviación estándar poblacional. Cuando se trabaja con muestras pequeñas que se extraen de una población en donde su distribución esnormal y la desviación estándar se desconoce, el estimador por intervalos de confianza para la media poblacional puede obtenerse a partir de la siguiente fórmula: X t 2 S n X t UNIDAD 7. ESTIMACIÓN DE MEDIAS 2 S n 4 03 Si se compara con la fórmula para muestras grandes, se observa que el estadístico Z / 2 de la distribución normal fue reemplazado por el estadístico t / 2 de la distribución t student y, puesto que se desconoce la desviación estándar poblacional “ ”, se le sustituye por el estimador de la desviación estándar de la muestra “S”. Esta fórmula fue derivada de la misma manera que la que se utiliza en muestras grandes, pero utilizando el estadístico de la distribución t cuya distribución estandarizada es: t X S n Donde: X= = S= n= Media muestral. Media poblacional. Desviación estándar de la muestra como una aproximación a la desviación estándar . Número de observaciones. El nuevo componente, t / 2, se obtiene de una tabla de probabilidades. La distribución t student tiene un comportamiento muy similar a la distribución normal, pues es acampanada y simétrica con respecto al valor de la media µ, con la salvedad de que es platicúrtica o más achatada que la distribución normal. El grado de apuntamiento de la distribución t depende de los grados de libertad, los cuales están estrechamente ligados al tamaño de la muestra. Los grados de libertad representan el tamaño de la muestra menos uno (n – 1). Por ejemplo, si se tiene una muestra de tamaño 25, los grados de libertad serán (25 – 1) = 24; es decir, se tiene 24 grados de libertad. A mayor tamaño de la muestra, los grados de libertad serán mayores y mayor el grado de apuntamiento de la distribución t student, es decir, es menos achatada. Si el tamaño de la muestra es muy grande, por ejemplo 120, la distribución t student ya no es achatada, sino mesocúrtica, por lo cual se transforma en la distribución normal. Una diferencia de la distribución t con respecto de la distribución normal estandarizada (Z) es que la primera tiene mayores variaciones que la segunda. La mayor variabilidad de la distribución t se debe a que depende tanto de la media muestral como de la aproximación a la desviación estándar “S”. Sin embargo, cuando el tamaño de la muestra es demasiado grande, no existe ninguna diferencia entre la distribución t student y la normal. Ejemplo 3 En seis procesos de producción distintos con una duración de dos horas cada uno se observaron los siguientes artículos defectuosos: 9, 14, 7, 8, 11 y 5. Si se sabe que la distribución de los artículos defectuosos es normal, ¿cuál será el intervalo donde se encuentra el número promedio de artículos defectuosos si se tiene un nivel de confianza de 95%? En este caso se tiene una muestra pequeña, se sabe que la distribución de la población es normal y se desconoce la desviación estándar de la población. En primer lugar se debe obtener el valor de la media muestral: X= 404 X n = 54 =9 6 ESTADÍSTICA PARA NEGOCIOS Puesto que se desconoce el valor de la desviación estándar se procede a calcular en primer término el valor de la varianza para después obtener el valor de la desviación estándar. La fórmula de la varianza para una muestra está dada por: ( X X)2 n 1 S2X (9 9)2 (14 9)2 (7 9)2 (8 9)2 (11 9)2 (5 9)2 5 10 Una vezque se estima el valor de la varianza es posible obtener el valor de la desviación estándar de la muestra a partir de: SX S2X SX 3.1622 10 3.1622 Ya que se tienen los valores de la media muestral y de la desviación estándar muestral se procede a resolver el problema. El valor que obtenemos en la tabla de la distribución t es t / 2 = 2.571, teniendo en consideración que los grados de libertad son: n – 1 = 5 y el nivel de confianza es de 95% (en la tabla se debe buscar el renglón que señala 5 grados de libertad y la columna con / 2 = 0.025, pues si se tiene un nivel de confianza de 95%; entonces, el nivel de significancia es = 1 – 0.95 = 0.05, este valor se divide entre 2 y se obtiene / 2 = 0.025). Datos: n= 6 t X= 9 = 2.571 /2 S = 3.1622 Si se sustituyen estos valores en la fórmula de intervalo para muestras pequeñas tenemos: X t 2 S n 9 (2.571) 9 3.32 5.68 X t 2 3.1622 6 S n 9 (2.571) 3.1622 6 9 3.32 12.32 En conclusión, con un 95% de confianza el intervalo queda comprendido entre 5.68 y 12.32 artículos defectuosos, o sea, se tienen aproximadamente en promedio 6 artículos defectuosos como mínimo y 12 artículos defectuosos como máximo. Ejemplo 4 Un almacén de autotransportes de carga tiene registros de las diversas transacciones que realiza con sus clientes normalmente distribuidos. Si elige una muestra al azar de 15 de estosregistros cuya media es de 63.9 toneladas y una desviación estándar de la muestra de 2.8 toneladas, ¿cuál es el intervalo de confianza del servicio de carga promedio si se tiene un nivel de confianza de 90%? UNIDAD 7. ESTIMACIÓN DE MEDIAS 4 05 En este caso, se desconoce la desviación estándar de la población, pero se conoce la desviación estándar de la muestra, por lo que únicamente se tiene que sustituir. El valor de t / 2 es de 1.761, teniendo en consideración que los grados de libertad para este caso son: n – 1 = 14 y el nivel de confianza es de 90% (en la tabla se tiene que buscar el renglón que señala 14 grados de libertad y la columna con / 2 = 0.05, pues si se tiene un nivel de confianza de 90%, entonces el nivel de significancia es = 1 – 0.90 = 0.1, este valor se divide entre dos, por lo que se obtiene / 2 = 0.05). Datos: n = 15 X = 63.9 t / 2 = 1.761 SX = 2.8 Sustituyendo estos valores en la fórmula del intervalo para muestras pequeñas tenemos: X t 2 S n 63.9 (1.761) X t 2 2.8 15 63.9 1.2731 62.6269 S n 63.9 (1.761) 2.8 15 63.9 1.2731 65.1731 Al tener un 95% de confianza, el promedio de carga se encuentra en un intervalo comprendido entre 62.6269 y 65.1731 toneladas. 7.2.3. Estimación de la diferencia entre dos medias poblacionales Al igual que en los apartados anteriores, éste lo dividiremos en dos partes: una para analizar situaciones que presentan muestras grandes y otra para casos en los que se presentan muestras pequeñas. Como se mencionó previamente, cuando se trabaja con muestras grandes la desviación estándar de la población es muy similar a la desviación estándar de la muestra y el teorema central del límite garantiza que la distribución muestral de la media sea normal. En cambio, si se tienen muestras pequeñas y se desconoce la desviación estándar poblacional se puede acudir al auxilio de la distribución t student, siempre y cuando se conozca que la población tiene una distribución normal. Existen casos en los que es necesario estimar la diferencia entre dos medias, con la finalidad de comparar dos poblaciones, por ejemplo: bancarias. dos empresas. instrumentos de inversión. 406 ESTADÍSTICA PARA NEGOCIOS rating o nivel de audiencia de dos programas de televisión transmitidos a la misma hora en diferentes canales. haciendo publicidad en dos ciudades diferentes. El estimador puntual de la diferencia entre µ1 y µ2, lo da el estimador X1 – X2. Por lo tanto, para obtener una estimación puntual de µ1 y µ2 se seleccionarán dos muestras aleatorias independientes, una para cada población, de tamaños n1 y n2, y se calculará la diferencia entre sus medias muestrales. En el caso de trabajar con muestras grandesde cualquier tipo o que se conozca que la población tiene una distribución normal y la desviación estándar poblacional sea conocida, la normal estandarizada estaría dada por: Z (X1 X2 ) ( 2) 1 2 1 2 2 n1 n2 El intervalo de confianza correspondiente estará comprendido entre –Z en la fórmula de la normal estandarizada se tiene: (X1 X2 ) ( Z 2) 1 2 1 2 2 n1 n2 2 /2 y Z / 2, sustituyendo Z 2 Esta fórmula conduce al siguiente intervalo de confianza para 1 – 2, el cual también puede ser utilizado para muestras pequeñas siempre y cuando se conozca que la distribución de la población sea normal y su desviación estándar poblacional también sea conocida: 2 1 (X1 X2 ) Z 2 n1 2 2 1 n2 2 (X1 X2 ) Z 2 2 1 2 2 n1 n2 En el caso de muestras grandes en las que no se conozca la desviación estándar poblacional se puede utilizar la desviación estándar muestral, por lo que la fórmula del intervalo de confianza quedaría de la siguiente manera: (X1 X2 ) Z 2 S12 n1 S22 n2 UNIDAD 7. ESTIMACIÓN DE MEDIAS 1 2 (X1 X2 ) Z 2 S12 n1 S22 n2 4 07 Ejemplo 5 Una empresa de alimentos realizó un experimento para comparar dos dietas para adelgazar: 1 y 2. Se seleccionan al azar dosgrupos de 36 personascon sobrepeso, el primer grupo se somete a la dieta 1 y el otro aladieta2. Seobservaqueduranteun determinado número dedíasel promedio depérdidadepeso y las desviaciones estándar de ambos grupos son las siguientes: X1 21.3 S1 2.6 X2 13.4 S2 1.9. ¿Cuál es el intervalo de 95% de confianza para la diferencia entre las pérdidas de peso promedio de las dos dietas? Al tratarse de una muestra grande y un nivel de confianza de 95%, de acuerdo con la tabla 7.1, el valor para Z / 2 es Z / 2 = 1.96. Datos: n1 = 36 n2 = 36 X1 = 21.3 X2 = 13.4 S1 = 2.6 S2 = 1.9 Z / 2 = 1.96 Al sustituir los datos en la fórmula se obtiene: (2.6)2 36 (21.3 13.4) 1.96 7.9 1.052 1 6.848 2 1 2 (1.9)2 36 1 2 (21.3 13.4) 1.96 (2.6)2 36 (1.9)2 36 7.9 1.052 8.952 Por tanto, la diferencia entre las pérdidas de peso promedio de las dos dietas se encuentra en un intervalo comprendido de 6.848 a 8.952. En este caso, tanto la cota inferior como la cota superior son positivas, lo que refleja que el promedio de pérdida de peso de la dieta 1 siempre es mayor que el de la dieta 2. Por esta razón se puede aseverar que la dieta 1 tiene mayor efectividad que la dieta 2. Cuando la diferencia entre dos medias esté dada por un intervalo de confianza con ambas cotas negativas, se dice que el promedio de la población 2 es mayor que el de la población 1. Cuando el intervalo de confianza esté compuesto por dos cotas positivas, entonces se dice que la población 1 es mayor a la población 2. En el caso de que la cota inferior sea negativa y la cota superior del intervalo sea positiva no se puede decir cuál de los promedios de las dos poblaciones es mayor. Ahora bien, cuando se tiene una población cuya distribución es normal y no se conoce la desviación estándar de la población, y si se selecciona una muestra muy pequeña se hace uso de la distribución t. En el caso de la estimación de un intervalo de confianza para la diferencia de dos medias, los grados de libertad están representados por n1 + n2 – 2. La fórmula estandarizada para t es dada por: t (X1 X2 ) ( S 408 1 n1 1 2) 1 n2 ESTADÍSTICA PARA NEGOCIOS El intervalo para la distribución t queda comprendido por: –t t t 2 2 Si se sustituye la fórmula estandarizada de t se obtiene: (X1 X2 ) ( t 2 1 n1 S 2) 1 t 2 1 n2 Por lo tanto, el intervalo de confianza para la diferencia de medias de una población es dada por: (X1 X2 ) t S 2 1 n1 1 n2 1 2 (X1 X2 ) t S 2 1 n1 1 n2 Como se desconoce la desviación estándar poblacional, se tiene que calcular la varianza muestral de ambas poblaciones S2 mediante la siguiente fórmula: S2 (n1 1) S12 (n2 1) S22 n1 n2 2 Para obtener la desviación estándar muestral de ambas poblaciones se le saca la raíz cuadrada a la varianza y su resultado S se sustituye en la fórmula del intervalo de confianza para la diferencia de dos poblaciones. Ejemplo 6 Se realizó un comparativo entre dos tipos de automóviles para ver cuál resultaba más económico, se utilizaron 12 Volkswagen y 10 Toyota en pruebas con velocidades de 90 km por hora. Los VW obtuvieron un rendimiento promedio de 16 km por litro con una desviación estándar de 1 km por litro, mientras que los Toyota obtuvieron un rendimiento de 11 km por litro, con una desviación estándar de 1.8 km por litro. Calcula un intervalo de confianza de 90% para la diferencia entre el rendimiento promedio por litro de ambos automóviles. En este caso los grados de libertad son n1 + n2 – 2 = 20. Al solicitarse un intervalo de 90% de confianza, el nivel de significancia es = 1 – 0.90 = 0.1; este valor se divide entre dos, por lo que se obtiene / 2 = 0.05. El valor del estadístico t que se encuentra en tablas con 20 grados de libertad y / 2 = 0.05 es t / 2 = 1.725. Datos: n1 n2 X1 X2 S1 S2 t /2 = 12 = 10 = 16 = 11 = 1 = 1.8 =1.725 UNIDAD 7. ESTIMACIÓN DE MEDIAS 409 Primero se encuentra el valor de la varianza y posteriormente el valor del intervalo; sustituyendo en la fórmula de la varianza se obtiene: S2 (n1 1)S12 (n2 1)S22 n1 n2 2 S2 (12 1)(1)2 (10 1)(1.8)2 12 10 2 (11)(1) (9)(3.24) 20 11 29.16 20 40.16 20 2.008 La desviación estándar es la raíz cuadrada de la varianza, por lo tanto: S S2 2.008 1.417 (16 11) (1.725)(1.417) 5 1.046 3.954 1 1 2 2 1 1 12 10 1 2 (16 11) (1.725)(1.417) 1 1 12 10 5 1.046 6.046 La diferencia entre los rendimientos promedios poblacionales de estos dos vehículos se encuentra entre 3.954 y 6.046. Al ser ambos resultados en números positivos, se puede aseverar que los vehículos de la población 1 (VW) tienen mayor rendimiento promedio en kilometraje por litro que los vehículos de la población 2 (Toyota). Este diferencial puede incluso llegar por encima de los 6 kilómetros por litro de gasolina (observa la cota superior del intervalo). Cabe destacar que losmétodosutilizadospara estimar losintervalosde confianza con muestras pequeñas cuando no se conoce la desviación estándar de la población, se parte del supuesto de que la distribución de la población es normal. Si bien es cierto que las muestras pequeñas generalmente son utilizadas para experimentos donde hacer una muestra grande puede resultar muy costoso, cuando no se tiene plena seguridad de que la distribución de la población es normal es aconsejable incrementar el tamaño de la muestra a un número superior a los 30 datos; de esta manera se da cumplimiento al teorema del límite central y las estimaciones de la media se pueden llevar a cabo mediante intervalos con alto grado de confiabilidad. 410 ESTADÍSTICA PARA NEGOCIOS 1. Si se incrementa el nivel de confianza para la estimación de un intervalo, el error máximo de la estimación E presentará el siguiente comportamiento: a) b) c) d) 2. Se incrementará. Se reducirá. Quedará sin cambios. No se puede determinar qué pasará. El nivel de significancia se puede interpretar como: a) El porcentaje de los intervalos que se pueden construir con todas las medias muestrales posibles que contendrán al verdadero valor de µ. b) El porcentaje o probabilidad de que se estime correctamente la media muestral dentro del intervalo. c) El nivel de probabilidad de que la distribución muestral de la media no tenga una distribución normal. d) La probabilidad de que el parámetro µ no se encuentre considerado dentro del intervalo estimado. 3. El nivel de confianza se puede interpretar como: a) El porcentaje de los intervalos que se pueden construir con todas las medias muestrales posibles que contendrán al verdadero valor de µ. b) El porcentaje o probabilidad de que se estime correctamente la media muestral dentro del intervalo. c) El nivel de probabilidad de que la distribución muestral de la media no tenga una distribución normal. d) La probabilidad de que el parámetro µ no se encuentre considerado dentro del intervalo estimado. 4. Si se tiene un nivel de confianza de 90%, el nivel de significancia será de: a) b) c) d) 5. Si se reduce el nivel de confianza para la estimación de un intervalo, el intervalo de confianza será: a) b) c) d) 6. 0.001 0.25 0.05 0.10 Más ancho. Más estrecho. Quedará sin cambios. No se puede determinar qué pasará. Si se tiene un nivel de confianza de 98%, el estadístico Z a) b) /2 será igual a: 1.645 1.96 UNIDAD 7. ESTIMACIÓN DE MEDIAS 411 c) 2.326 d) 2.576 7. Las fórmulas de intervalos de confianza para muestras grandes también pueden ser utilizadas para muestras pequeñas, siempre y cuando: a) Se tenga seguridad que la distribución de la población sea normal, conocimiento de la varianza poblacional. b) Se tenga seguridad que la distribución de la población sea normal desviación estándar muestral. c) Se tenga seguridad que la distribución de la población sea normal, conocimiento de la varianza muestral. d) Se tenga seguridad que la distribución de la población sea normal desviación estándar poblacional. 8. 21 22 23 24 Es platicúrtica. Es mesocúrtica. Tiene sesgo positivo. Es asimétrica. Será menos platicúrtica. Será más platicúrtica. Será menos simétrica. Será más simétrica. Si las dos cotas de un intervalo de confianza para estimar la diferencia de dos poblaciones, 1 y 2, son negativas, entonces se puede decir que: a) b) 412 Ganará precisión. Perderá precisión. Quedará sin cambios. Se reducirá el nivel de confianza. Si se incrementan los grados de libertad o el tamaño de una muestra pequeña, la distribución t student: a) b) c) d) 12. y que se conozca la La diferencia de la distribución t con la distribución normal es que la primera: a) b) c) d) 11. aunque no se tenga Si se tiene una muestra de tamaño 23 y se desea estimar mediante intervalos de confianza la media de una población, los grados de libertad son: a) b) c) d) 10. y que se conozca la Si se incrementa el nivel de confianza para la estimación de un intervalo, la estimación de la media poblacional µ presentará el siguiente comportamiento: a) b) c) d) 9. aunque no se tenga La media de la población 1 es mayor que la media de la población 2. La media de la población 2 es mayor que la media de la población 1. ESTADÍSTICA PARA NEGOCIOS c) La media de la población 1 es igual a la media de la población 2. d) No se puede saber qué población tiene una mayor media. 13. Si se tienen dos muestras n1 = 13 y n2 = 8, y se desea estimar la diferencia de las medias de dos poblaciones mediante intervalos de confianza, los grados de libertad para este intervalo son: a) b) c) d) 14. Si la cota inferior es negativa y la cota superior es positiva en un intervalo de confianza para estimar la diferencia de dos poblaciones, 1 y 2, entonces: a) b) c) d) 15. = 1.711 = 2.064 /2 = 2.492 /2 = 2.797 /2 /2 0.2352 1.0266 2.064 1.176 Si la muestra es demasiado grande, la distribución t student respecto a la distribución normal es: a) b) c) d) 18. t t t t Si se estima la media de una población con distribución normal y desviación estándar 3, a través de un intervalo de 95% de confianza, y para ello se extrae una muestra de tamaño 25, el error máximo de la estimación es: a) b) c) d) 17. La media de la población 1 es mayor que la media de la población 2. La media de la población 2 es mayor que la media de la población 1. La media de la población 1 es igual a la media de la población 2. No se puede saber qué población tiene una mayor media. Si se desea estimar la media de una población mediante un intervalo de 99% de confianza utilizando una muestra de tamaño 25, entonces: a) b) c) d) 16. 7 12 19 20 Igual. Más aplanada. Más puntiaguda. Más simétrica. Si las dos cotas de un intervalo de confianza para estimar la diferencia de dos poblaciones, 1 y 2, son positivas, entonces se puede decir que: a) b) c) d) La media de la población 1 es mayor que la media de la población 2. La media de la población 2 es mayor que la media de la población 1. La media de la población 1 es igual a la media de la población 2. No se puede saber qué población tiene una mayor media. UNIDAD 7. ESTIMACIÓN DE MEDIAS 413 19. Si se desea un intervalo de 98% de confianza para estimar la diferencia de la media de dos poblaciones y para ello se tiene que n1 =16 y n2 =10, entonces: a) b) c) d) 20. = 2.064 = 2.056 /2 = 2.492 /2 = 2.479 /2 /2 Si se tiene un nivel de confianza de 98%, el nivel de significancia será de: a) b) c) d) 21. t t t t 0.001 0.1 0.01 0.02 Un analista de un departamento de personal selecciona aleatoriamente los expedientes de 16 empleados y determina que el índice salarial medio muestral por hora es de $9.5. Se supone que los índices salariales de la compañía siguen una distribución normal. Si se sabe que la desviación estándar poblacional de los índices salariales es de $1, estima el índice salarial medio en la empresa con un intervalo de confianza de 90%. 22. Un estudio realizado por una empresa de químicos dio como resultado que una muestra de 25 obreros se enferma en promedio 6.8 veces por año, con una desviación estándar muestral de 2.4. Si se sabe que la distribución poblacional del número de enfermos es normal, construye un intervalo de confianza de 99% en relación con el número promedio de veces que un obrero se enferma anualmente. 23. Una empresa que produce televisores ha detectado que el ciclo de vida de una muestra de 100 televisores es de 48 meses con una desviación estándar muestral de 2.4 meses. Teniendo un nivel de confianza de 95%, ¿cuál será el intervalo de confianza del promedio de vida de la población de televisores? 24. De acuerdo con una encuesta industrial son dos los sectores cuyo personal tiene alta productividad, en el primer sector se tomó una muestra de 50 empresas, el promedio de empleados altamente productivos es de X1=420.4, con S1=55.7. En el segundo sector, el promedio de empleados altamente productivos que se observó en una muestra de 50 empresas es X2=492.5, con S2=87.5. Con un intervalo de confianza de 90%, ¿cuál es la diferencia de los promedios de empleados altamente productivos por empresa entre los dos sectores? 25. 414 De una muestra aleatoria de 16 trabajadores que beben cantidades considerables de alcohol, el número medio de días de ausentismo laboral al mes fue de 2.15 días y la desviación estándar de 1.1 días. De una segunda muestra de 12 trabajadores que beben esporádicamente, el número medio de días de ausentismo fue de 1.69 días y la desviación estándar de 1 día. Calcula un intervalo de confianza de 99% de la diferencia de las dos medias. ESTADÍSTICA PARA NEGOCIOS 7.3. Estimación de una proporción poblacional Existe una gran cantidad de situaciones donde lo que interesa es conocer la proporción o el porcentaje de una población, pues este concepto se encuentra estrechamente relacionado con las probabilidades de ciertos eventos. Por ejemplo, si se tiene la proporción de las personas que tienen Internet en su casa, ésta también puede ser utilizada para calcular la probabilidad de que una persona cuente con Internet al ser seleccionada aleatoriamente de una población. Por estarazón, laestimación delasproporcionespoblacionalesconstituyeunaparteesencial en muchos estudios donde se busca calcular la probabilidad de éxito o de fracaso con que puede ocurrir un evento. Una proporción es una parte, fracción o porcentaje de los elementos que constituyen a una población o una muestra. El concepto de proporción poblacional se utiliza en muchos campos relacionados con los negocios y las ciencias sociales. Algunos ejemplos donde frecuentemente tiene aplicación son: sus recursos en un cierto tipo de acciones. que prefieren los autos de dos puertas. empleados que pudieran faltar al trabajo a causa de problemas familiares. proporción de artículos que saldrán defectuosos en cada proceso de producción. está interesada en determinar la proporción de contribuyentes que evadirán impuestos los próximos años. Los ejemplos anteriores representan una parte de la gran cantidad de casos donde tiene aplicación el manejo de las proporciones. Por esta razón se requiere realizar estimaciones de las proporciones poblacionales con la información recolectada a través de muestras. Cabe señalar que la proporción puede ser considerada como una medida descriptiva que señala la manera en que se encuentra compuesta una muestra o una población; este indicador es calculado en valores que van de cero a uno. La estimación deuna proporción tiene como objetivo identificar, a partir de una muestra, aquellos elementos que posean alguna característica similar a la de una población. Existen dos maneras de estimar la proporción de una población: mediante estimación puntual y a través de estimación por intervalos de confianza. 7.3.1. Estimación puntual de una proporción La proporción de elementos de la muestra que presentan la característica en estudio se puede considerar como éxitos“ p”, mientras que la proporción de elementos de la muestra que no presenten la característica en estudio pueden ser considerados como fracasos “ q”. La fórmula para obtener una proporción de los éxitos o elementos que se observan en una muestra es la siguiente: UNIDAD 7. ESTIMACIÓN DE MEDIAS 415 p̂ X n Donde: p: proporción de los éxitos observados en la muestra. X: representa el número de éxitos que se puede obtener en una muestra. n: es el tamaño de la muestra. Si se conoce el valor de p, es decir, la proporción de éxitos en una muestra, automáticamente se sabe el porcentaje de fracasos q de la muestra. La fórmula para obtener una proporción de los fracasos q que se observa en una muestra es la siguiente: ˆ 1 q X n ˆ o ˆq 1 p Si bien es cierto que p y q señalan la proporción de éxitos y fracasos que se observan en una muestra, también pueden ser utilizados como estimadores puntuales de las proporciones de una población, pues son procedimientos mediante los cuales se realizan cálculos con los datos de una muestra cuyo resultado es un valor numérico único que puede ser empleado para estimar el valor de un parámetro poblacional. Ejemplo 7 Una empresa desea determinar la proporción de empleados que toma cursos de capacitación los sábados. La empresa elige en forma aleatoria una muestra de 80 empleados, de los cuales 62 toman cursos de capacitación los sábados. Datos: n = 80 X = 62 Al sustituir en la fórmula de proporciones se obtiene: ˆp X n 62 80 0.775 Por lo tanto, a partir de la muestra tomada, la empresa puede concluir que, 77.5% de la población de empleados toma cursos de capacitación los sábados. El porcentaje de empleados que no toma cursos de capacitación se puede obtener a partir de: ˆ 1 0.775 0.225 ˆ 1 p q Por lo que, 22.5% de la población no toma cursos de capacitación los sábados. Sin embargo, este método de estimación no resulta muy atractivo ante las limitaciones que se observan en todo tipo de estimadores puntuales; por ejemplo, su resultado varía de muestra en muestra y no proporciona una medida de referencia que permita conocer cuánto le podemos tener confianza al resultado obtenido de la estimación puntual. 416 ESTADÍSTICA PARA NEGOCIOS 7.3.2. Estimación por intervalo de confianza de una proporción El concepto de la proporción poblacional está íntimamente ligado con la distribución binomial, pues en un experimento binomial el estimador puntual de la proporción poblacional p es: p X n Si se utiliza el muestreo aleatorio, entonces la variable X, que representa el número de éxitos que se pueden obtener en una muestra, es una variable binomial, pues permite definir la probabilidad de obtener cierto número de éxitos al estudiar una muestra en experimentos independientes. Lo anterior resulta de gran trascendencia ya que, cuando se busca estimar una proporción poblacional a partir de una muestra, en la que se conoce el número de éxitos y fracasos, se debe hacer uso de variablesbinomiales; de éstas, al igual que en apartadosanteriores, el teorema del límite central permite hacer inferencias de las proporciones poblacionales mediante intervalos de confianza. El teorema central del límite señala que, si se tiene una variable con distribución binomial X que representa el número de éxitos que se pueden obtener en una muestra, con una distribución muestral del estadístico p, en las que cada una de las posibles muestras tiene un tamaño n lo suficientemente grande de tal manera que n multiplicada por el estadístico p sea mayor o igual a 5, n p 5, y multiplicada por el estadístico q también sea mayor o igual a 5, nq 5, entonces la distribución muestral del estadístico p tendrá una distribución normal. Como se sabe que una distribución binomial X tiene una media p y una varianza pq, la media y la varianza de la distribución muestral del estadístico cuando se tienen muestras independientes son: E(p) E E(p) V 1 1 1 {E( X i )} (np) p E(X i ) n n n npq pq 1 1 V (X i ) {V ( X i )} n n n2 n2 Xi n Xi n Por lo tanto, cuando el tamaño de la muestra essuficientemente grande, la distribución muestral de una proporción p sigue una distribución en forma normal, con media igual a p y desviación pq . estándar n Lo anterior permite obtener una fórmula para estimar el parámetro p mediante intervalos de confianza, pues se puede utilizar el estadístico de la normal estandarizada, es decir, el estadístico de Z, el cual se puede representar por: Z p p pq n El estadístico expuesto anteriormente se aproxima a la distribución normal estándar. Entonces, la probabilidad de que la proporción de una población se localice dentro del intervalo es: P( Z ) 1 Z Z 2 2 Si se sustituye el valor del estadístico Z se tiene: Z 2 p p pq n Z 2 UNIDAD 7. ESTIMACIÓN DE MEDIAS 417 Aplicando un poco de álgebra se obtiene el intervalo de p, el cual se puede establecer como: p 2 pq n p p 2 pq n Dentro de este intervalo se encuentra el verdadero parámetro de la proporción poblacional. Sin embargo, como la proporción real de una población se desconoce, en su lugar se emplean los estimadores muestrales p y q. Con esta modificación, el intervalo anterior queda transformado de la siguiente manera: p 2 pq n p p 2 pq n Donde: pq Es la desviación estándar del estadístico , también conocido como el error estándar de la p n proporción. E /2 pq Es el error máximo de la estimación de una proporción. n Ejemplo 8 El departamento de recursos humanos de una empresa tiene interés en conocer el porcentaje de trabajadores que tienen estudiosde bachillerato, para esto seleccionó una muestra de 200 trabajadores y detectó que 114 tienen al menos estudios de bachillerato. Con un nivel de confianza de 90%, ¿cuál es el intervalo para la proporción de trabajadores que tienen estudios de bachillerato? En primera instancia se debe buscar el valor de p, que representa la proporción de trabajadores que tienen estudios de bachillerato en la muestra seleccionada. X 114 0.57 Que representa la proporción de éxitos. n 200 Para obtener la proporción de fracasos tenemos que: p p 1 p 1 0.57 0.43 Tenemos que el porcentaje de éxitos representa 57% de la muestra y el porcentaje de fracasos representa 43%. Antes de estimar el intervalo de confianza, se debe indagar si la muestra es lo suficientemente grande para garantizar el cumplimiento del teorema del límite central para una distribución muestral de una proporción. np= (200) (0.57) = 114 5, nq= (200) (0.43) = 86 5, 418 ESTADÍSTICA PARA NEGOCIOS Tanto np como nq son mayores a 5, por lo que la distribución muestral del estimador p tiene una distribución normal. Por lo tanto, cuando el nivel de confianza es de 90%, el valor de Z / 2 = 1.645. Datos: p = 0.57 q = 0.43 X = 114 n = 200 Z / 2 = 1.645 Sustituyendo estos valores en la fórmula se tiene: p 2 pq n 0.57 1.645 p p 2 (0.57)(0.43) 200 pq n p 0.57 1.645 (0.57)(0.43) 200 0.57 1.645(0.035) p 0.57 1.645(0.035) 0.513 p 0.627 En conclusión, la proporción de trabajadores que tienen estudios de bachillerato se encuentra en un intervalo comprendido entre 51.3% y 62.7%. Ejemplo 9 De una muestra de 300 artículos de cerámica se detectó que 75 no tienen la calidad requerida para poder colocarseen el mercado. Construyeun intervalo deconfianza de 95% para estimar laproporción poblacional de los artículos que no tienen la calidad requerida para colocarse en el mercado. Aplicando las fórmulas de proporción, el número de éxitos es: p X n 75 300 0.25 Mientras que el número de fracasos es: q 1 p 1 0.25 0.75 Antes de estimar el intervalo de confianza, se debe indagar si la muestra es lo suficientemente grande para garantizar el cumplimiento del teorema del límite central para una distribución muestral de una proporción. np = (300) (0.25) = 75 5, nq = (300) (0.75) = 225 5, UNIDAD 7. ESTIMACIÓN DE MEDIAS 419 Tanto np como nq son mayores a 5, por lo que la distribución muestral del estimador p tiene una distribución normal. Por lo tanto, cuando el nivel de confianza es de 95%, el valor de Z / 2 = 1.96. Datos: n= p= q= Z /2 = 300 0.25 0.75 1.96 Sustituyendo estos valores en la fórmula se tiene: p 2 pq n 0.25 1.96 p p 2 (0.25)(0.75) 300 pq n p 0.25 1.96 (0.25)(0.75) 300 0.25 0.049 p 0.25 0.049 0.201 p 0.299 Por lo tanto, con un nivel de confianza de 95% se puede decir que la proporción poblacional de los artículos que no tienen la calidad requerida para colocarse en el mercado se encuentra en un intervalo comprendido entre 20.1% y 29.9%. 420 ESTADÍSTICA PARA NEGOCIOS 1. Una proporción se puede definir como: a) Una medida descriptiva que señala hacia dónde tienden a concentrarse los valores de una muestra o población. b) Una medida descriptiva que señala la manera en que los datos de una muestra o población se dispersan entre sí. c) Un nivel de significancia para medir parámetros poblacionales. d) Una parte, fracción o porcentaje de los elementos que constituyen una población o una muestra. 2. 3. El estadístico puntual de una proporción se define como: a) p n X b) p X n c) X p n d) p q n El teorema del límitecentral señala que una distribución muestral del estadístico p, con muestras lo suficientemente grandes, tendrá: a) b) c) d) 4. La distribución de la variable X que representa el número de éxitos que se pueden obtener en una muestra, tiene una: a) b) c) d) 5. Una distribución normal. Una distribución binomial. Una distribución t student. Una distribución sesgada. Distribución normal. Distribución binomial. Distribución t student. Distribución sesgada. Para que una muestra sea considerada lo suficientemente grande en la estimación de una proporción poblacional: a) n 30 b) np 5 y nq 5 c) nq 5 y nX 5 d) nq 5 y pX 25 UNIDAD 7. ESTIMACIÓN DE MEDIAS 4 21 6. Si se desea estimar un intervalo de confianza para la proporción de una población con características X, y para ello se selecciona una muestra de tamaño n = 250 en la que existen 30 elementos con las características X: a) b) c) d) 7. No se cumple el teorema del límite central puesnp = 30 No se cumple el teorema del límite central puesnp = 220 Sí se cumple el teorema del límite central pues np = 30 Sí se cumple el teorema del límite central pues np = 220 La fórmula del error máximo de la estimación de una proporción es: a) b) c) d) 8. n n /2 pq n /2 pq n La fórmula del error estándar de una proporción es: a) b) c) d) 9. y nq = 220. y nq = 30. y nq = 220. y nq = 30. n n /2 pq n /2 pq n Si se desea estimar un intervalo de confianza de 90% para la proporción de una población con características X, y para ello se selecciona una muestra de tamaño n = 500 en la que existen 200 elementos con las características X, el error estándar de la proporción sería: a) 0.1564 b) 0.0429 c) 0.0219 d) 0.0360 422 ESTADÍSTICA PARA NEGOCIOS 10. Si se desea estimar un intervalo de confianza de 95% para estimar la proporción de una población con características X, y para ello se selecciona una muestra de tamaño n = 1 200 en la que existen 300 elementos con las características X, el error máximo de la estimación sería: a) b) c) d) 0.00005625 0.0205 0.0125 0.0245 11. Una tienda de autoservicio de artículos electrodomésticos realizó una evaluación sobre las ventas que hubo en la semana. De una muestra de 500 artículos se observó que 425 se vendieron a crédito. Construye un intervalo de confianza de 99% para la proporción de ventas reales que se hacen a crédito. 12. El departamento de mercadotecnia de una empresa de cigarros llevó a cabo una encuesta para saber qué porcentaje de los fumadores prefieren la marca que ésta vende. De una muestra de 190 fumadores, 171 aceptaron su preferencia por los cigarros que produce la empresa, y el resto asegura que prefiere otra marca. Si existe un nivel de confianza de 99%, ¿cuál es el intervalo para la proporción correspondiente a la población que se muestrea? 13. Un conocido noticiero, que es transmitido por televisión a nivel nacional en una noche determinada, preguntó a su público televidente si considera que sea posible que exista vida en otro planeta. Se recibieron un total de 1 000 llamadas telefónicas, de las cuales 630 consideran que sí es posible la existencia de vida en otro planeta, mientras que 370 consideraron que no es posible. Si se hace el supuesto de que la encuesta realizada por el noticiero es representativa de la población, encuentra un intervalo de 90% de confianza para estimar la proporción poblacional de la gente que sí cree en la existencia de vida en otros planetas. 14. A una muestra aleatoria de 344 mayoristas industriales se les preguntó: ¿Están satisfechos con las ventas en el presente año?83 de estos mayoristas respondieron que sí. Calcula un intervalo de confianza de 90% para la proporción poblacional de los mayoristas industriales que sí estén satisfechos con sus ventas en el presente año. 15. A una muestra aleatoria de 147 directores de recursos humanos que ofertan trabajos a universitariostituladosse lespreguntó cuál era el papel que jugaba el expediente académico en la evaluación de los candidatos. 87 de estos directores contestaron “definitivo”, “extremadamente importante” o “muy importante”. Calcula un intervalo de confianza de 95% para la proporción poblacional de directores de recursos humanos que compartían esta opinión. UNIDAD 7. ESTIMACIÓN DE MEDIAS 423 7.4. Estimación de la diferencia entre dos proporciones poblacionales Frecuentemente se presentan casos donde es necesario tomar decisiones a partir de la estimación de dos proporciones. En este caso, la finalidad de la estimación consiste en calcular las diferencias o similitudes que existen entre dos proporciones de poblaciones diferentes. Esta situación se presenta en muchos casos relacionados con los negocios o las ciencias sociales, por ejemplo: una proporción de habitantes de la delegación Iztacalco es mayor que el consumo de una proporción de habitantes de la delegación Venustiano Carranza. en la demanda de una determinad a marca de cigarros, tomando como referencia dos proporciones de fumadores de dos ciudades distintas. de una muestra, si un tipo de publicidad por radio produce mayores efectos que otro medio publicitario. En este tipo decasosesimportante contar con un medio quepermitaestimar la diferencia que existe entre las proporciones de dos poblaciones y decidir de qué manera hemos de llevar a cabo el análisis e interpretación de sus resultados. Un procedimiento que facilita esta labor es la estimación de la diferencia entre proporciones a través de intervalos de confianza. Este procedimiento se puede aplicar a partir de elegir dos muestras independientes n1 y n2 de dos poblaciones binomiales, si X1 y X2 son los números de aciertos o éxitos que se obtienen al muestrear n1 y n2, entonces se pueden formar las proporciones. p1 X1 y p2 n1 X2 n2 El estimador puntual de la diferencia de proporciones de dos poblaciones p1 – p2 es p1 – p2. Considerando la distribución muestral de p1 – q2, puede construirse un intervalo de confianza para estimar p1 – p2. Si se tienen muestras lo suficientemente grandes de tal manera que n1 p1, n1q1, n2 p2, n2q2 son mayores a 5, la distribución muestral de p1 – p2 tiene una distribución normal. La media y la desviación estándar del estadístico p1 – p2 son: Media: p1 – p2 Desviación estándar: p 1q1 n1 p2 q2 n2 Cuando se utilizan muestras grandes, la distribución muestral de la diferencia entre dos proporciones se puede calcular en forma aproximada a partir de la utilización de la distribución normal, mediante el estadístico Z, el cual se puede establecer a partir de: Z (p1 p2 ) (p1 p2 ) p1 q1 n1 424 p2 q2 n2 ESTADÍSTICA PARA NEGOCIOS El estadístico Z está distribuido en un intervalo que va de –Z / 2 Z / 2, es decir, la probabilidad que se tiene de que la diferencia de proporciones se encuentre en dicho intervalo está comprendida en: Z Z Z 2 2 Sustituyendo el valor de Z se tiene: (p1 p2 ) (p1 p2 ) Z 2 p1 q2 n1 p1 q2 n2 Z 2 Despejando p1 – p y resolviendo algebraicamente se obtiene: 2 (p1 p2 ) Z 2 p1 q1 n1 p2 q2 n2 p1 p2 (p1 p2 ) Z 2 p1 q1 n1 p2 q2 n2 Que es el intervalo de confianza para la diferencia entre dos proporciones poblacionales. Ejemplo 10 Una empresa que produce cartón está evaluando si modifica el procedimiento de producción con la finalidad de incrementar la calidad del producto. Para llevar a cabo la evaluación, la empresa elige una muestra del procedimiento actual y otra muestra del procedimiento que piensa poner en práctica. Si 150 de 1 000 artículos del procedimiento actual salieron defectuosos y lo mismo sucedió con 120 de 1 000 artículos del nuevo procedimiento, con un 90% de confianza, ¿cuál es el intervalo de confianza para la diferencia de proporciones de partes defectuosas entre los dos procesos? Contando con un nivel de confianza de 90% el valor de Z / 2 = 1.645 Datos: X1 = 150 X2 = 120 n1 =1 000 n2=1 000 Z / 2 = 1.645 En primer lugar, se procede a calcular el valor de las proporciones o número de éxitos p1 y p : 2 p1 X1 n1 150 1 000 0.15 p2 X2 n2 120 1 000 0.12 Mientras que el número de fracasos en ambas poblaciones es: q1 1 p1 1 0.15 0.85 q2 1 p2 1 0.12 0.88 UNIDAD 7. ESTIMACIÓN DE MEDIAS 425 Sustituyendo losvaloresanteriores en la fórmula de intervalo para la diferencia de proporciones se obtiene: (p1 p2 ) Z 2 p1 q1 n1 p1 p2 (p1 p2 ) Z (015 . )(085 . ) (012 . )(088 . ) 1 000 1 000 (015 . 012 . ) 1645 . 0.03 0.025 p1 p2 0.005 p1 p2 p2 q2 n2 p1 p2 2 p1 q1 n1 p2 q2 n2 (015 . 012 . ) 1645 . (015 . )(085 . ) (012 . )(088 . ) 1 000 1 000 0.03 0.025 0.055 Por lo tanto, la diferencia de proporcionesde partes defectuosasde dospoblacionesse encuentra en un intervalo comprendido entre 0.005 y 0.055, es decir, que al considerar dos procedimientos distintos, la diferencia que existe entre las proporciones de defectos que ambos producen está entre 0.5% y 5.5% de defectos, o de otra manera, se produce entre ellos una diferencia mínima de defectos de 0.5% y como máximo una diferencia de 5.5% de defectos. Observa que ambas cotas son positivas, lo que señala que el procedimiento 1 tiene una mayor proporción de artículos defectuosos que el procedimiento 2. En este sentido, de acuerdo con el proceso de inferencia mediante intervalos de confianza, se puede decir que el procedimiento 2 es mejor que el procedimiento 1. Ejemplo 11 El gerente de ventas de una gran industria está interesado en conocer la proporción de devoluciones que existe en dosciudadesdel país. En la ciudad 1 detectó que de cada 900 artículos100 son devueltos, mientras que en la ciudad 2 se devuelven 80 artículos de cada 1 000. Calculemos un intervalo de confianza de 95% para la diferencia de la proporción de devoluciones entre las dos ciudades. Contando con un nivel de confianza de 95%, el valor de Z / 2 = 1.96 Datos: X1 = 100 X2 = 80 n1 = 900 n2=1 000 Z / 2 = 1.96 En primer lugar, se procede a calcular el valor de las proporciones o número de éxitos p1 y p . 2 426 p1 X1 n1 100 900 p2 X2 n2 80 1 000 0.11 0.08 ESTADÍSTICA PARA NEGOCIOS Mientras que el número de fracasos es: q1 1 p1 1 0.11 0.89 q2 1 p2 1 0.08 0.92 Sustituyendo los valores en la fórmula del intervalo para la diferencia de proporciones se obtiene: (p1 p2 ) Z 2 (011 . 008 . ) 196 . p1 q1 n1 p1 p2 (p1 p2 ) Z (011 . )(089 . ) (008 . )(092 . ) 900 1 000 0.03 0.026 p1 p2 0.004 p1 p2 p2 q2 n2 p1 p2 2 p1 q1 n1 p2 q2 n2 (011 . . ) 196 . 008 . ) (011 . )(089 . ) (008 . )(092 900 1 000 0.03 0.026 0.056 Por lo tanto, la diferencia de proporciones poblacionales de las dos ciudades se encuentra en un intervalo comprendido entre 0.004 y 0.056. UNIDAD 7. ESTIMACIÓN DE MEDIAS 4 27 428 1. Una empresa dedicada a realizar encuestas tomó dos muestras aleatorias independientes para saber la proporción de votantes que están a favor de que se graven con un impuesto los productos de la canasta básica. En una primera muestra de 1 500 personas, 350 estuvieron a favor; mientras que en una segunda muestra de 1 400 personas, 400 dieron el visto bueno. ¿Cuál es el intervalo de confianza de 95% para estimar la diferencia entre proporciones de las dos poblaciones que apoyan que se graven con un impuesto los artículos de la canasta básica? 2. En un proceso de producción se observó que 30 focos resultaron fundidos de una muestra de 350 focos, mientras que con otro proceso se produjeron 25 focos fundidos de una muestra de 420. Si se trabaja con un nivel de confianza de 99%, determina el intervalo para estimar la diferencia entre las proporciones de focos fundidos para las dos poblaciones. 3. En un estudio de los “proyectos patrocinados por empresas” (PPE) en cursos universitarios de marketing, se pidió a los profesores encargados de dicha asignatura que evaluasen la frase: “Los PPE exigen demasiado tiempo de trabajo al departamento”. De una muestra de 92 profesores de escuelas acreditadaspor la SEP que empleaban losPPE, 49 estaban de acuerdo con esta opinión. De otra muestra independiente de 82 profesores que también hacían uso de los PPE, pero que pertenecían a escuelas no acreditadas, 36 compartían dicha visión. Calcula un intervalo de 90% de confianza para estimar la diferencia entre las proporciones poblacionales de los profesores que están de acuerdo con el empleo de los PPE. 4. En un estudio sobre el comportamiento de compra en los supermercados, se pidió a los clientes que respondiesen un pequeño cuestionario justo después de hacer una compra. De una muestra aleatoria de 570 que eligieron algún producto que no estaba de oferta, 308 afirmaron que habían comprobado el precio en el momento de elegirlo. De otra muestra aleatoria de 232 que escogieron un artículo en oferta, 157 dijeron haber hecho dicha comprobación. Calcula un intervalo de confianza de 90% para estimar diferencia entre las proporciones de la población que comprueban precios. 5. De una muestra aleatoria de 112 grandes empresas minoristas, 70 emplean técnicas estadísticas como un método de predicción de sus ventas. De otra muestra aleatoria independiente de 135 pequeños minoristas, 65 utilizan técnicas estadísticas como método de predicción de sus ventas. Calcula un intervalo de confianza de 95% para estimar la diferencia de proporciones de las empresas que emplean métodos estadísticos para la predicción. ESTADÍSTICA PARA NEGOCIOS 7.5. Estimación de la varianza de una población En las secciones anteriores se han venido desarrollando diversas técnicas de estimación mediante intervalos de confianza para la media de una población, para la diferencia entre las medias de dos poblaciones, la proporción de una población y la diferencia de proporciones de dos poblaciones. Sin embargo, en muchas ocasiones necesitamos estimar medidas de dispersión para analizar ciertos fenómenos que se presentan en los negocios y en las ciencias sociales. En la unidad 3 se expusieron distintas medidas de dispersión. Se dijo que este tipo de medidas proporcionan una idea mental con la cual se conoce qué tanto varían o qué tanto se dispersan los valores de un conjunto de datos. Una de ellas es la varianza, la cual resulta muy importante en el análisis de datos, pues de ella se deriva otra medida de dispersión, la desviación estándar, la cual es utilizada con mucha frecuencia por la interpretación que se le puede dar a su resultado. En esta sección se expondrá un método de estimación para la varianza de una población 2 a través de intervalos de confianza, pues a menudo se presentan casos donde se desconoce esta medida de dispersión, por lo que se tiene que buscar un mecanismo que permita hacer inferencias sobre 2. El hecho de que se desconozca el valor de 2 crea problemas en el momento de querer tomar decisiones a partir de la inferencia de una muestra, esto se debe a que se desconoce la variación que existe entre los distintos elementos que componen la muestra. Si se elige una muestra en forma aleatoria de una población, se puede utilizar como estimador puntual de 2. S2 ( X i X)2 Estimador puntual de la varianza poblacional. n 1 Nuevamente, una forma de facilitar la estimación de la varianza de una población es a través de la construcción de intervalos de confianza. La estimación del intervalo de 2 se puede realizar haciendo uso del estadístico conocido como 2 que se lee como ji cuadrada con n – 1 grados de libertad. Este estadístico se puede presentar como: 2 ( n 1)S2 2 La distribución 2 muestra ciertas peculiaridades que la hacen ser distinta a las distribuciones Z y t student; por ejemplo, la distribución ji cuadrada se distribuye únicamente en un intervalo compuesto por valores positivos incluyendo al cero, además, su forma es asimétrica (véase la figura 7.2). 1– 2 1– /2 2 Figura 7.2. Intervalo de confianza para la varianza de una población utilizando la distribución ji cuadrada. UNIDAD 7. ESTIMACIÓN DE MEDIAS 429 En la figura 7.2 se tiene una distribución 2, con n – 1 grados de libertad cuando se seleccionan muestras a partir de una población normal. Por tanto, el intervalo para 2 queda comprendido dentro 2 2 de los límites 1 – 2 y 2 , con un nivel de confianza o probabilidad igual a 1 – , esto se puede representar a través de: 2 2 2 < < 1– =1– 2 Al sustituir el valor de en el intervalo resulta: 2 1 ( n 1) S2 2 2 2 2 Al despejar a 2 y realizar algunas operaciones algebraicas se obtiene el siguiente intervalo de confianza para estimar el parámetro de 2, que únicamente puede ser utilizado para aquellas poblaciones que tienen una distribución normal: ( n 1) S2 ( n 1) S2 2 2 1 2 2 2 De igual manera, como se desconoce el valor de 2, éste se puede obtener por definición a partir de la fórmula de la varianza muestral, este valor también es utilizado como el estimador puntual de la varianza poblacional 2: S2 ( X i X)2 n 1 Como se trabaja con una distribución especial para varianzas, hay que buscar el valor en tablas que nos servirá para poder realizar el cálculo del intervalo que se requiera, y para ello es necesario considerar que la tabla muestra en la parte superior el nivel de significancia con el que se trabaja. La columna de la izquierda indica los grados de libertad. Por ejemplo, si se quiere encontrar el valor 2 cuando se quiere calcular un intervalo de confianza de 95%, el nivel de significancia que le corresponde es de 0.05 o 5%, como trabajamos con dos valores para el intervalo se divide entre dos el nivel de significancia, en este caso al dividir tenemos 0.025 para un extremo, pero en el otro extremo tendremos 1 – 0.025 = 0.975; entonces, con los valores 0.025 y 0.975 determinamos el valor en tablas simplemente buscando esos dos valores y los grados de libertad. El punto donde se intersectan esos valores será el valor en tablas para el intervalo, por ejemplo, si tenemos los valores 0.025 y 0.975 para calcular un intervalo de confianza de 95% con ocho grados de libertad, los valores en tablas que emplearíamos son 2.17973 y 17.5346. Esto puede apreciarse en la tabla siguiente. 2 0.995 0.990 0.975 0.950 .900 0.100 0.050 0.025 0.010 0.005 6 0.675 0.872 1.237347 1.63539 2.20413 10.6446 12.5916 14.4494 16.8119 18.5476 7 0.989 1.239 1.68987 2.16735 2.83311 12.0170 14.0671 16.0128 18.4753 20.2777 8 1.344 1.646 2.17973 2.73264 3.48954 13.3616 15.5073 17.5346 20.0902 21.9550 9 1.734 2.087 2.70039 3.32511 4.16816 14.6837 16.9190 19.0228 21.6660 23.5893 10 2.155 2.558 3.24697 3.94030 4.86518 15.9871 18.3070 20.4831 23.2093 25.1882 Tabla 7.2 Segmento de la tabla de valores de la distribución ji cuadrada. 430 ESTADÍSTICA PARA NEGOCIOS Ejemplo 12 Una empresa que fabrica baterías para automóvil asegura que sus baterías duran en promedio 3 años con una varianza de un año. Si 5 de estasbateríastienen duracionesde 1.9, 2.4, 3.0, 3.5 y 4.2 años, obtengamos un intervalo de confianza de 95% para determinar el valor real de la varianza de la población. Con un nivel de confianza de 95% y (n – 1 = 5 – 1 = 4) 4 grados de libertad el valor de 2 11.14 y para 12 0.025 0.484 0.975 2 0.025 Xi (Xi – X)2 1.9 1.21 2.4 0.36 3.0 0.00 3.5 0.25 4.2 1.44 15 3.26 Ya que no se conoce la varianza de la población, entonces, se procede a utilizar el estimador puntual de la misma, éste se obtiene de la siguiente manera: (Xi X)2 n 1 S2 3.26 4 0.815 Al sustituir el valor del estimador de la varianza de la población en la fórmula del intervalo se obtiene: (n 1) S2 2 (n 1) S2 2 1 2 2 (5 1)(0.815) 11.14 2.26 11.14 0.29 2 2 2 2 (5 1)(0.815) 0.484 2.26 0.484 6.73 Con un nivel de confianza de 95%, la varianza de la población se encuentra en un intervalo comprendido entre 0.29 y 6.73. UNIDAD 7. ESTIMACIÓN DE MEDIAS 4 31 Ejemplo 13 El departamento de personal de una empresa realizó una serie de exámenes a sus empleados para saber si se encuentran en condiciones de ocupar otra plaza, se eligió una muestra aleatoria de 20 empleados, dichamuestra obtuvo un promedio decalificacionesigual a72 en una escala de1 a 100, con una varianza de 16. Suponiendo que lascalificacionesobtenidassiguen una distribución normal y se tiene un nivel de confianza de 90%, ¿cuál es el intervalo donde se podría localizar la varianza de la población? 2 0.05 Con un nivel de confianza de 90% y (n – 1 = 20 – 1 = 19) 19 grados de libertad, el valor de 2 30.14 y para 12 0.05 0.95 10.11 Datos : n = 20 S2 = 16 2 /2 = 30.14 2 1– 2 = 10.11 Al sustituir los datos en la fórmula de intervalo para encontrar la varianza real de la población resulta: (n 1) S2 2 (n 1) S2 2 2 1 2 (20 1) (16) 30.14 10.08 2 2 2 (20 1) (16) 10.11 30.06 Con un nivel de confianza de 90%, la varianza real de la población se encuentra en un intervalo comprendido entre 10.08 y 30.06. 432 ESTADÍSTICA PARA NEGOCIOS 1. Los resultados de una encuesta realizada a 25 mujeres en un supermercado muestran que consumen un promedio de 6.8 kg de huevo a la semana, con una desviación estándar de 2.4 kg. Construye un intervalo de confianza de 99% para estimar la varianza del consumo de huevo que realizan las familias a la semana si se supone una distribución normal. 2. El salario promedio de una muestra de 30 trabajadores de una determinada empresa es de $60 diarios con una varianza de 15. Se supone que los salarios diarios de la empresa siguen una distribución normal. ¿Cuál será el intervalo de 95% de confianza para la varianza poblacional? 3. De una muestra aleatoria de 15 pastillas para el dolor de cabeza cuya población tiene una distribución normal, se observó una varianza de 0.64 en la concentración del ingrediente activo. Halla un intervalo de confianza de 90% para la varianza poblacional. 4. Un fabricante quiere estimar la variabilidad de los niveles de impureza de los envíos de materia prima de un determinado proveedor, los cuales tienen una distribución normal. Extrae para ello una muestra de 15 envíos y comprueba que la varianza en la concentración de los niveles de impureza es de 5.5696%. Calcula un intervalo de confianza de 95% para la varianza. 5. Un psicólogo quiere estimar la varianza de las calificaciones obtenidas por los candidatos a un puesto de trabajo en un examen de aptitud. Extrae para esto una muestra aleatoria de 18 candidatos cuya varianza es de 108.16. Calcula un intervalo de confianza de 90% para la varianza poblacional, si se supone que las calificaciones tienen una distribución normal. UNIDAD 7. ESTIMACIÓN DE MEDIAS 433 7.6 Aplicación a los negocios Los siguientes ejemplospueden mostrar de manera más efectiva la aplicación a los negocios de lo visto anteriormente. 1. El señor Ruiz, ejecutivo financiero de la compañía SPRONSA S.A., decidió llevar a cabo un análisis detallado sobre algunos aspectos de la empresa con la finalidad de obtener datos que le permitieran tomar decisiones para llevar a cabo acciones específicas en los diferentes departamentos de cada una de las plantas de la empresa. La investigación inicia con el área de producción de la planta norte, donde averigua con el jefe del área ¿cuál esla producción diaria promedio que se obtiene del aromatizante de gardenias para interiores? Para responder a ello el jefe de producción registrará diariamente el número de lotes elaborados durante 60 días, considerando que la cota de error aceptada es de dos veces la varianza. Con la información del registro diario procede a calcular la media y la desviación estándar de la producción, obteniendo los siguientes datos: una media de 16 300 unidades y una desviación estándar de 450 unidades. Solución: a) Para estimar la producción diaria promedio se cuenta con los siguientes datos: n = 60 días X = 16 300 unidades = 450 unidades µ =? Como se sabe que el error debe ser de 2 veces la varianza, entonces: 2 2 X n Como no se conoce el valor de se sustituye por S, la desviación estándar de la muestra. Sustituyendo: 2 X X 450 S 58.09 60 60 58.09 29.05 2 El jefe de producción notifica al ejecutivo financiero que se puede confiar en que la estimación de 16 300 unidades que se obtuvieron dentro de los 60 días se encuentra a menos de 30 unidades del verdadero rendimiento promedio de producción. Ahora el ejecutivo financiero quiere que el jefe de producción encuentre un intervalo de confianza de 95% para la proporción de aromatizantes de la población que son rechazados por no aprobar las pruebas de calidad, sabiendo que todos los aromatizantes deben pasar todas las pruebas antes de venderse. 434 ESTADÍSTICA PARA NEGOCIOS Para ello se toma una muestra aleatoria de 750 aromatizantes y se someten a las pruebas de calidad, lo cual arroja como resultado que 35 fallan en una o más pruebas de calidad. b) Para estimar el intervalo de confianza se tienen los siguientes datos: n = 750 35 p 0.047 750 q 1 0.047 0.953 Validación para garantizar el cumplimiento del teorema del límite central para una distribución muestral de una proporción. np 750 (0.047) 35.25 5 nq 750 (0.953) 714.75 5 Ambas validaciones son mayores que 5, por lo tanto la distribución muestral del estimador p tiene una distribución normal. Para el nivel de confianza de 95%, Z / 2 = 1.96 Sustituyendo los datos en la fórmula p Z 0.047 1.96 (0.047) (0.953) 750 2 pq n p 0.047 1.96 p p Z 2 pq n (0.047) (0.953) 750 0.0319 p 0.0621 Con lo que el jefe de producción concluye que con un nivel de confianza de 95%, la proporción de aromatizantes rechazados, porque no pasan alguna de las pruebas, está entre 0.0319 y 0.0621, es decir, entre 3.19% y 6.21%. 2. Un emprendedor de negocios desea adquirir un centro de operación ejecutiva con Internet, impresiones blanco y negro y color, fax y demás servicios accesorios. Para realizar su análisis de costo-beneficio requiere conocer el promedio aproximado que pagan los usuarios por los servicios ofrecidos en dicho centro. Dado que el actual dueño no cuenta con información estadística se procedió a analizar una muestra aleatoria de 40 usuarios, obteniendo que el consumo promedio es de $245 con una desviación estándar de $15. Si se establece un nivel de confianza del 95%, determinar el intervalo para estimar el promedio de ingresos del centro de operación ejecutiva. Solución Se cuenta con los siguientes datos: n = 40 X = 245 S = 15 UNIDAD 7. ESTIMACIÓN DE MEDIAS 435 El intervalo de confianza definido es de 95%, entonces el valor correspondiente de Z / 2 = 1.96. Sustituyendo en la fórmula: X Z 2 S n 245 1.96 245 4.65 240.35 X Z 2 15 40 S n 245 1.96 15 40 245 4.65 249.65 Por tanto, el emprendedor de negocios podrá considerar cualquier valor de µ que esté dentro del rango como un valor promedio válido para realizar su estudio de costo-beneficio. 3. El área de calidad de una empresa aplicó una encuesta en su portal de Internet para evaluar el grado de satisfacción de sus clientes en referencia a sus productos. Los resultados de dicha encuesta son los siguientes: el número de participantes fue de 250, de los cuales 35 no están satisfechos con sus productos. Con la información anterior el área de calidad requiere establecer un intervalo de confianza de 90% para estimar la proporción poblacional de losclientesa loscualeslosproductosofrecidos no satisfacen sus expectativas. Solución Los datos con que se cuenta son: X = 35 n = 250 Cálculo de la proporción del número de éxitos (p) p X n 35 250 0.14 Cálculo de la proporción del número de fracasos (q) q 1 p 1 0.14 0.86 Validación para garantizar el cumplimiento del teorema del límite central para una distribución muestral de una proporción. np 250 (0.14) 35 5 nq 250 (0.86) 215 5 Ambas validaciones son mayores que 5, por lo tanto la distribución muestral del estimador p tiene una distribución normal. Para el nivel de confianza de 90%, Z / 2 = 1.645 436 ESTADÍSTICA PARA NEGOCIOS Aplicamos la fórmula: p Z 2 pq n 0.14 1.645 p p Z 2 0.14 (0.86) 250 pq n p 0.14 1.645 0.14 (0.86) 250 0.1039 p 0.1761 En conclusión, la proporción poblacional de clientes insatisfechos con la calidad de los productos se encuentra entre 10.39% y 17.61%, lo cual es un índice muy elevado de clientes insatisfechos. Problemas propuestos 1. El nuevo jefe de producción de una empresa requiere conocer cuál es la producción diaria promedio que se obtiene del aromatizante para interiores que se produce en la planta con un nivel de confianza de 90%. Mediante un registro realizado durante 60 días se obtuvieron los siguientes datos: una media de 1 630 unidades producidas con una desviación estándar de 45 unidades. Solución 1620.44 2. 1639.56 El área de recursos humanos necesita generar la orden de producción de uniformes para el personal de la empresa, por tal motivo se procede a recolectar de manera aleatoria una muestra en cada planta siendo el tamaño de la muestra de 60 empleados. En la planta del norte se han contratado 25 mujeres, mientras que en la planta sur se han contratado 33. Obtener el intervalo de confianza para la diferencia de proporciones poblacionales con un nivel de confianza de = 0.98 Solución: El intervalo es: [–0.3356, 0.0756] UNIDAD 7. ESTIMACIÓN DE MEDIAS 437 1. Estadísticamente se considera como una muestra grande aquella que: a) b) c) d) 2. Se considera como estimación puntual aquella que: a) b) c) d) 3. Tiene un número infinito de elementos. n 30 n 30 n = 29 Asigna varios valores en un intervalo. Asigna valores solamente en muestras pequeñas. Asigna un valor único. Asigna valores cuando la distribución sigue una distribución normal. El nivel de significancia se puede interpretar como: a) El porcentaje de los intervalos que se pueden construir con todas las medias muestrales posibles que contendrán al verdadero valor de µ. b) El porcentaje o probabilidad de que se estime correctamente la media muestral dentro del intervalo. c) El nivel de probabilidad de que la distribución muestral de la media no tenga una distribución normal. d) La probabilidad de que el parámetro µ no se encuentre considerado dentro del intervalo estimado. 4. El nivel de confianza se puede interpretar como: a) El porcentaje de los intervalos que se pueden construir con todas las medias muestrales posibles que contendrán al verdadero valor de µ. b) El porcentaje o probabilidad de que se estime correctamente la media muestral dentro del intervalo. c) El nivel de probabilidad de que la distribución muestral de la media no tenga una distribución normal. d) La probabilidad de que el parámetro µ no se encuentre considerado dentro del intervalo estimado. 5. El valor del coeficiente de confianza para un 90% es: a) b) c) d) 6. Si el nivel de confianza es igual a 1 – a) b) c) d) 438 1.645 1.241 1.96 2.645 = 90 %, el nivel de significancia es de: 0.05 0.10 1.96 0.25 ESTADÍSTICA PARA NEGOCIOS 7. Si las dos cotas de un intervalo de confianza para estimar la diferencia de dos poblaciones, 1 y 2, son negativas, entonces se puede decir que: a) b) c) d) 8. Si la cota inferior es negativa y la cota superior es positiva en un intervalo de confianza para estimar la diferencia de dos poblaciones, 1 y 2, entonces: a) b) c) d) 9. La media de la población 1 es mayor que la media de la población 2. La media de la población 2 es mayor que la media de la población 1. La media de la población 1 es igual a la media de la población 2. No se puede saber qué población tiene una mayor media. Si se incrementan los grados de libertad o el tamaño de una muestra pequeña, la distribución t student: a) b) c) d) 10. La media de la población 1 es mayor que la media de la población 2. La media de la población 2 es mayor que la media de la población 1. La media de la población 1 es igual a la media de la población 2. No se puede saber qué población tiene una mayor media. Será menos platicúrtica. Será más platicúrtica. Será menos simétrica. Será más simétrica. Si se estima un intervalo de confianza para una media poblacional con una muestra grande, la fórmula para calcular el error máximo de la estimación es: a) E Z 2 E c) n E Z 2 d) n n E Z 2 11. Es un procedimiento de la estadística inferencial con el cual se realizan cálculos con los datos de una muestra, cuyo resultado son dos valores numéricos que definen un rango para estimar el parámetro poblacional: a) b) c) d) 12. Estimación. Estimación puntual. Estimación por intervalos. Nivel de confianza. Para estimar la media poblacional µ mediante intervalosde confianza cuando se tienen muestras pequeñas y se conoce la desviación estándar poblacional: a) b) c) d) Se utiliza la distribución normal estandarizada. Se utiliza la distribución t student. Se utiliza la desviación estándar muestral. Se utiliza la distribución de medias muestrales. UNIDAD 7. ESTIMACIÓN DE MEDIAS 439 13. Si se tienen dos muestras n1 = 11 y n2 = 7, y se desea estimar la diferencia de las medias de dos poblaciones mediante intervalos de confianza, los grados de libertad para este intervalo son: a) b) c) d) 14. Si se desea estimar la media de una población mediante un intervalo de 95% de confianza utilizando una muestra de tamaño 21, entonces: a) b) c) d) 15. 11 16 17 18 t t t t = 1.325 = 1.645 /2 = 1.725 /2 = 2.086 /2 /2 Es el resultado que se obtiene al emplear datos de una muestra en la fórmula o expresión matemática para inferir sobre una población: a) b) c) d) Estimación. Estimador. Estimado. Nivel de confianza. 16. Es una representación matemática que emplea datos de una muestra para estimar un parámetro poblacional: a) b) c) d) 17. Si el tamaño de la muestra es igual a 20, el número de grados de libertad es igual a: a) b) c) d) 18. 0.2741 1.645 9.87 59.22 Si se desea un intervalo de 99% de confianza para estimar la diferencia de la media de dos poblaciones y para ello se tiene que n1 =12 y n2 =15, entonces: a) b) c) d) 440 22 18 21 19 Si la varianza muestral es igual a 36, el tamaño de la población es 36 y se desea estimar un intervalo de 90% de confianza, el error máximo de la estimación es: a) b) c) d) 19. Estimación. Estimador. Estimado. Nivel de confianza. t t t t = 2.485 = 2.479 /2 = 2.473 /2 = 2.787 /2 /2 ESTADÍSTICA PARA NEGOCIOS 20. Si se tiene un nivel de confianza de 99%, el nivel de significancia será de: a) b) c) d) 21. Son algunas ventajas de realizar estimación por intervalos de confianza: a) b) c) d) 22. Su resultado varía de muestra en muestra. Su intervalo se puede utilizar con mucha sabiduría. Siempre ofrece un 100% de nivel de confianza. Su resultado ofrece un nivel de confianza. Si 1 – a) b) c) d) 23. 0.001 0.1 0.01 0.02 = 95%, el valor de Z es: 1.96 1.645 2.575 2.41 Si Z /2 = 1.96, a) b) c) d) /2 = 12 y n = 25, el error de estimación es: 4.6 5.32 4.7 5.01 24. Si se incrementa el nivel de confianza para la estimación de un intervalo, el intervalo de confianza será: a) b) c) d) 25. Más ancho. Más estrecho. Quedará sin cambios. No se puede determinar qué pasará. Es un estimador de la media poblacional: a) X Xi n Xi N b) c) S2 = (X X)2 n 1 d) S= (X X)2 n 1 UNIDAD 7. ESTIMACIÓN DE MEDIAS 4 41 26. Encuentra el intervalo de confianza de 90% para la media de una población que se distribuye como una normal, si se tiene una muestra n = 16, una media muestral de 20 y una varianza muestral S2 = 4: a) b) c) d) 27. [19.127, 20.873] [19.1775, 20.8225] [19.1235, 20.8765] [18.247, 21.753] Encuentra un intervalo aproximado de confianza de 98% para la diferencia de las medias de dos poblaciones, con dos muestras n1 = 10 y n2 = 10, cuyas varianzas fueron S12 1 y S22 4 , y medias muestrales X1 = 8 y X2 = 15. a) b) c) d) [–9.6, –4.4] [–9.83, –4.17] [–9.85, –4.15] [–8.8, –5.2] 28. Encuentra el intervalo de confianza de 95% para la media de una población que no se distribuye como normal, teniendo una muestra de n = 100, una media muestral de 5 y una desviación estándar muestral de 1: a) b) c) d) 29. [4.9804, 5.0196] [4.804, 5.196] [4.8355, 5.1645] [4.98355, 5.01645] Encuentra el intervalo de confianza de 99% para la diferencia de las medias de dos poblaciones con distribución normal, con desviaciones estándar poblacionales 1 = 10 y 2 = 6, a través de dos muestras n1 = 200 y n2 = 72, cuyas medias muestrales fueron X1 = 60 y X2 = 50. a) b) c) d) [8.355, 11.645] [9.06, 10.94] [9.4, 10.6] [7.424, 12.576] 30. Encuentra el intervalo de confianza de 90% para la media de una población que se distribuye como una normal, si se tiene una muestra n = 25, una desviación estándar poblacional = 3, una media muestral de 10: a) b) c) d) 31. Si se trabaja con un nivel de confianza de 99%, el valor de Z / 2 es: a) b) c) d) 442 [9.013, 10.987] [8.9734, 11.0266] [9.8026, 10.1974] [9.79468, 10.20532] 1.575 1.96 1.645 2.575 ESTADÍSTICA PARA NEGOCIOS 32. Si se trabaja con un nivel de confianza de 90%, el valor de Z / 2 es: a) b) c) d) 33. Si X = 40 y n = 1/ 75 el valor de p es: a) b) c) d) 34. 0.335 0.229 4.375 3.5 Para estimar la varianza poblacional a través de intervalos de confianza se utiliza una distribución: a) b) c) d) 35. 1.645 1.96 2.575 1.641 Normal. t student. ji cuadrada. F. Con un 95% de confianza y 4 grados de libertad, el valor de a) b) c) d) 37. 2 es: 11.14 0.484 30.14 10.09 36. Algunas características de la distribución a) b) c) d) 2 1– 2 son: Es símétrica y platicúrtica. Es una distribución normal que se encuentra sesgada a la derecha. Sus valores son negativos, incluyendo el cero y es sesgada. Es asimétrica y sus valores son positivos, incluyendo el cero. Si n = 50 y X = 12.5, la proporción de fracasos es: a) b) c) d) 0.25 4 0.75 0.5 95%, p 0.50 y n 5, el error de estimación de la proporción es: 38. Si Z 2 a) b) c) d) 39. 0.44 0.41 0.36 0.34 90% y E 0.09, el tamaño de la muestra es: Si Z 2 a) b) 82 85 UNIDAD 7. ESTIMACIÓN DE MEDIAS 443 c) 84 d) 90 40. La estimación por proporciones contiene un error máximo el cual no excede el valor de: a) n b) c) pq n d) 41. pq n Una distribución normal. Una distribución binomial. Una distribución t student. Una distribución sesgada. La distribución de la variable X que representa el número de éxitos que se pueden obtener en una muestra, tiene una: a) b) c) d) 43. /2 El teorema del límitecentral señala que una distribución muestral del estadístico p, con muestras lo suficientemente grandes, tendrá: a) b) c) d) 42. n /2 Distribución normal. Distribución binomial. Distribución t student. Distribución sesgada. Para que una muestra sea considerada lo suficientemente grande en la estimación de una proporción poblacional: a) b) c) d) n np nq nq 30 5 y nq 5 5 y nX 5 5 y pX 25 44. Una proporción se puede definir como: a) Una medida descriptiva que me señala hacia dónde tienden a concentrarse los valores de una muestra o población. b) Una medida descriptiva que me señala la manera en que los datos de una muestra o población se dispersan entre sí. c) Un nivel de significancia para medir parámetros poblacionales. d) Una parte, fracción o porcentaje de los elementos que constituyen a una población o una muestra. 444 ESTADÍSTICA PARA NEGOCIOS 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. c) a) b) a) c) b) b) d) c) d) 1. a) 2. d) 3. a) 4. d) 5. b) 6. c) 7. d) 8. b) 9. b) 10. a) 11. a) 12. b) 13. c) 14. d) 15. d) 16. d) 17. a) 18. a) 19. c) 20. d) 21. Se sabe que la distribución de la población es normal y se conoce la desviación estándar poblacional, por lo que se utiliza el estadístico Z con un 90% de confianza. Los datos a utilizar son los siguientes: n = 16 n2 = 9.5 = 1 x Z /2 = 1.645 X Z 2 n UNIDAD 7. ESTIMACIÓN DE MEDIAS X Z 2 n 445 9.5 (1.645)( 1 16 9.5 (1.645)( ) 9.5 0.41125 9.08875 1 16 ) 9.5 0.41125 9.91125 Con un nivel de confianza de 90%, el índice medio salarial de la empresa se encuentra en un intervalo de 9.08875 a 9.91125 pesos por hora. 22. Datos: n = 25 X = 6.8 SX = 2.4 = 2.797 /2 X t 2 SX n X t 2 6.8 (2.797)( 2.4 ) 25 6.8 1.3425 5.457 SX n 6.8 (2.797)( 2.4 ) 25 6.8 1.3425 8.142 En conclusión, con un nivel de confianza de 99% el promedio poblacional de obreros que se enferman anualmente se encuentra en un rango que va de 5.457 a 8.142 veces por año. 23. Datos: n = 100 X = 48 SX = 2.4 Z / 2 = 1.96 48 (1.96)( 48 0.4704 47.5296 2.4 ) 100 48 (1.96)( 2.4 ) 100 48 0.4704 48.4704 En conclusión, con un nivel de confianza de 95% el promedio de la vida útil de los televisores se encuentra en un rango que va de 47.5296 a 48.4704 meses. 446 ESTADÍSTICA PARA NEGOCIOS 24. Al tener una muestra grande y un nivel de confianza de 90%, el valor de tablas para Z / 2 = 1.645 Datos: n1 = 50 n2 = 50 X1 =420.4 X2 S1 S2 Z /2 =492.5 = 55.7 = 87.5 = 1.645 Sustituimos los datos en la fórmula para obtener: (420.4 492.5) 1.645 72.1 24.1302 96.2302 1 1 2 (55.7)2 50 2 (87.5)2 50 11 2 (420.4 492.5) 1.645 (55.7)2 50 (87.5)2 50 72.1 24.1302 47.9698 En conclusión, con un nivel de confianza de 90% la diferencia del promedio de empleados altamente productivos por empresa en las dos industrias se encuentra en un rango que va de –96.2302 a –47.9698. Al tener las dos cotas negativas este intervalo podemos interpretar que la media poblacional de la población 2 es mayor que la media de la población 1, por lo que se puede concluir que las industrias más productivas son aquellas que pertenecen al sector 2. 25. Al tenerse dos muestras pequeñas, los grados de libertad son n1 + n2 – 2 = 26. Al solicitarse un nivel de confianza de 99% y al no conocerse las desviaciones estándar de ambas poblaciones, el valor de tablas para t / 2 = 2.779 Datos: n1 =16 n2 =12 X1 =2.15 X2 =1.69 S1 =1.1 S2 = 1.0 =2.779 /2 Sustituimos los datos en la fórmula de la varianza muestral para dos poblaciones: S2 (n1 1)S12 (n2 1)S22 n1 n2 2 S2 (16 1)(1.1)2 (12 1)(1.0)2 16 12 2 [(15)(1.21) (11)(1)] 26 18.15 11 26 29.15 1.12 26 La desviación estándar es la raíz cuadrada de la varianza, por lo tanto: S S2 1.121 1.058 UNIDAD 7. ESTIMACIÓN DE MEDIAS 4 47 Ahora se utiliza la fórmula para intervalos de confianza de muestras pequeñas para estimar la diferencia entre dos medias poblacionales: (X1 X2 ) t S 2 1 n1 1 n2 (2.15 1.69) (2.779)(1.058) 0.46 1.12 0.66 1 1 2 2 1 2 1 1 16 12 (X1 X2 ) t S 2 11 2 1 n1 1 n2 (2.15 1.69) (2.779)(1.058) 1 1 161 12 0.46 1.12 1.58 En conclusión, con un nivel de confianza de 99% la diferencia del promedio de horas que se ausentan del trabajo los empleados que beben de manera habitual y los empleados que beben ocasionalmente se encuentra en un rango que va de –0.66 a 1.58. En este caso, al tenerse que la cota inferior es negativa y la cota superior es positiva, no se puede saber cuál de las dos poblaciones de trabajadores tiene un mayor promedio en el número de ausencias. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. d) b) a) b) b) c) d) c) c) d) Como np = 425 y nq = 75, la distribución muestral de p es normal, por lo que para un nivel de confianza de 99%, el valor de Z / 2 = 2.576 Aplicando la fórmula de proporción de éxitos: p X n 425 500 0.85 La proporción de fracasos es: q 1 p 1 0.85 0.15 Datos: X = 425 n = 500 p = 0.85 Z 2 = 2.576 448 ESTADÍSTICA PARA NEGOCIOS Sustituyendo estos valores en la fórmula se tiene: p Z 2 pq n 0.85 2.576 p p Z 2 pq n (0.85)(0.15) 500 p 0.85 2.576 (0.85)(0.15) 500 0.85 0.041 p 0.85 0.041 0.809 p 0.891 Por lo tanto, la proporción real de ventasque se hacen a crédito se encuentra en un intervalo que va de un 80.9% a un 89.1%. 12. Como np = 171 y nq = 19, la distribución muestral de p es normal, por lo que para un nivel de confianza de 99%, el valor de Z 2 = 2.576 Aplicando la fórmula de proporción de éxitos: p X n 171 190 09 . Mientras que la proporción de fracasos es: q 1 p 1 0.93 0.1 Datos: X = 171 n = 190 p = 0.9 q = 0.1 Z 2 = 2.576 Sustituyendo estos valores en la fórmula se tiene: p Z 2 pq n 0.9 2.576 p p Z 2 (0.9)(0.1) 190 pq n p 0.9 2.576 (0.9)(0.1) 190 0.9 (2.576)(0.021) p 0.9 (2.576)(0.021) 0.846 p 0.954 Por lo tanto, la proporción de fumadores que prefieren esa marca se encuentra en un intervalo comprendido entre 84.6% y 95.4%. UNIDAD 7. ESTIMACIÓN DE MEDIAS 449 13. Como np = 630 y nq = 370, la distribución muestral de p es normal, por lo que para un nivel de confianza de 90%, el valor de Z 2 = 1.645 Aplicando la fórmula de proporción de éxitos: p X n 630 1 000 0.63 Mientras que la proporción de fracasos es: q 1 p 1 063 . 037 . Datos: X = 630 n = 1 000 p = 0.63 q = 0.37 Z 2 = 1.645 Sustituyendo estos valores en la fórmula se tiene: p Z 2 pq n 0.63 1.645 p p Z 2 pq n (0.63)(0.37) 1 000 p 0.63 1.645 (0.63)(0.37) 1 000 0.9 (1.645)(0.0152) p 0.9 (1.645)(0.0152) 0.6049 p 0.6551 Por lo tanto, la proporción de la población que sí cree en la existencia de vida en otros planetas se encuentra en un intervalo comprendido entre 60.49% y 65.51%. 14. Cuando el nivel de confianza es de 90%, el valor de Z 2 = 1.645 Aplicando la fórmula de proporción de éxitos: p X n 83 344 0.241 La proporción de fracasos es: q 1 p 1 0.241 0.759 Datos: X = 83 n = 344 p = 0.241 q = 0.759 Z 2 = 1.645 450 ESTADÍSTICA PARA NEGOCIOS Sustituyendo estos valores en la fórmula se tiene: p Z 2 pq n 0.241 1.645 p p Z 2 pq n (0.241)(0.759) 344 (0.241)(0.759) 344 p 0.241 1.645 0.241 (1.645)(0.023) p 0.241 (1.645)(0.023) 0.203 p 0.278 Por lo tanto, la proporción de la población de mayoristas que sí están satisfechos con las ventas en este año se encuentra en un intervalo comprendido entre 20.3% y 27.8%. 15. Cuando el nivel de confianza es de 95%, el valor de Z 2 = 1.96. Aplicando la fórmula de proporción de éxitos: p X n 87 142 0.613 Mientras que la proporción de fracasos es: q 1 p 1 0613 . 0387 . Datos: X = 87 n = 142 p = 0.612 q = 0.388 Z 2 = 1.96 Sustituyendo estos valores en la fórmula se tiene: p Z 2 pq n 0.612 1.96 p p Z 2 pq n (0.612)(0.388) 142 p 0.612 1.96 (0.612)(0.388) 142 0.612 (1.96)(0.0408) p 0.612 (1.96)(0.0408) 0.5319 p 0.6921 Por lo tanto, la proporción real de población que se muestrea se encuentran en un intervalo comprendido entre 53.19% y 69.21%. UNIDAD 7. ESTIMACIÓN DE MEDIAS 4 51 1. Contando con un nivel de confianza de 95% el valor de Z 2 = 1.96 Datos: X1 X2 n1 n2 Z 2 = 350 = 400 = 1 500 = 1 400 = 0.96 Se procede a calcular el valor de las proporciones de éxitos: p1 X1 n1 350 1 500 0.23 p2 X2 n2 400 1 400 0.29 Mientras que las proporciones de fracasos son: q1 1 p1 1 0.23 0.77 q2 1 p2 1 0.29 0.71 Sustituyendo los valores en la fórmula para obtener el intervalo para diferencia de proporciones se obtiene: (p1 p2 ) Z 2 (023 . 029 . ) 196 . p1 q1 n1 p2 q2 n2 (p1 p2 ) Z (023 . )(023 . ) (029 . )(071 . ) 1500 1400 0.06 0.031 p1 p2 0.091 p1 p2 p1 p2 p1 p2 2 p1 q1 n1 p2 q2 n2 (023 . 029 . ) 196 . . ) (023 . )(077 . ) (029 . )(071 1500 1400 0.06 0.031 0.029 Por lo tanto, la diferencia de proporciones para las dos poblaciones de personas que apoyan que se implemente el impuesto está comprendida en un intervalo entre –0.091 y –0.029. Al ser dos cotas negativas se puede decir que la proporción de la población 2 es mayor que la proporción de la población 1. 452 ESTADÍSTICA PARA NEGOCIOS 2. Contando con un nivel de confianza de 99% el valor de Z 2 = 2.576 Datos: X1 X2 n1 n2 Z 2 = = = = = 30 25 350 420 2.576 Se procede a calcular el valor de las proporciones de éxitos. p1 X1 n1 30 350 0.086 p2 X2 n2 25 420 0.06 Mientras que las proporciones de fracasos son: q1 1 p1 1 0.086 0.914 q2 1 p2 1 0.06 0.94 Sustituyendo los valores en la fórmula para obtener el intervalo para diferencia de proporciones se obtiene: (p1 p2 ) Z (0086 . 006 . ) 2576 . 2 p1 q1 n1 p2 q2 n2 p1 p2 (0086 . )(0914 . ) (006 . )(094 . ) 350 420 0.026 0.048 p1 p2 0.022 p1 p2 (p1 p2 ) Z p1 p2 2 p1 q1 n1 p2 q2 n2 (0086 . . ) 2576 . 006 (0086 . )(0914 . ) (006 . )(094 . ) 350 420 0.026 0.048 0.074 El intervalo para la diferencia de proporciones para las dos muestras está comprendido en un rango que va de –0.022 a 0.074. Al estar compuesto el intervalo por una cota negativa y otra positiva, se dice que no se puede saber cuál de las dos proporciones es mayor. 3. Datos: X1 = 49 X2 = 36 n1 = 92 n2 = 86 Z 2 = 1.645 UNIDAD 7. ESTIMACIÓN DE MEDIAS 453 Se procede a calcular el valor de las proporciones de éxitos p1 y p2. p1 X1 n1 49 92 0.532 p2 X2 n2 36 86 0.419 Mientras que las proporciones de fracasos son: q1 1 p1 1 0.533 0.468 q2 1 p2 1 0.419 0.581 Sustituyendo losvaloresen la fórmula y así obtener el intervalo para diferencia de proporciones: (p1 p2 ) Z 2 p1 q1 n1 p1 p2 (p1 p2 ) Z (0532 . )(0468 . ) (0419 . )(0581 . ) 92 86 (0532 . 0419 . ) 1645 . 0.113 0.122 p1 p2 0.009 p1 p2 p2 q2 n2 p1 p2 2 p1 q1 n1 p2 q2 n2 (0532 . 0419 . ) 1645 . (0532 . )(0468 . ) (0419 . )(058 . 1) 92 86 0.113 0.122 0.235 Por lo tanto, el intervalo para la diferencia de proporciones de los proyectos patrocinados por empresas para las dos poblaciones va de –0.009 a 0.235. 4. Datos: X1 X2 n1 n2 Z 2 = = = = = 308 157 570 232 1.645 Se procede a calcular el valor de las proporciones de éxitos p1 y p2. p1 p2 X1 n1 308 570 0.5404 X2 157 0.6767 n2 232 Las proporciones de los fracasos son: q1 1 p1 1 0.5404 0.4596 q2 1 p2 1 0.6767 0.3233 454 ESTADÍSTICA PARA NEGOCIOS Sustituyendo los valores en la fórmula y así obtener el intervalo para diferencia de proporciones se obtiene: (p1 p2 ) Z 2 p1 q1 n1 p2 q2 n2 (0.5404 0.6767) 1.645 0.1363 0.0610 p1 p2 0.1973 p1 p2 (p1 p2 ) Z 2 p1 q1 n1 p2 q2 n2 (0.5404) (0.4596) (0.6767)(0.3233) 570 23 32 (0.5404 0.6767) 1.645 p1 p2 p1 p2 (0.5404)(0.4596) (0.6767) (0.3233) 570 232 0.1363 0.0610 0.0753 Por lo tanto, el intervalo para la diferencia de proporciones del comportamiento de compra para las dos muestras está comprendido en un rango que va de –0.1973 a –0.075. Observa que tanto la cota inferior como la cota superior son negativas, razón por la cual se puede aseverar que el promedio de la población 2 es mayor al promedio de la población 1. 5. Datos: X1 X2 n1 n2 Z 2 = = = = = 70 65 112 135 1.96 Se procede a calcular el valor de las proporciones de éxitos p1 y p2. p1 X1 n1 70 112 0.625 p2 X2 n2 65 135 0.481 Mientras que las proporciones de fracasos es: q1 1 p1 1 0.625 0.375 q2 1 p2 1 0.481 0.519 Sustituyendo los valores en la fórmula y así obtener el intervalo para diferencia de proporciones se obtiene: (p1 p2 ) Z 2 p1 q1 n1 UNIDAD 7. ESTIMACIÓN DE MEDIAS p2 q2 n2 p1 p2 (p1 p2 ) Z 2 p1 q1 n1 p2 q2 n2 455 (0625 . )(0375 . ) (0481 . )(0519 . ) 112 135 (0625 . 0481 . ) 196 . p1 p2 (0625 . 0481 . ) 196 . (0625 . )(0375 . ) (0481 . )(0519 . ) 112 135 0.144 0.123 p1 p2 0.021 p1 p2 0.144 0.123 0.267 para predecir sus ventas es de 0.021 a 0.267. 1. Con un nivel de confianza de 99% y (n – 1 = 25 – 1 = 24) 24 grados de libertad el valor de 2 2 2 9.89 0.005 = 45.56 y para 1 0.005 0.995 Datos: n = 25 S= 2.4 2 2 1 45 45.56 0.005 2 2 0.995 2 9.89 Al sustituir los datos en la fórmula de intervalo para encontrar la varianza de la población resulta: (n 1)S2 2 (n 1)S2 2 2 1 2 (25 1)(2.4)2 45.55 138.24 45.56 3.03 2 2 2 2 (25 1)(2.4)2 9.88 138.24 9.89 13.98 Con un nivel de confianza de 99%, la varianza de la población se encuentra en un intervalo comprendido entre 3.03 y 13.98. 456 ESTADÍSTICA PARA NEGOCIOS 2. Con un nivel de confianza de 95% y ( n – 1 = 30 – 1 =294) 29 grados de libertad el valor de 2 2 2 45 45.72 y para 1 0.025 16.04 0.025 0.975 Datos: n = 70 S2 = 65 2 = 2 2 = 1– 2 = 45.72 = 16.04 0.025 2 0.95 Al sustituir los datos en la fórmula de intervalo para encontrar la varianza de la población resulta: (n 1) S2 (n 1) S2 2 2 1 2 2 (30 1)(15) 45.72 435 45.72 (30 1)(15) 16.04 2 435 16.04 2 2 9.51 2 27.11 Con un nivel de confianza de 95%, la varianza de la población se encuentra en un intervalo comprendido entre 9.51 y 27.11. 3. Con un nivel de confianza de 90% y (n – 1 = 15 – 1 =14) 14 grados de libertad el valor de 2 0.5 23.68 y para 2 1 0.05 2 0.95 6.57 Datos: n = 15 S2 = 0.64 2 2 = 0.05 = 23.68 2 2 = 2 0.95 = 6.57 Al sustituir los datos en la fórmula de intervalo para encontrar la varianza de la población resulta: (n 1)S2 2 (n 1)S2 2 2 1 2 (15 1) (0.64) 23.68 2 UNIDAD 7. ESTIMACIÓN DE MEDIAS 2 (15 1) (0.64) 6.57 4 57 8.96 23.68 0.378 8.96 6.57 2 2 1.364 Con un nivel de confianza de 90%, la varianza de la población se encuentra en un intervalo comprendido entre 0.378 y 1.364. 4. Con un nivel de confianza de 95% y (n – 1 = 15 – 1 =14) 14 grados de libertad el valor de 2 2 2 26.11 y para 1 0.025 0.025 0.975 5.62 Datos: n = 15 S2 = 5.5696 2 = 20.025 = 26.11 2 2 = 20.95 = 5.62 1– 2 Al sustituir los datos en la fórmula de intervalo para encontrar la varianza de la población resulta: (n 1) S2 (n 1) S2 2 2 1 2 2 (15 1)(5.5696) 26.11 77.974 26.11 2.986 2 2 2 2 (15 1)(5.5696) 5.62 77.974 5.62 13.874 Con un nivel de confianza de 95%, la varianza de la población se encuentra en un intervalo comprendido entre 2.986 y 13.874. 5. Con un nivel de confianza de 90% y (n – 1 = 18 – 1 =17) 17 grados de libertad, el valor de 2 2 2 27.58 y para 1–0.05 8.67 0.05 27 0.95 Datos: n = 18 S2 = 108.16 2 = 20.025 = 27.58 2 2 = 20.95 = 8.67 1– 2 458 ESTADÍSTICA PARA NEGOCIOS Al sustituir los datos en la fórmula de intervalo para encontrar la varianza de la población resulta: (n 1)S2 2 2 2 1 2 (18 1)(108.16) 27.58 1838.72 27.58 66.66 (n 1)S2 2 2 2 2 (18 1)(108.16) 8.67 1838.72 8.67 212.078 Con un nivel de confianza de 90%, la varianza de la población se encuentra en un intervalo comprendido entre 66.66 y 212.078. UNIDAD 7. ESTIMACIÓN DE MEDIAS 459 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 460 b) c) d) a) a) b) b) d) a) a) c) b) b) d) c) b) d) b) d) c) d) a) c) a) a) c) d) b) d) a) d) a) b) c) b) d) c) a) c) d) a) b) b) d) ESTADÍSTICA PARA NEGOCIOS Anexos ANEXOS 463 Áreas bajo la curva normal canónica entre 0 y z 0 464 z ANEXOS ANEXOS 465