MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM ESTADÍSTICA INFERENCIAL PARAMÉTRICA INTRODUCCIÓN En este bloque temático lo primero que haremos será repasar de manera general la estadística inferencial ya estudiada en Estadística I. Luego desarrollaremos los temas centrales de esta unidad. El primero de ellos será distribución del estadístico proporción muestral para luego estimar el parámetro proporción poblacional (proporción de individuos con una característica particular) y realizar pruebas de hipótesis. Luego continuaremos con el tema de comparación de medias de dos poblaciones. Y finalmente estudiaremos la diferencia de proporciones de dos poblaciones. 1.1) ESTADÍSTICA INFERENCIAL Como vimos anteriormente uno de los propósitos centrales de la estadística inferencial es obtener conclusiones acerca de características de una población. Como las poblaciones son grandes y no pueden ser estudiadas en su totalidad, generalmente el estudio se basa en el examen de solo una parte de esta. Esto nos permite estimar dichos parámetros poblacionales desconocidas, examinando la información obtenida de una muestra. Esta muestra debe ser lo más representativa posible de la población y el muestreo debe ser probabilístico preferentemente. En este marco es importante mencionar que primero repasaremos nuevamente la teoría del muestreo que estudia las relaciones que existen entre la distribución de un carácter en una población y la distribución del mismo carácter en todas las muestras que tomemos de la misma. El muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraídos e incluidos en la muestra. Existen otros tipos de muestreo como el muestreo por conglomerados, sistemático y estratificado. Cuando contamos con una muestra, la aplicación de los principios de la estadística inferencial puede hacerse en forma sistemática, dividiendo el estudio en tres partes. Estas tres aéreas de la Estadística Inferencial son las distribuciones muestrales, la estimación y el contraste de hipótesis. Este apunte está organizado de manera que para cada caso, sean tratados los tres aspectos estadísticos. 1.2) Distribuciones muestrales Si las muestras obtenidas de una población son aleatorias, no se espera que dos muestras aleatorias del mismo tamaño y tomadas de la misma población sean completamente parecidas; puede esperarse que cualquier estadístico, como por ejemplo la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra. Por ello, lo que se busca es estudiar la distribución de todos los valores posibles de un estadístico. Es decir, como los valores de un estadístico, tal como x, varían de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribución de frecuencias. La distribución de frecuencias de un estadístico muestral se denomina distribución muestral. En general, la distribución muestral de un estadístico es la de todos sus valores posibles calculados a partir de muestras del mismo tamaño. Las distribuciones muestrales pueden construirse experimentalmente a partir de poblaciones finitas y discretas de la siguiente manera: 1 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM 1. De una población finita de tamaño N, se extraen de manera aleatoria todas las muestras posibles de tamaño n. 2. Se calcula la estadística de interés para cada muestra (media muestral, desvío estándar muestral, proporción muestral, entre otras) . 3. Se lista en una columna los distintos valores de la estadística, y en otra columna las frecuencias correspondientes de cada valor observado. Así, si se calcula la media muestral para cada muestra; la colección de todas estas medias muestrales recibe el nombre de distribución muestral de medias. Si hacemos lo mismo con las desviaciones estándares, la colección de todas estas desviaciones estándar muestrales se llama distribución muestral de la desviación estándar. Normalmente, para una distribución muestral, se tiene interés en conocer tres cosas: media, varianza y forma funcional (apariencia gráfica). 1.3) Estimación El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador. Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el parámetro. Estimación Puntual La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de uno o más parámetros (características poblacionales). Para ello se requiere datos muestrales de cada una de las poblaciones en estudio. De esta manera, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales. Por ejemplo, si deseamos conocer el verdadero valor de la media poblacional para un cierto carácter , se puede tomar muestras de la población y usando las medias muestrales X estimar la media poblacional. De forma similar, si 2 es la varianza de la distribución de del parámetro en la población, el valor de la varianza muestral s2 se podría utilizar para inferir algo acerca de 2. Una estimación puntual de un parámetro es un sólo número que se puede considerar como el valor más razonable de . La estimación puntual se obtiene al seleccionar una estadística apropiada y calcular su valor a partir de datos de la muestra dada. La estadística seleccionada se llama estimador puntual de . Estimación por Intervalos Debido a la variabilidad de la muestra, nunca se tendrá el caso de que = . El estimador puntual nada dice sobre lo cercano que esta de . Una alternativa para obtener un solo valor del parámetro que se esté estimando es calcular e informar todo un intervalo de valores factibles, un estimado de intervalo o intervalo de confianza (IC), en el que pueda precisarse, con una cierta probabilidad, que el verdadero valor del parámetro se encuentre dentro de esos límites. Elegiremos probabilidades cercanas a la unidad, que se representan por 1-α y cuyos valores más frecuentes suelen ser 0'90, 0'95 y 0'99. Tendremos que obtener dos estadísticos que nos darán los valores extremos del intervalo, tales que Al valor 1-α se le llama coeficiente de confianza, y al valor 100 (1-α) % se le llama nivel de confianza. 2 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Se denomina estimación confidencial o intervalo de confianza para un nivel de confianza 1α dado, a un intervalo que ha sido construido de tal manera que con frecuencia 1-α realmente contiene el parámetro Un intervalo de confianza se calcula siempre seleccionando primero un nivel de confianza, que es una medida del grado de fiabilidad en el intervalo. La probabilidad de error (no contener el parámetro) es α y la probabilidad de acierto (contener el parámetro) es 1-α. Un intervalo de confianza con un nivel de confianza de 95% podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de entre 9162.5 y 9482.9. Un nivel de confianza de 95% (1-α= 0.95) implica que 95% de todas las muestras daría lugar a un intervalo que incluye o cualquier otro parámetro que se esté estimando, y sólo 5% (α = 0,05) de las muestras producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo. Se denomina coeficiente de confianza a la probabilidad de que un estimador por intervalos cubra el verdadero valor del parámetro que se pretende estimar, se lo representa por 1-α. 1.4) Prueba de hipótesis Otra rama de la estadística inferencial recibe el nombre de Contraste de Hipótesis. En la práctica, muchas veces nos encontramos con casos en los que existe una teoría preconcebida relativa a la característica de la población en estudio. El Contraste de Hipótesis, en toda investigación, implica la existencia de dos teorías o hipótesis implícitas, que reflejan esta idea a priori que tenemos y que pretendemos contrastar con la realidad.. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis. Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. Un contraste o test de hipótesis es una técnica de Inferencia Estadística que permite comprobar si la información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis formulada. Una hipótesis estadística puede ser: Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales desconocidos. Las hipótesis paramétricas se clasifican en: Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1'5, = 10, X = Y ,...). Compuesta: si la hipótesis asigna un rango de valores a los parámetros poblacionales desconocidos ( > 1'5, 5 < < 10, X < Y ,...). No Paramétrica: es una afirmación sobre alguna característica estadística de la población en estudio. Por ejemplo, las observaciones son independientes, la distribución de la variable en estudio es normal, la distribución es simétrica,... En el contraste de hipótesis estadísticas siempre se acepta, provisionalmente, una hipótesis como verdadera, que es la hipótesis nula H0, y que es sometida a comprobación experimental frente a otra hipótesis complementaria que llamaremos hipótesis alternativa H1. Como 3 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM consecuencia de la comprobación experimental, la hipótesis nula H0 podrá seguir siendo aceptada como verdadera o, por el contrario, tendremos que rechazarla y aceptar como verdadera la hipótesis alternativa H1. Las hipótesis deben ser formuladas de tal manera que sean mutuamente excluyentes y complementarias. La especificación apropiada de la hipótesis nula y alternativa depende de la naturaleza propia del problema en cuestión. Las formas básicas de establecer las hipótesis sobre el parámetro θ son las siguientes: I H o : 0 H1 : 0 II H o : 0 H1 : 0 III H o : 0 H1 : 0 IV H o : 1 2 H1 : 1 ó >2 Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes: 1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. 2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo. 3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones. Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada. La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori"). La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis del investigador. La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se continúa 4 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho. Región crítica y región de aceptación La región crítica está constituida por el conjunto de muestras para las cuales se rechaza la hipótesis nula H0. La región de aceptación está constituida por el conjunto de muestras para las cuales se acepta la hipótesis nula H0. El valor o valores que separan la región crítica de la región de aceptación reciben el nombre de valor o valores críticos. Cuando el contraste es de la forma I o IV, o sea, bilateral, estas regiones serán del tipo de las indicadas en el siguiente gráfico: Región crítica (Rechazar H 0 ) Región de aceptación (Aceptar H 0 ) Región crítica (Rechazar H 0 ) C C C |-----------------------|-----------------------------------------------------|-----------------------| ↑ ↑ |----- - - - - --Valores críticos---------------| Si el contraste es de forma II, es decir, unilateral a la izquierda, estas regiones serán del tipo de las indicadas en el siguiente gráfico: Región crítica (Rechazar H 0 ) Región de aceptación (Aceptar H 0 ) C C ← |-------------------------------------|-------------------------------------------------------| → ↑ Valor crítico Análogamente, si el contraste es de forma III, es decir, unilateral a la derecha, entonces las regiones son del tipo a las indicadas en el gráfico siguiente: Región de aceptación (Aceptar H 0 ) C Región crítica (Rechazar H 0 ) C ←|-----------------------------------------------------------------|---------------------------------|→ ↑ Valor crítico Errores de Tipo I y de Tipo II En todo problema de decisión, cuando tenemos que elegir entre varias alternativas o decisiones existe la posibilidad o riesgo de equivocarnos cometiendo los correspondientes errores. Así pues, en el contraste de hipótesis, basándonos en la información proporcionada por la muestra, tenemos que decidir si aceptamos la hipótesis nula H 0 o si la rechazamos. La decisión siempre la hacemos sobre la hipótesis nula, existiendo un riesgo de equivocarnos que nos llevará a los errores de tipo I y de tipo II. 5 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera. También es conocido como ó nivel de significancia. Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia sería del 10%. El error tipo II ó error se define como la aceptación de la hipótesis nula cuando ésta es falsa. Existen cuatro resultados posibles de nuestra decisión sobre la hipótesis nula, dos de ellos no nos llevan a ningún tipo de error y los otros dos dan lugar a los errores de tipo I y de tipo II. En efecto, la tabla siguiente nos muestra los cuatro posibles resultados: Decisión Aceptamos H 0 Rechazamos H 0 H 0 es verdadera H 0 es falsa Decisión correcta No hay error 1- Nivel de confianza Error de tipo II Error de tipo I Decisión correcta No hay error 1- Si la hipótesis nula H0 es verdadera, podemos aceptar H0 o rechazar H0 basándonos en la información proporcionada por la muestra. Si aceptamos H0 cuando es verdadera, la decisión es correcta y no hay error. Si rechazamos H0 cuando es verdadera, hemos cometido un error, que se llama error de tipo I. Si la hipótesis nula H0 es falsa, podemos aceptar H0 o rechazar H0 basándonos en la información muestral. Si aceptamos H0 cuando es falsa, hemos cometido un error, que se llama error de tipo II. Si rechazamos la hipótesis nula H0 cuando es falsa, la decisión es correcta y no hay error. Es necesario dar una medida de la posibilidad o del riesgo de cometer estos dos tipos de errores. Estas medidas son probabilidades y las notaremos por α y β, siendo: = Riesgo de error de tipo I = P (Error de tipo I) = P (Rechazar H 0 / H 0 es cierta). = Riesgo de error de tipo II = P (Error de tipo II)= P (Aceptar H 0 / H 0 es falsa) Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general tiene como resultado un aumento en la probabilidad del otro. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos. Un aumento en el tamaño muestral n reducirá la probabilidad de error. Si los errores de tipo I y de tipo II son nulos, α=β=0, entonces decimos que el test o contraste es ideal. Cuando estudiamos los intervalos de confianza, decimos que 1-α es el nivel de confianza, y ahora podemos decir que representa el complemento de la P (error de tipo I), siempre y cuando el test sea bilateral, es decir: Nivel de confianza = 1-α =1-P(error de tipo I)= P(aceptar H 0 / H 0 es cierta) Se denomina nivel de significación de un contraste a la probabilidad de cometer un error tipo I. Fijar el nivel de significación equivale a decidir de antemano la probabilidad máxima que se está dispuesto a asumir de rechazar la hipótesis nula cuando es cierta. El nivel de 6 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM significación lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0'05, 0'01 o 0'001). La selección de un nivel de significación conduce a dividir en dos regiones el conjunto de posibles valores del estadístico de contraste: La región de Rechazo, con probabilidad α, bajo H0. La región de Aceptación, con probabilidad 1 - α, bajo H0. Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o no, se denomina: Contraste unilateral o contraste de una cola: es el contraste de hipótesis cuya región de rechazo está formada por una cola de la distribución del estadístico de contraste, bajo H0. Contraste bilateral o contraste de dos colas: es el contraste de hipótesis cuya región de rechazo está formada por las dos colas de la distribución del estadístico de contraste, bajo H0. Es decir, la región de rechazo se divide en dos lados o colas de la distribución de la estadística de prueba. Estadística de prueba: La estadística de prueba es alguna estadística que se puede calcular a partir de los datos de la muestra. Sirve como un productor de decisiones, ya que la decisión de rechazar o no la hipótesis nula depende de la magnitud de la estadística de prueba. La fórmula para la estadística de prueba que se aplica en muchas de las pruebas de hipótesis es: Estadística de prueba = estadística relevante – parámetro supuesto / error estándar La clave para la inferencia estadística es la distribución muestral. Es necesario recordar esto en los casos en los que se deba especificar la distribución de probabilidad de la estadística de prueba. Para repasar o comprender mejor te sugerimos este link : http://www.ditutor.com/inferencia_estadistica/estadistica_inferencial.html A continuación, se analizaran las distribuciones muestrales, estimación y prueba de hipótesis para: la media, una proporción, la diferencia de medias y la diferencia de proporciones. Se recomienda hacer un estudio completo de cada tema, y al final de cada uno hacer un resumen integratorio. 1.5) Distribución Muestral de Medias El conocimiento y comprensión de las distribuciones muestrales son necesarios para entender los conceptos de la estadística inferencial. Una de las distribuciones muestrales más importantes es la distribución de la media de la muestra. La aplicación mas sencilla de la distribución muestral de la media de la muestra es el cálculo de la probabilidad de obtener 7 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM una muestra con una media de alguna magnitud especifica. Este es un ejemplo de cómo elaborar esta distribución. Se tiene una población de tamaño N=5, la cual se compone de las edades de cinco niños que son pacientes externos de una clínica de salud mental. Las edades son las siguientes: x1=6, x2=8, x3=10, x4=12, x5=14. La media para esta población es igual a x / N =(6+8+10+12+14)/5 = 10. La varianza es x = 2 2 = N 40 =8 5 Otra medida de dispersión que se puede calcular es: x 2 2 S= N 1 = 40 =10 4 Esta cantidad se utilizara en el los temas de inferencia estadística. Siguiendo con el ejemplo, a partir de esta población se extraen todas las muestras posibles de tamaño n=2. Se observa que cuando el muestreo se efectúa con reemplazos, hay 25 muestras posibles, cada una con sus respectivas medias muestrales. Para elaborar una distribución muestral para x se listan los diferentes valores de x en una columna y sus frecuencias de ocurrencia en otra. Como dijimos anteriormente, para una distribución muestral se tiene interés en la forma funcional de la distribución, su media y su varianza. Para el cálculo de la media muestral se suman las 25 medias de las muestras y se divide entre el número de muestras. Es interesante destacar que la media de la distribución muestral para x tiene el mismo valor que la media para la población original. El cálculo de la varianza se calcula de la siguiente manera: 2 x= x x 2 i Nn = 100 8 2 =4= = 25 2 n Se puede advertir que la varianza de la distribución muestral no es igual a la varianza de la población. Sin embargo, la varianza de la distribución muestral es igual a la varianza de la población dividida por el tamaño de la muestra utilizada para obtener la distribución muestral. La raíz cuadrada de la varianza de la distribución muestral se llama error estándar y es igual a / n. Se puede distinguir dos situaciones: muestreo a partir de una población que sigue una distribución normal y muestreo a partir de una que no sigue una distribución normal. Si la población es normal se cumplen las propiedades enunciadas anteriormente. Si la población no es normal, se utiliza un teorema conocido como el teorema del límite central. Teorema del límite central Si se seleccionan muestras aleatorias de una población con media y desviación estándar , entonces, cuando n es grande, la distribución maestral de medias tendrá aproximadamente una distribución normal con una media igual a y una desviación estándar de / n . La aproximación será cada vez más exacta a medida de que n sea cada vez mayor. Aplicando este teorema, cuando el 8 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM tamaño de la muestra es grande, el muestro de x tendrá una distribución aproximadamente normal. Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será normal sin importar el tamaño de la muestra. Si la población de donde se extraen las muestras no es normal, entonces el tamaño de la muestra debe ser mayor o igual a 30, para que la distribución muestral tenga una forma acampanada. Mientras mayor sea el tamaño de la muestra, más cerca estará la distribución muestral de ser normal. Para muchos propósitos, la aproximación normal se considera buena si se cumple n=30 Cuando el muestreo se realiza sin reemplazos, la varianza de la distribución muestral no es igual a la varianza poblacional dividida entre el tamaño de la muestra. Sin embargo existe una relación que se obtiene al multiplicar: / n . (N-n)/(N-1) Esta es la varianza de la distribución maestral de x cuando el muestreo es sin reemplazos. El factor (N-n)/(N-1) se llama corrección por población finita y se puede omitir cuando el tamaño de la muestra es pequeño en comparación con el tamaño de la población. Es decir, la corrección de población finita generalmente se ignora cuando n/N 0.5 La distribución normal es una distribución continua, en forma de campana en donde la media, la mediana y la moda tienen un mismo valor. Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la variable aleatoria, mediante la siguiente fórmula: z= x Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño de una población normal, la distribución muestral de medias tiene un comportamiento aproximadamente normal. Teniendo en cuanta esto y sabiendo que la desviación estándar es / n , se hacen los reemplazos correspondientes. Así la formula para calcular la probabilidad del comportamiento del estadístico, en este caso la media de la muestra, quedaría de la siguiente manera: y para poblaciones finitas y muestro con reemplazo: Ejemplo 1: Si la media y la desviación estándar de la concentración en suero en hombres sanos es de 120 15mg por cada 100 ml, respectivamente, ¿Cuál es la probabilidad de que una muestra aleatoria de 50 hombres normales tenga una media entre 115 y 125mg/100ml? Solución: No se especifica la forma funcional de la población de valores de las concentraciones de hierro en el suero, pero como el tamaño de la muestra es mayor a 30, se puede utilizar el teorema del limite central para transformar la distribución muestral de x en aproximadamente normal con media de 120 y una desviación estándar de 15/ 50 =2.12. La probabilidad buscada es: 9 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM 125 120 115 120 z 2.12 2.12 =P (-2.36 z 2.36 P (115 x 125) = P = 0.9909 – 0.0091 =0.9818 Ejemplo 2: Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine: a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros. b. El número de medias muestrales que caen por debajo de 172 centímetros. Solución: Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo sin reemplazo, por lo que se tendrá que agregar el factor de corrección. Se procederá a calcular el denominador de Z para sólo sustituirlo en cada inciso. Primero vamos a calcular el erro estándar para una población finita a. Ahora con esta probabilidad calculamos la cantidad de muestras: (0.7607)(200)=152 medias muestrales b. (0.0336)(200)= 7 medias muestrales Estimación para la Media Supongamos que un grupo de investigadores quiere estimar la media de una población que sigue una distribución normal y que, para ello, extraen una muestra aleatoria de tamaño n de la población y calculan el valor de x , el cual utilizan como una estimación puntual de . Aunque este estimador posee todas las cualidades de un buen estimador, no se puede 10 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM esperar que x sea igual a . Por lo tanto, es mucho más significativo estimar mediante un intervalo que de alguna forma muestre el valor de . Para realizar esa estimación por intervalos, aprovechamos las distribuciones muestrales. En este caso, como el interés está en la media de la muestra como estimador de la media de una población, es necesario tener en cuenta la distribución muestral de la media. En base a la distribución muestral de medias, la fórmula para el cálculo de probabilidad es la siguiente: . Cuando se desconoce el valor de la media poblacional lo podemos estimar por medio de la media de la muestra, para ello sólo se despejará de la formula anterior, quedando lo siguiente: Tomamos un intervalo que contenga una masa de probabilidad de1- . La cantidad 1- se conoce como coeficiente de confianza y designa el área total dentro del intervalo en el que puede hallarse el valor real de . Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allí es donde se acumula más masa. Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad, . El intervalo de confianza al nivel de1- para la esperanza de una normal de varianza conocida es el comprendido entre los valores La forma habitual de escribir este intervalo es: 11 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Este valor de Z se conoce como coeficiente de confiabilidad, que indica en cuantos errores estándar están aproximadamente el 95% de los valores posibles de x (siempre que 1- =0.95). El otro componente conocido es el error estándar o desviación estándar de la distribución muestral de x . Cuando 1- = 0.95, el intervalo recibe el nombre de confianza del 95% para . Se dice que se tiene el 95 por ciento de confianza de que la media de la población esté dentro del intervalo calculado. Como vemos, conociendo la ley de distribución, la media muestral y la varianza, podemos estimar el valor de la media poblacional. Ejemplo: Un fisioterapista desea estimar, con el 99% de confianza, la media de fuerza máxima de un músculo particular en cierto grupo de individuos. Se inclina a suponer que los valores de dicha fuerza muestran una distribución aproximadamente normal con una varianza de 144. Una muestra de 15 individuos que participaron en el experimento proporcionó una media de 94.3. Solución: En la tabla de distribución normal, el valor de Z que corresponde a un coeficiente de confianza de .99 es de 2.58. Este es el coeficiente de confiabilidad. El error estándar es de x=12/ 15 = 3.10. Por lo tanto el intervalo de confianza del 99% para es: 84.3 2.58(3.10) = 84.3 8.0 entonces I.C.= (76.3 ; 92.3) Se dice que se tiene el 99% de confianza de que la media de la población esta entre 76.3 y 92.3 ya que, al repetir el muestreo, el 99% de todos los intervalos que podrían ser construidos de esta forma, incluirían a la media de la población. Este procedimiento para obtener un intervalo de confianza para la media de la población, requiere el conocimiento de la varianza de la población de la que se extrae la muestra. Sin embrago, la situación más común es aquella en donde no se conoce el valor de la media ni el valor de la varianza. Esto impide que podamos utilizar el estadístico Z para la construcción de intervalos. Aunque la estadística Z tiene una distribución normal cuando la población es normal o aproximadamente normal cuando n es muy grande, no se puede utilizar porque se desconoce . En estos casos se puede utilizar una estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de la población (s= ). Sin embargo, en estadística inferencial, los estadísticos para medir la dispersión más convenientes son los insesgados como la cuasivarianza típica. Según el caso se utilizará la cuasivarianza típica o la desviación típica. Por ejemplo si tomamos una muestra de tamaño 25 y desviación típica igual a 10, la cuasivarianza típica será: En los casos en los que se desconoce pero la población de donde provienen los datos es normal, lo correcto es utilizar otra distribución llamada "t" de student, que no depende de (desconocido) sino de su estimación puntual insesgada, es decir la cuasivarianza típica. Esta distribución se aplicara siempre que no sean conocidos la media y varianza de la población. El calculo de la media y el intervalo de confianza al nivel 1- cuando los parámetros son desconocidos es: 12 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Y se tomara como intervalo de confianza aquella región en la que En este caso se usa la notación: El procedimiento es básicamente el mismo, lo que es diferente es el origen del coeficiente de confiabilidad. Este se obtiene a partir de la tabla de distribución t. Ejemplo: Se desea estimar la concentración media de amilasa en suero de una población sana. Las mediciones se efectuaron en una muestra de 15 individuos aparentemente saludables. La muestra proporcionó una media de 96 unidades/100ml y una desviación estándar de 35 unidades/100ml. La varianza se desconoce. Solución: Podemos utilizar la media de la muestra 96 como una estimación puntual de la media de la población. Pero al no conocer la desviación estándar, podemos suponer que la población sigue una distribución aproximadamente normal antes de construir un intervalo de confianza para . Si suponemos que esta hipótesis es razonable, podemos buscar un intervalo de confianza del 95%. Se tiene el estimador x y el error estándar es s/ n = 35 / 15 = 9.04. Buscamos el coeficiente de confiabilidad, es decir, el valor de t asociado a un coeficiente de confianza de .95 y n – 1 =14 grados de libertad. Se encuentra que el valor de t, que es el coeficiente de confiabilidad, es de 2.1448. Ahora se construye el intervalo de confianza al 95 por ciento: 96 2.1448(9.04) = 96 19 entonces el I.C = ( 77 ; 15 ) Este intervalo se puede interpretar desde dos puntos de vista, probabilístico y práctico. Se dice que se tiene el 95% de confianza de que la media real de la población está entre 77 y 115 ya que con muestreos repetidos, el 95% de los intervalos construidos de una forma semejante incluyen a . Contrastes para la media Los contrastes para la media son muy importantes. Cuando analizamos un carácter dentro de una población, una de las primeras cosas que hacemos es calcular la media para dicho carácter. Muchas veces tenemos un valor a priori de la media poblacional y es necesario determinar si coincide o se aproxima al valor real en la población. Los contrastes de hipótesis para la media nos permiten comprobar si el valor fijado a priori de la media coincide con el de la población. Cuando el muestreo se realiza a partir de una población normal y se conoce la varianza de la población, la estadística de prueba para H0 : = 0 es: 13 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Contrastes sobre la media de una población N(μ,σ) con σ conocida: Este contraste se aplica cuando tenemos una población que se distribuye normalmente N(μ,σ), en donde la varianza 2 es conocida, y mediante una muestra aleatoria simple de tamaño n, ( x1 , x2 , x3 ,..., xn ) , y un nivel de significación α dado, queremos realizar los siguientes contrastes: H 0 : 0 2. H1 : 0 1. H 0 : 0 H1 : 0 H 0 : 0 3. H1 : 0 La técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con los datos muestrales si es verdaderamente cierta o no. Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre denominar al valor del estadístico del contraste calculado sobre la muestra como valor experimental y a los extremos de la región crítica, como valores teóricos. Definiendo entonces para cada caso un valor teórico y uno experimental. H 0 : 0 De dos colas H1 : 0 1. Contraste de Sabemos que la población se distribuye normalmente, por lo que El valor teórico se obtiene de la tabla de distribución normal. Si H0 es cierta, entonces esperamos que el valor zexp obtenido sobre la muestra esté cercano a cero con una gran probabilidad. La regla de decisión será: - Rechazamos H 0 si: zexp x 0 < z / 2 n - Aceptamos H 0 si: ó zexp x 0 > z / 2 n z / 2 zexp z / 2 La regla de decisión también la podemos formular en función de la región crítica o de la región de aceptación, así pues, si calculamos la media x (media muestral) correspondiente a la muestra aleatoria de tamaño n, entonces: Si x 0 z / 2 , 0 z / 2 aceptamos H 0 . n n Si x 0 z / 2 , 0 z / 2 rechazamos H 0 . n n 14 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Por lo tanto, se rechaza la hipótesis nula si el valor calculado de la estadística de prueba cae en la región de rechazo y no se rechaza si cae en la región de aceptación. H 0 : 0 De una cola H1 : 0 2. Contraste de Bajo la hipótesis nula la distribución de la media muestral es y como región crítica consideraremos aquella formada por los valores extremadamente bajos de Zexp, con probabilidad , es decir Entonces la región de aceptación, o de modo más correcto, de no rechazo de la hipótesis nula es: . La regla de decisión será: - Rechazamos H 0 si: zexp x 0 <- z / 2 n - Aceptamos H 0 si: zexp x 0 - z / 2 n Se rechaza la hipótesis nula, cuando uno de los estadístico Z o sombreada de sus gráficas respectivas. toma un valor en la zona H 0 : 0 H1 : 0 3. Contraste de 15 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Si observamos el caso anterior, podemos ver que aquí tomamos como hipótesis alternativa su contraria. Por simetría con respecto al caso anterior, la región donde no se rechaza la hipótesis nula es La regla de decisión será: - Rechazamos H 0 si: zexp x 0 > z / 2 n - Aceptamos H 0 si: zexp x 0 z / 2 n Regiones de aceptación y rechazo para el test unilateral contrario Ejemplo: Supóngase que un investigador está estudiando el nivel promedio de alguna enzima en cierta población de seres humanos. El investigador toma una muestra de 10 individuos, determina el nivel de la enzima en cada uno de ellos y calcula la media muestral igual a 22. La variable de interés sigue una distribución aproximadamente normal con una varianza de 45. Con estos datos y los procedimientos de prueba de hipótesis, ¿es posible concluir que el nivel medio de la enzima en esta población es diferente de 25? Solución: H0: = 25 H1: ≠ 25 Primero, es necesario especificar las regiones de rechazo y aceptación. Para ello definimos un nivel de significación , que es la probabilidad de cometer un error de tipo I. Supongamos que queremos que la probabilidad de rechazar una hipótesis nula verdadera es =0.05. Al estar la región de rechazo formada por dos partes (contraste bilateral), parece lógico que se pueda dividir a en partes iguales siendo /2=0.025. La región de aceptación será 1- /2= 0.975. Este valor nos ayudara a encontrar el valor de z en la tabla de distribución normal. El valor z para 1- /2=0.975 es 1.96. Como el contraste es bilateral, la región de rechazo consiste en todos los valores de la estadística de prueba mayores o iguales que 1.96 o menores o iguales que -1.96. Entonces, se rechaza H0 si el valor calculado es ≥1.96 o ≤-1.96. De otra manera no se rechaza. El valor de y la regla de decisión deben ser establecidos antes de reunir los datos, lo cual evita que los resultados de la muestra influyan en la decisión. 16 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Calculo de la estadística de prueba: zexp= 22 25 3 -1.41 = 45 / 10 2.1213 = Como -1.41 no está en la región de rechazo, no se puede rechazar la hipótesis nula. Se puede concluir que puede ser igual a 25 y que las acciones del administrador o medico deben estar de acuerdo con esta conclusión. También se puede llegar a esta misma conclusión mediante el uso de un intervalo confianza del 10(1- ) por ciento. El intervalo de confianza de 95% para es: 22 1.96 45 / 10 = 22 1.96 (2.1213) = 22 4.16 I.C= (17.84 ; 26.16) Dado que este intervalo incluye a 25, se dice que 25 es un candidato para la media y por lo tanto, puede ser igual a 25. H0 no se rechaza. Contrastes sobre la media de una población N (μ,σ) con σ desconocida Este contraste es aplicable cuando se tiene una muestra aleatoria simple ( x1 , x2 , x3 ,..., xn ) procedente de una población N (μ,σ), en donde ni la media ni la varianza 2 son conocidos y, con un nivel de significación α dado, queremos realizar los siguientes contrastes: H 0 : 0 2. H1 : 0 1. H 0 : 0 H1 : 0 3. H 0 : 0 H1 : 0 Es decir nuevamente queremos ver si el valor fijado a priori de la media poblacional es o no el real. Utilizando el estadístico de prueba: texp x 0 s n Se tendrán los siguientes contrastes. H 0 : 0 o Test de dos colas H1 : 0 1. Contraste de Al no conocer 2 va a ser necesario estimarlo a partir de su estimador insesgado: la cuasivarianza muestral, Ŝ 2. Por ello la distribución del estimador del contraste será una t de Student, que ha perdido un grado de libertad, y según la definición de la distribución de Student: 17 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Definimos al valor del estadístico del contraste calculado sobre la muestra como valor experimental y a los extremos de la región crítica, como valores teóricos: Entonces: - Se rechaza H 0 si: texp t / 2 ó texp t / 2 - Se acepta H 0 si: t / 2 texp t / 2 Región crítica para el contraste bilateral de una media Ejemplo: Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo gaussiano. Deseamos contrastar con un nivel de significación de =0.05 si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n=25 personas se obtuvo: Solución: El contraste que se plantea es: H0: = 174cm H1: ≠ 174cm La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadístico es ``razonable" o no bajo esta hipótesis, para el nivel de significación dado. Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si Para ello procedemos al cálculo de Texp: 18 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Luego, aunque podamos pensar que ciertamente el verdadero valor de no es 174, no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95%. Es decir, no se rechaza H0. H 0 : 0 Tests de una cola H1 : 0 2. Contraste de Por analogía con el contraste bilateral, definiremos Entonces: - Se rechaza H 0 si: texp t - Se acepta H 0 si: texp t Región crítica para uno de los contrastes unilaterales de una media. H 0 : 0 H1 : 0 3. Contraste de En este caso también definimos Texp y Tteo 19 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM - Se rechaza H 0 si: texp t - Se acepta H 0 si: texp t Región crítica para el contraste unilateral de una media contrario al anterior. Ejemplo: Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm. Solución: Ahora el contraste es H0: ≥ 174cm H1: < 174cm Para realizar este contraste, consideramos el caso límite y observamos si la hipótesis nula debe ser rechazada o no. Este es: De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que toma el estadístico es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si 20 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM El valor de Texp obtenido fue de Texp= -1.959< t24,0.05= -t24,0.95 = -1.71 Por ello hemos de aceptar la hipótesis alternativa Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que 174 cm, el ``simple hecho" de plantearnos un contraste que parece el mismo pero en versión unilateral nos conduce a rechazar de modo significativo que =174 y aceptamos que <174 cm. Es por ello que podemos decir que no sólo H0' es rechazada, sino también H0. Es en este sentido en el que los tests con H0 y H0' los consideramos equivalentes: 2) DISTRIBUCIÓN MUESTRAL DE PROPORCIONES Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico media. Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que np 5 y n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre el número de intentos. La distribución muestral de proporciones se puede obtener experimentalmente. A partir de la población, que se supone es finita, se toman todas las muestras posibles de un tamaño dado, y para cada muestra se calcula la proporción de la muestra p̂ . Después, se elabora una distribución de frecuencias de p̂ , numerando los distintos valores de p̂ junto con sus 21 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM frecuencias de ocurrencias. Esta distribución de frecuencias constituye la distribución muestral de p̂ . La media de la distribución muestral de proporciones es el promedio de todas las proporciones posibles de la muestra y es igual a la proporción en la población de un cierto evento p: p̂ = p La varianza de la distribución binomial es 2= npq, por lo que la varianza de la distribución muestral de proporciones es: p̂ = pq = n 2 p̂ = pq n La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la muestra. z= pˆ p pq n Ejemplo 1: Supóngase que en una población de seres humanos, el 0.8 son daltónicos. Si se eligen aleatoriamente 150 individuos de esta población, ¿Cuál es la probabilidad de que una proporción de individuos daltónicos tenga un tamaño del 0.15? Solución: Si la proporción de la población se designa como p, se puede decir que p=0.8. Como np y n(1-p) son mayores que 5 (150x0.8=12 y 150x0.92=138), se puede decir que, en este caso p sigue una distribución aproximadamente normal, con una media p̂ = p= 0.8 y una varianza igual a p(1-p)/n = (0.8).(0.92)/150=0.00049. La probabilidad buscada es el área bajo la curva de p̂ a la derecha de 0.15. Esta área es igual al área bajo la curva normal estándar a la derecha de: z= pˆ p pq n = 0.15 0.8 0.00049 = 0.07 =3.15 0.0222 Al utilizar la tabla de distribución normal estándar se tiene que el área a la derecha de z=3.15 es 1-0.9992=0.0008. Se puede decir que la probabilidad de observar p̂ 0.15 en una muestra aleatoria de tamaño n=150 de una población en la que p=0.08 es 0.0008. Si se extrajera una muestra de este tipo, seria un evento muy extraño. Ejemplo 2: Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que realmente presentan una reacción adversa, exceda el 4%. a. Resolverlo mediante la aproximación de la normal a la binomial 22 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM b. Resolverlo con la distribución muestral de proporciones a. Aproximación de la distribución normal a la binomial: Datos: n=150 personas x= (0.04)(150) = 6 personas Media = np= (150)(0.03)= 4.5 p=0.03 p(x>6) = ? p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que al extraer una muestra de 150 personas, más de 6 presentarán una reacción adversa. b. Distribución Muestral de Proporciones Datos: n=150 personas P=0.03 p(p>0.04) = ? Observe que este valor es igual al obtenido y la interpretación es: existe una probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una proporción mayor de 0.04 presentando una reacción adversa. Estimación de una Proporción LINK RECOMENDADO: http://www.youtube.com/watch?v=ttoyw4UgqkE Muchas preguntas de interés para los profesionales tienen relación con las proporciones de la población. Por ejemplo ¿Qué proporción de alguna población tienen cierta enfermedad? o ¿Qué proporción es inmune a cierta enfermedad? Para estimar la proporción de una población se procede de la misma manera que cuando se estima la media de una población. Se extrae una muestra de la población de interés y se calcula la proporción p̂ . Esta se utiliza como el estimador puntual para la proporción de la población. Un estimador puntual de la proporción P en un experimento binomial está dado por la estadística P =X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P. Como vimos anteriormente, cuando np y n(1-p) son mayores que 5, se puede considerar que la distribución muestral de p̂ se aproxima bastante a una distribución normal. En estos casos, el coeficiente de confiabilidad es algún valor de Z de la distribución normal estándar. El error 23 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM estándar es igual pˆ (1 pˆ ) / n . Como P es el parámetro que se tarta de calcular, se se debe utilizar como estimación. p̂ desconoce, Podemos establecer un intervalo de confianza para P al considerar la distribución muestral de proporciones. Al despejar P de esta ecuación nos queda: En este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el tamaño de muestra no sea pequeño. Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. El error de estimación será la diferencia absoluta entre p y P. Para encontrar el intervalo de confianza al nivel de significación para p se considera el intervalo que hace que la distribución de Z~N(0,1) deje la probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles 2 y 1- 2 . Así se puede afirmar con una confianza de 1- que: Ejemplo: Se llevo a cabo una encuesta para estudiar los hábitos y actitud hacia la salud mental de cierta población urbana de adultos. De los 300 entrevistados, 123 de ellos dijeron que se sometían regularmente a una revisión dental dos veces por año. Se desea construir un intervalo de confianza de 95% para la proporción de individuos de la población muestreada que se somete a la revisión dental dos veces al año. Solución: La mejor estimación puntual de la proporción de la población es p̂ =123/300 = 0.41. El tamaño de la muestra y la estimación de p son suficientes como para justificar el uso de la distribución normal estándar para construir el intervalo de confianza. El coeficiente de confiabilidad que corresponde a un nivel de confianza de .95 es de 1.96 y la estimación del error estándar p̂ es pˆ (1 pˆ ) / n = 0.41(0.59) / 300 =0.28. El intervalo de confianza del 95% para p, con base en estos datos, es 0.41 1.96(0.28) 0.41 0.05 (0.36 ; 0.46) 24 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Se puede decir que se tiene el 95% de confianza de que la proporción real p está entre 0.36 y 0.46 ya que, al repetir el muestreo, el 95% de los intervalos construidos de esta forma incluyen a la proporción p real. Contrastes de una proporción LINK RECOMENTADADO : http://www.youtube.com/watch?v=AN1tIWEo8qw Este test se utiliza para contrastar la igualdad o desigualdad de proporciones que han sido estimadas y las proporciones reales. Supongamos que tenemos una sucesión de observaciones independientes, de modo que cada una de ellas se comporta como una distribución de Bernoulli de parámetro p. La v.a. X, definida como el número de éxitos obtenidos en una muestra de tamaño n es por definición una v.a. de distribución binomial: La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) es: Nuestro contraste de significación es: frente a otras hipótesis alternativas. Para ello nos basamos en un estadístico (de contraste) que ya fue considerado anteriormente en la construcción de intervalos de confianza para proporciones y que sigue una distribución aproximadamente normal para tamaños muestrales suficientemente grandes: Entonces, si la hipótesis H0 es cierta se tiene Se pueden hacer pruebas unilaterales y bilaterales para rechazar o no la hipótesis nula. H 0 : p p0 Contraste bilateral H1 : p p0 1. Contraste de Extraemos una muestra y observamos el valor X=x = p̂ = x . n Entonces se define 25 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Se acepta H 0 si: z / 2 zexp z / 2 Siendo el criterio de aceptación o rechazo de la hipótesis nula el que refleja la figura para el contraste bilateral de una proporción H 0 : p p0 Contrastes unilaterales H1 : p p0 2. Contraste de: El criterio de aceptación o rechazo a seguir es: Se acepta H 0 si: Siendo z zexp z P Z z ó P Z z 1 Entonces para un contraste unilateral cuando H0: p p0 26 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM H 0 : p p0 H1 : p p0 3. Contraste de: Este es el test unilateral contrario, se tiene la expresión simétrica Se acepta H 0 si: zexp z Contraste unilateral cuando se tiene H0: p p0 Ejemplo: Suponer que hay interés por saber que proporción de la población de conductores de automóviles utilizan con regularidad el cinturón de seguridad del asiento. En una encuesta de 300 conductores adultos de automóviles, 123 de ello dijeron que regularmente utilizaban el cinturón de seguridad. ¿Es posible concluir a partir de estos datos que, en la población muestreada, la proporción de quienes utilizan regularmente el cinturón de seguridad no es del 50? Solución: H0: p = 0.5 H1: p ≠ 0.5 A partir de los datos se tiene que p̂ =0.41 y el error estándar es (0.5)(0.5) / 300 . El cálculo de la estadística de prueba es: 27 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Z= 0.41 0.5 (0.5)(0.5) 300 = 0.9 = - 3.11 0.0289 Si =0.05, los valores críticos son ± 1.96. Se rechaza H0 a menos que 1.96<zcalculada<1.96. Como -3.11< -1.96 se rechaza la hipótesis nula. Se concluye que la proporción de la población que usa regularmente el cinturón de seguridad no es de 0.5. 2) DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE MEDIAS Con frecuencia, el interés se centra en dos poblaciones. Puede ser que un investigador desee saber algo acerca de las diferencias entre las medias de dos poblaciones. Para este y otros casos, el conocimiento acerca de la distribución muestral de la diferencia entre dos medias es muy útil. Se tienen dos poblaciones distintas, la primera con media 1 y desviación estándar 1, y la segunda con media 2 y desviación estándar 2. Se elige una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias junto con sus frecuencias, se llama distribución muestral de las diferencias entre medias o la distribución muestral del estadístico La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras. Sabemos que cuando n es grande, la distribución muestral de medias tendrá aproximadamente una distribución normal con una media igual a (la media de la población) y una desviación estándar de / n . Con esto podemos deducir que la media para esta distribución muestral de diferencia de medias es igual a las diferencia entre las medias reales de las poblaciones 1- 2. La varianza es igual a ( 21/n1) + ( 22/n2). Y el error estándar de la diferencia entre las medias muestrales es: . La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de medias es: Este procedimiento es válido incluso cuando el tamaño de las muestras es diferente y cuando las varianzas tienen valores diferentes. Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras que el promedio de los pesos de todas las niñas 28 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM del sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y es el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas. Solución: Datos: 1 = 100 libras 2 = 85 libras 1 = 14.142 libras 2 = 12.247 libras n1 = 20 niños n2 = 25 niñas =? Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al menos 20 libras más grande que el de la muestra de las niñas es 0.1056. Estimación de la Diferencia entre dos Medias En ciertos casos, se desea estimar la diferencia entre las medias de dos poblaciones. Teniendo dos poblaciones donde el carácter que estudiamos en ambas (X1 y X2) son v.a. distribuidas según leyes gaussianas, podemos realizar una estimación de la diferencia entre dos medias. A partir de cada población se extrae una muestra aleatoria independiente y de los datos de cada una se calculan las medias muestrales x 1 y x 2. Sabemos que el estimador x 1- x 2 proporciona una estimación insesgada de 1 - 2, que es la diferencia entre las medias de las poblaciones. La varianza del estimador es ( 12/n1) + ( 22/n2). Por tanto, para obtener una estimación puntual de 1- 2, se seleccionan dos muestras aleatorias independientes que no tienen por qué ser necesariamente del mismo tamaño, una de cada población, de tamaño n1 y n2, se calcula la diferencia , de las medias muestrales. Intervalo para la diferencia de medias cuando se conoce la varianza: Recordando a la distribución muestral de diferencia de medias: 29 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Al despejar de esta ecuación 1 - 2 se tiene: En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual. Ejemplo: A un equipo de investigación le interesa conocer la diferencia entre las concentraciones de acido úrico en pacientes con y sin mongolismo. En una hospital para el tratamiento del retardo mental, una muestra de 12 individuos con mongolismo proporciona una media de x 1= 4.5mg/100ml. En un hospital general se encontró que una muestra de 15 individuos normales de la misma edad y sexo presenta un nivel medio de x 2= 3.4. Si suponemos que las dos poblaciones de valores muestran una distribución normal y sus varianzas son iguales a 1, calcular el intervalo de confianza del 95% para 1- 2. Solución: Para una estimación puntual de 1- 2 se utiliza = 4.5 - 3.4=1.1. El coeficiente de confiabilidad correspondiente al .95, que se halla en la tabla normal, es 1.96. El error estándar es: 1 1 = 0.39 12 15 Por lo tanto el intervalo de confianza del 95% es: 1.1 1.96 (0.39) 1.1 0.8 (0.3 ; 1.9) Se dice que se tiene una confianza del 95% de que la diferencia real 1- 2, está entre 0.3 y 1.9 debido a que en muestreos repetidos el 95% de los intervalos construidos de esa manera incluiría la diferencia entre las medias reales. Intervalo para la diferencia de medias cuando se desconoce la varianza Cuando se desconocen las varianzas de la población y se requiere estimar la diferencia entre las medias de dos poblaciones con un intervalo de confianza, se puede utilizar la distribución t para extraer el factor de confiabilidad, siempre que las poblaciones sean normales o supongamos que lo son. 1. Intervalo para la diferencia de medias homocedáticas: Si suponemos que las varianzas de dos poblaciones son iguales, las dos varianzas de las muestras calculadas a partir de las muestras independientes pueden construirse como 30 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM estimaciones de una sola cosa, la varianza común. Esta varianza se obtiene calculando el promedio ponderado de las dos varianzas de las muestras. Cada varianza de las muestras es ponderada en base a sus grados de libertad. La estimación conjunta se obtiene con la formula: Donde se ha definido a como la cuasivarianza muestral ponderada de Ŝ 21 y Ŝ 22. Las varianzas se desconocen, el intervalo se distribuye entonces como una de Student con n1+n2-2 grados de libertad Si 1- es el nivel de significación con el que deseamos establecer el intervalo para la diferencia de las dos medias, calculamos el valor t n1+n2-1,1- /2 que deja por encima de si /2 de la masa de probabilidad de Tn1+n2-2. El intervalo de confianza al nivel 1- para la diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es: Ejemplo: Se efectuaron estudios sobre la concentración media de amilasa en suero de una población sana. Las mediciones se efectuaron en una muestra de 15 individuos aparentemente saludables. La muestra proporcionó una media de 96 unidades/100ml y una desviación estándar de 35 unidades/100ml. Se hicieron también las determinaciones de amilasa en el suero de 22 individuos hospitalizados que forman una muestra independiente. La media y la desviación estándar de esta muestra son 120 y 40 unidades/ml, respectivamente. La estimación puntual de 1- 2 es de 120 – 96 =24. Se desea construir un intervalo de confianza para la diferencia entre las concentraciones medias de amilasa del suero en individuos aparentemente sanos y la media para los pacientes hospitalizados. Solución: Suponemos que las dos poblaciones en estudio tienen una distribución normal y que sus varianzas son iguales. Primero, buscamos la estimación conjunta de la varianza común como sigue: Ŝ 2 = 14(35)2 + 21(40)2 / 15 + 22 – 2 = 1450 El intervalo de confianza del 95% para 1- 2 es: (120-96) 2.0301 1450 1450 15 22 24 (2.0301)(12.75) 24 26 I.C = (-2 ; 50) Se dice que se tiene un 95% de confianza de que la diferencia real 1- 2 esta entre -2 y 50 ya que, al muestrear varias veces, el 95% de los intervalos así construidos incluyen a 1- 2. Ejemplo: Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos: 31 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones normales de medias desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo. Solución: Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos estimar un intervalo de confianza para 1- 2, lo que nos dará la diferencia de peso esperado entre un niño del primer grupo y otro del segundo. El estadístico que se ha de aplicar para esta cuestión es: donde Consideramos un nivel de significación que nos parezca aceptable, por ejemplo =0.05, y el intervalo buscado se obtiene a partir de 95% Con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera un hijo de madre no fumadora al de otro de madre fumadora está comprendido con un nivel de confianza del 95% entre los 0,068 Kg y los 0,731 Kg. 32 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Contrastes para la diferencia de medias apareadas En el análisis de la diferencia de medias de dos poblaciones, se supone que las muestras son independientes. Un método que se utiliza con frecuencia para averiguar la efectividad de un tratamiento o procedimiento experimental es aquel que hace uso de observaciones relacionadas que resultan de muestras no independientes. Una prueba de hipótesis que se basa en este tipo de datos se conoce como prueba de comparaciones por parejas o para muestras apareadas. Las muestras apareadas aparecen como distintas observaciones realizadas sobre los mismos individuos. Un ejemplo de observaciones apareadas consiste en considerar a un conjunto de n personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y después del mismo (Y). No es posible considerar a X e Y como variables independientes ya que va a existir una dependencia clara entre las dos variables. Si queremos contrastar el que los pacientes han experimentado o no una mejoría con el tratamiento, llamemos di a la diferencia entre las observaciones antes y después del tratamiento di = xi-yi El objetivo de la prueba de comparaciones por pares es eliminar al máximo las fuentes de variación por medio de la formación de parejas similares respecto a tantas variables como sea posible. En estos casos, en lugar de llevar a cabo el análisis con observaciones individuales, se puede utilizar como variable de interés la diferencia entre los pares individuales de observación. Supongamos que la v.a. que define la diferencia entre el antes y después del tratamiento es una v.a. d que se distribuye normalmente, pero cuyas media y varianza son desconocidas. Si queremos contrastar la hipótesis de que el tratamiento ha producido cierto efecto En el caso en que H0 fuese cierta tendríamos que el estadístico de contraste que nos conviene es: Donde es la media muestral de las diferencias di y Ŝ d es la cuasivarianza muestral de las mismas. El tipo de contraste sería entonces del mismo tipo que el realizado para la media con varianza desconocida. Cuando H0 es verdadera la estadística de prueba sigue una distribución t de Student con n-1 grados de libertad. 1. Contraste bilateral: Consideramos el contraste de tipo Entonces se define 33 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM y se rechaza la hipótesis nula cuando: ó . 2. Contrastes unilaterales: En los dos tipos de contrastes unilaterales o de una cola se utiliza el mismo estadístico: Si el contraste es entonces: Se rechaza H0 si: . Para el test contrario Se rechaza H0 si: Texp > t n-1 ,1- . Si el contraste se realiza cuando 2 d es conocida, entonces el estadístico del contraste es: y el tratamiento es análogo en los tres casos. Contrastes de diferencia entre medias poblacionales independientes Este tipo de contraste también es aplicado para diferencia de medias, pero en los casos en los que se comparan medias poblacionales para un carácter determinado en dos poblaciones distintas. Sean dos poblaciones normales N x , x y N y , y con x y y conocidas, de las cuales se extraen dos muestras aleatorias e independientes de tamaño nx y ny respectivamente. Con un nivel de significación α dado, queremos realizar los siguientes contrastes: 34 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM H 0 : x y d0 H 0 : x y d0 H 0 : x y d0 2. 3. H1 : x y d 0 H1 : x y d 0 H1 : x y d 0 1. El caso más frecuente es cuando d0=0. Sin embrago, es posible probar la hipótesis de que la diferencia es igual que, mayor o igual que, menor o igual que algún valor distinto de cero. Utilizando el estadístico zexp x y d0 x2 nx y2 se tienen los siguientes contrastes. ny Contraste de medias con varianzas conocidas: De manera similar al caso del contraste para una media, queremos en esta ocasión contrastar la hipótesis de que las dos poblaciones (cuyas varianzas suponemos conocidas) sólo difieren en una cantidad . frente a hipótesis alternativas que darán lugar a contrastes unilaterales o bilaterales. Para ello nos basamos en la distribución del siguiente estadístico de contraste: 1. Contraste bilateral o de dos colas: Se define entonces Se acepta H 0 si: z / 2 zexp z / 2 35 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM y el test consiste en: 2. Contrastes unilaterales o de una cola Se utiliza en ambos caso el mismo estadístico utilizado para el contraste bilateral: Para el test Se acepta H 0 si: zexp z y para el contraste de significación contrario: Se acepta H 0 si: zexp z Ejemplo: Un equipo de investigadores desea saber si los datos que han recolectado proporcionan la evidencia suficiente para indicar una diferencia entre las concentraciones medias de ácido úrico en el suero de individuos normales e individuos con síndrome de Down. Los datos presentan las concentraciones de acido úrico en el suero de 12 individuos con síndrome de Down y 15 individuos sanos. Las medias son x 1=4.5mg/100ml y x 2=3.4mg/100ml. Solución: El contraste es H0: 1- 2 = 0 o 1= 2 H1: 1- 2 ≠ 0 o 1≠ 2 36 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Si =0.05, los valores críticos de z son ± 1.96. Se rechaza H0 a menos que 1.96<zcalculada<1.96. Cálculo de la estadística de prueba: Z= (4.5 3.4) 0 1 / 12 1 / 15 = 1.1 =2.82 0.39 Como 2.82 es mayor que 1.96 se rechaza la hipótesis nula. Se concluye que, de acuerdo con estos datos, hay indicios de que las medias de las poblaciones son diferentes. Contraste de medias homocedáticas Aplicable al caso en el que deseamos contrastar la diferencia de medias de dos poblaciones independientes cuando sólo conocemos que las varianzas de ambas poblaciones son iguales, pero desconocidas. El problema a contrastar es: El estadístico que usaremos para el contraste ya lo hemos visto. Si suponemos que H0 es cierta se tiene Donde es la cuasivarianza muestral ponderada de Ŝ 21 y Ŝ 22. Se han perdido dos grados de libertad a causa de la estimación de 2 1= 2 2 mediante Ŝ 21 y Ŝ 22. 1. Contraste bilateral Para el contraste de significación Se tiene como en casos anteriores que el contraste adecuado consiste en definir Y rechazar o admitir la hipótesis nula siguiendo el criterio 37 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM 2. Contrastes unilaterales Cuando el contraste es unilateral del modo El contraste se realiza siguiendo el mismo proceso que en otros realizados anteriormente y utilizando el mismo estadístico, lo que nos lleva a Y cuando el contraste de significación es el contrario Del mismo modo Ejemplo: Un grupo de investigadores colecto datos acerca de las concentraciones de amilasa en el suero de muestras de individuos sanos y de individuos hospitalizados. Desean saber si es posible concluir que las medias de las poblaciones son distintas. Los datos son las mediciones de amilasa en suero de n2= 15 individuos sanos y n1= 22 individuos hospitalizados. Las medias muestrales y sus desviaciones estándar son las siguientes: s1=40 unidades/ml x 1=120 unidades/ml x 2=96 unidades/ml s2=35 unidades/ml Solución: El contraste es: H0: 1- 2 = 0 H1: 1- 2 ≠ 0 Si definimos a =0.05, los valores críticos de t son ± 2.0301. Se rechaza H0 a menos que 2.0301<tcalculada<2.0301. El cálculo de la estadística de prueba es: Ŝ 2= t= 21(1600) 14(1225) =1450 21 14 (120 96) 0 1450 1450 15 22 = 24 =1.88 12.75 38 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM No es posible rechazar H0 porque -2.0301<1.88<2.0301. Es decir, 1.88 cae dentro de la región de aceptación. Con base a estos datos no es posible concluir que las dos medias de la población son diferentes. Contraste de medias no homocedáticas Es un tipo de contraste que se aplica en el caso más problemático, es decir cuando sólo conocemos de las dos poblaciones que su distribución es normal, y que sus varianzas no son conocidas y significativamente diferentes. El contraste es: En este caso el estadístico de contraste tendrá una ley de distribución muy particular. Consistirá en una distribución t de Student, con un número de grados de libertad que en lugar de depender de modo determinista de la muestra (a través de su tamaño), depende de un modo aleatorio mediante las varianzas muestrales. Concretamente, el estadístico que nos interesa es donde f es el número de grados de libertad que se calcula mediante la fórmula de Welch No desarrollamos en detalle los cálculos a realizar, pues la técnica para efectuar los contrastes es análoga a las vistas anteriormente cuando las varianzas son desconocidas e iguales. Nota Si lo que pretendemos contrastar es si las medias poblacionales de dos muestras independientes obtenidas de poblaciones normales son idénticas, esto se reduce a los casos anteriores tomando , es decir, realizando el contraste: 3) DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE PROPORCIONES Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones o porcentajes. Cuando el muestreo 39 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM procede de dos poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1 5, n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que su diferencia p1-p2 también tiene una distribución muestral aproximadamente normal. Cuando se estudió la distribución muestral de proporciones se comprobó que p̂ = p y que p̂ = pq n por lo que se puede deducir que: p̂ 1 - p̂ 2 = p1-p2 y que . Si tenemos dos poblaciones suficientemente pequeñas, podemos extraer de la población 1 todas las muestras aleatorias posibles de tamaño n1 y calcular a partir de cada conjunto de datos de la muestra la proporción de la muestra p̂ 1. Lo mismo podemos hacer con la población 2. Luego es posible calcular las diferencias entre todos los pares posibles de proporciones muestrales, donde un miembro de cada par tiene un valor p̂ 1 y el otro un valor p̂ 2. La distribución muestral de la diferencia ente las dos porciones de las muestras consiste en todas las diferencias existentes acompañadas de sus frecuencias de ocurrencias. La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de proporciones es: Ejemplo: Los hombres y mujeres adultos de una ciudad grande en sus opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se cree que el 12% de los hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte, determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor que el de las mujeres. Solución: Datos: PH = 0.12 PM = 0.10 nH = 100 nM = 100 p(pH-pM 0.03) = ? Hay que tener en cuanta que debe incluirse el factor de corrección de 0.5 por ser una distribución binomial y que se está utilizando la distribución normal. 40 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al menos 3% mayor que el de mujeres es de 0.4562. Estimación de la Diferencia de dos Proporciones Muchas veces se tiene interés en conocer la magnitud de la diferencia entre dos poblaciones, podemos comparar por ejemplo, entre hombres y mujeres, dos grupos de edades, dos grupos socioeconómicos. Un estimador puntual insesgado de la diferencia de proporciones de las poblaciones se obtiene al calcular las diferencias de las proporciones de las muestras p̂ 1 - p̂ 2. Cuando n1 y n2 son de gran tamaño y las proporciones de la población no están muy cerca de 0 o de 1, es posible aplicar el teorema del límite central y utilizar la teoría de la distribución normal para obtener los intervalos de confianza. Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2 Si las muestras son suficientemente grandes ocurre que Anteriormente, se vio el tema de la generación de las distribuciones muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la estimación de la misma. Recordando la formula: Despejando P1-P2 de esta ecuación obtenemos un intervalo de confianza del 100(1 - ) para P1-P2 : Donde Z se obtiene de la tabla de distribución normal al nivel 1-α/2. Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales: 41 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM Ejemplo: Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de madres que no la fumaban: Usuaria No Usuaria Tamaño Muestral 1246 11178 Número de disfunciones 42 294 Proporción muestral 0.0337 0.0263 Encuentre el intervalo de confianza del 99% para la diferencia de proporciones. Solución: Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras. El valor de z para un 99% de confianza es de 2.58. -0.0064<P1-P2<0.0212 Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera precisa. Contrastes sobre la diferencia de proporciones Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que estudiamos una variable de tipo dicotómico (Bernoulli): Si X1 y X2 contabilizan en cada caso el número de éxitos en cada muestra se tiene que cada una de ellas se distribuye como una variable aleatoria binomial, de modo que los estimadores de las proporciones en cada población tienen distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes) 42 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada población es una cantidad conocida Si H0 fuese cierta se tendría que: Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo que da lugar a un error que es pequeño cuando los tamaños muestrales son importantes: La prueba que se utiliza con más frecuencia con relación a la diferencia entre las proporciones de dos poblaciones es aquella en la que su diferencia es cero. Sin embargo, es posible probar que dicha diferencia es igual a algún otro valor. Se pueden hacer pruebas unilaterales y bilaterales. Siempre que la hipótesis nula sea p1-p2=0, se supone que las proporciones de las dos poblaciones son iguales. Esto permite combinar los resultados de las dos muestras y obtener una estimación ponderada de la proporción común supuesta: p = x1+x2 / n1+n2 Donde x1 y x2 son el número de la primera y segunda muestra que poseen la característica de interés. Esta estimación ponderada se utiliza para calcular el error estándar estimado para el estimador como sigue: ˆ p(1 p) p(1 p) n n El estadístico de contraste se convierte en: Z= ( pˆ pˆ ) ( p p) ̂ 1. Contraste bilateral El contraste bilateral sobre la diferencia de proporciones es Entonces se define 43 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM y se rechaza la hipótesis nula si Zexp<-z1- /2 o si Zexp>-z1- /2 2. Contrastes unilaterales En el contraste Se rechazará H0 si Zexp< -z1- . Para el test contrario Se rechaza H0 si Zexp> -z 1- . Ejemplo: En un estudio para comparar un nuevo tratamiento para la migraña con el tratamiento habitual, 78 de los 100 individuos que recibieron el tratamiento habitual respondieron favorablemente. De los 100 individuos que recibieron el nuevo tratamiento, 90 respondieron satisfactoriamente. ¿Proporcionan estos datos la evidencia suficiente para afirmar que el nuevo tratamiento es más efectivo que el habitual? Solución: Se calculan: p̂ 1= 78/100=0.78 p= p̂ 2=90/100=0.90 90 78 =0.84 100 100 Las hipótesis son: H0=p2-p1 0 H1= p2-p1>0 Sea =0.05. El valor crítico de z es 1.645. Se rechaza H0 si el valor de z es mayor que 1.645. El cálculo del estadístico de prueba es: z= (0.90 0.78) (0.84)(0.16) (0.84)(0.16) 100 100 0.12 =2.32 0.0518 Como 2.32>1-645, se rechaza H0. Estos datos sugieren que el tratamiento es más efectivo que el habitual 44 MATERIAL DE CÁTEDRA TEMA 1 : ESTADÍSTICA INFERENCIAL- ESTADISTICA II –UNaM BIBLIOGRAFÍA Bioestadística De Daniel, Wayne Estadística para administradores ,William Mendenhall Estadística , Murray R. Spiegel Link recomendados http://www.ditutor.com/inferencia_estadistica/estadistica_inferencial.html http://intranet.catie.ac.cr/intranet/posgrado/Herramientas_Estadisticas/Manual.p df 45