Taller 4 1 Preguntas Universidad Metropolitana en Bayamón Escuela de Estudios Profesionales STAT 555 Jennifer Vélez Claudio S00153158 Prof. Sylvia Y Cosme Montalvo 9 de julio de 2015 Taller 4 2 Preguntas: 1. ¿Por qué la media aritmética de la muestra es un estimador no sesgado de la media aritmética de la población? Demuestre con un ejemplo. Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del estimador y el verdadero valor del parámetro a estimar. Es deseable que un estimador sea no sesgado o centrado, es decir, que su sesgo sea nulo por ser su esperanza igual al parámetro que se desea estimar. Por ejemplo, si se desea estimar la media de una población, la media aritmética de la muestra es un estimador no sesgado de la misma, ya que su esperanza (valor esperado) es igual a la media de la población. 2. ¿Por qué el error estándar de la media disminuye a medida que el tamaño de la muestra aumenta? Demuestre con un ejemplo. A medida que el tamaño de muestra aumenta, los estimativos se hacen más exactos. Por ejemplo, si seleccionamos al azar 10 hombres adultos masculinos, podríamos encontrar que su altura promedio es de 6 pies y 3 pulgadas (1 metro, 95 centímetros), tal vez porque hay un jugador de baloncesto que infla nuestro estimado. Si, sin embargo, medimos dos millones de hombres adultos masculinos, tendríamos un mejor indicador de la altura de los hombres ya que los extremos se balancearán y el promedio real opacará cualquier desviación de la media. 3. ¿Por qué la distribución de muestreo de la media se acerca a la distribución normal para una muestra lo suficientemente grande a pesar de que la población no esté normalmente distribuida? Esto es cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para tamaños de muestra grande (n1p15, n1q15,n2p25 y n2q25). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que su diferencia p1-p2 también tiene una distribución muestral aproximadamente normal. 4. Explique por qué un administrador o gerente estaría interesado en llegar a conclusiones sobre una población más que meramente describir resultados de una muestra. Debido a que ya tiene unos parámetros y conocimientos que le permite tomar unas decisiones y llegar a conclusiones si pasar por el largo proceso de describir resultados de una muestra. Taller 4 3 5. Describa la diferencia entre una distribución de probabilidad y una distribución de muestreo. Demuestre con un ejemplo. La distribución de muestreo es la distribución de probabilidad de una muestra de una población en lugar de toda la población. 6. ¿Bajo qué circunstancias la distribución de muestreo de una proporción aproximadamente se acerca a la distribución normal? Cuando se calcula la media muestral para cada muestra y la diferencia entre dichas medias la colección de todas esas diferencias se llama distribución muestral de las diferencias entre medias o la distribución muestral del estadístico. Si las poblaciones son normales, entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras. 7. ¿Por qué realmente no existe un 100% de confianza al estimar correctamente las características de una población bajo estudio? La estimación del error de una medida tiene siempre una componente subjetiva. En efecto, nadie mejor que un observador experimentado para saber con buena aproximación cuál es el grado de confianza que le merece la medida que acaba de tomar. No existe un conjunto de reglas bien fundadas e inalterables que permitan determinar el error de una medida en todos los casos imaginables. 8. ¿Cuándo se utiliza la distribución t para desarrollar el estimador del intervalo de confianza alrededor de la media? Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. 9. ¿Por qué resulta cierto que para una muestra de tamaño n, un aumento en la confianza se alcanza ampliando (haciendo menos preciso) el intervalo de confianza obtenido? Demuestre con un ejemplo. El nivel de confianza y la amplitud del intervalo varían al mismo tiempo, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Esto se da porque existe mayor probabilidad de que el intervalo a construir a partir de la muestra incluya el valor verdadero dentro de un intervalo más amplio. Ejemplo: Un cliente de una tienda de electrodomésticos que pregunta sobre el tiempo de espera para la entrega de una lavadora de ropa nueva. En la tabla se aprecia las preguntas que el cliente puede hacer y las probables respuestas. Si se observa se puede ver que existe una relación directa entre el nivel de confianza y el intervalo de confianza de cualquier estimación. Taller 4 4 10. Explique bajo qué circunstancias se utilizaría un intervalo de confianza de una cola. Se utiliza en ocasiones en las cuales es necesario garantizar que la media de la muestra se encuentre con mayor probabilidad hacia uno de los extremos de la distribución de promedios, en lugar de ambos extremos. 11. ¿Cuándo estimaría la población total en vez de la media de la población? La proporción: Es la estimación propia de las encuestas. Se calculan porcentajes en la muestra y con ellos se estiman las proporciones en la población La media: Mediante el promedio de los datos de una muestra se intenta inferir qué media tendrá la población. Por ejemplo, se mide la resistencia de unos tornillos y se desea con ellos estimar qué resistencia ofrecerán los tornillos fabricados en un largo periodo de tiempo. 12. Explique cómo difieren la estimación de diferencias y la estimación de la media. Demuestre con un ejemplo. Estimar la diferencia entre dos números es redondear cada número y luego restar los números redondeados. Para la estimación de la media se necesita realizar intervalo de confianza, para la media de una población. 13. Explique la diferencia entre la hipótesis nula H0 y la hipótesis alterna H1. Las hipótesis nulas son, en un sentido, el reverso de las hipótesis de investigación. También constituyen proposiciones acerca de la relación entre variables solamente que sirven para refutar o negar lo que afirma la hipótesis de investigación. La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro. 14. Describa la diferencia entre error Tipo I y error Tipo II. Demuestre con un ejemplo. El error de tipo I también denominado error de tipo alfa (α)1 o falso positivo, es el error que se comete cuando el investigador no acepta la hipótesis nula (H_o) siendo esta verdadera en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe. Se relaciona con el nivel de significancia estadística. El error de tipo II, también llamado error de tipo beta (β) (β es la probabilidad de que exista este error) o falso negativo, se comete cuando el investigador no rechaza la hipótesis nula siendo esta falsa en la población. Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador Taller 4 5 llega a la conclusión de que ha sido incapaz de encontrar una diferencia que existe en la realidad. Ejemplo: Un paciente se puede realizar una prueba de VIH que promete una precisión del 99,9%. Esto significa que 1 de cada 1.000 pruebas podría arrojar un "falso positivo", comunicando a un paciente que tiene el virus cuando en realidad no es así. Por el contrario, la prueba también podría mostrar una lectura de falso negativo, dándole a un paciente VIH positivo el visto bueno. Por esta causa, la mayoría de las pruebas médicas exigen muestras duplicadas para tener las probabilidades a su favor. Una probabilidad de uno en mil se convierte en una probabilidad de 1 en 1 000 000 si se prueban dos muestras independientes 15. Defina y explique la prueba de la potencia. La potencia del contraste es la probabilidad de detectar efectos estadísticamente significativos, esto es, la probabilidad de rechazar la Hipótesis Nula cuando es falsa, que se simboliza 1-beta, y es igual a la probabilidad de ocurrencia de valores del estadístico en la región de rechazo bajo el supuesto que H1 (la Hipótesis Alternativa) sea verdadera. 16. Contraste prueba de una cola con prueba de dos colas. Al decir una o dos colas nos estamos refiriendo a las gráficas unilaterales y bilaterales respectivamente. Una prueba es de una cola cuando la hipótesis alternativa H1 indica una sola dirección. Si no se especifica dirección en la hipótesis alternativa, se acusa una prueba de dos colas. Los valores críticos para una prueba de una cola son diferentes de los de una prueba de dos colas, empleando un mismo nivel de significancia. En una prueba de una cola se coloca toda la región de rechazo en una sola cola. Si se desea saber el aumento (positivo: cola derecha) o la disminución (negativo: cola izquierda) de la producción, utilizaremos la prueba de una sola cola. 17. ¿Qué es un valor p? El valor p (a veces conocido simplemente como el p-valor, la p, o bien directamente en inglés p-value) está definido como la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha obtenido (valor del estadístico calculado), suponiendo que la hipótesis nula es cierta. Es fundamental tener en cuenta que el valor p está basado en la asunción de la hipótesis de partida (o hipótesis nula). 18. ¿Cómo puede un estimador de intervalo de confianza para la media de la población proveer conclusiones a la prueba de hipótesis correspondiente para la media de la población? Taller 4 6 La Estimación por Intervalos de Confianza, en donde se estima un parámetro usando un intervalo centrado en un estimado del parámetro y de longitud igual a dos veces el error de estimación. 19. Detalle los pasos a seguir en la metodología de prueba de hipótesis. Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta media poblacional (). Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos. Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no segado del parámetro que se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en un valor z el cual, a su vez, sirve como estadística de prueba. 20. ¿Cuáles son algunas situaciones éticas que deben considerarse al realizar pruebas de hipótesis? Método de recopilación de datos: aleatorización. Para eliminar la posibilidad de sesgos potenciales en los resultados, es necesario utilizar los métodos de recopilación de datos apropiados. Los datos deben ser el resultado de una muestra aleatoria procedente de una población o un experimento donde se utilizó el proceso de aleatorización. Consentimiento informado de los participantes humanos en “tratamiento”. Las consideraciones éticas exigen que todo individuo que en algún experimento va a ser sometido a algún tratamiento debe ser advertido del proyecto de investigación. Taller 4 7 Tipo de prueba: dos colas o una cola. Si se dispone información previa que le conduzca a probar la hipótesis nula contra una alternativa específicamente dirigida, entonces una prueba de una colas es más potente que un de dos colas. Selección de nivel de significancia a. En un estudia bien diseñado, el nivel de significancia a se selecciona antes de emprender la recopilación de datos. No se debe alterar el nivel de significancia después del hecho para obtener un resultado específico. Hurgar en los datos. Nunca es permisible hurgar en los datos. No es eitco realizar una prueba de hipótesis sobre un conjunto de datos, observar los resultado y seleccionar después el nivel de significancia, o decir entre una purba de una o de dos colas. Limpieza y eliminación de datos. La limpieza de datos no es igual que hurgar en ellos. En la etapa de preparación de datos, mientras los edita, codifica y transcribe, tendrá la oportunidad de revisarlos en busca de cualquier valor cuya medición parezca extrema o inusual. Reporte de los hallazgos. Al realizar la investigación, habrá que documentar los resultados buenos y malos. Resulta inapropiado reportar los resultados de las pruebas de hipótesis que muestran significancia estadística, pero no los que no cuentan con evidencias suficientes dentro de los hallazgos. Significancia estadística vs significancia práctica. Es necesario distinguir entre la existencia de un resultado estadísticamente significativo y su significancia práctica en el contexto de un campo de aplicación. 21. Al planificar llevar a cabo una prueba de hipótesis a base de un diseño de experimento o un estudio de investigación, ¿cuáles serían algunas preguntas que deben realizarse para asegurar que se utilizará la metodología apropiada? Las preguntas a realizarse son: ¿Cuál es el objetivo de la encuesta, estudio o experimento? ¿Cómo puede traducir este objetivo en una hipótesis nula y una alternativa? ¿La prueba de hipótesis es una prueba de dos colas o una prueba de una cola? ¿Puede seleccionar una muestra aleatoria a partir de toda la plobación de interés subyacente? ¿Qué clases de datos recopilará de la muestra? ¿Las variables sun numéricas o categóricas? ¿Con qué nivel de significancia, o riesgo de cometer un error tipo 1 o tipo 2, debe realizar la prueba de hipótesis? ¿El tamaño de la muestra pretendido es lo suficientemente grande para alcanzar la potencia de la prueba correspondiente al nivel de significancia elegido? ¿Cuál procedimiento de prueba estadística debe utilizar y por qué? Taller 4 8 ¿Qué conclusiones e interpretaciones se obtendrán a partir de los resultados de la prueba de hipótesis? 22. Explique en qué consta la prueba chi-square y defina al menos otra prueba de naturaleza no paramétrica. Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La hipótesis nula de la prueba Chi-cuadrado postula una distribución de probabilidad totalmente especificada como el modelo matemático de la población que ha generado la muestra. Otra prueba no paramétrica es la prueba de Shapiro-Wilks, aunque esta prueba es menos conocida es la que se recomienda para contrastar el ajuste de nuestros datos a una distribución normal, sobre todo cuando la muestra es pequeña (n<30). Taller 4 Referencias Recuperado el 6 de julio de 2015 de: http://www.seh-lelha.org/noparame.htm Recuperado el 6 de julio de 2015 de: https://sites.google.com/site/ estadisticadescriptivaenedu/home/estimacion-por-intervalos-1/propiedades-deestimadores Recuperado el 6 de julio de 2015 de: http://hojamat.es/estadistica/tema7/tema7.htm Estadística para la Administración. Recuperado el 7 de julio de 2015 de: https://books.google.com.pr 9 Escuela de Estudios Profesionales Programa Ahora Universidad Metropolitana Anejo D Auto evaluación Nombre: Jennifer Vélez Claudio Fecha: 9 de julio de 2015 Curso: Facilitador: Prof. Sylvia Y Cosme Montalvo STAT 555 PT: 4 Sección: jueves 6 p.m. - 10 p.m. Reflexione sobre las siguientes premisas y conteste: 1. ¿Qué he aprendido hasta el momento? Explique. Al momento he aprendido lo mucho que ayudan las estadísticas en el área laboral y más si el negocio se trata de ventas. 2. ¿Mi participación en cada taller fue activa? Explique. Realmente mi participación en cada taller fue muy poca. En muchas ocasiones me sentí perdida y confundida con los términos. 2. ¿Me preparé adecuadamente para todos los talleres? Explique. Realicé la búsqueda de la información necesaria y solicitada para cada taller. 4. ¿En qué aspectos me destaqué como estudiante? Explique. Entiendo que me destaque como estudiante al realizar todas las tareas de los talleres, con mi asistencia a clase, puntualidad y responsabilidad. 5. ¿Qué pude haber hecho mejor? Explique. Puede haber hecho mejor los ejercicios, pruebas y preguntas de los talleres si hubiese tenido mayor conocimiento sobre las estadísticas, ya que mi conocimiento era casi ninguno.