Estadística Aplicada Índice Di Paolo, Claudio Javier INTRODUCCIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 OBJETIVOS GENERALES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 OBJETIVOS PARTICULARES. . . . . . . . . . . . . . . . . . . . . . . . . . 4 CONCEPTOS BÁSICOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 ESTADÍSTICA DESCRIPTIVA INTRODUCCIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 RECOLECCIÓN DE DATOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 TEORÍA DEL MUESTREO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8 TRATAMIENTO DE LOS DATOS. . . . . . . . . . . . . . . . . . . . . . . . 10 TRATAMIENTO POR DATOS AGRUPADOS. . . . . . . . . . . . . .11 Medidas de posición. . . . . . . . . . . . . . . . . . . . . . . . . 14 Medidas de dispersión. . . . . . . . . . . . . . . . . . . . . . . . 17 Estudio de la forma de la curva. . . . . . . . . . . . . . . . . 19 Estudio de la normalidad de la muestra. . . . . . . . . . . 21 DISTRIBUCIONES BIDIMENSIONALES. . . . . . . . . . . . . . . . . . . . 22 CORRELACIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 INDEPENDENCIA ESTADÍSTICA. . . . . . . . . . . . . . . . . . . . . 24 REGRESIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 PROBABILIDAD DEFINICIONES PREVIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 DEFINICIONES DE PROBABILIDAD. . . . . . . . . . . . . . . . . . . . . . 30 CÁLCULO DE PROBABILIDAD. . . . . . . . . . . . . . . . . . . . . . . . . 31 PERMUTACIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 COMBINACIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 PROBABILIDAD CONDICIONAL. . . . . . . . . . . . . . . . . . . . . 32 PROBABILIDAD TOTAL. . . . . . . . . . . . . . . . . . . . . . . . . . . .32 TEOREMA DE BAYES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 VARIABLES ALEATORIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 V. A. DISCRETAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 V. A. CONTINUAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 DISTRIBUCIONES PROBABILÍSTICAS. . . . . . . . . . . . . . . . . . . . 35 DISTRIBUCIONES PROBABILÍSTICAS DISCRETAS. . . . . . . . . 35 DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS. . . . . . . . 37 INFERENCIA ESTADÍSTICA INTRODUCCIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 LOS ESTIMADORES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 ESTIMACIÓN PUNTUAL. . . . . . . . . . . . . . . . . . . . . . . . . . . 43 ESTIMACIÓN POR INTERVALOS. . . . . . . . . . . . . . . . . . . . . 44 PRUEBA DE HIPÓTESIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 ACTIVIDADES ESTADÍSTICA DESCRIPTIVA. . . . . . . . . . . . . . . . . . . . . . . . . . .51 PROBABILIDAD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 INFERENCIA ESTADÍSTICA. . . . . . . . . . . . . . . . . . . . . . . . . . . 68 BIBLIOGRAFÍA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74 1 Estadística Aplicada Introducción Di Paolo, Claudio Javier En las Escuelas Técnicas nos ocupamos de formar al alumno íntegramente, haciendo énfasis en la prácticas profesionalizantes a partir de un exigente y continuo entrenamiento. Somos productores de resultados y, por sobre todo, de información. Pero más aún, productores de datos; que muchas veces se pierden por no registrarlos. Es allí en donde debemos continuar la labor tan importante, que no sólo culmina en la producción de resultados fruto de la aplicación de las técnicas, sino, también, en darle tratamiento al conjunto de datos producidos, a partir de un correcto registro, para poder intervenir en conclusiones sobre los resultados y poder tomar decisiones que mejoren la calidad de la educación desde el proceso hasta su producto final. 2 Estadística Aplicada Objetivos Generales Di Paolo, Claudio Javier El propósito de este curso-taller es implementar un plan estratégico teórico-práctico de técnicas estadísticas, para continuar la labor desarrollada en el campo práctico e incorporarlas en el campo científicotecnológico (gestión y control de la calidad), valiéndonos de los datos producidos para darles tratamiento, utilizando como soporte los medios informáticos; especialmente las hojas de cálculo, que son versátiles, útiles y fáciles de usar. De esta manera, se desea que el docente se actualice en el ámbito del uso de las nuevas tecnologías como recursos exigentes para la mejora de las prácticas educativas, proyecte un camino de trabajo continuo, incorporando estándares de calidad que puedan ordenar y organizar el trabajo cotidiano, juzgar la eficacia y precisión de los datos experimentales, así como también generar conciencia de que estos juicios pueden perfeccionarse mediante la aplicación de métodos estadísticos. Se pretende motivar a los docentes en el uso de nuevas tecnologías acopladas a equipos de laboratorios y/o taller, para la obtención automática de datos y su posterior análisis, valiéndonos de un conjunto de herramientas estadísticas, que nos permita proyectar un futuro (inferencia), establecer intervalos de confianza (márgenes de aceptabilidad) y acciones correctivas a partir de la detección de errores (planes de contingencia). 3 Estadística Aplicada Objetivos Particulares Di Paolo, Claudio Javier Que el participante logre: Analizar y discutir distintos enfoques metodológicos para la enseñanza teórico - práctica de la estadística, en las instituciones educativas. Adoptar una posición crítica, responsable, cooperativa y constructiva en relación al trabajo de campo, de articulación curricular y trabajo en equipo. Conocer la posibilidad de acoplar equipos e instrumentos de medición y ensayo con la informática para el procesamiento automático de los datos. Utilizar las hojas de cálculo para la implementación de técnicas estadísticas. Aplicar el uso de técnicas estadísticas como herramientas de gestión. Mejorar las prácticas educativas. Incorporar estándares de calidad. Contextualizar la práctica profesional con los contenidos de las prácticas curriculares. 4 Estadística Aplicada Conceptos Básicos Di Paolo, Claudio Javier ESTADÍSTICA Muchas son las definiciones propuestas por varios autores; sin ultimar detalles, todos acuerdan en que la Estadística es la ciencia de recolectar datos, describirlos, interpretarlos, analizarlos y emitir conclusiones sobre los resultados. Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene la estadística, debido al gran campo de aplicación que posee. La Estadística se divide en dos áreas: Estadística descriptiva: consiste en el proceso de la recolección, clasificación, descripción, representación y análisis de datos a partir de una muestra. Nos permite conocer la realidad de lo ocurrido. Estadística inferencial: consiste en la aplicación de técnicas apoyadas en modelos probabilísticos que a partir de datos muestrales permiten efectuar estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. POBLACIÓN Es la colección (ó conjunto universo) de individuos, objetos o eventos cuyas propiedades serán analizadas. Hay dos tipos de poblaciones: Población finita: es posible enumerar físicamente cada uno de los elementos que la componen. Ej.: Estudio estadístico sobre libros de una biblioteca de una escuela. Población infinita: cuando los elementos que la componen son un número ilimitado e imposible de contar. Ej.: La población de todas las personas que podrían tomar ibuprofeno. MUESTRA Es un subconjunto representativo de la población. VARIABLE Característica de interés sobre cada elemento individual de una población o muestra. 5 Estadística Aplicada Conceptos Básicos Di Paolo, Claudio Javier TIPOS DE VARIABLES CUANTITATIVAS Cuando representan una medición. Discretas: Sólo pueden tomar valores enteros. Continuas: Pueden tomar cualquier valor real dentro de un intervalo. CUALITATIVAS Cuando representan una cualidad. Escala Nominal: significa asignar arbitrariamente una etiqueta a una variable. Por ej.: Sexo: 0 Femenino 1 Masculino Escala Ordinal: se asignan valores a la variable ordenadamente de manera tal que el mayor se corresponde a la mejor opción. Por ej.: 0 Malo 1 Regular 2 Bueno 3 Muy Bueno 4 Excelente Escala de intervalo: existe un orden entre los valores y además, una noción de distancia. Por ej.: la medición de la temperatura que se puede obtener por un termómetro en grados Fahrenheit. Escala de razón: la magnitud tiene un sentido físico y existe el cero absoluto que se puede asignar a la ausencia de información. Por ej.: la variable edad estudiada en una población. DATO Valor de la variable asociada a un elemento de una población o muestra. Este valor puede ser un número, una palabra o un símbolo. DATOS Conjunto de valores recolectados para la variable de cada uno de los elementos que pertenecen a la muestra. EXPERIMENTO Actividad planeada cuyos resultados producen un conjunto de datos. PARÁMETRO Valor numérico que resume todos los datos de una población. ESTADÍSTICO Valor numérico que resume los datos de una muestra. 6 Estadística Aplicada Conceptos Básicos Di Paolo, Claudio Javier Para interpretar estos conceptos podemos citar como ejemplo el siguiente caso de estudio: Un estudiante del colegio está interesado en averiguar el valor promedio en pesos de los automóviles que pertenecen al cuerpo docente del IPEM XXX de la ciudad de Córdoba. Cada término se identifica en esta situación como: 1 POBLACIÓN: el conjunto de todos los automóviles que pertenecen a todos los miembros del cuerpo docente del IPEM XXX. 2 MUESTRA: es un subconjunto de la población. Por ejemplo podría ser los automóviles de los docentes de todas las divisiones de cuarto año del IPEM XXX. 3 VARIABLE: valor en $ de cada automóvil. 4 DATO: El valor en $ de un automóvil en particular. El automóvil del Profesor Pérez, Juan valuado en $ 25.400. 5 DATOS: Conjunto de valores en $, correspondientes a la muestra obtenida: $ 25.400; $ 12.800; $ 35.600; $ 17.765. 6 EXPERIMENTO: Método aplicado para seleccionar y recolectar los datos correspondientes a los automóviles de la muestra y su valor. 7 PARÁMETRO: valor promedio en $, de los automóviles del cuerpo docente del IPEM XXX. 8 ESTADÍSTICO: Valor promedio en $ de los automóviles, correspondientes a los docentes de todas las divisiones de cuarto año del IPEM XXX. 7 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier INTRODUCCIÓN Antes de comenzar a detallar las mediciones y los cálculos que planificamos estudiar, es necesario plantear los diversos métodos que abarca la Teoría del Muestreo, punto de partida para iniciar cualquier estudio estadístico. RECOLECCIÓN DE DATOS Es un proceso complicado y debe realizarse con la mayor cautela y profesionalismo posible. Podemos incluir los siguientes pasos para organizar la recolección: 1 Definir los objetivos del estudio. 2 Definir la variable y la población de interés. 3 Definir los esquemas para recolectar y medir los datos. 4 Determinar las técnicas idóneas para realizar el análisis de datos: descriptivo o inferencial. TEORÍA DEL MUESTREO Método que utilizaremos para la recolección de datos. Es tan o más importante que el desarrollo en sí del estudio; es determinar fehacientemente una "buena" muestra, lo más representativa e insesgada posible que se ajuste a la población, para que las conclusiones e inferencias que se hagan en términos de la población sean "tan buena" como el conjunto de datos que la determinó. MÉTODO DE MUESTREO SESGADO O NO PROBABILÍSTICO Producen valores que difieren sistemáticamente de la población que está siendo muestreada. Existe una intención para seleccionar un dato. Dos métodos de este tipo pueden ser: Muestra por conveniencia: ocurre cuando es posible acceder fácilmente a los elementos de una población de la que se elige la muestra. Muestra por voluntarios: consta de resultados recolectados a partir de los elementos de la población que por su propia iniciativa eligen contribuir con la información necesaria. MÉTODO DE MUESTREO INSESGADO O PROBABILÍSTICO Es aquel que no presenta sesgo. Cada dato de la población tiene idéntica posibilidad de ser elegido para formar parte de la muestra. Los dos métodos que se utilizan para recolectar datos son los estudios experimentales y los estudios observacionales. Muestra de juicio: las muestras son elegidas con base en el hecho de que son "típicas". 8 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Muestra aleatoria o al azar Método al azar simple: este método permite que todos los elementos de la población tenga igual posibilidad de ser incluido en la muestra. Por ej.: se desea seleccionar a 200 alumnos (n) del IPEM XXX cuya matrícula total es 1200 alumnos (N). En este caso la probabilidad de elección de cada alumno, entendiendo a probabilidad como nº de casos favorables divido nº de casos posibles; es: P = n/m P = 200 / 1200 P = 0,17 Método por estratos: para el muestreo estratificado se divide a la población en varios grupos homogéneos que se diferencian unos de otros por características especiales; de manera que cada elemento sólo pueda pertenecer a un grupo. Dentro de este método se encuentra tres casos especiales: 1 Muestras de igual tamaño: Debe seleccionarse igual número de elemento en cada grupo. 2 Muestreo proporcional: El tamaño de elementos por grupo se escoge en forma proporcional al tamaño de la población. 3 Afinación óptima: Este método utiliza la mejor subdivisión posible de una muestra total. Por ej.: en el IPEM XXX de los 1.200 alumnos de matrícula, 800 pertenecen al CBU y 400 al CE. Aplicando el método por estratos, decidimos escoger 60 alumnos de cada grupo, calculamos la probabilidad de ocurrir de cada alumno según su ciclo: Alumnos del CBU P = 60 / 800 P = 0,075 Alumnos del CE P = 60 / 400 P = 0,15 De esta manera observamos que los alumnos del CE tienen mayor probabilidad de ser escogido pero que ambos son importantes para nuestro muestreo. Método por conglomerados: existe situaciones en la que no se dispone de elementos agrupados por estratos y que no se puede aplicar el método al azar simple. En estos casos los elementos se encuentran de manera natural agrupados por conglomerados cuyo número si se conoce. Por ej.: la población de un país se distribuye en provincias, los habitantes de una provincia en ciudades, los de una ciudad en barrios,etc. Si se supone que cada uno de estos conglomerados son muestras representativas de la población total, respecto a la variable que se estudia, es posible seleccionar al azar algunos de estos conglomerados y a partir de allí analizar todos sus elementos o una muestra al azar simple. 9 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Método de elección sistematizado: una forma práctica para seleccionar los elementos de la muestra es escoger una muestra aplicando un intervalo. Así sistematizamos una selección. El cálculo del intervalo (k) es: k = N (tamaño de la población) / n (tamaño de la muestra). Por ej.: de esta manera, si tenemos necesidad de seleccionar alumnos del IPEM XXX aplicando este método, decimos que 1.200 son los alumnos y 120 es el número de alumnos que deseo elegir; seleccionaré a un alumno por cada intervalo, esto es: k= 1200/120 k= 10; elijo a un alumno por cada 10 alumnos. Nota: Si el estudio lo realizo con la totalidad de los datos, es decir con la población, estoy frente a un censo; caso contrario, si selecciono, esto es aplicando cualquiera de los métodos de muestreo, estoy frente a una muestra representativa de la población. TRATAMIENTO DE LOS DATOS Hay dos maneras de comenzar a tratar los datos, y la que se utilice depende del nº de datos que conforma a la muestra, que llamaremos tamaño de la muestra y la denotaremos por (N). TRATAMIENTO POR DATOS NO AGRUPADOS Estamos frente al caso de trabajar los datos en forma cruda, sin transformarlos. Es la forma más aproximada y menos erróneas, pero se la puede emplear siempre que el tamaño de la muestra sea pequeño. Como contrapartida, podemos decir que si el tamaño de la muestra es pequeño, creamos una cierta incertidumbre con respecto a cuan representativo es de la población. TRATAMIENTO POR DATOS AGRUPADOS Es el más utilizado porque se emplea en la mayoría de los casos. Nos detendremos a aplicar las fórmulas, a analizarlas y a programarlas en una planilla de cálculo para poder dejar una plantilla de trabajo fija que nos sirva como herramienta de trabajo para todos los estudios que planteemos realizar. 10 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier TRATAMIENTO POR DATOS AGRUPADOS Luego de recolectar los datos, que lo dispondremos organizados en columnas en forma desordenada; debemos ordenarlos de menor a mayor. A partir de la clasificación y ordenación de los datos y calculando el rango de la distribución como medida de dispersión absoluta, nos dispondremos a agrupar los datos en una Tabla de Distribución de Frecuencias. R = XM - Xm Rango = Dato mayor - dato menor N = Tamaño de la Muestra 1 Determinación de los Intervalos de frecuencia Al resumir gran cantidad de datos es útil distribuirlos en clases. El número de intervalos a utilizar es autónomo, pero existe una manera de calcularlo para guiarse, que es a través de esta fórmula: m = 1 + 3.33 log N ; donde m : número de intervalos; N : tamaño de la muestra. 2 Determinación de la amplitud de clase El rango nos ayuda a determinar la amplitud de clase, llamamos así a la distancia que debe tener cada clase, siendo ésta una medida constante y a partir de la cual podemos construir nuestra Tabla de Distribución de Frecuencias. A = R / m ; donde A: amplitud de clase; R: Rango; m: número de intervalos. 3 Marca de clase ( x& ) Es el resultado de aplicar la semisuma, promedio o media aritmética entre los límites ficticios o entre los límites reales. Al ser la media aritmética de cada intervalo, lo consideramos como el valor más representativo y el que utilizaremos para determinar los estadísticos a calcular. 4 Frecuencias absolutas ( ni ) Se determina así a la cantidad de datos que son incluidos en cada clase. 5 Frecuencias absolutas acumuladas ( f aa ) Se determina así a la cantidad de datos acumulados a partir del intervalo inmediato anterior. Se aplica la suma acumulada de cada frecuencia hasta obtener el 100% del tamaño de la muestra. 11 Estadística Aplicada Di Paolo, Claudio Javier Estadística Descriptiva 6 Frecuencia relativa y frecuencias relativas acumuladas ( f r ) Se determina así a la proporción de datos representados en cada clase. Se calcula dividiendo la frecuencia absoluta de cada intervalo con respecto al tamaño de la muestra. Su valor acumulativo mayor será el 1 que representa al 100% de la muestra. A partir del número de intervalos, la amplitud y el rango, construiremos la tabla de distribución de frecuencias. (Tabla 1) Tabla 1. Tratamiento por Datos Agrupados. Tabla de Distribución de frecuencias. Tema de estudio: Objetivos: Dato Mayor: Rango Tamaño de muestra Cant.de Intervalos Amplitud de clase Dato Menor: R= N= a= m= Número de intervalo Límite ficticio inferior Límite real inferior Marca de clase Límite real superior Límite ficticio superior i x¢f i x¢i &i x xi¢¢ x¢f¢ i Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia absoluta absoluta absoluta relativa relativa relativa acumulada acumulada acumulada acumulada ascendente descendente ascendente descendente ni f aa > f aa< fri f ra > f ra < 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 12 Estadística Aplicada 7 Representación gráfica Diagrama de barras o columnas: sistema de ejes de coordenadas; en las abscisas representa intervalos de clase, y en las ordenadas sus correspondientes frecuencias absolutas, para una variable cuantitativa continua. 9 8 Frecuencias 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Intervalos de clase Histograma: se construye a partir de la tabla estadística de tratamiento de los datos, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. x: límites ficticios inferiores y superiores; y: frec. absolutas o relativas 9 8 7 Frecuencias Estadística Descriptiva Di Paolo, Claudio Javier 6 5 4 Polígono de frecuencias 3 2 1 0 // 9,5 14,5 19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5 74,5 79,5 Límites ficticios Polígono de frecuencias: a partir del histograma podemos construir el polígono de frecuencias, que consiste en unir, mediante líneas rectas de puntos, las marcas de clases contiguas de cada intervalo. El primer y el último intervalo, adyacentes a ellos, lo supongo con la misma amplitud y de frecuencia nula para unir la línea de punto (poligonal). 13 Estadística Aplicada Ojivas: gráfico de una distribución de frecuencias acumuladas (relativa o absoluta) descendente o ascendente. Esta gráfica indica la forma como crece la información a través de los intervalos, se puede utilizar como medición de las variaciones de los grupos. El punto donde se cortan las dos ojivas, es el punto central de la distribución, es decir, la mitad de la información (dato correspondiente con la mediana). 55 50 Frecuencias Absolutas Estadística Descriptiva Di Paolo, Claudio Javier 45 Frecuencias absolutas acumuladas Ascendentes 40 35 30 N 25 2 20 15 10 5 ~ X Frecuencias absolutas acumuladas Descendentes 0 // 9,5 14,5 19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5 74,5 79,5 Límites ficticios 8 Cálculos y análisis estadísticos 8.1 MEDIDAS DE POSICIÓN Medidas de posición CENTRAL Las medidas de centralización son valores que tienden a situarse en el centro del conjunto de datos ordenados según su magnitud. Las medidas de centralización más usadas son: Media aritmética, mediana y moda. Para el cálculo de todas ellas, en el tratamiento por datos agrupados, es utilizada la marca de clase como la unidad más representativa de cada intervalo o clase. Media aritmética o promedio: medida de tendencia central más conocida, se puede aplicar a variables de intervalos ya sean discretos o continuos. Esta medida se define como el promedio de los datos en estudio. Cálculo de la media aritmética ( x ) m å x&i .ni X = i =1 N La sumatoria de todas las marcas de clases por sus respectivas frecuencias absolutas dividido el tamaño de la muestra. O la sumatoria de todas las marcas de clases por sus respectivas frecuencias relativas. 14 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Existen 2 formas más para calcular la media que no son comúnmente utilizadas, ellas son: la media geométrica y la media armónica, que simplemente la mencionaremos. Mediana: es la medida de tendencia central que divide a cualquier distribución en dos partes iguales. Esta medida se puede aplicar a variables de intervalos (discretas y continuas) y variables ordinales. La mediana es una serie de datos ordenados en orden de magnitud, es el valor medio si el número de datos es impar o bien la media aritmética de los valores medios si el número de datos es par. x) Cálculo de la mediana ( ~ éN ù êë 2 - å f aa úû ~ X = xi¢N + ×a n 2 xi¢N 2 N 2 åf aa ni N 2 a iN 2 Límite real inferior en donde cae la frecuencia que divide la distribución en partes iguales Mitad de las observaciones Sumatoria de las frecuencias acumuladas anteriores a la frecuencia que divide a la distribución en partes iguales Valor de la frecuencia que divide a la distribución en partes iguales Amplitud del intervalo Moda: se define como el valor que presenta la mayor frecuencia, se usa con variables de intervalos nominales y ordinales. Es comúnmente utilizada como una medida de popularidad que refleja la tendencia de una opinión. Cálculo de la moda ( x̂ ) æ D1 ö ÷÷ × a Xˆ = xi¢xˆ + çç D + D 2 ø è 1 xi¢xˆ Límite real inferior donde está la moda D1 Diferencia entre la frecuencia modal y la frecuencia inmediatamente anterior D2 Diferencia entre la frecuencia modal y la frecuencia inmediatamente posterior a Amplitud del intervalo Nota: Un estudio puede presentar una moda, si la frecuencia mayor es única, en este caso se llamará Unimodal; o varias modas, si la frecuencia mayor se repite en dos o más intervalos, en este caso será Multimodal. 15 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Medidas de posición NO CENTRALES Las medidas de posición no centrales permiten conocer otros puntos característicos de la distribución. Estos indicadores suelen utilizar una serie de valores que dividen a la muestra en tramos iguales. Entre ellos destacamos: cuarteles, deciles y percentiles. Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados. Cálculo de los cuartiles é k .n ù ê 4 - f aa ú Q = xi¢ + ê ú×a n iq ê ú ë û xi¢ k f aa niq a Límite real inferior que contiene al cuartil Cuartil a calcular, su valor puede ser 1, 2 o 3. Frecuencias acumuladas anteriores al intervalo que contiene al cuartil Frecuencias absolutas del intervalo que contiene al cuartil Amplitud del intervalo Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Cálculo de los deciles é k .n ù ê 10 - f aa ú Di = xi¢ + ê ú×a n id ê ú ë û xi¢ k f aa niq a Límite real inferior que contiene al decil Cuartil a calcular, su valor puede ser 1,2,3,4,56,7,8 ó 9 Frecuencias acumuladas anteriores al intervalo que contiene al decil Frecuencias absolutas del intervalo que contiene al decil Amplitud del intervalo 16 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Cálculo de los percentiles é k .n ù ê 100 - f aa ú Pi = xi¢ + ê ú×a ê nip ú ë û xi¢ k f aa niq a Límite real inferior que contiene al percentil Percentil a calcular, su valor puede ser 1,2,3...99 Frecuencias acumuladas anteriores al intervalo que contiene al percentil Frecuencias absolutas del intervalo que contiene al percentil Amplitud del intervalo Nota: Existen otras medidas de posición no centrales que se suelen utilizar y que su cálculo sólo depende de variar el cociente que determina en cuantos tramos iguales se distribuye a la muestra, entre otras se encuentran los quintiles (la divide en 5 partes iguales) y los octiles (en 8 partes iguales). A partir de las divisiones en las observaciones que se realicen en una muestra obtendremos algunas coincidencias en los valores originados por fracciones equivalentes, a saber: el Cuartil 2, el Octil 4, el Decil 5 y el Percentil 50 con el valor de la Mediana. ¿Qué otras coincidencias encontramos? 8.2 MEDIDAS DE DISPERSIÓN Para un mayor análisis de las observaciones de una muestra es necesario ampliarlo para evaluar el grado de homogeneidad entre sus datos, es decir, estudiar la separación de los datos numéricos a partir de una medida de centralización. Las medidas de dispersión más utilizadas son: Rango: Es la medida menos precisa y más sencilla ya que sólo considera a los extremos. Es la diferencia entre el dato mayor y el dato menor de las observaciones. Cálculo del rango R = XM - Xm 17 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Desviación media: mide la distancia absoluta promedio entre cada uno de los datos, y el parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la media aritmética: Cálculo de desviación media m DM = m å x& i =1 i - X .ni N Cantidad de intervalos x& i Marca de clase de cada intervalo (su valor más representativo) X ni Valor de la media aritmética muestral N Tamaño de la muestra Respectiva frecuencia absoluta de cada intervalo Varianza: es uno de los parámetros más importantes en estadística paramétrica, se puede decir que, teniendo conocimiento de la varianza de una población, se ha avanzado mucho en el conocimiento de la población misma. Numéricamente definimos la varianza, como desviación cuadrática media de los datos con respecto a la media aritmética: Cálculo de varianza m S2 = m å (x& i =1 - X ) .ni 2 i N Cantidad de intervalos x& i Marca de clase de cada intervalo (su valor más representativo) X ni Valor de la media aritmética muestral N Tamaño de la muestra Respectiva frecuencia absoluta de cada intervalo Desviación Estándar o Típica: se define como la raíz cuadrada de la varianza, y es útil a la hora de evaluar y concluir sobre la varianza. Cálculo de desviación estándar ó típica S = S2 18 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Coeficiente de variación de Pearson: tiene en cuenta el valor de la media aritmética, para establecer un número relativo, que hace comparable el grado de dispersión entre dos ó mas variables. Cálculo de variación de Pearson C.V . = S X 8.3 ESTUDIO DE LA FORMA DE LA CURVA Las siguientes índices nos permiten medir las características de curva representada por la serie de datos de la muestra. La Concentración: mide si los valores de la variable están más o menos uniformemente repartidos a lo largo de la muestra. Para medir el nivel de concentración de una distribución de frecuencia se pueden utilizar distintos indicadores, entre ellos el Indice de Gini. Cálculo de índice de Gini m å (f - q ) I .G. = åf i =1 ra > i ra > La sumatoria de las diferencias entre cada frecuencia relativa acumulada y qi (razón entre la sumatoria acumulada de cada marca de clase por sus respectivas frecuencias absolutas con respecto a la suma total de cada marca de clase por sus respectivas frecuencias absolutas); dividido la sumatoria de las frecuencias relativas acumuladas ascendentes. El Índice Gini (IG) puede tomar valores entre 0 y 1: IG = 0: Concentración mínima. La muestra está uniformemente repartida a lo largo de todo su rango. IG = 1: Concentración máxima. Un solo valor de la muestra, acumula el 100% de los resultados. La Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares. Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher. Cálculo de coeficiente de asimetría de Fisher αF = m3 S3 3 m å (x& - X ) × n Se calcula por momento de tercer orden, m3 . i =1 ααF = i i N S3 19 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Los resultados que se determinen a partir del coeficiente pueden ser: α F = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media) CURVA SIMÉTRICA Eje de simetría α F > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda) CURVA ASIMÉTRICA POSITIVA Eje de simetría α F < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha) CURVA ASIMÉTRICA NEGATIVA Eje de simetría La Curtosis: mide si los valores de la distribución están más ó menos concentrados alrededor de los valores medios de la muestra. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). CURVA MESOCÚRTICA Eje de simetría Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. CURVA LEPTOCÚRTICA Eje de simetría 20 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. CURVA PLATICÚRTICA Eje de simetría Cálculo de coeficiente de Curtosis αc = m4 S4 4 m Se calcula por momento de cuarto orden, m4 . å (x& - X ) × n i =1 αF = Los resultados pueden ser los siguientes: i i N S4 α c = 3 (distribución mesocúrtica o normal). Si es así existe una igual entre la media, la mediana y la moda. α c > 3 (distribución leptocúrtica o apuntada). α c < 3 (distribución platicúrtica). 8.4 ESTUDIO DE NORMALIDAD DE LA MUESTRA A partir de la media y la desviación estándar muestrales, estudiaremos la normalidad de una muestra analizando el porcentaje de datos contenidos en la media más menos un desvío, dos desvíos y tres desvíos.Resultando: P[x - s; x + s ]= 0.6826 El 68,3 % de los datos están contenidos P[x - 2 s; x + 2 s ]= 0.9544 El 95,4 % de los datos están contenidos P[x - 3s; x + 3s ]= 0.9974 El 99,7 % de los datos están contenidos Si se cumplen estas condiciones podemos decir que estamos frente a una Distribución Normal. Campana de Gauss µ−3σ µ−2σ µ=σ µ µ+σ µ+2σ µ+3σ Ampliación para el cálculo de las medidas estudiadas Las fórmulas desarrolladas se aplican para el estudio estadístico por tratamiento de datos agrupados, es decir, cuando el número de observaciones es lo suficientemente grande para agruparlos en intervalos; caso contrario, la forma de calcular cada medida varía cambiando la marca de clase por el dato crudo (xi); pues ya no tendremos intervalos de clases sino un listado ordenado de datos con lo que trabajaremos. 21 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier DISTRIBUCIONES BIDIMENSIONALES 1 Correlación El estudio estadístico que involucra a todas las medidas anteriormente citadas, corresponde al análisis de una sola variable, es decir, es unidimensional. Pero en Estadística contamos con la necesidad de cruzar variables, de estudiar y analizar grados de dependencias, relaciones entre más de una variable de un individuo o cosa. El estudio de distribuciones bidimensionales, nos permite encontrar respuestas a estas inquietudes. La Correlación entre dos o más variables mide el grado de relación entre ellas y a partir de allí podremos inferir datos y/o concluir observaciones. Son ejemplos de variables a ser susceptibles de relacionar: El peso y la estatura de un grupo de adultos. Edad y peso de un grupo de niños. Ingresos y gastos de alquileres de un grupo de familias. Escolaridad e ingreso mensual de un grupo de empleados. Ventas y ganancias de un almacén de variedades. Medidas de pH y acidez en leche. Voltaje y KW en un hogar. Ausentismo y sueldos en los recibos de haberes. Cálculo del Coeficiente de Correlación Lineal de Pearson ( rxy ) rxy = S xy S xy SxS y CoVarianza: grado de variación conjunta de dos variables m S xy = å (x i =1 i - X )(yi - Y ) N Esta fórmula surge de una división entre el numerador que se corresponde con la CoVarianza de la distribución binomial y el denominador con la multiplicación de los Desvíos Típicos o Estándar de cada una de las variables. rxy = nå xy - å x å y [nå x - (å x)][nå y 2 2 2 ] - (å y) 2 22 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier De esta manera puede suceder que: S xy > 0 Cuando una de las variables aumenta, también lo hace la otra. S xy < 0 Cuando una de las variables aumenta, la otra disminuye. S xy = 0 No hay relación entre los aumentos de una y otra. Estas relaciones pueden ser de menor o mayor intensidad con la salvedad de que no sólo depende del grado de variación conjunta entre las variables sino también de las dispersiones de ellas. Por esta razón se utiliza el Coeficiente de Correlación Lineal de Pearson ( rxy ) que elimina este factor. Interpretaciones del Coeficiente Lineal de Pearson rxy = 1 Existe una perfecta relación entre las variables por lo que podemos determinar a partir de una de ellas el valor de la otra. rxy = 0 No existe relación entre las variables. 0 £ rxy < 0.3 0.3 £ rxy < 0.7 0.7 £ rxy < 1 La relación es baja, cuanto más próximo a cero esté, la relación está casi ausente. La relación es media. La relación es alta. De manera tal que para calcular al coeficiente será necesario organizar los datos en Excel con la siguiente tabla. (Tabla 2) Tabla 2. Tabla para calcular el coeficiente de Correlación i xi yi xi .yi xi2 yi2 1 2 3 4 5 6 7 8 9 10 La representación gráfica de las variables x e y obtenidas a partir de los datos muestrales, queda reflejada a través de un Diagrama de Dispersión X e Y; representando, lo que comúnmente se conoce como "nube estocástica de puntos". 23 Estadística Aplicada Gráfico de dispersión de los valores x e y 28 26 24 22 20 18 16 Variable Y Estadística Descriptiva Di Paolo, Claudio Javier 14 12 10 8 6 4 2 -1 0 1 3 5 Variable X 7 9 11 2 Independencia estadística Según el teorema de caracterización de independencia, dos variables x e y son estadísticamente independientes, si la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales, para todas las variables, esto es: f r ij = f i · × f · j "i , j ; Utilizando las frecuencias absolutas la fórmula es: nij ni· n ·j "i , j = × ; N N N Los datos correspondientes a las variables x e y se representan en tablas de frecuencias como la siguiente: x y x1 x2 x3 x4 x5 y1 y2 y3 y4 y5 n11 n21 n31 n41 n51 n12 n22 n32 n42 n52 n13 n23 n33 n43 n53 n14 n24 n34 n44 n54 n15 n25 n35 n45 n55 De manera que los ni· corresponden a la columna de los datos de (y1, xi). Mientras que los n · j corresponden a la fila de los datos de (x1, yi). Que se de, igualdad e independencia estadística implica, que las variables son incorreladas, es decir que rxy =0, no existe dependencia lineal. En cambio, que rxy =0 significa que las variables x e y están incorreladas pero no implica que son estadísticamente independientes. 24 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier 3 Regresión Luego de constatar, con el Coeficiente de Correlación de Pearson, que dos variables están relacionadas, debemos acudir a un método que nos permita estimar o predecir qué valores obtendrá una variable a partir de los valores asignados a la otra. Para ello, debemos establecer una relación funcional entre las variables, siendo la ecuación, la relación funcional más simple. Hablamos, de esta manera de una Regresión Lineal. 3.1 REGRESIÓN LINEAL Se da por la ecuación de la recta del tipo: y = ax + b Método de los mínimos cuadrados: se emplea para este tipo de predicciones, ya que arroja estimaciones con menor error cuadrático promedio. A partir de la ecuación de la recta debemos conocer los valores de a y b, para poder determinar los correspondientes de X e Y. Cálculo de b (estimada) b= nå XY - å X å Y nå X 2 - ( å X ) ó 2 b= S xy S x2 A partir de b (estimada), logro calcular a (estimada). Cálculo de a (estimada) a= å Y - bˆ å X a = y - b.x ó N Luego y (estimada) es: yˆ = a + bx Por lo tanto, si: b > 0, las dos variables aumentan o disminuyen a la vez. b < 0, cuando una variable aumenta, la otra disminuye. Para el caso de determinar x (estimada) a partir de un valor observacional de y, se emplea la ecuación: xˆ = a + by a = x - b. y b= nå XY - å X å Y nå Y 2 - ( å Y) 2 ó b= S xy S x2 25 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Bondad del ajuste ó fiabilidad del modelo: a partir del Coeficiente de Determinación evaluamos el error cometido en cada predicción, entre el y experimental y el y estimado. Su fórmula es: Cálculo de e = Y - Yˆ Principales características que se deducen a partir de e : e = Y - Yˆ = 0 å ei = 0 no podemos tomarlo como medida de bondad del Como la ajuste. La suma de errores cuadráticos no presenta este inconveniente pero sí el de depender del número de observaciones. Por lo tanto, tomando el Error Cuadrático Medio (ECM) evitamos esta dependencia. Cálculo del Error Cuadrático Medio ECM = åe 2 N i ³0 El ECM o su raíz cuadrada que se denomina Error de Regresión, son inversamente proporcionales a la bondad del ajuste. S eyˆ = 0 El Desvío Típico del Error con respecto a la y estimada es igual a cero S e2 = S y2 - S y2ˆ Aquí se da una relación fundamental entre la varianza experimental y la varianza residual. Como e = 0, entonces S e2 = ECM y de ahí que el ECM sea un error estimado de la bondad de ajuste ya que es igual a la varianza residual. Cuanto mayor sea la varianza residual, mayor será la parte de la variabilidad de Y, que es incapaz de explicarse por la relación lineal entre X e Y. Para evaluar la fiabilidad o bondad del ajuste lineal, utilizamos las siguientes fórmulas en relación a lo explicado anteriormente: 2 r 2 = 1 - S e2 Sx Cuando la variable x está en relación con y 2 r 2 = 1 - S e2 Sy Cuando la variable y está en relación con x 0 £ r 2 £ 1 Si el valor es igual o mayor que 0.75 estamos en condiciones de dar fiabilidad al modelo. Cuanto más próximo a 1 más fiable; a la inversa, cuando más cerca de cero menos fiable. 26 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier 3.2 REGRESIÓN NO LINEAL Regresión Parabólica: yˆ = a + bx + cx 2 Regresión Potencial: cuando la figura que mejor se ajusta es del tipo potencial, la forma de hallar los coeficientes para determinar las estimaciones es aplicando logaritmos. Y = aX b log Y = log aX b log Y = log a + log X b log Y = log a + b. log X Luego, aplicando un cambio de variables llevamos la función potencial a una función lineal para poder determinar los coeficientes a y b. V = log Y U = log X A = log a V = A + b.U Nueva Función Lineal Al finalizar la búsqueda de los coeficientes a y b, y poder determinarlo como función potencial,es necesario aplicar el antilogaritmo de A y de b. Cálculo de V (estimada) S Vˆ = v + UV2 .(U - u ) SU Para realizar los cálculos parciales y así determinar cada término de la fórmula, es necesario plantear una tabla con las transformaciones de las variables según sus igualdades. Regresión Exponencial: de la misma manera que trabajamos la Regresión Potencial, debemos aplicar logaritmos para poder transformar en Función Lineal y así aplicar el Método de los Mínimos Cuadrados: 27 Estadística Aplicada Estadística Descriptiva Di Paolo, Claudio Javier Y = ab X log Y = log ab X log Y = log a + log b X log Y = log a + X . log b Luego, aplicando un cambio de variables llevamos la función exponencial a una función lineal para poder determinar los coeficientes a y b. V = log Y B = log b A = log a V = A + B. X Nueva Función Lineal Al finalizar la búsqueda de los coeficientes a y b y poder determinarlo como función exponencial, es necesario aplicar el antilogaritmo de A y de B. Entonces, para calcular V (estimada) aplico la siguiente fórmula: S Vˆ = v + XV2 .( X - x ) Sx Para realizar los cálculos parciales y así determinar cada término de la fórmula, es necesario plantear una tabla con las transformaciones de las variables según sus igualdades. Regresión Logarítmica: y = a + b. log( x) 28 Estadística Aplicada Probabilidad Di Paolo, Claudio Javier DEFINICIONES PREVIAS Debemos dar definiciones previas referentes a la Teoría de los Sucesos que son vinculadas al estudio de la Probabilidad como soporte para la Estadística Inferencial o simplemente para cálculos casuísticos: Espacio Muestral: es el conjunto formado por todos los casos posibles en la realización de un experimento. Espacio Muestral Discreto: si es finito o infinito numerable. Espacio Muestral Continuo: si es infinito numerable. Diagrama de Árbol: representación gráfica del espacio muestral. Suceso Aleatorio: cada uno de los posibles subconjuntos que son partes del espacio muestral. Suceso Imposible: aquel subconjunto que nunca ocurre en el espacio muestral. (Conjunto vacío). Suceso Elemental: suceso formado por un solo resultado del espacio muestral. Suceso Compuesto: suceso formado por más de un resultado del espacio muestral. Suceso cierto: es aquel que siempre ocurre. Álgebra de los sucesos Suceso contrario o complemento: llamamos así al suceso que ocurre cuando no se realiza. Ejemplo: Suceso contrario de Q a Q. Unión de sucesos: Dados dos sucesos A y B llamamos unión de sucesos a ( A È B ) al suceso formado por A o B. Intersección de sucesos: Dados dos sucesos A y B llamamos intersección de sucesos a ( A Ç B ) al suceso formado por A y B. Sucesos incompatibles: dos sucesos son incompatibles cuando su intersección da como resultado el conjunto vacío. A Ç B = f Sucesos compatibles: dos sucesos son compatibles cuando su intersección no da como resultado el conjunto vacío. A Ç B ¹ f Experimentos Experimentos deterministas: son aquellos que realizada bajo la misma forma y mismas condiciones iniciales un experimento, resulta siempre el mismo resultado. Por ej.: cuando dejamos caer al vacío, un objeto en reposo desde una misma altura, llega siempre al suelo con una misma velocidad: v = 2 gh . Experimento aleatorio: son aquellos experimentos en los que no se puede predecir el resultado final. Por ej.: lanzamiento de un dado. 29 Estadística Aplicada Probabilidad Di Paolo, Claudio Javier DEFINICIONES DE PROBABILIDAD NOCIÓN FRECUENTISTA Desde la perspectiva frecuentista de probabilidad, se observa que en los experimentos aleatorios, a medida que aumenta el número de experimentos, las frecuencias relativas en las que ocurre un suceso A, f r (A), tiende a converger hacia cierta cantidad que llamamos probabilidad de A. De manera que: f r (A) = nº de ocurrencias de A N (total de casos) P[A] = lím f r (A) N ®¥ La noción frecuentista de probabilidad no puede usarse en la práctica como definición de probabilidad porque: Como N (el nº de experimentos) tiende a infinito, requiere infinitos experimentos para calcular la probabilidad. A veces no es posible realizar experimentos aleatorios. Por ej.: calcular la probabilidad de morir jugando a la ruleta rusa con un revólver; ésto no es posible, ya que necesitamos repetir el experimento un número demasiado alto de veces para tender a la probabilidad. REGLA DE LAPLACE Dadas las explicaciones de la noción frecuentista, podemos definir a la probabilidad a partir de la Regla de Laplace "Si cualquier experimento da como resultado un nº finito de valores posibles, sin razón alguna de forzar un valor por sobre otro, se calcula la probabilidad de un suceso aleatorio A, como: P[A] = nº de casos favorables de A nº de casos posibles AXIOMAS DE LA PROBABILIDAD Desde otra perspectiva se puede calcular a la probabilidad de un suceso A, teniendo en cuenta el cumplimiento de los siguientes axiomas para encontrar: P[A] 1 0 £ P [A ] £ 1 La probabilidad de que se de un suceso A, resulta estar comprendida entre 0 y 1. 2 P [ W] = 1 La probabilidad de un suceso seguro es igual a 1 Espacio Muestral. 3 P [A È B] = P [A] + P [B ] , si A Ç B = f La probabilidad de la unión numerable de sucesos disjuntos es igual a la suma de sus probabilidades (Independencia de Eventos). 30 Estadística Aplicada Probabilidad Di Paolo, Claudio Javier CONSECUENCIAS DE LOS AXIOMAS DE LA PROBABILIDAD (aplicando la teoría de conjuntos) 1 P [ Ac ] = 1- P [A] La probabilidad de un complemento del suceso A, es igual uno menos la probabilidad del suceso A. 2 P [f ] = 0 La probabilidad de un suceso vacío da como resultado cero. 3 P[ A] £ P[ B ] ;si A Í B Si el suceso A es menor o igual al B, las Probabilidades también serán menor o igual. 4 0 £ P[A] £ 1 La probabilidad es un número comprendido entre cero y uno. 5 P[A È B ] = P[A] + P[B ] - P[A Ç B ] ;si A Ç B ¹ f La probabilidad de la unión de sucesos es igual a la suma de sus probabilidades menos la Probabilidad de su intersección, por ser sus sucesos conjuntivos. 6 P[A È B È C ] = P[A] + P[B] + P[C] - P[A ÇB]-P[BÇC]-P[A Ç C] + P[A ÇBÇ C],si A ÇBÇC¹ f Cuando la intersección de 3 o más sucesos es distinto a vacío, la probabilidad de la unión de los sucesos es igual a la sumas de los sucesos de A, B y C menos sus intersecciones pares, agregando la intersección entre los 3 conjuntos. A partir de los axiomas y sus consecuencias, es posible calcular la probabilidad de un suceso a partir de la teoría de conjuntos. CÁLCULO DE LA PROBABILIDAD PERMUTACIONES Cuando queremos ordenar k elementos de un conjunto de n elementos, para escoger uno o varios de ellos, las posibilidades de orden son n-k+1 y se lee como permutaciones de n en k. Cálculo P(n, k ) = n! (n - k )! 31 Estadística Aplicada Probabilidad Di Paolo, Claudio Javier COMBINACIONES O COMBINATORIAS En cambio, si queremos escoger k elementos de un conjunto de n elementos, sin importar su orden, n en k combinaciones posibles. ænö = n! ç k ÷ k! (n - k )! è ø Coeficiente Binomial de n en k PROBABILIDAD CONDICIONAL Cuando queremos calcular la probabilidad de un evento A habiéndose dado un evento B, utilizamos la fórmula , teniendo en cuenta que la probabilidad del evento B tiene que ser mayor a cero. P[A / B ] = P[A Ç B ] ; si P[B ]> 0 P[B ] P[A / B ] = P[A] × P[ B / A] PROBABILIDAD TOTAL Dado un conjunto de sucesos independientes Ai, de manera que å Ai = W (equivale al espacio muestral), es posible determinar como probabilidad total, a la sumatoria de cada Probabilidad Condicional dada por el suceso conocido Bi por su respectiva probabilidad a priori. n P[A]= å P[A / Bi ] × P[Bi ] i =1 TEOREMA DE BAYES Se aplica al cálculo de la determinación de causas, a partir de una consecuencia. P[Ai / B ] = P[Ai ] × P[ B /Ai ] k å P[A j ] × P[B /Aj ] j =1 P[Ai ] P[ B /Ai ] P[Ai / B ] Probabilidades a priori de las causas o de las hipótesis Verosimilitudes Probabilidad a posteriori, es la probabilidad de que el suceso B, que ya ocurrió, sea la causa del suceso Ai 32 Estadística Aplicada Probabilidad Di Paolo, Claudio Javier VARIABLES ALEATORIAS VARIABLE ALEATORIA DISCRETA (v.a. discreta) Se define así a la variable que puede tomar un número finito o infinito numerable de valores. Definición Representación Gráfica Diagrama de Barras - Análogo al de Distribución de frecuencias relativas FUNCIÓN DE PROBABILIDAD f f ( xi ) = P[X = xi ] (es la probabilidad de que X tome el valor xi) 3/8 1/8 0 1 2 3 Diagrama de Barras - Análogo al de Distribución de frecuencias relativas acumuladas 1 FUNCIÓN DE DISTRIBUCIÓN F ( xi ) = P [X £ xi ] 7/8 (es la probabilidad de que X tome un valor inferior o igual a xi) 4/8 F 1/8 Medidas de tendencia Central y de Dispersión De forma análoga que en la estadística descriptiva, es posible determinar para las variables aleatorias, su medida central equivalente a la media que se llama Esperanza Matemática y se denota por E(x) ó µ; y su medida de dispersión Varianza (de igual nombre) Var[x]. 33 Estadística Aplicada Probabilidad Di Paolo, Claudio Javier El Valor esperado o la Esperanza Matemática para una v.a. discreta se define como el promedio esperado de valores (a diferencia que en la estadística aquí no parto de datos conocidos sino de datos esperados); su cantidad se expresa como: k E [X ] = å xi f (xi ) i =1 La varianza de una v.a. discreta se calcula a partir del momento de segundo orden: k s 2 = Var [ X ] = E [(X - E [x ] )2 ] = å (xi - E [X ] )2 f ( xi ) i=1 VARIABLE ALEATORIA CONTINUA (v.a. continua) Se define así a la variable que puede tomar un número infinito no numerable de valores. Definición y propiedades Representación Gráfica FUNCIÓN DE ì f ( x ³ 0) ï+ ¥ í ï ò f ( x)dx = 1 î-¥ Dados los valores a y b, de manera que a < b, la Probabilidad de que se de un valor X entre a y b es igual al área bajo la curva dado por la integral definida entre los puntos a y b de la función de densidad probabilística. DENSIDAD La función es mayor que cero. P[a £ X £ b] = ò f ( x) dx PROBABILÍSTICA La integral definida en el intervalo(- ¥;+¥ ) de la función es igual a uno. Se define como la probabilidad de un intervalo está dado por el área que existe entre la función y las abscisas). x f P[a £ X £ b ] a b X f (t )dt -¥ . . . ........ . . . . (es la probabilidad de que X tome un valor inferior o igual a x) F(x) f (x) ... ... DISTRIBUCIÓN a ... FUNCIÓN DE F (x) = P[X £ x] =ò b Área=F(x) x 34 Estadística Aplicada Di Paolo, Claudio Javier Probabilidad Medidas de tendencia Central y de Dispersión El Valor esperado o la Esperanza Matemática para una v.a. continua, difiere de una discreta en que se determina a partir de una cantidad infinita de valores; su cantidad se expresa desde su función de densidad. +¥ E [X] =ò x. f ( x) dx -¥ La varianza de una v.a. continua se calcula a partir del momento de segundo orden. +¥ s 2 = Var [X ] = E [( X - E [x ] )2] = ò (xi - E [X] )2× f ( x) dx -¥ DISTRIBUCIONES PROBABILÍSTICAS Hay leyes de la probabilidad que se aplican a variables aleatorias discretas y continuas, para su cálculo, y que son base para la inferencia estadística. DISTRIBUCIONES PROBABILÍSTICAS DISCRETAS DISTRIBUCIONES CARACTERÍSTICAS Consiste en realizar un experimento una sola vez y observar si cierto Distribución suceso ocurre(éxito) ó no (fracaso). de Bernoulli p es la probabilidad de que ocurra (valor 1) y q=1-p es la probabilidad de fracaso. LEY DE PROBABILIDAD MEDIDAS DE SUS MOMENTOS ì0 ® q = 1 - p = P[X = 0] x ® Ber ( p ) Û X = í î1 ® p = P[X = 1] E [X ] = p Ley de probabilidad ì q ® Si x = 0 ï f ( x) = í p ® Si x = 1 ï 0 ® En cualquier otro caso î Var[X ] = p × q x ® B(n, p ) Û X = X 1 + ... + X n Ley binomial B(n,p) Donde xi ® Ber ( p ), "i = 1,..., n que se interpreta Distribución como la suma de Binomial n v.a. independientes Ley de probabilidad de Bernoulli con el æ n ö k n-k mismo parámetro p. f (k ) = P[X = k ] = çç ÷÷ p × q èk ø E [X ] = n × p Var [X ] = n × p × q "k = 0,1,..., n 35 Estadística Aplicada Probabilidad DISTRIBUCIONES Di Paolo, Claudio Javier DISTRIBUCIONES PROBABILÍSTICAS DISCRETAS CARACTERÍSTICAS LEY DE PROBABILIDAD Parte de v.a. indeX 1 , X 2 ,..., X i ,... donde X i ® Ber ( p ), i = 1,2,..., ¥ pendientes de Bernoulli, pero se Distribución considera la suma de geométrica fracasos obtenidos Ley de probabilidad hasta la aparición del primer éxito buscado f ( k ) = P[X = k ] = p × q k "k = 0,1,..., ¥ en la sucesión. ® Sobre una sucesión X 1 , X 2 ,..., X i ,... donde X i ® Ber ( p ), i = 1,2,..., ¥ de v.a. independienLey de probabilidad tes de Bernoulli, deæ k + r - 1ö r -1 k finimos el nº de ÷÷ p × q × p "k = 0,1,..., n f (k ) = P[X = k ]= çç Distribución fracasos obtenidos è r -1 ø Binomial hasta la aparición de k + r -1 r éxitos. Con paráNegativa Primeros experimentos metros r y p se define la Ley Binomial æ k + r - 1ö r k ÷p ×q p=ç negativa. è k Éxito final Se utiliza para calcular la probabilidad de ciertos sucesos en forma proporcional al Distribución conjunto existente. Sus parámetros son: HiperN(tamaño de la pogeométrica blación); n(cant. de extracciones sin reemplazamientos) y p (probabilidad de éxito deseado). MEDIDAS DE SUS MOMENTOS q p E [X ] = Var [X ] = E [X ] = q p2 rq p Var [X ] = rq p2 ø X ® Hgeo( N , n, p ) Ley de probabilidad æ N × pö æ N ×q ö ç ÷×ç ÷ k ø èn - k ø P[ X = k ] = è ; æNö çn÷ è ø E [X ] = n × p Var [X ] = n × p × q × N -n N -1 si máx{ 0, n - Nq } £ k £ mín{ n, Np } Si N, es muy grande, la distribución hipergeométrica tiende a aproximarse a la distribución binomial. Cuando un suceso B(n,p ), donde n × p = λ ,y n ® ¥ (p, es positivo) tiene una probabilidad muy baja de Distribución ocurrir, y el nº de ex- Ley de probabilidad de Poisson o perimentos es muy e -λ λk , k = 0,1,2,.... [ ] E [X ] =Var [X ] = λ f ( k ) = P X = k = de Sucesos alto, se utiliza esta k! distribución. Se la raros (λ) conoce como una distribución límite n > 30, p £ 0,1 Þ B(n, p ) @ Poisson(n × p ) de una distribución binomial. 36 Estadística Aplicada Probabilidad Di Paolo, Claudio Javier DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS Las distribuciones que sintetizaremos corresponden a variables aleatorias continuas unidimensionales, cuyo valor de función de densidad es no nulo y positivo. DISTRIBUCIONES CARACTERÍSTICAS FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN MEDIDAS DE SUS MOMENTOS X ® Unif (a, b) Función de densidad f ( x) = a£ x£b si - - - - - - - - - E [X ] = F(x) - - - - 1,0 - - - - - 0,8 b+a 2 - 0,6 Var [X ] = (b - a )2 - - - - - f (x) 12 - - 0,4 - - - Sea X una v.a. continua, la probabilidad Distribución de X incluída en [a, b]; Uniforme ó depende de su longirectangular tud; siendo la probabilidad una constante. 1 , b-a Unif (a=0, b=2) - - - - - - 0,0 - - - - - 0,2 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Función de densidad y de distribución 3,0 Se define para los reales positivos. λ , X ® Exp ( λ) Función de densidad Es equivalente a la distribución geométrica discreta; describe procesos en los Distribución que nos interesa saexponencial ber el tiempo hasta que ocurre determinado evento, sin considerar el tiempo transcurrido en el que nada pasó. f ( x) = λ e -λ x ; si 0< x Función de distribución ì1 - e -λ x ; si 0 < x F ( x) = í î0 ; en otro caso 1,0 f ( x) = λ e -λ x E[ X ] = 1 λ Var [X ] = para λ=1 0,8 1 λ2 0,6 0,4 0,2 0,0 0 1 2 3 4 37 Estadística Aplicada Probabilidad DISTRIBUCIONES Di Paolo, Claudio Javier DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS CARACTERÍSTICAS FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN MEDIDAS DE SUS MOMENTOS Para el conjunto de los nº reales. X ® N ( µ, σ 2 ) Función de densidad f ( x) = -1 æ x - µ ö ÷ σ ø ×ç 1 ×e 2 è 2π 2 , "x Î Reales La forma de la función de densidad es la llamada campana de Gauss. 0,4 N ( µ=0, σ=1) 0,3 σ σ 0,2 Es la distribución más importante pues nos permite determi- 0,1 Distribución nar cuan concentraµ Normal o dos están los datos 0,0 alrededor de la meGaussiana -3 -2 -1 0 1 2 3 dia. Es la base que da inicio al estudio La figura muestra la Campana de Gauss o la de la inferencia estafunción de densidad de una v.a. de distribudística. ción normal. El parámetro µ indica el centro (parámetro de centralización) y σ el parámetro de dispersión. La distancia del centro a los puntos de inflexión es precisamente σ. E [X ] = µ Var [X ] = σ 2 ~ µ = X = Xˆ = X Cuanto menor sea σ más concentración de datos cerca de la media habrá (curva alargada), si σ es más grande, más aplastada será la curva. Estudio de normalidad Trabajamos con variables tipificadas de: µ=0 σ=1. Si algunos de estos valores difieren, es necesario tipificar de manera tal que conseguiremos una nueva variable para trabajar que llamaremos v.a. tipificada z. µ z = Xσ 38 Estadística Aplicada Probabilidad DISTRIBUCIONES Di Paolo, Claudio Javier DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS CARACTERÍSTICAS FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN MEDIDAS DE SUS MOMENTOS A partir de µ y σ, estudiaremos la normalidad de una muestra analizando el porcentaje de datos contenidos en la media menos un desvío, dos desvíos y tres desvíos. De manera que: 1) P[X Î µ ± 1σ ] = 0.6826 El 68,3% de los datos están contenidos. 2) P[X Î µ ± 2σ ] = 0.9544 El 95,4% de los datos están contenidos. 3) P[X Î µ ± 3σ ] = 0.9974 El 99,7% de los datos están contenidos. Si se cumplen estas condiciones podemos decir que estamos frente a una Distribución Normal. Distribución Normal o Gaussiana 0,4 N ( µ=0, σ=1) 0,3 ---------------------- P[X Î µ ± 1σ ] = 0,68 0,2 0,1 ----------------------------------------------- P[X Î µ ± 2σ ] = 0.95 0,0 -3 -2 µ−3σ Si se cumple que n es suficientemente Aproximación grande y p está ubia la Normal cada en un valor no muy próximo a los de la Ley Binomial extremos de 0 y 1, a partir de la Ley Binomial podemos aproximar a la Normal. -1 µ−2σ µ=σ 0 1 µ µ+σ 2 µ+2σ 3 µ+3σ Si se cumple: ìn > 30 ï X ® B(n, p ) donde ínp > 4 Þ X @ N (np, npq) ïnq > 4 î Es posible la aproximación. Otro indicador viene dado por: p@q@ 1 2 39 Estadística Aplicada Probabilidad DISTRIBUCIONES Di Paolo, Claudio Javier DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS CARACTERÍSTICAS FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN MEDIDAS DE SUS MOMENTOS Si Zi ® N (0,1) , la suma de sus cuadrados respectivos es la distribución que se llama Ley de Distribución χ 2 con n grados de libertad (χn2 ): æ ö è σi ø 2 {Z i }in=1 ® N (0,1) Þ å Z i2 ® χn2 Þå ç Xi - µi ÷ ® χ n2 Si consideramos a la v.a. Zi ® N (0,1), la 2 Distribución v.a. X=Z se distribuye según una Ley de 0,4 Chi-Cuadrado Probabilidad distri( χ2) bución χ2 con un gra0,3 do de libertad i =1 i =1 E [X ] = n -- ---- ----- ..- - - .- . - - -- . - - -. - .- .-- - . --- -3 .- --- -- -- -- -- -1 -- -. - -2 .- -- ----- -- .- . .-. -. - --- .- --.--- - - - - - - - - - -4 N(0,4) - -- . -. . .- -. ----- - .- . .-.. - ----.. - --. - --. ---. -- - - -. - -- --- --- -- - N(0,2) .-.- . -. - --- 0,1 -- --- -. --- - 0,2 . .- Var[X ] = 2n --- -- -- -- - N(0,1) 2 0 n -- ( X ® χ ). n 0 1 -. -- 2 --- -. -- -. -. --- --- - .- --- -- .- . -. - - - - - - - -- -. -- .---. 3 4 Distribución t de Student con n grados de libertad (t n ): Dada la v.a. T T= Es el cociente entre la distribuciónnormal Distribución y la raíz cuadrada de t de Student la distribución ChiCuadrado. Z 1 n 2 n ® tn , con n + 1 v.a. indep. Cálculo de T T= X -µ σ 1 n æ X i - µi ö ÷ åç n i =1 çè σi ÷ø 2 ® tn Propiedades de la distribución 1) Es de media cero y simétrica con respecto a la misma. 2) La varianza decrece hasta uno cuando el número de grados de libertad aumenta. 3) Para un número alto de grados de libertad se puede aproximar esta distribución a la Normal. 40 Estadística Aplicada FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN --- -- -. -. - . -. - -- χ42 -- --- χ --- ---- ----- -------- ------ - - - -- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 0 2 4 6 8 2 Función de densidad de χn para valores pequeños de n 0,4 t30 t¥ =N(0,1) t3 -- -- - -- -- -- --- - -- - -- -- --- --- --- --- --- -- -- --- -- --- -- - --- -- --- -- --- ----- --- -- - -- -- ---- ---- 0,1 -- 0,2 t1 --- -- --- - -- - - - - - - - ----- - - ----- - - ----- - - ----- - - --- ---- 0,3 0,0 -------------------------------- Distribución t de Student -- ------------- --- ---2 . . - .- - . - . . . . . - . - . - . - - - - - - --- -- - - . - . - . - . - . . . . ---- - .- . . .- - - .- . . 6 . ---.- - .- . ---. ---.----. -. -------- -- -- --- --- 0,0 --- -- - -- 0,1 --- 0,2 χ22 --- 0,3 -- --- - - --- -- - --- - - -- ------ --- ----------------------------------------------- -4 -2 0 2 Cuando aumentan los grados de libertad, la distribución t de Student se aproxima a la distribución normal tipificada. Esta distribución se define como coDistribución cientes entre distriF de Snedecor 2 buciones χ n independientes. MEDIDAS DE SUS MOMENTOS --- 0,4 - - - - - - - - - - - - - - - - - - - - - - - - - ------------ 0,5 -- CARACTERÍSTICAS -- DISTRIBUCIONES DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS -- Probabilidad Di Paolo, Claudio Javier 4 1 X mX F=n = ® Fn ,m 1 n Y Y m Distribución de Probabilidad de Snedecor, con (n,m) grados de libertad, de manera que: Fn ,m ¹ Fm ,n 41 Estadística Aplicada Probabilidad DISTRIBUCIONES Di Paolo, Claudio Javier DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS CARACTERÍSTICAS FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN -- 0,8 --- -- -- -- -- - - .- . - - .-- . --- . - ---. - -. -- -- .- - --.----.-- -. - -. - -. - - - -- .- -- .---.---.- -. - - - - -----. - -. -- .-- . - - -- ----.----.-- . - --- -. - -. -. - -- -- - -- -- .- - 0.0 Distribución F de Snedecor . 0,0 .- 0,2 F10, 5 - .--. --. -. --. - -. --. - - -. - . - - - - -. -. - - - - - - 0,4 --- - - - - -- F10, 20 . - . - - .- F10, 10 0,6 MEDIDAS DE SUS MOMENTOS 0.5 1.0 1.5 -- - --- .---.- - -- . -- -. -- .- - - - - - - - - . - . - . -- -. - - - - - - - - - - - .- .- .- . ----2.0 2.5 3.0 Cuando tenemos n + m v.a. independientes nos encontramos con el caso de una Distribución F de Snedecor: F= 1 n æ Xi - µi ö ÷ åç n i =1 çè σi ÷ø æXj1 ç å σ m j =1 çè j m µj 2 ö ÷ ÷ ø 2 ® Fn ,m Propiedades de la distribución Es una distribución asimétrica con densidad de probabilidad distinta de cero. F ® Fn ,m Û 1 ® Fm ,n F 42 Estadística Aplicada Inferencia Estadística Di Paolo, Claudio Javier INTRODUCCIÓN Como el propósito de la Estadística es obtener conclusiones a partir de la naturaleza de una población, y dado a que hay poblaciones muy grandes (difíciles de analizar en su plenitud), es necesario partir de técnicas de muestreo, determinar un sub conjunto de la población (muestra), lo más representativo posible, y a partir de él generalizar. Los métodos de la inferencia estadística emplean razonamientos inductivos, de lo general a lo particular y de lo observado a lo no observado. Es costumbre simbolizar las estadísticas con letras romanas y los parámetros con letras griegas. Estadística poblacional (Muestra) Media aritmética Variancia S² Desvío estándar S R Coeficiente de correlación Parámetro poblacional (Población) m s2 s r Para ello, definimos dos categorías dentro de la Inferencia Estadística: La estimación: El estimador es la herramienta fundamental que permite caracterizar, mediante propiedades, al "mejor estimador" para un determinado parámetro de la población. El Contraste de Hipótesis: A partir de plantear dos hipótesis, una nula y la otra alternativa, su comparación determinará el acierto o el error de la suposición inicial. LOS ESTIMADORES Se denomina estimador a la regla o método de estimar un valor a la variable poblacional. La estimación estadística es el proceso que conduce a la obtención y análisis de los estimadores. La estimación estadística se divide en: 1 Estimación puntual o de parámetros. 2 Estimación por intervalos. ESTIMACIÓN PUNTUAL Se expresa en función de la muestra aleatoria y tiene por objetivo aproximar el valor Θi. El estimador no es un valor concreto, sino una variable aleatoria, que aplicada a la muestra elegida, permite obtener un valor numérico (estimación). 43 Estadística Aplicada Inferencia Estadística Di Paolo, Claudio Javier Las características deseables para el estimador son: Consistencia: a medida que la muestra crezca la estimación se aproxime al parámetro desconocido. Carencia de sesgo: El valor medio obtenido de la estimación de diferentes muestras debe ser el valor del parámetro. Eficiencia: El valor estimado sea lo más acercado al valor parámetro, en términos de varianza, que su dispersión sea próxima a cero. Suficiencia: El estimador debería aprovechar toda la información existente en la muestra. Estimador de máxima verosimilitud La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando los papeles entre parámetro y estimador. En una función de verosimilitud consideramos que las observaciones x1, . . . , xn, están fijadas, y se representa la gráfica con el valor de los valores que tomaría la función de densidad para todos los posibles valores del parámetro. El estimador máximo verosímil del parámetro buscado, θmv , es aquel que maximiza su función de verosimilitud, V(θ ). Propiedades de los estimadores de máxima verosimilitud: 1 Son consistentes. 2 Invariantes ante transformaciones. 3 Suficiente 4 Asintóticamente normal y eficiente. ESTIMACIÓN POR INTERVALOS En esta estimación buscamos un intervalo que contenga, con cierto grado de confiabilidad, al parámetro θ ; a este intervalo se lo llama intervalo de confianza. P[θˆ1 < θ < θˆ2 ]= 1- α θˆ1 y θˆ2 Estadística de una muestra aleatoria y conforman los límites inferior y superior 1- α Grado de confianza 44 Estadística Aplicada Inferencia Estadística Di Paolo, Claudio Javier De manera que tomando a α cercana a cero, el grado de confianza es cercano a uno. En forma práctica, tomaremos a α = 0,05; de modo que el grado de confianza es del 95%. Si una población sigue una distribución normal de parámetros µ y σ ; y las muestras son de tamaño n ³ 30, la media muestral sigue una distribución: X ® N æµ , σ ö ç è n ÷ø Se trata de encontrar un valor k como muestra la figura: µ−k µ µ+k Buscaremos al valor k que deje en el intervalo (µ - k ; µ + k ) al (1− α ) . 100 % de la población. Partiremos de la Normal tabulada Z ® N (0,1) si queremos que el intervalo buscado contenga a la media muestral X , con (1− α ) de confianza; entonces el área fuera de la zona gris de la gráfica equivale a α, y como la curva es simétrica, cada región (izquierda y derecha de la zona gris) mide α . Surge la siguiente gráfica: 2 1−α α 2 -z α 2 α 2 zα 2 Buscamos ahora, al valor z α que deje en el intervalo æç-z α ; z α ö÷ 2 è 2 2ø al (1− α ) de la población en la N (0,1). Como en la Normal estándar se cumple que: α P æ Z ³ z α ö÷ = çè 2 2ø o bien que: P æZ £ zαö = 1- α ÷ çè 2 2ø Debemos tipificar a la variable para trabajarla como Normal tipificada N æµ , σ ö de modo que; k - µ = zα , despejando k, obtenemos el çè σ n ÷ø 2 valor deseado: n k = µ + σ × zα n 2 45 Estadística Aplicada Inferencia Estadística Di Paolo, Claudio Javier Entonces, dado el nivel de significación α ó el de confianza 1- α , determinamos el intervalo de probabilidad para la media muestral que será: æ ö σ σ × zα; µ+ × zα ÷ çµn 2 n 2ø è Ejemplo: Determinar en una población N (0,1) , el valor que concentra el 75% de la población en un intervalo simétrico respecto a la media. Entonces: 1- α = 0,75; α = 0,25; por lo tanto: α = 0,125. 2 Ahora buscamos el valor z0,125 para poder dejar dentro del intervalo al 75% de la población. 0,75 0,125 -z0,125 0,125 z0,125 De modo que: P( Z ³ z0,125 ) = 0,125 y P( Z ³ z0,125 ) = 0,875 ; entonces z0,125=1,15 Valor obtenido de la tabla. Casos de una población normal A) Intervalo para la media de una población normal con varianza conocida Sea X1, X2, X3, . . .,Xn , una muestra aleatoria de una población normal con µ desconocida y σ2 conocida; y si la muestra tiene un tamaño n ³ 30, o bien la distribución es normal, el intervalo de confianza con nivel de confianza de 1- α (100%) queda constituido por: æ ö çX - σ ×z ;X + σ ×z ÷ ç n α2 n α2 ÷ø è Si σ es desconocida, se utiliza S en su lugar. A σ se lo denomina Error típico o estándar. n B) Intervalo aproximado para la media de una población normal con varianza desconocida y tamaño de muestra grande 46 Estadística Aplicada Inferencia Estadística Di Paolo, Claudio Javier Sea X1, X2, X3, . . .,Xn ,una muestra aleatoria de una población normal con µ y σ2 desconocidas y n ³ 30 (tomando como mayor o igual a 30 las observaciones de la muestra),entonces, la v.a. Z tiene una distribución aproximada normal estándar: Z = X - µ , a consecuencia del Teorema S/ n Central del Límite. Luego, P éX - Z α S < µ < X + Z α S ù = 1− α ,determinan un ë 2 n 2 nû intervalo de confianza aproximado al 100% para µ . C) Intervalo exacto para la media de una población normal con varianza desconocida Sea X1, X2, X3, . . .,Xn ,una muestra aleatoria de una población normal con µ y σ2 desconocidas, tenemos que la variable aleatoria T = X - µ , en S/ n donde tiene una distribución t-student con n −1 grados de libertad, de manera que podemos construir el intervalo de confianza para µ: P éX - t α ,n-1 S < µ < X + tα ,n-1 S ù = 1− α, con grados de confianza ë 2 2 n nû del 100%. Error Máximo Admisible Definimos así, a la diferencia en valor absoluto entre la media poblacional y la muestral. µ - X ; en donde µ - X = zα × σ2 n 2 Cálculo del Error Máximo Admisible E = zα × σ 2 n Las propiedades que cumple el error máximo admisible son: 1 E es menor cuanto más grande sea n(el tamaño de la muestra), porque dividimos por n. 2 E es mayor al aumentar el nivel de confianza porque cuando crece 1-α , aumenta z α2 . 3 A partir del valor del Error Máximo Admisible podemos calcular el tamaño de la muestra despejando en la fórmula y quedará así: n = æç z α × σ ö÷ è 2 Eø 2 Ejercicio: Al medir un tiempo de reacción, un psicólogo sabe que la desviación típica del mismo es 0,5 segundos. ¿Cuál es el número de medidas que debería realizar para que con una confianza del 99%, el error de estimación no exceda de 0,1 segundos?. 47 Estadística Aplicada Inferencia Estadística Di Paolo, Claudio Javier D) Estimación de una proporción Si estamos ante el caso de desconocer, en una población, la proporción p de individuos que posean cierta característica para estudiar y deseamos establecer el intervalo de confianza para p, con un nivel de confianza de 1-α ,en un tamaño de muestra n ³ 30, este intervalo resultaría: æ ç pˆ - z × è pˆ × qˆ , pˆ - z × n pˆ × qˆ ö ÷ n ø Diferencia entre intervalos de probabilidad y de confianza En un intervalo de probabilidad lo que conocemos es la media y la desviación típica poblacional, y damos el intervalo donde se encontrará (para un cierto nivel de confianza) la media muestral o la proporción muestral. Sin embargo, en un intervalo de confianza entramos ya en el terreno de la estimación, es decir NO conocemos la media poblacional (y en ocasiones tampoco la desviación típica poblacional) ni la proporción poblacional, sino que sólo conocemos, o podemos calcular, la media muestral o la proporción muestral, y de lo que se trata es de dar un intervalo en el que se encuentre la media poblacional (o la proporción poblacional). El Contraste de Hipótesis o PRUEBA DE HIPÓTESIS Una hipótesis estadística es una afirmación o conjetura con respecto a la distribución de una o más variables aleatorias. Tipos de Hipótesis Hipótesis simple: Se refiere a un valor exacto que afirmamos o conjeturamos sobre el parámetro de una distribución. Ejemplo: Si tenemos una distribución binomial (n,p), la afirmación p=0,25 es una hipótesis simple, pues asigna un único valor a la variable p. Hipótesis compuesta: Se refiere a un conjunto de valores aproximado que afirmamos o conjeturamos sobre el parámetro de una distribución. Ejemplo: Si tenemos una distribución normal ( µ,σ 2 ), la afirmación µ>σ 2 es una hipótesis compuesta, pues no asigna un único valor a la variable µ, sino un conjunto de valores posibles que puede tomar. En general, hay dos hipótesis: H0 : Hipótesis Nula H1 : Hipótesis Alternativa Como ambas hipótesis pueden ser simples o compuestas, surgen cuatro diferentes tipos de contrastes. 48 Estadística Aplicada Inferencia Estadística Di Paolo, Claudio Javier H0 H1 Simple Simple Simple Compuesta Compuesta Simple Compuesta Compuesta A un Contraste de Hipótesis lo definimos como la regla que nos permite decidir si aceptamos la hipótesis nula o rechazamos la hipótesis alternativa. En esto que se llama Toma de Decisiones, podemos cometer errores, que por supuesto pueden ser calculados; a saber: Rechazar la H0(Nula) Aceptar la H0(Nula) H0 Verdadera H0 Falsa Error Tipo I con probabilidad α Decisión Correcta Decisión Correcta Error Tipo II con probabilidad α Se conoce como nivel de significancia a la probabilidad α de cometer el Error Tipo I. Contraste de hipótesis en una media de una población normal Sea X1, X2, X3, . . .,Xn ,una muestra aleatoria de una población normal con media desconocida (µ) y varianza (σ2) conocida, sabemos que: X ~ N( µ,σ2 / n ) , y por lo tanto, X - µ ~ N (0,1) σ2 / n Queremos contrastar la hipótesis: H0 : µ = µ0 H1 : µ = µ0 Cuando H0 es cierta, tenemos que: - µ0 ; Z, representa la distancia entre X (el estimador de µ) y Z= X σ/ n su valor esperado µ0 ; por lo tanto, rechazamos H0 cuando la v.a. Z es grande: Z ³ k ; en donde k es igual z α . 2 49 Estadística Aplicada Di Paolo, Claudio Javier Inferencia Estadística En resumen, puede ocurrir que: Prueba De dos colas De cola inferior De cola superior H0 : µ = µ0 H1 : µ < µ0 H0 : µ = µ0 H1 : µ > µ0 Z ³ -α Z ³α α α H0 : µ = µ0 H1 : µ = µ0 Hipótesis Z ³α 2 Región de rechazo α Error Tipo I I Error Tipo II I æ z α + µ 0 - µ1 ö 2 σ n ø è æ-zα + µ 0 - µ1 ö 2 σ n ø è Donde 1- I æ-zα + µ 0 - µ1 ö 2 σ n ø è Donde µ1 < µ0 I æ z α + µ 0 - µ1 ö 2 σ n ø è Donde µ1 > µ0 µ1 = µ0 50 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier "Hay clases de mentiras: las mentiras, las malditas mentiras y la estadística". Estas notables palabras dichas por Benjamín Disraeli (primer ministro británico en el Siglo XIX), representa la cínica visión que de la estadística tienen muchas personas. Casi toda la gente está situada en el extremo consumidor de las estadísticas, (extraído de Estadística elemental. Lo esencial, 3º edición; Johnson - Kuby. Editorial Thompson, 2007) 1 Calcule la media, mediana, moda, varianza y desviación estándar del conjunto de datos: 4, 2, 0, 9, 4, 2, -1, 1, -4 y 2. 2 Pregunte a diez personas sus estaturas, registre los datos y calcule: media, mediana, moda, varianza y desviación estándar. 3 Utilizando la calculadora genere 10 números al azar dentro del intervalo [0, 1]. Registre los datos y calcule: media, mediana, moda, varianza y desviación estándar. 4 Escriba sus últimas diez calificaciones y calcule: media, mediana, moda, varianza y desviación estándar. 5 Calcule la media, mediana, moda, varianza y desviación estándar aproximado del siguiente conjunto de datos agrupados. Grafique el histograma. Intervalo de clase Frecuencia 10 < x > 20 20 < x > 30 30 < x > 40 40 < x > 50 50 < x > 60 4 3 6 5 5 6 Calcule la media, mediana, moda, varianza y desviación estándar aproximado del siguiente conjunto de datos agrupados. Grafique el histograma. Intervalo de clase Frecuencia 0<x> 5 5 < x > 10 10 < x > 15 15 < x > 20 25 < x > 30 30 < x > 55 35 < x > 40 12 23 10 14 6 10 5 7 En el siguiente conjunto de 50 datos, se proporcionan los pesos (redondeados a kilogramos) de los bebés nacidos durante un determinado intervalo de tiempo en un hospital: 51 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier 1,814 3,629 1,814 2,722 3,629 2,722 3,175 3,175 3,175 3,629 4,536 4,082 3,175 2,722 4,536 3,629 2,268 4,082 2,722 1,361 3,175 2,722 1,814 3,175 2,722 4,082 3,175 1,814 3,175 2,722 3,629 3,629 4,082 4,990 3,629 3,175 4,536 3,629 2,268 3,175 3,175 2,722 2,268 4,536 3,629 4,082 3,175 2,268 2,722 2,268. a) Construir la Tabla de Distribución de Frecuencias por Datos Agrupados. b) Encontrar las frecuencias relativas. c) Encontrar las frecuencias acumuladas. d) Encontrar las frecuencias relativas acumuladas. e) Dibujar el histograma. f) ¿Por qué se ha utilizado un histograma para representar estos datos en lugar de un diagrama de barras? g) Calcular las medidas de tendencia central. h) Calcular las medidas de dispersión. i) Calcular las medidas de forma. j) ¿Es esta una distribución sesgada? De ser así, ¿en qué dirección? k) Encontrar el percentil 24. ¿Qué representa?. 8 El siguiente conjunto de datos representa el tiempo de reacción ante un estímulo auditivo de 50 universitarios: 0,110 0,110 0,126 0,112 0,117 0,113 0,135 0,107 0,122 0,113 0,098 0,122 0,105 0,103 0,119 0,100 0,117 0,113 0,124 0,118 0,132 0,108 0,115 0,120 0,107 0,123 0,109 0,117 0,111 0,112 0,101 0,112 0,111 0,119 0,103 0,100 0,108 0,120 0,099 0,102 0,129 0,115 0,121 0,130 0,134 0,118 0,106 0,128 0,094 0,114. a) ¿Cuál es la amplitud total de la distribución de los datos? b) Obtenga la distribución de las frecuencias absolutas y relativas. c) Obtenga la distribución de las frecuencias acumuladas, absolutas y relativas. d) Calcular la media y la varianza a partir de los datos agrupados y calcular las mismas medidas a partir de los datos sin tratar. ¿De qué forma resulta más preciso el cálculo? e) Dibuje el polígono de frecuencias relativas. f) Dibuje el polígono de frecuencias relativas acumuladas. 9 Con el fin de observar la relación entre la inteligencia y el nivel socio-económico (medido por el salario mensual familiar) se tomaron dos grupos, uno con el coeficiente intelectual inferior a 95 y otro formado por los demás; de cada sujeto se registró el salario familiar mensual. Teniendo en cuenta los resultados que se indican en la siguiente tabla: 52 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier Nivel socio-económico (En cientos de pesos) Intervalo de clase Entre 4 y 10 Entre 10 y 16 Entre 16 y 22 Entre 22 y 28 Entre 28 y 34 Más de 34 Sujetos con CI<95 Frecuencia 75 35 20 30 25 15 Sujetos con CI>95 Frecuencia 19 26 25 30 54 46 a) Dibuje un gráfico que pueda comparar ambos grupos. b) Calcule las medidas de tendencia central para los sujetos con CI < 95. c) Calcule las medidas de dispersión para los sujetos con CI > 95. 10 Un estudio consistió en anotar el nº de palabras leídas en 15 segundos por un grupo de 120 sujetos disléxicos y 120 individuos normales: Nºde palabras leídas Grupo disléxico Grupo normal Frecuencia 56 24 16 12 10 2 Aproximadamente 25 26 27 28 29 30 o más Frecuencia 1 9 21 29 28 32 Calcular: a) Las medias aritméticas de ambos grupos. b) Las medianas de ambos grupos. c) El porcentaje de sujetos disléxicos que superaron la mediana de los normales. d) Compare la variabilidad relativa de ambos grupos. 11 La siguiente tabla muestra la composición por edad, sexo y trabajo de un grupo de personas que padecen tuberculosis pulmonar en una población en el año 1979: Edad 14-19 19-24 24-29 29-34 34-39 39-44 Trabajadores No Trabajadores Totales Varón Mujer Total Varón Mujer Total Varón Mujer Total 2 10 32 47 38 22 1 4 10 12 8 4 3 14 42 59 46 26 25 20 15 13 10 7 40 36 50 34 25 18 65 56 65 47 35 25 27 30 47 60 48 29 41 40 60 46 33 22 68 70 107 106 81 51 53 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier a) Representar gráficamente la distribución de frecuencias de los trabajadores que padecen tuberculosis. b) Representar gráficamente la distribución de frecuencias de los varones no trabajadores que padecen tuberculosis. c) Representar gráficamente la distribución de frecuencias del número total de mujeres que padecen tuberculosis. d) ¿Cuál es la edad en la que se observa con mayor frecuencia que no trabajan los varones? ¿Y las mujeres? Determinar la edad más frecuente (sin distinción de sexos ni ocupación). e) ¿Por debajo de qué edad está el 50% de los varones? f) ¿Por encima de qué edad se encuentra el 80% de las mujeres? g) Obtener la media, mediana y desviación típica de la distribución de las edades de la muestra total. h) Estudiar la asimetría de las tres distribuciones. 12 En una epidemia de escarlatina, se ha recogido el número de muertos en 40 ciudades de un país, obteniendo los siguientes resultados: Nº de muertos 0 1 2 3 4 5 6 7 Ciudades 7 1110 7 1 2 1 1 a) Representar gráficamente los datos. b) Obtener la distribución acumulada y representarla. c) Calcular media, mediana y moda. d) Calcular la varianza y la desviación típica. e) Porcentaje de ciudades con al menos 2 muertos. f) Porcentaje de ciudades con más de 3 muertos. g) Porcentaje de ciudades con a lo sumo 5 muertos. 13 Un fabricante de medicamentos veterinarios, está interesado en la proporción de animales que padecen infecciones locales, cuya condición puede ser controlada por un nuevo producto desarrollado por la empresa. Se condujo un estudio en el que participaron 5000 animales que padecen infecciones locales y se encontró que en el 80% de los animales se puede controlar la infección con el medicamento. Suponiendo que los 5000 animales son representativos del grupo de animales con infecciones locales, conteste las siguientes preguntas: a) ¿Cuál es la población? b) ¿Cuál es la muestra? c) Identifique el parámetro de interés. d) Identifique la estadística y proporcione su valor. e) ¿Se conoce el valor del parámetro? 14 En los siguientes incisos, indique cuál es la variable en estudio y qué clase de variable es: a) Color de flores. b) Razas de bovinos. 54 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier c) Punto de fusión del manganeso. d) Altura de tallo. e) Salarios por hora. f) Porcentaje de asistencia. g) Número de pétalos de una flor. h) Monto de las acciones vendidas. 15 Los alumnos de licenciatura en Economía Agraria de FAUBA realizaron un estudio de las cotizaciones del trigo en cinco campañas consecutivas. Los datos se presentan en la Tabla. Realizar con todos los datos: Campaña 94-95 95-96 96-97 97-98 98-99 Junio Julio Agosto Septiembre Octubre Noviembre Diciembre Enero Febrero Marzo Abril Mayo Promedio 121.60 116.71 144.57 125.95 139.48 131.68 129.20 121.05 119.53 122.70 126.19 143.90 126.13 171.02 221.52 229.86 229.45 217.40 217.93 200.17 219.00 235.53 238.05 255.93 280.81 226.39 240.36 211.84 189.55 164.83 161.09 135.52 128.37 131.95 135.50 153.79 164.85 165.74 165.28 145.63 143.77 142.44 139.06 138.45 133.19 122.72 111.13 113.11 114.13 115.53 116.83 128.00 110.73 108.40 99.28 101.57 122.03 120.89 105.89 98.05 97.25 100.89 114.73 116.42 108.01 a) Un histograma de frecuencias. b) Un gráfico de barras ordenado por mes utilizando valores promedio y de dispersión. 16 Los siguientes datos representan el número de tomates rechazados por día en un mercado mayorista. Los datos corresponden a 50 días seleccionados aleatoriamente: 29 12 83 95 28 58 73 23 63 91 80 54 71 86 87 35 91 63 42 15 30 45 47 22 67 23 28 87 44 10 88 61 36 88 45 49 61 8 27 67 35 45 94 20 26 97 84 26 33 19 a) Construya una tabla de frecuencias con 10 clases. b) Construya un histograma que corresponda a la tabla anterior. c) ¿Qué valor de la variable es superado por el 50% de las observaciones? d) ¿Cuál es el valor de la variable que se presenta un mayor número de veces? e) Utilice todos los datos y la tabla de frecuencias para encontrar la media, el desvío estándar y el coeficiente de variación de los números de tomates que se rechazan. 55 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier 17 El cultivo de soja en nuestro país se encuentra en expansión. En la provincia de Buenos Aires, el INTA determinó el rendimiento de 40 plantaciones (en toneladas/ha), obteniendo los siguientes resultados: Rendimiento tn/ha Nºde campos 0-1 1-2 2-3 3-4 4-5 >5 2 9 10 13 5 1 a) Clasificar y definir la variable. b) Identificar la unidad experimental, la muestra y la población en el estudio. c) Calcular el rendimiento promedio de soja. d) ¿Cuál es el rendimiento más frecuente? e) ¿Cuál es el valor de la variable superado por el 50 % de las observaciones de los rendimientos? f) Durante el mismo período, en el sur de Santa Fe, se registró un rendimiento promedio de 3.3 tn/ha, con un desvío estándar de 0.62 tn/ha. ¿Cuál de las 2 producciones fue mayor y cuál más variable? g) ¿Cuál es el rendimiento superado por el 90 % de los campos muestreados? 18 El bicho taladro (Platypus mutatus), es una de las plagas más importantes que afecta la calidad de la madera para uso comercial. Se determinó la presencia de esa plaga según el número de orificios activos que presentaban los fustes de álamos de una plantación comercial. Los resultados fueron los siguientes: Nº de orificios activos Nº de fustes 0 12 1 38 2 3 28 16 4 13 5 11 6 9 7 7 8 9 o más 5 1 a) Clasificar y definir la variable. b) Identificar la unidad experimental, la muestra y la población en el estudio. c) Se considera que la madera es apta para comercializarse si presenta, a lo sumo, 2 orificios activos. d) ¿Qué porcentaje de los árboles no podrán comercializarse? e) ¿Cuál es el promedio de orificios en los álamos que pueden comercializarse y cuál, en los que no pueden? f) ¿En qué caso el número de orificios activos por fuste es más homogéneo teniendo en cuenta las dos categorías definidas previamente (comerciables y no comerciables)? g) ¿Cuál es el número más frecuente de orificios activos por fuste? 56 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier h) ¿Cuántos orificios activos por fuste poseen el 25 % de los álamos más afectados? i) Entre cuáles valores se encuentra al 80 % de las observaciones centrales. 19 En una importante empresa láctea hay 600 empleados que cobran $400, 500 que cobran $600, 100 que cobran $2200 y 5 socios que perciben $100.000 cada uno. Calcular la media, mediana y la moda y discutir cuál de estos 3 estadísticos de tendencia central estima mejor el sueldo de los empleados de la empresa. 20 La tabla siguiente contiene la distribución de frecuencias de la longitud de tallos de una especie de arbusto dominante del Monte Pampeano. Frecuencia Porcentaje acumulado 6 41 134 289 419 476 500 1.2 8.2 26.8 57.8 83.8 95.2 100.0 Largo (cm) Frecuencia Porcentaje acumulada 10-15 15-20 20-25 25-30 30-35 35-40 40-45 6 35 93 155 130 57 24 1.2 7.0 18.6 31.0 26.0 11.4 4.8 En base a esta tabla, responda las siguientes preguntas. a) ¿Cuántos tallos fueron medidos en total? b) ¿Qué tamaños de tallos es más frecuente encontrar? c) Discuta la veracidad de la siguiente afirmación: "aproximadamente el 83% de los tallos miden menos de 35 cm". d) Discuta y argumente la efectividad de una técnica mecánica para el control de los arbustos (desarbustizado) en la cual, por motivos operativos, la barra de corte trabaja a 40 cm del nivel del suelo. 21 Ambos histogramas representan la distribución de tamaños (D.A.P.: diámetro a la altura del pecho) de una población de Prosopis caldenia (caldén) localizada en Luan Toro, provincia de La Pampa. 57 Estadística Aplicada Di Paolo, Claudio Javier Actividades (a) Histograma de frecuencias relativas ESTADÍSTICA DESCRIPTIVA Distribución de tamaños Frecuencias relativas 0,50 0,25 0,00 0,00 16,00 32,00 48,00 64,00 80,00 DAP (cm) (b) Histograma de frecuencias relativas acumuladas Frecuencias relativas 1,00 Distribución de tamaños 0,75 0,50 0,25 0,00 0,00 16,00 32,00 48,00 64,00 80,00 DAP (cm) En base a los mismos responda: a) ¿Es la distribución unimodal? Justifique. ¿Cuál es el valor aproximado de la o las moda/s? b) ¿Qué porcentaje de fustes comerciables existe si el criterio es que superen los 48 cm de diámetro? c) ¿Qué porcentaje de individuos no superan los 16 cm de diámetro? d) ¿Qué porcentaje aproximado de individuos se hallan dentro del rango de 30 a 50 cm de diámetro? 58 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier 22 Los siguientes son datos de diámetro (en cm) a la altura del pecho de ejemplares de Sauce llorón (Salix humboldtiana) creciendo en el delta del río Paraná: 4,5 14,9 19,5 23,1 14,0 5,4 15,4 19,5 27,2 17,7 6,3 6,8 16,3 16,8 19,5 19,5 28,1 28,6 17,7. 7,7 16,8 20,8 24,9 12,7 16,8 20,8 23,6 12,7 16,8 21,3 11,8 12,7 18,1 21,3 12,2 13,1 18,1 21,3 10,4 13,1 18,1 22,7 16,3 14,9 14,9 14,9 18,6 18,6 19,0 22,7 23,1 23,1 16,3 14,5 14,5 Calcule los estadísticos de tendencia central, el desvío estándar, la varianza y el coeficiente de variación, en forma agrupada y no agrupada. Compare los resultados y exprese cual es más preciso. ¿Por qué? 23 Los siguientes datos corresponden a miligramos de glicina por miligramo de creatinina en la orina de 37 chimpancés: 0,008 0,025 0,011 0,155 0,018 0,036 0,060 0,370 0,056 0,043 0,070 0,019 0,055 0,135 0,052 0,077 0,100 0,026 0,440 0,300 0,100 0,116 0,120 0,110 0,100 0,350 0,100 0,300 0,050 0,080 0,110 0,110 0,120 0,133 0,100 0,100 0,100. Calcular la media aritmética, el desvío típico, la varianza y el coeficiente de variación. 24 Las siguientes observaciones corresponden a 80 mediciones de la emisión (en toneladas) de óxido de azufre de una planta industrial: 31.8; 22.7; 26.8; 19.1; 18.5; 14.4; 26.4; 9.8; 22.7; 15.2; 23.0; 29.6; 17.3; 6.2; 18.0; 22.9; 24.6; 19.4; 11.2; 14.7; 20.5; 26.6; 20.1; 17.0; 23.9; 26.1; 11.0; 20.4; 16.2; 20.8; 24.8; 12.8; 20.9; 21.4; 18.0; 24.3; 13.9; 17.6; 15.5; 19.2; 7.7; 22.5; 9.0; 28.6; 19.4; 21.6; 13.5; 24.6; 13.2; 23.7; 16.7; 16.9; 23.5; 18.4; 18.7; 17.5; 10.7; 19.0; 14.5; 18.1. 25.9; 15.9; 18.1; 9.4; 28.5; 10.5; 27.5; 17.9; 20.1; 24.1; Realizar el estudio estadístico descriptivo y el análisis de normalidad. 25 En la siguiente tabla se presentan las muestras A y B. Observe que son iguales, excepto que en lugar del 8 en la muestra A hay un 9 en la B. A 2 4 5 5 7 8 B 2 4 5 5 7 9 ¿Cuál es el efecto de cambiar el 8 por el 9 sobre cada uno de los siguientes estadísticos? a) Media b) Mediana c) Moda d) Rango e) Varianza f) Desviación Estándar 59 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier 26 Se afirma que la adición de un nuevo acelerador disminuye el tiempo de secada de pintura látex por más de 4%. Se efectuaron varias muestras de prueba y se obtuvieron las siguientes disminuciones porcentuales en el tiempo de secada: 5.2 6.4 3.8 6.3 4.1 2.8 3.2 4.7 a) Encuentre la media de la muestra. b) Encuentre la desviación estándar. c) ¿Considera usted que estos porcentajes promedian 4 o más? Explique su repuesta. 27 Se supone que la gasolina bombeada de un gasoducto de suministro tiene un octanaje nominal de 87.5. Durante 13 días consecutivos se tomó una muestra que fue analizada y se encontraron los siguientes resultados: 88.6 86.4 87.2 88.4 87.2 87.6 86.8 86.1 87.4 87.3 86.4 86.6 87.1 a) Encuentre la media de la muestra. b) Encuentre la desviación estándar. c) ¿Considera usted que estos porcentajes parecen promediar 87.5? Explique su repuesta. 28 El siguiente conjunto de datos proporciona las edades de 118 conocidos delincuentes que cometieron el robo de un automóvil el año pasado en Garden City, Michigan. 11 14 15 15 16 16 17 18 19 21 25 36 12 14 15 15 16 16 17 18 19 21 25 39 13 14 15 15 16 17 17 18 20 22 26 43 13 14 15 15 16 17 17 18 20 22 26 46 13 14 15 16 16 17 17 18 20 22 27 50 13 14 15 16 16 17 17 19 20 23 27 54 13 14 15 16 16 17 18 19 20 23 29 59 13 15 15 16 16 17 18 19 20 23 30 67 14 15 15 16 16 17 18 19 21 24 31 14 15 15 16 16 17 18 19 21 24 34. a) Encuentre la media. b) Encuentre la mediana. c) Encuentre la moda. d) Encuentra el cuartil 1 y el 3. e) Encuentre la desviación estándar. f) Encuentra el percentil 10 y 95. 29 A continuación se presentan las longitudes (en mm.) de 100 truchas cafés que estaban en el estanque 2-B de Happy Acres Fish Hatchery: 15.0 15.3 14.4 10.4 10.2 11.5 15.4 11.7 15.0 10.9 13.6 10.5 13.8 15.0 13.8 14.5 13.7 13.9 12.5 15.2 10.7 13.1 10.6 12.1 14.9 14.1 12.7 14.0 10.1 14.1 10.3 15.2 15.0 12.9 10.7 10.3 10.8 15.3 14.9 14.8 14.9 11.8 10.4 11.0 11.4 14.3 15.1 11.5 10.2 10.1 14.7 15.1 12.8 14.8 15.0 10.4 13.5 14.5 14.9 13.9 10.1 14.8 13.7 10.9 10.6 12.4 14.5 10.5 15.1 15.8 12.0 15.5 10.8 14.4 15.4 14.8 11.4 15.1 10.3 15.4 15.0 14.0 15.0 15.1 13.7 14.7 10.7 14.5 13.9 11.7 15.1 10.9 11.3 10.5 15.3 14.0 14.6 12.6 15.3 10.4. 60 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier a) Construya la tabla de datos agrupados. b) Grafique el histograma. c) Calcule la media. d) Calcule la mediana. e) Calcule la moda. f) Calcule el rango. g) Calcule el cuartil 1 y el 3. h) Calcule el cuartil medio. i) Calcule el percentil 35 y 64. j) Calcule la desviación estándar. k) Calcule el percentil 10 y 95. 30 En el siguiente estudio, la media es 8,06 y la varianza es 11,9106: 01 - 03 03 - 04 05 - 07 07 - 09 09 - 11 11 - 13 13 - 15 15 - 17 2 4 6 8 5 3 2 1 Analizar la normalidad. 31 En una ciudad de la Provincia de Bs. As., la población masculina y femenina se distribuye de la siguiente manera: Grupo 0 a 9 años 10 a 19 años 20 a 29 años 30 a 39 años 40 a 49 años 50 a 59 años 60 a 69 años Más de 70 años Población Masculina Población Femenina 52000 47000 31000 37000 31000 27000 20000 16000 53000 51000 36000 39000 31100 28000 21000 20000 a) Evaluar la relación entre ambas poblaciones. b) ¿La regresión entre la población masculina y la femenina es lineal? 32 En una tarea de clasificación de patrones que constaba de 10 láminas se obtuvieron los siguientes datos de las diferencias de las distancias logarítmicas del estímulo a clasificar con respecto a los prototipos de las dos clases en que podía ser encuadrado y del número de errores cometidos por los sujetos: 61 Estadística Aplicada Actividades ESTADÍSTICA DESCRIPTIVA Di Paolo, Claudio Javier Lámina 1 2 3 4 5 6 7 8 9 10 Diferencia 0,71 0,67 1,98 1,61 0,67 1,48 0,25 1,44 1,06 0,95 Nº errores 12 10 4 2 6 5 16 3 4 8 a) Calcule el coeficiente de correlación de Pearson e interprete el resultado. b) Determine la recta de regresión que permite predecir el número de errores en función de la diferencia entre las distancias. c) De acuerdo con el modelo anterior, indique cual tiene que ser la diferencia para que no haya errores. 33 En el mismo trabajo del problema anterior, se calculó también la diferencia de las distancias euclídeas del patrón a clasificar con respecto a los prototipos de ambas clases, obteniéndose el siguiente resultado: Lámina 1 2 3 4 5 6 7 8 9 10 Diferencia 9,98 9,97 9,93 9,92 9,99 9,99 9,93 9,93 9,97 8,00 Indique qué distancia le parece mas adecuada para expresar la dificultad de la tarea y por qué. 34 Se ha medido la motivación ante el estudio a 38 sujetos, antes y después de participar en un programa de innovación didáctica. Obteniéndose los siguientes datos: Sujeto Pre-prueba Post-prueba Sujeto Pre-prueba Post-prueba Sujeto Pre-prueba Post-prueba 1 55 65 14 38 48 27 54 68 2 49 53 15 56 48 28 56 61 3 37 57 16 58 64 29 66 55 4 40 51 17 38 67 30 48 56 5 50 66 18 46 48 31 46 58 6 45 60 19 57 61 32 60 65 7 35 51 20 45 59 33 55 68 8 38 53 21 58 69 34 57 58 9 28 62 22 57 64 35 51 49 10 56 57 23 62 69 36 43 66 11 41 58 24 63 62 37 56 62 12 44 51 25 46 60 38 52 65 13 44 48 26 60 61 a) Calcule la recta de regresión que permite predecir los resultados de la post-prueba en función de las puntuaciones en la pre-prueba y descomponga la varianza total de las puntuaciones en la post-prueba en dos componentes. b) Calcule para cada individuo la diferencia entre el valor pronosticado por la recta obtenida en el apartado a y el valor observado. c) Calcule la media y varianza de las diferencias obtenidas en el apartado anterior y compare los resultados con lo obtenido en el apartado a. d) Calcule la recta de regresión que permite deducir las puntuaciones en la pre-prueba a partir del resultado obtenido por los sujetos en la postprueba. 62 Estadística Aplicada Actividades PROBABILIDAD Di Paolo, Claudio Javier 1 Sean A y B dos sucesos aleatorios con: p(A)= 3 8 p(B)= 1 2 p(A B)= 1 4 Hallar: a) p(A B) b) p( A ) c) p( B ) d) p(A B) e) p(A B) f) p(A B) g) p(B A) 2 Sean A y B dos sucesos aleatorios con: p(A)= 2 3 p(B)= 3 4 p(A B)= 1 4 Hallar: a) p( A ) b) p( B ) c) p(A B) d) p(B A) 3 La colección formada por el suceso A, el B, la unión de ambos, su intersección, y su diferencia, más el suceso seguro y el suceso imposible, no constituye un sigma-álgebra. Para demostrarlo basta comprobar que se incumple una de las dos condiciones. Por ejemplo, el suceso A incumple la segunda porque su contrario no pertenece a la colección. 4 En una asignatura se ha decidido aprobar a aquellos que superen uno de los dos parciales. Con este criterio aprobó el 80%, sabiendo que el primer parcial lo superó el 60% y el segundo el 50% ¿Cuál hubiese sido el porcentaje de aprobados, si se hubiese exigido superar ambos parciales? 5 Se sacan dos bolas de una urna que se compone de una bola blanca, otra roja, otra verde y otra negra. Escribir el espacio muestral cuando: a) La primera bola se devuelve a la urna antes de sacar la segunda. b) La primera bola no se devuelve. 6 Tenemos una urna con dos bolas blancas, tres verdes y cinco rojas. Extraemos al azar dos bolas simultáneamente. Recibimos 200 pesetas si las dos bolas son blancas, 100 si las dos son verdes y 10 si una es roja y la otra verde, en los demás casos no recibimos nada. ¿Cuál es el valor esperado de los premios? 63 Estadística Aplicada Actividades PROBABILIDAD Di Paolo, Claudio Javier 7 Una urna tiene ocho bolas rojas, 5 amarilla y siete verdes. Si se extrae una bola al azar calcular la probabiliidad de: a) Sea roja. b) Sea verde. c) Sea amarilla. d) No sea roja. e) No sea amarilla. 8 Una urna contiene tres bolas rojas y siete blancas. Se extraen dos bolas al azar. Escribir el espacio muestral y hallar la probabilidad de los sucesos: a) Con reemplazamiento. b) Sin reemplazamiento. 9 Se extrae una bola de una urna que contiene 4 bolas rojas, 5 blancas y 6 negras, ¿cuál es la probabilidad de que la bola sea roja o blanca? ¿Cuál es la probabilidad de que no sea blanca? 10 La prevalencia de la diabetes es del 4%. La glucemia basal diagnóstica correctamente el 95% de los diabéticos, pero da un 2% de falsos positivos. Diagnosticada una persona ¿Cuál es la probabilidad de que realmente sea diabética? 11 En una clase hay 10 alumnas rubias, 20 morenas, cinco alumnos rubios y 10 morenos. Un día asisten 45 alumnos, encontrar la probabilidad de que un alumno: a) Sea hombre. b) Sea mujer morena. c) Sea hombre o mujer. 12 Un dado está trucado, de forma que las probabilidades de obtener las distintas caras son proporcionales a los números de estas. Hallar: a) La probabilidad de obtener el 6 en un lanzamiento. b) La probabilidad de conseguir un número impar en un lanzamiento. 13 Se lanzan dos dados al aire y se anota la suma de los puntos obtenidos. Se pide: a) La probabilidad de que salga el 7. b) La probabilidad de que el número obtenido sea par. c) La probabilidad de que el número obtenido sea múltiplo de tres. a) La probabilidad de que salga 6 en todos. b) La probabilidad de que los puntos obtenidos sumen 7. 14 Se lanzan tres dados. Encontrar la probabilidad de que: a) Salga 6 en todos. b) Los puntos obtenidos sumen 7. 64 Estadística Aplicada Actividades PROBABILIDAD Di Paolo, Claudio Javier 15 Hallar la probabilidad de que al levantar unas fichas de dominó se obtenga un número de puntos mayor que 9 o que sea múltiplo de 4. 16 Busca la probabilidad de que al echar un dado al aire, salga: a) Un número par. b) Un múltiplo de tres. c) Mayor que cuatro. 17 Hallar la probabilidad de que al lanzar al aire dos monedas, salgan: a) Dos caras. b) Dos cruces. c) Una cara y una cruz. 18 En un sobre hay 20 papeletas, ocho llevan dibujado un coche las restantes son blancas. Hallar la probabilidad de extraer al menos una papeleta con el dibujo de un coche: a) Si se saca una papeleta. b) Si se extraen dos papeletas. c) Si se extraen tres papeletas. 19 Los estudiantes A y B tienen respectivamente probabilidades 1/2 y 1/5 de suspender un examen. La probabilidad de que suspendan el examen simultáneamente es de 1/10. Determinar la probabilidad de que al menos uno de los dos estudiantes suspenda el examen. 20 Dos hermanos salen de caza. El primero mata un promedio de 2 piezas cada 5 disparos y el segundo una pieza cada 2 disparos. Si los dos disparan al mismo tiempo a una misma pieza, ¿cuál es la probabilidad de que la maten? 21 Un mecanismo eléctrico que contiene cuatro interruptores sólo funciona cuando todos ellos están cerrados. En sentido probabilístico, los interruptores son independientes en lo que se refiere al cierre o a la apertura, y, para cada uno de ellos, la probabilidad de que no funcione es 0,1. Calcúlese la probabilidad de que no funcione el mecanismo en conjunto, despreciando todas las causas que pueden hacer que el mecanismo no funcione, excepto los propios interruptores. 22 En un almacén se tiene que despachar 60 pedidos, y se sabe que 5 de ellos son de una cierta mercancía A. Si se cumplimentan los 60 pedidos al azar, ¿cuál es la probabilidad de que el primero y el cuarto pedido sean de la mercancía A y de que simultáneamente no lo sean el segundo y el tercero? ¿Cuál es la probabilidad de que en los cuatro primeros pedidos a cumplimentar haya al menos dos pedidos de la mercancía A?. 65 Estadística Aplicada Actividades PROBABILIDAD Di Paolo, Claudio Javier 23 Un lote de N objetos contiene k defectuosos, aunque la mayoría, N-k, están en buenas condiciones. Si se eligen al azar n objetos, ¿cual es la probabilidad de que los primeros c objetos (c < k) sean defectuosos y el resto, n-c, no lo sean? ¿Cual es la probabilidad total de que, de los n objetos elegidos al azar, c sean defectuosos? 24 ¿De cuántas maneras pueden sentarse 10 personas en un banco si hay 4 sitios disponibles? 25 Las diagonales de un polígono se obtienen uniendo pares de vértices no adyacentes. a) Obtener el número de diagonales del cuadrado, el hexágono y el octógono. Calcularlo para el caso general de un polígono de n lados. b) ¿Existe algún polígono en el que el número de lados sea igual al de diagonales? 26 ¿Cuántos números de 4 dígitos se pueden formar con las siguientes cifras ?: 0,1, . . . ,9. a) Permitiendo repeticiones. b) Sin repeticiones. c) Si el último dígito ha de ser 0 y no se permiten repeticiones. 27 Cuando se arrojan simultáneamente 4 monedas, a) ¿Cuáles son los resultados posibles que se pueden obtener? b) ¿Cuántos casos hay en que salgan 2 caras y 2 cruces? 28 Cuatro libros de matemáticas, seis de física y dos de química se colocan en una estantería. Cuántas colocaciones distintas admiten si: a) Los libros de cada materia han de estar juntos; b) Sólo los de matemáticas tienen que estar juntos? 29 En una universidad se ha observado que el 60% de los estudiantes que se matriculan lo hacen en una carrera de Ciencias, mientras que el otro 40% lo hacen en carreras de Humanidades. Si un determinado día se realizan 20 matrículas, calcular la probabilidad de que: a) haya igual número de matrículas en Ciencias y en Humanidades; b) el número de matrículas en Ciencias sea menor que en Humanidades; c) haya al menos 8 matrículas en Ciencias; d) no haya más de 12 matrículas en Ciencias. e) Si las cinco primeras matrículas son de Humanidades, calcular la probabilidad de que: I. En total haya igual número de matrículas en Ciencias y en Humanidades; II. En total haya al menos 6 en Ciencias más que en Humanidades. 66 Estadística Aplicada Actividades PROBABILIDAD Di Paolo, Claudio Javier 30 Si un estudiante responde al azar a un examen de 8 preguntas de verdadero o falso ¿Cuál es la probabilidad de que acierte 4? ¿Cual es la probabilidad de que acierte dos o menos? ¿Cuál es la probabilidad de que acierte cinco o más? ¿Cuanto valen la media y la varianza del número de preguntas acertadas? 31 En una población en la que hay un 40% de hombres y un 60% de mujeres seleccionamos 4 individuos ¿Cual es la probabilidad de que haya 2 hombres y 2 mujeres? ¿Cual es la probabilidad de que haya más mujeres que hombres? 32 Sabiendo que la variable Z sigue una distribución Normal cero, uno, calcule las siguientes Probabilidades: P(Z< 0,93) P(Z< 1,68) P(Z< -2,27) P(Z< -0,27) P(Z > 0,62) P(Z > 2,05) P(Z > -1,07) P(Z > -3,39) P(0,56 < Z< 2,80) P(-2,81 < Z< -0,33) P(-0,85 < Z< 0,72) 33 Siendo Z una N(0,1), calcule los valores de la variable que verifican las siguientes condiciones: P(Z< z) = 0,70 P(Z< z) = 0,90 P(Z< z) = 0,35 P(Z< z) = 0,05 P(Z > z) = 0,25 P(Z > z) = 0,05 P(Z > z) = 0,85 P(Z > z) = 0,69 P(-z < Z< z) = 0,90 P(-z < Z< z) = 0,60 34 Partiendo de que X es una variable que sigue una distribución Normal de media 50 y desviación típica 4, calcule las siguientes probabilidades: P(X< 55) P(X< 59) P(X< 47,5) P(X< 45,6) P(X > 60,4) P(X > 58,64) P(X > 48,2) P(X > 46,26) P(52 < X< 54) P(44,5 < X< 49) P(47,25 < X< 53,48) 35 Las calificaciones en un examen siguen una distribución Normal de media 5,6 y desviación típica 0,8. a) ¿Qué proporción de alumnos tendrá notas inferiores o iguales a 4? b) ¿Qué proporción de alumnos aprobará? c) ¿Qué proporción de alumnos obtendrá Notable o Sobresaliente? 36 Las puntuaciones en un test de ansiedad-rasgo siguen, en una población de mujeres, una distribución Normal de media 25 y desviación Típica 10. Si queremos clasificar la población en cuatro grupos de igual tamaño ¿Cuales serán las puntuaciones que delimiten estos grupos? 37 Una prueba consta de 200 preguntas de verdadero o falso, para un sujeto que respondiese al azar ¿Cual sería la probabilidad de que acertase? a) 50 preguntas o menos. b) Más de 50 y menos de 100. c) Más de 120 preguntas. 67 Estadística Aplicada Actividades INFERENCIA ESTADÍSTICA Di Paolo, Claudio Javier PRUEBA DE HIPÓTESIS 1 Las mediciones del número de cigarrillos fumados al día por un grupo de diez fumadores es el siguiente: 5, 10, 3, 4, 5, 8, 20, 4, 1, 10. Realice la prueba de hipótesis H0 : µ=10 vs. H1 : µ<10, suponiendo que los datos provienen de una muestra tomada al azar por una población normal. 2 Se cree que la estatura promedio de los mexicanos es de 1.70 me-tros de estatura. Lleve a cabo la prueba de hipótesis H0 : µ=70 vs. H1 : µ=70, con el siguiente conjunto de datos: 1.65, 1.75, 1.63, 1.81, 1.74, 1.59, 1.73, 1.66, 1.66, 1.83, 1.77, 1.74, 1.64, 1.69, 1.72, 1.66, 1.55, 1.60, 1.62. 3 En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de actividades de ocio que gustan más a sus habitantes. Para ello van a ser encuestados 100 individuos elegidos al azar. a) Explicar qué procedimiento de selección sería más adecuado utilizar: muestreo con o sin reposición. ¿Por qué? b) Como los gustos cambian con la edad y se sabe que en el barrio viven 2.500 niños, 7.000 adultos y 500 ancianos, posteriormente se decide elegir la muestra anterior utilizando un muestreo estratificado. Determinar el tamaño muestral correspondiente a cada estrato. 4 Sea la población de elementos: {22, 24, 26}. a) Escriba todas las muestras posibles de tamaño dos, escogidas mediante muestreo aleatorio simple. b) Calcule la varianza de la población. c) Calcule la varianza de las medias muestrales. 5 La variable altura de las alumnas que estudian en una escuela de idiomas sigue una distribución normal de media 1,62 m y la desviación típica 0,12 m. ¿Cuál es la probabilidad de que la media de una muestra aleatoria de 100 alumnas sea mayor que 1.60 m? 6 Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han encontrado los siguientes precios: 95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110. Suponiendo que los precios de este producto se distribuyen según una ley normal de varianza 25 y media desconocida: a) ¿Cuál es la distribución de la media muestral? b) Determine el intervalo de confianza,al 95%,para la media poblacional. 68 Estadística Aplicada Actividades INFERENCIA ESTADÍSTICA Di Paolo, Claudio Javier 7 La media de las estaturas de una muestra aleatoria de 400 personas de una ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es una variable aleatoria que sigue una distribución normal con varianza σ2 = 0,16 m2. Construye un intervalo, de un 95% de confianza, para la media de las estaturas de la población. 8 ¿Cuál sería el mínimo tamaño muestral necesario para que pueda decirse que la verdadera media de las estaturas está a menos de 2 cm de la media muestral, con un nivel de confianza del 90%? 9 Las ventas mensuales de una tienda de electrodomésticos se distribuyen según una ley normal, con desviación típica 900 €. En un estudio estadístico de las ventas realizadas en los últimos nueve meses, se ha encontrado un intervalo de confianza para la media mensual de las ventas, cuyos extremos son 4.663 € y 5.839 €. a) ¿Cuál ha sido la media de las ventas en estos nueve meses? b) ¿Cuál es el nivel de confianza para este intervalo? 10 Se desea estimar la proporción, p, de individuos daltónicos de una población a través del porcentaje observado en una muestra aleatoria de individuos, de tamaño n. a) Si el porcentaje de individuos daltónicos en la muestra es igual al 30%, calcula el valor de n para que, con un nivel de confianza de 0,95, el error cometido en la estimación sea inferior al 3,1%. b) Si el tamaño de la muestra es de 64 individuos, y el porcentaje de individuos daltónicos en la muestra es del 35%, determina, usando un nivel de significación del 1%, el correspondiente intervalo de confianza para la proporción de daltónicos de la población. 11 En una población una variable aleatoria sigue una ley normal de media desconocida y desviación típica 2. a) Observada una muestra de tamaño 400, tomada al azar, se ha obtenido una media muestra al igual a 50. ¿Calcule un intervalo, con el 97 % de confianza, para la media de la población. b) Con el mismo nivel de confianza, ¿qué tamaño mínimo debe tener la muestra para qué la amplitud del intervalo sea, como máximo, 1? 12 Una marca de nueces afirma que, como máximo, el 6% de las nueces están vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías. a) Con un nivel de significación del 1%, ¿se puede aceptar la afirmación de la marca? b) Si se mantiene el porcentaje muestral de nueces que están vacías y 1-α = 0.95, ¿qué tamaño muestral se necesitaría para estimar la proporción de nueces con un error menor del 1% por ciento? 69 Estadística Aplicada Actividades INFERENCIA ESTADÍSTICA Di Paolo, Claudio Javier 13 La duración de la bombilla de 100 W que fabrica una empresa, sigue una distribución normal con una desviación típica de 120 horas de duración. Su vida media está garantizada durante un mínimo de 800 horas. Se escoge al azar una muestra de 50 bombillas de un lote y, después de comprobarlas, se obtiene una vida media de 750 horas. Con un nivel de significación de 0,01; ¿habría que rechazar el lote por no cumplir la garantía? 14 Los siguientes datos corresponden a la longitud medida en centímetros de 18 pedazos de cable sobrantes en cada rollo utilizado: 9; 3,41; 6,13; 1,99; 6,92; 3,12; 7,86; 2,01; 5,98; 4,15; 6,87; 1,97; 4,01; 3,56; 8,04; 3,24; 5,05 y 7,37. Basados en estos datos ¿podemos decir que la longitud media de los pedazos de cable es mayor de 4 cm?. Suponga población normal y tome el nivel de significancia 0,05. La proposición cuya validez o invalidez queremos probar es "la longitud promedio de los pedazos de cable es como mucho 4 cm." 15 Un agrónomo mide el contenido promedio de humedad en cierta variedad de trigo que fue secado especialmente en una muestra de 16 toneladas: 7,2; 6,8; 7,3; 7; 7,3; 7,3; 7,5; 7,3; 7,4; 7,2; 7,6; 7,1; 7,4; 6,7; 7,4 y 6,9. Si el promedio de humedad excede de 7,1 el secado debe continuar. ¿Debería continuarse con el proceso de secado, de acuerdo con esta evidencia? Tome un nivel de significancia del 5%. 16 Al medir el diámetro transversal del corazón de los adultos del sexo masculino y femenino se obtuvieron los siguientes resultados: Grupo Tamaño de muestra Media muestral (cm) S en cm Hombres 12 13,21 1,05 Mujeres 9 11 1,01 Suponga que las varianzas de las dos poblaciones son iguales. ¿Proporcionan estos datos suficiente evidencia que indique que el diámetro transversal promedio del corazón de los hombres es igual al de las mujeres? Tome un nivel de significancia del 5%. 17 10 personas fueron sometidas a un test antes y después de recibir cierta instrucción los resultados fueron como sigue: Individuo 1 2 3 4 5 6 7 8 9 10 Antes 70 84 88 110 105 100 110 67 79 86 Después 115 148 176 191 158 178 179 140 161 157 ¿Proporcionan estos datos evidencia suficiente para decir que la instrucción fue efectiva? Tome un nivel de significancia del 1%. 70 Estadística Aplicada Actividades INFERENCIA ESTADÍSTICA Di Paolo, Claudio Javier 18 Se comparó la eficacia de dos tipos de aceite para evitar el desgaste en unas piezas. En 13 piezas se utilizó el aceite 1 y en otras 13 el aceite 2. Las varianzas muestrales fueron 64 y 16 respectivamente. Pruebe la hipótesis nula según la cual la varianza de las dos poblaciones son iguales. Tome un nivel de significancia del 5%. 19 Una muestra de 100 empleados que habían estado en contacto con sangre o derivados de ésta, fue examinada por presentar evidencia serológica de hepatitis B. Se encontró que 23 de ellos presentaron reacción positiva. ¿Puede concluirse a partir de estos datos que la proporción de los positivos es mayor de 0,15? Tome un nivel de significancia del 5%. PROBLEMAS DE ESTIMACIÓN PUNTUAL 20 Los siguientes datos corresponden a los pesos (en kilogramos) de 15 hombres escogidos al azar y que trabajan en una empresa: 72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77, 70, 69. Estime el peso promedio, su error, y la desviación estándar. 21 Entre los miembros de una comunidad se escogieron 150 personas al azar y se les preguntó si estaban de acuerdo con los programas que el gobierno estaba desarrollando para prevenir el consumo de drogas; la encuesta dió como resultado que 130 sí estaban de acuerdo. Estime la proporción de los que estaban de acuerdo y el error estándar. 22 De las 50 aulas que tiene un edificio de la facultad de matemáticas se escogieron al azar 5 y se determinó el número de alumnos que había en cada una de ellas en la primera hora de clases. Estime el número de alumnos que hay en el edificio si todas las aulas se encuentran ocupadas a esa hora, y si el número de alumnos en cada una de las aulas inspeccionadas fue: 24, 35, 16, 30, 28. , estime el error del número total de estudiantes. 23 Teniendo en cuenta los datos del problema 23, estime el error del peso promedio. 24 Teniendo en cuenta los datos del problema 25, estime el error del número total de estudiantes. 71 Estadística Aplicada Actividades INFERENCIA ESTADÍSTICA Di Paolo, Claudio Javier PROBLEMAS DE ESTIMACIÓN POR INTERVALOS 25 Una muestra aleatoria de 36 cigarrillos de una marca determinada dio un contenido promedio de nicotina de 3 miligramos. Suponga que el contenido de nicotina de estos cigarrillos sigue una distribución normal con una desviación estándar de 1 miligramo. 26 Obtenga e interprete un intervalo de confianza del 95% para el verdadero contenido promedio de nicotina en estos cigarrillos. 27 El fabricante garantiza que el contenido promedio de nicotina es de 2,9 miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado? 28 El tiempo (en minutos) que tardaron 15 operarios para familiarizarse con el manejo de una máquina moderna adquirida por la empresa fue: 3,4; 2,8; 4,4; 2,5; 3,3; 4; 4,8; 2,9; 5,6; 5,2; 3,7; 3; 3,6; 2,8 y 4,8. Suponga que los tiempos se distribuyen normalmente. a) Determine e interprete un intervalo del 95% de confianza para el verdadero tiempo promedio b) El instructor considera que el tiempo promedio requerido por la población de trabajadores que recibe instrucción sobre esta máquina es superior a 5 minutos, ¿qué se puede decir de acuerdo con el intervalo hallado? 29 Se desea medir la diferencia entre dos categorías de empleados en la actividad de seguros. Una está formada por personas con título superior y la otra por personas que sólo tienen estudios secundarios. Tomamos una muestra de 45 empleados entre los primeros y la media de ventas resulta ser 32. Tomamos 60 empleados del segundo grupo y la media es 25. Suponga que las ventas de los dos grupos se distribuyen normalmente con varianzas de 48 para los titulados superiores y 56 para los de estudios secundarios. a) Calcule e interprete un intervalo del 90% de confianza para la verdadera diferencia de las medias. b) De acuerdo con el intervalo hallado, ¿hay evidencia de que las medias sean iguales? 30 Se registraron los siguientes datos, en minutos, que tardan algunos hombres y mujeres en realizar cierta actividad en una empresa, los cuales fueron seleccionados aleatoriamente. HOMBRES n1=14 Media=17 Varianza=1,5 MUJERES n2=25 Media=19 Varianza=1,8 72 Estadística Aplicada Actividades INFERENCIA ESTADÍSTICA Di Paolo, Claudio Javier Suponga que los tiempos para los dos grupos se distribuyen normalmente y que las varianzas son iguales, aunque desconocidas. a) Calcule e interprete un intervalo de confianza del 99% para la verdadera diferencia de medias. b) De acuerdo con el intervalo hallado, ¿hay evidencia de que los dos tiempos promedio son iguales? 31 Una fábrica desea saber la proporción de amas de casa que preferirían una aspiradora de su marca. Se toma al azar una muestra de 100 amas de casa y 20 dicen que les gustaría la máquina. Calcule e interprete un intervalo del 95% de confianza para la verdadera proporción de amas de casa que preferirían dicha aspiradora. 32 Se está considerando cambiar el procedimiento de manufactura de partes. Se toman muestras del procedimiento actual así como del nuevo para determinar si este último resulta mejor. Si 75 de 1.000 artículos del procedimiento actual presentaron defectos y lo mismo sucedió con 80 de 2.500 partes del nuevo, determine un intervalo de confianza del 90% para la verdadera diferencia de proporciones de partes defectuosas. 33 Un fabricante de baterías para automóvil asegura que las baterías que produce duran en promedio 2 años con una desviación estándar de 0,5 años. Si cinco de estas baterías tienen duración 1,5; 2,5; 2,9; 3,2 y 4 años, determine un intervalo del 95% para la varianza e indique si es cierta la afirmación del fabricante. 34 En una muestra de 1000 nacimientos el número de varones ha sido 542 ¿Puede considerarse, con un nivel de significación del 10%, que en general nacen más niños que niñas? 35 Los tiempos de reacción, en mili segundos, de 17 sujetos frente a una matriz de 15 estímulos fueron los siguientes: 448, 460, 514, 488, 592, 490, 507, 513, 492, 534, 523, 452, 464, 562, 584, 507, 461. Suponiendo que el tiempo de reacción se distribuye Normalmente, determine un intervalo de confianza para la media a un nivel de confianza del 95%. 73 Estadística Aplicada Bibliografía Di Paolo, Claudio Javier Francisca Rius Díaz y Francisco Javier Barón López. Bioestadística. Editorial Thomson. Madrid, España. 2005. Jesús Esteban García, José M. Bachero Nebot, Olga Ma. Blasco Blasco y otros. Estadística Descriptiva y nociones de Probabilidad. Editorial Thomson. Madrid, España. 2005. Robert Jonson y Patricia Kuby. Estadística Elemental. Lo esencial. Tercera Edición. Editorial Thomson. México. 2004. J. G. Kalbfleisch. Probabilidad e inferencia estadística 1. Editorial AC. 1984. George C. Canavos. Probabilidad y Estadística. Aplicaciones y Métodos. Editorial Mc Graw-Hill. México. 1988. Dooglas A. Skoog, Donald M. West. F. James Holler. Stanley R. Crouch. Fundamentos de Química Analítica. Octava Edición. Editorial Thomson. Madrid, España. 2005. Antonio Jara Sánchez-Caro. Estadística. Enero de 2003. NAVAL EDUCATION AND TRAINING PROFESSIONAL DEVELOPMENT AND TECHNOLOGY CENTER. Mathematics, Introduction to Statistics, Number Systems and Boolean Algebra. Edición Agosto 1986. http://courses.cnet.navy.mil Documentos pdf consultados (teoría y práctica): Capítulo 7. Inferencia estadística: estimación de parámetros. 15/03/2004. Raúl Mestas Argüelles. Métodos estadísticos de la Ingeniería. E.U.I.T.I.G. 2003/2004. Capítulo IV. Inferencia Estadística. N. Guarín S. Estadística Aplicada. Universidad Nacional de Colombia. Medellín. Septiembre de 2002. http://tifon.unalmed.edu.co/~pagudel/estadistica.html Pedro Cuesta Álvaro. Introducción Técnicas Estadísticas aplicadas a Ciencias de la Salud. Apoyo a Investigación Servicios Informáticos UCM. José A. Mayor Gallego. Estadística Descriptiva. Tema 6. Regresión y Correlación. Departamento de Estadística e Investigación Operativa. Universidad de Sevilla. 2004-2005. Di Rienzo, Julio A.; Casanoves, Fernando; González, Laura y otros. Estadística para las Ciencias Agropecuarias. Cuarta Edición. Córdoba, Argentina. 2001. Yolanda Gallardo de Parada; Aurora Inés Gáfaro Rojas; Sandra P. Valero Ortega. Estadística Básica. Universidad de Pamplona. Luis Ruiz Maya-Pérez; Javier Martín Pliego. Fundamentos de Inferencia Estadística. Editorial AC. Madrid, España. Julio de 1999. José M. Casas Sánchez. Inferencia Estadística para Economía y Administración de Empresas. Editorial Centro de Estudios Ramón Areces, S.A. Alejandro García del Valle. Apuntes de Estadística. Ferrol. 1 de Septiembre de 1995. L. A. Rincón. Manual de Probabilidad y Estadística para Computación. Notas preliminares y ejercicios. Departamento de Matemática. UNAM. 2003. 74 Estadística Aplicada Bibliografía Di Paolo, Claudio Javier J. C. Miller y J. N. Miller. Estadística para Química Analítica. Segunda Edición. Editorial Addison-Wesley; Iberoamericana. Estados Unidos. 1993. Juan José Salazar González Marta López Yurda. Ejercicios Resueltos de Probabilidad. Tenerife, 14 de Agosto de 2001. José M. Salinas. Problemas de Análisis de Datos. Algunas de las actividades fueron extraídas de: http://www.matematicasypoesia.com.es http://www.vitutor.com 75