Universidad de Mendoza Ing. Jesús Rubén Azor Montoya PRESENTACIONES ESTADISTICAS Distribuciones de frecuencia: Son tablas en las que se agrupan lo valores posibles de una variable y se registra el número de valores observados que corresponden a cada clase. Como ejemplo se verá la distribución de frecuencias de los salarios semanales para 100 trabajadores: Salario semanal (en pesos) Número de Trabajadores (frecuencia) 140 – 159 160 – 179 180 – 199 200 – 219 220 – 239 240 – 259 07 20 33 25 11 04 Total=100 muestra) (tamaño de la Intervalos de Clase: Un ejemplo de ellos lo constituye 140 - 159, los límites de clase superior e inferior son: 159 y 140 respectivamente. Estos indican los valores incluidos dentro de la clase. Las fronteras de clase o límites exactos son puntos específicos de la escala que sirven para "separar clases adyacentes". Se pueden determinar identificando los puntos que están en la mitad entre los límites superior e inferior de las clases adyacentes. Por ejemplo, para 140 - 159 y 160 - 179 la frontera de clase está en 159.50. El intervalo de clase indica el rango de valores incluídos dentro de una clase y se puede determinar restando la frontera de clase inferior de la frontera de clase superior. Puede ser útil el punto medio de clase, que se determina sumando la mitad del intervalo de clase a la frontera inferior de clase. ______________________________________________________________________ Cátedra Estadística Aplicada II 1 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Resumiendo: Salario semanal (límite de clases) 140 - 159 160 - 179 180 - 199 200 - 219 220 - 239 240 - 259 Fronteras de clase 139.5 - 159.5 159.5 - 179.5 179.5 - 199.5 199.5 - 219.5 219.5 - 239.5 239.5 - 259.5 Punto medio de clase 149.5 169.5 189.5 209.5 229.5 249.5 Total: Nro. de Trabajadores 7 20 33 25 11 4 100 Conviene que los intervalos de clase sean iguales. Se puede determinar el intervalo de clase en forma aproximada del siguiente modo: Para el caso anterior, supuesto que los valores menores y mayores de los datos no agrupados fueran 142 y 258 respectivamente, y se desean 6 clases: Int_aprox 258 142 6 Int_aprox 19.333 El más próximo será 20. Para datos distribuido "irregularmente" pueden ser convenientes intervalos irregulares de clase. Se utilizan intervalos mayores para los rangos de valores en los que hay relativamente pocas observaciones. HISTOGRAMAS Y POLIGONOS DE FRECUENCIA Un histograma es un diagrama de barras de una distribución de frecuencias, donde en ordenadas se representan las observaciones y en abscisas las fronteras de clase. En general es conveniente que el número de observaciones sea superior a las 30. Para el caso del ejemplo considerado: ______________________________________________________________________ Cátedra Estadística Aplicada II 2 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Un polígono de frecuencias es un gráfico de distribución de frecuencias de tipo lineal. Es posible trabajar con estas figuras de resumen en forma más dinámica a través de la utilización de Matlab. Para la realización del histograma, se deben definir el vector que comprenda a los datos no agrupados y el vector de los intervalos. Luego, mediante una operación que se verá más adelante, se podrá observar cómo se calcula un tercer vector correspondiente a la distribución de frecuencia en cada intervalo. La forma más sencilla de representar el histograma es cuando se tienen los datos agrupados como en el ejemplo. Para esto basta representar "la función" en diagrama de barras", mediante el siguiente segmento de programa que utiliza la función bar: function barras % Permite representar graficamente en un diagrama de barras elvector % de puntos medios de clase y el de frecuencias % Entradas: puntos: vector de puntos medios de clase ______________________________________________________________________ Cátedra Estadística Aplicada II 3 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya % frecuencias: vector con las correspondientes frecuencias % Salida: Histograma % Vectores de entrada puntos =[149.5000 169.5000 189.5000 209.5000 229.5000 249.5000]; frecuencias =[7 20 33 25 11 4]; % Grafico de barras bar(puntos,frecuencias) que da el siguiente resultado: Si se poseen los datos no agrupados, como podrían ser 1000 números aleatorios comprendidos entre 0 y 10, se procede del siguiente modo utilizando la función hist: function aleatorio % Permite ver el histograma de un conjunto de datos no agrupados, como podrían % ser 1000 números aleatorios comprendidos entre 0 y 10 % Entrada: datos, vector de datos % % Salida: Histograma % Vector de datos for i=1:1000, datos(i)=rand*10;end % Vector con los centros de intervalos x=0.5:1:9.5; % Histograma m=hist(datos,x); hist(datos,x) m %vector de frecuencias en cada intervalo Para esta corrida, el vector de frecuencias resultante es: ______________________________________________________________________ Cátedra Estadística Aplicada II 4 Universidad de Mendoza [103 91 91 99 Ing. Jesús Rubén Azor Montoya 96 106 112 101 100 101] y el histograma correspondiente: Si se quisiera obtener el "polígono de frecuencia" basta con cambiar las características de la presentación gráfica, pasando a representar en el formato "línea". Para ello se recurre a: function poligono % Permite representar graficamente el poligono de frecuencias % Entradas: puntos: vector de puntos medios de clase % frecuencias: vector con las correspondientes frecuencias % Salida: Poligono de frecuencias % Vectores de entrada puntos =[149.5000 169.5000 189.5000 209.5000 229.5000 249.5000]; frecuencias =[7 20 33 25 11 4]; % Grafico plot(puntos,frecuencias) que entrega por resultado: ______________________________________________________________________ Cátedra Estadística Aplicada II 5 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Es posible hallar la "Curva de Frecuencia" haciendo un polígono suavizado. Para ello se puede utilizar la función "spline cúbica" incorporada en Matlab. SPLINE Interpolación de datos con spline Cúbico YY = SPLINE(X,Y,XX) usa la interpolación spline cúbica para encontrar YY, los valores de la función subyacente Y en los puntos en los cuales están dados los datos Y. Esto se puede observar corriendo el siguiente segmento de programa: function suave % Permite representar graficamente el poligono de frecuencias en forma suavizada % Entradas: puntos: vector de puntos medios de clase % frecuencias: vector con las correspondientes frecuencias % Salida: Poligono de frecuencias suavizado % Vectores de entrada puntos =[149.5000 169.5000 189.5000 209.5000 229.5000 249.5000]; frecuencias =[7 20 33 25 11 4]; % Calculo del spline x=puntos(1):puntos(length(puntos)); % malla para representar el suavizado PP = spline(puntos,frecuencias,x); % vector resultante de la interpolacion % Grafico plot(x,PP) que da como salida: ______________________________________________________________________ Cátedra Estadística Aplicada II 6 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya En términos de disimetría se las puede clasificar en: En términos de curtosis se las puede clasificar en: DISTRIBUCION DE FRECUENCIA ACUMULADA Salario semanal (límite de clases) 140 - 159 160 - 179 180 - 199 200 - 219 220 - 239 240 - 259 Fronteras Superior de clase 159.5 179.5 199.5 219.5 239.5 259.5 Total: Nro. de Trabajadores 7 20 33 25 11 4 100 Frecuencia Acumulada 7 20+7=27 27+33=60 60+25=85 85+11=96 96+4=100 ______________________________________________________________________ Cátedra Estadística Aplicada II 7 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya La tabla de arriba explicita este concepto: El gráfico de una distribución de frecuencia acumulada se llama "Ojiva". Para el tipo "menor que", el gráfico indica la frecuencia acumulada debajo de cada frontera de clase, obtenido mediante el siguiente segmento de programa: function ojiva % Permite representar graficamente la distribucion de frecuencia acumulada % Entradas: puntos: vector de puntos medios de clase % frecuencias: vector con las correspondientes frecuencias % Salida: distribucion de frecuencia acumulada (ojiva) % Vectores de entrada puntos =[149.5000 169.5000 189.5000 209.5000 229.5000 249.5000]; frecuencias =[7 20 33 25 11 4]; % Vector de frecuencias acumuladas f_acumulada(1)=frecuencias(1); for i=2:length(puntos), f_acumulada(i)=f_acumulada(i-1)+frecuencias(i); end % Grafico plot(puntos,f_acumulada) que gráficamente entrega el siguiente resultado: Si se suaviza se obtiene la "curva ojiva suavizada". ______________________________________________________________________ Cátedra Estadística Aplicada II 8 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya DISTRIBUCION DE FRECUENCIA RELATIVA Es aquella en que el número de observaciones de cada clase se convierte en una frecuencia relativa dividiéndola por el número total de observaciones en la distribución. POBLACIONES Y MUESTRAS Un conjunto de observaciones x1, x2,…,xn constituye una muestra aleatoria de una población finita de tamaño n de una población finita de medida N, si es elegida en forma tal que cada subconjunto de tamaño n de los N elementos de la población tenga la misma probabilidad de ser elegida. Un conjunto de observaciones x1, x2,…,xn constituye una muestra aleatoria de una población infinita con densidad de probabilidad f(x) si: Cada xi es un valor de una variable aleatoria cuya distribución tiene los valores conforme a f(x) Estas n variables aleatorias son independientes En general, se pretende hacer inferencias sobre los parámetros de la población ( o ). Para efectuar las inferencias se utilizan estadísticos (como o s) que son cantidades calculadas a partir de observaciones de muestras. DISTRIBUCIÓN MUESTRAL DE LA MEDIA ( conocida) Si de alguna población de parámetros conocidos se extraen n muestras es difícil que la medias de tales muestras coincidan. Ejemplo I: Dada la población infinita cuya distribución está dada por: ______________________________________________________________________ Cátedra Estadística Aplicada II 9 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya x 1 2 3 4 f(x) 0.25 0.25 0.25 0.25 listar las 16 muestras posibles de tamaño 2 (24 = 16) y construir la distribución de muestras aleatorias de tamaño 2 de la población. 1,1 2,1 3,1 4,1 1,2 2,2 3,2 4,2 1,3 2,3 3,3 4,3 para 1,4 2,4 3,4 4,4 las medias correspondientes a cada muestra son; 1 1.5 2 2.5 1.5 2 2.5 3 2 2.5 3 3.5 2.5 3 3.5 4 con lo que se puede hacer el siguiente agrupamiento de la distribución de medias: 1.0-1.49 1.5-1.99 2.0-2.49 2.5-2.99 3.0-3.49 3.5-3.99 4.0-4.49 frecuencia 1 2 3 4 3 2 1 Gráficamente, se puede observar el histograma ejecutando las siguientes sentencias en Matlab: >> x=1.25:0.5:4.25; f=[1 2 3 4 3 2 1];bar(x,f) ______________________________________________________________________ 10 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Ejemplo II: Hallar 500 muestras aleatorias de tamaño n=10 extraída de una población que tiene distribución uniforme discreta que responde a la siguiente función densidad: 1/10 para x=0,1,…,9 f(x) = 0 en los demás casos si el muestreo es con reemplazo se puede considerar a la población como infinita. Es posible hallar la media de cada muestra y formar el arreglo correspondiente, mediante la corrida del siguiente segmento de programa: function muestras % Permite obtener un vector de n medias de muestras de tamaño 10 de % una poblacion uniformemente distribuida % % Salida: vector de medias n=500; for i=1:n,a=0; for j=1:10, a=a+floor(rand*10); end m(i)=a/10; end m % guarda el resultado en el archivo ascii m.prn save m.prn -ascii m A partir de aquí se puede organizar la distribución de frecuencias y el histograma correspondiente: function hist_muestras % Permite obtener el histograma del conjunto de valores que conforman % el archivo "m.prn" ______________________________________________________________________ 11 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya % Entrada: m, Vector obtenido desde el archivo "m.dbf" % % Salida: f, vector de frecuenncias % Histograma load m.prn % generacion del vector de puntos medios de n intervalos n=10 % numero de intervalos delta=(max(m)-min(m))/n % ancho de cada intervalo I(1)=min(m)+delta/2 for i=2:n, I(i)=I(i-1)+delta; end % Grafico de barras (histograma) bar(H) De la corrida del programa se obtiene como vectores de puntos medios de intervalo y de frecuencia en cada intervalo: 2.455 17 2.965 27 3.475 46 3.985 84 4.495 101 5.005 105 5.515 64 6.025 42 6.535 11 7.045 3 y el siguiente histograma: A modo de verificación, si se quiere averiguar la media y la varianza de la simulación, se procede a ejecutar las siguientes sentencias de Matlab: >> load m.prn >> mean(m) ans = 4.5874 ______________________________________________________________________ 12 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya >> var(m) ans = 0.8715 La teoría dice que la media de la distribución dada por f(x) está dada por: 9 xi pi ( 0 1 2 3 4 5 6 7 8 9) 1 y la varianza por: 1 10 4.5 i con lo que resulta: Con lo que se puede apreciar la proximidad entre los valores reales (4.5874, 0.8715) y teóricos de media y varianza (4.5, 0.825). FÓRMULAS PARA y Si una muestra aleatoria de tamaño n se elige de una población que tiene la media y varianza 2, entonces es un valor de una variable aleatoria cuya distribución tiene la media . Prueba: sea una muestra de tamaño n de una población con media y varianza 2 con notación (x1, x2, … , xn). La misma se puede individualizar como n valores observados de una variable aleatoria X. También se pueden considerar a estos n valores como observaciones simples de n variables aleatorias X1, X2, … , Xn que tienen la distribución de X (media y varianza 2) y que son independientes (ya que los valores de la muestra independientes). Luego la media muestral vale: X1 X2 .. XX1n X2X1 .. X2Xn X Xn X X X .... 1 2 .... n X n nn n n n n n X X X 1 2 n E X E .... E .... E X n n n n n Para muestras tomadas de poblaciones infinitas, la varianza de esta distribución es: Prueba: bajo las condiciones de la prueba anterior, la varianza de la suma de variables aleatorias independientes es la suma de las varianzas de cada una de las variables: ______________________________________________________________________ 13 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Xn X1 X2 X .... n n n X1 X2 Xn var X var var .... var n n n La varianza de una constante por una variable aleatoria es: var ( c X) 2 c var ( X) luego, la expresión anterior queda: X 2 2 2 .... n n n 2 n 2 2 2 n n Para muestras tomadas de poblaciones finitas de tamaño N, la varianza de esta distribución es: La corrección no tiene entidad cuando la muestra es menor que el 5% de la población. TEOREMA DE CHEBYSHEV Cuando la muestra es pequeña (n<30) y se supone que la población no está normalmente distribuida, no es posible utilizar la distribución de probabilidad normal ni la t-Student para construir un intervalo de confianza. El Teorema de Chebyshev establece: La proporción de las medias en un conjunto de datos que se sitúa dentro de las k desviaciones estándar de la media no es menor de 1-1/k2, siendo k > 1. Demostración: Considérese una distribución cualquiera de función densidad f(x), mostrada en la figura. A partir de aquí se puede verificar que: 2 k f ( x) x 2 dx k f ( x) x dx 2 k f ( x) x dx 2 k ______________________________________________________________________ 14 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya y también que: k 2 f ( x) x 2 dx f ( x) x dx 2 k Las regiones R1 U R3 (R1 “unión” R3) verifican: x k x 2 y 2 k 2 Luego: k 2 2 f ( x) k 2 2 2 2 k 2 2 2 dx f ( x) k k k k 1 dx f ( x) dx k P x k o bien f ( x) dx P x k 1 k 2 También: P x k 1 1 2 k Al aplicarlo a la distribución de muestreo de una media, la probabilidad de que una media muestral se sitúe dentro de k unidades de error estándar ( ) a partir de la media de la población es: ______________________________________________________________________ 15 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 1 P x k 1 x 2 k haciendo , queda: Para que | – | sea pequeño (menor o igual que ) basta con hacer n grande. Ejemplo I: Para una muestra de tamaño n=15 tubos de TV, la vida útil media de operación es = 8900 con una desviación estándar de s = 500. Construir un intervalo de confianza 90% para la media de la población si en este caso la vida útil media de operación de todos los tubos no puede suponerse normalmente distribuida. Ya que se pide un intervalo de confianza 90%: 1 1 2 0.90 k 3.16 k La confiabilidad de la media como una estimación de es medida a menudo por el llamado error estándar de la media: Si la media proviene de una población grande (n > 30, aún suponiendo que no se conozca la varianza de la misma) es posible definir una variable aleatoria llamada media estandarizada cuyos valores están dados por: y que tiene una distribución normal estándar. Ejemplo II: Supóngase los datos del problema anterior, pero con la misma media extraída de una muestra de tamaño n=40. Como la confianza debe ser del 90%, a ambos lados de la “campana” deben quedar colas con áreas de 5%. Esto implica la siguiente desigualdad que define el intervalo de confianza: ______________________________________________________________________ 16 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Gráficamente: Luego en base a los datos, despejando : lo que lleva a: 8900 1.645 500 40 8770 9030 8900 1.645 500 40 Intervalo de confianza desde ya que se aprecia un acotamiento del mismo debido a dos hechos: La aplicación del estadístico z, en vez de usar el Teorema de Chebishev El incremento del tamaño de la muestra. TOREMA CENTRAL DEL LÍMITE Sea la variable aleatoria Y = X1 + X2 + … + Xn , donde X1, X2, … , Xn son variables aleatorias distribuidas idénticamente, cada una con media y varianza finita Luego la distribución de: ______________________________________________________________________ 17 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Y n zn n se aproxima a una distribución normal estándar cuando n tiende a infinito. Este teorema establece que la suma de un número grande de variables aleatorias tendrá una distribución normal, independientemente de la distribución individual de la variables sumandos. Además: Y n Y n n n X n n n n o sea: La media de n variables aleatorias independientes, idénticamente distribuidas, es decir la media de una muestra aleatoria, tendrá aproximadamente una distribución normal. Más generalmente, cuando las variables aleatorias individuales sólo hacen una contribución “relativamente pequeña” respecto a la suma total, este teorema se cumple aún cuando las variables sumandos no tengan idéntica distribución. Esta es una propiedad que se utiliza en Teoría de Errores en el campo de las medidas con instrumentos, ya que usualmente los errores consisten de la suma de muchos componentes independientes y pequeños. Si las variables aleatorias individuales que conforman la muestra tienen una distribución desconocida y su número no es suficientemente grande, no puede suponerse que la distribución de la media muestral es normal. Ejemplo I: Se considerará una muestra extraída de una población con distribución triangular: f ( x) 2 x 2 función densidad (válida para 0 < x < 1) la función acumulada es, por simple integración: Gráficamente, las funciones densidad y distribución se ven a continuación: ______________________________________________________________________ 18 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Si se despeja x de esta expresión y se hace tomar a F(x) valores uniformemente distribuidos entre 0 y 1, se obtiene una muestra con distribución de triangular. Esto se logra resolviendo en x la siguiente ecuación cuadrática: 2 x 2 x F( x) 0 que implica dos soluciones: de las que sólo tiene sentido la de signo menos. La simulación de una muestra de este tipo, se puede ver en el siguiente segmento de programa Matlab: function trian(n) % Obtencion de una muestra de n elementos con distribucion triangular % Entrada: n, entero, numero de elementos de la muestra % Salida: T, vector, con elementos distribuidos triangularmente % Generacion de la muestra for i=1:n, T(i)=1-sqrt(1-rand);end % Grafico para verificacion hist(T) Ejecutando la sentencia: >> trian(1000) se obtiene: ______________________________________________________________________ 19 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Una población triangular tiene una media y una varianza que se calculan del siguiente modo: Para verificar el Teorema Central del Límite, se habrán de tomar 1000 muestras de tamaño 5 y a cada una de ellas se les extraerá la media para posteriormente estudiar la distribución de estas. Para ello se plantea: function central(n,m) % Verificacion del Teorema Central del Limite para una distribucion triangular % Entrada: n, entero, numero de elementos cada muestra % m, entero, numero de medias para la prueba % Salida: M, vector, con elementos distribuidos normalmente % Generacion de la muestra de medias for j=1:m, s=0; for i=1:n, T(i)=1-sqrt(1-rand); s=s+T(i);end M(j)=s/n; end ______________________________________________________________________ 20 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya % Grafico para verificacion hist(M) mean(M) var(M) Ejecutando: >> central(5,1000) se obtiene: ans = 0.3354 ans = 0.0115 media varianza que significa una gran concordancia con los resultados teóricos. Recuérdese que la media de la distribución de medias coincide con la de la población, pero la varianza es la correspondiente a la misma pero dividida por el tamaño de la muestra sobre la que se obtiene la media. El resultado gráfico muestra cómo la distribución de las medias conforma una normal. k1 0 n1 1 índice auxiliar Para verificar que el conjunto de valores determinados por el vector z tiene distribución normal standard, se elabora con él el histograma correspondiente y superpuesto a este último se dibuja la distribución normal standard correspondiente a los mismos ______________________________________________________________________ 21 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya intervalos. DISTRIBUCION MUESTRAL DE LA MEDIA ( desconocida) Como se ha dicho más arriba, cuando n es grande (mayor de 30) no hay problema en reemplazar a por s (desviación estándar de la muestra). Si se supone que la muestra no es grande (n menor que 30) pero que proviene de una población normal, se puede probar el siguiente teorema: Si es la media de una muestra aleatoria de tamaño n tomada de una población normal que tiene media y varianza 2 , entonces: x t s n es el valor de una variable aleatoria con distribución t-Student y parámetro =n-1 (grados de libertad). La varianza depende de los grados de libertad . Cuando este valor tiende a infinito(n grande) la varianza de la distribución tiende a 1 y la t_Student se convierte en normal estándar. Hay tablas de valores de para t (valor de t para el cual el área bajo la distribución a la derecha de él es igual a . Por ejemplo t0.75 para =3, vale 0.765. Gráficamente: Ejemplo: Un fabricante de fusibles asegura que, con una sobrecarga del 20%, sus fusibles fundirán al cabo de 12.40 minutos () en promedio. Para probar esta afirmación, una ______________________________________________________________________ 22 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya muestra de n=20 de los fusibles fue sometida a una sobrecarga del 20% y los tiempos que tardaron en fundirse tuvieron una media de 10.63 minutos ( ), y la desviación estándar de 2.48 minutos (s). Si se supone que los datos constituyen una muestra aleatoria de una población normal ¿tienden a apoyar o a refutar la afirmación del fabricante?. Se procede a calcular el estadístico t, mediante la siguiente expresión: t x 10.63 12.4 s 2.48 n 3.192 n1 19 20 Como t < t0.005 (un valor razonable el de 0.005 para el nivel de significación), los datos tienden a refutar la afirmación. Los fusibles con sobrecarga del 20% fundirán en menos de 12.40 minutos En la práctica, se necesita que la población que se está muestreando tenga forma acampanada y no sea demasiado asimétrica. TABLA DE RESUMEN PARA ESTIMACION DE INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACI ÓN. ______________________________________________________________________ 23 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya DISTRIBUCIÓN MUESTRAL DE LA VARIANZA Al estudiar la distribución muestral de la varianza, una de las primeras apreciaciones es que no puede ser negativa, luego es evidente que no puede responder a una distribución normal. Ejemplo I: Se produce una simulación tal como la de extraer muestras de tamaño n=5 de una población normal estándar (=0, =1), se calcula la varianza de cada una de estas muestras y finalmente se presenta el histograma para apreciar la forma de la distribución. Esto se puede realizar con el siguiente programa: function dis_var(n,m) % Verificacion de la dsitribucion muestral de varianzas desde una % poblacion con distribucion normal estandar % Entrada: n, entero, numero de elementos de cada muestra % m, entero, numero de muestras para la prueba % Salida: M, vector, con elementos distribuidos en forma de chi-cuadrado % Generacion de la muestra de varianzas for j=1:m, for k=1:n, % Generacion de la muestra normal estandar s=0; for i=1:12, s=s+rand;end T(k)=s-6; end M(j)=var(T); end % Grafico para verificacion hist(M/m) Ejecutando la instrucción: >> dis_var(5,1000) se obtiene el siguiente gráfico: ______________________________________________________________________ 24 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya La distribución correspondiente es la llamada Chi-cuadrado (2) la cual está tabulada para valores 2 (con parámetro que son los llamados grados de libertad). 2 es tal que el área bajo la distribución a su derecha es . La función densidad correspondiente a esta distribución esta dada por: x 1 2 x F x 2 2 2 e 2 En el gráfico se observa el resultado que se obtendría de una tabla entrando con un valor de 2 = 8 y con = 5 grados de libertad. Sin embargo, las tablas trabajan con algunos valores de típicos, como por ejemplo 0.05. En ese caso, lo que se obtiene como respuesta es la abscisa 2 =11: ______________________________________________________________________ 25 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Si s2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal cuya varianza es 2 , entonces: 2 ( n 1) s 2 2 es un valor de una variable aleatoria que tiene la distribución chi-cuadrado con parámetro =n-1. Ejemplo II: Una población normal tiene una varianza de 15. Si se extraen muestras de tamaño 5 de esta población ¿Qué porcentaje puede tener varianzas a) menores que 10, (b) mayores que 20, (c) entre 5 y 10. a) se calcula el estadístico y con él se calcula el área bajo la curva, a la izquierda, con esa abscisa. Un programa en Matlab que puede calcular esta área es: function chicuadrado(chi,n) % Calcula el area a la izquierda del valor chi en una distribucion chi-cuadrado % con n grados de libertad, mediante integraci´on por el metodo rectangular % Entradas: chi, real, valor del estad´istico chi-cuadrado % n, entero, grados de libertad % Salida: M, real, Area a la izquierda de chi, bajo la curva ______________________________________________________________________ 26 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya % calculo del area bajo la funcion densidad entre 0 y chi M=0; for x=0:0.01:chi; M1=1/(2^(n/2)*gamma(n/2))*exp(-x/2)*x^(n/2-1)*0.01;M=M+M1; end M de modo que realizando las siguientes corridas, se resuelve el problema: >> chicuadrado(2.667,4) M= 0.3846 b) se calcula el estadístico para s2=20: 20 ( 5 1) 5.333 15 >> chicuadrado(5.333,4) M= 0.7454 c) por diferencia, la probabilidad que la varianza muestral esté entre 10 y 20 es: >> 0.7454-0.3846 ans = 0.3608 Es importante encontrar la razón de dos muestras tomadas aleatoriamente. Sirve en pruebas para determinar si dos muestras provienen de poblaciones con varianzas iguales, en dicho caso la razón debe ser cercana a 1. Si s12 y s22 son las varianzas de muestras aleatorias independientes de tamaño n1 y n2 , respectivamente, tomadas de dos poblaciones normales que tienen la misma varianza, entonces: ______________________________________________________________________ 27 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya es una variable aleatoria que tiene la distribución F con parámetros 1 = n1 – 1 (grados de libertad del numerador) y 2 = n2 – 1 (grados de libertad del denominador) La distribución correspondiente es la llamada F, la cual está tabulada para valores F (con parámetros y . F es tal que el área bajo la distribución a su derecha es . En el gráfico se observa el resultado que se obtendría de una tabla entrando con un valor de F = 3.181 y con = 4 grados de libertad del numerador y = 6 grados de libertad del denominador. La función densidad de esta distribución está dada por: 0.5 1 0.5 2 1 2 1 2 0.5 12 x 2 f x 1 2 0.5 1 0.5 2 2 1 x 0.5 1 2 Ejemplo III: Si dos muestras aleatorias independientes de tamaños n1=7 y n2= 13 se toman de una población normal ¿Cuál es la probabilidad de que la primera sea al menos 3 veces más grande que la de la segunda?. function F(f,nu1,nu2) % Calcula el area a la derecha del valor f en una distribucion F % con nu1 y nu2 grados de libertad, mediante integracion por el metodo rectangular % Entradas: f, real, valor del estadistico F % nu1 y nu2, enteros, grados de libertad % Salida: M, real, Area a la izquierda de f, bajo la curva % calculo del area bajo la funcion densidad entre 0 y f M=0;K=gamma((nu1+nu2)/2)/gamma(nu1/2)/gamma(nu2/2)*nu1^(nu1/2)*nu2^(nu2/2); for x=0:0.01:f; M1=K*x^((nu1-2)/2)/(nu1*x+nu2)^((nu1+nu2)/2)*0.01;M=M+M1; end 1-M de modo que realizando la siguiente corrida, se resuelve el problema: >> F(3,6,12) ______________________________________________________________________ 28 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya ans = 0.0496 luego la probabilidad buscada es cercana al 5%. Una propiedad de esta distribución es que: esto se puede apreciar, a partir del trabajo con tablas, para =0.95, 1=7 y 2= 13, resulta: F0.95( 7 13) 2.832 F0.05( 13 7) 0.353 dichos números son evidentemente uno el recíproco del otro. INFERENCIAS RELATIVAS A MEDIAS Estimación Puntual: La estimación puntual se refiere a la elección de un estadístico, es decir un número calculado a partir de los datos muestrales (y quizás de más información) respecto al cual tenemos alguna esperanza o seguridad de que esté “razonablemente cerca” del parámetro que se ha de estimar. Estimador Insesgado: Un estadístico es un estimador insesgado, si y sólo si la media de la distribución de estimados es igual a . Si se comparan las distribuciones muestrales de la media y la mediana de muestras aleatorias de tamaño n de la misma población normal. Las dos distribuciones tienen la misma media , ambas son simétricas y con forma acampanada , pero sus varianzas difieren. Para la primera es /n y para la segunda es 1.5708*/n (para poblaciones infinitas). Esto se puede apreciar mediante el siguiente programa: function eficiente(m,n) % Distribucion de m medias y medianas de muestras de tamaño n % de una poblacion normal % Entradas: m, entero, numero de muestras % n, entero, tamaño de las muestras % Salida: M, real, relacion de varianzas de la distribucion de % medianas a la de medias % Generacion de la muestra de varianzas for j=1:m, for k=1:n, % Generacion de muestras con distribucion normal s=0; for i=1:12, s=s+rand;end T(k)=s-6; end media(j)=mean(T); mediana(j)=median(T); ______________________________________________________________________ 29 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya end M=var(mediana)/var(media) en el que se generan m muestras de tamaño n con distribución normal, extrayéndosele a cada una la media y la mediana, realizándose a posteriori el cociente de las varianzas de ambas. La corrida correspondiente es: >> eficiente(1000,20) ans = M= 1.5771 cuyo resultado concuerda con el enunciado teórico. Luego, es más probable que la media esté más cerca de que la mediana. Un estadístico es un estimador insesgado más eficiente del parámetro que el estadístico si: 1) y son ambos estimadores insesgados de 2) La varianza de la distribución muestral del primer estimador es menor que la del segundo. En la práctica, la media muestral es un estadístico aceptable para estimar la media de la población . La posibilidad de acertar exactamente a es escasa, por ello es conveniente acompañar la estimación puntual de con una afirmación de cuán cercana podemos razonablemente esperar que se encuentre la estimación. El error x es la diferencia entre la estimación y la cantidad que se supone estima. Para n grande, se puede asegurar con una probabilidad 1- que la desigualdad: z 2 será satisfecha. Donde es de /2. x n z 2 o bien x n z 2 es una abscisa tal que el área bajo la curva normal estándar a su derecha ______________________________________________________________________ 30 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya E es el valor máximo de x o sea, el Error Máximo de Estimación: a los valores y se los denomina Límites de Confianza. Los valores de mayor uso para 1- son 0.95 y 0.99 y los valores correspondientes serán: z0.01 2.326 z0.05 1.645 z0.005 2.576 z0.025 1.96 Ejemplo I: Un supervisor intenta utilizar la media de una muestra aleatoria de tamaño n=150 para estimar la aptitud mecánica promedio (la cual se mide con una cierta prueba) de los obreros de una línea de ensamblado. Si por su experiencia puede suponer que =6.2 para tales datos. ¿Qué podemos asegurar con una probabilidad de 0.99 sobre la media máxima de este error?. 1 0.99 0.01 0.005 2 6.2 6.2 E z0.05 2.575 1.304 150 150 se puede asegurar con una probabilidad del 99% que el error será a lo sumo 1.304. Si al recoger los datos se obtiene x 69.5 ¿Se puede asegurar aún con probabilidad 99% que el error es a lo sumo 1.304? Se hacen afirmaciones de probabilidad acerca de valores futuros de variables aleatorias (digamos error potencial de una estimación) y afirmaciones de confianza una vez que los datos han sido obtenidos. Luego, se diría que el supervisor puede tener una confianza del 99% de que el error de estimación para x 69.5 sea a lo sumo 1.304. Un Intervalo de Confianza para la media es un intervalo estimado construido con respecto a la media de la muestra, por el cual puede especificarse la probabilidad que el intervalo incluya el valor de la media poblacional. El Grado de Confianza, asociado con un intervalo de confianza, indica el porcentaje de los intervalos que incluirán el parámetro que se está estimando. Si se desea usar la media de una muestra grande aleatoria para estimar la media de una población y que se quiere asegurar con probabilidad 1- que el error será a lo sumo una cantidad predeterminada E, el número de elementos de la muestra debe ser: E z n 2 n z E 2 2 Ejemplo II: Una investigación quiere determinar el tiempo promedio que un mecánico tarda en intercambiar los neumáticos de un auto, y además desea poder asegurar con una ______________________________________________________________________ 31 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya confianza del 95% que el error de su muestra sea a lo sumo de E=0.50 minutos. Si puede presumir, por experiencia que =1.6 minutos. ¿Qué tamaño deberá tener la muestra?. 1 0.95 0.05 0.025 2 n z0.025 E 2 1.96 1.6 0.5 2 39.338 vale decir la muestra debe tener un tamaño de 40. E es el factor de error “más o menos” permitido en el intervalo (siempre es la mitad del Intervalo de Confianza). Hasta aquí era necesario conocer o su valor aproximado por s (desviación estándar muestral) requiriendo n grande. Para n chico, si se está muestreando en una población normal: x t s n t es una variable aleatoria con distribución t-Student con =n-1 grados de libertad. Luego, el error máximo de estimación será: s E t n 2 o con una confianza del (1-)100% de que el error sea menor que esa cantidad. Ejemplo III: Una muestra de 10 medidas de diámetro de una esfera dio una media de =10.95 cm y una desviación típica de s=0.15 cm. Hallar los límites de confianza para el diámetro verdadero del a) 95% y b) 99%. Los valores de E para 95% (=0.05) y para 99% (=0.01) con =n-1=9 E95 t 0.025 E99 t 0.005 0.15 10 0.15 10 2.262 3.25 0.15 10 0.15 10 0.107 0.154 lo que lleva al intervalo para =0.05: 10.95 0.107 x 10.95 0.107 10.843 x 11.057 y para =0.01 10.95 0.154 x 10.95 0.154 10.796 x 11.104 con lo que se puede decir en la confianza del 95% que el valor verdadero de la media se encuentra entre 10.843 y 11.057, o en la confianza del 995 que se encuentra entre 10.796 y ______________________________________________________________________ 32 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 11.104. ESTIMACIÓN POR INTERVALOS Dado que la probabilidad de estimar puntualmente es cero, es preferible reemplazar a esta con estimaciones por intervalos. Para ilustrar esto, supongamos una muestra grande (n > 30)con y 2 conocidos. x z z z x z n n 2 n 2 2 2 x z x z n n 2 2 se puede asegurar con una confianza del (1-)100% que el intervalo x z x z n n 2 2 contiene . Este es un Intervalo de Confianza para , con un Nivel de Confianza 1- Cuando se desconoce (y n > 30) se la sustituye por la desviación estándar muestral. Ejemplo I: Las medidas de los diámetros de una muestra de 200 cojinetes de bolas hechos por una determinada máquina durante una semana dieron una media de 2.06 cm y una desviación típica de 0.105 cm. Hallar los límites de confianza del a) 95% y b) 99% para el diámetro de todos los cojinetes. a) para =0.05 0.105 E z 1.96 0.015 n 200 2 luego, el intervalo de confianza es: 2.06 0.015 2.06 0.015 2.045 2.075 b) para =0.01 E z n 2.576 0.105 0.019 200 2 luego, el intervalo de confianza es: 2.06 0.019 2.06 0.019 2.041 2.079 ESTIMACIÓN BAYESIANA ______________________________________________________________________ 33 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya REGLA DE BAYES Si a los eventos Aj se los llama “causas”, la fórmula puede considerarse como la probabilidad de que el evento B, que ha ocurrido, sea el resultado de la causa Ak , esto es, para la probabilidad de que la causa Ak esté actuando, calculada bajo la hipótesis de que hemos observado B. Por lo tanto, este es un método para calcular la probabilidad de una causa dado el efecto. Ejemplo I: Una urna contiene 3 monedas C1 C2 y C3 con probabilidad de caer cara iguales a 0.4, 0.5 y 0.6 respectivamente. Una moneda se extrae aleatoriamente y se arroja 20 veces. Aparece cara hacia arriba 11 veces. Encontrar la probabilidad de que la moneda elegida sea la legal (p=0.5). Sin ninguna información, la probabilidad de extraer la moneda legal es 1/3. Esta se denomina “a priori”. Con la información dada, podemos proceder como sigue: sea Aj el evento tal que la moneda Cj se extrae, y sea B el evento tal que se obtuvieron 11 caras en 20 pruebas. Entonces, en la fórmula de Bayes: P(Aj) =1/3 (j=1, 2, 3) y la respuesta es: que es mayor que la previa. Esta es la llamada probabilidad “a posteriori”. Hay métodos de inferencia que consideran a los parámetros como variables aleatorias. Aquí se valoran conceptos de probabilidad subjetiva. Se presentará un método bayesiano para estimar la media de una población considerando a como una variable aleatoria, cuya distribución es subjetiva. Para el analista, esta clase de Distribución A Priori, obtenida de manera subjetiva, tiene una media 0 y una desviación standard 0. ______________________________________________________________________ 34 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Como problema concreto, supóngase un problema de emisión de óxido de azufre de una planta industrial, donde el ingeniero jefe supone, por experiencia, que la emisión tiene las siguientes características (Distribución A Priori): 17.5 x 12 12.1 24 media y desviación standard 2.5 rango de variación de x (para graficar la distribución) f ( x) 1 2 (x )2 2 2 exp función densidad de la distribución 'a priori' 19 f ( x) dx 0.146487 18 Probabilidad que la emisión esté entre 18 y 19 gráficamente: Si posteriormente se realiza la toma de 80 muestras y los resultados dan: x' 18.85 n 80 5.55 media y desviación standard de las 80 muestras número de muestras Los parámetros de la distribución "a posteriori" serán (aquí se combinan creencias previas con evidencias muestrales directas): nx' 2 2 f1( x) 2 n 2 18.771659 0.602236 2 2 n 2 2 (x )2 exp función densidad de la distribución 'a 2 2 2 1 posteriori' ______________________________________________________________________ 35 Cátedra Estadística Aplicada II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 19 f1( x) dx 0.547674 18 Probabilidad que la emisión esté entre 18 y 19 gráficamente: Si no se hubiese hecho el análisis bayesiano y se hubiera considerado la muestra "cruda", la probabilidad de emisión entre 18 y 19 sería: x' 18.85 5.55 f2( x) 80 1 2 (x x')2 2 2 exp 19 f2( x) dx 0.51014 18 evidentemente menor que aplicando Bayes (0.55). ______________________________________________________________________ 36 Cátedra Estadística Aplicada II