Universidad de Mendoza Ing. Jesús Rubén Azor Montoya GENERADOR DE VARIABLES ALEATORIAS UNFORMES http://www.math.keio.ac.jp/~matumoto/MT2002/emt19937ar.html http://www.fourmilab.ch/hotbits/ http://www.random.org/ http://www.quantum.univie.ac.at/research/rng/ http://ebook.stat.ucla.edu/calculators/cdf/poisson/poissonrand.phtml http://ebook.stat.ucla.edu/calculators/cdf/normal/normalrand.phtml Permite recibir por e-mail un conjunto de datos distribuidos según Normal o Poisson http://www.winguides.com/security/password.php Generador de Passwords basados en aleatoriedad. http://www.csse.monash.edu.au/community/postmodern.html Generador de textos aleatorios http://worldwidemart.com/scripts/rand_link.shtml Sitio de links generales sobre aleatoriedad http://nhse.npac.syr.edu/random/ Librería de Generadores de Números Aleatorios.(en Castellano) http://www.sc.ehu.es/sbweb/fisica/cursoJava/fundamentos/clases1/azar.htm http://webs.ono.com/usr005/jsuarez/aleat1.htm Generalidades sobre números aleatorios (en Castellano) http://teorica.fis.ucm.es/programas/MonteCarlo.pdf Simulación de Distribuciones de Poisson. Simulación de Distribuciones Generales El método de Montecarlo. (Acrobat Reader, en Castellano) Propiedades deseadas En simulación estocástica las variables aleatorias con distribución uniforme en el intervalo [0,1] son empleadas de muchas maneras: En forma directa. Para generar distribuciones discretas o continuas. Para generar conjuntos de variables aleatorias dependientes (procesos estocásticos y/o distribuciones multivariadas). Debe quedar bien en claro que en la mayoría de las veces, la performance de una simulación estará fuertemente correlacionada con el generador de uniformes usado. De ahí la importancia del mismo. Un generador "razonable" que entrega una secuencia de variables aleatorias con distibución uniforme, debe satisfacer las dos siguientes propiedades: 1) "repetibilidad" y "portabilidad" 2) "velocidad computacional" Por "repetibilidad" se entiende que, dados los mismos parámetros que lo definen, el generador produzca la misma secuencia siempre que así se deseara. "Portabilidad" significa que, sobre las mismas condiciones de definición, una secuencia sea Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya la "misma", independientemente del modo computacional usado para implementar el algoritmo de generación, o del computador usado. En cuanto a la "velocidad computacional" la misma está estrechamente ligada a la precisión deseada en los resultados finales de simulación en la que es usado el computador. Cuanto más rápido sea un generador, más resultados serán obtenidos en el mismo tiempo de uso del computador. Esto, en principio hará que la precisión pueda ser incrementada. Algoritmo Congruencial Lineal www.inf.utfsm.cl/~hallende/download/04_Numeros_Aletorios.ppt Power Point sobre generación de números aleatorios con sus propiedades correspondientes. http://www-gris.det.uvigo.es/~rebeca/lsim/simulacion/node11.html Página sobre Generadores congruenciales lineales de números pseudoaleatorios incluyendo multiplicativos y mixtos. w3.mor.itesm.mx/~jtorres/Tesistas/tesishipergrafosat.pdf Tesis en .pdf sobre números aleatorios. www.dragones.org/Biblioteca/Articulos/Criptografia.pdf .pdf sobre aplicación de números aleatorios en Criptografía y Seguridad en Computadoras 146.83.41.79/profesor/jmbm/io2/ApunSimu3.doc Algoritmo para generar números aleatorios por el Método congruencial mixto La estructura básica de un algoritmo congruencial lineal es la siguiente: yi+1 = ( a * yi + c) mod M para todo i >= 0 donde a, c e y0 son enteros del conjunto {0,...,M-1} En la terminología usual, a es el multiplicador, c el incremento y M el módulo. Si c=0 el generador se llama multiplicativo. Para valores de los parámetros M = 2 ^ 31 - 1 y a = 950706376 se presenta uno de los casos de los llamados "generadores multiplicativos óptimos". 31 a 950706376 M 2 1 semilla (seed) y0 123546 longitud de la secuencia a obtener n 1000 índice i 0 n algoritmo yi1 mod a yi M índice auxiliar k 0 n 1 y( k1) uk M el vector y obtenido queda "normalizado" con esta operación (elementos con valores comprendidos entre 0 y 1) Prueba de "calidad" Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya La más sencilla consiste en observar el histograma de la secuencia obtenida: n1 8 k 0 n1 número de intervalos índice para generar n intervalos max( u) min(u) vector de intervalos interk min(u) k n1 vector que cuenta las frecuencias en cada intervalo h hist(interu ) índice auxiliar k1 0 n1 1 150 150 100 hk 1 50 0 0 0.2 .1 0.4 0.6 0.8 interk 1 1 La media poblacional de una distribución uniforme en el intervalo [0,1] es 0.5, para esta muestra de n valores, la media da: mu meanu ( ) mu 0.502 media de la muestra La varianza poblacional para la misma distribución es 1/12 = 0.083, la muestral da: sigma var(u) l lengthu ( ) V_ord sort(u) sigma 0.083 Longitud del vector Vector ordenado varianza muestral i 0 l 1 Con esto es posible calcular la mediana del conjunto de valores: l Med if floor 2 Med 0.507 Cátedra Estadística II V_ord l 2 l floor 1 2 V_ord 2 mediana resultante l floor 2 l 2 V_ord floor Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Para calcular el número de valores distintos de la mediana, se recurre a: Vauxi if ui Med 0 1 Vaux 1 10 3 valores distintos de 0.25 k 0 Vaux 1 Indice auxiliar Para calcular los valores por encima y por debajo de la mediana se procede del siguiente modo: Vauxi if ui Med 1 0 Vauxi if ui Med 1 0 n1 500 n2 500 Vaux n2 Vaux n1 valores por encima de Med valores por debajo de Med A continuación se "absorben" los valores iguales a la mediana con el inmediato anterior, lo que no genera modificación en el número de corridas; V1i if ui Med ui1 ui Posteriormente se resta a cada valor la mediana, con lo que quedan en el vector resultante dos tipos de valores: lo que están por encima de ella (positivos) y lo que están por debajo (negativos): V1 ( V1 Med) Finalmente se procede a la cuenta de corridas: índice auxiliar i 0 lengthu ( )2 Número inicial de corridas C0 1 Ci1 if V1i V1i1 Ci 1 Ci El último elemento de C contiene el número de corridas corr Clength( u) 1 n2 _u 2 n1 1 _u 501 media n1 n2 2 n1n2 n1 n2 _u 2 n1n2 _u 15.803 desv. standard 2 ( n1 n2) ( n1 n2 1) Cátedra Estadística II Universidad de Mendoza z Ing. Jesús Rubén Azor Montoya corr _u Estadístico _u Decisión: 1 cnormz ( ) 0.671 Por ser menor que el nivel de significación se rechaza la Ho, luego se acepta la alternativa, esto es el Arreglo no es aleatorio. TEOREMA DEL LIMITE CENTRAL http://www.stat.sc.edu/~west/javahtml/CLT.html Applet demostrativo del teorema a partir de lanzamiento de dados (en inglés) http://www.ideamas.cl/cursoProb/javaEstat/quincunx/quincunx.1.html http://seneca.fis.ucm.es/expint/html/fises/tlc/tlc.html Applets demostrativos del teorema (en castellano) http://www.terra.es/personal2/jpb00000/ttcentrallimite.htm Explicativo de la Ley de los grandes números y Teorema del Límite Central con experimentos. http://www.cema.edu.ar/~rdp/MetodosCuantitativos/Central.html Demostración y ejemplos de aplicación http://147.96.33.165/Cursos/Bioestadistica/Limite_Central.html matheron.uv.es/docencia/bioest/practica4.pdf Ejercicios y definiciones Si xm es la media de una muestra aleatoria de tamaño n extraída de un población que tiene la media y la varianza finita 2, entonces: z = (xm - ) / ( / n1/2) es el valor de una variable aleatoria cuya función de distribución se aproxima a la de la distribución normal standard cuando n tiende a infinito. Lo interesante de este teorema es su generalidad, ya que la población muestreada puede tener cualquier distribución. A modo de ejemplo se considerará una muestra extraída de una población con distribución triangular: f (x) 2x 2 función densidad (válida para 0 < x < 1) La función acumulada es, por simple integración: 2 F (x b) x 2 x Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Si se despeja x de esta expresión y se hace tomar a F(x) valores uniformemente distribuidos entre 0 y 1, se obtiene una muestra con distribución de triangular. A modo de ejemplo: número de elementos de la muestra n 1000 índice i 0 n 1 yi 1 1 rnd ( 1) n1 8 k 0 n1 número de intervalos índice para generar n intervalos max(y) min(y) vector de intervalos interk min(y) k n1 vector que cuenta las frecuencias en cada intervalo h hist(intery ) índice auxiliar k1 0 n1 1 Para poder apreciar la calidad de la distribución de valores, se contrastará el histograma generado a partir de estos valores con los que surgen del área bajo la función densidad entre los extremos de intervalo. 0.24 0.25 0.2 hk 1 n 0.15 i nt er k 1 1 i nt er f ( x) d x 0.1 k1 0.05 0.017 0 0.2 4 3.28810 mu meany ( ) sigma stdev(y) n j 0 1 2 y2 j y2 j1 Zj 2 Cátedra Estadística II mu 0.33 sigma 0.233 0.4 0.6 0.8 interk 1 1 0.852 media de la muestra desviación standard índice auxiliar muestras de tamaño 2 a las que se le extrae la media Universidad de Mendoza zj Ing. Jesús Rubén Azor Montoya Zj mu sigma 2 n1 8 k 0 n1 número de intervalos índice para generar n intervalos max(z) min(z) vector de intervalos interk min(z) k n1 vector que cuenta las frecuencias en cada intervalo h hist(interz ) índice auxiliar k1 0 n1 1 Para verificar que el conjunto de valores determinados por el vector z tiene distribución normal standard, se elabora con él el histograma correspondiente y superpuesto a este último se dibuja la distribución normal standard correspondiente a los mismos intervalos. 1 f1( x) 2 x2 2 exp función densidad de la distribución normal standard 0.3 0.243 hk 1 n 2 0.2 i nt er k 1 1 f1 ( x) d x i nt er 0.1 k1 3 3.92810 2 1.927 1 0 1 interk 1 2 3 2.614 Con lo observado en el gráfico se aprecia la exactitud del enunciado del teorema. También se puede verificar el concepto que "la media de la distribución de medias es un estimador de la media poblacional" y "la varianza de la distribución de medias es un estimador de la varianza poblacional dividida por n, el tamaño de la muestra sobre la que se calculan las medias" Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 1 f ( x) x dx 0.333 0 media poblacional meanZ ( ) 0.33 media de la distribución de medias 1 2 1 f ( x) x f ( x) x dx dx 0.056 0 0 var(Z) 2 0.053 varianza poblacional varianza de la distribución de medias Otro ejemplo, se considerará una muestra extraída de una población con distribución parabólica: 2 f ( x) x función densidad ( válida para 0 < x < 3^(1/3) ) La función acumulada es, por simple integración: 3 x F ( x b) 3 Si se despeja x de esta expresión y se hace tomar a F(x) valores uniformemente distribuidos entre 0 y 1, se obtiene una muestra con distribución de parabólica. A modo de ejemplo: n 1000 i 0 n 1 yi (3 rnd(1)) número de elementos de la muestra índice 1 3 n1 8 k 0 n1 número de intervalos índice para generar n intervalos max( y) min(y) vector de intervalos interk min(y) k n1 vector que cuenta las frecuencias en cada intervalo h hist(intery ) índice auxiliar k1 0 n1 1 Para poder apreciar la calidad de la distribución de valores, se contrastará el histograma generado a partir de estos valores con los que surgen del área bajo la función densidad entre los extremos de intervalo. Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 0.298 0.3 hk 1 0.2 n i nt er k 1 1 f ( x) d x i nt er 0.1 k1 3 610 0 0.2 0.4 0.158 mu meany ( ) sigma stdev(y) n j 0 1 2 y2 j y2 j1 Zj 2 Zj mu zj sigma mu 1.074 sigma 0.282 0.6 0.8 1 1.2 interk 1 1.4 1.282 media de la muestra desviación standard índice auxiliar muestras de tamaño 2 a las que se le extrae la media 2 n1 8 k 0 n1 número de intervalos índice para generar n intervalos max(z) min(z) vector de intervalos interk min(z) k n1 vector que cuenta las frecuencias en cada intervalo h hist(interz ) índice auxiliar k1 0 n1 1 Para verificar que el conjunto de valores determinados por el vector z tiene distribución normal standard, se elabora con él el histograma correspondiente y superpuesto a este último se dibuja la distribución normal standard correspondiente a los mismos intervalos. x2 f1( x) exp 2 2 1 función densidad de la distribución normal standard Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 0.3 0.251 hk 1 n 2 0.2 i nt er k 1 1 f1 ( x) d x i nt er 0.1 k1 3 2.58110 4 3 2 3.403 1 0 1 interk 1 2 1.118 Con lo observado en el gráfico se aprecia la exactitud del enunciado del teorema. También se puede verificar el concepto que "la media de la distribución de medias es un estimador de la media poblacional" y "la varianza de la distribución de medias es un estimador de la varianza poblacional dividida por n, el tamaño de la muestra sobre la que se calculan las medias" 1 3 3 f ( x) x dx 1.082 0 media poblacional meanZ ( ) 1.074 media de la distribución de medias 1 3 3 2 1 3 3 f ( x) x f ( x) x dx dx 0.078 0 0 var(Z) 2 0.08 varianza poblacional varianza de la distribución de medias EJEMPLO DE DISTRIBUCION DE VARIANZAS Se va a estudiar una población normal standard (varianza = 1) a la que se le extraerán muestras de tamaño n, calculándose la varianza muestral de cada una de ellas y Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya ejecutándose el correspondiente histograma. j 0 11 n 5 k 0 n 1 i 0 999 Bi k índice auxiliar tamaño de la muestra índice auxiliar cantidad de muestras rnd(1) 6 matríz de muestras j T BT B matríz de muestras traspuesta i bi var BT ( n 1) n1 10 k1 0 n1 k2 0 n1 1 Ik1 k1 h hist(I b) nu n 1 vector de varianzas de cada muestra número de intervalos para el histograma índice para n1 intervalos índice auxiliar vector de intervalos histograma grados de libertad A continuación se representa el histograma comparado con la distribución chicuadrado esperada: 1 f ( x) 2 nu 2 x nu 1 2 e x 2 Función densidad chi-cuadrado nu 2 0 .3 h k2 0 .2 1 00 0 I k2 1 f ( x) d x I k2 0 .1 0 .01 2 0 1 Cátedra Estadística II 2 4 k2 6 8 9 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya PRUEBAS DE HIPOTESIS En vez de estimar el valor de un parámetro, a veces se debe decidir si una afirmación relativa a un parámetro es verdadero o falso, vale decir probar una hipótesis relativa a dicho parámetro. Ejemplo: Un fabricante dice que su pintura tiene un tiempo de secado promedio de 20 minutos, el potencial comprador pinta 36 tableros para verificar lo dicho por el vendedor y dice que si la media de tiempos de secado excede los 20.75 min no acepta la partida. Si por experiencia se sabe que = 2.4min, cuál es la probabilidad de rechazar la partida aún siendo la media de 20 min? n 36 2.4 n 20.75 20 z 1 cnormz ( ) 0.03 tamaño de la muestra desviación standard de la población desviación standard de la distribución de medias límite de aceptación media indicada por el fabricante z 1.875 variable normalizada probabilidad de rechazar la partida (t>20.75 min) Supóngase ahora que la media real del tiempo de secado es = 21 min. Luego, la probabilidad de obtener una media muestral menor o igual que 20.75 min (y por lo tanto equivocarse en la aceptación, está dada por: Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya para calcular esta probabilidad se procede del siguiente modo: 21 z cnormz ( ) 0.266 media supuesta z 0.625 variable normalizada probabilidad de aceptar la partida (t < 20.75 min) Resumiendo el proceso, se puede decir: También al Error Tipo I se lo llama (coincide con el concepto de nivel de significancia) y al Error Tipo II se lo llama . Obsérvese que siempre el Error tipo II esta asociado a un valor de (en este caso visto, 21), cosa que no ocurre para el Error Tipo I. DETERMINACION DE ERROR TIPO II (cola derecha) Problema: Se desea investigar la afirmación de que la intensidad de sonido de ciertas aspiradoras es una variable aleatoria que tiene una distribución normal de media 75.20 db, con un desviación standard de 3.6 db. Específicamente se quiere probar la hipótesis nula = 75.20 contra la hipótesis alterna > 75.20 en base a mediciones de la intensidad de sonido de n = 15 de tales máquinas. Si la probabilidad de cometer un error tipo I es de = 0.05, cuál es la probabilidad de cometer un error tipo II para = 77.0? Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya n 15 3.6 mu 75.20 z_a 1.65 número de elementos de la muestra desviación standard de la población media que se quiere probar z correspondiente al nivel de significacion (en este caso para = 0.05) x_pru 77 media asociada al error tipo II x mu z_a x 76.734 abscisa que deja hacia la derecha n un área de 0.05 x x_pru z_b z_b 0.286 abscisa que deja hacia la izquierda n el área correspondiente a la probabilidad de Error Tipo II. cnormz_b ( ) 0.387 Error Tipo II, asociado con x_pru Verificación: x 70 70.1 80 rango 1 x mu 2 f ( x) exp 2 2 n n 1 x x_pru 2 1 f1( x) exp 2 2 n n 1 76.734 70 f1( x) dx 0.387 Cátedra Estadística II área Universidad de Mendoza Ing. Jesús Rubén Azor Montoya DETERMINACION DE ERROR TIPO II (cola izquierda) Para el problema del tránsito: n 10 0.8 mu 25 2.33 número de elementos de la muestra desviación estándar de la población media que se quiere probar z correspondiente al nivel de significacion (en este caso para = 0.01) media asociada al error tipo II xpru 24 x mu x 24.411 abscisa que deja hacia la izquierda n un área de 0.01 x xpru n 1.623 abscisa que deja hacia la derecha el área correspondiente a la probabilidad de Error Tipo II. 0.052 1 cnorm Error Tipo II, asociado con xpru. DETERMINACION DE ERROR TIPO II (dos colas) Para el problema de las pruebas mecánicas: n 30 0.05 mu 2 1.96 numero de elementos de la muestra desviación estándar de la población media que se quiere probar z correspondiente al nivel de significacion (en este caso para = 0.05) xpru 2.01 media asociada al error tipo II x1 mu n x1 1.982 abscisa que deja hacia la izquierda un área de 0.01 x2 mu n x2 2.018 abscisa que deja hacia la derecha un área de 0.01 Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya x1 xpru n 3.055 A1 cnorm x2 xpru abscisa que deja hacia la izquierda un area: 3 A1 1.124 10 n 0.865 abscisa que deja hacia la izquierda un área: A2 cnorm A2 0.806 cnorm1.65 ( ) 0.951 El Error Tipo II es la diferencia entre estas dos áreas: A2 A1 0.805 CURVAS CARACTERISTICAS DE OPERACION Se pretende graficar el error tipo II en su forma más general para un nivel de significación = 0.05 y prueba de cola derecha: del esquema se ve que: y z = (x - 0) / / sqr(n)) z = (x - ) / / sqr(n)) Restando miembro a miembro, y siendo z = 1.65, queda: 1.65 - z = [( - 0) /] * sqr (n) Llamando d a una variable dada por: d = ( - 0) / resulta: Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya zd = 1.65 - d * sqr(n) Finalmente, el error tipo II es: d = cnorm ( z) lo que da un juego de curvas, con parámetro n: n 1 5 9 d 0 0.01 3 d n (d n) cnorm1.65 1 1 ( d n ) 0 .5 0 0 0 0 .5 1 1 .5 2 d 2 .5 3 3 Para pruebas de cola izquierda, los gráficos son la "imagen del espejo" de los anteriores, con lo cual (para generalizar) se usa como abscisa el valor absoluto de d, sirviendo entonces el juego de curvas para amabas pruebas. Para pruebas de dos colas: Se puede verificar que el error tipo II, en este caso, sigue la siguiente función: d n cnorm1.96 d n 2(d n) cnorm1.96 que bajo las condiciones de representación anterior (n con valores 1, 5 y 9) da: Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 1 1 0 .9 0 .8 0 .7 0 .6 2( d n ) 0 .5 0 .4 0 .3 0 .2 0 .1 0 0 0 .6 0 1 .2 1 .8 2 .4 d 3 3 CURVAS CARACTERISTICAS DE OPERACION Se pretende graficar el error tipo II para el ejemplo de la pintura de secado rápido en función de (para un 0=20 y como límite de rechazo r = 20.75) 0 r 20 20.75 Datos del problema 19, 19.25.. 22 n 36 n1 2.4 Desviación standard Rango de variación de 50 Análisis para dos tamaños muestrales El área bajo la normal (error tipo II) en función de y para un n determinado, está dado por: f( ) cnorm r n Para un valor distinto de n, si se quiere mantener el mismo , se debe recalcular r: 1 cnorm r 0 n Cátedra Estadística II = 0.03 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya La abscisa normalizada correspondiente es 1.88, luego: r 0 1.88. r = 20.638 n1 r f1( ) cnorm n1 1 f( ) 0 .5 f1( ) 19 20 21 22 Para el caso de una prueba de cola izquierda, supóngase que el valor limite sea =19.25: Rango de variación de 18, 18.01.. 20.5 f( , n) 1 cnorm 19.25 2.4 n Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya f( , n ) ESTIMACION BAYESIANA Hay métodos de inferencia que consideran a los parámetros como variables aleatorias. Aquí se valoran conceptos de probabilidad subjetiva. Se presentará un método bayesiano para estimar la media de una población considerando a como una variable aleatoria, cuya distribución es subjetiva. Para el analista, esta clase de Distribución A Priori, obtenida de manera subjetiva, tiene una media 0 y una desviación standard 0. Como problema concreto, supóngase un problema de emisión de óxido de azufre de una planta industrial, donde el ingeniero jefe supone, por experiencia, que la emisión tiene las siguientes características (Distribución A Priori): 17.5 x 12 12.1 24 media y desviación standard 2.5 rango de variación de x (para graficar la distribución) (x )2 f (x) exp 2 2 2 1 función densidad de la distribución 'a priori' 19 f ( x) dx 0.146487 18 gráficamente: Cátedra Estadística II Probabilidad que la emisión esté entre 18 y 19 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Si posteriormente se realiza la toma de 80 muestras y los resultados dan: x' 18.85 n 80 media y desviación standard de las 80 muestras 5.55 número de muestras Los parámetros de la distribución "a posteriori" serán (aquí se combinan creencias previas con evidencias muestrales directas): nx' 2 2 n 2 2 18.771659 0.602236 2 2 2 2 n (x )2 f1(x) exp función densidad de la distribución 'a 2 2 2 1 posteriori' 19 f1( x) dx 0.547674 18 gráficamente: Cátedra Estadística II Probabilidad que la emisión esté entre 18 y 19 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Si no se hubiese hecho el análisis bayesiano y se hubiera considerado la muestra "cruda", la probabilidad de emisión entre 18 y 19 sería: x' 18.85 evidentemente menor que aplicando Bayes (0.55). DISTRIBUCION DE LA DIFERENCIA DE DOS POBLACIONES Se dice que 'si las distribuciones de dos variables aleatorias independientes tienen las medias1 y 2 y las varianzas 12 y 22 entonces la distribución de su suma (o diferencia) tiene la media 1 + 2 (ó 1 + 2) y la varianza 12 + 22. Para demostrar esta aseveración se generan dos muestras de tamaño 1000 provenientes de poblaciones normales con medias y varianzas conocidas i 0 999 k 0 11 1 3 Ai índice para elementos de las muestras índice para la generación media y desviación standard de la primera población .5 media y desviación standard de la segunda población 1 rnd(1) 6 k Ai Ai Bi cálculo de los elementos de la primera muestra rnd(1) 6 k Bi Bi cálculo de los elementos de la segunda muestra Ci Ai Bi con esto se crea una tercera muestra (diferencia de la otras dos) meanC ( ) 1.975 cuya media coincide con la diferencia de medias 2 Cátedra Estadística II stdev(C) 1.152 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya y cuya desviacion standard es 2 2 1.118 ESTIMACION DE PROPORCIONES La información que suele disponerse al estimar una proporción es el número de veces x que un evento ocurre en n ensayos, ocasiones u observaciones. La estimación puntual suele ser x/n (proporción muestral). Para construir un intervalo de confianza para p (parámetro poblacional) que tenga aproximadamente un nivel de confianza (1 - ) 100%, se debe proceder como en el siguiente caso: Se desean hallar los intervalos con un nivel de confianza del 95%, aproximadamente, para p en muestras de tamaño n=20. n 20 p .1 .2 .9 numero de experimentos valores de probabilidad probabilidad que el evento ocurra x veces: n x nx b (x n p) p (1 p) x(n x) columnas del arreglo k 0 n filas del arreglo k1 0 8 (k1 1) arreglo de probabilidades 10 índice i 0 n 1 Ai1 k1 Ai k1 Ai1 k1 Matriz de sumas de probabilidades acumuladas A( k k1) b k n la matriz de elementos menores que puestos a 1, será k1 ak k1 if A 0.005 1 0 k a k1 1 X0k1 X1k1 n X08k1 j 0 8 Resumen: Cátedra Estadística II P j valores de X0 valores de X1 j 1 10 probabilidades expresadas como vector Universidad de Mendoza 0.1 0.2 0.3 0.4 P 0.5 0.6 0.7 0.8 0.9 Ing. Jesús Rubén Azor Montoya 1 1 0 2 X0 3 5 7 10 13 7 10 13 15 X1 17 18 20 21 21 Curvas correspondientes: 20 15 X0 k1 10 X1 k1 5 0 0.2 0.4 k1 0.6 0.8 1 10 Para un valor dado de x, es posible obtener cuotas de p, con un nivel de confianza de aproximadamente el 95% (en el caso de este ejemplo) con sólo desplazarse horizontalmente de una curva a la otra y marcando los correspondientes valores de p. Para x = 10: Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Resulta 0.20 < p <0.80 con un 95 % de confianza. HIPOTESIS RELATIVA A VARIAS PROPORCIONES Ejemplo: Muestras de tres tipos de materiales sujetas a cambios extremos de temperatura producen los resultados que aparecen en la siguiente tabla: utilizar el nivel de significación 0.05 para probar si, bajo las condiciones establecidas, la probabilidad de desmoronamiento es la misma en los tres tipos de materiales. 41 27 22 79 53 78 Observ Matriz de frecuencias observadas n cols(Observ) i 0 n 1 j 0 rows(Observ) 1 número de muestras índice de columnas índice de filas Suma_filas j Observj i suma de filas de la matriz i Suma_coli Observj i suma de columnas de la matriz j Gran_total Cátedra Estadística II Suma_filas gran total Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Suma_filas 0 p_estimado Gran_to tal Suma_filas 0 Esper0 i Suma_coli Gran_total probabilidad estimada La matriz de valores esperados en celda será Gran_to tal Suma_filas 0 Esper1 i Suma_coli Gran_to tal 36 24 30 84 56 70 Esper ji_cuadrado j Observj i Esperj i 2 Esperj i i estadístico ji_cuadrado 4.575 nu cols(Observ) 1 x 0 .1 7 1 f ( x) 2 nu 2 x nu 1 2 grados de libertad rango e x 2 Función densidad chi-cuadrado nu 2 ji_cuadrado 1 0 f ( x) dx 0.101 área a la derecha de ji_cuadrado Por ser este valor superior al nivel de significación 0.05, ji_cuadrado se encuentra dentro de la zona de aceptación de H0, razón por la cual no se debe rechazar la Hipótesis Nula. Esto es, la probabilidad de desmoronamiento es significativamente igual en las tres muestras. Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya TRANSFORMACION DE CONJUNTO DE DATOS EXPONENCIAL A LINEAL Un conjunto de parejas de datos que conste de n puntos (xi,yi) "se enderezan" cuando son graficados sobre ejes escalados adecuadamente. Por ejemplo, al ser representados sobre papel semilogarítmico un conjunto de datos que responden a una función exponencial, se puede observar que se agrupan formando una recta. Si la ecuación predictora está dada por: y=*x tomando logaritmos en ambos miembros, queda: log ( y ) = log ( ) + x * log ( ) lo que implica una linealización si en lugar de considerar el conjunto de los valores de y, se considera el de los logaritmos de cada uno de los mismos. Sean los vectores fila X e Y: X Y ( 1 2 5 10 20 30 40 50 ) ( 98.2 91.7 81.3 64 36.4 32.6 17.1 11.3 ) X X T convierte X a vector columna T Y1 log( Y) n length(X) i 0 .. n 1 convierte a Y en vector columna en la que los elementos son los logarítmos de cada uno de ellos longitud del vector índice En base a esto, los gráficos de dispersión quedan: Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 1 00 2 .3 75 1 .72 5 T Y i 50 ( Y 1) 1 .15 i 25 0 .57 5 0 1 3.7 5 2 7.5 4 1.2 5 5 5 0 X i 1 3.7 5 2 7.5 4 1.2 5 5 5 X i exponencial linealizado Para formar las ecuaciones normales (a los vectores X e Y1): x1 2 y1 1 valores de intento Given n. x1 Xi . y1 i i Xi . x1 i z primera ecuación Y1i Xi 2 . y1 i Find( x1, y1) Xi. Y1i segunda ecuación i z= 2 soluciones, coeficientes de la recta 0.019 Los valores encontrados son los coeficientes del ajuste lineal, para volver al conjunto original (de ley exponencial): a b 10 z 0 10 z 1 a = 99.941 coeficientes de la exponencial b = 0.958 Vista la recta de ajuste: x1 0 , 0.2.. 55 Cátedra Estadística II y( x1) z0 z1. x1 ecuación Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 2 ( Y 1) i y( x1)1 0 10 20 30 40 50 40 50 ( X ) , x1 i Vista de la exponencial de ajuste: y( x1) x1 a. b ecuación 1 00 T Y i 50 y( x1) 0 10 20 30 ( X ) , x1 i TRANSFORMACION DE CONJUNTO DE DATOS POTENCIAL A LINEAL Si al ser representado el conjunto de datos sobre papel logarítmico toma la forma de recta, significa que los valores siguen una ley potencial. Si la ecuación predictora está dada por: y=*x tomando logaritmos en ambos miembros, queda: log ( y ) = log ( ) + * log ( x) . En este caso habrá que considerar tanto los logaritmos de los elementos de y como los de x. Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Sean los vectores fila X e Y: X Y (1 2 3 4 5 6 7 ) ( 6.5 40 90 140 250 500 700 ) T X1 log( X) Y1 log( Y) convierte X a vector columna en la que los elementos son los logaritmos de cada uno de ellos T convierte a Y en vector columna en la que los elementos son los logaritmos de cada uno de ellos T n lengthX longitud del vector i 0 .. n 1 índice En base a esto, los gráficos de dispersión quedan: 1 00 0 3 7 50 2 .25 Y1 i T Y i 5 00 1 .5 0 .75 2 50 0 2 4 6 0 .1 0 .17 5 0 .45 0 .72 5 8 1 X1 i T X i exponencial linealizado Para formar las ecuaciones normales (a los vectores X1 e Y1): x1 2 y1 1 valores de intento Given n. x1 X1i . y1 i X1i . x1 i z i X1i 2 . y1 i Find( x1 , y1 ) Cátedra Estadística II primera ecuación Y1i X1i. Y1i segunda ecuación i z= 0.829 2.338 soluciones, coeficientes de la recta Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Los valores encontrados son los coeficientes del ajuste lineal, para volver al conjunto original (de ley potencial): z 0 a 10 a = 6.743 b z1 b = 2.338 coeficientes de la potencial Vista la recta de ajuste: x1 0 , 0.2.. 8 y( x1) z0 z1. x1 3 ( Y 1) i2 y( x1) 1 0 0 .2 0 .4 0 .6 0 .8 1 ( X1 ) , x1 i Vista de la potencial de ajuste: b y(x1) a x1 ecuación T Y i5 00 y( x1) 0 2 4 6 8 T X i , x1 INTERPOLACION LINEAL Es posible encontrar un valor interpolado linealmente en x para dos vectores dados vx y vy. Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya El formato Mathcad para la interpolación lineal es: linterp(vx,vy,x) Donde: vx es un vector de datos de elementos reales en orden ascendente. Estos corresponden a los valores de x. vy es un vector de datos de elementos reales en orden ascendente. Estos corresponden a los valores de y. El número de elementos es igual al de vx. x es el valor de la variable independiente en la cual se desea obtener el resultado interpolado. Para mejores resultados, este deberá a acompañar a los valores de vx. A modo de ejemplo: i 0 5 x 0 1 5 vxi i vyi rnd ( 1) linterpvx ( vy 1.5) 0.389 Caso particular x=1.5 f (x) linterpvx ( vy x) Caso general, función. Supóngase ahora el caso de un conjunto de 11 valores definidos como aleatorios, obtenidos por aplicación de la función RND (random) de Mathcad: i 0 10 índice x 0 .01 10 vxi i vyi rnd ( i) conjunto de valores aleatorios vs1 lsplinevx ( vy) spline lineal vs2 psplinevx ( vy) spline parabólico Cátedra Estadística II rango de valores de x Universidad de Mendoza Ing. Jesús Rubén Azor Montoya spline cúbico vs3 csplinevx ( vy) f1(x) interpvs1 ( vx vy x) funciones interpoladas f2(x) interpvs2 ( vx vy x) f3(x) interpvs3 ( vx vy x) 1 1 f1 ( x) 0.5 f2 ( x) vyi f3 ( x) 0 0.5 1 1.5 2 2.5 0.443 x x vxi x 0 2.5 CORRELACION La expresión de la distribución normal bivariada tiene la siguiente forma: f x y 1 1 o bien: f x y 1 1 x 12 1 y x 2 exp exp 2 2 2 1 2 2 2 1 1 y x 2 x 12 exp 2 2 2 2 1 2 1 1 Se requieren cinco parámetros: 1,1, , y. 1 0 1 1 1 0 i 0 20 j 0 20 min 3 max 3 xi min max min i 20 Cátedra Estadística II yj min max min j 20 1 (1) Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Mi j f xi yj 1 1 matriz con los valores de la función con -3 < x <3 y -3 < y , 3 La expresión gráfica de la función densidad de una distribución normal bivariada con 1,1, , ydados,será: M Por razones de simetría, se acostumbra a expresar la densidad normal bivariada en función de1,1,2, yDondeyson la media y la desviación standard de la distribución marginal f2(x). es el coeficiente de correlación de la población, y se define como: 2 = 1 -222 es positivo cuando > 0 y negativo cuando< 0. Además: 2 = + 1 22 = 2 + 212 Sustituyendo lo anterior en la expresión (1) queda: 2 1 Cátedra Estadística II 2 2 2 2 1 1 2 22 Universidad de Mendoza Ing. Jesús Rubén Azor Montoya x 1 2 x 1 y 2 2 1 1 2 2 y 2 1 2 f ( x y) exp 2 2 2 1 2 1 2 1 Los casos límite se dan cuando es igual a +1 ó -1 (para lo cual = 0 ) caso degenerado en el cual la probabilidad se concentra a lo largo de y = + x (relación perfecta entre x e y) Cuando = 0 implica que también es nulo, luego la línea de regresión es horizontal y el conocimiento de x no ayuda en la predicción de y. 2 es la variación de las y cuando x se conoce 2 es la variación de las y cuando x no se conoce 2 - 2 es la variación de las y que se explica por la relación lineal. Luego 2 indica que proporción de la variación de las y puede atribuirse a la relación lineal con x. Ejemplo 1: Los datos siguientes corresponden al número de minutos x que tardan 10 mecánicos en ensamblar cierta pieza de una maquinaria en la mañana, e y representa el tiempo que ocupan en la tarde. x ( 11.1 10.3 12 15.1 13.7 18.5 17.3 14.2 14.8 15.3) y ( 10.9 14.2 13.8 21.5 13.2 21.1 16.4 19.3 17.4 19 ) T n length x Sxx n i Syy n i Sxy n i r i 0 n 1 T xT x i Sxx 603.81 i i 2 T 2 3 yT y i Syy 1.156 10 i i T T x y xT yT i i i i i i Sxy SxxSyy Cátedra Estadística II 2 2 r 0.732 Sxy 611.26 coeficiente de correlación muestral Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Esto implica que 100 * r2 = 53 % de la variación entre los tiempos de la tarde responden a diferencias correspondientes entre los tiempos de la mañana. Ejemplo 2: En relación con el ejemplo anterior (donde n=10 y r = 0.732) probar la hipótesis nula que = 0 contra la alterna <> 0 con un nivel de significancia 0.05. 1) Hipótesis nula: = 0 Hipótesis alterna: <> 0 2) Nivel de significación = 0.05 3) Criterio: se rechaza Ho si z < -1.96 o si z > 1.96 4) Cálculos: z n 3 2 1 r 1 r ln z 2.467 estadístico Decisión: ya que 2.467 es mayor que 1.96, se rechaza Ho. Luego existe una relación entre el tiempo que se ocupa en la mañana y en la tarde. Ejemplo 3: Si r = 0.70 para las calificaciones en física y matemática de 30 estudiantes, construir un intervalo de confianza con un nivel de confianza del 95% para el coeficiente de correlación de la población. r 0.7 n 30 Z 1 r 2 1 r 1 ln El intervalo de confianza para z será: mu_sup Z z_ n 3 Z 0.867 z_ 1.96 Z ± z_/ sqr (n-3) mu_inf Z z_ n 3 El intervalo de confianza para será : 2 mu_sup ro_sup e 2 mu_sup e ro_sup 0.847 1 1 ro_inf 2 mu_inf 1 2 mu_inf 1 e e ro_inf 0.454 La respuesta es: 0.454 < < 0.847 Ejemplo 4: Si r = 0.20 para una muestra aleatoria de n = 40 parejas de datos, construir un intervalo de confianza del 95 % para . Cátedra Estadística II Universidad de Mendoza r 0.2 Ing. Jesús Rubén Azor Montoya Z n 40 1 r 2 1 r 1 ln El intervalo de confianza para z será: mu_sup Z z_a Z 0.203 Z ± z_ / sqr (n-3) mu_inf Z n 3 z_ 1.96 z_a n 3 El intervalo de confianza para será: 2 mu_sup ro_sup e 2 mu_sup e ro_sup 0.482 1 ro_inf 1 2 mu_inf 1 2 mu_inf 1 e e ro_inf 0.119 La respuesta es: -0.119 < < 0.482 En los dos últimos ejemplos los intervalos de confianza son grandes para . Esto ilustra el hecho de que los coeficientes de correlación basados en muestras relativamente chicas suelen ser poco confiables. VARIANZA RESIDUAL Dado el conjunto de datos: T x ( .5 1.5 2.5 5.5 6.5 9.5 10.5 12.5 14.5 15.5) x x y ( 3 7 12.5 14.5 16 14.5 16 16 21 23 ) y y n lengthx ( ) T i 0 n 1 Para ajuste lineal: a interceptx ( y) b slope(x y) y_est(x1) a bx1 función de la recta del mejor ajuste y2i a b xi ordenadas estimadas Con una interpolación cúbica se puede apreciar la "trayectoria" aproximada para todos los puntos vs csplinex ( y) f (x1) interpvs ( x y x1) x1 0 .2 16 Rango de variación Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 23.125 20 f ( x1 ) yi 10 y_est( x1 ) 0 0 5 10 15 x1 xi x1 0 16 2 yi y2i i var_res0 n 2 var_res 0 7.207 varianza residual para ajuste lineal --------------------------------------------------------------------------------------------------------Para ajuste cuadrático: Aquí se plantea y resuelve el sistema de ecuaciones normales en forma matricial A1 yi i yixi i 2 yi xi i 1 B A2 A2 y2i B0 B1 xi B2 xi yi y2i var_res1 i n 3 Cátedra Estadística II 2 2 i i xi xi 2 i i 2 x i i 3 x i i 5.399 B 1.5 0.033 A1 xi xi n i i xi 4 xi 3 coeficientes de la parábola de mejor ajuste ordenadas estimadas 2 var_res 1 7.58 varianza residual para ajuste cuadrático Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 2 y_est(x1) B0 B1 x1 B2 x1 función de la parábola del mejor ajuste 23.125 20 f ( x1 ) yi 10 y_est( x1 ) 0 0 5 10 15 x1 xi x1 0 16 Para ajuste cúbico Aquí se generaliza el proceso: i1 0 n 7 A1i1 yi xi i 1 B A2 i1 A2i1 j1 índices auxiliares xi i1 j1 i 0.497 5.793 coeficientes de la parábola cúbica de mejor ajuste B 0.714 0.028 A1 y2i j1 0 n 7 Bi1 xi i1 ordenadas estimadas i1 yi y2i var_resn8 2 i var_res n8 1.021 n 4 y_est(x1) i1 Cátedra Estadística II i1 Bi1x1 varianza residual para ajuste cúbico función de la parábola cúbica del mejor ajuste Universidad de Mendoza Ing. Jesús Rubén Azor Montoya 25.691 20 f ( x1 ) yi y_est( x1 ) 10 0 0 5 10 x1 xi x1 0 15 16 Para ajuste cuártico i1 0 n 6 A1i1 yi xi j1 0 n 6 i1 i A2i1 j1 xi i1 j1 i 7.2 1.113 B 0.067 3 1.207 10 0.57 1 B A2 y2i A1 Bi1 xi i1 i1 2 yi y2i var_resn7 i n 5 var_res n7 0.992 Resumen: 7.207 7.58 var_res 1.021 0.992 para ajuste lineal para ajuste cuadrático para ajuste cúbico para ajuste cuártico Se ve que el salto mayor se produce entre el ajuste cuadrático y el cúbico, por lo Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya tanto el mejor estimador lo constituye el ajuste cúbico. PRUEBAS DE ALEATORIEDAD (Medianas) Se puede utilizar la prueba de secuencias para probar la aleatoriedad de muestras que constan de datos numéricos, contando las secuencias por encima y por debajo de la mediana. A modo de ejemplo se propone el siguiente problema. Un ingeniero está preocupado debido a que están realizando demasiadas modificaciones al ajustar un torno automático. Dados los siguientes diámetros medios (en pulgadas) de 40 ejes maquinados sucesivamente en el torno: .261 .252 M .248 .247 .258 .249 .251 .247 .256 .250 .247 .255 .243 .250 .253 .247 .251 .243 .258 .251 .245 .250 .252 .254 .250 .247 .253 .251 .246 .249 .252 .250 .253 .247 .249 .253 .246 .251 .249 .253 Emplear el nivel de significación 0.01 para probar la hipótesis nula de aleatoriedad contra la alterna de que existe un patrón que se repite con frecuencia. 1) Hipótesis Nula: El arreglo es aleatorio Hipótesis Alterna: No lo es. Existe un patrón de repetición. 2) Nivel de significación: 0.01 3) Se rechaza Ho si z > 2.33 4) Cálculos: i 0 cols(M) 1 Vh M j 0 rows(M) 1 h 0 rows(M) cols(M) 1 h cols( M) floor mod ( h cols( M) ) Esta expresión transforma la Matríz M en el vector V. l lengthV ( ) Longitud del vector V_ord sort(V) Vector ordenado Con esto es posible calcular la mediana del conjunto de valores: Cátedra Estadística II Indices Universidad de Mendoza Ing. Jesús Rubén Azor Montoya l Med if floor 2 Med 0.25 V_ord l 2 l 1 2 floor V_ord 2 l floor 2 l 2 V_ord floor mediana resultante Para calcular el número de valores distintos de la mediana, se recurre a: Vauxh if Vh k 0 Vaux 35 Med 0 1 Vaux 1 valores distintos de 0.25 Indice auxiliar Para calcular los valores por encima y por debajo de la mediana se procede del siguiente modo: Vaux n2 Vaux Vauxh if Vh Med 1 0 n1 Vauxh if Vh Med 1 0 n1 19 valores por encima de Med n2 16 valores por debajo de Med A continuación se "absorben" los valores iguales a la mediana con el inmediato anterior, lo que no genera modificación en el número de corridas; V1h if Vh Med Vh1 Vh Posteriormente se resta a cada valor la mediana, con lo que quedan en el vector resultante dos tipos de valores: lo que están por encima de ella (positivos) y lo que están por debajo (negativos): V1 ( V1 Med) Finalmente se procede a la cuenta de corridas: i 0 lengthV ( )2 índice auxiliar C0 1 Número inicial de corridas Ci1 if V1i V1i1 Ci 1 Ci Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya El último elemento de C contiene el número de corridas u Clength( V) 1 n2 _u 2 n1 1 n1 n2 _u u 27 _u 18.371 2 n1n2 n1 n2 2 n1n2 2 ( n1 n2) ( n1 n2 1) z u _u z 2.983 _u media _u 2.892 desv. standard Estadístico 5) Decisión: 3 1 cnormz ( ) 1.425 10 Por ser menor que el nivel de significación se rechaza la Ho, luego se acepta la aternativa, esto es el Arreglo no es aleatorio. REGRESION MULTIPLE Dadas N tuplas de datos, la meta es encontrar un plano que mejor ajuste a los puntos de datos en el sentido de los mínimos cuadrados. Se deben seguir los pasos que se detallan: 1. 2. 3. 4. Ubicar una columna de datos (valores de y) en un vector b de N elementos. Ubicar las otras n-1 columnas en una matríz X de N columnas. La primera columna de X debe ser una columna de 1s. Los coeficientes del plano que mejor ajusta a los datos se encuentran en el vector: Ejemplo: Los datos siguientes provienen del número de torsiones necesarias para romper una barra hecha con cierto tipo de aleación y los porcentajes de metales que la integran: Cátedra Estadística II Universidad de Mendoza Ing. Jesús Rubén Azor Montoya Ajustar un plano de regresión por mínimos cuadrados y estimar el número de torsiones para un 2.5% del elemento A y un 12% del elemento B. 38 40 85 59 40 60 68 53 b 31 35 42 59 18 34 29 42 1 1 1 1 1 1 1 1 x 1 1 1 1 1 1 1 1 T A x x 1 T x b 1 5 2 5 3 5 4 5 1 10 2 10 3 10 4 10 1 15 vector y matríz datos 2 15 3 15 4 15 1 20 3 20 4 20 2 20 48.187 A 7.825 1.755 vector de coeficientes: La ecuación del plano estimador será, en este ejemplo: y( x1 x2) A0 A1 x1 A2 x2 y(2.5 12) 46.69 DISEÑOS COMPLETAMENTE ALEATORIOS Problema: Suponer el siguiente esquema de mediciones de cuatro laboratorios de un parámetro determinado del que se quiere probar que las medias obtenidas por cada uno de ellos es significativamente igual (hipótesis nula). Construir una Tabla de análisis de varianza. Cátedra Estadística II Universidad de Mendoza .25 .18 y .19 .23 Ing. Jesús Rubén Azor Montoya .27 .22 .30 .27 .28 .32 .24 .31 .26 .21 .28 .28 .21 .23 .25 .20 .27 .19 .24 .22 .29 .16 .25 .27 .24 .18 .26 .28 .24 .25 .20 .21 .19 .30 .28 .28 .24 .34 .20 .18 .24 .28 .22 .21 n cols(y) tamaño de cada muestra k rows(y) número de tratamientos i 0 k 1 j 0 n 1 T i ymi mean y vector con elementos que son la media de cada tratamiento yt meanym ( ) SS_T r n SSE SST yt 0.2435 ymi yt 2 i yi j ymi i gran total SS_Tr 0.013 suma de cuadrados de tratamientos 2 SSE 0.0679 suma de cuadrados de error j yi j yt i índices 2 SST 0.0809 suma de cuadrados total j El estadístico F será entonces: F 0.0043 0.0015 F 2.8667 Luego el área entre esta abscisa e infinito estará dada por: nu1 k 1 Cátedra Estadística II nu2 k (n 1) Grados de libertad del num. y denom. Universidad de Mendoza Ing. Jesús Rubén Azor Montoya nu12 nu1 nu2 nu1 nu2 2 2 x 2 2 f ( x) nu1 nu2 nu1nu2 nu1 nu2 2 2 2 ( nu1x nu2) función densidad 2.8667 1 0 f ( x) dx 0.0472 área de cola derecha desde abscisa F Si este valor es menor que el nivel de significación (por ejemplo 0.05) esto significa que está dentro de la zona de rechazo. Luego, las medias obtenidas por los laboratorios son significativamente diferentes. Para el problema ejemplo, esto se grafica del siguiente modo: x 0 0.1 12 Cátedra Estadística II