GENERADOR DE VARIABLES ALEATORIAS UNFORMES

Anuncio
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
GENERADOR DE VARIABLES ALEATORIAS UNFORMES
http://www.math.keio.ac.jp/~matumoto/MT2002/emt19937ar.html
http://www.fourmilab.ch/hotbits/
http://www.random.org/
http://www.quantum.univie.ac.at/research/rng/
http://ebook.stat.ucla.edu/calculators/cdf/poisson/poissonrand.phtml
http://ebook.stat.ucla.edu/calculators/cdf/normal/normalrand.phtml
Permite recibir por e-mail un conjunto de datos distribuidos según Normal o Poisson
http://www.winguides.com/security/password.php
Generador de Passwords basados en aleatoriedad.
http://www.csse.monash.edu.au/community/postmodern.html
Generador de textos aleatorios
http://worldwidemart.com/scripts/rand_link.shtml
Sitio de links generales sobre aleatoriedad
http://nhse.npac.syr.edu/random/
Librería de Generadores de Números Aleatorios.(en Castellano)
http://www.sc.ehu.es/sbweb/fisica/cursoJava/fundamentos/clases1/azar.htm
http://webs.ono.com/usr005/jsuarez/aleat1.htm
Generalidades sobre números aleatorios (en Castellano)
http://teorica.fis.ucm.es/programas/MonteCarlo.pdf
Simulación de Distribuciones de Poisson. Simulación de Distribuciones Generales El
método de Montecarlo. (Acrobat Reader, en Castellano)
Propiedades deseadas
En simulación estocástica las variables aleatorias con distribución uniforme en el
intervalo [0,1] son empleadas de muchas maneras:



En forma directa.
Para generar distribuciones discretas o continuas.
Para generar conjuntos de variables aleatorias dependientes (procesos estocásticos y/o
distribuciones multivariadas).
Debe quedar bien en claro que en la mayoría de las veces, la performance de una
simulación estará fuertemente correlacionada con el generador de uniformes usado. De ahí
la importancia del mismo.
Un generador "razonable" que entrega una secuencia de variables aleatorias con
distibución uniforme, debe satisfacer las dos siguientes propiedades:
1) "repetibilidad" y "portabilidad"
2) "velocidad computacional"
Por "repetibilidad" se entiende que, dados los mismos parámetros que lo definen, el
generador produzca la misma secuencia siempre que así se deseara.
"Portabilidad" significa que, sobre las mismas condiciones de definición, una secuencia sea
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
la "misma", independientemente del modo computacional usado para implementar el
algoritmo de generación, o del computador usado.
En cuanto a la "velocidad computacional" la misma está estrechamente ligada a la
precisión deseada en los resultados finales de simulación en la que es usado el computador.
Cuanto más rápido sea un generador, más resultados serán obtenidos en el mismo tiempo
de uso del computador. Esto, en principio hará que la precisión pueda ser incrementada.
Algoritmo Congruencial Lineal
www.inf.utfsm.cl/~hallende/download/04_Numeros_Aletorios.ppt
Power Point sobre generación de números aleatorios con sus propiedades correspondientes.
http://www-gris.det.uvigo.es/~rebeca/lsim/simulacion/node11.html
Página sobre Generadores congruenciales lineales de números pseudoaleatorios incluyendo
multiplicativos y mixtos.
w3.mor.itesm.mx/~jtorres/Tesistas/tesishipergrafosat.pdf
Tesis en .pdf sobre números aleatorios.
www.dragones.org/Biblioteca/Articulos/Criptografia.pdf
.pdf sobre aplicación de números aleatorios en Criptografía y Seguridad en Computadoras
146.83.41.79/profesor/jmbm/io2/ApunSimu3.doc
Algoritmo para generar números aleatorios por el Método congruencial mixto
La estructura básica de un algoritmo congruencial lineal es la siguiente:
yi+1 = ( a * yi + c) mod M
para todo i >= 0
donde a, c e y0 son enteros del conjunto {0,...,M-1}
En la terminología usual, a es el multiplicador, c el incremento y M el módulo.
Si c=0 el generador se llama multiplicativo.
Para valores de los parámetros M = 2 ^ 31 - 1 y a = 950706376 se presenta uno de
los casos de los llamados "generadores multiplicativos óptimos".
31
a  950706376
M  2  1
semilla (seed)
y0  123546
longitud de la secuencia a obtener
n  1000
índice
i  0  n
algoritmo
yi1  mod a yi  M
índice auxiliar
k  0  n  1
y( k1)
uk 
M
el vector y obtenido queda "normalizado" con esta operación (elementos con valores
comprendidos entre 0 y 1)
Prueba de "calidad"
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
La más sencilla consiste en observar el histograma de la secuencia obtenida:
n1  8
k  0  n1
número de intervalos
índice para generar n intervalos
max( u)  min(u)
vector de intervalos
interk  min(u) 
k
n1
vector que cuenta las frecuencias en cada intervalo
h  hist(interu
 )
índice auxiliar
k1  0  n1  1
150
150
100
hk 1
50
0
0
0.2
 .1
0.4
0.6
0.8
interk 1
1
La media poblacional de una distribución uniforme en el intervalo [0,1] es 0.5, para
esta muestra de n valores, la media da:
mu  meanu
( )
mu  0.502
media de la muestra
La varianza poblacional para la misma distribución es 1/12 = 0.083, la muestral da:
sigma var(u)
l  lengthu
( )
V_ord  sort(u)
sigma  0.083
Longitud del vector
Vector ordenado
varianza muestral
i  0  l  1
Con esto es posible calcular la mediana del conjunto de valores:


 l
Med  if floor 

 2

Med  0.507
Cátedra Estadística II
V_ord
l
2

l
floor 1
2
 V_ord
2
mediana resultante



l

floor 
 2 
l

 2   V_ord
floor
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Para calcular el número de valores distintos de la mediana, se recurre a:
Vauxi  if ui
Med  0  1
Vaux  1  10
3
valores distintos de 0.25
k  0 
Vaux  1
Indice auxiliar
Para calcular los valores por encima y por debajo de la mediana se procede del
siguiente modo:
Vauxi  if ui  Med  1  0
Vauxi  if ui  Med  1  0
n1  500
n2  500
Vaux
n2 
Vaux
n1 
valores por encima de Med
valores por debajo de Med
A continuación se "absorben" los valores iguales a la mediana con el inmediato
anterior, lo que no genera modificación en el número de corridas;
V1i  if ui
Med  ui1  ui
Posteriormente se resta a cada valor la mediana, con lo que quedan en el vector
resultante dos tipos de valores: lo que están por encima de ella (positivos) y lo que están
por debajo (negativos):


V1  ( V1  Med)
Finalmente se procede a la cuenta de corridas:
índice auxiliar
i  0  lengthu
( )2
Número inicial de corridas
C0  1
Ci1  if  V1i    V1i1  Ci  1  Ci
El último elemento de C contiene el número de corridas
corr  Clength( u) 1
n2
_u  2 n1
1
_u  501 media
n1  n2
2 n1n2  n1  n2
_u  2 n1n2
_u  15.803 desv. standard
2
( n1  n2) ( n1  n2  1)
Cátedra Estadística II
Universidad de Mendoza
z 
Ing. Jesús Rubén Azor Montoya
corr  _u
Estadístico
_u
Decisión:
1  cnormz
( )  0.671
Por ser menor que el nivel de significación se rechaza la Ho, luego se acepta la
alternativa, esto es el Arreglo no es aleatorio.
TEOREMA DEL LIMITE CENTRAL
http://www.stat.sc.edu/~west/javahtml/CLT.html
Applet demostrativo del teorema a partir de lanzamiento de dados (en inglés)
http://www.ideamas.cl/cursoProb/javaEstat/quincunx/quincunx.1.html
http://seneca.fis.ucm.es/expint/html/fises/tlc/tlc.html
Applets demostrativos del teorema (en castellano)
http://www.terra.es/personal2/jpb00000/ttcentrallimite.htm
Explicativo de la Ley de los grandes números y Teorema del Límite Central con
experimentos.
http://www.cema.edu.ar/~rdp/MetodosCuantitativos/Central.html
Demostración y ejemplos de aplicación
http://147.96.33.165/Cursos/Bioestadistica/Limite_Central.html
matheron.uv.es/docencia/bioest/practica4.pdf
Ejercicios y definiciones
Si xm es la media de una muestra aleatoria de tamaño n extraída de un población
que tiene la media  y la varianza finita 2, entonces:
z = (xm - ) / ( / n1/2)
es el valor de una variable aleatoria cuya función de distribución se aproxima a la de la
distribución normal standard cuando n tiende a infinito.
Lo interesante de este teorema es su generalidad, ya que la población muestreada
puede tener cualquier distribución.
A modo de ejemplo se considerará una muestra extraída de una población con
distribución triangular:
f (x)  2x  2
función densidad (válida para 0 < x < 1)
La función acumulada es, por simple integración:
2
F (x  b)  x  2 x
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Si se despeja x de esta expresión y se hace tomar a F(x) valores uniformemente
distribuidos entre 0 y 1, se obtiene una muestra con distribución de triangular. A modo de
ejemplo:
número de elementos de la muestra
n  1000
índice
i  0  n  1
yi  1 
1  rnd ( 1)
n1  8
k  0  n1
número de intervalos
índice para generar n intervalos
max(y)  min(y)
vector de intervalos
interk  min(y) 
k
n1
vector que cuenta las frecuencias en cada intervalo
h  hist(intery
 )
índice auxiliar
k1  0  n1  1
Para poder apreciar la calidad de la distribución de valores, se contrastará el
histograma generado a partir de estos valores con los que surgen del área bajo la función
densidad entre los extremos de intervalo.
0.24
0.25
0.2
hk 1
n
0.15
i nt er
k 1 1


i nt er
f ( x) d x 0.1
k1
0.05
0.017
0
0.2
4
3.28810
mu  meany
( )
sigma stdev(y)
n
j  0   1
2
y2  j  y2  j1
Zj 
2
Cátedra Estadística II
mu  0.33
sigma  0.233
0.4
0.6
0.8
interk 1
1
0.852
media de la muestra
desviación standard
índice auxiliar
muestras de tamaño 2 a las que se le extrae la media
Universidad de Mendoza
zj 
Ing. Jesús Rubén Azor Montoya
Zj  mu
 sigma


 2 
n1  8
k  0  n1
número de intervalos
índice para generar n intervalos
max(z)  min(z)
vector de intervalos
interk  min(z) 
k
n1
vector que cuenta las frecuencias en cada intervalo
h  hist(interz
 )
índice auxiliar
k1  0  n1  1
Para verificar que el conjunto de valores determinados por el vector z tiene
distribución normal standard, se elabora con él el histograma correspondiente y superpuesto
a este último se dibuja la distribución normal standard correspondiente a los mismos
intervalos.
1
f1( x) 
2 
 x2 

 2
exp 
función densidad de la distribución normal standard
0.3
0.243
hk 1
n
 
2
0.2
i nt er
k 1 1


f1 ( x) d x
i nt er
0.1
k1
3
3.92810
2
 1.927
1
0
1
interk 1
2
3
2.614
Con lo observado en el gráfico se aprecia la exactitud del enunciado del teorema.
También se puede verificar el concepto que "la media de la distribución de medias
es un estimador de la media poblacional" y "la varianza de la distribución de medias es un
estimador de la varianza poblacional dividida por n, el tamaño de la muestra sobre la que se
calculan las medias"
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
1

 f ( x) x dx  0.333
0
media poblacional
meanZ
( )  0.33
media de la distribución de medias
1

2

  1

 f ( x)  x   f ( x) x dx dx  0.056
 0




0
var(Z) 2  0.053
varianza poblacional
varianza de la distribución de medias
Otro ejemplo, se considerará una muestra extraída de una población con
distribución parabólica:
2
f ( x)  x
función densidad ( válida para 0 < x < 3^(1/3) )
La función acumulada es, por simple integración:
3
x
F ( x  b) 
3
Si se despeja x de esta expresión y se hace tomar a F(x) valores uniformemente
distribuidos entre 0 y 1, se obtiene una muestra con distribución de parabólica. A modo de
ejemplo:
n  1000
i  0  n  1
yi  (3 rnd(1))
número de elementos de la muestra
índice
1
3
n1  8
k  0  n1
número de intervalos
índice para generar n intervalos
max( y)  min(y)
vector de intervalos
interk  min(y) 
k
n1
vector que cuenta las frecuencias en cada intervalo
h  hist(intery
 )
índice auxiliar
k1  0  n1  1
Para poder apreciar la calidad de la distribución de valores, se contrastará el
histograma generado a partir de estos valores con los que surgen del área bajo la función
densidad entre los extremos de intervalo.
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
0.298
0.3
hk 1
0.2
n
i nt er
k 1 1


f ( x) d x
i nt er
0.1
k1
3
610
0
0.2
0.4
0.158
mu meany
( )
sigma stdev(y)
n
j  0   1
2
y2  j  y2  j1
Zj 
2
Zj  mu
zj 
 sigma


mu  1.074
sigma  0.282
0.6
0.8
1
1.2
interk 1
1.4
1.282
media de la muestra
desviación standard
índice auxiliar
muestras de tamaño 2 a las que se le extrae la media

2 
n1  8
k  0  n1
número de intervalos
índice para generar n intervalos
max(z)  min(z)
vector de intervalos
interk  min(z) 
k
n1
vector que cuenta las frecuencias en cada intervalo
h  hist(interz
 )
índice auxiliar
k1  0  n1  1
Para verificar que el conjunto de valores determinados por el vector z tiene
distribución normal standard, se elabora con él el histograma correspondiente y superpuesto
a este último se dibuja la distribución normal standard correspondiente a los mismos
intervalos.
 x2 
f1( x) 
exp  
 2
2 
1
función densidad de la distribución normal standard
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
0.3
0.251
hk 1
n
 
2
0.2
i nt er
k 1 1


f1 ( x) d x
i nt er
0.1
k1
3
2.58110
4
3
2
 3.403
1
0
1
interk 1
2
1.118
Con lo observado en el gráfico se aprecia la exactitud del enunciado del teorema.
También se puede verificar el concepto que "la media de la distribución de medias
es un estimador de la media poblacional" y "la varianza de la distribución de medias es un
estimador de la varianza poblacional dividida por n, el tamaño de la muestra sobre la que se
calculan las medias"
1
3 3

 f ( x) x dx  1.082
0
media poblacional
meanZ
( )  1.074
media de la distribución de medias
1
3 3

2
1



  3


3

 

 f ( x)  x   f ( x) x dx dx  0.078

 0

0
var(Z) 2  0.08
varianza poblacional
varianza de la distribución de medias
EJEMPLO DE DISTRIBUCION DE VARIANZAS
Se va a estudiar una población normal standard (varianza = 1) a la que se le
extraerán muestras de tamaño n, calculándose la varianza muestral de cada una de ellas y
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
ejecutándose el correspondiente histograma.
j  0  11
n  5
k  0  n  1
i  0  999
Bi  k 
índice auxiliar
tamaño de la muestra
índice auxiliar
cantidad de muestras
 rnd(1)  6
matríz de muestras
j
T
BT  B
matríz de muestras traspuesta


 i
bi  var BT ( n  1)
n1  10
k1  0  n1
k2  0  n1  1
Ik1  k1
h  hist(I  b)
nu  n  1
vector de varianzas de cada muestra
número de intervalos para el histograma
índice para n1 intervalos
índice auxiliar
vector de intervalos
histograma
grados de libertad
A continuación se representa el histograma comparado con la distribución chicuadrado esperada:
1
f ( x) 
2
nu
2
x
nu
1
2
e
x
2
Función densidad chi-cuadrado
 nu

 2
 
0 .3
h k2
0 .2
1 00 0
I
 k2 1

f ( x) d x
I
k2
0 .1
0 .01 2
0
1
Cátedra Estadística II
2
4
k2
6
8
9
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
PRUEBAS DE HIPOTESIS
En vez de estimar el valor de un parámetro, a veces se debe decidir si una
afirmación relativa a un parámetro es verdadero o falso, vale decir probar una hipótesis
relativa a dicho parámetro.
Ejemplo: Un fabricante dice que su pintura tiene un tiempo de secado promedio de 20
minutos, el potencial comprador pinta 36 tableros para verificar lo dicho por el vendedor y
dice que si la media de tiempos de secado excede los 20.75 min no acepta la partida. Si
por experiencia se sabe que = 2.4min, cuál es la probabilidad de rechazar la partida aún
siendo la media de 20 min?
n  36
  2.4

 
n
  20.75
  20
 
z 

1  cnormz
( )  0.03
tamaño de la muestra
desviación standard de la población
desviación standard de la distribución de medias
límite de aceptación
media indicada por el fabricante
z  1.875
variable normalizada
probabilidad de rechazar la partida (t>20.75 min)
Supóngase ahora que la media real del tiempo de secado es  = 21 min.
Luego, la probabilidad de obtener una media muestral menor o igual que 20.75 min
(y por lo tanto equivocarse en la aceptación, está dada por:
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
para calcular esta probabilidad se procede del siguiente modo:
  21
 
z 

cnormz
( )  0.266
media supuesta
z  0.625
variable normalizada
probabilidad de aceptar la partida (t < 20.75 min)
Resumiendo el proceso, se puede decir:
También al Error Tipo I se lo llama  (coincide con el concepto de nivel de
significancia) y al Error Tipo II se lo llama .
Obsérvese que siempre el Error tipo II esta asociado a un valor de  (en este caso
visto, 21), cosa que no ocurre para el Error Tipo I.
DETERMINACION DE ERROR TIPO II (cola derecha)
Problema: Se desea investigar la afirmación de que la intensidad de sonido de ciertas
aspiradoras es una variable aleatoria que tiene una distribución normal de media 75.20 db,
con un desviación standard de 3.6 db. Específicamente se quiere probar la hipótesis nula
 = 75.20 contra la hipótesis alterna  > 75.20 en base a mediciones de la intensidad de
sonido de n = 15 de tales máquinas. Si la probabilidad de cometer un error tipo I es de
 = 0.05, cuál es la probabilidad de cometer un error tipo II para  = 77.0?
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
n  15
  3.6
mu 75.20
z_a  1.65
número de elementos de la muestra
desviación standard de la población
media que se quiere probar
z correspondiente al nivel de significacion
(en este caso para = 0.05)
x_pru 77 media asociada al error tipo II

x  mu  z_a 
x  76.734 abscisa que deja hacia la derecha
n
un área de 0.05
x  x_pru
z_b 
z_b  0.286 abscisa que deja hacia la izquierda

n
el área correspondiente a la probabilidad de Error Tipo II.
  cnormz_b
( )
  0.387 Error Tipo II, asociado con x_pru
Verificación:
x  70  70.1 80
rango
 1  x  mu  2 
f ( x) 
exp  
 

2



 
2  
n


 
n
 1  x  x_pru 2 
1
f1( x) 
exp  
 

2



 
2  
n


 
n
1
76.734


 70
f1( x) dx  0.387
Cátedra Estadística II
área
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
DETERMINACION DE ERROR TIPO II (cola izquierda)
Para el problema del tránsito:
n  10
  0.8
mu  25
  2.33
número de elementos de la muestra
desviación estándar de la población
media que se quiere probar
z correspondiente al nivel de significacion (en este caso
para = 0.01)
media asociada al error tipo II
xpru 24

x  mu   
x  24.411 abscisa que deja hacia la izquierda
n
un área de 0.01
x  xpru
 

n
  1.623 abscisa que deja hacia la derecha el área correspondiente a la
probabilidad de Error Tipo II.
    0.052
  1  cnorm
Error Tipo II, asociado con xpru.
DETERMINACION DE ERROR TIPO II (dos colas)
Para el problema de las pruebas mecánicas:
n  30
  0.05
mu  2
  1.96
numero de elementos de la muestra
desviación estándar de la población
media que se quiere probar
z correspondiente al nivel de significacion (en este caso
para = 0.05)
xpru 2.01 media asociada al error tipo II

x1  mu   
n
x1  1.982 abscisa que deja hacia la izquierda un área de 0.01
x2  mu   

n
x2  2.018 abscisa que deja hacia la derecha un área de 0.01
Cátedra Estadística II
Universidad de Mendoza
 
Ing. Jesús Rubén Azor Montoya
x1  xpru

n
  3.055
 
A1  cnorm
x2  xpru
 
abscisa que deja hacia la izquierda un area:
3
A1  1.124 10

n
  0.865 abscisa que deja hacia la izquierda un área:
 
A2  cnorm
A2  0.806
cnorm1.65
(
)  0.951
El Error Tipo II es la diferencia entre estas dos áreas:
  A2  A1
  0.805
CURVAS CARACTERISTICAS DE OPERACION
Se pretende graficar el error tipo II en su forma más general para un nivel de
significación  = 0.05 y prueba de cola derecha:
del esquema se ve que:
y
z = (x - 0) / / sqr(n))
z = (x - ) / / sqr(n))
Restando miembro a miembro, y siendo z = 1.65, queda:
1.65 - z = [( - 0) /] * sqr (n)
Llamando d a una variable dada por:
d = ( - 0) /
resulta:
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
zd = 1.65 - d * sqr(n)
Finalmente, el error tipo II es:
d = cnorm ( z)
lo que da un juego de curvas, con parámetro n:
n  1  5  9
d  0  0.01 3
  d n
 (d  n)  cnorm1.65
1
1
 ( d  n ) 0 .5
0
0
0
0 .5
1
1 .5
2
d
2 .5
3
3
Para pruebas de cola izquierda, los gráficos son la "imagen del espejo" de los
anteriores, con lo cual (para generalizar) se usa como abscisa el valor absoluto de d,
sirviendo entonces el juego de curvas para amabas pruebas.
Para pruebas de dos colas:
Se puede verificar que el error tipo II, en este caso, sigue la siguiente función:
  d n  cnorm1.96 d n
2(d  n)  cnorm1.96
que bajo las condiciones de representación anterior (n con valores 1, 5 y 9) da:
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
1
1
0 .9
0 .8
0 .7
0 .6
2( d  n ) 0 .5
0 .4
0 .3
0 .2
0 .1
0
0
0 .6
0
1 .2
1 .8
2 .4
d
3
3
CURVAS CARACTERISTICAS DE OPERACION
Se pretende graficar el error tipo II para el ejemplo de la pintura de secado rápido en
función de  (para un 0=20 y como límite de rechazo r = 20.75)
0
r
20
20.75
Datos del problema

19, 19.25.. 22
n
36
n1

2.4
Desviación standard
Rango de variación de 
50
Análisis para dos tamaños muestrales
El área bajo la normal (error tipo II) en función de  y para un n determinado, está
dado por:
f(  )
cnorm
r


n
Para un valor distinto de n, si se quiere mantener el mismo , se debe recalcular r:

1
cnorm
r
0

n
Cátedra Estadística II
 = 0.03
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
La abscisa normalizada correspondiente es 1.88, luego:

 r  0 1.88.
r = 20.638
n1
r 
f1(  ) cnorm

n1
1
f(  )
0 .5
f1(  )
19
20
21
22

Para el caso de una prueba de cola izquierda, supóngase que el valor limite sea =19.25:

Rango de variación de 
18, 18.01.. 20.5
f(  , n)
1
cnorm
19.25 
2.4
n
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
f(  , n )

ESTIMACION BAYESIANA
Hay métodos de inferencia que consideran a los parámetros como variables
aleatorias. Aquí se valoran conceptos de probabilidad subjetiva.
Se presentará un método bayesiano para estimar la media de una población
considerando a  como una variable aleatoria, cuya distribución es subjetiva.
Para el analista, esta clase de Distribución A Priori, obtenida de manera subjetiva,
tiene una media 0 y una desviación standard 0.
Como problema concreto, supóngase un problema de emisión de óxido de azufre de
una planta industrial, donde el ingeniero jefe supone, por experiencia, que la emisión tiene
las siguientes características (Distribución A Priori):
 17.5
x  12  12.1 24

media y desviación standard
  2.5
rango de variación de x (para graficar la distribución)
 (x  )2
f (x) 
exp

2
2  
 2  
1
función densidad de la distribución 'a priori'
19

 f ( x) dx  0.146487
18
gráficamente:
Cátedra Estadística II
Probabilidad que la emisión esté entre 18 y 19
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Si posteriormente se realiza la toma de 80 muestras y los resultados dan:
x'  18.85
n  80
media y desviación standard de las 80 muestras
 5.55
número de muestras

Los parámetros de la distribución "a posteriori" serán (aquí se combinan creencias
previas con evidencias muestrales directas):




nx' 2    2
n 2  2

 18.771659

 0.602236
2 2
 
2
2
n  
 (x  )2
f1(x) 
exp
 función densidad de la distribución 'a
2
2  
 2  
1
posteriori'
19

 f1( x) dx  0.547674
18
gráficamente:
Cátedra Estadística II
Probabilidad que la emisión esté entre 18 y 19
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Si no se hubiese hecho el análisis bayesiano y se hubiera considerado la muestra
"cruda", la probabilidad de emisión entre 18 y 19 sería:
x'  18.85
evidentemente menor que aplicando Bayes (0.55).
DISTRIBUCION DE LA DIFERENCIA DE DOS POBLACIONES
Se dice que 'si las distribuciones de dos variables aleatorias independientes tienen las
medias1 y 2 y las varianzas 12 y 22 entonces la distribución de su suma (o
diferencia) tiene la media 1 + 2 (ó 1 + 2) y la varianza 12 + 22.
Para demostrar esta aseveración se generan dos muestras de tamaño 1000
provenientes de poblaciones normales con medias y varianzas conocidas
i  0  999
k  0  11
  1
  3
Ai 
índice para elementos de las muestras
índice para la generación
media y desviación standard de la primera población
  .5
media y desviación standard de la segunda población
  1
 rnd(1)  6
k


Ai    Ai 
Bi 
cálculo de los elementos de la primera muestra
 rnd(1)  6
k


Bi    Bi 
cálculo de los elementos de la segunda muestra
Ci  Ai  Bi con esto se crea una tercera muestra (diferencia de la otras dos)
meanC
( )  1.975 cuya media coincide con la diferencia de medias
    2
Cátedra Estadística II
stdev(C)  1.152
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
y cuya desviacion standard es
 2   2  1.118
ESTIMACION DE PROPORCIONES
La información que suele disponerse al estimar una proporción es el número de
veces x que un evento ocurre en n ensayos, ocasiones u observaciones. La estimación
puntual suele ser x/n (proporción muestral).
Para construir un intervalo de confianza para p (parámetro poblacional) que tenga
aproximadamente un nivel de confianza (1 -  ) 100%, se debe proceder como en el
siguiente caso:
Se desean hallar los intervalos con un nivel de confianza del 95%, aproximadamente, para
p en muestras de tamaño n=20.
n  20
p  .1  .2  .9
numero de experimentos
valores de probabilidad
probabilidad que el evento ocurra x veces:
n
x
nx
b (x  n  p) 
p (1  p)
x(n  x)
columnas del arreglo
k  0  n
filas del arreglo
k1  0  8


(k1  1) 
arreglo de probabilidades

10 
índice
i  0  n  1
Ai1  k1  Ai  k1  Ai1  k1 Matriz de sumas de probabilidades acumuladas
A( k  k1)  b  k  n 
la matriz de elementos menores que  puestos a 1, será


 k1
ak  k1  if A
 0.005 1  0
k


 
a k1  1



X0k1  
X1k1  n  X08k1
j  0  8
Resumen:
Cátedra Estadística II
P j 
valores de X0
valores de X1
j 1
10
probabilidades expresadas como vector
Universidad de Mendoza
 0.1 
 
 0.2 
 0.3 
 0.4 
 
P   0.5 
 0.6 
 
 0.7 
 0.8 
 
 0.9 
Ing. Jesús Rubén Azor Montoya
 1 
 
 1 
0 
2 
 
X0   3 
5 
 
7 
 10 
 
 13 
7
 
 10 
 13 
 15 
 
X1   17 
 18 
 
 20 
 21 
 
 21 
Curvas correspondientes:
20
15
X0
k1
10
X1
k1
5
0
0.2
0.4
k1
0.6
0.8
1
10
Para un valor dado de x, es posible obtener cuotas de p, con un nivel de confianza
de aproximadamente el 95% (en el caso de este ejemplo) con sólo desplazarse
horizontalmente de una curva a la otra y marcando los correspondientes valores de p.
Para x = 10:
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Resulta 0.20 < p <0.80 con un 95 % de confianza.
HIPOTESIS RELATIVA A VARIAS PROPORCIONES
Ejemplo: Muestras de tres tipos de materiales sujetas a cambios extremos de temperatura
producen los resultados que aparecen en la siguiente tabla:
utilizar el nivel de significación 0.05 para probar si, bajo las condiciones establecidas, la
probabilidad de desmoronamiento es la misma en los tres tipos de materiales.
 41 27 22 

 79 53 78 
Observ  
Matriz de frecuencias observadas
n  cols(Observ)
i  0  n  1
j  0  rows(Observ)  1
número de muestras
índice de columnas
índice de filas
Suma_filas
j 
 Observj i
suma de filas de la matriz
i
Suma_coli 
 Observj i
suma de columnas de la matriz
j
Gran_total
Cátedra Estadística II
Suma_filas
gran total
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Suma_filas
0
p_estimado
Gran_to tal
Suma_filas
0
Esper0  i  Suma_coli
Gran_total
probabilidad estimada
La matriz de valores esperados en celda será
Gran_to tal Suma_filas
0
Esper1  i  Suma_coli
Gran_to tal
 36 24 30 

 84 56 70 
Esper  

ji_cuadrado
j
 Observj  i  Esperj  i 2
Esperj  i
i
estadístico
ji_cuadrado  4.575
nu  cols(Observ)  1
x  0  .1  7
1
f ( x) 
2
nu
2
x
nu
1
2
grados de libertad
rango
e
x
2
Función densidad chi-cuadrado
 nu

 2
 
ji_cuadrado

1
0
f ( x) dx  0.101
área a la derecha de ji_cuadrado
Por ser este valor superior al nivel de significación 0.05, ji_cuadrado se encuentra
dentro de la zona de aceptación de H0, razón por la cual no se debe rechazar la Hipótesis
Nula. Esto es, la probabilidad de desmoronamiento es significativamente igual en las tres
muestras.
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
TRANSFORMACION DE CONJUNTO DE DATOS EXPONENCIAL A LINEAL
Un conjunto de parejas de datos que conste de n puntos (xi,yi) "se enderezan"
cuando son graficados sobre ejes escalados adecuadamente. Por ejemplo, al ser
representados sobre papel semilogarítmico un conjunto de datos que responden a una
función exponencial, se puede observar que se agrupan formando una recta.
Si la ecuación predictora está dada por:
y=*x
tomando logaritmos en ambos miembros, queda:
log ( y ) = log ( ) + x * log ( )
lo que implica una linealización si en lugar de considerar el conjunto de los valores de y, se
considera el de los logaritmos de cada uno de los mismos.
Sean los vectores fila X e Y:
X
Y
( 1 2 5 10 20 30 40 50 )
( 98.2 91.7 81.3 64 36.4 32.6 17.1 11.3 )
X
X
T
convierte X a vector columna
T
Y1
log( Y)
n length(X)
i 0 .. n 1
convierte a Y en vector columna en la que los elementos son
los logarítmos de cada uno de ellos
longitud del vector
índice
En base a esto, los gráficos de dispersión quedan:
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
1 00
2 .3
75
1 .72 5
T
Y i 50
( Y 1) 1 .15
i
25
0 .57 5
0
1 3.7 5 2 7.5 4 1.2 5 5 5
0
X
i
1 3.7 5 2 7.5 4 1.2 5 5 5
X
i
exponencial
linealizado
Para formar las ecuaciones normales (a los vectores X e Y1):
x1
2
y1
1
valores de intento
Given
n. x1
Xi . y1
i
i
Xi . x1
i
z
primera ecuación
Y1i
Xi
2
. y1
i
Find( x1, y1)
Xi. Y1i
segunda ecuación
i
z=
2
soluciones, coeficientes de la recta
0.019
Los valores encontrados son los coeficientes del ajuste lineal, para volver al
conjunto original (de ley exponencial):
a
b
10
z
0
10
z
1
a = 99.941
coeficientes de la exponencial
b = 0.958
Vista la recta de ajuste:
x1
0 , 0.2.. 55
Cátedra Estadística II
y( x1)
z0
z1. x1
ecuación
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
2
( Y 1)
i
y( x1)1
0
10
20
30
40
50
40
50
( X ) , x1
i
Vista de la exponencial de ajuste:
y( x1)
x1
a. b
ecuación
1 00
T
Y i
50
y( x1)
0
10
20
30
( X ) , x1
i
TRANSFORMACION DE CONJUNTO DE DATOS POTENCIAL A LINEAL
Si al ser representado el conjunto de datos sobre papel logarítmico toma la forma de
recta, significa que los valores siguen una ley potencial.
Si la ecuación predictora está dada por:
y=*x
tomando logaritmos en ambos miembros, queda:
log ( y ) = log ( ) +  * log ( x)
.
En este caso habrá que considerar tanto los logaritmos de los elementos de y como
los de x.
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Sean los vectores fila X e Y:
X
Y
(1 2 3 4 5 6 7 )
( 6.5 40 90 140 250 500 700 )
T
X1
log( X)
Y1
log( Y)
convierte X a vector columna en la que los elementos son
los logaritmos de cada uno de ellos
T
convierte a Y en vector columna en la que los elementos son
los logaritmos de cada uno de ellos
T
n lengthX
longitud del vector
i 0 .. n 1
índice
En base a esto, los gráficos de dispersión quedan:
1 00 0
3
7 50
2 .25
Y1
i
T
Y i 5 00
1 .5
0 .75
2 50
0
2
4
6
0 .1 0 .17 5 0 .45 0 .72 5
8
1
X1
i
T
X i
exponencial
linealizado
Para formar las ecuaciones normales (a los vectores X1 e Y1):
x1
2
y1
1
valores de intento
Given
n. x1
X1i . y1
i
X1i . x1
i
z
i
X1i
2
. y1
i
Find( x1 , y1 )
Cátedra Estadística II
primera ecuación
Y1i
X1i. Y1i
segunda ecuación
i
z=
0.829
2.338
soluciones, coeficientes de la recta
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Los valores encontrados son los coeficientes del ajuste lineal, para volver al
conjunto original (de ley potencial):
z
0
a
10
a = 6.743
b
z1
b = 2.338
coeficientes de la potencial
Vista la recta de ajuste:
x1
0 , 0.2.. 8
y( x1)
z0
z1. x1
3
( Y 1)
i2
y( x1)
1
0
0 .2
0 .4
0 .6
0 .8
1
( X1 ) , x1
i
Vista de la potencial de ajuste:
b
y(x1)  a x1
ecuación
T
Y i5 00
y( x1)
0
2
4
6
8
T
X i , x1
INTERPOLACION LINEAL
Es posible encontrar un valor interpolado linealmente en x para dos vectores dados vx y
vy.
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
El formato Mathcad para la interpolación lineal es:
linterp(vx,vy,x)
Donde:
vx es un vector de datos de elementos reales en orden ascendente. Estos corresponden a
los valores de x.
vy es un vector de datos de elementos reales en orden ascendente. Estos corresponden a
los valores de y. El número de elementos es igual al de vx.
x es el valor de la variable independiente en la cual se desea obtener el resultado
interpolado.
Para mejores resultados, este deberá a acompañar a los valores de vx.
A modo de ejemplo:
i  0  5
x  0  1  5
vxi  i
vyi  rnd ( 1)
linterpvx
(  vy 1.5)  0.389
Caso particular x=1.5
f (x)  linterpvx
(  vy x)
Caso general, función.
Supóngase ahora el caso de un conjunto de 11 valores definidos como aleatorios,
obtenidos por aplicación de la función RND (random) de Mathcad:
i  0  10
índice
x  0  .01 10
vxi  i
vyi  rnd ( i)
conjunto de valores aleatorios
vs1  lsplinevx
(  vy)
spline lineal
vs2  psplinevx
(  vy)
spline parabólico
Cátedra Estadística II
rango de valores de x
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
spline cúbico
vs3  csplinevx
(  vy)
f1(x)  interpvs1
(  vx vy x)
funciones interpoladas
f2(x)  interpvs2
(  vx vy x)
f3(x)  interpvs3
(  vx vy x)
1
1
f1 ( x)
0.5
f2 ( x)
vyi
f3 ( x)
0
0.5
1
1.5
2
2.5
 0.443
x  x  vxi  x
0
2.5
CORRELACION
La expresión de la distribución normal bivariada tiene la siguiente forma:
f x  y  1  1        
o bien:
f x  y  1  1        
 x  12   1
 y     x 2  




exp 

exp 
2
2
 2 1   2  


 2   
2  1




1
  y     x 2 x  12  

exp 

2 
   2  2
2  1 
2 1  
  

1
Se requieren cinco parámetros: 1,1, , y.
1  0
1  1
  1
  0
i  0  20
j  0  20
min 3
max 3
xi  min
max min
i
20
Cátedra Estadística II
yj  min
max min
j
20
  1
(1)
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Mi  j  f xi  yj  1  1       
matriz con los valores de la función con
-3 < x <3 y -3 < y , 3
La expresión gráfica de la función densidad de una distribución normal bivariada
con 1,1, , ydados,será:
M
Por razones de simetría, se acostumbra a expresar la densidad normal bivariada en
función de1,1,2, yDondeyson la media y la desviación standard de la
distribución marginal f2(x). es el coeficiente de correlación de la población, y se define
como:
2 = 1 -222

 es positivo cuando > 0 y negativo cuando< 0.
Además: 

2 =  + 1
22 = 2 + 212
Sustituyendo lo anterior en la expresión (1) queda:
2     1
Cátedra Estadística II
2 
2
2
2
   1
  1 

2
22
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
  x  1  2
 x  1   y  2  
 
  2  
 
 
  1 
 1   2  

2

   y  2 

1
2



f ( x  y) 
exp 

2

2
2  1   


2  1 2  1  
Los casos límite se dan cuando es igual a +1 ó -1 (para lo cual  = 0 ) caso
degenerado en el cual la probabilidad se concentra a lo largo de y =  +  x (relación
perfecta entre x e y)
Cuando  = 0 implica que  también es nulo, luego la línea de regresión es
horizontal y el conocimiento de x no ayuda en la predicción de y.

2 es la variación de las y cuando x se conoce
2 es la variación de las y cuando x no se conoce
2 - 2 es la variación de las y que se explica por la relación lineal.
Luego 2 indica que proporción de la variación de las y puede atribuirse a la relación
lineal con x.
Ejemplo 1: Los datos siguientes corresponden al número de minutos x que tardan 10
mecánicos en ensamblar cierta pieza de una maquinaria en la mañana, e y representa el
tiempo que ocupan en la tarde.
x  ( 11.1 10.3 12 15.1 13.7 18.5 17.3 14.2 14.8 15.3)
y  ( 10.9 14.2 13.8 21.5 13.2 21.1 16.4 19.3 17.4 19 )
 T
n  length x

Sxx  n
i

Syy  n
i

Sxy  n
i
r 
i  0  n  1
T
xT   

x  i
Sxx  603.81
 i


 i

2
T 2
3
yT   

y i
Syy  1.156 10
 i 

 i

T
T
x  y   
xT   
yT  
 i  i 
 i  
 i 
 i
 i

Sxy
SxxSyy
Cátedra Estadística II
2
2



r  0.732

Sxy  611.26
coeficiente de correlación muestral
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Esto implica que 100 * r2 = 53 % de la variación entre los tiempos de la tarde
responden a diferencias correspondientes entre los tiempos de la mañana.
Ejemplo 2: En relación con el ejemplo anterior (donde n=10 y r = 0.732) probar la hipótesis
nula que = 0 contra la alterna  <> 0 con un nivel de significancia 0.05.
1) Hipótesis nula:  = 0
Hipótesis alterna:  <> 0
2) Nivel de significación  = 0.05
3) Criterio: se rechaza Ho si z < -1.96 o si z > 1.96
4) Cálculos:
z 
n 3
2
 1  r

 1  r
ln
z  2.467
estadístico
Decisión: ya que 2.467 es mayor que 1.96, se rechaza Ho. Luego existe una relación
entre el tiempo que se ocupa en la mañana y en la tarde.
Ejemplo 3: Si r = 0.70 para las calificaciones en física y matemática de 30 estudiantes,
construir un intervalo de confianza con un nivel de confianza del 95% para el coeficiente de
correlación de la población.
r  0.7
n  30
Z 
 1  r

2  1  r
1
ln
El intervalo de confianza para z será:
mu_sup  Z 
z_
n 3
Z  0.867
z_  1.96
Z ± z_/ sqr (n-3)
mu_inf  Z 
z_
n 3
El intervalo de confianza para  será
:
2  mu_sup
ro_sup 
e
2  mu_sup
e
ro_sup  0.847
1
1
ro_inf
2  mu_inf
1
2  mu_inf
1
e
e
ro_inf 0.454
La respuesta es: 0.454 < < 0.847
Ejemplo 4: Si r = 0.20 para una muestra aleatoria de n = 40 parejas de datos, construir un
intervalo de confianza del 95 % para .
Cátedra Estadística II
Universidad de Mendoza
r  0.2
Ing. Jesús Rubén Azor Montoya
Z 
n  40
 1  r

2  1  r
1
ln
El intervalo de confianza para z será:
mu_sup Z 
z_a
Z  0.203
Z ± z_ / sqr (n-3)
mu_inf Z 
n 3
z_  1.96
z_a
n 3
El intervalo de confianza para  será:
2  mu_sup
ro_sup 
e
2  mu_sup
e
ro_sup  0.482
1
ro_inf
1
2  mu_inf
1
2  mu_inf
1
e
e
ro_inf 0.119
La respuesta es: -0.119 < < 0.482
En los dos últimos ejemplos los intervalos de confianza son grandes para . Esto
ilustra el hecho de que los coeficientes de correlación basados en muestras
relativamente chicas suelen ser poco confiables.
VARIANZA RESIDUAL
Dado el conjunto de datos:
T
x  ( .5 1.5 2.5 5.5 6.5 9.5 10.5 12.5 14.5 15.5)
x  x
y  ( 3 7 12.5 14.5 16 14.5 16 16 21 23 )
y  y
n  lengthx
( )
T
i  0  n  1
Para ajuste lineal:
a  interceptx
(  y)
b  slope(x y)
y_est(x1)  a  bx1
función de la recta del mejor ajuste
y2i  a  b xi
ordenadas estimadas
Con una interpolación cúbica se puede apreciar la "trayectoria" aproximada para
todos los puntos
vs  csplinex
(  y)
f (x1)  interpvs
(  x y x1)
x1  0  .2 16
Rango de variación
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
23.125
20
f ( x1 )
yi
10
y_est( x1 )
0
0
5
10
15
x1  xi  x1
0
16
2
yi  y2i


i
var_res0 
n 2
var_res 0  7.207 varianza residual para ajuste lineal
--------------------------------------------------------------------------------------------------------Para ajuste cuadrático:
Aquí se plantea y resuelve el sistema de ecuaciones normales en forma matricial




A1  




 yi


i

yixi 

i

2
yi xi




i
1
B  A2




A2  





y2i  B0  B1 xi  B2  xi
  yi  y2i
var_res1 
i
n 3
Cátedra Estadística II
2
2
i
i
 xi   xi 
2
i
i
2
x


i

i
3
x


i

i
 5.399 
B   1.5 
 0.033


A1
 xi   xi 
n
i

i

 xi 


4
 xi


3
coeficientes de la parábola de mejor ajuste
ordenadas estimadas
2
var_res 1  7.58
varianza residual para ajuste cuadrático
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
2
y_est(x1)  B0  B1 x1  B2 x1
función de la parábola del mejor ajuste
23.125
20
f ( x1 )
yi
10
y_est( x1 )
0
0
5
10
15
x1  xi  x1
0
16
Para ajuste cúbico
Aquí se generaliza el proceso:
i1  0  n  7
A1i1 
 yi xi
i
1
B  A2

i1
A2i1 j1 
índices auxiliares
  xi
i1 j1
i
 0.497 


5.793 

coeficientes de la parábola cúbica de mejor ajuste
B
 0.714


 0.028 
A1
y2i 
j1  0  n  7
Bi1 xi
i1
ordenadas estimadas
i1
  yi  y2i
var_resn8 
2
i
var_res n8  1.021
n 4
y_est(x1) 

i1
Cátedra Estadística II
i1
Bi1x1
varianza residual para ajuste cúbico
función de la parábola cúbica del mejor ajuste
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
25.691
20
f ( x1 )
yi
y_est( x1 )
10
0
0
5
10
x1  xi  x1
0
15
16
Para ajuste cuártico
i1  0  n  6
A1i1 
 yi xi
j1  0  n  6
i1
i
A2i1 j1 
  xi
i1 j1
i




7.2



1.113
B


0.067



3
 1.207 10 
0.57
1
B  A2
y2i 
A1
 Bi1 xi
i1
i1
2
yi  y2i


var_resn7 
i
n 5
var_res n7  0.992
Resumen:
 7.207


7.58 

var_res
 1.021


 0.992
para ajuste lineal
para ajuste cuadrático
para ajuste cúbico
para ajuste cuártico
Se ve que el salto mayor se produce entre el ajuste cuadrático y el cúbico, por lo
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
tanto el mejor estimador lo constituye el ajuste cúbico.
PRUEBAS DE ALEATORIEDAD (Medianas)
Se puede utilizar la prueba de secuencias para probar la aleatoriedad de muestras
que constan de datos numéricos, contando las secuencias por encima y por debajo de la
mediana. A modo de ejemplo se propone el siguiente problema.
Un ingeniero está preocupado debido a que están realizando demasiadas
modificaciones al ajustar un torno automático. Dados los siguientes diámetros medios (en
pulgadas) de 40 ejes maquinados sucesivamente en el torno:
 .261

 .252
M 
 .248

 .247
.258 .249 .251 .247 .256 .250 .247 .255 .243

.250 .253 .247 .251 .243 .258 .251 .245 .250
.252 .254 .250 .247 .253 .251 .246 .249 .252

.250 .253 .247 .249 .253 .246 .251 .249 .253
Emplear el nivel de significación 0.01 para probar la hipótesis nula de aleatoriedad
contra la alterna de que existe un patrón que se repite con frecuencia.
1) Hipótesis Nula: El arreglo es aleatorio
Hipótesis Alterna: No lo es. Existe un patrón de repetición.
2) Nivel de significación:
  0.01
3) Se rechaza Ho si z > 2.33
4) Cálculos:
i  0  cols(M)  1
Vh  M
j  0  rows(M)  1 h  0  rows(M) cols(M)  1
 h
 cols( M)
floor
  mod ( h  cols( M) )


Esta expresión transforma la Matríz M en el vector V.
l  lengthV
( )
Longitud del vector
V_ord  sort(V)
Vector ordenado
Con esto es posible calcular la mediana del conjunto de valores:
Cátedra Estadística II
Indices
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya


 l
Med  if floor 

 2

Med  0.25
V_ord
l
2
 l  1

2
floor

 V_ord
2



l

floor 
 2 
l

 2   V_ord
floor
mediana resultante
Para calcular el número de valores distintos de la mediana, se recurre a:
Vauxh  if Vh
k  0 
Vaux  35
Med  0  1
Vaux  1
valores distintos de 0.25
Indice auxiliar
Para calcular los valores por encima y por debajo de la mediana se procede del
siguiente modo:
Vaux
n2 
Vaux
Vauxh  if Vh  Med  1  0
n1 
Vauxh  if Vh  Med  1  0
n1  19
valores por encima de Med
n2  16
valores por debajo de Med
A continuación se "absorben" los valores iguales a la mediana con el inmediato
anterior, lo que no genera modificación en el número de corridas;
V1h  if Vh
Med  Vh1  Vh
Posteriormente se resta a cada valor la mediana, con lo que quedan en el vector
resultante dos tipos de valores: lo que están por encima de ella (positivos) y lo que están
por debajo (negativos):


V1  ( V1  Med)
Finalmente se procede a la cuenta de corridas:
i  0  lengthV
( )2
índice auxiliar
C0  1
Número inicial de corridas
Ci1  if  V1i    V1i1  Ci  1  Ci
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
El último elemento de C contiene el número de corridas
u  Clength( V) 1
n2
_u  2 n1
1
n1  n2
_u 
u  27
_u  18.371
2 n1n2  n1  n2
2 n1n2
2
( n1  n2) ( n1  n2  1)
z 
u  _u
z  2.983
_u
media
_u  2.892 desv. standard
Estadístico
5) Decisión:
3
1  cnormz
( )  1.425 10
Por ser menor que el nivel de significación se rechaza la Ho, luego se acepta la
aternativa, esto es el Arreglo no es aleatorio.
REGRESION MULTIPLE
Dadas N tuplas de datos, la meta es encontrar un plano que mejor ajuste a los puntos
de datos en el sentido de los mínimos cuadrados.
Se deben seguir los pasos que se detallan:
1.
2.
3.
4.
Ubicar una columna de datos (valores de y) en un vector b de N elementos.
Ubicar las otras n-1 columnas en una matríz X de N columnas.
La primera columna de X debe ser una columna de 1s.
Los coeficientes del plano que mejor ajusta a los datos se encuentran en el
vector:
Ejemplo: Los datos siguientes provienen del número de torsiones necesarias para romper
una barra hecha con cierto tipo de aleación y los porcentajes de metales que la integran:
Cátedra Estadística II
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
Ajustar un plano de regresión por mínimos cuadrados y estimar el número de torsiones para
un 2.5% del elemento A y un 12% del elemento B.
 38 
 
 40 
 85 
 
 59 
 40 
 
 60 
 68 
 
 53 
b 
 31 
 
 35 
 42 
 
 59 
 18 
 
 34 
 29 
 42 
 
1

1
1

1
1

1
1

1
x 
1

1
1

1
1

1
1
1

T 
A  x x
1 T
x b
1 5 

2 5 
3 5 

4 5 
1 10 

2 10 
3 10 

4 10 
1 15 
vector y matríz datos

2 15 
3 15 

4 15 
1 20 


3 20 

4 20 
2 20
 48.187
A   7.825 
 1.755


vector de coeficientes:
La ecuación del plano estimador será, en este ejemplo:
y( x1  x2)  A0  A1 x1  A2 x2
y(2.5 12)  46.69
DISEÑOS COMPLETAMENTE ALEATORIOS
Problema: Suponer el siguiente esquema de mediciones de cuatro laboratorios de un
parámetro determinado del que se quiere probar que las medias obtenidas por cada uno de
ellos es significativamente igual (hipótesis nula). Construir una Tabla de análisis de
varianza.
Cátedra Estadística II
Universidad de Mendoza
 .25

 .18
y 
 .19

 .23
Ing. Jesús Rubén Azor Montoya
.27 .22 .30 .27 .28 .32 .24 .31 .26 .21 .28 

.28 .21 .23 .25 .20 .27 .19 .24 .22 .29 .16 
.25 .27 .24 .18 .26 .28 .24 .25 .20 .21 .19 

.30 .28 .28 .24 .34 .20 .18 .24 .28 .22 .21 
n  cols(y)
tamaño de cada muestra
k  rows(y)
número de tratamientos
i  0  k  1
j  0  n  1


T i
ymi  mean  y

 vector con elementos que son la media de cada tratamiento
yt  meanym
( )
SS_T r  n


SSE 
SST 
yt  0.2435
  ymi  yt 
2
i
   yi j  ymi
i
gran total
SS_Tr  0.013 suma de cuadrados de tratamientos

2
SSE  0.0679
suma de cuadrados de error
j
   yi j  yt
i
índices
2
SST  0.0809 suma de cuadrados total
j
El estadístico F será entonces:
F 
0.0043
0.0015
F  2.8667
Luego el área entre esta abscisa e infinito estará dada por:
nu1  k  1
Cátedra Estadística II
nu2  k (n  1)
Grados de libertad del num. y denom.
Universidad de Mendoza
Ing. Jesús Rubén Azor Montoya
nu12
 nu1  nu2
nu1
nu2

2
2
x


2
2
f ( x) 
nu1 nu2 
nu1nu2
nu1  nu2


   
2
 2   2 
( nu1x  nu2)

función densidad
2.8667

1
0
f ( x) dx  0.0472
área de cola derecha desde abscisa F
Si este valor es menor que el nivel de significación (por ejemplo 0.05) esto significa
que está dentro de la zona de rechazo. Luego, las medias obtenidas por los laboratorios son
significativamente diferentes.
Para el problema ejemplo, esto se grafica del siguiente modo:
x  0  0.1 12
Cátedra Estadística II
Descargar