El método de la urna para generar datos de una población binomial

Anuncio
EL METODO DE LA URNA PARA GENERAR DE DATOS DE UNA POBLACION BINOMIAL
REINALDO ALARCÓN GUARÍN*
____________________________________________________________________
Resumen
El método aquí propuesto consiste en que mediante programación se recreó un modelo físico para
generar números aleatorios, como es el de extraer bolas numeradas de una urna. El objetivo es
generar 30.000 muestras por cada procedimiento: método de urna y la función rbinom de R y
compararlas con tres criterios: Prueba de frecuencias, prueba de aleatoriedad y error estándar
relativo.
Palabras claves: Números aleatorios, método de urna, distribución binomial .
Introducción
La simulación se refiere al proceso que genera números aleatorios y los trata como si hubieran
sido generados por un experimento científico real (Navidi, 2006). Los números aleatorios
generados por computadora, no son verdaderamente aleatorios. La generación de números
aleatorios de forma totalmente aleatoria, es muy sencilla con alguno de los siguientes
métodos: mediante una ruleta, mediante una moneda o un dado (udl, 2005). El método de
urna consiste en que mediante programación se recrea un modelo físico para generar números
aleatorios, como es el de extraer bolas numeradas de una urna. El propósito es generar 30.000
muestras aleatorias por cada procedimiento: método de urna y por el método congruencial
multiplicativo y compararlas con tres criterios: i) Prueba de Frecuencias: Se usa la prueba de
Kolmogorov-Smirnov, para comparar la distribución de los números generados con una
distribución binomial. ii) Prueba de aleatoriedad: se usa la prueba de rachas. iii) Error estándar
relativo de estimación del parámetro p, de la distribución binomial.
Fundamentos teóricos
Variable Aleatoria Binomial. Considérese una serie de m ensayos Bernoulli1 independientes,
cada uno con probabilidad de éxito p. Sea X la variable aleatoria que indica el número de éxitos
en los m ensayos Bernoulli, se dice que X tiene distribución de probabilidad binomial si
( )
, x = 0, 1, . . . , m
(1)
donde m representa el número de ensayos independientes, y p ,la probabilidad de éxito en
cada ensayo, son los parámetros de la distribución (Santos 2011). El valor esperado y la varianza
de la variable aleatoria X están dados, respectivamente, por
1
Una variable aleatoria X es una variable aleatoria Bernoulli o variable aleatoria indicadora, si X = 0, 1 y existe
p Є [0, 1], tal que P(X = 1) = p, P(X= 0) = 1-p. Se dice que p es la probabilidad de éxito y 1-p es la probabilidad de
fracaso en el ensayo o experimento.
* Grupo GIE.Escuela de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de
Colombia, Seccional Duitama. E-mail: [email protected]
E (X) =m p, y V(X)= mp(1-p)
(2)
Muestreo aleatorio simple. Es un método de selección de n unidades de un conjunto de N
unidades de tal modo que cada una de las NCn muestras distintas tengan la misma oportunidad
de ser elegidas. En la práctica, un muestreo se realiza unidad por unidad. Se enumeran las
unidades de 1 a N. Posteriormente se extrae una series de n números aleatorios entre 1 y N, ya
sea utilizando una tabla de números aleatorios o mediante un programa de computación que
produce una tabla semejante. En cada extracción, el proceso debe otorgar la misma
oportunidad de selección a todos y cada uno de los números que no hayan salido. Las unidades
que llevan estos n números constituyen la muestra (Cochran, 1980). Para la primera extracción
todos los elementos tienen probabilidad de selección igual a 1/N. Para la segunda selección el
elemento extraído tiene probabilidad cero, los restantes tienen probabilidad de selección igual
a 1/(N-1), así sucesivamente. Todas las muestras tienen probabilidad igual a 1/ NCn. Existen dos
formas de extraer una muestra aleatoria con remplazo y sin remplazo.
Procesos de simulación. La simulación se refiere al proceso que genera números aleatorios y
los trata como si hubieran sido generados por un experimento científico real. A los datos
generados de esta forma se les denomina simulados o sintéticos (Navidi 2006). Los métodos de
simulación tienen muchos usos, incluyendo la estimación de probabilidades, estimación de
medias y varianzas, comprobación de una hipótesis de normalidad, y estimación de sesgos
(Ross, 2009). La simulación es una técnica experimental iterativa de resolución de problemas.
La recopilación, análisis e interpretación de resultados requiere buenos conocimientos de
probabilidad y estadística (Meelamkavil, 1987). Los números aleatorios generados por
computadora, no son verdaderamente aleatorios. Los algoritmos internos necesarios son
determinísticos en último término, pero producen secuencias de valores que aproximan
propiedades estadísticas aceptablemente similares a las esperadas por la distribución.
Método de urna. La generación de números aleatorios de forma totalmente aleatoria, es muy
sencilla con alguno de los siguientes métodos: mediante una ruleta, mediante una moneda o
un dado (udl, 2005). El que se denominará método de urna consiste en que mediante
programación, en este caso R, se recrea un modelo físico para generar números aleatorios,
como es el de extraer de una urna bolas numeradas. Lo que se hace es construir una población
Ρ conformada por lo números {0, 1, . . . m}, la cantidad de valores en Ρ es proporcional a la
probabilidad del valor bajo una distribución binomial (m, p). De dicha población se extrae una
muestra aleatoria; que se tratará como una secuencia de números aleatorios.
Contraste de Kolmogorov-Smirnov (K-S). El test de K-S es un test de bondad de ajuste que se
utiliza para determinar si los datos de una determinada muestra se ajustan a una hipotética
distribución. Dada una muestra aleatoria simple x1, . . . , xn, la función de distribución empírica
de la muestra es
Grupo GIE, Escuela de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de Colombia, Seccional Duitama. E-mail:
[email protected]
∑
Las hipótesis son: H0 : Fn = F0
(3)
H1 : Fn ≠ F0,
donde F0 es la hipotética función de distribución. El estadístico de contraste para el test K-S es
Dn = max {|Fn(x) − F0(x)|}
cuya distribución exacta, bajo la hipótesis nula se ha tabulado o se encuentra en paquetes
estadísticos. Si el máximo no existes, se usa el “supremun” o minima cota superior (Díaz,
Morales, 2012).
Metodología. El procedimiento usado fue generar 30 000 secuencias de números aleatorios
por cada uno de tres métodos. i) Método 1. De la población P, indicada en el método de urna,
se extraen muestras aleatorias simples sin reemplazo de tamaño n, para lo cual se usó la
función sample del R. ii) Método 2. Corresponde al método congruencial multiplicativo del
software R para generar números aleatorios (García-Ligero, Román Román), mediante la
función rbinom (n,m,p). iii) Método 3. Nuevamente, de la población P se generan muestras
aleatorias de tamaño n, pero en esta ocasión sin reemplazo. A cada una de las secuencias
generadas se les aplica la prueba de bondad de ajuste a la distribución binomial y la prueba de
aleatoriedad. En la tabla 1 se reportan los porcentajes de rechazo de las respectivas hipótesis y
el sesgo relativo; que corresponde a la diferencia entre el parámetro y la estimación del
parámetro dividida en el parámetro, expresada en porcentaje. Para la prueba K-S se usó el valor
crítico correspondiente a un nivel de significancia de 0.01. Los parámetros de la distribución
binomial cuyos resultados se reportan en este trabajo fueron m= 10 y m= 5, con p = 0.5 en
ambos casos. Se repitió el proceso con otras poblaciones pero los resultados, en esencia son
los mismos. Los tamaños de muestra usados fueron tres: 5, 10, 15 y 20.
Resultados y discusión. En tabla 1 se observa que los porcentajes de rechazo de la hipótesis
nula, según la prueba K-S, son muy similares para los tres métodos, es de notar que estos
porcentajes aumentan a medida que aumenta n. Referente a los porcentajes de rechazo de la
hipótesis de aleatoriedad, se nota que con el método tres se nota más rechazos, esto indica
que, especialmente en muestras pequeñas, la selección con reemplazo tiende a generar más
secuencias no aleatorias.
Conclusiones. Tomando en cuenta el porcentaje 1 y el sesgo relativo los tres procedimientos
generar secuencias aleatorias con características similares. El método de urna sin reemplazo
genera un 1% más de secuencias aleatorias.
Grupo GIE, Escuela de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de Colombia, Seccional Duitama. E-mail:
[email protected]
Tabla 1: Porcentajes de rechazos y sesgo relativo
Población
N
5
10
Binomial
(10; 0.5)
15
20
5
10
Binomial
(5; 0.5)
15
20
Criterio
Porcentaje 1
Sesgo relativo
Porcentaje 2
Porcentaje 1
Sesgo relativo
Porcentaje 2
Porcentaje 1
Sesgo relativo
Porcentaje 2
Porcentaje 1
Sesgo relativo
Porcentaje 2
Porcentaje 1
Sesgo relativo
Porcentaje 2
Porcentaje 1
Sesgo relativo
Porcentaje 2
Porcentaje 1
Sesgo relativo
Porcentaje 2
Porcentaje 1
Sesgo relativo
Porcentaje 2
Método para generar números aleatorios
MAS
Congruencial
MCR
1.13
1,11
1.35
0.04
-0.02
0.04
-
-
-
2.35
2.53
2.33
0.04
0.02
0.03
7.48
8.50
8.00
2.24
2.23
2.04
0.03
0.04
0.07
8.5
8.26
8.57
3.69
3.84
3.65
0.05
-0.04
0.02
8.95
8.93
9.19
0.75
0.76
0.74
-0.13
-0.04
0.01
-
-
-
2.40
2.35
2.39
0.10
0.04
-0.04
-
-
-
1.15
1.12
1.07
-0.02
-0.02
-0.02
7.85
8.23
9.53
1.34
1.33
1.42
0.00
0.003
-0.04
7.70
9.53
9.10
Bibliografía
Cochran, W. G. (1980). Técnicas de muestreo. Editorial Continental, Mexico.
Díaz, L. G., Morales, M.A. (2012). Análisis estadístico de datos multivariados. Facultad de Ciencias
Universidad Nacional de Colombia.
Meelamkavil, F. (1987). Simulación Modelado y Análisis. McGraw-Hill.
García-Ligero M.J., Román Román P.
SIMULACIÓN CON R. Recuperado
http://cms.dm.uba.ar/academico/materias/.../Simulacion_R-garcia-roman.pdf
de
Navidi, W. (2006). Estadística para ingenieros y científicos. McGraw-Hill
Paradis, E., (2003). R para Principiantes. Institut des Sciences de l’E´volution Universit
Montpellier II Francia
Ross, S., (2009). A First Course in Probablity. Prentice Hall
Santos, D. A. (2011). Probability and Introduction. Jones and Bartlett Publishers
Simulación. (s. f.). Recuperado dettp://web.udl.es/usuaris/MatFDiE/OptiSim/MonteCarlo.pdf
Grupo GIE, Escuela de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de Colombia, Seccional Duitama. E-mail:
[email protected]
Descargar