Universidad de Almer´ıa Universidad de Santiago de Compostela

Anuncio
Universidad de Almerı́a
Departamento de Estadı́stica y Matemática Aplicada
Universidad de Santiago de Compostela
Departamento de Estadı́stica e Investigación Operativa
ESTIMACIÓN PARAMÉTRICA EN
DENSIDADES MOP UNIVARIANTES
Autora
Inmaculada Pérez Bernabé
Directores
Antonio Salmerón Cerdán
Manuel Febrero Bande
ALMERÍA, JUNIO 2012
Autorización de entrega
Dr. D. Antonio Salmerón Cerdán y Dr. D. Manuel Febrero Bande
CERTIFICAN
Que el proyecto titulado Estimación Paramétrica en Densidades MOP
Univariantes ha sido realizado por D.a Inmaculada Pérez Bernabé, con D.N.I.
71011397R, en el departamento de Estadı́stica y Matemática Aplicada de la Universidad de Almerı́a, bajo la dirección del Dr. D. Antonio Salmerón Cerdán,
Catedrático de Universidad de la Universidad de Almerı́a y del Dr. D. Manuel
Febrero Bande, Catedrático de Universidad de la Universidad de Santiago de
Compostela.
Esta memoria constituye la documentación que, con nuestra autorización, entrega dicho alumno como Proyecto Fin de Máster.
Firmado.
Dr. D. Antonio Salmerón Cerdán
Dr. D. Manuel Febrero Bande
Almerı́a, a 29 de junio de 2012
Índice general
Índice general
III
Índice de figuras
V
1. Introducción
1
1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2. Reseña histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3. Organización del trabajo . . . . . . . . . . . . . . . . . . . . . . .
4
2. Funciones MOP
7
2.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.1.1. Función MOP unidimensional . . . . . . . . . . . . . . . .
10
2.2. Ventajas de las MOPs . . . . . . . . . . . . . . . . . . . . . . . .
12
3. Contribuciones
15
3.1. Desarrollos teóricos previos . . . . . . . . . . . . . . . . . . . . . .
15
3.1.1. Método de máxima verosimilitud . . . . . . . . . . . . . .
16
3.1.2. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . .
17
3.1.3. Método de Inversión . . . . . . . . . . . . . . . . . . . . .
19
3.1.4. Puntos extremos y puntos de inflexión . . . . . . . . . . .
21
3.1.5. Algoritmo aproximado del EM . . . . . . . . . . . . . . . .
22
3.2. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.2.1. Estimación paramétrica . . . . . . . . . . . . . . . . . . .
24
3.2.2. Número de términos de la función polinómica . . . . . . .
28
3.2.3. Partición del dominio . . . . . . . . . . . . . . . . . . . . .
30
ÍNDICE GENERAL
iv
4. Experimentos
4.1. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . .
31
31
4.2. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4. Distribución chi-cuadrado . . . . . . . . . . . . . . . . . . . . . .
33
35
38
4.5. Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . .
4.6. Mixtura de exponenciales . . . . . . . . . . . . . . . . . . . . . . .
39
40
4.7. Mixtura de normales . . . . . . . . . . . . . . . . . . . . . . . . .
4.8. Mixtura de una exponencial y de una normal . . . . . . . . . . . .
4.9. Mixtura de una beta y una Weibull . . . . . . . . . . . . . . . . .
42
43
45
4.10. Mixtura de betas . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.11. Mixtura de tres exponenciales . . . . . . . . . . . . . . . . . . . .
47
49
4.12. Mixtura de exponenciales y una normal . . . . . . . . . . . . . . .
4.13. Mixturas de tres normales . . . . . . . . . . . . . . . . . . . . . .
4.14. Mixtura de distribuciones tipo Weibull y una exponencial . . . . .
51
53
54
4.15. Mixtura de cuatro exponenciales . . . . . . . . . . . . . . . . . . .
4.16. Mixtura de cuatro normales . . . . . . . . . . . . . . . . . . . . .
57
59
4.17. Mixtura de una Weibull, dos normales y una exponencial . . . . .
61
5. Conclusiones y futuros trabajos
5.1. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
63
Bibliografı́a
65
Índice de figuras
2.1. Ejemplo de una red bayesiana con cinco variables. . . . . . . . . .
8
2.2. Ejemplo MOP: ajuste en un único intervalo . . . . . . . . . . . .
11
2.3. Ejemplo MOP: ajuste en dos intervalos . . . . . . . . . . . . . . .
12
3.1. Raı́ces del polinomio . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2. Método de Inversión . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.3. Puntos extremos y ajuste polinómico partiendo el dominio por el
mı́nimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.1. Ajuste en un único intervalo y partiendo el dominio para datos
procedentes de una distribución exponencial. . . . . . . . . . . . .
32
4.2. Método de inversión para el MOP ajustado procedente de datos
exponenciales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
4.3. Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución normal. . . . . . . . . . . . . . . . .
34
4.4. Método de inversión para el MOP ajustado a partir de datos normales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
4.5. Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución beta. . . . . . . . . . . . . . . . . . .
37
4.6. Método de inversión para el MOP ajustado a partir de datos procedentes de una beta. . . . . . . . . . . . . . . . . . . . . . . . . .
37
4.7. Ajuste polinómico de una distribución χ2 y comparación de muestras. 38
4.8. Ajuste polinómico de una distribución Weibull y comparación de
muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
ÍNDICE DE FIGURAS
vi
4.9. Ajuste en un único intervalo y partiendo el dominio de los datos
procedentes de dos distribuciones exponenciales. . . . . . . . . . .
41
4.10. Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones exponenciales. . . . . . . . . . . . .
41
4.11. Ajuste polinómico de dos distribuciones normales y comparación
de muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
4.12. Ajuste en un intervalo y en dos partes de una distribución normal
y de una exponencial. . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.13. Método de inversión para el MOP ajustado a partir de una mixtura
de exponenciales y una normal. . . . . . . . . . . . . . . . . . . .
45
4.14. Ajuste en uno y dos intervalos de datos procedentes de una beta y
una Weibull. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.15. Método de inversión para el MOP ajustado a partir de datos procedentes de una beta y una Weibull.
. . . . . . . . . . . . . . . .
47
4.16. Ajuste en uno y dos intervalos para datos procedentes de dos distribuciones betas. . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.17. Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones betas. . . . . . . . . . . . . . . . .
49
4.18. Ajuste polinómico para datos exponenciales y método de inversión
para las muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.19. Ajuste final de una mixtura de tres exponenciales y comparación
de muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.20. Ajuste polinómico en uno y dos intervalos para datos procedentes
de distribuciones tipo exponencial y normal. . . . . . . . . . . . .
52
4.21. Método de inversión para el MOP ajustado a partir de datos exponenciales y normales. . . . . . . . . . . . . . . . . . . . . . . . .
53
4.22. Ajuste polinómico para datos procedentes de 3 normales y método
de inversión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
4.23. Ajuste polinómico sin partir y partiendo el dominio para datos
procedentes de distribuciones tipo Weibull y exponencial. . . . . .
56
4.24. Método de inversión para el MOP ajustado procedente de distribuciones tipo Weibul y una exponencial. . . . . . . . . . . . . . .
56
ÍNDICE DE FIGURAS
4.25. Ajuste de un polinomio en uno y dos intervalos para datos procedentes de 4 distribuciones exponenciales. . . . . . . . . . . . . . .
4.26. Ajuste polinómico final del MOP estimado a partir de datos exponenciales y el método de inversión. . . . . . . . . . . . . . . . . .
4.27. Ajuste polinómico sin partir y partiendo el dominio para datos
vii
57
58
procedente de distribuciones normales. . . . . . . . . . . . . . . .
4.28. Método de inversión para el MOP ajustado a partir de datos nor-
60
males. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.29. Ajuste polinómico, para datos procedentes de dos normales, una
Weibull y una exponencial, en un único intervalo. . . . . . . . . .
60
4.30. Ajuste de un MOP de 2-piezas a partir de datos normales, exponenciales y de tipo Weibull y comparación de muestras . . . . . .
61
62
Capı́tulo 1
Introducción
1.1.
Motivación
Las redes bayesianas hı́bridas han cobrado importancia en los últimos años
como herramienta para representar modelos probabilı́sticos en los que intervienen
variables discretas y continuas simultáneamente. Algunos modelos destacados en
este ámbito son el condicional Gaussiano y el basado en mixturas de exponenciales
truncadas (MTEs).
Recientemente, han surgido las mixturas de polinomios (MOPs), con una filosofı́a parecida a las MTEs, pero mejorándolas en algunos aspectos, como la
posibilidad de representar una mayor variedad de dependencias funcionales entre variables del modelo. La mayor dificultad que encierra la inferencia en redes
bayesianas hı́bridas es la marginalización de las variables continuas, las cuales
están vinculadas con la integración de las funciones de probabilidad (FDPs). Las
mixturas de polinomios fueron propuestas por Shenoy y West (véase por ejemplo,
[43] y [44]) para resolver este problema.
Las MOPs son más fáciles de calcular incluso en los casos en el que las funciones de densidad sean multi-dimensionales. También son aplicables a una gran
variedad de funciones deterministas en redes bayesianas hı́bridas. Una de las caracterı́sticas de las MOPs es que las piezas en donde los polinomios están definidos
son hipercubos. Se propone relajar esta condición para que cada una de las piezas
de la MOP estén definidas en regiones llamadas hiper-rombos. Esto nos permite
2
1.2. Reseña histórica
construir MOPs a partir de modelos Gaussianos multi-dimensionales usando una
MOP a partir de una distribución normal estándar univariante.
El trabajo propuesto consiste en el estudio de la estimación paramétrica de
este tipo de funciones univariantes.
1.2.
Reseña histórica
Las redes bayesianas (RBs) y los diagramas de influencia (DIs) fueron inventados a mediados de los años 80 (véase, por ejemplo, [33] y [19]) para representar
modelos probabilı́sticos discretos multi-dimensionados y para la toma de decisiones, respectivamente.
Existen varios algoritmos para el cálculos de las marginales de distribuciones a
posteriori para una red bayesiana discreta (véase, por ejemplo, [27], [41], y [22])y
para resolver diagramas de influencia discretos (vease por ejemplo, [32], [38], [39]
y [23]).
Las redes bayesianas hı́bridas contienen una mezcla de variables discretas y
continuas. Una variable continua se dice que es determinista si sus distribuciones condicionadas no varı́an. Las distribuciones condicionadas de las variables
deterministas suelen ser descritas por las ecuaciones que describen una variable
determinista como una función respecto a sus padres continuos. Las variables
deterministas plantean un problema en la inferencia ya que la densidad conjunta de todas las variables continuas no existe. Shenoy y West [43] describen una
extensión de la arquitectura de Shenoy-Shafer [41] para permitir la inferencia en
las RBs hı́bridas con variables deterministas.
Lauritzen y Jensen propusieron un algoritmo [26] para el uso de Gaussianas
en RBs hı́bridas, con el requerimiento de que las funciones de densidad condicionadas de las variables continuas siguieran un modelo lineal Gaussiano (CLG),
y que las variables discretas no tuvieran padres continuos. Las marginales de la
distribución normal multivariante se pueden encontrar fácilmente sin la necesidad
de integración. Las desventajas son que, en el proceso de inferencia, las variables
continuas tienen que ser marginalizadas antes que las discretas.
Cuando una RB tiene variables discretas con padres continuos, Murphy [31]
utiliza una aproximación al producto de los potenciales asociados con una va-
Capı́tulo 1. Introducción
3
riable discreta y sus padres, con una distribución CLG. Lerner [29] utiliza una
técnica de integración numérica llamada Cuadratura de Gauss que aproxima una
distribución condicional Gaussiana no lineal a una Gaussiana lineal. Esta misma
técnica puede utilizarse para aproximar el producto de potenciales asociados a
una variable discreta y sus padres continuos. El método de Murphy y de Lerner
está relacionado por tanto con el algoritmo propuesto por Lauritzen y Jensen [26]
para resolver las mezclas resultantes de RBs Gaussianas.
Shenoy [40] propone una aproximación de distribuciones no CLG mediante
mezclas de Gaussianas utilizando una técnica de optimización no lineal para asegurarse de que las variables discretas no tienen padres continuos. La mixtura
resultante de la RB Gaussiana, se resuelve utilizando el algoritmo de Lauritzen y
Jensen [26].
Moral et al. [30] proponen aproximaciones de funciones de densidad, mediante mixturas de exponenciales truncadas (MTEs) que son fácilmente integrables.
Dado que la familia de mixturas de exponenciales truncadas están cerradas bajo combinación y marginalización, la estructura de Shenoy-Shafer [41] se puede
utilizar para resolver una MTE en redes bayesianas. Cobb y Shenoy [5] y Cobb
et al. [6] proponen el uso de una técnica de optimización no lineal para encontrar aproximaciones MTE para distribuciones unidimensionales. Cobb y Shenoy
([4] y [3]) amplı́an este método a RBs con variables deterministas lineales y no
lineales. En el último caso, se aproximan funciones no lineales deterministas por
trozos lineales. Rumı́ y Salmerón [35] describen la propagación de probabilidad
aproximada con aproximaciones MTE que sólo tienen dos términos exponenciales
en cada trozo. Romero et al. [34] describen el aprendizaje de potenciales MTE a
partir de datos, y Langseth et al. [25] investigan el uso de aproximaciones MTE
donde los coeficientes de las MTEs están restringidos a enteros.
En este trabajo, se propone utilizar aproximaciones de mixturas de polinomios (MOP) mediante aproximaciones de funciones de probabilidad (PDF). Las
mixtura de polinomios se utilizan en muchos campos, incluyendo los gráficos por
ordenador, teorı́a de aproximación y análisis numérico. Estos fueron estudiados
por primera vez por Schoenberg [36]. Cuando las funciones MOP son continuas, se
refieren a splines polinomicos [37]. El uso de splines para aproximar las funciones
de densidad fue introducido por Curds [9]. Para nuestro propósito, la continuidad
4
1.3. Organización del trabajo
no es un requisito esencial, solo restringiremos nuestro análisis al ajuste polinómico por trozos de la función de densidad.
Usar MOPs es similar al uso de las MTEs. Las MOPs pueden ser fácilmente
integrables y están cerradas bajo combinación y marginalización. De ahı́, que la
arquitectura de Shenoy-Shafer [42] se puede utilizar para hacer inferencia en RBs
con variables deterministas. Sin embargo, hay varias ventajas de las funciones
MOP frente a las MTEs.
En primer lugar, podemos encontrar aproximaciones MOP diferenciando las
funciones de probabilidad condicionadas, usando aproximaciones de las series de
Taylor. Encontrar aproximaciones MTE como sugiere Cobb et al. [6] requiere la
solución de problemas no lineales de optimización, que no es una tarea tan fácil,
ya que implica buscar entre las soluciones óptimas locales.
En segundo lugar, en el caso que las funciones de distribución condicionadas
tengan muchos padres, encontrar una buena aproximación MTE puede ser demasiado complicado ya que requiere resolver problemas de optimización no lineales
en espacios de alta dimensión para cada uno de los trozos de la MTE. El desarrollo
en las series de Taylor también puede ser utilizado para encontrar aproximaciones
MOP de funciones de probabilidad condicionadas.
En tercer lugar, si una RB hı́brida contiene funciones deterministas, entonces
el enfoque MTE se puede utilizar sólo para funciones lineales deterministas. Esto
es debido a que las funciones MTE no son cerradas bajo las transformaciones
necesarias para las funciones deterministas no lineales. Las funciones MOP son
cercanas a una gran familia de funciones deterministas que incluyen funciones
lineales y cocientes. Esto nos permite la utilización de las MOP en RBs hı́bridas,
de una manera más factible que utilizando las MTEs.
1.3.
Organización del trabajo
El documento está dividido en cinco capı́tulos. El capı́tulo 1 donde nos introduciremos en el mundo de las MOPs. En el capı́tulo 2 se hablará de éstas y
de sus ventajas frente a otro tipo de funciones. El capı́tulo 3, tema central del
trabajo, nos muestra los algoritmos desarrollados para alcanzar el objetivo del
ajuste. En el capı́tulo 4 introduciremos una serie de experimentos realizados para
Capı́tulo 1. Introducción
5
justificar el buen funcionamiento de los métodos implementados. Por último en
el capı́tulo 5 se hablará de las conclusiones a las que se han llegado y de futuras
lı́neas de investigación en relación con este tema.
Cada uno de los capı́tulos está organizado en distintos apartados. En el apartado 1.1 del capı́tulo de introducción trataremos de justificar la utilización de este
tipo de funciones. A continuación en el apartado 1.2 se hablará de los antecedentes
y se darán algunas referencias bibliográficas de interés en este campo.
El capı́tulo de funciones MOP se dividirá en dos apartados. El apartado 2.1
donde se darán definiciones formales de las figuras relevantes utilizadas en el
trabajo y el apartado 2.2 en el que se hablará de las ventajas que representan las
MOPs a la hora de trabajar con ellas en lugar de utilizar otro tipo de funciones.
En el tercer capı́tulo de las contribuciones aportadas, veremos algunos desarrollos previos realizados, sección 3.1 y se plantearán los algoritmos desarrollados
para realizar este tipo de ajustes, sección 3.2. También se hablará de como ha
sido desarrollado este en R.
En el capı́tulo 4, nos centraremos en plantear posibles ejemplos o experimentos
realizados con el programa implementado en R durante el periodo de investigación, valiéndonos para ello de una serie de distribuciones conocidas.
Al final del trabajo se introducirá un apartado con las referencias bibliográficas
mencionadas a lo largo del trabajo.
Capı́tulo 2
Funciones MOP
2.1.
Definiciones
Definición 1. Una red bayesiana [24] es un grafo acı́clico dirigido, que describe
la distribución de probabilidad conjunta de un grupo de variables aleatorias.
Sea X = X1 , X2 , . . . , Xn un conjunto de variables aleatorias. Formalmente,
una red bayesiana para X es un par B =< G, T > en el que:
G es un gráfico acı́clico dirigido en el que cada nodo representa una de las
variables X1 , X2 , . . . , Xn y cada arco representa relaciones de dependencia
directas entre las variables. La dirección de los arcos indica que la variable
’apuntada’ por el arco depende de la variable situada en su origen.
T es un conjunto de parámetros que cuantifica la red. Contiene las probabilidades PB (xi | pa(xi )) para cada posible valor xi de cada Xi y cada posible
valor pa(xi ) de P a(Xi ), donde éste último denota al conjunto de padres de
Xi en G.
Ası́, una red bayesiana B define una distribución de probabilidad conjunta
única sobre X dada por:
PB (Xi ) =
n
Y
i=1
PB (Xi | P a(Xi )).
8
2.1. Definiciones
Es importante observar que la estructura de la red no sólo proporciona información sobre las dependencias probabilı́sticas entre las variables, sino también
sobre las independencias condicionales de una variable o un conjunto de ellas
dada otra u otras variables. Las reglas para la interpretación de la estructura de
una red bayesiana están basadas en el concepto de d-separación [21].
X1
X2
X3
X4
X5
Figura 2.1: Ejemplo de una red bayesiana con cinco variables.
La Figura 2.1 muestra una red bayesiana de variables X1 , . . . , X5 . De acuerdo
con la estructura de este gráfico serı́a necesario definir una distribución condicionada para cada una de las variables dados sus padres. En este caso, p(x1 ),
p(x2 | x1 ), p(x3 | x1 ), p(x4 | x2 , x3 ) y p(x5 | x3 ).
Las redes bayesianas se propusieron originalmente para el manejo de las variables discretas. Sin embargo, en problemas reales, es muy común la presencia
de dominios continuos y discretos simultáneamente.
Definición 2. Una red bayesiana se dice que es hı́brida cuando las variables
aleatorias continuas y discretas coexisten simultáneamente en el modelo.
Para trabajar con variables discretas, una solución consiste en discretizar los
datos continuos. Ası́, la aplicación de los métodos existentes para las variables
discretas puede llevarse a cabo. Sin embargo, la discretización es sólo una aproximación y otras alternativas fueron estudiadas con éxito más tarde.
Algunos de los métodos donde las variables continuas y discretas se pueden
manejar al mismo tiempo sin necesidad de utilizar discretización son, el modelo
condicional gaussiano (CG), las mixturas de exponenciales truncadas (MTE), y
las mixturas de polinomios (MOP).
9
Capı́tulo 2. Funciones MOP
Definición 3. Sea X una variable continua en una red bayesiana hı́brida, Z =
(Z1 , . . . , Zd )T sus padres discretos, y Y = (Y1 . . . , Yc )T sus padres continuos. Los
potenciales de una distribución condicional gaussiana lineal (CLG) en redes
bayesianas hı́bridas tienen la forma:
φ(X | z, y) ∼ N µ = lTz y + bz , σz2 ,
(2.1)
donde z e y son una configuración de los padres discretos y continuos de X,
respectivamente. Para una configuración concreta z, lTz es la transpuesta de la
matriz de coeficientes del modelo de regresión lineal con los valores c (uno para
cada padre continuo), bz la media para la variable X y σz2 > 0, la varianza para
la variable X.
Definición 4. (Potenciales MTE)
Sea X un vector mixto aleatorio n-dimensional. Sea Z = (Z1 , . . . , Zd )T y
Y = (Y1 , . . . , Yc )T las partes discretas y continuas de X, respectivamente, con
c + d = n. Diremos que una función f : ΩX 7→ R+
0 es un potencial Mixtura de Exponenciales Truncadas (potencial MTE) si una de las siguientes
condiciones se cumple:
i. Z = ∅ y f pueden ser escritos como
f (x) = f (y) = a0 +
m
X
i=1
ai exp bTi y
(2.2)
para todo y ∈ ΩY , donde ai ∈ R y bi ∈ Rc , i = 1, . . . , m.
ii. Z = ∅ y existe una partición D1 , . . . , Dk de ΩY en los hipercubos f definida
como:
f (x) = f (y) = fi (y) if y ∈ Di ,
donde cada fi , i = 1, . . . , k puede ser escrita en la forma de la ecuación
(2.2).
iii. Z 6= ∅ y cada valor de z ∈ ΩZ , fz (y) = f (z, y) puede ser definido como en
ii.
10
2.1. Definiciones
2.1.1.
Función MOP unidimensional
Una lı́nea reciente de investigación relacionada con las redes bayesianas hı́bridas es el desarrollo de las Mixturas de Polinomios (MOPs) propuestas por
Shenoy [43]. La idea es reemplazar las funciones exponenciales por polinomios.
Definición 5. Una función unidimensional f : R → R se dice que es una mixtura
de polinomios si es una función a trozos de la siguiente forma:

a + a x + a x2 + . . . + a xn
0i
1i
2i
ni
f (x) =
0
para x ∈ Ai , i = 1, . . . , k,
(2.3)
en otro caso.
donde A1 , . . . , Ak son intervalos disjuntos en R que no dependen de x, y a0i , . . . , ani
son constantes para todos los i. Diremos que f es una función de k-trozos y ngrados (asumiendo ani 6= 0 para algunos i).
La principal motivación para definir las funciones MOP es que son funciones
fáciles de integrar y cerradas bajo transformaciones, como la multiplicación, integración y la suma, las principales operaciones necesarias para hacer inferencia
en redes bayesianas. La condición de que cada una de las piezas esté definida en
intervalos Ai es necesaria para facilitar la integración en este tipo de funciones.
Una función m-dimensional f : R → R se dice que es una mixtura de polinomios si
f (x1 , . . . , xm ) = f1 (x1 ) · f2 (x2 ) · . . . · fm (xm ),
(2.4)
donde cada fi (xi ) es una función MOP unidimensional definida como en la ecuación (2.4). Si cada fi (xi ) es una función de ki -piezas y ni -grados, entonces f es
una función MOP de k1 · . . . · km piezas y n1 + . . . + nm grados. Por tanto, es
importante mantener un número mı́nimo de trozos y grados.
Ejemplo 1. Contamos con un conjunto de datos, X. Realizamos un ajuste mediante un único polinomio, y los resultados obtenidos son los siguientes:
f (x) = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 + a5 x5 − 6,025 ≤ x ≤ 6,075,
(2.5)
11
Capı́tulo 2. Funciones MOP
donde los parámetros estimados asociados a la ecuación (2.5) son:
a0 = 0,1263572
a1 = −0,0003648792 a2 = −0,004536409
a3 = −0,001185822 a4 = 4,310182 · 10−5 a5 = 3,527107 · 10−5 ,
0.20
0.00
0.10
f(x)
0.30
Ajuste polinomico grado 5
−6
−4
−2
0
2
4
6
x
Figura 2.2: Ejemplo MOP: ajuste en un único intervalo
Si utilizamos una mixtura de polinomios los resultados son los siguientes:
f (x) =
 4
X



ai1 xi


i=0
4
X





i
ai2 x
para x ∈ (−6,025, −0,025)
(2.6)
para x ∈ (−0,025, 6,075),
i=0
donde los coeficientes del MOP correspondientes a la ecuación (2.6) son:
a01 = 0,02612908
a11 = 0,1228933
a21 = 0,1643514
a02 = 0,3378926
a12 = −0,1544091
a22 = 0,01117277
a31 = 0,04693114 a32 = 0,00344102
a41 = 0,003813828 a42 = −0,000425986
12
2.2. Ventajas de las MOPs
0.20
0.00
0.10
f(x)
0.30
Ajuste polinómico
−6
−4
−2
0
2
4
6
x
Figura 2.3: Ejemplo MOP: ajuste en dos intervalos
Podemos observar como partiendo el dominio en dos intervalos 2.3 obtenemos
un mejor ajuste que si cogemos un único intervalo 2.2. Por lo que tendrı́amos
una función MOP de 2-trozos y grado-14.
2.2.
Ventajas de las MOPs
Una de las grandes ventajas de la utilización de las MOPs frente a otro tipo
de funciones es que es fácil encontrar aproximaciones de funciones de densidad
diferenciables usando una extension de las series de Taylor de las FDP (funciones
de probabilidad), o usando la interpolación de Lagrange.
Las MTEs y las MOPs multi-dimensionales a trozos están definidas en regiones
llamadas hipercubos. Una ventaja de esta restricción es que estos trozos son
fácilmente integrables. Sin embargo, la restricción de los hipercubos posee una
limitación. Es difı́cil encontrar una función MTE o una aproximación de una
MOP multi-dimensional por trozos que sea fácil de integrar.
El árbol mixto propuesto por Shenoy and West [41] es de grandes dimensiones
Capı́tulo 2. Funciones MOP
13
y no se adapta bien a la práctica, es decir, las aproximaciones que utilizan estos
métodos tienen demasiadas piezas o términos o un grado demasiado alto para su
uso práctico.
Otro problema es la presencia de los condicionales deterministas para las variables continuas. Por ejemplo, supongamos que X tiene como función de probabilidad fX (x), Y tiene la función de probabilidad condicionada fY |x (y), y supongamos que Z tiene una condición determinista dada por la función lineal
Z = X + Y . Para encontrar la distribución marginal de Z, es necesario combinar
fX (x) y fY |x (z − x) y entonces integrar x. El problema es que aunque fY |x (y) se
define en hipercubos, fY |x (z − x)) no tiene porque estar definida en hipercubos.
Esto influye tanto en las MTEs, como en las MOPs.
Para solventar este problema se sugiere sustituir la condición de hipercubo por
otros más generales llamados hiper-rombos. Para funciones unidimensionales, las
dos condiciones coinciden. Sin embargo, para dos o más dimensiones, la condición
del hiper-rombo es una generalización de la condición del hipercubo.
La condición de los hiper-rombos tiene varias ventajas importantes. En primer
lugar, nos permite definir aproximaciones MOP de las distribuciones condicionales Gaussianas de grandes dimensiones utilizando una aproximación MOP de la
función de probabilidad unidimensional normal estándar.
En segundo lugar, las funciones MOP están definidas en hiper-rombos que
son cerrados bajo las operaciones necesarias para las funciones lineales deterministas multidimensionales. Esto no es cierto para las funciones MTE, es decir, si
la definición de las funciones MTE fueran generalizadas de manera que la condición del hipercubo fuera reemplazado por la condición de hiper-rombo, entonces
las funciones MTE no estarı́an cerradas bajo las operaciones necesarias para las
funciones lineales deterministas multi-dimensionales. Por ejemplo, la suma de dos
variables independientes con funciones de probabilidad exponenciales tiene una
función de probabilidad gamma, que no es una función MTE.
En tercer lugar, las funciones MOP que se definen en hiper-rombos son cerrados bajo la integración. En cuarto lugar, la penalización del cálculo que supone
tener condiciones de hiper-rombo para MOPs (en comparación con la condición
de hipercubo) parece ser pequeña.
Capı́tulo 3
Contribuciones
3.1.
Desarrollos teóricos previos
El propósito de este trabajo es la estimación paramétrica de densidades MOP
univariantes dados unos datos X1 , X2 , . . . , Xn .
Para llegar al resultado teórico que arrojaremos más adelante se intentaron
desarrollar otros métodos descritos brevemente a continuación.
En la búsqueda de los estimadores θ̂ de los coeficientes de un polinomio, hay
que tener claro cuáles son las propiedades más deseables a la hora de encontrar
un buen estimador de estos parámetros.
Consistencia. Cuando el tamaño de la muestra crece arbitrariamente, el
valor estimado se aproxima al parámetro desconocido,
p
θ̂ −
→ θ0 .
Carencia de sesgo. El valor medio que se obtiene de la estimación para
diferentes muestras debe ser el valor del parámetro,
E(θ̂) = θ.
Eficiencia. Al estimador, al ser una variable aleatoria, no puede exigı́rsele
que para una muestra cualquiera se obtenga como estimación el valor exacto
16
3.1. Desarrollos teóricos previos
del parámetro. Sin embargo podemos pedirle que su dispersión con respecto
al valor central (varianza) sea tan pequeña como sea posible. Es decir,
h i
h i
Var θ̂1 < Var θ̂2 .
Suficiencia. El estimador deberı́a aprovechar toda la información existente
en la muestra. Diremos que θ̂ es un estimador suficiente si no depende de θ
para estimar este parámetro.
3.1.1.
Método de máxima verosimilitud
Se empezó planteando la utilización de estimadores de máxima verosimilitud, ya que poseen buenas propiedades, como la consistencia, la suficiencia y la
eficiencia, aunque no siempre son insesgados como se desearı́a.
Sea X una v.a. con función de densidad o de masa de probabilidad f (x; θ), que
depende de un parámetro desconocido θ el cual se desea estimar. Sea x1 , . . . , xn
una realización de una muestra de X. Se define la función de verosimilitud de la
muestra como
L(θ) =
n
Y
f (x; θ).
i=1
L(θ) está definida como un producto, que puede ser difı́cil de derivar para maximizar. Sin embargo, dado que la función logarı́tmica es monótona creciente,
sucede que logL(θ) alcanza su máximo en el mismo punto que L(θ), por lo que
en realidad usaremos el logaritmo, dado que
log L(θ) =
n
X
log(f (x; θ)).
i=1
Los pasos a seguir para la estimación de estos parámetros son:
n
X
1. Calcular la función log L(θ) =
log(f (x; θ)).
i=1
∂ log L(θ)
2. Resolver la ecuación
= 0.
∂θ
3. Sea θ̂ la solución de
dicha ecuación.
∂ 2 log L(θ)
4. Comprobar que
evaluada en θ = θ̂ es negativa.
∂θ2
17
Capı́tulo 3. Contribuciones
5. En caso afirmativo, el estimador de máxima verosimilitud es θ̂.
Si aplicamos este método a un polinomio para estimar sus coeficientes, vamos
a llegar a un ’indeterminación’. Por tanto, recurrimos a otra clase de estimadores.
3.1.2.
Método de mı́nimos cuadrados
Se planteo el uso de estimadores mediante mı́nimos cuadrados, técnica de
análisis numérico encuadrada dentro de la optimización matemática, en la que,
dados un conjunto de pares ordenados {(xk , yk )}nk=1 y una familia de funciones
{fj (x)}m
j=1 , se intenta encontrar la función, dentro de dicha familia, que mejor se
aproxime a los datos (un ”mejor ajuste”), de acuerdo con el criterio de mı́nimo
error cuadrático.
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la función y
los correspondientes en los datos. Se puede demostrar que este método minimiza
el residuo cuadrado esperado, con el mı́nimo de operaciones (por iteración), pero
requiere un gran número de iteraciones para converger.
Desde un punto de vista estadı́stico, un requisito implı́cito para que funcione el
método de mı́nimos cuadrados es que los errores de cada medida estén distribuidos
de forma aleatoria. El teorema de Gauss-Markov prueba que los estimadores
mı́nimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que
ajustarse, por ejemplo, a una distribución normal.
La técnica de mı́nimos cuadrados se usa comúnmente en el ajuste de curvas.
Los pasos a seguir para la estimación de los parámetros mediante este método
son:
1. Ecuación que minimice la suma de los cuadrados de los residuos:
Ec =
n
X
k=1
yk −
m
X
cj fj (xk )
j=1
n
!2
.
(3.1)
18
3.1. Desarrollos teóricos previos
2. Cálculo de las derivadas parciales del error medio con respecto a cada una
de los coeficientes que deseamos estimar del polinomio, igualamos a cero:
∂Ec
= 0, para i=1,2, . . .,m.
∂ci
3. Despejamos los ci de las ecuaciones y obtenemos nuestros ĉi .
Estimados los parámetros surgió un problema y es que algunas de las densidades estimadas daban valores negativos. Para intentar solventar esto, se utilizaron
los Multiplicadores de Lagrange.
La intención era introducir una restricción de no negatividad de manera que:
Sea f (x) una función definida en un conjunto abierto n-dimensional x ∈ Rn .
Se definen s restricciones gk (x) = 0, k = 1, . . . , s, y se observa (si las restricciones
son satisfechas) que:
h(x, λ) = f −
s
X
λk g k .
k=1
Se procede a buscar un extremo para h,
∂h
= 0, lo que es equivalente a
∂xi
P
∂f
∂gk
= sk λk
.
∂xi
∂xi
Una vez determinados los valores de λ, volvemos al número original de variables y ası́ continuamos encontrando el extremo de la nueva ecuación no restringida,
F (x, y) = f (x, y) − λ(g(x, y) − c).
Los resultados obtenidos no fueron tan buenos como se esperaba. Y por ello,
se optó por calcular las raı́ces del polinomio. Es decir, donde los valores de la
densidad se hacı́an cero,
a0i + a1i x + a2i x2 + . . . + ani xn = 0.
No es un ejercicio trivial, ya que la complicación de estas operaciones crece a
medida que aumenta el grado del polinomio. Para nuestra práctica solo interesaba,
las raı́ces reales, no las complejas.
19
Capı́tulo 3. Contribuciones
Figura 3.1: Raı́ces del polinomio
El objetivo de esto, era utilizar estas raı́ces como lı́mites para integrar nuestro
polinomio y desechar los valores negativos. Este desarrollo se complicaba a medida
que obtenı́amos más raı́ces.
En la figura 3.1 podemos observar donde se localizan las raı́ces que vamos a
tomar como lı́mites a la hora de integrar el polinomio y reajustar los coeficientes
para que el área bajo la curva integre 1.
3.1.3.
Método de Inversión
Para comprobar la eficacia de la técnica desarrollada, se implementó el método de inversión, (véase por ejemplo, [47]).
Teorema 1. Asumiremos que X es una variable aleatoria con función de distribución FX . Si U → U(0, 1), entonces la variable Y = FX−1 (U) sigue la misma
distribución que X.
Demostración. Por definición
Y = FX−1 (y) = ı́nf{x ∈ R | FX (x) ≥ y}
0 ≤ y ≤ 1.
20
3.1. Desarrollos teóricos previos
Entonces,
FY (x) = P {Y ≤ x} = P {FX−1(U) ≤ x} = P {U ≤ FX (x)} = FX (x).
Por tanto, X e Y tienen la misma distribución.
El teorema anterior se puede usar para generar una muestra para la variable
0.0 0.2 0.4 0.6 0.8 1.0
F(x)
X. Basta con generar número aleatorios y calcular sus inversos mediante FX ,
obteniendo una muestra de variables independientes con la misma distribución
que X. Este proceso se muestra en la figura 3.2
−3
−2
−1
0
1
2
3
F−1 (U)
Figura 3.2: Método de Inversión
Se utilizó el test de Kolmogórov-Smirnov (test K-S) para comparar si
la nueva muestra generada a partir de los polinomios aprendidos y la muestra
original de los datos procedı́an de una misma distribución.
El test K-S es una prueba no paramétrica que se utiliza para determinar la
bondad de ajuste de dos distribuciones entre sı́, como serı́a nuestro caso, con la
muestra generada a partir del polinomio aprendido y la de los datos de partida.
El estadı́stico es:
Dn,n′ = sup |F1,n (x) − F2,n′ (x)|
x
21
Capı́tulo 3. Contribuciones
donde F1,n y F2,n′ son las funciones de distribución empı́ricas de la primera y
la segunda muestra respectivamente.
La hipótesis nula es rechazada si
r
nn′
Dn,n′ > Kα .
n + n′
Una vez comprobada la eficacia del método desarrollado, se intentó desarrollar una función para poder partir en dominio en más de un intervalo. Cuando
trabajamos con datos reales, puede ser necesario realizar un ajuste por partes.
Para ello se optó por encontrar los puntos extremos y puntos de inflexión de la
función de densidad de los datos.
3.1.4.
Puntos extremos y puntos de inflexión
Utilizaremos el mı́nimo como punto para partir el dominio y de la misma
manera que antes hacı́amos, ajustar ahora dos o más distribuciones.
Se desarrolló un método para poder encontrar los puntos donde la densidad
cambiaba de cóncavo a convexo, o al revés.
Lo primero que se usó fue el histograma empı́rico para tener las x e y. Las xi
son los puntos centrales de cada intervalo y las yi son las alturas de cada una de
las barras del histograma, es decir los valores de densidad.
A continuación se creó una función para encontrar los puntos extremos y los
puntos de inflexión con R. Esta función se basa en las diferencias entre las yi . La
primera distancia es entre cero y la primera densidad, la segunda entre la primera
densidad y la segunda, y ası́ con todas los valores de densidad.
Ahora tendremos que evaluar las tres primeras diferencias. Si la primera y
la tercera son menores o mayores que la segunda, entonces tendremos un punto
extremo. Si la primera diferencia es menor que la segunda pero la segunda es
mayor que la tercera, o al revés, tendremos un punto de inflexión.
Se realizaron los mismos pasos con las otras diferencias hasta obtener todos
estos puntos.
En la figura 3.3 podemos ver todos los puntos extremos y de inflexión de la
muestra. Para nuestro trabajo solo interesa el mı́nimo absoluto, que es por donde
22
3.1. Desarrollos teóricos previos
Figura 3.3: Puntos extremos y ajuste polinómico partiendo el dominio por el
mı́nimo
se debe partir el dominio.
3.1.5.
Algoritmo aproximado del EM
Dado que el método desarrollado en el punto anterior no era todo lo eficaz
o exacto que se deseaba, se intentó plantear un nuevo algoritmo aproximado del
EM.
Definición 6. En estadı́stica el algoritmo de esperanza-maximización (EM) se
usa para encontrar estimadores de máxima verosimilitud de parámetros en modelos probabilı́sticos que dependen de variables no observables.
Los pasos a seguir por este método son:
El paso E donde se computa la esperanza de la verosimilitud mediante la
inclusión de variables latentes como si fueran observables.
El paso M donde se calculan los estimadores de máxima verosimilitud de
los parámetros mediante la maximización de la verosimilitud esperada del
paso E.
Los parámetros que se encuentran en el paso M se usan para comenzar el paso E
siguiente, y ası́ el proceso se repite.
Para estimar los parámetros, solo tenemos que tener en cuenta las probabilidades entre cada uno de los cluster y las de pertenencia a éstos. El algoritmo
23
Capı́tulo 3. Contribuciones
tiende a converger pero nunca alcanza un punto fijo.
Calcularemos su verosimilitud como,
N X
J
Y
(
pj P (xi | J)).
i=1 j=1
El proceso seguirá iterando hasta que el incremento de esta medida sea insignificante.
Con MOPs ya vimos que no es posible estimar parámetros mediante máxima
verosimilitud, por ello la necesidad de creación de un nuevo algoritmo. Debido a
esto, se implementó un nuevo método, que se aproxima al del EM, pero salvando
las diferencias necesarias para poder trabajar con las mixturas de polinomios.
Este método se basa en el algoritmo arriba descrito, para reagrupar los datos en
función de los ajustes aprendidos sin necesidad de encontrar los puntos de corte
como anteriormente se habı́a realizado. En nuestro caso la variable oculta del que
se utiliza en el algoritmo EM será el grupo (1,2) que se le asigne a cada uno de
los datos de la muestra.
La metodologı́a a seguir para este algoritmo aproximado es, el cálculo de la
verosimilitud mediante un único ajuste y la obtenida partiendo el dominio. La
primera vez, se asignan los grupos aleatoriamente, después la reasignación de los
grupos se realiza en función de las probabilidades obtenidas para cada uno de
los grupos cada vez que se realiza el proceso. Ası́ mediante un proceso iterativo,
se consigue el ajuste de un solo polinomio o de una mixtura de polinomios con
mayor verosimilitud.
El ajuste final por trozos no era tan bueno como se esperaba, por ello se
desechó esta posible linea de investigación.
Introducidos los desarrollos anteriores, finalmente se realizó un método eficaz
para el ajuste polinómico y para la búsqueda de los puntos de corte de la muestra.
Como apartado central del trabajo, tanto el desarrollo teórico y algorı́tmico como
el software implementado se comentarán en los apartados 3.2 y 10.
24
3.2. Algoritmo
3.2.
Algoritmo
La dificultad de estimar densidades en MOPs univariantes de datos se puede
dividir en tres problemas:
1. La partición del dominio de la variable en intervalos disjuntos.
2. Determinar el número de términos de la función polinómica en cada uno de
los intervalos.
3. Estimar los parámetros dado un intervalo y dado el número de términos del
polinomio.
3.2.1.
Estimación paramétrica
Primero nos centraremos en la parte de la estimación de los parámetros, suponiendo conocidos los puntos de corte del dominio y el número de términos de
la función polinómica.
Consideraremos X una variable aleatoria, con función de densidad f (x) y
asumiremos que el dominio de f (x) está dividido en M intervalos {Ωi }M
i=1 . Nos
centraremos en un único intervalo particular m.
Para desarrollar el método finalmente empleado en la estimación de estos
parámetros, optamos por despejar los parámetros por mı́nimos cuadrados mediante el algoritmo dual de Goldfarb y Idnani [16], presentado a continuación.
Método Dual
Los problemas de programación lineal son un caso especial de los problemas en
los que una función no lineal es minimizada sujeta a restricciones. Estos problemas
son más difı́ciles de resolver. Una excepción es el caso donde la función objetivo
es cuadrática y las restricciones son lineales. Nos encontramos por tanto ante, el
Algoritmo Dual, presentado como un método eficiente y numéricamente estable
para la programación cuadrática positiva definida.
Este método está basado en la factorización QR.
Teorema 2. Factorización QR
25
Capı́tulo 3. Contribuciones
Si A es una matriz m × n con columnas linealmente independientes, entonces
A puede factorizarse en la forma
A = QR
en la que Q es una matriz con columnas ortonormales y R es una matriz
triangular superior.
Teorema 3. Algoritmo QR
Para una matriz A n × n invertible, cuyos valores propios λ1 , . . . , λn son tales
que |λ1 | < |λ2 | < . . . < |λn |,
la metodologı́a empleada es:
1. Tomar A0 = A.
2. Para i = 0, 1, 2, . . . , k, determinar la descomposición QR de Ai = Qi Ri y
tomar Ai + 1 = Ri Qi .
El resultado óptimo es una aproximación a una matriz triangular Ak cuyos
elementos diagonales son todos los valores propios A.
El método dual está centrado en la parte estrictamente convexa (definida
positiva) del problema de programación cuadrático:
1
minimizar f (x) = aT x + xT Gx
2
(3.2)
sujeto a s(x) = C T x − b ≥ 0
(3.3)
donde x y a son vectores n-dimensionales, G es una matriz simétrica definida
positiva n × n, C es una matriz m × n, b es un vector de dimensión m y los
super-ı́ndices T denotan la transpuesta.
Aunque el vector de la variable x puede estar sujeto también a restricciones
de igualdad Ĉ T x − b̂ = 0.
Varios métodos y algoritmos han sido propuestos para resolver problemas
de programación cuadrática. Estos incluyen los métodos primarios de Beale [1],
Dantzig [10], Fletcher [13], Goldfarb [15], Bunch y Kaufman [2], Gill y Murray [14]
y Wolfe [46], los métodos duales de Lemke [28] y Van de Panne y Whinston [12],
los principales métodos pivote de Cottle y Dantzig [8], los métodos paramétricos
de Grigoriadis y Ritter [18], el método primal-dual de Goncalves [17], los métodos
26
3.2. Algoritmo
de penalización exactas de la función de Conn [7] y el método de optimización
subproblema de Theil y Van de Panne [45].
La mayor parte del trabajo en la programación cuadrática requiere dos fases:
en la primera se obtiene un punto factible y en la segunda se consigue un punto
óptimo mientras se mantiene la viabilidad. La experiencia indica que la mayor
parte del esfuerzo empleado en resolver este tipo de problemas, se invierte en
la fase de la búsqueda del punto factible. Esto se puede mejorar utilizando otro
enfoque en la primera fase que probablemente obtenga un punto cercano al punto
óptimo. Esto fue sugerido por ldnani [20] que minimizó la función objetivo sin
restricciones, como vemos en la ecuación (3.2), utilizando x = −G−1 a como punto
de partida. La misma sugerencia de un punto de partida diferente fue realizada
por Dax, en [11]. Las pruebas computacionales indican que este enfoque encuentra
un punto factible que también es óptimo. Esto hace que en la segunda fase sean
necesarias muy pocas iteraciones adicionales para obtener la optimalidad en el
proceso. Aunque estos resultados eran alentadores se sugirió un nuevo enfoque
dual.
Algoritmo Dual
El algoritmo dado a continuación sigue el enfoque dual descrito anteriormente,
[16]. Para ello, es necesario introducir alguna notación. Usaremos K para denotar
el conjunto de {1, 2, . . . , m} los ı́ndices de las restricciones de la ecuación (3.3) y
A ⊆ K para denotar los ı́ndices del conjunto activo.
Definimos un subproblema P (J) al QP con función objetivo solo sujeta a un
subconjunto de restricciones J incluido en K.
Si la solución C de un subproblema P (J) se encuentra en algún conjunto activo linealmente independiente de restricciones indexado por A ⊆ J llamaremos
al par (x, A) una solución-S. Claramente si el par (x, A) es un par-S para el subproblema P (J) será también par-S para el subproblema P (A). Por independencia
lineal de un conjunto de restricciones, estaremos diciendo que las correspondencias normales de estas restricciones son linealmente independientes. Denotaremos
al vector de la i-ésima restricción en la ecuación (3.3), es decir la i-ésima columna
de C, por ni .
Capı́tulo 3. Contribuciones
27
Ahora podemos enfocar el algoritmo para resolver este tipo de problemas de
programación cuadrática.
Algoritmo 1: Método Dual QP
Entrada: La función objetivo (3.2) a minimizar y el conjunto de
restricciones a tener en cuenta (3.3)
Salida : Los Cj óptimos que resuelven el problema de programación
cuadrática
1 Asumir que algún par-S (x, A) es dado.
2 Repetir
3
a. Elegir una de las restricciones que no se cumplan p ∈ K − A.
4
b. si P (A ∪ {p}) no se satisface entonces
5
QP no es factible.
6
7
8
9
10
sino
obtener un nuevo par-S (x, A) donde A ⊆ A y f (x) > f (x)
Fijamos (x, A) := (x, A ∪ {p}).
hasta que todas las restricciones se cumplan;
Devolver X que se corresponde con los coeficientes Cj del polinomio cuyo
error queremos minimizar y que son el conjunto de soluciones óptimas del
QP.
La función objetivo de la ecuación (3.2) que queremos minimizar será la suma
de los errores al cuadrado, ecuación (3.1.2).
Desarrollo del software
Teóricamente hemos visto el método que utilizamos para la estimación de las
MOPs. En la práctica para la implementación de éste R, vamos a desarrollar una
función que utiliza, la orden ’solve.QP’ del paquete ’quadprog’.
El paquete quadprog contiene rutinas y documentación para resolver problemas del programación cuadrática (QP). La función solve.QP implementa el
método dual de Goldfarb y Idnani [16] para resolver este tipo de problemas de la
forma mı́n (−dT b + 12 bT ) con las restricciones AT b ≥ 0.
La función implementada en R requiere de las siguientes restricciones, las
cuales deben cumplir las soluciones que arroje el QP:
1. La integral del polinomio entre el punto máximo y mı́nimo de los datos X
28
3.2. Algoritmo
debe ser 1, es decir:
Z
mı́n(x) grado
X
máx(x)
máx(x)
ci xi f (x)dx = [F (x)]mı́n(x) = F (máx(x)) − F (mı́n(x)) = 1.
i=0
(3.4)
2. Los valores de la densidad calculados en función de los coeficientes del polinomio estimados deben ser mayores que cero para cada uno de los j datos
de nuestra muestra.
grado
X
ci xij ≥ 0
para j = 1, . . . , n
(3.5)
i=0
Algoritmo 2: Ajuste polinómico grado n
Entrada: Pares {xi , yi } de la muestra y el grado del polinomio que
deseamos ajustar.
Salida : Polinomio P x, que todos sus valores para los n datos muestrales
sean positivos y además cuya función de densidad f (x) integre 1.
1 Crear la matriz X de dimensión 2 × n, cuya primera columna esté formada
por unos y la segunda por los n valores de la variable.
T
2 Calculamos X X.
t
3 Calcular y X.
4 Crear una matriz AA con las n + 1 restricciones (3.4) y (3.5).
5 Formar un vector B con las desigualdades de las restricciones.
T
t
6 Resolver el problema con solve.QP(X X,y X, AA,B, meq = 1). Con el
parámetro meq lo que estamos introduciendo es el número de restricciones
de igualdad (=), las demás serán tomadas como mayor estricto (>).
7 Crear el polinomio P (x) con los coeficientes obtenidos cj .
8 Devolver P (x).
En el algoritmo 2 se obtiene una estimación de la función polinómica de la
densidad de los datos.
3.2.2.
Número de términos de la función polinómica
Visto el método empleado para la estimación de los parámetros dado el grado
del polinomio, ahora lo nos interesa desarrollar un método que calcule el MOP
29
Capı́tulo 3. Contribuciones
que mejor se ajuste a nuestros datos, sin la necesidad de introducir el grado que
debe tener cada polinomio que estime.
Para ello, nos apoyamos en alguna medida para conocer la verosimilitud del
modelo estimado. La verosimilitud nos dice como de ’bueno’ es el modelo estimado con respecto al original.
El modelo perfecto no existe, puesto que todos constituyen simplificaciones
de la realidad y siempre son preferibles modelos con menos variables, puesto que
además de ser más sencillos, son más estables y menos sometidos a sesgo.
Por ello vamos a trabajar con una medida de verosimilitud que tenga en cuenta
la cantidad de parámetros que se incluyen en el polinomio estimado y el número
de datos muestrales que vamos a utilizar. Trabajaremos para ello con el criterio
de información Bayesiano, BIC.
La medida BIC planteada para el modelo, equivale a la log-verosimilitud,
penalizada por el número de parámetros y el tamaño muestral, es decir:
BIC =
N grado
X
X
j=1 i=0
log(cˆi xij )
!
1
o
− n parámetros · log N
2
(3.6)
donde N es el tamaño de la muestra, grado es el grado del polinomio estimado
y no parámetros es el número de coeficientes estimados para ese polinomio, o lo
que es lo mismo grado + 1.
Algoritmo 3: Ajuste polinómico con mejor BIC
Entrada: Pares {xi , yi } de la muestra.
Salida : Los parámetros cj del mejor ajuste polinómico para los datos X.
1 Asumimos que mejorBIC := −∞
2 desde grado := 2 hasta 12 hacer
3
Calcular la función polinómica P (x).
4
Calcular el valor del BIC del polinomio estimado.
5
si mejorBIC > BIC entonces
6
mejorBIC := BIC.
7
mejorP (x) = P (x), guarda el polinomio con mejor BIC.
8
Devolver mejorP (x).
En el algoritmo 3 conseguimos estimar el polinomio con el grado que mejor se
30
3.2. Algoritmo
ajusta a los datos generados.
Ya que el BIC planteado está en función de la verosimilitud, el criterio será quedarnos con aquella función polinómica que tenga mayor BIC, lo que no quiere decir
que tenga mayor verosimilitud ya que también estamos penalizando el número de
parámetros que estima el modelo.
3.2.3.
Partición del dominio
Como ya habı́amos visto, existe un tercer problema a la hora de estimar densidades MOPs univariantes: encontrar los puntos de cortes para ajustar distintos
polinomios y conseguir un mayor BIC.
Para ellos hemos creado un algoritmo que encuentra posibles candidatos a
puntos de corte en todo el dominio de los datos Xi . Usaremos la notación x(x >
xi ) para denotar al conjunto de puntos x de x que cumplen la condición de que
x > xi ; análogamente para x(x ≤ xi ).
Algoritmo 4: Ajuste polinómico por trozos
Entrada: Pares {xi , yi } de la muestra.
Salida : Ajuste MOP.
1 Asumimos que mejorBIC := −∞.
2 desde i := xi hasta n (donde n es el numero de datos) hacer
3
θ1 := Ajuste polinómico con mejor BIC 3 de (x(x ≤ xi )).
4
Calcular el valor del BIC de θ1 .
5
θ2 := Ajuste polinómico con mejor BIC 3 de (x(x ≤ xi )).
6
Calcular el valor del BIC de θ2 .
7
si BIC θ1 , θ2 , x > mejorBIC entonces
8
mejorBIC := BIC θ1 , θ2 , x.
9
mejorCorte := (xi+1 − x1 )/2
10
Devolver θ1 , θ2 , mejorBIC, mejorCorte.
El algoritmo devuelve un único punto de corte. Una vez que se ha partido
el dominio, en cada uno de los intervalos, Ω1 y Ω2 , se puede volver a aplicar el
algoritmo 4, para ası́ encontrar más puntos de corte, de manera que se encuentre
un MOP con mayor verosimilitud.
Capı́tulo 4
Experimentos
Para comprobar que efectivamente el método desarrollado es eficiente, se plantearon una serie de pruebas utilizando como muestra, datos aleatorios generados
de una de las distribuciones conocidas tipo exponencial, binomial, normal, beta, chi-cuadrado y Weibull. También se realizaron otros experimentos mezclando
unas con otras.
El capı́tulo 4 se centra en la utilización de todas las funciones y algoritmos
descritos anteriormente.
4.1.
Distribución exponencial
Empezaremos viendo un ejemplo muy sencillo. Generamos una muestra de 500
elementos que provienen de una distribución exponencial con lambda 1, E(λ = 1).
Sin partir el dominio, los resultados obtenidos son los siguientes:
f (x) = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 + a5 x5
0,025 ≤ x ≤ 9,225
donde los valores asociados a esta ecuación (4.1) son:
a0 = 1,018076,
a1 = −0,9025065, a2 = 0,3210156,
a3 = −0,05585781, a4 = 0,0047168,
a5 = −0,0001544201.
(4.1)
32
4.1. Distribución exponencial
Si utilizamos una mixtura de polinomios el tiempo de ejecución es de 12.471
segundos y los resultados son los siguientes:
f (x) =
 6
X



ai1 xi


para x ∈ (0,025, 0,425)
i=0
6
X



ai2 xi


(4.2)
para x ∈ (0,425, 9,225)
i=0
donde los ai asociados al MOP de la ecuación (4.2) son:
a01 = 0,7118358
a02 = 1,26391
a12 = −1,316895
a11 = 22,86954
a21 = −308,0185 a22 = 0,5901265
a32 = −0,1414006
a31 = 1451,085
a41 = −2433,152 a42 = 0,01883714
a51 = −491,2848 a52 = −0,001314588
a61 = 3548,169
a62 = 3,746186 · 10−5 .
Ajuste polinómico
0.8
f(x)
0.6
0.4
0.4
0.0
0.0
0.2
f(x)
0.8
1.2
1.0
Ajuste polinómico grado 5
0
2
4
6
x
8
0
2
4
6
8
x
Figura 4.1: Ajuste en un único intervalo y partiendo el dominio para datos procedentes de una distribución exponencial.
El programa determina que el mejor ajuste es partiendo el dominio en dos
trozos ya que el valor del BIC es mayor en este caso que con un único ajuste. Sin
33
Capı́tulo 4. Experimentos
embargo, no sigue partiendo el dominio en más trozos, ya que si partimos más y
comparamos con el BIC obtenido con un solo corte veremos que este no mejora.
Habiendo ya estimado los polinomios correspondientes en cada uno de los
dos trozos del dominio, aplicamos el método de inversión comentado en el punto
3.1.3. Si aplicamos el test K-S veremos que según el p-valor el ajuste es bueno.
0.0 0.2 0.4 0.6 0.8 1.0
Fn(x)
Método de Inversión
F(X)
F(val_sim
0
2
4
6
8
x
Figura 4.2: Método de inversión para el MOP ajustado procedente de datos exponenciales.
En la figura 4.2 podemos observar como, la función de distribución empı́rica acumulada para los datos originales y para la muestra generada mediante el
método de inversión a partir de los polinomios aprendidos anteriormente, son
prácticamente idénticas.
4.2.
Distribución normal
Para la siguiente prueba, se generaron 500 datos de una distribución normal
de media 0 y desviación tı́pica 1, N(µ = 0, σ = 1), con la ayuda de R.
Veamos el ajuste que realiza el programa, partiendo y sin partir el dominio.
7
X
i=0
ai xi
− 3,125 ≤ x ≤ 3,625
(4.3)
34
4.2. Distribución normal
donde,
a1 = −0,0375452,
a4 = 0,01564672,
a0 = 0,3669942,
a3 = 0,01996172,
a2 = −0,1293823,
a5 = 0,003145081,
a6 = −0,00063738872, a7 = 0,0001523461.
se corresponden con los valores correspondientes al ajuste obtenido en la ecuación (4.3).
Utilizando una mixtura de polinomios, el tiempo de ejecución del programa
hasta encontrar el MOP que mejor se ajusta a los datos generados es de 13.073
segundos y los resultados son los siguientes:
f (x) =
 4
X



ai1 xi


i=0
4
X





i
ai2 x
para x ∈ (−3,125, −0,875)
(4.4)
para x ∈ (−0,825, 3,625)
i=0
a01 = 1,272493
a02 = 0,3710747
a11 = 1,731111
a21 = 1,01158
a12 = −0,05980619
a22 = −0,1208326
a31 = 0,2893378 a32 = 0,04608326
a41 = 0,03252996 a42 = −0,004300286
0.0
0.2
f(x)
0.0
0.2
f(x)
0.4
Ajuste polinómico
0.4
Ajuste polinómico grado 7
−3
−2
−1
0
1
x
2
3
−3
−2
−1
0
1
2
3
x
Figura 4.3: Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución normal.
35
Capı́tulo 4. Experimentos
Aunque el ajuste realizado con todo el dominio y partiendo el dominio resulta
similar a simple vista, hemos comprobado mediante el valor de los correspondientes BIC que es mejor cuando realizamos un corte. Si seguimos partiendo el
dominio los valores del BIC que ofrece el programa son inferiores, lo que nos indica que los ajustes realizados para más cortes no son mejores y por tanto, nos
quedamos con una única partición del rango.
Una vez aprendidos los polinomios, realizamos una simulación de datos, mediante el método de inversión. Comparamos la muestra inicial con la simulada
con el test de Kolmogorov Smirnov que efectivamente arroja un p-valor grande,
lo que indica que las dos muestras provienen de una misma distribución, véase la
figura 4.4.
0.0 0.2 0.4 0.6 0.8 1.0
Fn(x)
Método de Inversión
F(X)
F(val_sim
−2
0
2
4
x
Figura 4.4: Método de inversión para el MOP ajustado a partir de datos normales.
4.3.
Distribución beta
Generamos una muestra aleatoria de 500 elementos de una distribución beta
con parámetros de forma 1/2 y 1/2, B(α = 1/2, β = 1/2).
36
4.3. Distribución beta
Para un único ajuste polinómico el grado que alcanza es 6, mientras que
cuando parte el dominio en 2 piezas, el grado es de 8 (4 + 4). Veamos las gráficas
y el ajuste que realizamos mediante las funciones implementadas en R.
6
X
ai xi
0,0025 ≤ x ≤ 0,9975
(4.5)
i=0
donde los valores estimados se corresponden con:
a0 = 4,523406,
a1 = −78,35603, a2 = 596,3086,
a3 = −2111,819, a4 = 3736,488,
a5 = −3206,272,
a6 = 1063,602.
Utilizando una mixtura de polinomios, el tiempo de ejecución del programa
hasta encontrar el MOP que mejor se ajusta a los datos generados es de 6.439
segundos y los resultados son los siguientes:
f (x) =
 4
X



ai1 xi


para x ∈ (0,0025, 0,0275)
i=0
4
X



ai2 xi


(4.6)
para x ∈ (0,0325, 0,9975)
i=0
a02 = 2,188813
a01 = 17,33531
a11 = −4493,0651 a12 = −14,95649
a22 = 54,70464
a21 = 475651,1
a31 = −20503210
a41 = 307548100
a32 = −84,50501
a42 = 45,8669.
37
Capı́tulo 4. Experimentos
Ajuste polinómico
0
0
1
1
2
3
f(x)
2
f(x)
3
4
5
4
Ajuste polinómico grado 6
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
x
0.6
0.8
1.0
x
Figura 4.5: Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución beta.
El ajuste polinómico con mejor BIC es el MOP de 2-piezas y grado-8 (4+4).
Si realizamos las pertinentes comprobaciones como en los anteriores apartados
mediante el método de inversión y el test K-S, podremos ver que efectivamente
ambas muestras, la original y la simulada tienen funciones de distribución similares, véase la figura 4.6.
0.0 0.2 0.4 0.6 0.8 1.0
Fn(x)
Método de Inversión
F(X)
F(val_sim
0.0
0.2
0.4
0.6
0.8
1.0
x
Figura 4.6: Método de inversión para el MOP ajustado a partir de datos procedentes de una beta.
38
4.4. Distribución chi-cuadrado
4.4.
Distribución chi-cuadrado
En el siguiente ejemplo, trabajamos con datos generados a partir de una chicuadrado χ2 con 10 grados de libertad.
En este caso el programa realiza las pertinentes comparaciones y determina
que no es necesario partir el dominio. El polinomio ajustado es de grado 6, y los
resultados obtenidos son los siguientes:
6
X
ai xi
1,55 ≤ x ≤ 26,85
(4.7)
i=0
a0 = 0,07950775,
a1 = −0,07067867,
a3 = −0,003365689,
a6 = 5,927842 · 10−8 .
a4 = 0,0001991204, a5 = −5,546911 · 10−6,
a2 = 0,02591051,
Fn(x)
0.10
f(x)
0.05
0.00
5
10
15
20
25
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
0.15
Ajuste polinómico grado 6
F(X)
F(val_sim
0
5
x
10
15
20
25
30
x
Figura 4.7: Ajuste polinómico de una distribución χ2 y comparación de muestras.
En el primer gráfico de la figura 4.7 se observa como la linea roja correspondiente al ajuste realizado y la negra que se corresponde con los valores de la
densidad kernel de los datos X, son prácticamente iguales.
Para comprobar esto, hemos simulado una muestra procedente del polinomio
aprendido, para verificar que ambas muestras proceden de una misma distribución
utilizamos el test K-S, segunda gráfica de la figura.
39
Capı́tulo 4. Experimentos
4.5.
Distribución Weibull
La última prueba que vamos a realizar con datos que provengan de una única
distribución es sobre una Weibull. La distribución Weibull que hemos utilizado
para generar los datos tiene como parámetros de forma y escala, β = 1,5 y θ = 3,
respectivamente.
Volviendo a realizar el ajuste, está vez el programa también determina que
el mayor BIC se consigue sin partir el dominio. La ecuación del polinomio y las
gráficas obtenidas se presentan a continuación:
6
X
ai xi
0,025 ≤ x ≤ 11,025
(4.8)
i=0
donde,
a0 = 0,04361531,
a2 = −0,2091959,
a1 = 0,3776644,
a3 = 0,04625209,
a4 = −0,005148195, a5 = 0,0002873393,
a6 = −6,402609 · 10−6 .
Fn(x)
0.3
0.2
0.0
0.1
f(x)
0
2
4
6
x
8
10
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
0.4
Ajuste polinómico
F(X)
F(val_sim
0
2
4
6
8
10
x
Figura 4.8: Ajuste polinómico de una distribución Weibull y comparación de
muestras.
En la primera gráfica de la figura 4.8 podemos ver, el ajuste realizado por el
programa con la linea roja y la densidad kernel de los datos de la muestra inicial
con la curva negra. Para comprobar que el ajuste realizado es bueno, generamos
40
4.6. Mixtura de exponenciales
nuevos datos a partir del polinomio aprendido mediante el método de inversión,
y comparamos ambas muestras con el test de Kolmogorov Smirnov para ver si
puede considerarse que provengan de una misma distribución. En la segunda
gráfica, vemos como efectivamente la función de distribución de ambas muestras
es prácticamente la misma.
4.6.
Mixtura de exponenciales
Vamos a crear una base de datos con valores que provengan de dos tipos de
distribuciones betas, la primera será una E(λ = 1) y la otra será la misma que la
anterior desplazada en 5 posiciones.
Los resultados obtenidos arrojan que el mejor ajuste se consigue partiendo
el dominio, como era de esperar ya que los datos están bien diferenciados para
formar dos conglomerados. Obtenemos una MOP de 2-piezas y grado-8. El tiempo
de ejecución es de 11.647 segundos.
5
X
ai xi
0,0025 ≤ x ≤ 10,175
(4.9)
i=0
donde los parámetros estimados para la ecuación (4.9) son:
a0 = 0,533449,
a1 = −0,4925529,
a2 = 0,148599,
a3 = −0,01384746, a4 = −0,0001017248, a5 = 4,448974 · 10−5 .
f (x) =
 4
X



ai1 xi


para x ∈ (0,025, 4,975)
i=0
4
X



ai2 xi


(4.10)
para x ∈ (5,025, 10,175)
i=0
cuyos coeficientes se corresponden con:
a01 = 0,5267496
a11 = −0,46356
a21 = 0,1544462
a02 = 11,51374
a12 = −4,963331
a22 = 0,8035588
a31 = −0,02214045 a32 = −0,0577852
a41 = 0,001115051 a42 = 0,001555237.
41
Capı́tulo 4. Experimentos
0.3
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
Ajuste polinómico
0.4
Ajuste polinómico grado 5
0
2
4
6
8
10
0
2
x
4
6
8
10
x
Figura 4.9: Ajuste en un único intervalo y partiendo el dominio de los datos
procedentes de dos distribuciones exponenciales.
En la figura 4.9 podemos ver como partiendo el dominio se consigue un mejor ajuste de los datos. Para verificar este hecho, hemos aplicado el método de
inversión para generar datos a partir de los dos polinomios aprendidos, hemos
comprobado que efectivamente los generados y los datos originales provienen de
una misma distribucion mediante el test K-S, como vemos en el gráfico 4.10.
0.0 0.2 0.4 0.6 0.8 1.0
Fn(x)
Método de Inversión
F(X)
F(val_sim
0
2
4
6
8
10
x
Figura 4.10: Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones exponenciales.
42
4.7. Mixtura de normales
4.7.
Mixtura de normales
En este apartado, vamos a ver como se comporta el programa cuando introducimos datos generados aleatoriamente a partir de dos normales, N(µ = 0, σ = 1)
y N(µ = −5, σ = 1).
Los resultados obtenidos para esta prueba son los siguientes:
8
X
ai xi
− 7,625 ≤ x ≤ 2,575
(4.11)
i=0
donde los coeficientes ai de la ecuación (4.11) son:
a0 = 0,1917622,
a1 = 0,01864625,
a2 = −0,07407197,
a3 = −0,009750372, a4 = 0,008994962,
a5 = 0,001500964,
−5
a6 = −0,0002400603, a7 = −6,138505 · 10 , a8 = −3,198659 · 10−6 .
Fn(x)
0.20
f(x)
0.10
0.00
−8
−6
−4
−2
x
0
2
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
0.30
Ajuste polinómico grado 8
F(X)
F(val_sim
−8
−6
−4
−2
0
2
x
Figura 4.11: Ajuste polinómico de dos distribuciones normales y comparación de
muestras.
En figura 4.11 podemos observar dos gráficas. La primera de ellas relacionada
con el ajuste realizado por el programa. Para comprobar si este ajuste es bueno,
actuamos de la misma manera que en ejemplos anteriores. Primero generamos
nuevos datos a partir del polinomio aprendido mediante el método de inversión,
y comparamos ambas muestras utilizando el test K-S, como se muestra en la
43
Capı́tulo 4. Experimentos
segunda gráfica y si nos fijamos en el p-valor obtenido en el test, podemos afirmar
que ambas muestras proceden de una misma distribución.
4.8.
Mixtura de una exponencial y de una normal
Para realizar este experimentos, se generaron 500 datos procedente de una
distribución exponencial, E(λ = 1), y de una normal, N(µ = 7, σ = 1).
Utilizando los programas desarrollados para realizar el ajuste polinómico y
partir el dominio si fuera necesario, los resultados obtenidos son los siguientes:
6
X
ai xi
0,025 ≤ x ≤ 9,925
(4.12)
i=0
donde,
a0 = 0,5906667,
a1 = −0,7213815,
a3 = −0,1445762,
a6 = 8,184021 · 10−5 .
a4 = 0,026541032, a5 = −0,002388849,
f (x) =
 5
X



ai1 xi







i=0
5
X
i
ai2 x
a2 = 0,4290856,
para x ∈ (0,025, 5,125)
(4.13)
para x ∈ (5,175, 9,925)
i=0
cuyos coeficientes estimados son:
a01 = 0,5719852
a11 = −0,6136847
a02 = 73,9765
a12 = −50,54936
a21 = 0,2847182
a31 = −0,07047527
a41 = 0,009293569
a22 = 13,512
a32 = −1,764886
a42 = 0,1128444
a51 = −0,0005175449 a52 = −0,002832323.
Vemos que el programa determina que el mejor ajuste es realizado por el MOP
de 2-piezas.
44
4.8. Mixtura de una exponencial y de una normal
0
2
4
6
x
8
10
0.0 0.1 0.2 0.3 0.4 0.5
f(x)
f(x)
Ajuste polinómico
0.0 0.1 0.2 0.3 0.4 0.5
Ajuste polinómico grado 6
0
2
4
6
8
10
x
Figura 4.12: Ajuste en un intervalo y en dos partes de una distribución normal y
de una exponencial.
El tiempo empleado en este proceso fue de 6.331 segundos. Aunque en la gráfica 4.12 los ajustes son similares, según el criterio del BIC que nosotros habı́amos
planteado (3.6) nos decantamos por partir el dominio en dos trozos. Por tanto
nos quedarı́amos con un MOP de 2-trozos y grado-10 frente al único polinomio
de grado-6.
En ocasiones el programa para mixturas de una exponencial y una normal,
deja sin partir el dominio, puesto que debemos siempre tener en cuenta que
estamos trabajando con datos generados aleatoriamente y por tanto pueden salir
distintos resultados.
Para justificar, que efectivamente el ajuste realizado es bueno, generamos
otra muestra a partir de los polinomios aprendidos, y con el test K-S vemos si
ambas muestras proceden de la misma distribución. El test arroja un p-valor
alto, lo que nos ı́ndica que efectivamente ambas muestras vienen de una misma
distribución, se puede ver también en la gráfica 4.13.
45
Capı́tulo 4. Experimentos
0.0 0.2 0.4 0.6 0.8 1.0
Fn(x)
Método de Inversión
F(X)
F(val_sim
0
2
4
6
8
10
x
Figura 4.13: Método de inversión para el MOP ajustado a partir de una mixtura
de exponenciales y una normal.
4.9.
Mixtura de una beta y una Weibull
En esta sección, analizaremos una muestra generada aleatoriamente de datos
que proceden de una distribución beta, B(α = 3/5, β = 3/5) y de una distribución
Weibull, con parámetro de forma y escala β = 1,5 y θ = 2, respectivamente.
El programa decide que la mejor solución a la hora de ajustar los datos a
una distribución polinómica es partir el dominio formando un MOP de 2-piezas
y grado-10, como veremos a continuación. El tiempo de ejecución es de 14.148
segundos.
5
X
ai xi
0,025 ≤ x ≤ 8,475
(4.14)
i=0
donde los coeficientes ai de la ecuación (4.14) se corresponden con los siguientes valores:
a0 = 0,6149942,
a1 = −0,47732335, a2 = 0,2078579,
a3 = −0,04824669, a4 = 0,005320196, a5 = −0,0002190402.
46
4.9. Mixtura de una beta y una Weibull
f (x) =
 6
X



ai1 xi







i=0
6
X
i
ai2 x
para x ∈ (0,025, 0,975)
(4.15)
para x ∈ (1,025, 8,475)
i=0
donde los valores asociados a la ecuación (4.15) son:
a01 = 0,9397709 a02 = −0,5546641
a11 = −7,550284 a12 = 1,007427
a22 = −0,4789647
a21 = 57,02523
a31 = −217,2742 a32 = 0,1009587
a42 = −0,01040727
a41 = 410,5779
a51 = −370,8559 a52 = 0,0004810528
a62 = −6,390855 · 10−6 .
a61 = 128,5749
0.6
0.0
0.2
0.4
f(x)
0.4
0.0
0.2
f(x)
0.6
0.8
Ajuste polinómico
0.8
Ajuste polinómico grado 5
0
2
4
6
x
8
0
2
4
6
8
x
Figura 4.14: Ajuste en uno y dos intervalos de datos procedentes de una beta y
una Weibull.
En la figura 4.14 se aprecia como partiendo el dominio se recoge mucha más
información de los datos que ajustando un único polinomio. Para contrastar esto,
utilizamos el método de inversión con el que generamos otra muestra a partir de
los dos polinomios aprendidos. Utilizamos el test K-S para verificar que estas dos
muestras proceden de una misma distribución.
47
Capı́tulo 4. Experimentos
En el gráfico 4.15 podemos ver como las funciones de probabilidad acumulada
de los datos X originales y los simulados con este método son prácticamente
iguales.
0.0 0.2 0.4 0.6 0.8 1.0
Fn(x)
Método de Inversión
F(X)
F(val_sim
0
2
4
6
8
x
Figura 4.15: Método de inversión para el MOP ajustado a partir de datos procedentes de una beta y una Weibull.
4.10.
Mixtura de betas
Queremos realizar el ajuste polinómico de unos datos aleatorios generados de
dos distribuciones betas B(α = 1/2, β = 1/2).
El tiempo que empleo el programa en encontrar el punto óptimo donde cortar
el dominio para encontrar máxima verosimilitud por el criterio del BIC establecido, fue de 22.796 segundos.
Las siguientes ecuaciones muestras los ajustes sin partir y partiendo el dominio.
5
X
ai xi
− 0,9995 ≤ x ≤ 0,9995
i=0
con los valores de los coeficientes estimados ai , tal que:
(4.16)
48
4.10. Mixtura de betas
a0 = 0,70149,
a1 = 0,02229545, a2 = −2,477258,
a3 = −0,2373761, a4 = 3,155326,
a5 = 0,3458579.
 4
X



ai1 xi para x ∈ (−0,995, −0,015)


f (x) = i=0
8
X



ai2 xi para x ∈ (−0,005, 0,995)


(4.17)
i=0
a01 = 1,535861 a02 = 2,599118
a11 = 13,13816 a12 = −63,60542
a21 = 48,43378 a22 = 730,24
a31 = 71,19737 a32 = −4291,927
a41 = 35,96201 a42 = 14235,1.
a52 = −27697,71
a62 = 31305,9
a72 = −19006,72
a82 = 4789,178
En la ecuación (4.17) y en la figura 4.16 podemos observar el ajuste final de
un MOP de 2-trozos y grado-12 (8+4).
1.5
0.0
0.5
1.0
f(x)
1.0
0.0
0.5
f(x)
1.5
2.0
Ajuste polinómico
2.0
Ajuste polinómico grado 5
−1.0
−0.5
0.0
x
0.5
1.0
−1.0
−0.5
0.0
0.5
1.0
x
Figura 4.16: Ajuste en uno y dos intervalos para datos procedentes de dos distribuciones betas.
Comprobamos que este ajuste es bueno, generando datos a partir del MOP
aprendido y comparando ambas muestras para ver si provienen de una misma
49
Capı́tulo 4. Experimentos
distribución. Mediante estos métodos podemos ver que efectivamente el ajuste
realizado por el programa puede ser considerado bueno.
En la figura 4.17 podemos comprobar ésto, mediante las curvas de la función
de probabilidad acumulada de los datos originales y la muestra simulada.
Fn(x)
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
F(X)
F(val_sim
−1.0
−0.5
0.0
0.5
1.0
x
Figura 4.17: Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones betas.
4.11.
Mixtura de tres exponenciales
En este experimento, queremos comprobar si el programa desarrollado, es
capaz de encontrar más de un punto de corte óptimo para el ajuste polinómico de
datos procedentes de tres distribuciones exponenciales. Para ellos hemos generado
aleatoriamente tres exponenciales, de parámetros λ = 1.
Presentamos los resultados obtenidos para el primer ajuste y para el ajuste
final realizado, un MOP de 3-piezas y grado-12. Respecto al tiempo de ejecución,
el programa tardó en encontrar el primer punto de corte, 8.306 segundos, y el otro,
0.8999 segundos, lo que nos indica que el sistema gastó en total aproximadamente
9.2 segundos.
7
X
i=0
donde,
ai xi
− 9,95 ≤ x ≤ 4,55
(4.18)
50
4.11. Mixtura de tres exponenciales
a0 = 0,06436582,
a3 = −0,006625185,
a1 = 0,03857554,
a2 = 0,005533225,
a4 = −0,001113837, a5 = 0,0001855703,
a6 = 4,431948 · 10−5 , a7 = 2,12142 · 10−6 .
0.20
0.00
0.10
f(x)
0.00
0.10
f(x)
0.20
0.30
Ajuste polinómico
0.30
Ajuste polinómico grado 7
−10
−5
0
5
−10
−5
x
0
5
x
Figura 4.18: Ajuste polinómico para datos exponenciales y método de inversión
para las muestras.
La ecuación (4.19) justifica el ajuste en el que se encuentran dos puntos de
corte se muestra. Se muestran también las gráficas del MOP final estimado y la
comprobación gráfica de que el ajuste realizado es bueno, ya que las funciones
de distribución de la muestra inicial y la simulada para el MOP de 3-piezas son
prácticamente iguales.
 4
X



ai1 xi




i=0


4
X
f (x) =
ai2 xi


i=0


4

X




ai3 xi

para x ∈ (−9,95, −5,05)
para x ∈ (−4,95, −0,05)
para x ∈ (0,05, 4,55)
i=0
con parámetros estimados asociados a la ecuación (4.19):
(4.19)
51
Capı́tulo 4. Experimentos
a01 = −0,03319941
a11 = 0,05321911
a02 = −0,0003892121 a03 = 0,3073907
a12 = −0,007950185 a13 = −0,2272121
a21 = 0,03208191
a22 = −0,002953893
a31 = 0,005714552 a32 = −0,001043111
a41 = 0,0003378832 a42 = 0,0003378832
a23 = 0,06524359
a33 = −0,008527417
a43 = 0,0004272028.
Fn(x)
0.20
0.00
0.10
f(x)
−10
−5
0
5
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
0.30
Ajuste polinómico
F(X)
F(valores_s
−10
x
−5
0
5
x
Figura 4.19: Ajuste final de una mixtura de tres exponenciales y comparación de
muestras.
4.12.
Mixtura de exponenciales y una normal
El experimento planteado cuenta con unos 600 datos procedentes de una
normal,N(µ = 9, σ = 1) y de dos distribuciones exponenciales.
Introducimos estos datos en el sistema y comprobamos los resultados, obtenidos. El tiempo de ejecución es de 10.265 segundo y en este caso el programa
determina que no es necesario seguir partiendo el dominio, por lo que solo encuentra un punto óptimo de corte.
10
X
ai xi
0,05 ≤ x ≤ 19,35
i=0
donde los coeficientes ai de la ecuación (4.20) son:
(4.20)
52
4.12. Mixtura de exponenciales y una normal
a1 = −0,302549,
a4 = −0,03502415,
a0 = 0,3315809,
a3 = 0,05729014,
a2 = 0,04899076,
a5 = 0,008912126,
a7 = 0,0001028194,
a8 = −4,963242 · 10−6 ,
a10 = −1,422618 · 10−9 .
 7
X



ai1 xi para x ∈ (0,05, 13,95)


f (x) = i=0
(4.21)
4
X


i

ai2 x para x ∈ (14,05, 19,35)


a6 = −0,001247918,
a9 = 1,298768 · 10−7 ,
i=0
a01 = 0,3700597
a11 = −0,4905423
a02 = 192,6562
a12 = −44,21175
a21 = 0,3115737
a31 = −0,1039912
a41 = 0,01873357
a22 = 3,805803
a32 = −0,145583
a42 = 0,002087366.
a51 = −0,001813164
a61 = 8,855063 · 10−5
a71 = −1,712042 · 10−6
El ajuste inicial sin partir el dominio es de un polinomio de grado-10. El
ajuste final realizado es de un MOP de 2-piezas y grado-11 (7+4). Estos ajustes
se muestran en la figura 4.20.
0.00
0.10
f(x)
0.10
0.00
f(x)
0.20
Ajuste polinómico
0.20
Ajuste polinómico grado 10
0
5
10
15
20
x
0
5
10
15
20
x
Figura 4.20: Ajuste polinómico en uno y dos intervalos para datos procedentes
de distribuciones tipo exponencial y normal.
53
Capı́tulo 4. Experimentos
El programa finalizó porque el MOP encontrado partiendo una única vez
el dominio es el que consigue mayor BIC. También podemos ver que este es
bueno ya que si simulamos una muestra que provenga del MOP final estimado
y la comparamos con la inicial, veremos que ambas provienen de una misma
distribución, como se muestra en la figura 4.21, en el que se representa la función
de distribución de ambas muestras.
Fn(x)
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
F(X)
F(val_sim
0
5
10
15
20
x
Figura 4.21: Método de inversión para el MOP ajustado a partir de datos exponenciales y normales.
4.13.
Mixturas de tres normales
Generamos 600 datos aleatorios procedentes de distribuciones normales, N(µ =
1, σ = 1), N(µ = −5, σ = 1) y N(µ = −10, σ = 1).
El programa intenta partir el dominio, pero considera que la función polinómica que mejor se ajusta a los datos X generados, minimizando su error, es un
polinomio de grado-10.
Los resultados obtenidos se muestran a continuación, al igual que las gráficas
obtenidas en relación a este ajuste y al método de inversión aplicado para ver si
efectivamente el ajuste es bueno.
10
X
i=0
ai xi
− 12,65 ≤ x ≤ 2,45
(4.22)
54
4.14. Mixtura de distribuciones tipo Weibull y una exponencial
los parámetros asociados a la ecuación (4.22) son:
a0 = 0,141534,
a3 = −0,01025399,
a2 = −0,06659624,
a5 = 0,002195315,
a1 = 0,01650998,
a4 = 0,009752402,
a6 = −0,000290694,
a7 = −0,0001384532,
a9 = −9,173677 · 10−7 , a10 = −1,863357 · 10−8 .
Fn(x)
0.10
f(x)
0.05
0.00
−10
−5
0
x
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
0.15
Ajuste polinómico
a8 = −1,706289 · 10−5 ,
F(X)
F(val_sim
−10
−5
0
x
Figura 4.22: Ajuste polinómico para datos procedentes de 3 normales y método
de inversión.
En este ejemplo el programa no parte el dominio, pero como los datos son
generados aleatoriamente, habrá ocasiones en que encuentre un mejor ajuste con
una mixtura de polinomios.
4.14.
Mixtura de distribuciones tipo Weibull y
una exponencial
El experimento planteado cuenta con unos 600 datos procedentes de dos distribuciones Weibull y de una exponencial, E(λ = 1).
Para este conjunto de datos, el programa determina que es mejor cortar el
dominio por un único punto, tardando el sistema 12.385 segundos en encontrar
el mejor ajuste para los dos intervalos encontrados. Los resultados obtenidos se
observan en las ecuaciones (4.23) y (4.24)
55
Capı́tulo 4. Experimentos
10
X
ai xi
− 4,875 ≤ x ≤ 10,475
(4.23)
i=0
donde los ai son los coeficientes asociados a la ecuación (4.23) del polinomio:
a0 = 0,1227406,
a3 = −0,01304447,
a1 = 0,04409973,
a4 = 0,004088408,
a6 = −0,0002612177,
a7 = 1,132131 · 10−6 ,
a9 = −5,251131 · 10−7 , a10 = 1,605815 · 10−8 .
f (x) =

4

X

ai1 xi


a2 = −0,02600977,
a5 = 0,0007346978,
a8 = 5,151587 · 10−6 ,
para x ∈ (−4,875, −0,025)
i=0
4
X


ai2 xi


(4.24)
para x ∈ (0,025, 10,475)
i=0
donde,
a01 = 0,02212092
a11 = 0,02364224
a02 = 0,3252122
a12 = −0,2740049
a21 = 0,06891567
a31 = 0,0243609
a22 = 0,08375895
a32 = −0,009737207
a41 = 0,002318717 a42 = 0,0003777211.
El ajuste inicial sin partir el dominio es de un polinomio de grado-10. El
ajuste final realizado es de un MOP de 2-piezas y grado-8 (4+4). Estos ajustes
se muestran en la figura 4.23.
56
4.14. Mixtura de distribuciones tipo Weibull y una exponencial
0.00
0.10
f(x)
0.10
0.00
Density
0.20
Ajuste polinómico
0.20
Ajuste polinomico grado 10
−5
0
5
10
−5
0
X
5
10
x
Figura 4.23: Ajuste polinómico sin partir y partiendo el dominio para datos procedentes de distribuciones tipo Weibull y exponencial.
El punto de corte óptimo lo determina el programa a partir del BIC total. La
gráfica final 4.24 muestra como el ajuste es lo bastante bueno, ya que a partir
del MOP aprendido se ha generado otra muestra, cuya función de distribución
es similar a la de los datos originales. También ha sido comprobado mediante el
test K-S.
Fn(x)
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
F(X)
F(val_sim
−5
0
5
10
x
Figura 4.24: Método de inversión para el MOP ajustado procedente de distribuciones tipo Weibul y una exponencial.
57
Capı́tulo 4. Experimentos
4.15.
Mixtura de cuatro exponenciales
Este posiblemente es el experimento más extremo que vamos a realizar. Generamos datos que proceden de 4 distribuciones exponenciales.
Presentamos los resultados obtenidos para el primer ajuste y para el ajuste
final realizado, un MOP de 3-trozos y grado-15. Respecto al tiempo de ejecución,
el programa tardó en encontrar el primer punto de corte, 23.513 segundos, y el
otro, 1.015 segundos, lo que nos indica que el sistema gastó en total aproximadamente 25 segundos. A pesar de que el propósito era encontrar los 3 puntos de
cortes que a priori parecı́an tener más lógica, el programa determinó a partir del
BIC que el mejor ajuste se obtenı́a partiendo el dominio en tres intervalos.
7
X
ai xi
− 9,95 ≤ x ≤ 10,05.
(4.25)
i=0
Los valores de los parámetros asociados al ajuste polinómico de la ecuación (4.25) son:
a1 = −0,005598671,
a0 = 0,0424212,
a3 = 0,0004264044,
a6 = 6,573225 · 10−7 ,
a2 = 0,00224785,
−5
a4 = −8,034574 · 10 ,
a7 = 1,424897 · 10−8 .
0.10
0.00
0.05
f(x)
0.10
0.00
0.05
f(x)
0.15
Ajuste polinómico
0.15
Ajuste polinómico grado 7
a5 = −6,280911 · 10−6 ,
−10
−5
0
5
10
x
−10
−5
0
5
10
x
Figura 4.25: Ajuste de un polinomio en uno y dos intervalos para datos procedentes de 4 distribuciones exponenciales.
58
4.15. Mixtura de cuatro exponenciales
 5
X



ai1 xi



 i=0


4
X
f (x) =
ai2 xi


i=0


4

X




ai3 xi

para x ∈ (−9,95, −5,05)
para x ∈ (−4,95, −0,05)
(4.26)
para x ∈ (0,05, 10,05)
i=0
a01 = 5,397315
a02 = 0,0008425641
a03 = 0,264415
a11 = 3,960542
a21 = 1,141656
a12 = −0,01245418 a13 = −0,256664
a22 = −0,007970009 a23 = 0,08838775
a31 = 0,1610971
a32 = −0,002013845 a33 = −0,0114178
a42 = 0,0001850294 a43 = 0,000489517.
a41 = 0,01107963
a41 = 0,0002943306
Fn(x)
0.10
f(x)
0.05
0.00
−10
−5
0
x
5
10
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
0.15
Ajuste polinómico
F(X)
F(valores_s
−10
−5
0
5
10
x
Figura 4.26: Ajuste polinómico final del MOP estimado a partir de datos exponenciales y el método de inversión.
En la figura 4.26 vemos como el programa solo ha encontrado dos puntos de
corte, a pesar de ello, cuando simulamos valores que procedan del MOP de 3piezas, podemos comprobar mediante el test K-S que efectivamente la muestra
generada procede de la misma distribución que los datos originales. Luego el
ajuste puede ser considerado bueno.
59
Capı́tulo 4. Experimentos
4.16.
Mixtura de cuatro normales
En anteriores experimentos, vimos como con una mixtura de normales, el
programa tendı́a a realizar un único ajuste.
En este ejemplo en el que generaremos datos de 4 distribuciones normales con
diferentes medias, podremos observar, como esta vez, el programa determina que
el mejor ajuste se realiza partiendo el dominio en dos intervalos, formando un
MOP de 2-piezas y grado-14 (7+7).
El programa tarda en encontrar el punto de corte óptimo y en realizar los
pertinentes ajustes en cada intervalo, 25.986 segundos.
5
X
ai xi
− 13,05 ≤ x ≤ 8,45,
(4.27)
i=0
los parámetros asociados a esta ecuación (4.27) son:
a0 = 0,04812149,
a1 = 0,003416551,
a2 = 0,0003006013,
−6
a3 = −0,0001101576, a4 = −7,867796 · 10 , a5 = 1,885338 · 10−7.
f (x) =
 7
X



ai1 xi


para x ∈ (−4,875, −0,025)
i=0
7
X



ai2 xi


(4.28)
para x ∈ (0,025, 10,475)
i=0
donde,
a01 = 9,925933
a02 = 0,09569929
a11 = 11,45911
a21 = 5,281058
a12 = −0,02120647
a22 = −0,03376468
a31 = 1,258599
a41 = 0,1687043
a51 = 0,01281444
a32 = 0,01079315
a42 = 0,002452305
a52 = −0,001190103
a61 = 0,0005143149
a71 = 8,466407 · 10−6
a62 = 0,0001402609
a72 = −5,295354 · 10−6.
60
4.16. Mixtura de cuatro normales
0.00
0.04
f(x)
0.04
0.00
f(x)
0.08
Ajuste polinómico
0.08
Ajuste polinómico grado 5
−10
−5
0
5
−10
x
−5
0
5
x
Figura 4.27: Ajuste polinómico sin partir y partiendo el dominio para datos procedente de distribuciones normales.
La gráfica final 4.28 muestra como el ajuste es bueno, ya que a partir del MOP
aprendido se ha generado otra muestra, cuya función de distribución es similar a
la de los datos originales. También ha sido comprobado mediante el test K-S.
Fn(x)
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
F(X)
F(val_sim
−15
−10
−5
0
5
10
x
Figura 4.28: Método de inversión para el MOP ajustado a partir de datos normales.
61
Capı́tulo 4. Experimentos
4.17.
Mixtura de una Weibull, dos normales y
una exponencial
En este último ejemplo veremos como actúa el programa en el caso de tener
datos procedentes de distribuciones tipo normal, exponencial y Weibull.
Para ello generamos unos 1000 datos aleatorios procedentes de estas distribuciones. El tiempo de ejecución del programa es de 28.118 segundos.
5
X
ai xi
0,05 ≤ x ≤ 17,05
(4.29)
i=0
a1 = −0,08441185
a0 = 0,1755445
a3 = −0,0007011015 a4 = −1,841254 · 10
a2 = 0,01510205
−5
a5 = 1,331597 · 10−6
donde los valores asociados a la ecuación (4.29) son:
0.20
0.00
0.10
f(x)
0.30
Ajuste polinómico grado 5
0
5
10
15
x
Figura 4.29: Ajuste polinómico, para datos procedentes de dos normales, una
Weibull y una exponencial, en un único intervalo.
En la figura 4.29 vemos el ajuste que realiza el programa cuando no parte el
dominio. Si seguimos compilando, el programa localiza un punto de corte válido.
En la primera gráfica de la figura 4.30 vemos que encuentra un punto de corte
óptimo, dando lugar a un MOP de 2-piezas y grado-14 (7+7). La segunda gráfica
de esta figura nos enseña, las funciones de distribución de los datos originales y
de los simulados a partir del MOP aprendido.
62
4.17. Mixtura de una Weibull, dos normales y una exponencial
f (x) =
 7
X



ai1 xi







i=0
7
X
i
ai2 x
para x ∈ (0,05, 8,95)
(4.30)
para x ∈ (9,05, 17,05)
i=0
Los valores asociados al MOP de la ecuación (4.30) son:
a01 = −0,03613791
a02 = 1147,25
a11 = 0,8256912
a21 = −0,9911224
a31 = 0,4797598
a12 = −581,216
a22 = 125,5168
a32 = −14,97876
a41 = −0,1182149
a51 = 0,01575835
a61 = −0,001085006
a42 = 1,06684
a52 = −0,04534804
a62 = 0,001065089
a71 = 3,028942 · 10−5
a72 = −1,06614 · 10−5
Fn(x)
0.20
f(x)
0.10
0.00
0
5
10
x
15
0.0 0.2 0.4 0.6 0.8 1.0
Método de Inversión
0.30
Ajuste polinómico
F(X)
F(val_sim
0
5
10
15
x
Figura 4.30: Ajuste de un MOP de 2-piezas a partir de datos normales, exponenciales y de tipo Weibull y comparación de muestras
Con esos ejemplos, concluimos el capı́tulo de los experimentos. Más adelante
lo que se pretende es trabajar con datos reales, no generados, para ası́ ver como
se comporta realmente el programa.
Capı́tulo 5
Conclusiones y futuros trabajos
En este trabajo se ha realizado un nuevo enfoque a la hora de ajustar datos a
su función de densidad original. El procedimiento finalmente desarrollado emplea
la estimación de los parámetros de un polinomio por mı́nimos cuadrados, para
minimizar de esta manera el error cuadrático medio.
Una de las ventajas de las MOPs frente a otro tipo de ajustes es trabajar con
polinomios. Los polinomios permiten una mayor flexibilidad a la hora de operar
con ellos, en el sentido de que son fácilmente integrables y están cerrados bajo
transformaciones tipo combinación y marginalización.
Hay que tener presente que, a pesar de los planteamientos previos en este
ámbito, no se habı́a desarrollado ningún método como este para trabajar con
ajustes polinómicos. Esto hace que el método desarrollado sea novedoso.
Todas las funciones y programas utilizados, se han implementado en el software R, lo que permitirá a la comunidad cientı́fica internacional poder utilizarlo
sin necesidad de implementar el procedimiento desarrollado.
5.1.
Trabajos futuros
Finalizado este trabajo sobre el ajuste polinómico de unos datos, se plantean
posibles nuevas lineas de investigación relacionadas con el tema.
Puesto que se ha trabajado en un espacio unidimensional, el siguiente punto
a tratar será ampliar la dimensión para usar funciones de densidad conjunta.
64
5.1. Trabajos futuros
También es interesante plantear este mismo procedimiento empleado en
MOPs, para mixturas de exponenciales truncadas, MTEs.
Por último, se pretende hacer esta misma estimación en lugar de por mı́nimos cuadrados, mediante máxima verosimilitud. Como habı́amos visto no se
puede realizar esta estimación de forma exacta, por ello se desarrollará algún
método aproximado, para poder utilizar este tipo de estimadores.
Bibliografı́a
[1] E. M. L. Beale. On minimizing a convex function subject to linear inequalities. Journal of the Royal Statistical Society Series B, 17:173–184, 1955.
25
[2] J.W. Bunch and L. Kaufman. Indefinite quadratic programming. Technical report, Computing Science, 1977. 25
[3] B. R. Cobb and P. P. Shenoy. Hybrid Bayesian networks with linear
deterministic variables. In Proceedings of the Proceedings of the TwentyFirst Conference Annual Conference on Uncertainty in Artificial Intelligence
(UAI-05), pages 136–144. AUAI Press, 2005. 3
[4] B. R. Cobb and P. P. Shenoy. Nonlinear deterministic relationships in
Bayesian networks. ECSQARU’05. Lecture Notes in Artificial Intelligence,
3571:27–38, 2005. 3
[5] B. R. Cobb and P. P. Shenoy. Inference in hybrid Bayesian networks
with mixtures of truncated exponentials. International Journal of Approximate Reasoning, 41:257–286, 2006. 3
[6] B. R. Cobb, P. P. Shenoy, and R. Rumı́. Approximating probability
density functions with mixtures of truncated exponentials. Statistics and
Computing, 16:293–308, 2006. 3, 4
[7] A.R. Conn. Linear programming via a nondifferentiable penalty function.
SIAM Journal on Numerical Analysis, 13:145–154, 1976. 26
66
BIBLIOGRAFÍA
[8] R.W. Cottle and G.B. Dantzig. Complementary pivot theory of mathematical programming. Technical report, STANFORD UNIV CALIF OPERATIONS RESEARCH HOUSE, 1968. 25
[9] R. M. Curds. Propagation techniques in probabilistic expert systems. Department of Statistical Science, University College London, 1997. 3
[10] G. B. Dantzing. Linear programming and extensions. Princeton University
Press, Princeton, 1963. 25
[11] A. Dax. The gnidient projection method for quadratic programming. Technical report, Institute of Mathematics Report, The Hebrew University of
Jerusalem, 1978. 26
[12] C. Van de Panne and A. Whinston. The simplex and the dual method
for quadratic programruing. Operations Research Quarterly, 15:355–389,
1964. 25
[13] K. W. Fertig and N. R. Mann. A general quadratic programming
algorithm. Journal of the Institute of Mathematics and Its Applications,
pages 76–91, 1971. 25
[14] P.E. Gill and W. Murray. Numerically stable methods for quadratic
programming. Mathematical programming, 14:349–372, 1978. 25
[15] D. Golfarb. Extension of newton’s method and simplex methods for solving quadratic programs. Numerical methods for nonlinear optimization,
pages 239–254, 1972. 25
[16] D. Golfarb and A. Idnani. A numerically stable dual metodo for solving
strictly convex quadratic programs. Mathematical Programming, 27:1–33,
1983. 24, 26, 27
[17] A.S. Goncalves. Numerical methods for nonlinear optimization. F.A.
Lootsma, 1972. 25
[18] M.D. Grigoriadis and K. Ritter. A parametric method for semidefinite
quadratic programs. SIAM Journal of Control, 7:559–577, 1969. 25
BIBLIOGRAFÍA
67
[19] R. A. Howard and J.E.Matheson. Influence diagrams. The principles
and Applicatins od Decisions Group, 2:719–762, 1984. 2
[20] A.U. Idnani. Extension of newton’s method for solving positive definite
quadratic programs: A computational experience. Technical report, City
College of New York, Department of Computer Science, 1973. 26
[21] F. V. Jensen. Bayesian networks and decision graphs. Springer, 2001. 8
[22] F. V. Jensen, S. L. Lauritzen, and K. G. Olesen. Bayesian updating in causal probabilistic networks by local computation. Computational
Statistics Quarterly, 4:269–282, 1990. 2
[23] F. V. Jensen, S. L. Lauritzen, and K. G. Olesen. From influence
diagrams to junction trees. In Uncertainty in Artificial Intelligence: Proceedings of the Tenth Conference (UAI-94), pages 367–373, San Francisco, CA,
1994. 2
[24] F. V. Jensen and T. D. Nielsen. Bayesian Networks and Decision
Graphs. Springer, 2007. 7
[25] H. Langseth, T. D. Nielsen, R. Rumı́, and A. Salmerón. Parameter estimation and model selection in mixtures of truncated exponentials.
International Journal of Approximate Reasoning, 51:485–498, 2010. 3
[26] S. L. Lauritzen and F. Jensen. Stable local computation with conditional gaussian distributions. Statistics and Computing, 11:191–203, 2001. 2,
3
[27] S. L. Lauritzen and D. J. Spiegelhalter. Local computations with
probabilities on graphical structures and their application to expert systems.
Journal of the Royal Statistical Society, Series B, 50:157–224, 1988. 2
[28] C.E. Lemke. A method of solution for quadratic programs. Management
Science, 8:442–453, 1962. 25
[29] U.N. Lerner. Hybrid Bayesian networks for reasoning about complex systems. Departament od Computer Science, Stanford University, 2002. 3
68
BIBLIOGRAFÍA
[30] S. Moral, R. Rumı́, and A. Salmerón. Mixtures of truncated exponentials in hybrid Bayesian networks. ECSQARU’01. Lecture Notes in Artificial
Intelligence, 2143:135–143, 2001. 3
[31] K. P. Murphy. A variational approximation for Bayesian networks with
discrete and continuous latent variables. In Proceedings of the First Conference on Uncertainty in Artificial Intelligence, pages 467–475, 1999. 2
[32] S. M. Olmsted. On representing and solving decision problems. PhD thesis,
Stanford University, 1983. 2
[33] J. Pearl. Evidential reasoning using stochastic simulation of causal models.
Artificial Intelligence, 32:247–257, 1987. 2
[34] V. Romero, R. Rumı́, and A. Salmerón. Learning hybrid Bayesian
networks using mixtures of truncated exponentials. International Journal of
Approximate Reasoning, 42:54–68, 2006. 3
[35] R. Rumı́ and A. Salmerón. Approximate probability propagation with
mixtures of truncated exponentials. International Journal of Approximate
Reasoning, 45:191–210, 2007. 3
[36] I. J. Schoenberg. Contributions to the problem of approximation of equidistant data by analytic functions. Quarterly of Applied Mathematics, 4:45–
99,112–141, 1946. 3
[37] L. Schumaker. Spline Functions: Basic Theory, 3rd ed. Cambridge Univ.
Press, New York. 3
[38] R. D. Shachter. Evaluating influence diagrams. Operations Research,
34:871–882, 1986. 2
[39] P. P. Shenoy. Valuation-based systems for bayesian decision analysis.
Operations Research, 40:463–484, 1992. 2
[40] P. P. Shenoy. Inference in hybrid Bayesian networks using mixtures of
Gaussians. In Proceedings of the 22nd Conference on Uncertainty in Artificial
Intelligence (UAI-06), pages 428–436, 2006. 3
BIBLIOGRAFÍA
69
[41] P. P. Shenoy and G. Shafer. Axioms for probability and belief function
propagation. In Uncertainty in Artificial Intelligence 4, pages 169–198, 1990.
2, 3, 12
[42] P. P. Shenoy and J. West. Inference in hybrid Bayesian networks with
deterministic variables. ECSQARU’09. Lecture Notes in Computer Science,
5590:46–58, 2009. 4
[43] P. P. Shenoy and J. C. West. Mixtures of polynomials in hybrid Bayesian networks with deterministic variables. In Proceedings of the 8th Workshop on Uncertainty Processing (WUPES’09), pages 202–212, 2009. 1, 2, 10
[44] P. P. Shenoy and J. C. West. Inference in hybrid Bayesian networks
using mixtures of polynomials. International Journal of Approximate Reasoning, In Press, 2010. 1
[45] H. Theil and C. Van De Panne. Quadratic programming as an extension
of conventional quadratic maximization. Management Science, 7:1–20, 1960.
26
[46] P. Wolfe. The simplex method for quadratic programming. Econometrica,
27:382–398, 1959. 25
[47] A. Salmerón y M. Morales. Estadı́stica Computacional. Servicio de
publicaciones, Universidad de Almerı́a, 2001. 19
Descargar