Universidad de Almerı́a Departamento de Estadı́stica y Matemática Aplicada Universidad de Santiago de Compostela Departamento de Estadı́stica e Investigación Operativa ESTIMACIÓN PARAMÉTRICA EN DENSIDADES MOP UNIVARIANTES Autora Inmaculada Pérez Bernabé Directores Antonio Salmerón Cerdán Manuel Febrero Bande ALMERÍA, JUNIO 2012 Autorización de entrega Dr. D. Antonio Salmerón Cerdán y Dr. D. Manuel Febrero Bande CERTIFICAN Que el proyecto titulado Estimación Paramétrica en Densidades MOP Univariantes ha sido realizado por D.a Inmaculada Pérez Bernabé, con D.N.I. 71011397R, en el departamento de Estadı́stica y Matemática Aplicada de la Universidad de Almerı́a, bajo la dirección del Dr. D. Antonio Salmerón Cerdán, Catedrático de Universidad de la Universidad de Almerı́a y del Dr. D. Manuel Febrero Bande, Catedrático de Universidad de la Universidad de Santiago de Compostela. Esta memoria constituye la documentación que, con nuestra autorización, entrega dicho alumno como Proyecto Fin de Máster. Firmado. Dr. D. Antonio Salmerón Cerdán Dr. D. Manuel Febrero Bande Almerı́a, a 29 de junio de 2012 Índice general Índice general III Índice de figuras V 1. Introducción 1 1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Reseña histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. Organización del trabajo . . . . . . . . . . . . . . . . . . . . . . . 4 2. Funciones MOP 7 2.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1. Función MOP unidimensional . . . . . . . . . . . . . . . . 10 2.2. Ventajas de las MOPs . . . . . . . . . . . . . . . . . . . . . . . . 12 3. Contribuciones 15 3.1. Desarrollos teóricos previos . . . . . . . . . . . . . . . . . . . . . . 15 3.1.1. Método de máxima verosimilitud . . . . . . . . . . . . . . 16 3.1.2. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . . 17 3.1.3. Método de Inversión . . . . . . . . . . . . . . . . . . . . . 19 3.1.4. Puntos extremos y puntos de inflexión . . . . . . . . . . . 21 3.1.5. Algoritmo aproximado del EM . . . . . . . . . . . . . . . . 22 3.2. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2.1. Estimación paramétrica . . . . . . . . . . . . . . . . . . . 24 3.2.2. Número de términos de la función polinómica . . . . . . . 28 3.2.3. Partición del dominio . . . . . . . . . . . . . . . . . . . . . 30 ÍNDICE GENERAL iv 4. Experimentos 4.1. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . 31 31 4.2. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Distribución chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . 33 35 38 4.5. Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . 4.6. Mixtura de exponenciales . . . . . . . . . . . . . . . . . . . . . . . 39 40 4.7. Mixtura de normales . . . . . . . . . . . . . . . . . . . . . . . . . 4.8. Mixtura de una exponencial y de una normal . . . . . . . . . . . . 4.9. Mixtura de una beta y una Weibull . . . . . . . . . . . . . . . . . 42 43 45 4.10. Mixtura de betas . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11. Mixtura de tres exponenciales . . . . . . . . . . . . . . . . . . . . 47 49 4.12. Mixtura de exponenciales y una normal . . . . . . . . . . . . . . . 4.13. Mixturas de tres normales . . . . . . . . . . . . . . . . . . . . . . 4.14. Mixtura de distribuciones tipo Weibull y una exponencial . . . . . 51 53 54 4.15. Mixtura de cuatro exponenciales . . . . . . . . . . . . . . . . . . . 4.16. Mixtura de cuatro normales . . . . . . . . . . . . . . . . . . . . . 57 59 4.17. Mixtura de una Weibull, dos normales y una exponencial . . . . . 61 5. Conclusiones y futuros trabajos 5.1. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 Bibliografı́a 65 Índice de figuras 2.1. Ejemplo de una red bayesiana con cinco variables. . . . . . . . . . 8 2.2. Ejemplo MOP: ajuste en un único intervalo . . . . . . . . . . . . 11 2.3. Ejemplo MOP: ajuste en dos intervalos . . . . . . . . . . . . . . . 12 3.1. Raı́ces del polinomio . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2. Método de Inversión . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3. Puntos extremos y ajuste polinómico partiendo el dominio por el mı́nimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.1. Ajuste en un único intervalo y partiendo el dominio para datos procedentes de una distribución exponencial. . . . . . . . . . . . . 32 4.2. Método de inversión para el MOP ajustado procedente de datos exponenciales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3. Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución normal. . . . . . . . . . . . . . . . . 34 4.4. Método de inversión para el MOP ajustado a partir de datos normales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.5. Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución beta. . . . . . . . . . . . . . . . . . . 37 4.6. Método de inversión para el MOP ajustado a partir de datos procedentes de una beta. . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.7. Ajuste polinómico de una distribución χ2 y comparación de muestras. 38 4.8. Ajuste polinómico de una distribución Weibull y comparación de muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 ÍNDICE DE FIGURAS vi 4.9. Ajuste en un único intervalo y partiendo el dominio de los datos procedentes de dos distribuciones exponenciales. . . . . . . . . . . 41 4.10. Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones exponenciales. . . . . . . . . . . . . 41 4.11. Ajuste polinómico de dos distribuciones normales y comparación de muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.12. Ajuste en un intervalo y en dos partes de una distribución normal y de una exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.13. Método de inversión para el MOP ajustado a partir de una mixtura de exponenciales y una normal. . . . . . . . . . . . . . . . . . . . 45 4.14. Ajuste en uno y dos intervalos de datos procedentes de una beta y una Weibull. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.15. Método de inversión para el MOP ajustado a partir de datos procedentes de una beta y una Weibull. . . . . . . . . . . . . . . . . 47 4.16. Ajuste en uno y dos intervalos para datos procedentes de dos distribuciones betas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.17. Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones betas. . . . . . . . . . . . . . . . . 49 4.18. Ajuste polinómico para datos exponenciales y método de inversión para las muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.19. Ajuste final de una mixtura de tres exponenciales y comparación de muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.20. Ajuste polinómico en uno y dos intervalos para datos procedentes de distribuciones tipo exponencial y normal. . . . . . . . . . . . . 52 4.21. Método de inversión para el MOP ajustado a partir de datos exponenciales y normales. . . . . . . . . . . . . . . . . . . . . . . . . 53 4.22. Ajuste polinómico para datos procedentes de 3 normales y método de inversión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.23. Ajuste polinómico sin partir y partiendo el dominio para datos procedentes de distribuciones tipo Weibull y exponencial. . . . . . 56 4.24. Método de inversión para el MOP ajustado procedente de distribuciones tipo Weibul y una exponencial. . . . . . . . . . . . . . . 56 ÍNDICE DE FIGURAS 4.25. Ajuste de un polinomio en uno y dos intervalos para datos procedentes de 4 distribuciones exponenciales. . . . . . . . . . . . . . . 4.26. Ajuste polinómico final del MOP estimado a partir de datos exponenciales y el método de inversión. . . . . . . . . . . . . . . . . . 4.27. Ajuste polinómico sin partir y partiendo el dominio para datos vii 57 58 procedente de distribuciones normales. . . . . . . . . . . . . . . . 4.28. Método de inversión para el MOP ajustado a partir de datos nor- 60 males. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.29. Ajuste polinómico, para datos procedentes de dos normales, una Weibull y una exponencial, en un único intervalo. . . . . . . . . . 60 4.30. Ajuste de un MOP de 2-piezas a partir de datos normales, exponenciales y de tipo Weibull y comparación de muestras . . . . . . 61 62 Capı́tulo 1 Introducción 1.1. Motivación Las redes bayesianas hı́bridas han cobrado importancia en los últimos años como herramienta para representar modelos probabilı́sticos en los que intervienen variables discretas y continuas simultáneamente. Algunos modelos destacados en este ámbito son el condicional Gaussiano y el basado en mixturas de exponenciales truncadas (MTEs). Recientemente, han surgido las mixturas de polinomios (MOPs), con una filosofı́a parecida a las MTEs, pero mejorándolas en algunos aspectos, como la posibilidad de representar una mayor variedad de dependencias funcionales entre variables del modelo. La mayor dificultad que encierra la inferencia en redes bayesianas hı́bridas es la marginalización de las variables continuas, las cuales están vinculadas con la integración de las funciones de probabilidad (FDPs). Las mixturas de polinomios fueron propuestas por Shenoy y West (véase por ejemplo, [43] y [44]) para resolver este problema. Las MOPs son más fáciles de calcular incluso en los casos en el que las funciones de densidad sean multi-dimensionales. También son aplicables a una gran variedad de funciones deterministas en redes bayesianas hı́bridas. Una de las caracterı́sticas de las MOPs es que las piezas en donde los polinomios están definidos son hipercubos. Se propone relajar esta condición para que cada una de las piezas de la MOP estén definidas en regiones llamadas hiper-rombos. Esto nos permite 2 1.2. Reseña histórica construir MOPs a partir de modelos Gaussianos multi-dimensionales usando una MOP a partir de una distribución normal estándar univariante. El trabajo propuesto consiste en el estudio de la estimación paramétrica de este tipo de funciones univariantes. 1.2. Reseña histórica Las redes bayesianas (RBs) y los diagramas de influencia (DIs) fueron inventados a mediados de los años 80 (véase, por ejemplo, [33] y [19]) para representar modelos probabilı́sticos discretos multi-dimensionados y para la toma de decisiones, respectivamente. Existen varios algoritmos para el cálculos de las marginales de distribuciones a posteriori para una red bayesiana discreta (véase, por ejemplo, [27], [41], y [22])y para resolver diagramas de influencia discretos (vease por ejemplo, [32], [38], [39] y [23]). Las redes bayesianas hı́bridas contienen una mezcla de variables discretas y continuas. Una variable continua se dice que es determinista si sus distribuciones condicionadas no varı́an. Las distribuciones condicionadas de las variables deterministas suelen ser descritas por las ecuaciones que describen una variable determinista como una función respecto a sus padres continuos. Las variables deterministas plantean un problema en la inferencia ya que la densidad conjunta de todas las variables continuas no existe. Shenoy y West [43] describen una extensión de la arquitectura de Shenoy-Shafer [41] para permitir la inferencia en las RBs hı́bridas con variables deterministas. Lauritzen y Jensen propusieron un algoritmo [26] para el uso de Gaussianas en RBs hı́bridas, con el requerimiento de que las funciones de densidad condicionadas de las variables continuas siguieran un modelo lineal Gaussiano (CLG), y que las variables discretas no tuvieran padres continuos. Las marginales de la distribución normal multivariante se pueden encontrar fácilmente sin la necesidad de integración. Las desventajas son que, en el proceso de inferencia, las variables continuas tienen que ser marginalizadas antes que las discretas. Cuando una RB tiene variables discretas con padres continuos, Murphy [31] utiliza una aproximación al producto de los potenciales asociados con una va- Capı́tulo 1. Introducción 3 riable discreta y sus padres, con una distribución CLG. Lerner [29] utiliza una técnica de integración numérica llamada Cuadratura de Gauss que aproxima una distribución condicional Gaussiana no lineal a una Gaussiana lineal. Esta misma técnica puede utilizarse para aproximar el producto de potenciales asociados a una variable discreta y sus padres continuos. El método de Murphy y de Lerner está relacionado por tanto con el algoritmo propuesto por Lauritzen y Jensen [26] para resolver las mezclas resultantes de RBs Gaussianas. Shenoy [40] propone una aproximación de distribuciones no CLG mediante mezclas de Gaussianas utilizando una técnica de optimización no lineal para asegurarse de que las variables discretas no tienen padres continuos. La mixtura resultante de la RB Gaussiana, se resuelve utilizando el algoritmo de Lauritzen y Jensen [26]. Moral et al. [30] proponen aproximaciones de funciones de densidad, mediante mixturas de exponenciales truncadas (MTEs) que son fácilmente integrables. Dado que la familia de mixturas de exponenciales truncadas están cerradas bajo combinación y marginalización, la estructura de Shenoy-Shafer [41] se puede utilizar para resolver una MTE en redes bayesianas. Cobb y Shenoy [5] y Cobb et al. [6] proponen el uso de una técnica de optimización no lineal para encontrar aproximaciones MTE para distribuciones unidimensionales. Cobb y Shenoy ([4] y [3]) amplı́an este método a RBs con variables deterministas lineales y no lineales. En el último caso, se aproximan funciones no lineales deterministas por trozos lineales. Rumı́ y Salmerón [35] describen la propagación de probabilidad aproximada con aproximaciones MTE que sólo tienen dos términos exponenciales en cada trozo. Romero et al. [34] describen el aprendizaje de potenciales MTE a partir de datos, y Langseth et al. [25] investigan el uso de aproximaciones MTE donde los coeficientes de las MTEs están restringidos a enteros. En este trabajo, se propone utilizar aproximaciones de mixturas de polinomios (MOP) mediante aproximaciones de funciones de probabilidad (PDF). Las mixtura de polinomios se utilizan en muchos campos, incluyendo los gráficos por ordenador, teorı́a de aproximación y análisis numérico. Estos fueron estudiados por primera vez por Schoenberg [36]. Cuando las funciones MOP son continuas, se refieren a splines polinomicos [37]. El uso de splines para aproximar las funciones de densidad fue introducido por Curds [9]. Para nuestro propósito, la continuidad 4 1.3. Organización del trabajo no es un requisito esencial, solo restringiremos nuestro análisis al ajuste polinómico por trozos de la función de densidad. Usar MOPs es similar al uso de las MTEs. Las MOPs pueden ser fácilmente integrables y están cerradas bajo combinación y marginalización. De ahı́, que la arquitectura de Shenoy-Shafer [42] se puede utilizar para hacer inferencia en RBs con variables deterministas. Sin embargo, hay varias ventajas de las funciones MOP frente a las MTEs. En primer lugar, podemos encontrar aproximaciones MOP diferenciando las funciones de probabilidad condicionadas, usando aproximaciones de las series de Taylor. Encontrar aproximaciones MTE como sugiere Cobb et al. [6] requiere la solución de problemas no lineales de optimización, que no es una tarea tan fácil, ya que implica buscar entre las soluciones óptimas locales. En segundo lugar, en el caso que las funciones de distribución condicionadas tengan muchos padres, encontrar una buena aproximación MTE puede ser demasiado complicado ya que requiere resolver problemas de optimización no lineales en espacios de alta dimensión para cada uno de los trozos de la MTE. El desarrollo en las series de Taylor también puede ser utilizado para encontrar aproximaciones MOP de funciones de probabilidad condicionadas. En tercer lugar, si una RB hı́brida contiene funciones deterministas, entonces el enfoque MTE se puede utilizar sólo para funciones lineales deterministas. Esto es debido a que las funciones MTE no son cerradas bajo las transformaciones necesarias para las funciones deterministas no lineales. Las funciones MOP son cercanas a una gran familia de funciones deterministas que incluyen funciones lineales y cocientes. Esto nos permite la utilización de las MOP en RBs hı́bridas, de una manera más factible que utilizando las MTEs. 1.3. Organización del trabajo El documento está dividido en cinco capı́tulos. El capı́tulo 1 donde nos introduciremos en el mundo de las MOPs. En el capı́tulo 2 se hablará de éstas y de sus ventajas frente a otro tipo de funciones. El capı́tulo 3, tema central del trabajo, nos muestra los algoritmos desarrollados para alcanzar el objetivo del ajuste. En el capı́tulo 4 introduciremos una serie de experimentos realizados para Capı́tulo 1. Introducción 5 justificar el buen funcionamiento de los métodos implementados. Por último en el capı́tulo 5 se hablará de las conclusiones a las que se han llegado y de futuras lı́neas de investigación en relación con este tema. Cada uno de los capı́tulos está organizado en distintos apartados. En el apartado 1.1 del capı́tulo de introducción trataremos de justificar la utilización de este tipo de funciones. A continuación en el apartado 1.2 se hablará de los antecedentes y se darán algunas referencias bibliográficas de interés en este campo. El capı́tulo de funciones MOP se dividirá en dos apartados. El apartado 2.1 donde se darán definiciones formales de las figuras relevantes utilizadas en el trabajo y el apartado 2.2 en el que se hablará de las ventajas que representan las MOPs a la hora de trabajar con ellas en lugar de utilizar otro tipo de funciones. En el tercer capı́tulo de las contribuciones aportadas, veremos algunos desarrollos previos realizados, sección 3.1 y se plantearán los algoritmos desarrollados para realizar este tipo de ajustes, sección 3.2. También se hablará de como ha sido desarrollado este en R. En el capı́tulo 4, nos centraremos en plantear posibles ejemplos o experimentos realizados con el programa implementado en R durante el periodo de investigación, valiéndonos para ello de una serie de distribuciones conocidas. Al final del trabajo se introducirá un apartado con las referencias bibliográficas mencionadas a lo largo del trabajo. Capı́tulo 2 Funciones MOP 2.1. Definiciones Definición 1. Una red bayesiana [24] es un grafo acı́clico dirigido, que describe la distribución de probabilidad conjunta de un grupo de variables aleatorias. Sea X = X1 , X2 , . . . , Xn un conjunto de variables aleatorias. Formalmente, una red bayesiana para X es un par B =< G, T > en el que: G es un gráfico acı́clico dirigido en el que cada nodo representa una de las variables X1 , X2 , . . . , Xn y cada arco representa relaciones de dependencia directas entre las variables. La dirección de los arcos indica que la variable ’apuntada’ por el arco depende de la variable situada en su origen. T es un conjunto de parámetros que cuantifica la red. Contiene las probabilidades PB (xi | pa(xi )) para cada posible valor xi de cada Xi y cada posible valor pa(xi ) de P a(Xi ), donde éste último denota al conjunto de padres de Xi en G. Ası́, una red bayesiana B define una distribución de probabilidad conjunta única sobre X dada por: PB (Xi ) = n Y i=1 PB (Xi | P a(Xi )). 8 2.1. Definiciones Es importante observar que la estructura de la red no sólo proporciona información sobre las dependencias probabilı́sticas entre las variables, sino también sobre las independencias condicionales de una variable o un conjunto de ellas dada otra u otras variables. Las reglas para la interpretación de la estructura de una red bayesiana están basadas en el concepto de d-separación [21]. X1 X2 X3 X4 X5 Figura 2.1: Ejemplo de una red bayesiana con cinco variables. La Figura 2.1 muestra una red bayesiana de variables X1 , . . . , X5 . De acuerdo con la estructura de este gráfico serı́a necesario definir una distribución condicionada para cada una de las variables dados sus padres. En este caso, p(x1 ), p(x2 | x1 ), p(x3 | x1 ), p(x4 | x2 , x3 ) y p(x5 | x3 ). Las redes bayesianas se propusieron originalmente para el manejo de las variables discretas. Sin embargo, en problemas reales, es muy común la presencia de dominios continuos y discretos simultáneamente. Definición 2. Una red bayesiana se dice que es hı́brida cuando las variables aleatorias continuas y discretas coexisten simultáneamente en el modelo. Para trabajar con variables discretas, una solución consiste en discretizar los datos continuos. Ası́, la aplicación de los métodos existentes para las variables discretas puede llevarse a cabo. Sin embargo, la discretización es sólo una aproximación y otras alternativas fueron estudiadas con éxito más tarde. Algunos de los métodos donde las variables continuas y discretas se pueden manejar al mismo tiempo sin necesidad de utilizar discretización son, el modelo condicional gaussiano (CG), las mixturas de exponenciales truncadas (MTE), y las mixturas de polinomios (MOP). 9 Capı́tulo 2. Funciones MOP Definición 3. Sea X una variable continua en una red bayesiana hı́brida, Z = (Z1 , . . . , Zd )T sus padres discretos, y Y = (Y1 . . . , Yc )T sus padres continuos. Los potenciales de una distribución condicional gaussiana lineal (CLG) en redes bayesianas hı́bridas tienen la forma: φ(X | z, y) ∼ N µ = lTz y + bz , σz2 , (2.1) donde z e y son una configuración de los padres discretos y continuos de X, respectivamente. Para una configuración concreta z, lTz es la transpuesta de la matriz de coeficientes del modelo de regresión lineal con los valores c (uno para cada padre continuo), bz la media para la variable X y σz2 > 0, la varianza para la variable X. Definición 4. (Potenciales MTE) Sea X un vector mixto aleatorio n-dimensional. Sea Z = (Z1 , . . . , Zd )T y Y = (Y1 , . . . , Yc )T las partes discretas y continuas de X, respectivamente, con c + d = n. Diremos que una función f : ΩX 7→ R+ 0 es un potencial Mixtura de Exponenciales Truncadas (potencial MTE) si una de las siguientes condiciones se cumple: i. Z = ∅ y f pueden ser escritos como f (x) = f (y) = a0 + m X i=1 ai exp bTi y (2.2) para todo y ∈ ΩY , donde ai ∈ R y bi ∈ Rc , i = 1, . . . , m. ii. Z = ∅ y existe una partición D1 , . . . , Dk de ΩY en los hipercubos f definida como: f (x) = f (y) = fi (y) if y ∈ Di , donde cada fi , i = 1, . . . , k puede ser escrita en la forma de la ecuación (2.2). iii. Z 6= ∅ y cada valor de z ∈ ΩZ , fz (y) = f (z, y) puede ser definido como en ii. 10 2.1. Definiciones 2.1.1. Función MOP unidimensional Una lı́nea reciente de investigación relacionada con las redes bayesianas hı́bridas es el desarrollo de las Mixturas de Polinomios (MOPs) propuestas por Shenoy [43]. La idea es reemplazar las funciones exponenciales por polinomios. Definición 5. Una función unidimensional f : R → R se dice que es una mixtura de polinomios si es una función a trozos de la siguiente forma: a + a x + a x2 + . . . + a xn 0i 1i 2i ni f (x) = 0 para x ∈ Ai , i = 1, . . . , k, (2.3) en otro caso. donde A1 , . . . , Ak son intervalos disjuntos en R que no dependen de x, y a0i , . . . , ani son constantes para todos los i. Diremos que f es una función de k-trozos y ngrados (asumiendo ani 6= 0 para algunos i). La principal motivación para definir las funciones MOP es que son funciones fáciles de integrar y cerradas bajo transformaciones, como la multiplicación, integración y la suma, las principales operaciones necesarias para hacer inferencia en redes bayesianas. La condición de que cada una de las piezas esté definida en intervalos Ai es necesaria para facilitar la integración en este tipo de funciones. Una función m-dimensional f : R → R se dice que es una mixtura de polinomios si f (x1 , . . . , xm ) = f1 (x1 ) · f2 (x2 ) · . . . · fm (xm ), (2.4) donde cada fi (xi ) es una función MOP unidimensional definida como en la ecuación (2.4). Si cada fi (xi ) es una función de ki -piezas y ni -grados, entonces f es una función MOP de k1 · . . . · km piezas y n1 + . . . + nm grados. Por tanto, es importante mantener un número mı́nimo de trozos y grados. Ejemplo 1. Contamos con un conjunto de datos, X. Realizamos un ajuste mediante un único polinomio, y los resultados obtenidos son los siguientes: f (x) = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 + a5 x5 − 6,025 ≤ x ≤ 6,075, (2.5) 11 Capı́tulo 2. Funciones MOP donde los parámetros estimados asociados a la ecuación (2.5) son: a0 = 0,1263572 a1 = −0,0003648792 a2 = −0,004536409 a3 = −0,001185822 a4 = 4,310182 · 10−5 a5 = 3,527107 · 10−5 , 0.20 0.00 0.10 f(x) 0.30 Ajuste polinomico grado 5 −6 −4 −2 0 2 4 6 x Figura 2.2: Ejemplo MOP: ajuste en un único intervalo Si utilizamos una mixtura de polinomios los resultados son los siguientes: f (x) = 4 X ai1 xi i=0 4 X i ai2 x para x ∈ (−6,025, −0,025) (2.6) para x ∈ (−0,025, 6,075), i=0 donde los coeficientes del MOP correspondientes a la ecuación (2.6) son: a01 = 0,02612908 a11 = 0,1228933 a21 = 0,1643514 a02 = 0,3378926 a12 = −0,1544091 a22 = 0,01117277 a31 = 0,04693114 a32 = 0,00344102 a41 = 0,003813828 a42 = −0,000425986 12 2.2. Ventajas de las MOPs 0.20 0.00 0.10 f(x) 0.30 Ajuste polinómico −6 −4 −2 0 2 4 6 x Figura 2.3: Ejemplo MOP: ajuste en dos intervalos Podemos observar como partiendo el dominio en dos intervalos 2.3 obtenemos un mejor ajuste que si cogemos un único intervalo 2.2. Por lo que tendrı́amos una función MOP de 2-trozos y grado-14. 2.2. Ventajas de las MOPs Una de las grandes ventajas de la utilización de las MOPs frente a otro tipo de funciones es que es fácil encontrar aproximaciones de funciones de densidad diferenciables usando una extension de las series de Taylor de las FDP (funciones de probabilidad), o usando la interpolación de Lagrange. Las MTEs y las MOPs multi-dimensionales a trozos están definidas en regiones llamadas hipercubos. Una ventaja de esta restricción es que estos trozos son fácilmente integrables. Sin embargo, la restricción de los hipercubos posee una limitación. Es difı́cil encontrar una función MTE o una aproximación de una MOP multi-dimensional por trozos que sea fácil de integrar. El árbol mixto propuesto por Shenoy and West [41] es de grandes dimensiones Capı́tulo 2. Funciones MOP 13 y no se adapta bien a la práctica, es decir, las aproximaciones que utilizan estos métodos tienen demasiadas piezas o términos o un grado demasiado alto para su uso práctico. Otro problema es la presencia de los condicionales deterministas para las variables continuas. Por ejemplo, supongamos que X tiene como función de probabilidad fX (x), Y tiene la función de probabilidad condicionada fY |x (y), y supongamos que Z tiene una condición determinista dada por la función lineal Z = X + Y . Para encontrar la distribución marginal de Z, es necesario combinar fX (x) y fY |x (z − x) y entonces integrar x. El problema es que aunque fY |x (y) se define en hipercubos, fY |x (z − x)) no tiene porque estar definida en hipercubos. Esto influye tanto en las MTEs, como en las MOPs. Para solventar este problema se sugiere sustituir la condición de hipercubo por otros más generales llamados hiper-rombos. Para funciones unidimensionales, las dos condiciones coinciden. Sin embargo, para dos o más dimensiones, la condición del hiper-rombo es una generalización de la condición del hipercubo. La condición de los hiper-rombos tiene varias ventajas importantes. En primer lugar, nos permite definir aproximaciones MOP de las distribuciones condicionales Gaussianas de grandes dimensiones utilizando una aproximación MOP de la función de probabilidad unidimensional normal estándar. En segundo lugar, las funciones MOP están definidas en hiper-rombos que son cerrados bajo las operaciones necesarias para las funciones lineales deterministas multidimensionales. Esto no es cierto para las funciones MTE, es decir, si la definición de las funciones MTE fueran generalizadas de manera que la condición del hipercubo fuera reemplazado por la condición de hiper-rombo, entonces las funciones MTE no estarı́an cerradas bajo las operaciones necesarias para las funciones lineales deterministas multi-dimensionales. Por ejemplo, la suma de dos variables independientes con funciones de probabilidad exponenciales tiene una función de probabilidad gamma, que no es una función MTE. En tercer lugar, las funciones MOP que se definen en hiper-rombos son cerrados bajo la integración. En cuarto lugar, la penalización del cálculo que supone tener condiciones de hiper-rombo para MOPs (en comparación con la condición de hipercubo) parece ser pequeña. Capı́tulo 3 Contribuciones 3.1. Desarrollos teóricos previos El propósito de este trabajo es la estimación paramétrica de densidades MOP univariantes dados unos datos X1 , X2 , . . . , Xn . Para llegar al resultado teórico que arrojaremos más adelante se intentaron desarrollar otros métodos descritos brevemente a continuación. En la búsqueda de los estimadores θ̂ de los coeficientes de un polinomio, hay que tener claro cuáles son las propiedades más deseables a la hora de encontrar un buen estimador de estos parámetros. Consistencia. Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido, p θ̂ − → θ0 . Carencia de sesgo. El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro, E(θ̂) = θ. Eficiencia. Al estimador, al ser una variable aleatoria, no puede exigı́rsele que para una muestra cualquiera se obtenga como estimación el valor exacto 16 3.1. Desarrollos teóricos previos del parámetro. Sin embargo podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña como sea posible. Es decir, h i h i Var θ̂1 < Var θ̂2 . Suficiencia. El estimador deberı́a aprovechar toda la información existente en la muestra. Diremos que θ̂ es un estimador suficiente si no depende de θ para estimar este parámetro. 3.1.1. Método de máxima verosimilitud Se empezó planteando la utilización de estimadores de máxima verosimilitud, ya que poseen buenas propiedades, como la consistencia, la suficiencia y la eficiencia, aunque no siempre son insesgados como se desearı́a. Sea X una v.a. con función de densidad o de masa de probabilidad f (x; θ), que depende de un parámetro desconocido θ el cual se desea estimar. Sea x1 , . . . , xn una realización de una muestra de X. Se define la función de verosimilitud de la muestra como L(θ) = n Y f (x; θ). i=1 L(θ) está definida como un producto, que puede ser difı́cil de derivar para maximizar. Sin embargo, dado que la función logarı́tmica es monótona creciente, sucede que logL(θ) alcanza su máximo en el mismo punto que L(θ), por lo que en realidad usaremos el logaritmo, dado que log L(θ) = n X log(f (x; θ)). i=1 Los pasos a seguir para la estimación de estos parámetros son: n X 1. Calcular la función log L(θ) = log(f (x; θ)). i=1 ∂ log L(θ) 2. Resolver la ecuación = 0. ∂θ 3. Sea θ̂ la solución de dicha ecuación. ∂ 2 log L(θ) 4. Comprobar que evaluada en θ = θ̂ es negativa. ∂θ2 17 Capı́tulo 3. Contribuciones 5. En caso afirmativo, el estimador de máxima verosimilitud es θ̂. Si aplicamos este método a un polinomio para estimar sus coeficientes, vamos a llegar a un ’indeterminación’. Por tanto, recurrimos a otra clase de estimadores. 3.1.2. Método de mı́nimos cuadrados Se planteo el uso de estimadores mediante mı́nimos cuadrados, técnica de análisis numérico encuadrada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados {(xk , yk )}nk=1 y una familia de funciones {fj (x)}m j=1 , se intenta encontrar la función, dentro de dicha familia, que mejor se aproxime a los datos (un ”mejor ajuste”), de acuerdo con el criterio de mı́nimo error cuadrático. En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos. Se puede demostrar que este método minimiza el residuo cuadrado esperado, con el mı́nimo de operaciones (por iteración), pero requiere un gran número de iteraciones para converger. Desde un punto de vista estadı́stico, un requisito implı́cito para que funcione el método de mı́nimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Markov prueba que los estimadores mı́nimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. La técnica de mı́nimos cuadrados se usa comúnmente en el ajuste de curvas. Los pasos a seguir para la estimación de los parámetros mediante este método son: 1. Ecuación que minimice la suma de los cuadrados de los residuos: Ec = n X k=1 yk − m X cj fj (xk ) j=1 n !2 . (3.1) 18 3.1. Desarrollos teóricos previos 2. Cálculo de las derivadas parciales del error medio con respecto a cada una de los coeficientes que deseamos estimar del polinomio, igualamos a cero: ∂Ec = 0, para i=1,2, . . .,m. ∂ci 3. Despejamos los ci de las ecuaciones y obtenemos nuestros ĉi . Estimados los parámetros surgió un problema y es que algunas de las densidades estimadas daban valores negativos. Para intentar solventar esto, se utilizaron los Multiplicadores de Lagrange. La intención era introducir una restricción de no negatividad de manera que: Sea f (x) una función definida en un conjunto abierto n-dimensional x ∈ Rn . Se definen s restricciones gk (x) = 0, k = 1, . . . , s, y se observa (si las restricciones son satisfechas) que: h(x, λ) = f − s X λk g k . k=1 Se procede a buscar un extremo para h, ∂h = 0, lo que es equivalente a ∂xi P ∂f ∂gk = sk λk . ∂xi ∂xi Una vez determinados los valores de λ, volvemos al número original de variables y ası́ continuamos encontrando el extremo de la nueva ecuación no restringida, F (x, y) = f (x, y) − λ(g(x, y) − c). Los resultados obtenidos no fueron tan buenos como se esperaba. Y por ello, se optó por calcular las raı́ces del polinomio. Es decir, donde los valores de la densidad se hacı́an cero, a0i + a1i x + a2i x2 + . . . + ani xn = 0. No es un ejercicio trivial, ya que la complicación de estas operaciones crece a medida que aumenta el grado del polinomio. Para nuestra práctica solo interesaba, las raı́ces reales, no las complejas. 19 Capı́tulo 3. Contribuciones Figura 3.1: Raı́ces del polinomio El objetivo de esto, era utilizar estas raı́ces como lı́mites para integrar nuestro polinomio y desechar los valores negativos. Este desarrollo se complicaba a medida que obtenı́amos más raı́ces. En la figura 3.1 podemos observar donde se localizan las raı́ces que vamos a tomar como lı́mites a la hora de integrar el polinomio y reajustar los coeficientes para que el área bajo la curva integre 1. 3.1.3. Método de Inversión Para comprobar la eficacia de la técnica desarrollada, se implementó el método de inversión, (véase por ejemplo, [47]). Teorema 1. Asumiremos que X es una variable aleatoria con función de distribución FX . Si U → U(0, 1), entonces la variable Y = FX−1 (U) sigue la misma distribución que X. Demostración. Por definición Y = FX−1 (y) = ı́nf{x ∈ R | FX (x) ≥ y} 0 ≤ y ≤ 1. 20 3.1. Desarrollos teóricos previos Entonces, FY (x) = P {Y ≤ x} = P {FX−1(U) ≤ x} = P {U ≤ FX (x)} = FX (x). Por tanto, X e Y tienen la misma distribución. El teorema anterior se puede usar para generar una muestra para la variable 0.0 0.2 0.4 0.6 0.8 1.0 F(x) X. Basta con generar número aleatorios y calcular sus inversos mediante FX , obteniendo una muestra de variables independientes con la misma distribución que X. Este proceso se muestra en la figura 3.2 −3 −2 −1 0 1 2 3 F−1 (U) Figura 3.2: Método de Inversión Se utilizó el test de Kolmogórov-Smirnov (test K-S) para comparar si la nueva muestra generada a partir de los polinomios aprendidos y la muestra original de los datos procedı́an de una misma distribución. El test K-S es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones entre sı́, como serı́a nuestro caso, con la muestra generada a partir del polinomio aprendido y la de los datos de partida. El estadı́stico es: Dn,n′ = sup |F1,n (x) − F2,n′ (x)| x 21 Capı́tulo 3. Contribuciones donde F1,n y F2,n′ son las funciones de distribución empı́ricas de la primera y la segunda muestra respectivamente. La hipótesis nula es rechazada si r nn′ Dn,n′ > Kα . n + n′ Una vez comprobada la eficacia del método desarrollado, se intentó desarrollar una función para poder partir en dominio en más de un intervalo. Cuando trabajamos con datos reales, puede ser necesario realizar un ajuste por partes. Para ello se optó por encontrar los puntos extremos y puntos de inflexión de la función de densidad de los datos. 3.1.4. Puntos extremos y puntos de inflexión Utilizaremos el mı́nimo como punto para partir el dominio y de la misma manera que antes hacı́amos, ajustar ahora dos o más distribuciones. Se desarrolló un método para poder encontrar los puntos donde la densidad cambiaba de cóncavo a convexo, o al revés. Lo primero que se usó fue el histograma empı́rico para tener las x e y. Las xi son los puntos centrales de cada intervalo y las yi son las alturas de cada una de las barras del histograma, es decir los valores de densidad. A continuación se creó una función para encontrar los puntos extremos y los puntos de inflexión con R. Esta función se basa en las diferencias entre las yi . La primera distancia es entre cero y la primera densidad, la segunda entre la primera densidad y la segunda, y ası́ con todas los valores de densidad. Ahora tendremos que evaluar las tres primeras diferencias. Si la primera y la tercera son menores o mayores que la segunda, entonces tendremos un punto extremo. Si la primera diferencia es menor que la segunda pero la segunda es mayor que la tercera, o al revés, tendremos un punto de inflexión. Se realizaron los mismos pasos con las otras diferencias hasta obtener todos estos puntos. En la figura 3.3 podemos ver todos los puntos extremos y de inflexión de la muestra. Para nuestro trabajo solo interesa el mı́nimo absoluto, que es por donde 22 3.1. Desarrollos teóricos previos Figura 3.3: Puntos extremos y ajuste polinómico partiendo el dominio por el mı́nimo se debe partir el dominio. 3.1.5. Algoritmo aproximado del EM Dado que el método desarrollado en el punto anterior no era todo lo eficaz o exacto que se deseaba, se intentó plantear un nuevo algoritmo aproximado del EM. Definición 6. En estadı́stica el algoritmo de esperanza-maximización (EM) se usa para encontrar estimadores de máxima verosimilitud de parámetros en modelos probabilı́sticos que dependen de variables no observables. Los pasos a seguir por este método son: El paso E donde se computa la esperanza de la verosimilitud mediante la inclusión de variables latentes como si fueran observables. El paso M donde se calculan los estimadores de máxima verosimilitud de los parámetros mediante la maximización de la verosimilitud esperada del paso E. Los parámetros que se encuentran en el paso M se usan para comenzar el paso E siguiente, y ası́ el proceso se repite. Para estimar los parámetros, solo tenemos que tener en cuenta las probabilidades entre cada uno de los cluster y las de pertenencia a éstos. El algoritmo 23 Capı́tulo 3. Contribuciones tiende a converger pero nunca alcanza un punto fijo. Calcularemos su verosimilitud como, N X J Y ( pj P (xi | J)). i=1 j=1 El proceso seguirá iterando hasta que el incremento de esta medida sea insignificante. Con MOPs ya vimos que no es posible estimar parámetros mediante máxima verosimilitud, por ello la necesidad de creación de un nuevo algoritmo. Debido a esto, se implementó un nuevo método, que se aproxima al del EM, pero salvando las diferencias necesarias para poder trabajar con las mixturas de polinomios. Este método se basa en el algoritmo arriba descrito, para reagrupar los datos en función de los ajustes aprendidos sin necesidad de encontrar los puntos de corte como anteriormente se habı́a realizado. En nuestro caso la variable oculta del que se utiliza en el algoritmo EM será el grupo (1,2) que se le asigne a cada uno de los datos de la muestra. La metodologı́a a seguir para este algoritmo aproximado es, el cálculo de la verosimilitud mediante un único ajuste y la obtenida partiendo el dominio. La primera vez, se asignan los grupos aleatoriamente, después la reasignación de los grupos se realiza en función de las probabilidades obtenidas para cada uno de los grupos cada vez que se realiza el proceso. Ası́ mediante un proceso iterativo, se consigue el ajuste de un solo polinomio o de una mixtura de polinomios con mayor verosimilitud. El ajuste final por trozos no era tan bueno como se esperaba, por ello se desechó esta posible linea de investigación. Introducidos los desarrollos anteriores, finalmente se realizó un método eficaz para el ajuste polinómico y para la búsqueda de los puntos de corte de la muestra. Como apartado central del trabajo, tanto el desarrollo teórico y algorı́tmico como el software implementado se comentarán en los apartados 3.2 y 10. 24 3.2. Algoritmo 3.2. Algoritmo La dificultad de estimar densidades en MOPs univariantes de datos se puede dividir en tres problemas: 1. La partición del dominio de la variable en intervalos disjuntos. 2. Determinar el número de términos de la función polinómica en cada uno de los intervalos. 3. Estimar los parámetros dado un intervalo y dado el número de términos del polinomio. 3.2.1. Estimación paramétrica Primero nos centraremos en la parte de la estimación de los parámetros, suponiendo conocidos los puntos de corte del dominio y el número de términos de la función polinómica. Consideraremos X una variable aleatoria, con función de densidad f (x) y asumiremos que el dominio de f (x) está dividido en M intervalos {Ωi }M i=1 . Nos centraremos en un único intervalo particular m. Para desarrollar el método finalmente empleado en la estimación de estos parámetros, optamos por despejar los parámetros por mı́nimos cuadrados mediante el algoritmo dual de Goldfarb y Idnani [16], presentado a continuación. Método Dual Los problemas de programación lineal son un caso especial de los problemas en los que una función no lineal es minimizada sujeta a restricciones. Estos problemas son más difı́ciles de resolver. Una excepción es el caso donde la función objetivo es cuadrática y las restricciones son lineales. Nos encontramos por tanto ante, el Algoritmo Dual, presentado como un método eficiente y numéricamente estable para la programación cuadrática positiva definida. Este método está basado en la factorización QR. Teorema 2. Factorización QR 25 Capı́tulo 3. Contribuciones Si A es una matriz m × n con columnas linealmente independientes, entonces A puede factorizarse en la forma A = QR en la que Q es una matriz con columnas ortonormales y R es una matriz triangular superior. Teorema 3. Algoritmo QR Para una matriz A n × n invertible, cuyos valores propios λ1 , . . . , λn son tales que |λ1 | < |λ2 | < . . . < |λn |, la metodologı́a empleada es: 1. Tomar A0 = A. 2. Para i = 0, 1, 2, . . . , k, determinar la descomposición QR de Ai = Qi Ri y tomar Ai + 1 = Ri Qi . El resultado óptimo es una aproximación a una matriz triangular Ak cuyos elementos diagonales son todos los valores propios A. El método dual está centrado en la parte estrictamente convexa (definida positiva) del problema de programación cuadrático: 1 minimizar f (x) = aT x + xT Gx 2 (3.2) sujeto a s(x) = C T x − b ≥ 0 (3.3) donde x y a son vectores n-dimensionales, G es una matriz simétrica definida positiva n × n, C es una matriz m × n, b es un vector de dimensión m y los super-ı́ndices T denotan la transpuesta. Aunque el vector de la variable x puede estar sujeto también a restricciones de igualdad Ĉ T x − b̂ = 0. Varios métodos y algoritmos han sido propuestos para resolver problemas de programación cuadrática. Estos incluyen los métodos primarios de Beale [1], Dantzig [10], Fletcher [13], Goldfarb [15], Bunch y Kaufman [2], Gill y Murray [14] y Wolfe [46], los métodos duales de Lemke [28] y Van de Panne y Whinston [12], los principales métodos pivote de Cottle y Dantzig [8], los métodos paramétricos de Grigoriadis y Ritter [18], el método primal-dual de Goncalves [17], los métodos 26 3.2. Algoritmo de penalización exactas de la función de Conn [7] y el método de optimización subproblema de Theil y Van de Panne [45]. La mayor parte del trabajo en la programación cuadrática requiere dos fases: en la primera se obtiene un punto factible y en la segunda se consigue un punto óptimo mientras se mantiene la viabilidad. La experiencia indica que la mayor parte del esfuerzo empleado en resolver este tipo de problemas, se invierte en la fase de la búsqueda del punto factible. Esto se puede mejorar utilizando otro enfoque en la primera fase que probablemente obtenga un punto cercano al punto óptimo. Esto fue sugerido por ldnani [20] que minimizó la función objetivo sin restricciones, como vemos en la ecuación (3.2), utilizando x = −G−1 a como punto de partida. La misma sugerencia de un punto de partida diferente fue realizada por Dax, en [11]. Las pruebas computacionales indican que este enfoque encuentra un punto factible que también es óptimo. Esto hace que en la segunda fase sean necesarias muy pocas iteraciones adicionales para obtener la optimalidad en el proceso. Aunque estos resultados eran alentadores se sugirió un nuevo enfoque dual. Algoritmo Dual El algoritmo dado a continuación sigue el enfoque dual descrito anteriormente, [16]. Para ello, es necesario introducir alguna notación. Usaremos K para denotar el conjunto de {1, 2, . . . , m} los ı́ndices de las restricciones de la ecuación (3.3) y A ⊆ K para denotar los ı́ndices del conjunto activo. Definimos un subproblema P (J) al QP con función objetivo solo sujeta a un subconjunto de restricciones J incluido en K. Si la solución C de un subproblema P (J) se encuentra en algún conjunto activo linealmente independiente de restricciones indexado por A ⊆ J llamaremos al par (x, A) una solución-S. Claramente si el par (x, A) es un par-S para el subproblema P (J) será también par-S para el subproblema P (A). Por independencia lineal de un conjunto de restricciones, estaremos diciendo que las correspondencias normales de estas restricciones son linealmente independientes. Denotaremos al vector de la i-ésima restricción en la ecuación (3.3), es decir la i-ésima columna de C, por ni . Capı́tulo 3. Contribuciones 27 Ahora podemos enfocar el algoritmo para resolver este tipo de problemas de programación cuadrática. Algoritmo 1: Método Dual QP Entrada: La función objetivo (3.2) a minimizar y el conjunto de restricciones a tener en cuenta (3.3) Salida : Los Cj óptimos que resuelven el problema de programación cuadrática 1 Asumir que algún par-S (x, A) es dado. 2 Repetir 3 a. Elegir una de las restricciones que no se cumplan p ∈ K − A. 4 b. si P (A ∪ {p}) no se satisface entonces 5 QP no es factible. 6 7 8 9 10 sino obtener un nuevo par-S (x, A) donde A ⊆ A y f (x) > f (x) Fijamos (x, A) := (x, A ∪ {p}). hasta que todas las restricciones se cumplan; Devolver X que se corresponde con los coeficientes Cj del polinomio cuyo error queremos minimizar y que son el conjunto de soluciones óptimas del QP. La función objetivo de la ecuación (3.2) que queremos minimizar será la suma de los errores al cuadrado, ecuación (3.1.2). Desarrollo del software Teóricamente hemos visto el método que utilizamos para la estimación de las MOPs. En la práctica para la implementación de éste R, vamos a desarrollar una función que utiliza, la orden ’solve.QP’ del paquete ’quadprog’. El paquete quadprog contiene rutinas y documentación para resolver problemas del programación cuadrática (QP). La función solve.QP implementa el método dual de Goldfarb y Idnani [16] para resolver este tipo de problemas de la forma mı́n (−dT b + 12 bT ) con las restricciones AT b ≥ 0. La función implementada en R requiere de las siguientes restricciones, las cuales deben cumplir las soluciones que arroje el QP: 1. La integral del polinomio entre el punto máximo y mı́nimo de los datos X 28 3.2. Algoritmo debe ser 1, es decir: Z mı́n(x) grado X máx(x) máx(x) ci xi f (x)dx = [F (x)]mı́n(x) = F (máx(x)) − F (mı́n(x)) = 1. i=0 (3.4) 2. Los valores de la densidad calculados en función de los coeficientes del polinomio estimados deben ser mayores que cero para cada uno de los j datos de nuestra muestra. grado X ci xij ≥ 0 para j = 1, . . . , n (3.5) i=0 Algoritmo 2: Ajuste polinómico grado n Entrada: Pares {xi , yi } de la muestra y el grado del polinomio que deseamos ajustar. Salida : Polinomio P x, que todos sus valores para los n datos muestrales sean positivos y además cuya función de densidad f (x) integre 1. 1 Crear la matriz X de dimensión 2 × n, cuya primera columna esté formada por unos y la segunda por los n valores de la variable. T 2 Calculamos X X. t 3 Calcular y X. 4 Crear una matriz AA con las n + 1 restricciones (3.4) y (3.5). 5 Formar un vector B con las desigualdades de las restricciones. T t 6 Resolver el problema con solve.QP(X X,y X, AA,B, meq = 1). Con el parámetro meq lo que estamos introduciendo es el número de restricciones de igualdad (=), las demás serán tomadas como mayor estricto (>). 7 Crear el polinomio P (x) con los coeficientes obtenidos cj . 8 Devolver P (x). En el algoritmo 2 se obtiene una estimación de la función polinómica de la densidad de los datos. 3.2.2. Número de términos de la función polinómica Visto el método empleado para la estimación de los parámetros dado el grado del polinomio, ahora lo nos interesa desarrollar un método que calcule el MOP 29 Capı́tulo 3. Contribuciones que mejor se ajuste a nuestros datos, sin la necesidad de introducir el grado que debe tener cada polinomio que estime. Para ello, nos apoyamos en alguna medida para conocer la verosimilitud del modelo estimado. La verosimilitud nos dice como de ’bueno’ es el modelo estimado con respecto al original. El modelo perfecto no existe, puesto que todos constituyen simplificaciones de la realidad y siempre son preferibles modelos con menos variables, puesto que además de ser más sencillos, son más estables y menos sometidos a sesgo. Por ello vamos a trabajar con una medida de verosimilitud que tenga en cuenta la cantidad de parámetros que se incluyen en el polinomio estimado y el número de datos muestrales que vamos a utilizar. Trabajaremos para ello con el criterio de información Bayesiano, BIC. La medida BIC planteada para el modelo, equivale a la log-verosimilitud, penalizada por el número de parámetros y el tamaño muestral, es decir: BIC = N grado X X j=1 i=0 log(cˆi xij ) ! 1 o − n parámetros · log N 2 (3.6) donde N es el tamaño de la muestra, grado es el grado del polinomio estimado y no parámetros es el número de coeficientes estimados para ese polinomio, o lo que es lo mismo grado + 1. Algoritmo 3: Ajuste polinómico con mejor BIC Entrada: Pares {xi , yi } de la muestra. Salida : Los parámetros cj del mejor ajuste polinómico para los datos X. 1 Asumimos que mejorBIC := −∞ 2 desde grado := 2 hasta 12 hacer 3 Calcular la función polinómica P (x). 4 Calcular el valor del BIC del polinomio estimado. 5 si mejorBIC > BIC entonces 6 mejorBIC := BIC. 7 mejorP (x) = P (x), guarda el polinomio con mejor BIC. 8 Devolver mejorP (x). En el algoritmo 3 conseguimos estimar el polinomio con el grado que mejor se 30 3.2. Algoritmo ajusta a los datos generados. Ya que el BIC planteado está en función de la verosimilitud, el criterio será quedarnos con aquella función polinómica que tenga mayor BIC, lo que no quiere decir que tenga mayor verosimilitud ya que también estamos penalizando el número de parámetros que estima el modelo. 3.2.3. Partición del dominio Como ya habı́amos visto, existe un tercer problema a la hora de estimar densidades MOPs univariantes: encontrar los puntos de cortes para ajustar distintos polinomios y conseguir un mayor BIC. Para ellos hemos creado un algoritmo que encuentra posibles candidatos a puntos de corte en todo el dominio de los datos Xi . Usaremos la notación x(x > xi ) para denotar al conjunto de puntos x de x que cumplen la condición de que x > xi ; análogamente para x(x ≤ xi ). Algoritmo 4: Ajuste polinómico por trozos Entrada: Pares {xi , yi } de la muestra. Salida : Ajuste MOP. 1 Asumimos que mejorBIC := −∞. 2 desde i := xi hasta n (donde n es el numero de datos) hacer 3 θ1 := Ajuste polinómico con mejor BIC 3 de (x(x ≤ xi )). 4 Calcular el valor del BIC de θ1 . 5 θ2 := Ajuste polinómico con mejor BIC 3 de (x(x ≤ xi )). 6 Calcular el valor del BIC de θ2 . 7 si BIC θ1 , θ2 , x > mejorBIC entonces 8 mejorBIC := BIC θ1 , θ2 , x. 9 mejorCorte := (xi+1 − x1 )/2 10 Devolver θ1 , θ2 , mejorBIC, mejorCorte. El algoritmo devuelve un único punto de corte. Una vez que se ha partido el dominio, en cada uno de los intervalos, Ω1 y Ω2 , se puede volver a aplicar el algoritmo 4, para ası́ encontrar más puntos de corte, de manera que se encuentre un MOP con mayor verosimilitud. Capı́tulo 4 Experimentos Para comprobar que efectivamente el método desarrollado es eficiente, se plantearon una serie de pruebas utilizando como muestra, datos aleatorios generados de una de las distribuciones conocidas tipo exponencial, binomial, normal, beta, chi-cuadrado y Weibull. También se realizaron otros experimentos mezclando unas con otras. El capı́tulo 4 se centra en la utilización de todas las funciones y algoritmos descritos anteriormente. 4.1. Distribución exponencial Empezaremos viendo un ejemplo muy sencillo. Generamos una muestra de 500 elementos que provienen de una distribución exponencial con lambda 1, E(λ = 1). Sin partir el dominio, los resultados obtenidos son los siguientes: f (x) = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 + a5 x5 0,025 ≤ x ≤ 9,225 donde los valores asociados a esta ecuación (4.1) son: a0 = 1,018076, a1 = −0,9025065, a2 = 0,3210156, a3 = −0,05585781, a4 = 0,0047168, a5 = −0,0001544201. (4.1) 32 4.1. Distribución exponencial Si utilizamos una mixtura de polinomios el tiempo de ejecución es de 12.471 segundos y los resultados son los siguientes: f (x) = 6 X ai1 xi para x ∈ (0,025, 0,425) i=0 6 X ai2 xi (4.2) para x ∈ (0,425, 9,225) i=0 donde los ai asociados al MOP de la ecuación (4.2) son: a01 = 0,7118358 a02 = 1,26391 a12 = −1,316895 a11 = 22,86954 a21 = −308,0185 a22 = 0,5901265 a32 = −0,1414006 a31 = 1451,085 a41 = −2433,152 a42 = 0,01883714 a51 = −491,2848 a52 = −0,001314588 a61 = 3548,169 a62 = 3,746186 · 10−5 . Ajuste polinómico 0.8 f(x) 0.6 0.4 0.4 0.0 0.0 0.2 f(x) 0.8 1.2 1.0 Ajuste polinómico grado 5 0 2 4 6 x 8 0 2 4 6 8 x Figura 4.1: Ajuste en un único intervalo y partiendo el dominio para datos procedentes de una distribución exponencial. El programa determina que el mejor ajuste es partiendo el dominio en dos trozos ya que el valor del BIC es mayor en este caso que con un único ajuste. Sin 33 Capı́tulo 4. Experimentos embargo, no sigue partiendo el dominio en más trozos, ya que si partimos más y comparamos con el BIC obtenido con un solo corte veremos que este no mejora. Habiendo ya estimado los polinomios correspondientes en cada uno de los dos trozos del dominio, aplicamos el método de inversión comentado en el punto 3.1.3. Si aplicamos el test K-S veremos que según el p-valor el ajuste es bueno. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0 2 4 6 8 x Figura 4.2: Método de inversión para el MOP ajustado procedente de datos exponenciales. En la figura 4.2 podemos observar como, la función de distribución empı́rica acumulada para los datos originales y para la muestra generada mediante el método de inversión a partir de los polinomios aprendidos anteriormente, son prácticamente idénticas. 4.2. Distribución normal Para la siguiente prueba, se generaron 500 datos de una distribución normal de media 0 y desviación tı́pica 1, N(µ = 0, σ = 1), con la ayuda de R. Veamos el ajuste que realiza el programa, partiendo y sin partir el dominio. 7 X i=0 ai xi − 3,125 ≤ x ≤ 3,625 (4.3) 34 4.2. Distribución normal donde, a1 = −0,0375452, a4 = 0,01564672, a0 = 0,3669942, a3 = 0,01996172, a2 = −0,1293823, a5 = 0,003145081, a6 = −0,00063738872, a7 = 0,0001523461. se corresponden con los valores correspondientes al ajuste obtenido en la ecuación (4.3). Utilizando una mixtura de polinomios, el tiempo de ejecución del programa hasta encontrar el MOP que mejor se ajusta a los datos generados es de 13.073 segundos y los resultados son los siguientes: f (x) = 4 X ai1 xi i=0 4 X i ai2 x para x ∈ (−3,125, −0,875) (4.4) para x ∈ (−0,825, 3,625) i=0 a01 = 1,272493 a02 = 0,3710747 a11 = 1,731111 a21 = 1,01158 a12 = −0,05980619 a22 = −0,1208326 a31 = 0,2893378 a32 = 0,04608326 a41 = 0,03252996 a42 = −0,004300286 0.0 0.2 f(x) 0.0 0.2 f(x) 0.4 Ajuste polinómico 0.4 Ajuste polinómico grado 7 −3 −2 −1 0 1 x 2 3 −3 −2 −1 0 1 2 3 x Figura 4.3: Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución normal. 35 Capı́tulo 4. Experimentos Aunque el ajuste realizado con todo el dominio y partiendo el dominio resulta similar a simple vista, hemos comprobado mediante el valor de los correspondientes BIC que es mejor cuando realizamos un corte. Si seguimos partiendo el dominio los valores del BIC que ofrece el programa son inferiores, lo que nos indica que los ajustes realizados para más cortes no son mejores y por tanto, nos quedamos con una única partición del rango. Una vez aprendidos los polinomios, realizamos una simulación de datos, mediante el método de inversión. Comparamos la muestra inicial con la simulada con el test de Kolmogorov Smirnov que efectivamente arroja un p-valor grande, lo que indica que las dos muestras provienen de una misma distribución, véase la figura 4.4. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim −2 0 2 4 x Figura 4.4: Método de inversión para el MOP ajustado a partir de datos normales. 4.3. Distribución beta Generamos una muestra aleatoria de 500 elementos de una distribución beta con parámetros de forma 1/2 y 1/2, B(α = 1/2, β = 1/2). 36 4.3. Distribución beta Para un único ajuste polinómico el grado que alcanza es 6, mientras que cuando parte el dominio en 2 piezas, el grado es de 8 (4 + 4). Veamos las gráficas y el ajuste que realizamos mediante las funciones implementadas en R. 6 X ai xi 0,0025 ≤ x ≤ 0,9975 (4.5) i=0 donde los valores estimados se corresponden con: a0 = 4,523406, a1 = −78,35603, a2 = 596,3086, a3 = −2111,819, a4 = 3736,488, a5 = −3206,272, a6 = 1063,602. Utilizando una mixtura de polinomios, el tiempo de ejecución del programa hasta encontrar el MOP que mejor se ajusta a los datos generados es de 6.439 segundos y los resultados son los siguientes: f (x) = 4 X ai1 xi para x ∈ (0,0025, 0,0275) i=0 4 X ai2 xi (4.6) para x ∈ (0,0325, 0,9975) i=0 a02 = 2,188813 a01 = 17,33531 a11 = −4493,0651 a12 = −14,95649 a22 = 54,70464 a21 = 475651,1 a31 = −20503210 a41 = 307548100 a32 = −84,50501 a42 = 45,8669. 37 Capı́tulo 4. Experimentos Ajuste polinómico 0 0 1 1 2 3 f(x) 2 f(x) 3 4 5 4 Ajuste polinómico grado 6 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 x 0.6 0.8 1.0 x Figura 4.5: Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución beta. El ajuste polinómico con mejor BIC es el MOP de 2-piezas y grado-8 (4+4). Si realizamos las pertinentes comprobaciones como en los anteriores apartados mediante el método de inversión y el test K-S, podremos ver que efectivamente ambas muestras, la original y la simulada tienen funciones de distribución similares, véase la figura 4.6. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0.0 0.2 0.4 0.6 0.8 1.0 x Figura 4.6: Método de inversión para el MOP ajustado a partir de datos procedentes de una beta. 38 4.4. Distribución chi-cuadrado 4.4. Distribución chi-cuadrado En el siguiente ejemplo, trabajamos con datos generados a partir de una chicuadrado χ2 con 10 grados de libertad. En este caso el programa realiza las pertinentes comparaciones y determina que no es necesario partir el dominio. El polinomio ajustado es de grado 6, y los resultados obtenidos son los siguientes: 6 X ai xi 1,55 ≤ x ≤ 26,85 (4.7) i=0 a0 = 0,07950775, a1 = −0,07067867, a3 = −0,003365689, a6 = 5,927842 · 10−8 . a4 = 0,0001991204, a5 = −5,546911 · 10−6, a2 = 0,02591051, Fn(x) 0.10 f(x) 0.05 0.00 5 10 15 20 25 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.15 Ajuste polinómico grado 6 F(X) F(val_sim 0 5 x 10 15 20 25 30 x Figura 4.7: Ajuste polinómico de una distribución χ2 y comparación de muestras. En el primer gráfico de la figura 4.7 se observa como la linea roja correspondiente al ajuste realizado y la negra que se corresponde con los valores de la densidad kernel de los datos X, son prácticamente iguales. Para comprobar esto, hemos simulado una muestra procedente del polinomio aprendido, para verificar que ambas muestras proceden de una misma distribución utilizamos el test K-S, segunda gráfica de la figura. 39 Capı́tulo 4. Experimentos 4.5. Distribución Weibull La última prueba que vamos a realizar con datos que provengan de una única distribución es sobre una Weibull. La distribución Weibull que hemos utilizado para generar los datos tiene como parámetros de forma y escala, β = 1,5 y θ = 3, respectivamente. Volviendo a realizar el ajuste, está vez el programa también determina que el mayor BIC se consigue sin partir el dominio. La ecuación del polinomio y las gráficas obtenidas se presentan a continuación: 6 X ai xi 0,025 ≤ x ≤ 11,025 (4.8) i=0 donde, a0 = 0,04361531, a2 = −0,2091959, a1 = 0,3776644, a3 = 0,04625209, a4 = −0,005148195, a5 = 0,0002873393, a6 = −6,402609 · 10−6 . Fn(x) 0.3 0.2 0.0 0.1 f(x) 0 2 4 6 x 8 10 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.4 Ajuste polinómico F(X) F(val_sim 0 2 4 6 8 10 x Figura 4.8: Ajuste polinómico de una distribución Weibull y comparación de muestras. En la primera gráfica de la figura 4.8 podemos ver, el ajuste realizado por el programa con la linea roja y la densidad kernel de los datos de la muestra inicial con la curva negra. Para comprobar que el ajuste realizado es bueno, generamos 40 4.6. Mixtura de exponenciales nuevos datos a partir del polinomio aprendido mediante el método de inversión, y comparamos ambas muestras con el test de Kolmogorov Smirnov para ver si puede considerarse que provengan de una misma distribución. En la segunda gráfica, vemos como efectivamente la función de distribución de ambas muestras es prácticamente la misma. 4.6. Mixtura de exponenciales Vamos a crear una base de datos con valores que provengan de dos tipos de distribuciones betas, la primera será una E(λ = 1) y la otra será la misma que la anterior desplazada en 5 posiciones. Los resultados obtenidos arrojan que el mejor ajuste se consigue partiendo el dominio, como era de esperar ya que los datos están bien diferenciados para formar dos conglomerados. Obtenemos una MOP de 2-piezas y grado-8. El tiempo de ejecución es de 11.647 segundos. 5 X ai xi 0,0025 ≤ x ≤ 10,175 (4.9) i=0 donde los parámetros estimados para la ecuación (4.9) son: a0 = 0,533449, a1 = −0,4925529, a2 = 0,148599, a3 = −0,01384746, a4 = −0,0001017248, a5 = 4,448974 · 10−5 . f (x) = 4 X ai1 xi para x ∈ (0,025, 4,975) i=0 4 X ai2 xi (4.10) para x ∈ (5,025, 10,175) i=0 cuyos coeficientes se corresponden con: a01 = 0,5267496 a11 = −0,46356 a21 = 0,1544462 a02 = 11,51374 a12 = −4,963331 a22 = 0,8035588 a31 = −0,02214045 a32 = −0,0577852 a41 = 0,001115051 a42 = 0,001555237. 41 Capı́tulo 4. Experimentos 0.3 0.0 0.1 0.2 f(x) 0.2 0.0 0.1 f(x) 0.3 0.4 Ajuste polinómico 0.4 Ajuste polinómico grado 5 0 2 4 6 8 10 0 2 x 4 6 8 10 x Figura 4.9: Ajuste en un único intervalo y partiendo el dominio de los datos procedentes de dos distribuciones exponenciales. En la figura 4.9 podemos ver como partiendo el dominio se consigue un mejor ajuste de los datos. Para verificar este hecho, hemos aplicado el método de inversión para generar datos a partir de los dos polinomios aprendidos, hemos comprobado que efectivamente los generados y los datos originales provienen de una misma distribucion mediante el test K-S, como vemos en el gráfico 4.10. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0 2 4 6 8 10 x Figura 4.10: Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones exponenciales. 42 4.7. Mixtura de normales 4.7. Mixtura de normales En este apartado, vamos a ver como se comporta el programa cuando introducimos datos generados aleatoriamente a partir de dos normales, N(µ = 0, σ = 1) y N(µ = −5, σ = 1). Los resultados obtenidos para esta prueba son los siguientes: 8 X ai xi − 7,625 ≤ x ≤ 2,575 (4.11) i=0 donde los coeficientes ai de la ecuación (4.11) son: a0 = 0,1917622, a1 = 0,01864625, a2 = −0,07407197, a3 = −0,009750372, a4 = 0,008994962, a5 = 0,001500964, −5 a6 = −0,0002400603, a7 = −6,138505 · 10 , a8 = −3,198659 · 10−6 . Fn(x) 0.20 f(x) 0.10 0.00 −8 −6 −4 −2 x 0 2 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.30 Ajuste polinómico grado 8 F(X) F(val_sim −8 −6 −4 −2 0 2 x Figura 4.11: Ajuste polinómico de dos distribuciones normales y comparación de muestras. En figura 4.11 podemos observar dos gráficas. La primera de ellas relacionada con el ajuste realizado por el programa. Para comprobar si este ajuste es bueno, actuamos de la misma manera que en ejemplos anteriores. Primero generamos nuevos datos a partir del polinomio aprendido mediante el método de inversión, y comparamos ambas muestras utilizando el test K-S, como se muestra en la 43 Capı́tulo 4. Experimentos segunda gráfica y si nos fijamos en el p-valor obtenido en el test, podemos afirmar que ambas muestras proceden de una misma distribución. 4.8. Mixtura de una exponencial y de una normal Para realizar este experimentos, se generaron 500 datos procedente de una distribución exponencial, E(λ = 1), y de una normal, N(µ = 7, σ = 1). Utilizando los programas desarrollados para realizar el ajuste polinómico y partir el dominio si fuera necesario, los resultados obtenidos son los siguientes: 6 X ai xi 0,025 ≤ x ≤ 9,925 (4.12) i=0 donde, a0 = 0,5906667, a1 = −0,7213815, a3 = −0,1445762, a6 = 8,184021 · 10−5 . a4 = 0,026541032, a5 = −0,002388849, f (x) = 5 X ai1 xi i=0 5 X i ai2 x a2 = 0,4290856, para x ∈ (0,025, 5,125) (4.13) para x ∈ (5,175, 9,925) i=0 cuyos coeficientes estimados son: a01 = 0,5719852 a11 = −0,6136847 a02 = 73,9765 a12 = −50,54936 a21 = 0,2847182 a31 = −0,07047527 a41 = 0,009293569 a22 = 13,512 a32 = −1,764886 a42 = 0,1128444 a51 = −0,0005175449 a52 = −0,002832323. Vemos que el programa determina que el mejor ajuste es realizado por el MOP de 2-piezas. 44 4.8. Mixtura de una exponencial y de una normal 0 2 4 6 x 8 10 0.0 0.1 0.2 0.3 0.4 0.5 f(x) f(x) Ajuste polinómico 0.0 0.1 0.2 0.3 0.4 0.5 Ajuste polinómico grado 6 0 2 4 6 8 10 x Figura 4.12: Ajuste en un intervalo y en dos partes de una distribución normal y de una exponencial. El tiempo empleado en este proceso fue de 6.331 segundos. Aunque en la gráfica 4.12 los ajustes son similares, según el criterio del BIC que nosotros habı́amos planteado (3.6) nos decantamos por partir el dominio en dos trozos. Por tanto nos quedarı́amos con un MOP de 2-trozos y grado-10 frente al único polinomio de grado-6. En ocasiones el programa para mixturas de una exponencial y una normal, deja sin partir el dominio, puesto que debemos siempre tener en cuenta que estamos trabajando con datos generados aleatoriamente y por tanto pueden salir distintos resultados. Para justificar, que efectivamente el ajuste realizado es bueno, generamos otra muestra a partir de los polinomios aprendidos, y con el test K-S vemos si ambas muestras proceden de la misma distribución. El test arroja un p-valor alto, lo que nos ı́ndica que efectivamente ambas muestras vienen de una misma distribución, se puede ver también en la gráfica 4.13. 45 Capı́tulo 4. Experimentos 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0 2 4 6 8 10 x Figura 4.13: Método de inversión para el MOP ajustado a partir de una mixtura de exponenciales y una normal. 4.9. Mixtura de una beta y una Weibull En esta sección, analizaremos una muestra generada aleatoriamente de datos que proceden de una distribución beta, B(α = 3/5, β = 3/5) y de una distribución Weibull, con parámetro de forma y escala β = 1,5 y θ = 2, respectivamente. El programa decide que la mejor solución a la hora de ajustar los datos a una distribución polinómica es partir el dominio formando un MOP de 2-piezas y grado-10, como veremos a continuación. El tiempo de ejecución es de 14.148 segundos. 5 X ai xi 0,025 ≤ x ≤ 8,475 (4.14) i=0 donde los coeficientes ai de la ecuación (4.14) se corresponden con los siguientes valores: a0 = 0,6149942, a1 = −0,47732335, a2 = 0,2078579, a3 = −0,04824669, a4 = 0,005320196, a5 = −0,0002190402. 46 4.9. Mixtura de una beta y una Weibull f (x) = 6 X ai1 xi i=0 6 X i ai2 x para x ∈ (0,025, 0,975) (4.15) para x ∈ (1,025, 8,475) i=0 donde los valores asociados a la ecuación (4.15) son: a01 = 0,9397709 a02 = −0,5546641 a11 = −7,550284 a12 = 1,007427 a22 = −0,4789647 a21 = 57,02523 a31 = −217,2742 a32 = 0,1009587 a42 = −0,01040727 a41 = 410,5779 a51 = −370,8559 a52 = 0,0004810528 a62 = −6,390855 · 10−6 . a61 = 128,5749 0.6 0.0 0.2 0.4 f(x) 0.4 0.0 0.2 f(x) 0.6 0.8 Ajuste polinómico 0.8 Ajuste polinómico grado 5 0 2 4 6 x 8 0 2 4 6 8 x Figura 4.14: Ajuste en uno y dos intervalos de datos procedentes de una beta y una Weibull. En la figura 4.14 se aprecia como partiendo el dominio se recoge mucha más información de los datos que ajustando un único polinomio. Para contrastar esto, utilizamos el método de inversión con el que generamos otra muestra a partir de los dos polinomios aprendidos. Utilizamos el test K-S para verificar que estas dos muestras proceden de una misma distribución. 47 Capı́tulo 4. Experimentos En el gráfico 4.15 podemos ver como las funciones de probabilidad acumulada de los datos X originales y los simulados con este método son prácticamente iguales. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0 2 4 6 8 x Figura 4.15: Método de inversión para el MOP ajustado a partir de datos procedentes de una beta y una Weibull. 4.10. Mixtura de betas Queremos realizar el ajuste polinómico de unos datos aleatorios generados de dos distribuciones betas B(α = 1/2, β = 1/2). El tiempo que empleo el programa en encontrar el punto óptimo donde cortar el dominio para encontrar máxima verosimilitud por el criterio del BIC establecido, fue de 22.796 segundos. Las siguientes ecuaciones muestras los ajustes sin partir y partiendo el dominio. 5 X ai xi − 0,9995 ≤ x ≤ 0,9995 i=0 con los valores de los coeficientes estimados ai , tal que: (4.16) 48 4.10. Mixtura de betas a0 = 0,70149, a1 = 0,02229545, a2 = −2,477258, a3 = −0,2373761, a4 = 3,155326, a5 = 0,3458579. 4 X ai1 xi para x ∈ (−0,995, −0,015) f (x) = i=0 8 X ai2 xi para x ∈ (−0,005, 0,995) (4.17) i=0 a01 = 1,535861 a02 = 2,599118 a11 = 13,13816 a12 = −63,60542 a21 = 48,43378 a22 = 730,24 a31 = 71,19737 a32 = −4291,927 a41 = 35,96201 a42 = 14235,1. a52 = −27697,71 a62 = 31305,9 a72 = −19006,72 a82 = 4789,178 En la ecuación (4.17) y en la figura 4.16 podemos observar el ajuste final de un MOP de 2-trozos y grado-12 (8+4). 1.5 0.0 0.5 1.0 f(x) 1.0 0.0 0.5 f(x) 1.5 2.0 Ajuste polinómico 2.0 Ajuste polinómico grado 5 −1.0 −0.5 0.0 x 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0 x Figura 4.16: Ajuste en uno y dos intervalos para datos procedentes de dos distribuciones betas. Comprobamos que este ajuste es bueno, generando datos a partir del MOP aprendido y comparando ambas muestras para ver si provienen de una misma 49 Capı́tulo 4. Experimentos distribución. Mediante estos métodos podemos ver que efectivamente el ajuste realizado por el programa puede ser considerado bueno. En la figura 4.17 podemos comprobar ésto, mediante las curvas de la función de probabilidad acumulada de los datos originales y la muestra simulada. Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión F(X) F(val_sim −1.0 −0.5 0.0 0.5 1.0 x Figura 4.17: Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones betas. 4.11. Mixtura de tres exponenciales En este experimento, queremos comprobar si el programa desarrollado, es capaz de encontrar más de un punto de corte óptimo para el ajuste polinómico de datos procedentes de tres distribuciones exponenciales. Para ellos hemos generado aleatoriamente tres exponenciales, de parámetros λ = 1. Presentamos los resultados obtenidos para el primer ajuste y para el ajuste final realizado, un MOP de 3-piezas y grado-12. Respecto al tiempo de ejecución, el programa tardó en encontrar el primer punto de corte, 8.306 segundos, y el otro, 0.8999 segundos, lo que nos indica que el sistema gastó en total aproximadamente 9.2 segundos. 7 X i=0 donde, ai xi − 9,95 ≤ x ≤ 4,55 (4.18) 50 4.11. Mixtura de tres exponenciales a0 = 0,06436582, a3 = −0,006625185, a1 = 0,03857554, a2 = 0,005533225, a4 = −0,001113837, a5 = 0,0001855703, a6 = 4,431948 · 10−5 , a7 = 2,12142 · 10−6 . 0.20 0.00 0.10 f(x) 0.00 0.10 f(x) 0.20 0.30 Ajuste polinómico 0.30 Ajuste polinómico grado 7 −10 −5 0 5 −10 −5 x 0 5 x Figura 4.18: Ajuste polinómico para datos exponenciales y método de inversión para las muestras. La ecuación (4.19) justifica el ajuste en el que se encuentran dos puntos de corte se muestra. Se muestran también las gráficas del MOP final estimado y la comprobación gráfica de que el ajuste realizado es bueno, ya que las funciones de distribución de la muestra inicial y la simulada para el MOP de 3-piezas son prácticamente iguales. 4 X ai1 xi i=0 4 X f (x) = ai2 xi i=0 4 X ai3 xi para x ∈ (−9,95, −5,05) para x ∈ (−4,95, −0,05) para x ∈ (0,05, 4,55) i=0 con parámetros estimados asociados a la ecuación (4.19): (4.19) 51 Capı́tulo 4. Experimentos a01 = −0,03319941 a11 = 0,05321911 a02 = −0,0003892121 a03 = 0,3073907 a12 = −0,007950185 a13 = −0,2272121 a21 = 0,03208191 a22 = −0,002953893 a31 = 0,005714552 a32 = −0,001043111 a41 = 0,0003378832 a42 = 0,0003378832 a23 = 0,06524359 a33 = −0,008527417 a43 = 0,0004272028. Fn(x) 0.20 0.00 0.10 f(x) −10 −5 0 5 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.30 Ajuste polinómico F(X) F(valores_s −10 x −5 0 5 x Figura 4.19: Ajuste final de una mixtura de tres exponenciales y comparación de muestras. 4.12. Mixtura de exponenciales y una normal El experimento planteado cuenta con unos 600 datos procedentes de una normal,N(µ = 9, σ = 1) y de dos distribuciones exponenciales. Introducimos estos datos en el sistema y comprobamos los resultados, obtenidos. El tiempo de ejecución es de 10.265 segundo y en este caso el programa determina que no es necesario seguir partiendo el dominio, por lo que solo encuentra un punto óptimo de corte. 10 X ai xi 0,05 ≤ x ≤ 19,35 i=0 donde los coeficientes ai de la ecuación (4.20) son: (4.20) 52 4.12. Mixtura de exponenciales y una normal a1 = −0,302549, a4 = −0,03502415, a0 = 0,3315809, a3 = 0,05729014, a2 = 0,04899076, a5 = 0,008912126, a7 = 0,0001028194, a8 = −4,963242 · 10−6 , a10 = −1,422618 · 10−9 . 7 X ai1 xi para x ∈ (0,05, 13,95) f (x) = i=0 (4.21) 4 X i ai2 x para x ∈ (14,05, 19,35) a6 = −0,001247918, a9 = 1,298768 · 10−7 , i=0 a01 = 0,3700597 a11 = −0,4905423 a02 = 192,6562 a12 = −44,21175 a21 = 0,3115737 a31 = −0,1039912 a41 = 0,01873357 a22 = 3,805803 a32 = −0,145583 a42 = 0,002087366. a51 = −0,001813164 a61 = 8,855063 · 10−5 a71 = −1,712042 · 10−6 El ajuste inicial sin partir el dominio es de un polinomio de grado-10. El ajuste final realizado es de un MOP de 2-piezas y grado-11 (7+4). Estos ajustes se muestran en la figura 4.20. 0.00 0.10 f(x) 0.10 0.00 f(x) 0.20 Ajuste polinómico 0.20 Ajuste polinómico grado 10 0 5 10 15 20 x 0 5 10 15 20 x Figura 4.20: Ajuste polinómico en uno y dos intervalos para datos procedentes de distribuciones tipo exponencial y normal. 53 Capı́tulo 4. Experimentos El programa finalizó porque el MOP encontrado partiendo una única vez el dominio es el que consigue mayor BIC. También podemos ver que este es bueno ya que si simulamos una muestra que provenga del MOP final estimado y la comparamos con la inicial, veremos que ambas provienen de una misma distribución, como se muestra en la figura 4.21, en el que se representa la función de distribución de ambas muestras. Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión F(X) F(val_sim 0 5 10 15 20 x Figura 4.21: Método de inversión para el MOP ajustado a partir de datos exponenciales y normales. 4.13. Mixturas de tres normales Generamos 600 datos aleatorios procedentes de distribuciones normales, N(µ = 1, σ = 1), N(µ = −5, σ = 1) y N(µ = −10, σ = 1). El programa intenta partir el dominio, pero considera que la función polinómica que mejor se ajusta a los datos X generados, minimizando su error, es un polinomio de grado-10. Los resultados obtenidos se muestran a continuación, al igual que las gráficas obtenidas en relación a este ajuste y al método de inversión aplicado para ver si efectivamente el ajuste es bueno. 10 X i=0 ai xi − 12,65 ≤ x ≤ 2,45 (4.22) 54 4.14. Mixtura de distribuciones tipo Weibull y una exponencial los parámetros asociados a la ecuación (4.22) son: a0 = 0,141534, a3 = −0,01025399, a2 = −0,06659624, a5 = 0,002195315, a1 = 0,01650998, a4 = 0,009752402, a6 = −0,000290694, a7 = −0,0001384532, a9 = −9,173677 · 10−7 , a10 = −1,863357 · 10−8 . Fn(x) 0.10 f(x) 0.05 0.00 −10 −5 0 x 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.15 Ajuste polinómico a8 = −1,706289 · 10−5 , F(X) F(val_sim −10 −5 0 x Figura 4.22: Ajuste polinómico para datos procedentes de 3 normales y método de inversión. En este ejemplo el programa no parte el dominio, pero como los datos son generados aleatoriamente, habrá ocasiones en que encuentre un mejor ajuste con una mixtura de polinomios. 4.14. Mixtura de distribuciones tipo Weibull y una exponencial El experimento planteado cuenta con unos 600 datos procedentes de dos distribuciones Weibull y de una exponencial, E(λ = 1). Para este conjunto de datos, el programa determina que es mejor cortar el dominio por un único punto, tardando el sistema 12.385 segundos en encontrar el mejor ajuste para los dos intervalos encontrados. Los resultados obtenidos se observan en las ecuaciones (4.23) y (4.24) 55 Capı́tulo 4. Experimentos 10 X ai xi − 4,875 ≤ x ≤ 10,475 (4.23) i=0 donde los ai son los coeficientes asociados a la ecuación (4.23) del polinomio: a0 = 0,1227406, a3 = −0,01304447, a1 = 0,04409973, a4 = 0,004088408, a6 = −0,0002612177, a7 = 1,132131 · 10−6 , a9 = −5,251131 · 10−7 , a10 = 1,605815 · 10−8 . f (x) = 4 X ai1 xi a2 = −0,02600977, a5 = 0,0007346978, a8 = 5,151587 · 10−6 , para x ∈ (−4,875, −0,025) i=0 4 X ai2 xi (4.24) para x ∈ (0,025, 10,475) i=0 donde, a01 = 0,02212092 a11 = 0,02364224 a02 = 0,3252122 a12 = −0,2740049 a21 = 0,06891567 a31 = 0,0243609 a22 = 0,08375895 a32 = −0,009737207 a41 = 0,002318717 a42 = 0,0003777211. El ajuste inicial sin partir el dominio es de un polinomio de grado-10. El ajuste final realizado es de un MOP de 2-piezas y grado-8 (4+4). Estos ajustes se muestran en la figura 4.23. 56 4.14. Mixtura de distribuciones tipo Weibull y una exponencial 0.00 0.10 f(x) 0.10 0.00 Density 0.20 Ajuste polinómico 0.20 Ajuste polinomico grado 10 −5 0 5 10 −5 0 X 5 10 x Figura 4.23: Ajuste polinómico sin partir y partiendo el dominio para datos procedentes de distribuciones tipo Weibull y exponencial. El punto de corte óptimo lo determina el programa a partir del BIC total. La gráfica final 4.24 muestra como el ajuste es lo bastante bueno, ya que a partir del MOP aprendido se ha generado otra muestra, cuya función de distribución es similar a la de los datos originales. También ha sido comprobado mediante el test K-S. Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión F(X) F(val_sim −5 0 5 10 x Figura 4.24: Método de inversión para el MOP ajustado procedente de distribuciones tipo Weibul y una exponencial. 57 Capı́tulo 4. Experimentos 4.15. Mixtura de cuatro exponenciales Este posiblemente es el experimento más extremo que vamos a realizar. Generamos datos que proceden de 4 distribuciones exponenciales. Presentamos los resultados obtenidos para el primer ajuste y para el ajuste final realizado, un MOP de 3-trozos y grado-15. Respecto al tiempo de ejecución, el programa tardó en encontrar el primer punto de corte, 23.513 segundos, y el otro, 1.015 segundos, lo que nos indica que el sistema gastó en total aproximadamente 25 segundos. A pesar de que el propósito era encontrar los 3 puntos de cortes que a priori parecı́an tener más lógica, el programa determinó a partir del BIC que el mejor ajuste se obtenı́a partiendo el dominio en tres intervalos. 7 X ai xi − 9,95 ≤ x ≤ 10,05. (4.25) i=0 Los valores de los parámetros asociados al ajuste polinómico de la ecuación (4.25) son: a1 = −0,005598671, a0 = 0,0424212, a3 = 0,0004264044, a6 = 6,573225 · 10−7 , a2 = 0,00224785, −5 a4 = −8,034574 · 10 , a7 = 1,424897 · 10−8 . 0.10 0.00 0.05 f(x) 0.10 0.00 0.05 f(x) 0.15 Ajuste polinómico 0.15 Ajuste polinómico grado 7 a5 = −6,280911 · 10−6 , −10 −5 0 5 10 x −10 −5 0 5 10 x Figura 4.25: Ajuste de un polinomio en uno y dos intervalos para datos procedentes de 4 distribuciones exponenciales. 58 4.15. Mixtura de cuatro exponenciales 5 X ai1 xi i=0 4 X f (x) = ai2 xi i=0 4 X ai3 xi para x ∈ (−9,95, −5,05) para x ∈ (−4,95, −0,05) (4.26) para x ∈ (0,05, 10,05) i=0 a01 = 5,397315 a02 = 0,0008425641 a03 = 0,264415 a11 = 3,960542 a21 = 1,141656 a12 = −0,01245418 a13 = −0,256664 a22 = −0,007970009 a23 = 0,08838775 a31 = 0,1610971 a32 = −0,002013845 a33 = −0,0114178 a42 = 0,0001850294 a43 = 0,000489517. a41 = 0,01107963 a41 = 0,0002943306 Fn(x) 0.10 f(x) 0.05 0.00 −10 −5 0 x 5 10 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.15 Ajuste polinómico F(X) F(valores_s −10 −5 0 5 10 x Figura 4.26: Ajuste polinómico final del MOP estimado a partir de datos exponenciales y el método de inversión. En la figura 4.26 vemos como el programa solo ha encontrado dos puntos de corte, a pesar de ello, cuando simulamos valores que procedan del MOP de 3piezas, podemos comprobar mediante el test K-S que efectivamente la muestra generada procede de la misma distribución que los datos originales. Luego el ajuste puede ser considerado bueno. 59 Capı́tulo 4. Experimentos 4.16. Mixtura de cuatro normales En anteriores experimentos, vimos como con una mixtura de normales, el programa tendı́a a realizar un único ajuste. En este ejemplo en el que generaremos datos de 4 distribuciones normales con diferentes medias, podremos observar, como esta vez, el programa determina que el mejor ajuste se realiza partiendo el dominio en dos intervalos, formando un MOP de 2-piezas y grado-14 (7+7). El programa tarda en encontrar el punto de corte óptimo y en realizar los pertinentes ajustes en cada intervalo, 25.986 segundos. 5 X ai xi − 13,05 ≤ x ≤ 8,45, (4.27) i=0 los parámetros asociados a esta ecuación (4.27) son: a0 = 0,04812149, a1 = 0,003416551, a2 = 0,0003006013, −6 a3 = −0,0001101576, a4 = −7,867796 · 10 , a5 = 1,885338 · 10−7. f (x) = 7 X ai1 xi para x ∈ (−4,875, −0,025) i=0 7 X ai2 xi (4.28) para x ∈ (0,025, 10,475) i=0 donde, a01 = 9,925933 a02 = 0,09569929 a11 = 11,45911 a21 = 5,281058 a12 = −0,02120647 a22 = −0,03376468 a31 = 1,258599 a41 = 0,1687043 a51 = 0,01281444 a32 = 0,01079315 a42 = 0,002452305 a52 = −0,001190103 a61 = 0,0005143149 a71 = 8,466407 · 10−6 a62 = 0,0001402609 a72 = −5,295354 · 10−6. 60 4.16. Mixtura de cuatro normales 0.00 0.04 f(x) 0.04 0.00 f(x) 0.08 Ajuste polinómico 0.08 Ajuste polinómico grado 5 −10 −5 0 5 −10 x −5 0 5 x Figura 4.27: Ajuste polinómico sin partir y partiendo el dominio para datos procedente de distribuciones normales. La gráfica final 4.28 muestra como el ajuste es bueno, ya que a partir del MOP aprendido se ha generado otra muestra, cuya función de distribución es similar a la de los datos originales. También ha sido comprobado mediante el test K-S. Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión F(X) F(val_sim −15 −10 −5 0 5 10 x Figura 4.28: Método de inversión para el MOP ajustado a partir de datos normales. 61 Capı́tulo 4. Experimentos 4.17. Mixtura de una Weibull, dos normales y una exponencial En este último ejemplo veremos como actúa el programa en el caso de tener datos procedentes de distribuciones tipo normal, exponencial y Weibull. Para ello generamos unos 1000 datos aleatorios procedentes de estas distribuciones. El tiempo de ejecución del programa es de 28.118 segundos. 5 X ai xi 0,05 ≤ x ≤ 17,05 (4.29) i=0 a1 = −0,08441185 a0 = 0,1755445 a3 = −0,0007011015 a4 = −1,841254 · 10 a2 = 0,01510205 −5 a5 = 1,331597 · 10−6 donde los valores asociados a la ecuación (4.29) son: 0.20 0.00 0.10 f(x) 0.30 Ajuste polinómico grado 5 0 5 10 15 x Figura 4.29: Ajuste polinómico, para datos procedentes de dos normales, una Weibull y una exponencial, en un único intervalo. En la figura 4.29 vemos el ajuste que realiza el programa cuando no parte el dominio. Si seguimos compilando, el programa localiza un punto de corte válido. En la primera gráfica de la figura 4.30 vemos que encuentra un punto de corte óptimo, dando lugar a un MOP de 2-piezas y grado-14 (7+7). La segunda gráfica de esta figura nos enseña, las funciones de distribución de los datos originales y de los simulados a partir del MOP aprendido. 62 4.17. Mixtura de una Weibull, dos normales y una exponencial f (x) = 7 X ai1 xi i=0 7 X i ai2 x para x ∈ (0,05, 8,95) (4.30) para x ∈ (9,05, 17,05) i=0 Los valores asociados al MOP de la ecuación (4.30) son: a01 = −0,03613791 a02 = 1147,25 a11 = 0,8256912 a21 = −0,9911224 a31 = 0,4797598 a12 = −581,216 a22 = 125,5168 a32 = −14,97876 a41 = −0,1182149 a51 = 0,01575835 a61 = −0,001085006 a42 = 1,06684 a52 = −0,04534804 a62 = 0,001065089 a71 = 3,028942 · 10−5 a72 = −1,06614 · 10−5 Fn(x) 0.20 f(x) 0.10 0.00 0 5 10 x 15 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.30 Ajuste polinómico F(X) F(val_sim 0 5 10 15 x Figura 4.30: Ajuste de un MOP de 2-piezas a partir de datos normales, exponenciales y de tipo Weibull y comparación de muestras Con esos ejemplos, concluimos el capı́tulo de los experimentos. Más adelante lo que se pretende es trabajar con datos reales, no generados, para ası́ ver como se comporta realmente el programa. Capı́tulo 5 Conclusiones y futuros trabajos En este trabajo se ha realizado un nuevo enfoque a la hora de ajustar datos a su función de densidad original. El procedimiento finalmente desarrollado emplea la estimación de los parámetros de un polinomio por mı́nimos cuadrados, para minimizar de esta manera el error cuadrático medio. Una de las ventajas de las MOPs frente a otro tipo de ajustes es trabajar con polinomios. Los polinomios permiten una mayor flexibilidad a la hora de operar con ellos, en el sentido de que son fácilmente integrables y están cerrados bajo transformaciones tipo combinación y marginalización. Hay que tener presente que, a pesar de los planteamientos previos en este ámbito, no se habı́a desarrollado ningún método como este para trabajar con ajustes polinómicos. Esto hace que el método desarrollado sea novedoso. Todas las funciones y programas utilizados, se han implementado en el software R, lo que permitirá a la comunidad cientı́fica internacional poder utilizarlo sin necesidad de implementar el procedimiento desarrollado. 5.1. Trabajos futuros Finalizado este trabajo sobre el ajuste polinómico de unos datos, se plantean posibles nuevas lineas de investigación relacionadas con el tema. Puesto que se ha trabajado en un espacio unidimensional, el siguiente punto a tratar será ampliar la dimensión para usar funciones de densidad conjunta. 64 5.1. Trabajos futuros También es interesante plantear este mismo procedimiento empleado en MOPs, para mixturas de exponenciales truncadas, MTEs. Por último, se pretende hacer esta misma estimación en lugar de por mı́nimos cuadrados, mediante máxima verosimilitud. Como habı́amos visto no se puede realizar esta estimación de forma exacta, por ello se desarrollará algún método aproximado, para poder utilizar este tipo de estimadores. Bibliografı́a [1] E. M. L. Beale. On minimizing a convex function subject to linear inequalities. Journal of the Royal Statistical Society Series B, 17:173–184, 1955. 25 [2] J.W. Bunch and L. Kaufman. Indefinite quadratic programming. Technical report, Computing Science, 1977. 25 [3] B. R. Cobb and P. P. Shenoy. Hybrid Bayesian networks with linear deterministic variables. In Proceedings of the Proceedings of the TwentyFirst Conference Annual Conference on Uncertainty in Artificial Intelligence (UAI-05), pages 136–144. AUAI Press, 2005. 3 [4] B. R. Cobb and P. P. Shenoy. Nonlinear deterministic relationships in Bayesian networks. ECSQARU’05. Lecture Notes in Artificial Intelligence, 3571:27–38, 2005. 3 [5] B. R. Cobb and P. P. Shenoy. Inference in hybrid Bayesian networks with mixtures of truncated exponentials. International Journal of Approximate Reasoning, 41:257–286, 2006. 3 [6] B. R. Cobb, P. P. Shenoy, and R. Rumı́. Approximating probability density functions with mixtures of truncated exponentials. Statistics and Computing, 16:293–308, 2006. 3, 4 [7] A.R. Conn. Linear programming via a nondifferentiable penalty function. SIAM Journal on Numerical Analysis, 13:145–154, 1976. 26 66 BIBLIOGRAFÍA [8] R.W. Cottle and G.B. Dantzig. Complementary pivot theory of mathematical programming. Technical report, STANFORD UNIV CALIF OPERATIONS RESEARCH HOUSE, 1968. 25 [9] R. M. Curds. Propagation techniques in probabilistic expert systems. Department of Statistical Science, University College London, 1997. 3 [10] G. B. Dantzing. Linear programming and extensions. Princeton University Press, Princeton, 1963. 25 [11] A. Dax. The gnidient projection method for quadratic programming. Technical report, Institute of Mathematics Report, The Hebrew University of Jerusalem, 1978. 26 [12] C. Van de Panne and A. Whinston. The simplex and the dual method for quadratic programruing. Operations Research Quarterly, 15:355–389, 1964. 25 [13] K. W. Fertig and N. R. Mann. A general quadratic programming algorithm. Journal of the Institute of Mathematics and Its Applications, pages 76–91, 1971. 25 [14] P.E. Gill and W. Murray. Numerically stable methods for quadratic programming. Mathematical programming, 14:349–372, 1978. 25 [15] D. Golfarb. Extension of newton’s method and simplex methods for solving quadratic programs. Numerical methods for nonlinear optimization, pages 239–254, 1972. 25 [16] D. Golfarb and A. Idnani. A numerically stable dual metodo for solving strictly convex quadratic programs. Mathematical Programming, 27:1–33, 1983. 24, 26, 27 [17] A.S. Goncalves. Numerical methods for nonlinear optimization. F.A. Lootsma, 1972. 25 [18] M.D. Grigoriadis and K. Ritter. A parametric method for semidefinite quadratic programs. SIAM Journal of Control, 7:559–577, 1969. 25 BIBLIOGRAFÍA 67 [19] R. A. Howard and J.E.Matheson. Influence diagrams. The principles and Applicatins od Decisions Group, 2:719–762, 1984. 2 [20] A.U. Idnani. Extension of newton’s method for solving positive definite quadratic programs: A computational experience. Technical report, City College of New York, Department of Computer Science, 1973. 26 [21] F. V. Jensen. Bayesian networks and decision graphs. Springer, 2001. 8 [22] F. V. Jensen, S. L. Lauritzen, and K. G. Olesen. Bayesian updating in causal probabilistic networks by local computation. Computational Statistics Quarterly, 4:269–282, 1990. 2 [23] F. V. Jensen, S. L. Lauritzen, and K. G. Olesen. From influence diagrams to junction trees. In Uncertainty in Artificial Intelligence: Proceedings of the Tenth Conference (UAI-94), pages 367–373, San Francisco, CA, 1994. 2 [24] F. V. Jensen and T. D. Nielsen. Bayesian Networks and Decision Graphs. Springer, 2007. 7 [25] H. Langseth, T. D. Nielsen, R. Rumı́, and A. Salmerón. Parameter estimation and model selection in mixtures of truncated exponentials. International Journal of Approximate Reasoning, 51:485–498, 2010. 3 [26] S. L. Lauritzen and F. Jensen. Stable local computation with conditional gaussian distributions. Statistics and Computing, 11:191–203, 2001. 2, 3 [27] S. L. Lauritzen and D. J. Spiegelhalter. Local computations with probabilities on graphical structures and their application to expert systems. Journal of the Royal Statistical Society, Series B, 50:157–224, 1988. 2 [28] C.E. Lemke. A method of solution for quadratic programs. Management Science, 8:442–453, 1962. 25 [29] U.N. Lerner. Hybrid Bayesian networks for reasoning about complex systems. Departament od Computer Science, Stanford University, 2002. 3 68 BIBLIOGRAFÍA [30] S. Moral, R. Rumı́, and A. Salmerón. Mixtures of truncated exponentials in hybrid Bayesian networks. ECSQARU’01. Lecture Notes in Artificial Intelligence, 2143:135–143, 2001. 3 [31] K. P. Murphy. A variational approximation for Bayesian networks with discrete and continuous latent variables. In Proceedings of the First Conference on Uncertainty in Artificial Intelligence, pages 467–475, 1999. 2 [32] S. M. Olmsted. On representing and solving decision problems. PhD thesis, Stanford University, 1983. 2 [33] J. Pearl. Evidential reasoning using stochastic simulation of causal models. Artificial Intelligence, 32:247–257, 1987. 2 [34] V. Romero, R. Rumı́, and A. Salmerón. Learning hybrid Bayesian networks using mixtures of truncated exponentials. International Journal of Approximate Reasoning, 42:54–68, 2006. 3 [35] R. Rumı́ and A. Salmerón. Approximate probability propagation with mixtures of truncated exponentials. International Journal of Approximate Reasoning, 45:191–210, 2007. 3 [36] I. J. Schoenberg. Contributions to the problem of approximation of equidistant data by analytic functions. Quarterly of Applied Mathematics, 4:45– 99,112–141, 1946. 3 [37] L. Schumaker. Spline Functions: Basic Theory, 3rd ed. Cambridge Univ. Press, New York. 3 [38] R. D. Shachter. Evaluating influence diagrams. Operations Research, 34:871–882, 1986. 2 [39] P. P. Shenoy. Valuation-based systems for bayesian decision analysis. Operations Research, 40:463–484, 1992. 2 [40] P. P. Shenoy. Inference in hybrid Bayesian networks using mixtures of Gaussians. In Proceedings of the 22nd Conference on Uncertainty in Artificial Intelligence (UAI-06), pages 428–436, 2006. 3 BIBLIOGRAFÍA 69 [41] P. P. Shenoy and G. Shafer. Axioms for probability and belief function propagation. In Uncertainty in Artificial Intelligence 4, pages 169–198, 1990. 2, 3, 12 [42] P. P. Shenoy and J. West. Inference in hybrid Bayesian networks with deterministic variables. ECSQARU’09. Lecture Notes in Computer Science, 5590:46–58, 2009. 4 [43] P. P. Shenoy and J. C. West. Mixtures of polynomials in hybrid Bayesian networks with deterministic variables. In Proceedings of the 8th Workshop on Uncertainty Processing (WUPES’09), pages 202–212, 2009. 1, 2, 10 [44] P. P. Shenoy and J. C. West. Inference in hybrid Bayesian networks using mixtures of polynomials. International Journal of Approximate Reasoning, In Press, 2010. 1 [45] H. Theil and C. Van De Panne. Quadratic programming as an extension of conventional quadratic maximization. Management Science, 7:1–20, 1960. 26 [46] P. Wolfe. The simplex method for quadratic programming. Econometrica, 27:382–398, 1959. 25 [47] A. Salmerón y M. Morales. Estadı́stica Computacional. Servicio de publicaciones, Universidad de Almerı́a, 2001. 19