Universidad de Almer´ıa Universidad de Santiago de Compostela

Universidad de Almerı́a Departamento de Estadı́stica y Matemática Aplicada Universidad de Santiago de Compostela Departamento de Estadı́stica e Investigación Operativa ESTIMACIÓN PARAMÉTRICA EN DENSIDADES MOP UNIVARIANTES Autora Inmaculada Pérez Bernabé Directores Antonio Salmerón Cerdán Manuel Febrero Bande ALMERÍA, JUNIO 2012 Autorización de entrega Dr. D. Antonio Salmerón Cerdán y Dr. D. Manuel Febrero Bande CERTIFICAN Que el proyecto titulado Estimación Paramétrica en Densidades MOP Univariantes ha sido realizado por D.a Inmaculada Pérez Bernabé, con D.N.I. 71011397R, en el departamento de Estadı́stica y Matemática Aplicada de la Universidad de Almerı́a, bajo la dirección del Dr. D. Antonio Salmerón Cerdán, Catedrático de Universidad de la Universidad de Almerı́a y del Dr. D. Manuel Febrero Bande, Catedrático de Universidad de la Universidad de Santiago de Compostela. Esta memoria constituye la documentación que, con nuestra autorización, entrega dicho alumno como Proyecto Fin de Máster. Firmado. Dr. D. Antonio Salmerón Cerdán Dr. D. Manuel Febrero Bande Almerı́a, a 29 de junio de 2012 Índice general Índice general III Índice de figuras V 1. Introducción 1 1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Reseña histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. Organización del trabajo . . . . . . . . . . . . . . . . . . . . . . . 4 2. Funciones MOP 7 2.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1. Función MOP unidimensional . . . . . . . . . . . . . . . . 10 2.2. Ventajas de las MOPs . . . . . . . . . . . . . . . . . . . . . . . . 12 3. Contribuciones 15 3.1. Desarrollos teóricos previos . . . . . . . . . . . . . . . . . . . . . . 15 3.1.1. Método de máxima verosimilitud . . . . . . . . . . . . . . 16 3.1.2. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . . 17 3.1.3. Método de Inversión . . . . . . . . . . . . . . . . . . . . . 19 3.1.4. Puntos extremos y puntos de inflexión . . . . . . . . . . . 21 3.1.5. Algoritmo aproximado del EM . . . . . . . . . . . . . . . . 22 3.2. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2.1. Estimación paramétrica . . . . . . . . . . . . . . . . . . . 24 3.2.2. Número de términos de la función polinómica . . . . . . . 28 3.2.3. Partición del dominio . . . . . . . . . . . . . . . . . . . . . 30 ÍNDICE GENERAL iv 4. Experimentos 4.1. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . 31 31 4.2. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Distribución chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . 33 35 38 4.5. Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . 4.6. Mixtura de exponenciales . . . . . . . . . . . . . . . . . . . . . . . 39 40 4.7. Mixtura de normales . . . . . . . . . . . . . . . . . . . . . . . . . 4.8. Mixtura de una exponencial y de una normal . . . . . . . . . . . . 4.9. Mixtura de una beta y una Weibull . . . . . . . . . . . . . . . . . 42 43 45 4.10. Mixtura de betas . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11. Mixtura de tres exponenciales . . . . . . . . . . . . . . . . . . . . 47 49 4.12. Mixtura de exponenciales y una normal . . . . . . . . . . . . . . . 4.13. Mixturas de tres normales . . . . . . . . . . . . . . . . . . . . . . 4.14. Mixtura de distribuciones tipo Weibull y una exponencial . . . . . 51 53 54 4.15. Mixtura de cuatro exponenciales . . . . . . . . . . . . . . . . . . . 4.16. Mixtura de cuatro normales . . . . . . . . . . . . . . . . . . . . . 57 59 4.17. Mixtura de una Weibull, dos normales y una exponencial . . . . . 61 5. Conclusiones y futuros trabajos 5.1. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 Bibliografı́a 65 Índice de figuras 2.1. Ejemplo de una red bayesiana con cinco variables. . . . . . . . . . 8 2.2. Ejemplo MOP: ajuste en un único intervalo . . . . . . . . . . . . 11 2.3. Ejemplo MOP: ajuste en dos intervalos . . . . . . . . . . . . . . . 12 3.1. Raı́ces del polinomio . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2. Método de Inversión . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3. Puntos extremos y ajuste polinómico partiendo el dominio por el mı́nimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.1. Ajuste en un único intervalo y partiendo el dominio para datos procedentes de una distribución exponencial. . . . . . . . . . . . . 32 4.2. Método de inversión para el MOP ajustado procedente de datos exponenciales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3. Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución normal. . . . . . . . . . . . . . . . . 34 4.4. Método de inversión para el MOP ajustado a partir de datos normales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.5. Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución beta. . . . . . . . . . . . . . . . . . . 37 4.6. Método de inversión para el MOP ajustado a partir de datos procedentes de una beta. . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.7. Ajuste polinómico de una distribución χ2 y comparación de muestras. 38 4.8. Ajuste polinómico de una distribución Weibull y comparación de muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 ÍNDICE DE FIGURAS vi 4.9. Ajuste en un único intervalo y partiendo el dominio de los datos procedentes de dos distribuciones exponenciales. . . . . . . . . . . 41 4.10. Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones exponenciales. . . . . . . . . . . . . 41 4.11. Ajuste polinómico de dos distribuciones normales y comparación de muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.12. Ajuste en un intervalo y en dos partes de una distribución normal y de una exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.13. Método de inversión para el MOP ajustado a partir de una mixtura de exponenciales y una normal. . . . . . . . . . . . . . . . . . . . 45 4.14. Ajuste en uno y dos intervalos de datos procedentes de una beta y una Weibull. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.15. Método de inversión para el MOP ajustado a partir de datos procedentes de una beta y una Weibull. . . . . . . . . . . . . . . . . 47 4.16. Ajuste en uno y dos intervalos para datos procedentes de dos distribuciones betas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.17. Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones betas. . . . . . . . . . . . . . . . . 49 4.18. Ajuste polinómico para datos exponenciales y método de inversión para las muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.19. Ajuste final de una mixtura de tres exponenciales y comparación de muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.20. Ajuste polinómico en uno y dos intervalos para datos procedentes de distribuciones tipo exponencial y normal. . . . . . . . . . . . . 52 4.21. Método de inversión para el MOP ajustado a partir de datos exponenciales y normales. . . . . . . . . . . . . . . . . . . . . . . . . 53 4.22. Ajuste polinómico para datos procedentes de 3 normales y método de inversión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.23. Ajuste polinómico sin partir y partiendo el dominio para datos procedentes de distribuciones tipo Weibull y exponencial. . . . . . 56 4.24. Método de inversión para el MOP ajustado procedente de distribuciones tipo Weibul y una exponencial. . . . . . . . . . . . . . . 56 ÍNDICE DE FIGURAS 4.25. Ajuste de un polinomio en uno y dos intervalos para datos procedentes de 4 distribuciones exponenciales. . . . . . . . . . . . . . . 4.26. Ajuste polinómico final del MOP estimado a partir de datos exponenciales y el método de inversión. . . . . . . . . . . . . . . . . . 4.27. Ajuste polinómico sin partir y partiendo el dominio para datos vii 57 58 procedente de distribuciones normales. . . . . . . . . . . . . . . . 4.28. Método de inversión para el MOP ajustado a partir de datos nor- 60 males. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.29. Ajuste polinómico, para datos procedentes de dos normales, una Weibull y una exponencial, en un único intervalo. . . . . . . . . . 60 4.30. Ajuste de un MOP de 2-piezas a partir de datos normales, exponenciales y de tipo Weibull y comparación de muestras . . . . . . 61 62 Capı́tulo 1 Introducción 1.1. Motivación Las redes bayesianas hı́bridas han cobrado importancia en los últimos años como herramienta para representar modelos probabilı́sticos en los que intervienen variables discretas y continuas simultáneamente. Algunos modelos destacados en este ámbito son el condicional Gaussiano y el basado en mixturas de exponenciales truncadas (MTEs). Recientemente, han surgido las mixturas de polinomios (MOPs), con una filosofı́a parecida a las MTEs, pero mejorándolas en algunos aspectos, como la posibilidad de representar una mayor variedad de dependencias funcionales entre variables del modelo. La mayor dificultad que encierra la inferencia en redes bayesianas hı́bridas es la marginalización de las variables continuas, las cuales están vinculadas con la integración de las funciones de probabilidad (FDPs). Las mixturas de polinomios fueron propuestas por Shenoy y West (véase por ejemplo, [43] y [44]) para resolver este problema. Las MOPs son más fáciles de calcular incluso en los casos en el que las funciones de densidad sean multi-dimensionales. También son aplicables a una gran variedad de funciones deterministas en redes bayesianas hı́bridas. Una de las caracterı́sticas de las MOPs es que las piezas en donde los polinomios están definidos son hipercubos. Se propone relajar esta condición para que cada una de las piezas de la MOP estén definidas en regiones llamadas hiper-rombos. Esto nos permite 2 1.2. Reseña histórica construir MOPs a partir de modelos Gaussianos multi-dimensionales usando una MOP a partir de una distribución normal estándar univariante. El trabajo propuesto consiste en el estudio de la estimación paramétrica de este tipo de funciones univariantes. 1.2. Reseña histórica Las redes bayesianas (RBs) y los diagramas de influencia (DIs) fueron inventados a mediados de los años 80 (véase, por ejemplo, [33] y [19]) para representar modelos probabilı́sticos discretos multi-dimensionados y para la toma de decisiones, respectivamente. Existen varios algoritmos para el cálculos de las marginales de distribuciones a posteriori para una red bayesiana discreta (véase, por ejemplo, [27], [41], y [22])y para resolver diagramas de influencia discretos (vease por ejemplo, [32], [38], [39] y [23]). Las redes bayesianas hı́bridas contienen una mezcla de variables discretas y continuas. Una variable continua se dice que es determinista si sus distribuciones condicionadas no varı́an. Las distribuciones condicionadas de las variables deterministas suelen ser descritas por las ecuaciones que describen una variable determinista como una función respecto a sus padres continuos. Las variables deterministas plantean un problema en la inferencia ya que la densidad conjunta de todas las variables continuas no existe. Shenoy y West [43] describen una extensión de la arquitectura de Shenoy-Shafer [41] para permitir la inferencia en las RBs hı́bridas con variables deterministas. Lauritzen y Jensen propusieron un algoritmo [26] para el uso de Gaussianas en RBs hı́bridas, con el requerimiento de que las funciones de densidad condicionadas de las variables continuas siguieran un modelo lineal Gaussiano (CLG), y que las variables discretas no tuvieran padres continuos. Las marginales de la distribución normal multivariante se pueden encontrar fácilmente sin la necesidad de integración. Las desventajas son que, en el proceso de inferencia, las variables continuas tienen que ser marginalizadas antes que las discretas. Cuando una RB tiene variables discretas con padres continuos, Murphy [31] utiliza una aproximación al producto de los potenciales asociados con una va- Capı́tulo 1. Introducción 3 riable discreta y sus padres, con una distribución CLG. Lerner [29] utiliza una técnica de integración numérica llamada Cuadratura de Gauss que aproxima una distribución condicional Gaussiana no lineal a una Gaussiana lineal. Esta misma técnica puede utilizarse para aproximar el producto de potenciales asociados a una variable discreta y sus padres continuos. El método de Murphy y de Lerner está relacionado por tanto con el algoritmo propuesto por Lauritzen y Jensen [26] para resolver las mezclas resultantes de RBs Gaussianas. Shenoy [40] propone una aproximación de distribuciones no CLG mediante mezclas de Gaussianas utilizando una técnica de optimización no lineal para asegurarse de que las variables discretas no tienen padres continuos. La mixtura resultante de la RB Gaussiana, se resuelve utilizando el algoritmo de Lauritzen y Jensen [26]. Moral et al. [30] proponen aproximaciones de funciones de densidad, mediante mixturas de exponenciales truncadas (MTEs) que son fácilmente integrables. Dado que la familia de mixturas de exponenciales truncadas están cerradas bajo combinación y marginalización, la estructura de Shenoy-Shafer [41] se puede utilizar para resolver una MTE en redes bayesianas. Cobb y Shenoy [5] y Cobb et al. [6] proponen el uso de una técnica de optimización no lineal para encontrar aproximaciones MTE para distribuciones unidimensionales. Cobb y Shenoy ([4] y [3]) amplı́an este método a RBs con variables deterministas lineales y no lineales. En el último caso, se aproximan funciones no lineales deterministas por trozos lineales. Rumı́ y Salmerón [35] describen la propagación de probabilidad aproximada con aproximaciones MTE que sólo tienen dos términos exponenciales en cada trozo. Romero et al. [34] describen el aprendizaje de potenciales MTE a partir de datos, y Langseth et al. [25] investigan el uso de aproximaciones MTE donde los coeficientes de las MTEs están restringidos a enteros. En este trabajo, se propone utilizar aproximaciones de mixturas de polinomios (MOP) mediante aproximaciones de funciones de probabilidad (PDF). Las mixtura de polinomios se utilizan en muchos campos, incluyendo los gráficos por ordenador, teorı́a de aproximación y análisis numérico. Estos fueron estudiados por primera vez por Schoenberg [36]. Cuando las funciones MOP son continuas, se refieren a splines polinomicos [37]. El uso de splines para aproximar las funciones de densidad fue introducido por Curds [9]. Para nuestro propósito, la continuidad 4 1.3. Organización del trabajo no es un requisito esencial, solo restringiremos nuestro análisis al ajuste polinómico por trozos de la función de densidad. Usar MOPs es similar al uso de las MTEs. Las MOPs pueden ser fácilmente integrables y están cerradas bajo combinación y marginalización. De ahı́, que la arquitectura de Shenoy-Shafer [42] se puede utilizar para hacer inferencia en RBs con variables deterministas. Sin embargo, hay varias ventajas de las funciones MOP frente a las MTEs. En primer lugar, podemos encontrar aproximaciones MOP diferenciando las funciones de probabilidad condicionadas, usando aproximaciones de las series de Taylor. Encontrar aproximaciones MTE como sugiere Cobb et al. [6] requiere la solución de problemas no lineales de optimización, que no es una tarea tan fácil, ya que implica buscar entre las soluciones óptimas locales. En segundo lugar, en el caso que las funciones de distribución condicionadas tengan muchos padres, encontrar una buena aproximación MTE puede ser demasiado complicado ya que requiere resolver problemas de optimización no lineales en espacios de alta dimensión para cada uno de los trozos de la MTE. El desarrollo en las series de Taylor también puede ser utilizado para encontrar aproximaciones MOP de funciones de probabilidad condicionadas. En tercer lugar, si una RB hı́brida contiene funciones deterministas, entonces el enfoque MTE se puede utilizar sólo para funciones lineales deterministas. Esto es debido a que las funciones MTE no son cerradas bajo las transformaciones necesarias para las funciones deterministas no lineales. Las funciones MOP son cercanas a una gran familia de funciones deterministas que incluyen funciones lineales y cocientes. Esto nos permite la utilización de las MOP en RBs hı́bridas, de una manera más factible que utilizando las MTEs. 1.3. Organización del trabajo El documento está dividido en cinco capı́tulos. El capı́tulo 1 donde nos introduciremos en el mundo de las MOPs. En el capı́tulo 2 se hablará de éstas y de sus ventajas frente a otro tipo de funciones. El capı́tulo 3, tema central del trabajo, nos muestra los algoritmos desarrollados para alcanzar el objetivo del ajuste. En el capı́tulo 4 introduciremos una serie de experimentos realizados para Capı́tulo 1. Introducción 5 justificar el buen funcionamiento de los métodos implementados. Por último en el capı́tulo 5 se hablará de las conclusiones a las que se han llegado y de futuras lı́neas de investigación en relación con este tema. Cada uno de los capı́tulos está organizado en distintos apartados. En el apartado 1.1 del capı́tulo de introducción trataremos de justificar la utilización de este tipo de funciones. A continuación en el apartado 1.2 se hablará de los antecedentes y se darán algunas referencias bibliográficas de interés en este campo. El capı́tulo de funciones MOP se dividirá en dos apartados. El apartado 2.1 donde se darán definiciones formales de las figuras relevantes utilizadas en el trabajo y el apartado 2.2 en el que se hablará de las ventajas que representan las MOPs a la hora de trabajar con ellas en lugar de utilizar otro tipo de funciones. En el tercer capı́tulo de las contribuciones aportadas, veremos algunos desarrollos previos realizados, sección 3.1 y se plantearán los algoritmos desarrollados para realizar este tipo de ajustes, sección 3.2. También se hablará de como ha sido desarrollado este en R. En el capı́tulo 4, nos centraremos en plantear posibles ejemplos o experimentos realizados con el programa implementado en R durante el periodo de investigación, valiéndonos para ello de una serie de distribuciones conocidas. Al final del trabajo se introducirá un apartado con las referencias bibliográficas mencionadas a lo largo del trabajo. Capı́tulo 2 Funciones MOP 2.1. Definiciones Definición 1. Una red bayesiana [24] es un grafo acı́clico dirigido, que describe la distribución de probabilidad conjunta de un grupo de variables aleatorias. Sea X = X1 , X2 , . . . , Xn un conjunto de variables aleatorias. Formalmente, una red bayesiana para X es un par B =< G, T > en el que: G es un gráfico acı́clico dirigido en el que cada nodo representa una de las variables X1 , X2 , . . . , Xn y cada arco representa relaciones de dependencia directas entre las variables. La dirección de los arcos indica que la variable ’apuntada’ por el arco depende de la variable situada en su origen. T es un conjunto de parámetros que cuantifica la red. Contiene las probabilidades PB (xi | pa(xi )) para cada posible valor xi de cada Xi y cada posible valor pa(xi ) de P a(Xi ), donde éste último denota al conjunto de padres de Xi en G. Ası́, una red bayesiana B define una distribución de probabilidad conjunta única sobre X dada por: PB (Xi ) = n Y i=1 PB (Xi | P a(Xi )). 8 2.1. Definiciones Es importante observar que la estructura de la red no sólo proporciona información sobre las dependencias probabilı́sticas entre las variables, sino también sobre las independencias condicionales de una variable o un conjunto de ellas dada otra u otras variables. Las reglas para la interpretación de la estructura de una red bayesiana están basadas en el concepto de d-separación [21]. X1 X2 X3 X4 X5 Figura 2.1: Ejemplo de una red bayesiana con cinco variables. La Figura 2.1 muestra una red bayesiana de variables X1 , . . . , X5 . De acuerdo con la estructura de este gráfico serı́a necesario definir una distribución condicionada para cada una de las variables dados sus padres. En este caso, p(x1 ), p(x2 | x1 ), p(x3 | x1 ), p(x4 | x2 , x3 ) y p(x5 | x3 ). Las redes bayesianas se propusieron originalmente para el manejo de las variables discretas. Sin embargo, en problemas reales, es muy común la presencia de dominios continuos y discretos simultáneamente. Definición 2. Una red bayesiana se dice que es hı́brida cuando las variables aleatorias continuas y discretas coexisten simultáneamente en el modelo. Para trabajar con variables discretas, una solución consiste en discretizar los datos continuos. Ası́, la aplicación de los métodos existentes para las variables discretas puede llevarse a cabo. Sin embargo, la discretización es sólo una aproximación y otras alternativas fueron estudiadas con éxito más tarde. Algunos de los métodos donde las variables continuas y discretas se pueden manejar al mismo tiempo sin necesidad de utilizar discretización son, el modelo condicional gaussiano (CG), las mixturas de exponenciales truncadas (MTE), y las mixturas de polinomios (MOP). 9 Capı́tulo 2. Funciones MOP Definición 3. Sea X una variable continua en una red bayesiana hı́brida, Z = (Z1 , . . . , Zd )T sus padres discretos, y Y = (Y1 . . . , Yc )T sus padres continuos. Los potenciales de una distribución condicional gaussiana lineal (CLG) en redes bayesianas hı́bridas tienen la forma: φ(X | z, y) ∼ N µ = lTz y + bz , σz2 , (2.1) donde z e y son una configuración de los padres discretos y continuos de X, respectivamente. Para una configuración concreta z, lTz es la transpuesta de la matriz de coeficientes del modelo de regresión lineal con los valores c (uno para cada padre continuo), bz la media para la variable X y σz2 > 0, la varianza para la variable X. Definición 4. (Potenciales MTE) Sea X un vector mixto aleatorio n-dimensional. Sea Z = (Z1 , . . . , Zd )T y Y = (Y1 , . . . , Yc )T las partes discretas y continuas de X, respectivamente, con c + d = n. Diremos que una función f : ΩX 7→ R+ 0 es un potencial Mixtura de Exponenciales Truncadas (potencial MTE) si una de las siguientes condiciones se cumple: i. Z = ∅ y f pueden ser escritos como f (x) = f (y) = a0 + m X i=1 ai exp bTi y (2.2) para todo y ∈ ΩY , donde ai ∈ R y bi ∈ Rc , i = 1, . . . , m. ii. Z = ∅ y existe una partición D1 , . . . , Dk de ΩY en los hipercubos f definida como: f (x) = f (y) = fi (y) if y ∈ Di , donde cada fi , i = 1, . . . , k puede ser escrita en la forma de la ecuación (2.2). iii. Z 6= ∅ y cada valor de z ∈ ΩZ , fz (y) = f (z, y) puede ser definido como en ii. 10 2.1. Definiciones 2.1.1. Función MOP unidimensional Una lı́nea reciente de investigación relacionada con las redes bayesianas hı́bridas es el desarrollo de las Mixturas de Polinomios (MOPs) propuestas por Shenoy [43]. La idea es reemplazar las funciones exponenciales por polinomios. Definición 5. Una función unidimensional f : R → R se dice que es una mixtura de polinomios si es una función a trozos de la siguiente forma:  a + a x + a x2 + . . . + a xn 0i 1i 2i ni f (x) = 0 para x ∈ Ai , i = 1, . . . , k, (2.3) en otro caso. donde A1 , . . . , Ak son intervalos disjuntos en R que no dependen de x, y a0i , . . . , ani son constantes para todos los i. Diremos que f es una función de k-trozos y ngrados (asumiendo ani 6= 0 para algunos i). La principal motivación para definir las funciones MOP es que son funciones fáciles de integrar y cerradas bajo transformaciones, como la multiplicación, integración y la suma, las principales operaciones necesarias para hacer inferencia en redes bayesianas. La condición de que cada una de las piezas esté definida en intervalos Ai es necesaria para facilitar la integración en este tipo de funciones. Una función m-dimensional f : R → R se dice que es una mixtura de polinomios si f (x1 , . . . , xm ) = f1 (x1 ) · f2 (x2 ) · . . . · fm (xm ), (2.4) donde cada fi (xi ) es una función MOP unidimensional definida como en la ecuación (2.4). Si cada fi (xi ) es una función de ki -piezas y ni -grados, entonces f es una función MOP de k1 · . . . · km piezas y n1 + . . . + nm grados. Por tanto, es importante mantener un número mı́nimo de trozos y grados. Ejemplo 1. Contamos con un conjunto de datos, X. Realizamos un ajuste mediante un único polinomio, y los resultados obtenidos son los siguientes: f (x) = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 + a5 x5 − 6,025 ≤ x ≤ 6,075, (2.5) 11 Capı́tulo 2. Funciones MOP donde los parámetros estimados asociados a la ecuación (2.5) son: a0 = 0,1263572 a1 = −0,0003648792 a2 = −0,004536409 a3 = −0,001185822 a4 = 4,310182 · 10−5 a5 = 3,527107 · 10−5 , 0.20 0.00 0.10 f(x) 0.30 Ajuste polinomico grado 5 −6 −4 −2 0 2 4 6 x Figura 2.2: Ejemplo MOP: ajuste en un único intervalo Si utilizamos una mixtura de polinomios los resultados son los siguientes: f (x) =  4 X    ai1 xi   i=0 4 X      i ai2 x para x ∈ (−6,025, −0,025) (2.6) para x ∈ (−0,025, 6,075), i=0 donde los coeficientes del MOP correspondientes a la ecuación (2.6) son: a01 = 0,02612908 a11 = 0,1228933 a21 = 0,1643514 a02 = 0,3378926 a12 = −0,1544091 a22 = 0,01117277 a31 = 0,04693114 a32 = 0,00344102 a41 = 0,003813828 a42 = −0,000425986 12 2.2. Ventajas de las MOPs 0.20 0.00 0.10 f(x) 0.30 Ajuste polinómico −6 −4 −2 0 2 4 6 x Figura 2.3: Ejemplo MOP: ajuste en dos intervalos Podemos observar como partiendo el dominio en dos intervalos 2.3 obtenemos un mejor ajuste que si cogemos un único intervalo 2.2. Por lo que tendrı́amos una función MOP de 2-trozos y grado-14. 2.2. Ventajas de las MOPs Una de las grandes ventajas de la utilización de las MOPs frente a otro tipo de funciones es que es fácil encontrar aproximaciones de funciones de densidad diferenciables usando una extension de las series de Taylor de las FDP (funciones de probabilidad), o usando la interpolación de Lagrange. Las MTEs y las MOPs multi-dimensionales a trozos están definidas en regiones llamadas hipercubos. Una ventaja de esta restricción es que estos trozos son fácilmente integrables. Sin embargo, la restricción de los hipercubos posee una limitación. Es difı́cil encontrar una función MTE o una aproximación de una MOP multi-dimensional por trozos que sea fácil de integrar. El árbol mixto propuesto por Shenoy and West [41] es de grandes dimensiones Capı́tulo 2. Funciones MOP 13 y no se adapta bien a la práctica, es decir, las aproximaciones que utilizan estos métodos tienen demasiadas piezas o términos o un grado demasiado alto para su uso práctico. Otro problema es la presencia de los condicionales deterministas para las variables continuas. Por ejemplo, supongamos que X tiene como función de probabilidad fX (x), Y tiene la función de probabilidad condicionada fY |x (y), y supongamos que Z tiene una condición determinista dada por la función lineal Z = X + Y . Para encontrar la distribución marginal de Z, es necesario combinar fX (x) y fY |x (z − x) y entonces integrar x. El problema es que aunque fY |x (y) se define en hipercubos, fY |x (z − x)) no tiene porque estar definida en hipercubos. Esto influye tanto en las MTEs, como en las MOPs. Para solventar este problema se sugiere sustituir la condición de hipercubo por otros más generales llamados hiper-rombos. Para funciones unidimensionales, las dos condiciones coinciden. Sin embargo, para dos o más dimensiones, la condición del hiper-rombo es una generalización de la condición del hipercubo. La condición de los hiper-rombos tiene varias ventajas importantes. En primer lugar, nos permite definir aproximaciones MOP de las distribuciones condicionales Gaussianas de grandes dimensiones utilizando una aproximación MOP de la función de probabilidad unidimensional normal estándar. En segundo lugar, las funciones MOP están definidas en hiper-rombos que son cerrados bajo las operaciones necesarias para las funciones lineales deterministas multidimensionales. Esto no es cierto para las funciones MTE, es decir, si la definición de las funciones MTE fueran generalizadas de manera que la condición del hipercubo fuera reemplazado por la condición de hiper-rombo, entonces las funciones MTE no estarı́an cerradas bajo las operaciones necesarias para las funciones lineales deterministas multi-dimensionales. Por ejemplo, la suma de dos variables independientes con funciones de probabilidad exponenciales tiene una función de probabilidad gamma, que no es una función MTE. En tercer lugar, las funciones MOP que se definen en hiper-rombos son cerrados bajo la integración. En cuarto lugar, la penalización del cálculo que supone tener condiciones de hiper-rombo para MOPs (en comparación con la condición de hipercubo) parece ser pequeña. Capı́tulo 3 Contribuciones 3.1. Desarrollos teóricos previos El propósito de este trabajo es la estimación paramétrica de densidades MOP univariantes dados unos datos X1 , X2 , . . . , Xn . Para llegar al resultado teórico que arrojaremos más adelante se intentaron desarrollar otros métodos descritos brevemente a continuación. En la búsqueda de los estimadores θ̂ de los coeficientes de un polinomio, hay que tener claro cuáles son las propiedades más deseables a la hora de encontrar un buen estimador de estos parámetros. Consistencia. Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido, p θ̂ − → θ0 . Carencia de sesgo. El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro, E(θ̂) = θ. Eficiencia. Al estimador, al ser una variable aleatoria, no puede exigı́rsele que para una muestra cualquiera se obtenga como estimación el valor exacto 16 3.1. Desarrollos teóricos previos del parámetro. Sin embargo podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña como sea posible. Es decir, h i h i Var θ̂1 < Var θ̂2 . Suficiencia. El estimador deberı́a aprovechar toda la información existente en la muestra. Diremos que θ̂ es un estimador suficiente si no depende de θ para estimar este parámetro. 3.1.1. Método de máxima verosimilitud Se empezó planteando la utilización de estimadores de máxima verosimilitud, ya que poseen buenas propiedades, como la consistencia, la suficiencia y la eficiencia, aunque no siempre son insesgados como se desearı́a. Sea X una v.a. con función de densidad o de masa de probabilidad f (x; θ), que depende de un parámetro desconocido θ el cual se desea estimar. Sea x1 , . . . , xn una realización de una muestra de X. Se define la función de verosimilitud de la muestra como L(θ) = n Y f (x; θ). i=1 L(θ) está definida como un producto, que puede ser difı́cil de derivar para maximizar. Sin embargo, dado que la función logarı́tmica es monótona creciente, sucede que logL(θ) alcanza su máximo en el mismo punto que L(θ), por lo que en realidad usaremos el logaritmo, dado que log L(θ) = n X log(f (x; θ)). i=1 Los pasos a seguir para la estimación de estos parámetros son: n X 1. Calcular la función log L(θ) = log(f (x; θ)). i=1 ∂ log L(θ) 2. Resolver la ecuación = 0. ∂θ 3. Sea θ̂ la solución de dicha ecuación. ∂ 2 log L(θ) 4. Comprobar que evaluada en θ = θ̂ es negativa. ∂θ2 17 Capı́tulo 3. Contribuciones 5. En caso afirmativo, el estimador de máxima verosimilitud es θ̂. Si aplicamos este método a un polinomio para estimar sus coeficientes, vamos a llegar a un ’indeterminación’. Por tanto, recurrimos a otra clase de estimadores. 3.1.2. Método de mı́nimos cuadrados Se planteo el uso de estimadores mediante mı́nimos cuadrados, técnica de análisis numérico encuadrada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados {(xk , yk )}nk=1 y una familia de funciones {fj (x)}m j=1 , se intenta encontrar la función, dentro de dicha familia, que mejor se aproxime a los datos (un ”mejor ajuste”), de acuerdo con el criterio de mı́nimo error cuadrático. En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos. Se puede demostrar que este método minimiza el residuo cuadrado esperado, con el mı́nimo de operaciones (por iteración), pero requiere un gran número de iteraciones para converger. Desde un punto de vista estadı́stico, un requisito implı́cito para que funcione el método de mı́nimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Markov prueba que los estimadores mı́nimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. La técnica de mı́nimos cuadrados se usa comúnmente en el ajuste de curvas. Los pasos a seguir para la estimación de los parámetros mediante este método son: 1. Ecuación que minimice la suma de los cuadrados de los residuos: Ec = n X k=1 yk − m X cj fj (xk ) j=1 n !2 . (3.1) 18 3.1. Desarrollos teóricos previos 2. Cálculo de las derivadas parciales del error medio con respecto a cada una de los coeficientes que deseamos estimar del polinomio, igualamos a cero: ∂Ec = 0, para i=1,2, . . .,m. ∂ci 3. Despejamos los ci de las ecuaciones y obtenemos nuestros ĉi . Estimados los parámetros surgió un problema y es que algunas de las densidades estimadas daban valores negativos. Para intentar solventar esto, se utilizaron los Multiplicadores de Lagrange. La intención era introducir una restricción de no negatividad de manera que: Sea f (x) una función definida en un conjunto abierto n-dimensional x ∈ Rn . Se definen s restricciones gk (x) = 0, k = 1, . . . , s, y se observa (si las restricciones son satisfechas) que: h(x, λ) = f − s X λk g k . k=1 Se procede a buscar un extremo para h, ∂h = 0, lo que es equivalente a ∂xi P ∂f ∂gk = sk λk . ∂xi ∂xi Una vez determinados los valores de λ, volvemos al número original de variables y ası́ continuamos encontrando el extremo de la nueva ecuación no restringida, F (x, y) = f (x, y) − λ(g(x, y) − c). Los resultados obtenidos no fueron tan buenos como se esperaba. Y por ello, se optó por calcular las raı́ces del polinomio. Es decir, donde los valores de la densidad se hacı́an cero, a0i + a1i x + a2i x2 + . . . + ani xn = 0. No es un ejercicio trivial, ya que la complicación de estas operaciones crece a medida que aumenta el grado del polinomio. Para nuestra práctica solo interesaba, las raı́ces reales, no las complejas. 19 Capı́tulo 3. Contribuciones Figura 3.1: Raı́ces del polinomio El objetivo de esto, era utilizar estas raı́ces como lı́mites para integrar nuestro polinomio y desechar los valores negativos. Este desarrollo se complicaba a medida que obtenı́amos más raı́ces. En la figura 3.1 podemos observar donde se localizan las raı́ces que vamos a tomar como lı́mites a la hora de integrar el polinomio y reajustar los coeficientes para que el área bajo la curva integre 1. 3.1.3. Método de Inversión Para comprobar la eficacia de la técnica desarrollada, se implementó el método de inversión, (véase por ejemplo, [47]). Teorema 1. Asumiremos que X es una variable aleatoria con función de distribución FX . Si U → U(0, 1), entonces la variable Y = FX−1 (U) sigue la misma distribución que X. Demostración. Por definición Y = FX−1 (y) = ı́nf{x ∈ R | FX (x) ≥ y} 0 ≤ y ≤ 1. 20 3.1. Desarrollos teóricos previos Entonces, FY (x) = P {Y ≤ x} = P {FX−1(U) ≤ x} = P {U ≤ FX (x)} = FX (x). Por tanto, X e Y tienen la misma distribución. El teorema anterior se puede usar para generar una muestra para la variable 0.0 0.2 0.4 0.6 0.8 1.0 F(x) X. Basta con generar número aleatorios y calcular sus inversos mediante FX , obteniendo una muestra de variables independientes con la misma distribución que X. Este proceso se muestra en la figura 3.2 −3 −2 −1 0 1 2 3 F−1 (U) Figura 3.2: Método de Inversión Se utilizó el test de Kolmogórov-Smirnov (test K-S) para comparar si la nueva muestra generada a partir de los polinomios aprendidos y la muestra original de los datos procedı́an de una misma distribución. El test K-S es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones entre sı́, como serı́a nuestro caso, con la muestra generada a partir del polinomio aprendido y la de los datos de partida. El estadı́stico es: Dn,n′ = sup |F1,n (x) − F2,n′ (x)| x 21 Capı́tulo 3. Contribuciones donde F1,n y F2,n′ son las funciones de distribución empı́ricas de la primera y la segunda muestra respectivamente. La hipótesis nula es rechazada si r nn′ Dn,n′ > Kα . n + n′ Una vez comprobada la eficacia del método desarrollado, se intentó desarrollar una función para poder partir en dominio en más de un intervalo. Cuando trabajamos con datos reales, puede ser necesario realizar un ajuste por partes. Para ello se optó por encontrar los puntos extremos y puntos de inflexión de la función de densidad de los datos. 3.1.4. Puntos extremos y puntos de inflexión Utilizaremos el mı́nimo como punto para partir el dominio y de la misma manera que antes hacı́amos, ajustar ahora dos o más distribuciones. Se desarrolló un método para poder encontrar los puntos donde la densidad cambiaba de cóncavo a convexo, o al revés. Lo primero que se usó fue el histograma empı́rico para tener las x e y. Las xi son los puntos centrales de cada intervalo y las yi son las alturas de cada una de las barras del histograma, es decir los valores de densidad. A continuación se creó una función para encontrar los puntos extremos y los puntos de inflexión con R. Esta función se basa en las diferencias entre las yi . La primera distancia es entre cero y la primera densidad, la segunda entre la primera densidad y la segunda, y ası́ con todas los valores de densidad. Ahora tendremos que evaluar las tres primeras diferencias. Si la primera y la tercera son menores o mayores que la segunda, entonces tendremos un punto extremo. Si la primera diferencia es menor que la segunda pero la segunda es mayor que la tercera, o al revés, tendremos un punto de inflexión. Se realizaron los mismos pasos con las otras diferencias hasta obtener todos estos puntos. En la figura 3.3 podemos ver todos los puntos extremos y de inflexión de la muestra. Para nuestro trabajo solo interesa el mı́nimo absoluto, que es por donde 22 3.1. Desarrollos teóricos previos Figura 3.3: Puntos extremos y ajuste polinómico partiendo el dominio por el mı́nimo se debe partir el dominio. 3.1.5. Algoritmo aproximado del EM Dado que el método desarrollado en el punto anterior no era todo lo eficaz o exacto que se deseaba, se intentó plantear un nuevo algoritmo aproximado del EM. Definición 6. En estadı́stica el algoritmo de esperanza-maximización (EM) se usa para encontrar estimadores de máxima verosimilitud de parámetros en modelos probabilı́sticos que dependen de variables no observables. Los pasos a seguir por este método son: El paso E donde se computa la esperanza de la verosimilitud mediante la inclusión de variables latentes como si fueran observables. El paso M donde se calculan los estimadores de máxima verosimilitud de los parámetros mediante la maximización de la verosimilitud esperada del paso E. Los parámetros que se encuentran en el paso M se usan para comenzar el paso E siguiente, y ası́ el proceso se repite. Para estimar los parámetros, solo tenemos que tener en cuenta las probabilidades entre cada uno de los cluster y las de pertenencia a éstos. El algoritmo 23 Capı́tulo 3. Contribuciones tiende a converger pero nunca alcanza un punto fijo. Calcularemos su verosimilitud como, N X J Y ( pj P (xi | J)). i=1 j=1 El proceso seguirá iterando hasta que el incremento de esta medida sea insignificante. Con MOPs ya vimos que no es posible estimar parámetros mediante máxima verosimilitud, por ello la necesidad de creación de un nuevo algoritmo. Debido a esto, se implementó un nuevo método, que se aproxima al del EM, pero salvando las diferencias necesarias para poder trabajar con las mixturas de polinomios. Este método se basa en el algoritmo arriba descrito, para reagrupar los datos en función de los ajustes aprendidos sin necesidad de encontrar los puntos de corte como anteriormente se habı́a realizado. En nuestro caso la variable oculta del que se utiliza en el algoritmo EM será el grupo (1,2) que se le asigne a cada uno de los datos de la muestra. La metodologı́a a seguir para este algoritmo aproximado es, el cálculo de la verosimilitud mediante un único ajuste y la obtenida partiendo el dominio. La primera vez, se asignan los grupos aleatoriamente, después la reasignación de los grupos se realiza en función de las probabilidades obtenidas para cada uno de los grupos cada vez que se realiza el proceso. Ası́ mediante un proceso iterativo, se consigue el ajuste de un solo polinomio o de una mixtura de polinomios con mayor verosimilitud. El ajuste final por trozos no era tan bueno como se esperaba, por ello se desechó esta posible linea de investigación. Introducidos los desarrollos anteriores, finalmente se realizó un método eficaz para el ajuste polinómico y para la búsqueda de los puntos de corte de la muestra. Como apartado central del trabajo, tanto el desarrollo teórico y algorı́tmico como el software implementado se comentarán en los apartados 3.2 y 10. 24 3.2. Algoritmo 3.2. Algoritmo La dificultad de estimar densidades en MOPs univariantes de datos se puede dividir en tres problemas: 1. La partición del dominio de la variable en intervalos disjuntos. 2. Determinar el número de términos de la función polinómica en cada uno de los intervalos. 3. Estimar los parámetros dado un intervalo y dado el número de términos del polinomio. 3.2.1. Estimación paramétrica Primero nos centraremos en la parte de la estimación de los parámetros, suponiendo conocidos los puntos de corte del dominio y el número de términos de la función polinómica. Consideraremos X una variable aleatoria, con función de densidad f (x) y asumiremos que el dominio de f (x) está dividido en M intervalos {Ωi }M i=1 . Nos centraremos en un único intervalo particular m. Para desarrollar el método finalmente empleado en la estimación de estos parámetros, optamos por despejar los parámetros por mı́nimos cuadrados mediante el algoritmo dual de Goldfarb y Idnani [16], presentado a continuación. Método Dual Los problemas de programación lineal son un caso especial de los problemas en los que una función no lineal es minimizada sujeta a restricciones. Estos problemas son más difı́ciles de resolver. Una excepción es el caso donde la función objetivo es cuadrática y las restricciones son lineales. Nos encontramos por tanto ante, el Algoritmo Dual, presentado como un método eficiente y numéricamente estable para la programación cuadrática positiva definida. Este método está basado en la factorización QR. Teorema 2. Factorización QR 25 Capı́tulo 3. Contribuciones Si A es una matriz m × n con columnas linealmente independientes, entonces A puede factorizarse en la forma A = QR en la que Q es una matriz con columnas ortonormales y R es una matriz triangular superior. Teorema 3. Algoritmo QR Para una matriz A n × n invertible, cuyos valores propios λ1 , . . . , λn son tales que |λ1 | < |λ2 | < . . . < |λn |, la metodologı́a empleada es: 1. Tomar A0 = A. 2. Para i = 0, 1, 2, . . . , k, determinar la descomposición QR de Ai = Qi Ri y tomar Ai + 1 = Ri Qi . El resultado óptimo es una aproximación a una matriz triangular Ak cuyos elementos diagonales son todos los valores propios A. El método dual está centrado en la parte estrictamente convexa (definida positiva) del problema de programación cuadrático: 1 minimizar f (x) = aT x + xT Gx 2 (3.2) sujeto a s(x) = C T x − b ≥ 0 (3.3) donde x y a son vectores n-dimensionales, G es una matriz simétrica definida positiva n × n, C es una matriz m × n, b es un vector de dimensión m y los super-ı́ndices T denotan la transpuesta. Aunque el vector de la variable x puede estar sujeto también a restricciones de igualdad Ĉ T x − b̂ = 0. Varios métodos y algoritmos han sido propuestos para resolver problemas de programación cuadrática. Estos incluyen los métodos primarios de Beale [1], Dantzig [10], Fletcher [13], Goldfarb [15], Bunch y Kaufman [2], Gill y Murray [14] y Wolfe [46], los métodos duales de Lemke [28] y Van de Panne y Whinston [12], los principales métodos pivote de Cottle y Dantzig [8], los métodos paramétricos de Grigoriadis y Ritter [18], el método primal-dual de Goncalves [17], los métodos 26 3.2. Algoritmo de penalización exactas de la función de Conn [7] y el método de optimización subproblema de Theil y Van de Panne [45]. La mayor parte del trabajo en la programación cuadrática requiere dos fases: en la primera se obtiene un punto factible y en la segunda se consigue un punto óptimo mientras se mantiene la viabilidad. La experiencia indica que la mayor parte del esfuerzo empleado en resolver este tipo de problemas, se invierte en la fase de la búsqueda del punto factible. Esto se puede mejorar utilizando otro enfoque en la primera fase que probablemente obtenga un punto cercano al punto óptimo. Esto fue sugerido por ldnani [20] que minimizó la función objetivo sin restricciones, como vemos en la ecuación (3.2), utilizando x = −G−1 a como punto de partida. La misma sugerencia de un punto de partida diferente fue realizada por Dax, en [11]. Las pruebas computacionales indican que este enfoque encuentra un punto factible que también es óptimo. Esto hace que en la segunda fase sean necesarias muy pocas iteraciones adicionales para obtener la optimalidad en el proceso. Aunque estos resultados eran alentadores se sugirió un nuevo enfoque dual. Algoritmo Dual El algoritmo dado a continuación sigue el enfoque dual descrito anteriormente, [16]. Para ello, es necesario introducir alguna notación. Usaremos K para denotar el conjunto de {1, 2, . . . , m} los ı́ndices de las restricciones de la ecuación (3.3) y A ⊆ K para denotar los ı́ndices del conjunto activo. Definimos un subproblema P (J) al QP con función objetivo solo sujeta a un subconjunto de restricciones J incluido en K. Si la solución C de un subproblema P (J) se encuentra en algún conjunto activo linealmente independiente de restricciones indexado por A ⊆ J llamaremos al par (x, A) una solución-S. Claramente si el par (x, A) es un par-S para el subproblema P (J) será también par-S para el subproblema P (A). Por independencia lineal de un conjunto de restricciones, estaremos diciendo que las correspondencias normales de estas restricciones son linealmente independientes. Denotaremos al vector de la i-ésima restricción en la ecuación (3.3), es decir la i-ésima columna de C, por ni . Capı́tulo 3. Contribuciones 27 Ahora podemos enfocar el algoritmo para resolver este tipo de problemas de programación cuadrática. Algoritmo 1: Método Dual QP Entrada: La función objetivo (3.2) a minimizar y el conjunto de restricciones a tener en cuenta (3.3) Salida : Los Cj óptimos que resuelven el problema de programación cuadrática 1 Asumir que algún par-S (x, A) es dado. 2 Repetir 3 a. Elegir una de las restricciones que no se cumplan p ∈ K − A. 4 b. si P (A ∪ {p}) no se satisface entonces 5 QP no es factible. 6 7 8 9 10 sino obtener un nuevo par-S (x, A) donde A ⊆ A y f (x) > f (x) Fijamos (x, A) := (x, A ∪ {p}). hasta que todas las restricciones se cumplan; Devolver X que se corresponde con los coeficientes Cj del polinomio cuyo error queremos minimizar y que son el conjunto de soluciones óptimas del QP. La función objetivo de la ecuación (3.2) que queremos minimizar será la suma de los errores al cuadrado, ecuación (3.1.2). Desarrollo del software Teóricamente hemos visto el método que utilizamos para la estimación de las MOPs. En la práctica para la implementación de éste R, vamos a desarrollar una función que utiliza, la orden ’solve.QP’ del paquete ’quadprog’. El paquete quadprog contiene rutinas y documentación para resolver problemas del programación cuadrática (QP). La función solve.QP implementa el método dual de Goldfarb y Idnani [16] para resolver este tipo de problemas de la forma mı́n (−dT b + 12 bT ) con las restricciones AT b ≥ 0. La función implementada en R requiere de las siguientes restricciones, las cuales deben cumplir las soluciones que arroje el QP: 1. La integral del polinomio entre el punto máximo y mı́nimo de los datos X 28 3.2. Algoritmo debe ser 1, es decir: Z mı́n(x) grado X máx(x) máx(x) ci xi f (x)dx = [F (x)]mı́n(x) = F (máx(x)) − F (mı́n(x)) = 1. i=0 (3.4) 2. Los valores de la densidad calculados en función de los coeficientes del polinomio estimados deben ser mayores que cero para cada uno de los j datos de nuestra muestra. grado X ci xij ≥ 0 para j = 1, . . . , n (3.5) i=0 Algoritmo 2: Ajuste polinómico grado n Entrada: Pares {xi , yi } de la muestra y el grado del polinomio que deseamos ajustar. Salida : Polinomio P x, que todos sus valores para los n datos muestrales sean positivos y además cuya función de densidad f (x) integre 1. 1 Crear la matriz X de dimensión 2 × n, cuya primera columna esté formada por unos y la segunda por los n valores de la variable. T 2 Calculamos X X. t 3 Calcular y X. 4 Crear una matriz AA con las n + 1 restricciones (3.4) y (3.5). 5 Formar un vector B con las desigualdades de las restricciones. T t 6 Resolver el problema con solve.QP(X X,y X, AA,B, meq = 1). Con el parámetro meq lo que estamos introduciendo es el número de restricciones de igualdad (=), las demás serán tomadas como mayor estricto (>). 7 Crear el polinomio P (x) con los coeficientes obtenidos cj . 8 Devolver P (x). En el algoritmo 2 se obtiene una estimación de la función polinómica de la densidad de los datos. 3.2.2. Número de términos de la función polinómica Visto el método empleado para la estimación de los parámetros dado el grado del polinomio, ahora lo nos interesa desarrollar un método que calcule el MOP 29 Capı́tulo 3. Contribuciones que mejor se ajuste a nuestros datos, sin la necesidad de introducir el grado que debe tener cada polinomio que estime. Para ello, nos apoyamos en alguna medida para conocer la verosimilitud del modelo estimado. La verosimilitud nos dice como de ’bueno’ es el modelo estimado con respecto al original. El modelo perfecto no existe, puesto que todos constituyen simplificaciones de la realidad y siempre son preferibles modelos con menos variables, puesto que además de ser más sencillos, son más estables y menos sometidos a sesgo. Por ello vamos a trabajar con una medida de verosimilitud que tenga en cuenta la cantidad de parámetros que se incluyen en el polinomio estimado y el número de datos muestrales que vamos a utilizar. Trabajaremos para ello con el criterio de información Bayesiano, BIC. La medida BIC planteada para el modelo, equivale a la log-verosimilitud, penalizada por el número de parámetros y el tamaño muestral, es decir: BIC = N grado X X j=1 i=0 log(cˆi xij ) ! 1 o − n parámetros · log N 2 (3.6) donde N es el tamaño de la muestra, grado es el grado del polinomio estimado y no parámetros es el número de coeficientes estimados para ese polinomio, o lo que es lo mismo grado + 1. Algoritmo 3: Ajuste polinómico con mejor BIC Entrada: Pares {xi , yi } de la muestra. Salida : Los parámetros cj del mejor ajuste polinómico para los datos X. 1 Asumimos que mejorBIC := −∞ 2 desde grado := 2 hasta 12 hacer 3 Calcular la función polinómica P (x). 4 Calcular el valor del BIC del polinomio estimado. 5 si mejorBIC > BIC entonces 6 mejorBIC := BIC. 7 mejorP (x) = P (x), guarda el polinomio con mejor BIC. 8 Devolver mejorP (x). En el algoritmo 3 conseguimos estimar el polinomio con el grado que mejor se 30 3.2. Algoritmo ajusta a los datos generados. Ya que el BIC planteado está en función de la verosimilitud, el criterio será quedarnos con aquella función polinómica que tenga mayor BIC, lo que no quiere decir que tenga mayor verosimilitud ya que también estamos penalizando el número de parámetros que estima el modelo. 3.2.3. Partición del dominio Como ya habı́amos visto, existe un tercer problema a la hora de estimar densidades MOPs univariantes: encontrar los puntos de cortes para ajustar distintos polinomios y conseguir un mayor BIC. Para ellos hemos creado un algoritmo que encuentra posibles candidatos a puntos de corte en todo el dominio de los datos Xi . Usaremos la notación x(x > xi ) para denotar al conjunto de puntos x de x que cumplen la condición de que x > xi ; análogamente para x(x ≤ xi ). Algoritmo 4: Ajuste polinómico por trozos Entrada: Pares {xi , yi } de la muestra. Salida : Ajuste MOP. 1 Asumimos que mejorBIC := −∞. 2 desde i := xi hasta n (donde n es el numero de datos) hacer 3 θ1 := Ajuste polinómico con mejor BIC 3 de (x(x ≤ xi )). 4 Calcular el valor del BIC de θ1 . 5 θ2 := Ajuste polinómico con mejor BIC 3 de (x(x ≤ xi )). 6 Calcular el valor del BIC de θ2 . 7 si BIC θ1 , θ2 , x > mejorBIC entonces 8 mejorBIC := BIC θ1 , θ2 , x. 9 mejorCorte := (xi+1 − x1 )/2 10 Devolver θ1 , θ2 , mejorBIC, mejorCorte. El algoritmo devuelve un único punto de corte. Una vez que se ha partido el dominio, en cada uno de los intervalos, Ω1 y Ω2 , se puede volver a aplicar el algoritmo 4, para ası́ encontrar más puntos de corte, de manera que se encuentre un MOP con mayor verosimilitud. Capı́tulo 4 Experimentos Para comprobar que efectivamente el método desarrollado es eficiente, se plantearon una serie de pruebas utilizando como muestra, datos aleatorios generados de una de las distribuciones conocidas tipo exponencial, binomial, normal, beta, chi-cuadrado y Weibull. También se realizaron otros experimentos mezclando unas con otras. El capı́tulo 4 se centra en la utilización de todas las funciones y algoritmos descritos anteriormente. 4.1. Distribución exponencial Empezaremos viendo un ejemplo muy sencillo. Generamos una muestra de 500 elementos que provienen de una distribución exponencial con lambda 1, E(λ = 1). Sin partir el dominio, los resultados obtenidos son los siguientes: f (x) = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 + a5 x5 0,025 ≤ x ≤ 9,225 donde los valores asociados a esta ecuación (4.1) son: a0 = 1,018076, a1 = −0,9025065, a2 = 0,3210156, a3 = −0,05585781, a4 = 0,0047168, a5 = −0,0001544201. (4.1) 32 4.1. Distribución exponencial Si utilizamos una mixtura de polinomios el tiempo de ejecución es de 12.471 segundos y los resultados son los siguientes: f (x) =  6 X    ai1 xi   para x ∈ (0,025, 0,425) i=0 6 X    ai2 xi   (4.2) para x ∈ (0,425, 9,225) i=0 donde los ai asociados al MOP de la ecuación (4.2) son: a01 = 0,7118358 a02 = 1,26391 a12 = −1,316895 a11 = 22,86954 a21 = −308,0185 a22 = 0,5901265 a32 = −0,1414006 a31 = 1451,085 a41 = −2433,152 a42 = 0,01883714 a51 = −491,2848 a52 = −0,001314588 a61 = 3548,169 a62 = 3,746186 · 10−5 . Ajuste polinómico 0.8 f(x) 0.6 0.4 0.4 0.0 0.0 0.2 f(x) 0.8 1.2 1.0 Ajuste polinómico grado 5 0 2 4 6 x 8 0 2 4 6 8 x Figura 4.1: Ajuste en un único intervalo y partiendo el dominio para datos procedentes de una distribución exponencial. El programa determina que el mejor ajuste es partiendo el dominio en dos trozos ya que el valor del BIC es mayor en este caso que con un único ajuste. Sin 33 Capı́tulo 4. Experimentos embargo, no sigue partiendo el dominio en más trozos, ya que si partimos más y comparamos con el BIC obtenido con un solo corte veremos que este no mejora. Habiendo ya estimado los polinomios correspondientes en cada uno de los dos trozos del dominio, aplicamos el método de inversión comentado en el punto 3.1.3. Si aplicamos el test K-S veremos que según el p-valor el ajuste es bueno. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0 2 4 6 8 x Figura 4.2: Método de inversión para el MOP ajustado procedente de datos exponenciales. En la figura 4.2 podemos observar como, la función de distribución empı́rica acumulada para los datos originales y para la muestra generada mediante el método de inversión a partir de los polinomios aprendidos anteriormente, son prácticamente idénticas. 4.2. Distribución normal Para la siguiente prueba, se generaron 500 datos de una distribución normal de media 0 y desviación tı́pica 1, N(µ = 0, σ = 1), con la ayuda de R. Veamos el ajuste que realiza el programa, partiendo y sin partir el dominio. 7 X i=0 ai xi − 3,125 ≤ x ≤ 3,625 (4.3) 34 4.2. Distribución normal donde, a1 = −0,0375452, a4 = 0,01564672, a0 = 0,3669942, a3 = 0,01996172, a2 = −0,1293823, a5 = 0,003145081, a6 = −0,00063738872, a7 = 0,0001523461. se corresponden con los valores correspondientes al ajuste obtenido en la ecuación (4.3). Utilizando una mixtura de polinomios, el tiempo de ejecución del programa hasta encontrar el MOP que mejor se ajusta a los datos generados es de 13.073 segundos y los resultados son los siguientes: f (x) =  4 X    ai1 xi   i=0 4 X      i ai2 x para x ∈ (−3,125, −0,875) (4.4) para x ∈ (−0,825, 3,625) i=0 a01 = 1,272493 a02 = 0,3710747 a11 = 1,731111 a21 = 1,01158 a12 = −0,05980619 a22 = −0,1208326 a31 = 0,2893378 a32 = 0,04608326 a41 = 0,03252996 a42 = −0,004300286 0.0 0.2 f(x) 0.0 0.2 f(x) 0.4 Ajuste polinómico 0.4 Ajuste polinómico grado 7 −3 −2 −1 0 1 x 2 3 −3 −2 −1 0 1 2 3 x Figura 4.3: Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución normal. 35 Capı́tulo 4. Experimentos Aunque el ajuste realizado con todo el dominio y partiendo el dominio resulta similar a simple vista, hemos comprobado mediante el valor de los correspondientes BIC que es mejor cuando realizamos un corte. Si seguimos partiendo el dominio los valores del BIC que ofrece el programa son inferiores, lo que nos indica que los ajustes realizados para más cortes no son mejores y por tanto, nos quedamos con una única partición del rango. Una vez aprendidos los polinomios, realizamos una simulación de datos, mediante el método de inversión. Comparamos la muestra inicial con la simulada con el test de Kolmogorov Smirnov que efectivamente arroja un p-valor grande, lo que indica que las dos muestras provienen de una misma distribución, véase la figura 4.4. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim −2 0 2 4 x Figura 4.4: Método de inversión para el MOP ajustado a partir de datos normales. 4.3. Distribución beta Generamos una muestra aleatoria de 500 elementos de una distribución beta con parámetros de forma 1/2 y 1/2, B(α = 1/2, β = 1/2). 36 4.3. Distribución beta Para un único ajuste polinómico el grado que alcanza es 6, mientras que cuando parte el dominio en 2 piezas, el grado es de 8 (4 + 4). Veamos las gráficas y el ajuste que realizamos mediante las funciones implementadas en R. 6 X ai xi 0,0025 ≤ x ≤ 0,9975 (4.5) i=0 donde los valores estimados se corresponden con: a0 = 4,523406, a1 = −78,35603, a2 = 596,3086, a3 = −2111,819, a4 = 3736,488, a5 = −3206,272, a6 = 1063,602. Utilizando una mixtura de polinomios, el tiempo de ejecución del programa hasta encontrar el MOP que mejor se ajusta a los datos generados es de 6.439 segundos y los resultados son los siguientes: f (x) =  4 X    ai1 xi   para x ∈ (0,0025, 0,0275) i=0 4 X    ai2 xi   (4.6) para x ∈ (0,0325, 0,9975) i=0 a02 = 2,188813 a01 = 17,33531 a11 = −4493,0651 a12 = −14,95649 a22 = 54,70464 a21 = 475651,1 a31 = −20503210 a41 = 307548100 a32 = −84,50501 a42 = 45,8669. 37 Capı́tulo 4. Experimentos Ajuste polinómico 0 0 1 1 2 3 f(x) 2 f(x) 3 4 5 4 Ajuste polinómico grado 6 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 x 0.6 0.8 1.0 x Figura 4.5: Ajuste en un único intervalo y partiendo el dominio de datos procedentes de una distribución beta. El ajuste polinómico con mejor BIC es el MOP de 2-piezas y grado-8 (4+4). Si realizamos las pertinentes comprobaciones como en los anteriores apartados mediante el método de inversión y el test K-S, podremos ver que efectivamente ambas muestras, la original y la simulada tienen funciones de distribución similares, véase la figura 4.6. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0.0 0.2 0.4 0.6 0.8 1.0 x Figura 4.6: Método de inversión para el MOP ajustado a partir de datos procedentes de una beta. 38 4.4. Distribución chi-cuadrado 4.4. Distribución chi-cuadrado En el siguiente ejemplo, trabajamos con datos generados a partir de una chicuadrado χ2 con 10 grados de libertad. En este caso el programa realiza las pertinentes comparaciones y determina que no es necesario partir el dominio. El polinomio ajustado es de grado 6, y los resultados obtenidos son los siguientes: 6 X ai xi 1,55 ≤ x ≤ 26,85 (4.7) i=0 a0 = 0,07950775, a1 = −0,07067867, a3 = −0,003365689, a6 = 5,927842 · 10−8 . a4 = 0,0001991204, a5 = −5,546911 · 10−6, a2 = 0,02591051, Fn(x) 0.10 f(x) 0.05 0.00 5 10 15 20 25 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.15 Ajuste polinómico grado 6 F(X) F(val_sim 0 5 x 10 15 20 25 30 x Figura 4.7: Ajuste polinómico de una distribución χ2 y comparación de muestras. En el primer gráfico de la figura 4.7 se observa como la linea roja correspondiente al ajuste realizado y la negra que se corresponde con los valores de la densidad kernel de los datos X, son prácticamente iguales. Para comprobar esto, hemos simulado una muestra procedente del polinomio aprendido, para verificar que ambas muestras proceden de una misma distribución utilizamos el test K-S, segunda gráfica de la figura. 39 Capı́tulo 4. Experimentos 4.5. Distribución Weibull La última prueba que vamos a realizar con datos que provengan de una única distribución es sobre una Weibull. La distribución Weibull que hemos utilizado para generar los datos tiene como parámetros de forma y escala, β = 1,5 y θ = 3, respectivamente. Volviendo a realizar el ajuste, está vez el programa también determina que el mayor BIC se consigue sin partir el dominio. La ecuación del polinomio y las gráficas obtenidas se presentan a continuación: 6 X ai xi 0,025 ≤ x ≤ 11,025 (4.8) i=0 donde, a0 = 0,04361531, a2 = −0,2091959, a1 = 0,3776644, a3 = 0,04625209, a4 = −0,005148195, a5 = 0,0002873393, a6 = −6,402609 · 10−6 . Fn(x) 0.3 0.2 0.0 0.1 f(x) 0 2 4 6 x 8 10 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.4 Ajuste polinómico F(X) F(val_sim 0 2 4 6 8 10 x Figura 4.8: Ajuste polinómico de una distribución Weibull y comparación de muestras. En la primera gráfica de la figura 4.8 podemos ver, el ajuste realizado por el programa con la linea roja y la densidad kernel de los datos de la muestra inicial con la curva negra. Para comprobar que el ajuste realizado es bueno, generamos 40 4.6. Mixtura de exponenciales nuevos datos a partir del polinomio aprendido mediante el método de inversión, y comparamos ambas muestras con el test de Kolmogorov Smirnov para ver si puede considerarse que provengan de una misma distribución. En la segunda gráfica, vemos como efectivamente la función de distribución de ambas muestras es prácticamente la misma. 4.6. Mixtura de exponenciales Vamos a crear una base de datos con valores que provengan de dos tipos de distribuciones betas, la primera será una E(λ = 1) y la otra será la misma que la anterior desplazada en 5 posiciones. Los resultados obtenidos arrojan que el mejor ajuste se consigue partiendo el dominio, como era de esperar ya que los datos están bien diferenciados para formar dos conglomerados. Obtenemos una MOP de 2-piezas y grado-8. El tiempo de ejecución es de 11.647 segundos. 5 X ai xi 0,0025 ≤ x ≤ 10,175 (4.9) i=0 donde los parámetros estimados para la ecuación (4.9) son: a0 = 0,533449, a1 = −0,4925529, a2 = 0,148599, a3 = −0,01384746, a4 = −0,0001017248, a5 = 4,448974 · 10−5 . f (x) =  4 X    ai1 xi   para x ∈ (0,025, 4,975) i=0 4 X    ai2 xi   (4.10) para x ∈ (5,025, 10,175) i=0 cuyos coeficientes se corresponden con: a01 = 0,5267496 a11 = −0,46356 a21 = 0,1544462 a02 = 11,51374 a12 = −4,963331 a22 = 0,8035588 a31 = −0,02214045 a32 = −0,0577852 a41 = 0,001115051 a42 = 0,001555237. 41 Capı́tulo 4. Experimentos 0.3 0.0 0.1 0.2 f(x) 0.2 0.0 0.1 f(x) 0.3 0.4 Ajuste polinómico 0.4 Ajuste polinómico grado 5 0 2 4 6 8 10 0 2 x 4 6 8 10 x Figura 4.9: Ajuste en un único intervalo y partiendo el dominio de los datos procedentes de dos distribuciones exponenciales. En la figura 4.9 podemos ver como partiendo el dominio se consigue un mejor ajuste de los datos. Para verificar este hecho, hemos aplicado el método de inversión para generar datos a partir de los dos polinomios aprendidos, hemos comprobado que efectivamente los generados y los datos originales provienen de una misma distribucion mediante el test K-S, como vemos en el gráfico 4.10. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0 2 4 6 8 10 x Figura 4.10: Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones exponenciales. 42 4.7. Mixtura de normales 4.7. Mixtura de normales En este apartado, vamos a ver como se comporta el programa cuando introducimos datos generados aleatoriamente a partir de dos normales, N(µ = 0, σ = 1) y N(µ = −5, σ = 1). Los resultados obtenidos para esta prueba son los siguientes: 8 X ai xi − 7,625 ≤ x ≤ 2,575 (4.11) i=0 donde los coeficientes ai de la ecuación (4.11) son: a0 = 0,1917622, a1 = 0,01864625, a2 = −0,07407197, a3 = −0,009750372, a4 = 0,008994962, a5 = 0,001500964, −5 a6 = −0,0002400603, a7 = −6,138505 · 10 , a8 = −3,198659 · 10−6 . Fn(x) 0.20 f(x) 0.10 0.00 −8 −6 −4 −2 x 0 2 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.30 Ajuste polinómico grado 8 F(X) F(val_sim −8 −6 −4 −2 0 2 x Figura 4.11: Ajuste polinómico de dos distribuciones normales y comparación de muestras. En figura 4.11 podemos observar dos gráficas. La primera de ellas relacionada con el ajuste realizado por el programa. Para comprobar si este ajuste es bueno, actuamos de la misma manera que en ejemplos anteriores. Primero generamos nuevos datos a partir del polinomio aprendido mediante el método de inversión, y comparamos ambas muestras utilizando el test K-S, como se muestra en la 43 Capı́tulo 4. Experimentos segunda gráfica y si nos fijamos en el p-valor obtenido en el test, podemos afirmar que ambas muestras proceden de una misma distribución. 4.8. Mixtura de una exponencial y de una normal Para realizar este experimentos, se generaron 500 datos procedente de una distribución exponencial, E(λ = 1), y de una normal, N(µ = 7, σ = 1). Utilizando los programas desarrollados para realizar el ajuste polinómico y partir el dominio si fuera necesario, los resultados obtenidos son los siguientes: 6 X ai xi 0,025 ≤ x ≤ 9,925 (4.12) i=0 donde, a0 = 0,5906667, a1 = −0,7213815, a3 = −0,1445762, a6 = 8,184021 · 10−5 . a4 = 0,026541032, a5 = −0,002388849, f (x) =  5 X    ai1 xi        i=0 5 X i ai2 x a2 = 0,4290856, para x ∈ (0,025, 5,125) (4.13) para x ∈ (5,175, 9,925) i=0 cuyos coeficientes estimados son: a01 = 0,5719852 a11 = −0,6136847 a02 = 73,9765 a12 = −50,54936 a21 = 0,2847182 a31 = −0,07047527 a41 = 0,009293569 a22 = 13,512 a32 = −1,764886 a42 = 0,1128444 a51 = −0,0005175449 a52 = −0,002832323. Vemos que el programa determina que el mejor ajuste es realizado por el MOP de 2-piezas. 44 4.8. Mixtura de una exponencial y de una normal 0 2 4 6 x 8 10 0.0 0.1 0.2 0.3 0.4 0.5 f(x) f(x) Ajuste polinómico 0.0 0.1 0.2 0.3 0.4 0.5 Ajuste polinómico grado 6 0 2 4 6 8 10 x Figura 4.12: Ajuste en un intervalo y en dos partes de una distribución normal y de una exponencial. El tiempo empleado en este proceso fue de 6.331 segundos. Aunque en la gráfica 4.12 los ajustes son similares, según el criterio del BIC que nosotros habı́amos planteado (3.6) nos decantamos por partir el dominio en dos trozos. Por tanto nos quedarı́amos con un MOP de 2-trozos y grado-10 frente al único polinomio de grado-6. En ocasiones el programa para mixturas de una exponencial y una normal, deja sin partir el dominio, puesto que debemos siempre tener en cuenta que estamos trabajando con datos generados aleatoriamente y por tanto pueden salir distintos resultados. Para justificar, que efectivamente el ajuste realizado es bueno, generamos otra muestra a partir de los polinomios aprendidos, y con el test K-S vemos si ambas muestras proceden de la misma distribución. El test arroja un p-valor alto, lo que nos ı́ndica que efectivamente ambas muestras vienen de una misma distribución, se puede ver también en la gráfica 4.13. 45 Capı́tulo 4. Experimentos 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0 2 4 6 8 10 x Figura 4.13: Método de inversión para el MOP ajustado a partir de una mixtura de exponenciales y una normal. 4.9. Mixtura de una beta y una Weibull En esta sección, analizaremos una muestra generada aleatoriamente de datos que proceden de una distribución beta, B(α = 3/5, β = 3/5) y de una distribución Weibull, con parámetro de forma y escala β = 1,5 y θ = 2, respectivamente. El programa decide que la mejor solución a la hora de ajustar los datos a una distribución polinómica es partir el dominio formando un MOP de 2-piezas y grado-10, como veremos a continuación. El tiempo de ejecución es de 14.148 segundos. 5 X ai xi 0,025 ≤ x ≤ 8,475 (4.14) i=0 donde los coeficientes ai de la ecuación (4.14) se corresponden con los siguientes valores: a0 = 0,6149942, a1 = −0,47732335, a2 = 0,2078579, a3 = −0,04824669, a4 = 0,005320196, a5 = −0,0002190402. 46 4.9. Mixtura de una beta y una Weibull f (x) =  6 X    ai1 xi        i=0 6 X i ai2 x para x ∈ (0,025, 0,975) (4.15) para x ∈ (1,025, 8,475) i=0 donde los valores asociados a la ecuación (4.15) son: a01 = 0,9397709 a02 = −0,5546641 a11 = −7,550284 a12 = 1,007427 a22 = −0,4789647 a21 = 57,02523 a31 = −217,2742 a32 = 0,1009587 a42 = −0,01040727 a41 = 410,5779 a51 = −370,8559 a52 = 0,0004810528 a62 = −6,390855 · 10−6 . a61 = 128,5749 0.6 0.0 0.2 0.4 f(x) 0.4 0.0 0.2 f(x) 0.6 0.8 Ajuste polinómico 0.8 Ajuste polinómico grado 5 0 2 4 6 x 8 0 2 4 6 8 x Figura 4.14: Ajuste en uno y dos intervalos de datos procedentes de una beta y una Weibull. En la figura 4.14 se aprecia como partiendo el dominio se recoge mucha más información de los datos que ajustando un único polinomio. Para contrastar esto, utilizamos el método de inversión con el que generamos otra muestra a partir de los dos polinomios aprendidos. Utilizamos el test K-S para verificar que estas dos muestras proceden de una misma distribución. 47 Capı́tulo 4. Experimentos En el gráfico 4.15 podemos ver como las funciones de probabilidad acumulada de los datos X originales y los simulados con este método son prácticamente iguales. 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) Método de Inversión F(X) F(val_sim 0 2 4 6 8 x Figura 4.15: Método de inversión para el MOP ajustado a partir de datos procedentes de una beta y una Weibull. 4.10. Mixtura de betas Queremos realizar el ajuste polinómico de unos datos aleatorios generados de dos distribuciones betas B(α = 1/2, β = 1/2). El tiempo que empleo el programa en encontrar el punto óptimo donde cortar el dominio para encontrar máxima verosimilitud por el criterio del BIC establecido, fue de 22.796 segundos. Las siguientes ecuaciones muestras los ajustes sin partir y partiendo el dominio. 5 X ai xi − 0,9995 ≤ x ≤ 0,9995 i=0 con los valores de los coeficientes estimados ai , tal que: (4.16) 48 4.10. Mixtura de betas a0 = 0,70149, a1 = 0,02229545, a2 = −2,477258, a3 = −0,2373761, a4 = 3,155326, a5 = 0,3458579.  4 X    ai1 xi para x ∈ (−0,995, −0,015)   f (x) = i=0 8 X    ai2 xi para x ∈ (−0,005, 0,995)   (4.17) i=0 a01 = 1,535861 a02 = 2,599118 a11 = 13,13816 a12 = −63,60542 a21 = 48,43378 a22 = 730,24 a31 = 71,19737 a32 = −4291,927 a41 = 35,96201 a42 = 14235,1. a52 = −27697,71 a62 = 31305,9 a72 = −19006,72 a82 = 4789,178 En la ecuación (4.17) y en la figura 4.16 podemos observar el ajuste final de un MOP de 2-trozos y grado-12 (8+4). 1.5 0.0 0.5 1.0 f(x) 1.0 0.0 0.5 f(x) 1.5 2.0 Ajuste polinómico 2.0 Ajuste polinómico grado 5 −1.0 −0.5 0.0 x 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0 x Figura 4.16: Ajuste en uno y dos intervalos para datos procedentes de dos distribuciones betas. Comprobamos que este ajuste es bueno, generando datos a partir del MOP aprendido y comparando ambas muestras para ver si provienen de una misma 49 Capı́tulo 4. Experimentos distribución. Mediante estos métodos podemos ver que efectivamente el ajuste realizado por el programa puede ser considerado bueno. En la figura 4.17 podemos comprobar ésto, mediante las curvas de la función de probabilidad acumulada de los datos originales y la muestra simulada. Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión F(X) F(val_sim −1.0 −0.5 0.0 0.5 1.0 x Figura 4.17: Método de inversión para el MOP ajustado a partir de datos procedentes de dos distribuciones betas. 4.11. Mixtura de tres exponenciales En este experimento, queremos comprobar si el programa desarrollado, es capaz de encontrar más de un punto de corte óptimo para el ajuste polinómico de datos procedentes de tres distribuciones exponenciales. Para ellos hemos generado aleatoriamente tres exponenciales, de parámetros λ = 1. Presentamos los resultados obtenidos para el primer ajuste y para el ajuste final realizado, un MOP de 3-piezas y grado-12. Respecto al tiempo de ejecución, el programa tardó en encontrar el primer punto de corte, 8.306 segundos, y el otro, 0.8999 segundos, lo que nos indica que el sistema gastó en total aproximadamente 9.2 segundos. 7 X i=0 donde, ai xi − 9,95 ≤ x ≤ 4,55 (4.18) 50 4.11. Mixtura de tres exponenciales a0 = 0,06436582, a3 = −0,006625185, a1 = 0,03857554, a2 = 0,005533225, a4 = −0,001113837, a5 = 0,0001855703, a6 = 4,431948 · 10−5 , a7 = 2,12142 · 10−6 . 0.20 0.00 0.10 f(x) 0.00 0.10 f(x) 0.20 0.30 Ajuste polinómico 0.30 Ajuste polinómico grado 7 −10 −5 0 5 −10 −5 x 0 5 x Figura 4.18: Ajuste polinómico para datos exponenciales y método de inversión para las muestras. La ecuación (4.19) justifica el ajuste en el que se encuentran dos puntos de corte se muestra. Se muestran también las gráficas del MOP final estimado y la comprobación gráfica de que el ajuste realizado es bueno, ya que las funciones de distribución de la muestra inicial y la simulada para el MOP de 3-piezas son prácticamente iguales.  4 X    ai1 xi     i=0   4 X f (x) = ai2 xi   i=0   4  X     ai3 xi  para x ∈ (−9,95, −5,05) para x ∈ (−4,95, −0,05) para x ∈ (0,05, 4,55) i=0 con parámetros estimados asociados a la ecuación (4.19): (4.19) 51 Capı́tulo 4. Experimentos a01 = −0,03319941 a11 = 0,05321911 a02 = −0,0003892121 a03 = 0,3073907 a12 = −0,007950185 a13 = −0,2272121 a21 = 0,03208191 a22 = −0,002953893 a31 = 0,005714552 a32 = −0,001043111 a41 = 0,0003378832 a42 = 0,0003378832 a23 = 0,06524359 a33 = −0,008527417 a43 = 0,0004272028. Fn(x) 0.20 0.00 0.10 f(x) −10 −5 0 5 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.30 Ajuste polinómico F(X) F(valores_s −10 x −5 0 5 x Figura 4.19: Ajuste final de una mixtura de tres exponenciales y comparación de muestras. 4.12. Mixtura de exponenciales y una normal El experimento planteado cuenta con unos 600 datos procedentes de una normal,N(µ = 9, σ = 1) y de dos distribuciones exponenciales. Introducimos estos datos en el sistema y comprobamos los resultados, obtenidos. El tiempo de ejecución es de 10.265 segundo y en este caso el programa determina que no es necesario seguir partiendo el dominio, por lo que solo encuentra un punto óptimo de corte. 10 X ai xi 0,05 ≤ x ≤ 19,35 i=0 donde los coeficientes ai de la ecuación (4.20) son: (4.20) 52 4.12. Mixtura de exponenciales y una normal a1 = −0,302549, a4 = −0,03502415, a0 = 0,3315809, a3 = 0,05729014, a2 = 0,04899076, a5 = 0,008912126, a7 = 0,0001028194, a8 = −4,963242 · 10−6 , a10 = −1,422618 · 10−9 .  7 X    ai1 xi para x ∈ (0,05, 13,95)   f (x) = i=0 (4.21) 4 X   i  ai2 x para x ∈ (14,05, 19,35)   a6 = −0,001247918, a9 = 1,298768 · 10−7 , i=0 a01 = 0,3700597 a11 = −0,4905423 a02 = 192,6562 a12 = −44,21175 a21 = 0,3115737 a31 = −0,1039912 a41 = 0,01873357 a22 = 3,805803 a32 = −0,145583 a42 = 0,002087366. a51 = −0,001813164 a61 = 8,855063 · 10−5 a71 = −1,712042 · 10−6 El ajuste inicial sin partir el dominio es de un polinomio de grado-10. El ajuste final realizado es de un MOP de 2-piezas y grado-11 (7+4). Estos ajustes se muestran en la figura 4.20. 0.00 0.10 f(x) 0.10 0.00 f(x) 0.20 Ajuste polinómico 0.20 Ajuste polinómico grado 10 0 5 10 15 20 x 0 5 10 15 20 x Figura 4.20: Ajuste polinómico en uno y dos intervalos para datos procedentes de distribuciones tipo exponencial y normal. 53 Capı́tulo 4. Experimentos El programa finalizó porque el MOP encontrado partiendo una única vez el dominio es el que consigue mayor BIC. También podemos ver que este es bueno ya que si simulamos una muestra que provenga del MOP final estimado y la comparamos con la inicial, veremos que ambas provienen de una misma distribución, como se muestra en la figura 4.21, en el que se representa la función de distribución de ambas muestras. Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión F(X) F(val_sim 0 5 10 15 20 x Figura 4.21: Método de inversión para el MOP ajustado a partir de datos exponenciales y normales. 4.13. Mixturas de tres normales Generamos 600 datos aleatorios procedentes de distribuciones normales, N(µ = 1, σ = 1), N(µ = −5, σ = 1) y N(µ = −10, σ = 1). El programa intenta partir el dominio, pero considera que la función polinómica que mejor se ajusta a los datos X generados, minimizando su error, es un polinomio de grado-10. Los resultados obtenidos se muestran a continuación, al igual que las gráficas obtenidas en relación a este ajuste y al método de inversión aplicado para ver si efectivamente el ajuste es bueno. 10 X i=0 ai xi − 12,65 ≤ x ≤ 2,45 (4.22) 54 4.14. Mixtura de distribuciones tipo Weibull y una exponencial los parámetros asociados a la ecuación (4.22) son: a0 = 0,141534, a3 = −0,01025399, a2 = −0,06659624, a5 = 0,002195315, a1 = 0,01650998, a4 = 0,009752402, a6 = −0,000290694, a7 = −0,0001384532, a9 = −9,173677 · 10−7 , a10 = −1,863357 · 10−8 . Fn(x) 0.10 f(x) 0.05 0.00 −10 −5 0 x 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.15 Ajuste polinómico a8 = −1,706289 · 10−5 , F(X) F(val_sim −10 −5 0 x Figura 4.22: Ajuste polinómico para datos procedentes de 3 normales y método de inversión. En este ejemplo el programa no parte el dominio, pero como los datos son generados aleatoriamente, habrá ocasiones en que encuentre un mejor ajuste con una mixtura de polinomios. 4.14. Mixtura de distribuciones tipo Weibull y una exponencial El experimento planteado cuenta con unos 600 datos procedentes de dos distribuciones Weibull y de una exponencial, E(λ = 1). Para este conjunto de datos, el programa determina que es mejor cortar el dominio por un único punto, tardando el sistema 12.385 segundos en encontrar el mejor ajuste para los dos intervalos encontrados. Los resultados obtenidos se observan en las ecuaciones (4.23) y (4.24) 55 Capı́tulo 4. Experimentos 10 X ai xi − 4,875 ≤ x ≤ 10,475 (4.23) i=0 donde los ai son los coeficientes asociados a la ecuación (4.23) del polinomio: a0 = 0,1227406, a3 = −0,01304447, a1 = 0,04409973, a4 = 0,004088408, a6 = −0,0002612177, a7 = 1,132131 · 10−6 , a9 = −5,251131 · 10−7 , a10 = 1,605815 · 10−8 . f (x) =  4  X  ai1 xi   a2 = −0,02600977, a5 = 0,0007346978, a8 = 5,151587 · 10−6 , para x ∈ (−4,875, −0,025) i=0 4 X   ai2 xi   (4.24) para x ∈ (0,025, 10,475) i=0 donde, a01 = 0,02212092 a11 = 0,02364224 a02 = 0,3252122 a12 = −0,2740049 a21 = 0,06891567 a31 = 0,0243609 a22 = 0,08375895 a32 = −0,009737207 a41 = 0,002318717 a42 = 0,0003777211. El ajuste inicial sin partir el dominio es de un polinomio de grado-10. El ajuste final realizado es de un MOP de 2-piezas y grado-8 (4+4). Estos ajustes se muestran en la figura 4.23. 56 4.14. Mixtura de distribuciones tipo Weibull y una exponencial 0.00 0.10 f(x) 0.10 0.00 Density 0.20 Ajuste polinómico 0.20 Ajuste polinomico grado 10 −5 0 5 10 −5 0 X 5 10 x Figura 4.23: Ajuste polinómico sin partir y partiendo el dominio para datos procedentes de distribuciones tipo Weibull y exponencial. El punto de corte óptimo lo determina el programa a partir del BIC total. La gráfica final 4.24 muestra como el ajuste es lo bastante bueno, ya que a partir del MOP aprendido se ha generado otra muestra, cuya función de distribución es similar a la de los datos originales. También ha sido comprobado mediante el test K-S. Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión F(X) F(val_sim −5 0 5 10 x Figura 4.24: Método de inversión para el MOP ajustado procedente de distribuciones tipo Weibul y una exponencial. 57 Capı́tulo 4. Experimentos 4.15. Mixtura de cuatro exponenciales Este posiblemente es el experimento más extremo que vamos a realizar. Generamos datos que proceden de 4 distribuciones exponenciales. Presentamos los resultados obtenidos para el primer ajuste y para el ajuste final realizado, un MOP de 3-trozos y grado-15. Respecto al tiempo de ejecución, el programa tardó en encontrar el primer punto de corte, 23.513 segundos, y el otro, 1.015 segundos, lo que nos indica que el sistema gastó en total aproximadamente 25 segundos. A pesar de que el propósito era encontrar los 3 puntos de cortes que a priori parecı́an tener más lógica, el programa determinó a partir del BIC que el mejor ajuste se obtenı́a partiendo el dominio en tres intervalos. 7 X ai xi − 9,95 ≤ x ≤ 10,05. (4.25) i=0 Los valores de los parámetros asociados al ajuste polinómico de la ecuación (4.25) son: a1 = −0,005598671, a0 = 0,0424212, a3 = 0,0004264044, a6 = 6,573225 · 10−7 , a2 = 0,00224785, −5 a4 = −8,034574 · 10 , a7 = 1,424897 · 10−8 . 0.10 0.00 0.05 f(x) 0.10 0.00 0.05 f(x) 0.15 Ajuste polinómico 0.15 Ajuste polinómico grado 7 a5 = −6,280911 · 10−6 , −10 −5 0 5 10 x −10 −5 0 5 10 x Figura 4.25: Ajuste de un polinomio en uno y dos intervalos para datos procedentes de 4 distribuciones exponenciales. 58 4.15. Mixtura de cuatro exponenciales  5 X    ai1 xi     i=0   4 X f (x) = ai2 xi   i=0   4  X     ai3 xi  para x ∈ (−9,95, −5,05) para x ∈ (−4,95, −0,05) (4.26) para x ∈ (0,05, 10,05) i=0 a01 = 5,397315 a02 = 0,0008425641 a03 = 0,264415 a11 = 3,960542 a21 = 1,141656 a12 = −0,01245418 a13 = −0,256664 a22 = −0,007970009 a23 = 0,08838775 a31 = 0,1610971 a32 = −0,002013845 a33 = −0,0114178 a42 = 0,0001850294 a43 = 0,000489517. a41 = 0,01107963 a41 = 0,0002943306 Fn(x) 0.10 f(x) 0.05 0.00 −10 −5 0 x 5 10 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.15 Ajuste polinómico F(X) F(valores_s −10 −5 0 5 10 x Figura 4.26: Ajuste polinómico final del MOP estimado a partir de datos exponenciales y el método de inversión. En la figura 4.26 vemos como el programa solo ha encontrado dos puntos de corte, a pesar de ello, cuando simulamos valores que procedan del MOP de 3piezas, podemos comprobar mediante el test K-S que efectivamente la muestra generada procede de la misma distribución que los datos originales. Luego el ajuste puede ser considerado bueno. 59 Capı́tulo 4. Experimentos 4.16. Mixtura de cuatro normales En anteriores experimentos, vimos como con una mixtura de normales, el programa tendı́a a realizar un único ajuste. En este ejemplo en el que generaremos datos de 4 distribuciones normales con diferentes medias, podremos observar, como esta vez, el programa determina que el mejor ajuste se realiza partiendo el dominio en dos intervalos, formando un MOP de 2-piezas y grado-14 (7+7). El programa tarda en encontrar el punto de corte óptimo y en realizar los pertinentes ajustes en cada intervalo, 25.986 segundos. 5 X ai xi − 13,05 ≤ x ≤ 8,45, (4.27) i=0 los parámetros asociados a esta ecuación (4.27) son: a0 = 0,04812149, a1 = 0,003416551, a2 = 0,0003006013, −6 a3 = −0,0001101576, a4 = −7,867796 · 10 , a5 = 1,885338 · 10−7. f (x) =  7 X    ai1 xi   para x ∈ (−4,875, −0,025) i=0 7 X    ai2 xi   (4.28) para x ∈ (0,025, 10,475) i=0 donde, a01 = 9,925933 a02 = 0,09569929 a11 = 11,45911 a21 = 5,281058 a12 = −0,02120647 a22 = −0,03376468 a31 = 1,258599 a41 = 0,1687043 a51 = 0,01281444 a32 = 0,01079315 a42 = 0,002452305 a52 = −0,001190103 a61 = 0,0005143149 a71 = 8,466407 · 10−6 a62 = 0,0001402609 a72 = −5,295354 · 10−6. 60 4.16. Mixtura de cuatro normales 0.00 0.04 f(x) 0.04 0.00 f(x) 0.08 Ajuste polinómico 0.08 Ajuste polinómico grado 5 −10 −5 0 5 −10 x −5 0 5 x Figura 4.27: Ajuste polinómico sin partir y partiendo el dominio para datos procedente de distribuciones normales. La gráfica final 4.28 muestra como el ajuste es bueno, ya que a partir del MOP aprendido se ha generado otra muestra, cuya función de distribución es similar a la de los datos originales. También ha sido comprobado mediante el test K-S. Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión F(X) F(val_sim −15 −10 −5 0 5 10 x Figura 4.28: Método de inversión para el MOP ajustado a partir de datos normales. 61 Capı́tulo 4. Experimentos 4.17. Mixtura de una Weibull, dos normales y una exponencial En este último ejemplo veremos como actúa el programa en el caso de tener datos procedentes de distribuciones tipo normal, exponencial y Weibull. Para ello generamos unos 1000 datos aleatorios procedentes de estas distribuciones. El tiempo de ejecución del programa es de 28.118 segundos. 5 X ai xi 0,05 ≤ x ≤ 17,05 (4.29) i=0 a1 = −0,08441185 a0 = 0,1755445 a3 = −0,0007011015 a4 = −1,841254 · 10 a2 = 0,01510205 −5 a5 = 1,331597 · 10−6 donde los valores asociados a la ecuación (4.29) son: 0.20 0.00 0.10 f(x) 0.30 Ajuste polinómico grado 5 0 5 10 15 x Figura 4.29: Ajuste polinómico, para datos procedentes de dos normales, una Weibull y una exponencial, en un único intervalo. En la figura 4.29 vemos el ajuste que realiza el programa cuando no parte el dominio. Si seguimos compilando, el programa localiza un punto de corte válido. En la primera gráfica de la figura 4.30 vemos que encuentra un punto de corte óptimo, dando lugar a un MOP de 2-piezas y grado-14 (7+7). La segunda gráfica de esta figura nos enseña, las funciones de distribución de los datos originales y de los simulados a partir del MOP aprendido. 62 4.17. Mixtura de una Weibull, dos normales y una exponencial f (x) =  7 X    ai1 xi        i=0 7 X i ai2 x para x ∈ (0,05, 8,95) (4.30) para x ∈ (9,05, 17,05) i=0 Los valores asociados al MOP de la ecuación (4.30) son: a01 = −0,03613791 a02 = 1147,25 a11 = 0,8256912 a21 = −0,9911224 a31 = 0,4797598 a12 = −581,216 a22 = 125,5168 a32 = −14,97876 a41 = −0,1182149 a51 = 0,01575835 a61 = −0,001085006 a42 = 1,06684 a52 = −0,04534804 a62 = 0,001065089 a71 = 3,028942 · 10−5 a72 = −1,06614 · 10−5 Fn(x) 0.20 f(x) 0.10 0.00 0 5 10 x 15 0.0 0.2 0.4 0.6 0.8 1.0 Método de Inversión 0.30 Ajuste polinómico F(X) F(val_sim 0 5 10 15 x Figura 4.30: Ajuste de un MOP de 2-piezas a partir de datos normales, exponenciales y de tipo Weibull y comparación de muestras Con esos ejemplos, concluimos el capı́tulo de los experimentos. Más adelante lo que se pretende es trabajar con datos reales, no generados, para ası́ ver como se comporta realmente el programa. Capı́tulo 5 Conclusiones y futuros trabajos En este trabajo se ha realizado un nuevo enfoque a la hora de ajustar datos a su función de densidad original. El procedimiento finalmente desarrollado emplea la estimación de los parámetros de un polinomio por mı́nimos cuadrados, para minimizar de esta manera el error cuadrático medio. Una de las ventajas de las MOPs frente a otro tipo de ajustes es trabajar con polinomios. Los polinomios permiten una mayor flexibilidad a la hora de operar con ellos, en el sentido de que son fácilmente integrables y están cerrados bajo transformaciones tipo combinación y marginalización. Hay que tener presente que, a pesar de los planteamientos previos en este ámbito, no se habı́a desarrollado ningún método como este para trabajar con ajustes polinómicos. Esto hace que el método desarrollado sea novedoso. Todas las funciones y programas utilizados, se han implementado en el software R, lo que permitirá a la comunidad cientı́fica internacional poder utilizarlo sin necesidad de implementar el procedimiento desarrollado. 5.1. Trabajos futuros Finalizado este trabajo sobre el ajuste polinómico de unos datos, se plantean posibles nuevas lineas de investigación relacionadas con el tema. Puesto que se ha trabajado en un espacio unidimensional, el siguiente punto a tratar será ampliar la dimensión para usar funciones de densidad conjunta. 64 5.1. Trabajos futuros También es interesante plantear este mismo procedimiento empleado en MOPs, para mixturas de exponenciales truncadas, MTEs. Por último, se pretende hacer esta misma estimación en lugar de por mı́nimos cuadrados, mediante máxima verosimilitud. Como habı́amos visto no se puede realizar esta estimación de forma exacta, por ello se desarrollará algún método aproximado, para poder utilizar este tipo de estimadores. Bibliografı́a [1] E. M. L. Beale. On minimizing a convex function subject to linear inequalities. Journal of the Royal Statistical Society Series B, 17:173–184, 1955. 25 [2] J.W. Bunch and L. Kaufman. Indefinite quadratic programming. Technical report, Computing Science, 1977. 25 [3] B. R. Cobb and P. P. Shenoy. Hybrid Bayesian networks with linear deterministic variables. In Proceedings of the Proceedings of the TwentyFirst Conference Annual Conference on Uncertainty in Artificial Intelligence (UAI-05), pages 136–144. AUAI Press, 2005. 3 [4] B. R. Cobb and P. P. Shenoy. Nonlinear deterministic relationships in Bayesian networks. ECSQARU’05. Lecture Notes in Artificial Intelligence, 3571:27–38, 2005. 3 [5] B. R. Cobb and P. P. Shenoy. Inference in hybrid Bayesian networks with mixtures of truncated exponentials. International Journal of Approximate Reasoning, 41:257–286, 2006. 3 [6] B. R. Cobb, P. P. Shenoy, and R. Rumı́. Approximating probability density functions with mixtures of truncated exponentials. Statistics and Computing, 16:293–308, 2006. 3, 4 [7] A.R. Conn. Linear programming via a nondifferentiable penalty function. SIAM Journal on Numerical Analysis, 13:145–154, 1976. 26 66 BIBLIOGRAFÍA [8] R.W. Cottle and G.B. Dantzig. Complementary pivot theory of mathematical programming. Technical report, STANFORD UNIV CALIF OPERATIONS RESEARCH HOUSE, 1968. 25 [9] R. M. Curds. Propagation techniques in probabilistic expert systems. Department of Statistical Science, University College London, 1997. 3 [10] G. B. Dantzing. Linear programming and extensions. Princeton University Press, Princeton, 1963. 25 [11] A. Dax. The gnidient projection method for quadratic programming. Technical report, Institute of Mathematics Report, The Hebrew University of Jerusalem, 1978. 26 [12] C. Van de Panne and A. Whinston. The simplex and the dual method for quadratic programruing. Operations Research Quarterly, 15:355–389, 1964. 25 [13] K. W. Fertig and N. R. Mann. A general quadratic programming algorithm. Journal of the Institute of Mathematics and Its Applications, pages 76–91, 1971. 25 [14] P.E. Gill and W. Murray. Numerically stable methods for quadratic programming. Mathematical programming, 14:349–372, 1978. 25 [15] D. Golfarb. Extension of newton’s method and simplex methods for solving quadratic programs. Numerical methods for nonlinear optimization, pages 239–254, 1972. 25 [16] D. Golfarb and A. Idnani. A numerically stable dual metodo for solving strictly convex quadratic programs. Mathematical Programming, 27:1–33, 1983. 24, 26, 27 [17] A.S. Goncalves. Numerical methods for nonlinear optimization. F.A. Lootsma, 1972. 25 [18] M.D. Grigoriadis and K. Ritter. A parametric method for semidefinite quadratic programs. SIAM Journal of Control, 7:559–577, 1969. 25 BIBLIOGRAFÍA 67 [19] R. A. Howard and J.E.Matheson. Influence diagrams. The principles and Applicatins od Decisions Group, 2:719–762, 1984. 2 [20] A.U. Idnani. Extension of newton’s method for solving positive definite quadratic programs: A computational experience. Technical report, City College of New York, Department of Computer Science, 1973. 26 [21] F. V. Jensen. Bayesian networks and decision graphs. Springer, 2001. 8 [22] F. V. Jensen, S. L. Lauritzen, and K. G. Olesen. Bayesian updating in causal probabilistic networks by local computation. Computational Statistics Quarterly, 4:269–282, 1990. 2 [23] F. V. Jensen, S. L. Lauritzen, and K. G. Olesen. From influence diagrams to junction trees. In Uncertainty in Artificial Intelligence: Proceedings of the Tenth Conference (UAI-94), pages 367–373, San Francisco, CA, 1994. 2 [24] F. V. Jensen and T. D. Nielsen. Bayesian Networks and Decision Graphs. Springer, 2007. 7 [25] H. Langseth, T. D. Nielsen, R. Rumı́, and A. Salmerón. Parameter estimation and model selection in mixtures of truncated exponentials. International Journal of Approximate Reasoning, 51:485–498, 2010. 3 [26] S. L. Lauritzen and F. Jensen. Stable local computation with conditional gaussian distributions. Statistics and Computing, 11:191–203, 2001. 2, 3 [27] S. L. Lauritzen and D. J. Spiegelhalter. Local computations with probabilities on graphical structures and their application to expert systems. Journal of the Royal Statistical Society, Series B, 50:157–224, 1988. 2 [28] C.E. Lemke. A method of solution for quadratic programs. Management Science, 8:442–453, 1962. 25 [29] U.N. Lerner. Hybrid Bayesian networks for reasoning about complex systems. Departament od Computer Science, Stanford University, 2002. 3 68 BIBLIOGRAFÍA [30] S. Moral, R. Rumı́, and A. Salmerón. Mixtures of truncated exponentials in hybrid Bayesian networks. ECSQARU’01. Lecture Notes in Artificial Intelligence, 2143:135–143, 2001. 3 [31] K. P. Murphy. A variational approximation for Bayesian networks with discrete and continuous latent variables. In Proceedings of the First Conference on Uncertainty in Artificial Intelligence, pages 467–475, 1999. 2 [32] S. M. Olmsted. On representing and solving decision problems. PhD thesis, Stanford University, 1983. 2 [33] J. Pearl. Evidential reasoning using stochastic simulation of causal models. Artificial Intelligence, 32:247–257, 1987. 2 [34] V. Romero, R. Rumı́, and A. Salmerón. Learning hybrid Bayesian networks using mixtures of truncated exponentials. International Journal of Approximate Reasoning, 42:54–68, 2006. 3 [35] R. Rumı́ and A. Salmerón. Approximate probability propagation with mixtures of truncated exponentials. International Journal of Approximate Reasoning, 45:191–210, 2007. 3 [36] I. J. Schoenberg. Contributions to the problem of approximation of equidistant data by analytic functions. Quarterly of Applied Mathematics, 4:45– 99,112–141, 1946. 3 [37] L. Schumaker. Spline Functions: Basic Theory, 3rd ed. Cambridge Univ. Press, New York. 3 [38] R. D. Shachter. Evaluating influence diagrams. Operations Research, 34:871–882, 1986. 2 [39] P. P. Shenoy. Valuation-based systems for bayesian decision analysis. Operations Research, 40:463–484, 1992. 2 [40] P. P. Shenoy. Inference in hybrid Bayesian networks using mixtures of Gaussians. In Proceedings of the 22nd Conference on Uncertainty in Artificial Intelligence (UAI-06), pages 428–436, 2006. 3 BIBLIOGRAFÍA 69 [41] P. P. Shenoy and G. Shafer. Axioms for probability and belief function propagation. In Uncertainty in Artificial Intelligence 4, pages 169–198, 1990. 2, 3, 12 [42] P. P. Shenoy and J. West. Inference in hybrid Bayesian networks with deterministic variables. ECSQARU’09. Lecture Notes in Computer Science, 5590:46–58, 2009. 4 [43] P. P. Shenoy and J. C. West. Mixtures of polynomials in hybrid Bayesian networks with deterministic variables. In Proceedings of the 8th Workshop on Uncertainty Processing (WUPES’09), pages 202–212, 2009. 1, 2, 10 [44] P. P. Shenoy and J. C. West. Inference in hybrid Bayesian networks using mixtures of polynomials. International Journal of Approximate Reasoning, In Press, 2010. 1 [45] H. Theil and C. Van De Panne. Quadratic programming as an extension of conventional quadratic maximization. Management Science, 7:1–20, 1960. 26 [46] P. Wolfe. The simplex method for quadratic programming. Econometrica, 27:382–398, 1959. 25 [47] A. Salmerón y M. Morales. Estadı́stica Computacional. Servicio de publicaciones, Universidad de Almerı́a, 2001. 19

Universidad de Almer´ıa Universidad de Santiago de Compostela

Documentos relacionados

Productos

Apoyo

Universidad de Almer´ıa Universidad de Santiago de Compostela

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib