UNIVERSIDAD NACIONAL DEL CALLAO

UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA INSTITUTO DE INVESTIGACIÓN Un Método no Euclidiano para Problemas de Optimización en Espacios Euclidianos. Erik Alex Papa Quiroz Resolución Rectorial N◦ 1352-2007-R (01 de noviembre de 2007 al 31 de octubre de 2008) Índice Resumen iv Introducción 1 Marco Teórico 6 1 Preliminares 7 1.1 Sı́mbolos y Notaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Definiciones Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 Elementos de Geometrı́a Riemanniana 11 2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Variedades diferenciables . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Aplicaciones diferenciables entre variedades . . . . . . . . . . . . . . . 16 2.4 Espacio tangente a una variedad diferenciable . . . . . . . . . . . . . 18 2.5 Métricas riemannianas en variedades diferenciables . . . . . . . . . . 21 2.6 Campos de vectores, conexiones afines y deriva da covariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.7 Curvatura de una variedad riemanniana . . . . . . . . . . . . . . . . 38 2.8 Gradiente y Hessiana en una variedad riemanniana . . . . . . . . . . 42 2.9 Variedades completas . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3 El Problema de Optimización y sus Condiciones de Optimalidad 50 3.1 Existencia de puntos de mı́nimo global . . . . . . . . . . . . . . . . . 51 3.2 Caracterización de puntos de mı́nimo local . . . . . . . . . . . . . . . 52 ii 3.3 Elementos del análisis convexo . . . . . . . . . . . . . . . . . . . . . . 54 3.3.1 Convexidad en una variedad riemanniana . . . . . . . . . . . . 55 3.3.2 Funciones cuasi-convexas y pseudoconvexas . . . . . . . . . . 59 4 Método del Máximo Descenso 61 4.1 Método con búsqueda de Armijo generalizado . . . . . . . . . . . . . 64 4.2 Método com uma regularización proximal . . . . . . . . . . . . . . . . 67 Materiales y Métodos 71 Resultados 72 Discusión 73 Bibliografı́a 74 Apéndice 77 iii Resumen Un Método no Euclidiano para Problemas de Optimización en Espacios Euclidianos Erik Alex Papa Quiroz El Objetivo de la investigación es presentar un método de optimización usando elementos de geometrı́a riemanniana para resolver problemas de optimización que mejoren algunas desventajas de los métodos proyectivos. Esta investigación fue motivada por el alto costo computacional de los métodos proyectivos para mantener viabilidad en cada iteración en la búsqueda de la solución de problemas de optimización con restricciones, como también, de la incertidumbre de la convergencia de los iterados cuando el problema tiene una función que no es convexa. La técnica empleada para la recopilación de datos fue la búsqueda de trabajos relacionados en revistas publicadas, uso de bibliotecas y hemerotecas especializadas como también viajes a centros de investigación en el extranjero (Brasil, Colombia y Argentina). El resultado de la investigación es la introducción de un método no euclidiano que bajo algunas hipótesis naturales sobre el problema se obtiene la convergencia de los iterados a un punto crı́tico del problema de optimización y cuando la función objetivo es convexa se demuestra la convergencia a la solución. Presentamos también una implementación del método para algunos problemas particulares. En este sentido, este trabajo puede ser considerado como un aporte significativo para la matemática computacional en la búsqueda de algoritmos eficientes en la solución de problemas prácticos que surgen en diversas áreas de las ciencias y la ingenierı́a. Palabras Claves: Método del gradiente, problemas convexos, métricas riemannianas, implementación computacional. iv Introducción La Optimización es una rama de la Matemática Aplicada que estudia el problema de maximizar o minimizar una función, llamada función objetivo, sujeta a algunas restricciones sobre su dominio. La Optimización, como lı́nea de investigación, surgió a mediados del siglo anterior y en este intervalo de tiempo a demostrado diversas aplicaciones en diferentes áreas de las Ciencias e Ingenierı́as, donde una elección óptima de los parámetros y variables conlleva al mejoramiento de las técnicas para resolver el problema planteado. El problema de Optimización puede ser expresado, sin perdida de generalidad, como: min{f (x) : h(x) = 0}, donde f : IRn → IR en una función de valores reales y f : IRn → IRm es una función de valores en IRm y x es la variable a determinar. Una clase de métodos muy conocidos y utilizados para resolver el problema planteado son los métodos proyectivos, los cuales generan una sucesión de puntos {xk }, dados por x0 ∈ IRn tal que h(x0 ) = 0 (un punto inicial dado) y xk = PM (xk + tk dk ), donde PM es la proyección ortogonal del punto xk + tk dk al conjunto M = {x ∈ IRn : h(x) = 0}, dk es la dirección de desplazamiento y tk es la longitud de paso de dk . Diferentes elecciones de dk dan origen a diferentes métodos proyectivos de optimización. Por ejemplo, si dk = −∇f (xk ), entonces tendremos el método de gradiente proyectado, si dk = −(∇2 f (xk ))−1 (∇f (xk )), tendremos el método de Newton proyectado, etc. Propiedades de convergencia global de estos métodos son garantizados bajo 1 algunas condiciones de convexidad sobre la función objetivo f y el conjunto de las restricciones M. Una desventaja de los métodos proyectivos es el alto costo computacional en realizar en cada iteración una proyección sobre M. Otra desventaja es cuando la función objetivo f pierde la propiedad de la convexidad, llevando ası́ a la indeterminación si la sucesión {xk } converge y si el punto de convergencia es un punto óptimo del problema. Observemos que en general propiedades de convexidad de la función objetivo y de las restricciones garantizan la convergencia global de los métodos a un punto óptimo. Una alternativa para superar estas desventajas es considerar al conjunto M como una variedad diferenciable dotada con propiedades geométricas no euclidianas y transformar el problema original en el siguiente problema irrestricto: min{f (x) : x ∈ M }. Una de tales geometrı́as es la geometrı́a riemanniana, teorı́a matemática que ha llamado mucho la atención de los investigadores después de su aplicación en la teorı́a de la relatividad por Albert Einstein. La alternativa planteada no es nueva, como se puede pensar, esta pertenece al área de la Optimización Matemática sobre variedades riemannianas el cual surgió como una extensión natural de la teorı́a y los métodos de optimización en el espacio euclidiano para espacios más generales. Una de las ventajas de usar herramientas de geometria riemanniana en optimización es que problemas restrictos pueden ser vistos como irrestrictos considerando las propiedades intrı́nsecas de la variedad. Otra ventaja, es que problemas no convexos se pueden transformar en convexos escogiendo una métrica riemanniana apropiada. Uno de los precursores de la geometrı́a riemanniana fué Lobachevski quien se atrevió a darnos la posibilidad de la existencia de una geometrı́a no euclidiana, ver ALEKSANDROV, KOLMOGOROV y LAURENTIEV (1981),[1], proponiendo nuevas ideas, relacionando la geometrı́a con la realidad material, el método, el alcance y sus aplicaciones. A raı́z de estas nuevas ideas, los matemáticos actualmente estudian diversos espacios, además del euclidiano, entre ellos los espacios de Lobachevski, 2 los proyectivos, de infinitas dimensiones, los riemannianos, topológicos entre otros. El uso de la geometrı́a riemanniana, por Einstein en 1915, en la teorı́a de la gravitación universal fue uno de los grandes impulsores para que en otras lı́neas de investigación se utilizen las ideas de la geometria no euclidiana. En los tiempos actuales en que vivimos, tenemos ya diversas aplicaciones de la geometria riemanniana en varios campos de la ciencia e ingenierı́a, por ejemplo en estadı́stica, economı́a, computación, biologı́a y optimización, entre otros. La relación entre los métodos de Optimización Matemática y la geometria riemanniana data por lo menos del año 1972, con el trabajo desarrollado por LUENBERGER (1972), [17], donde usando el método de descenso geodésico obtiene la tasa de convergencia del método del gradiente proyectado para el problema de min f (x), sujeto a h(x) = 0, donde f : IRn → IR, h : IRn → IRm , n > m. Esta lı́nea de investigación tuvo continuidad con GABAY (1982), [11], donde del punto de vista de esta teorı́a, estudia el método de gradiente reducido, generaliza los métodos de Cuasi-Newton obteniendo convergencia superlineal. También hace un análisis computacional mostrando que la teorı́a y la práctica interrelacionadas pueden dar buenos resultados. El método de máximo descenso, estudiado por Cauchy en l847, es uno de los métodos más antiguos y conocidos en la literatura para resolver problemas de optimización con funciones objetivo continuamente diferenciables. Sin embargo, para una función arbitraria los resultados de convergencia no son muy fuertes ya que la convergencia global, como también la existencia de puntos de acumulación no son garantizados. Solamente podemos asegurar que cualquier punto de acumulación, si existe, es un punto crı́tico del problema. La situación es muy diferente cuando la función objetivo es convexa, porque asumiendo solamente que el conjunto de soluciones óptimas es no vacı́o, el método de máximo descenso con búsqueda de ARMIJO (1966), [2], y con una regularización proximal converge a un punto óptimo. Este método en variedades riemannianas, considerando un problema de optimización con función objetivo arbitraria, fue estudiado por UDRISTE (1997), [24], SMITH (1994), [23] y RAPCSÁK (1997), [21], obteniendo los mismos resultados clásicos de convergencia. Para el caso convexo en estas varie3 dades con curvatura seccional no negativa, la convergencia global usando la regla de búsqueda de Armijo, pasos fijos y una regularización proximal, fue generalizada por da CRUZ NETO, LIMA y OLIVEIRA (1999), [6] y para funciones cuasi-convexas solamente en espacios euclidianos, por KIWIEL y MURTY (1997), [14]. Esta investigación, está orientada a extender los resultados de Kiwiel y Murty en variedades riemannianas completas y con curvatura seccional no negativa. El objetivo principal de este trabajo consiste en construir un método de optimización usando elementos de geometrı́a riemanniana que supere algunas desventajas de los métodos proyectivos. La importancia de esta investigación es que nuestros resultados permitirán resolver problemas de optimización sin necesidad de realizar proyecciones en cada iteración reduciendo ası́ el costo computacional de los métodos proyectivos. Otra importancia es que podremos resolver problemas de optimización con funciones objetivos no convexas que se transformen en convexas mediante la introducción de una métrica riemanniana apropiada sobre el conjunto de las restricciones, ampliando ası́ el campo de aplicación de los métodos proyectivos. Al no existir una metodologı́a efectiva para solucionar el problema planteado se justifica el desarrollo de este proyecto para una posible incorporación en los planes curriculares de estudio de las diversas especialidades de la matemática aplicada que desarrollen métodos de optimización como también de la construcción de nuevos algoritmos para resolver problemas más difı́ciles. El trabajo está organizada por los siguientes capı́tulos: En el Capı́tulo 1, presentamos los preliminares del trabajo de investigación. Damos algunos sı́mbolos y notaciones como también las herramientas matemáticas necesarias para el buen entendimiento del trabajo. En el Capı́tulo 2, presentamos elementos básicos de la geometrı́a riemanniana basados en BOOTHBY (1986), [3], do CARMO (2005) (1988), [8], [9], LAGES (1960) (1973), [15],[16] y su relación con la Optimización OLIVEIRA (1995), [19], damos ejemplos de las métricas más conocidas y estudiamos una clase particular de métricas riemannianas diagonales, definidas en el ortante positivo IRn++ y el hipercubo abierto (0, 1)n , espacios naturales donde se definen los problemas de optimización, obteniendo 4 propiedades geométricas importantes como curvatura cero, ecuaciones secillas para hallar geodésicas y condiciones suficientes para garantizar que la variedad riemanniana sea completa. En el Capı́tulo 3 presentamos el problema de optimización sobre una variedad riemanniana y desarrollamos sus condiciones de optimalidad, caracterizamos los puntos de mı́nimo, luego estudiamos la clase de funciones convexas y cuasi-convexas. En el Capı́tulo 4, desarrollamos el método de máximo descenso, y analizamos la convergencia del método para resolver el problema de minimización usando funciones objetivo cuasi-convexas. Probamos que la sucesión generada por el método, usando la regla de búsqueda generalizada de Armijo y una regularización proximal, converge a un punto crı́tico de la función. Presentamos también un Apéndice con algunos experimentos computacionales. Debemos resaltar que el resultado de esta investigación ha generado el artı́culo de autoria de PAPA QUIROZ, QUISPE CARDENAS y OLIVEIRA (2008), [20], publicado por la revista Journal of Mathematical Analysis and Applications (USA). 5 Marco Teórico 6 Capı́tulo 1 Preliminares En este capı́tulo haremos un resumen de los resultados básicos necesários al desarrollo de los subsiguientes capı́tulos. Las demostraciones serán, en princı́pio, todas ellas referenciadas. 1.1 Sı́mbolos y Notaciones A lo largo de este trabajo, usaremos la siguiente simbologı́a: (0, 1)n = (0, 1) × (0, 1) × ... × (0, 1). IRn+ = {x = (x1 , x2 , ..., xn ) ∈ IRn : xi > 0, i = 1, 2, .., n} . IRn++ = {x = (x1 , x2 , ..., xn ) ∈ IRn : xi ≥ 0, i = 1, 2, .., n} . Dados x, y ∈ IRn , (x, y) = Pn i=1 xi yi : producto interno euclideano en IRn . C p (Ω) = {f : Ω → IR : f es diferenciable de orden p } es el conjunto de funciones p veces diferenciables en un domı́nio abierto Ω. Si p = ∞, entonces C ∞ (Ω) es el conjunto de funciones infinitamente diferenciables. M : variedad diferenciable. Tp M : es el espacio tangente a M en el punto p. H : es el conjunto de campos de vectores X ∈ Tp M. ∇ : es la conexión afin del conjunto de campo de vectores H. X(p) : es un campo vectorial aplicado en el punto p. grad f (x) : es el gradiente de f en el sentido de la derivada covariante. H f : es la matriz Hessiana de f . 7 1.2 Definiciones Básicas Definición 1.2.1 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un abierto U . Definimos la diferencial de F en el punto q ∈ U como una aplicación dFq : IRn → IRm , definida de la siguiente manera, dFq (v) = β ′ (0) con v ∈ IRn , donde β = F o α para algún α : (−ε, ε) → U tal que α(0) = q y α′ (0) = v. Ası́: d (F oα)(t)|t=0 . dt dFq (v) = β ′ (0) = Se puede probar facilmente (ver do CARMO (2005),[8], pp. 127-128) que la diferencial es una aplicación lineal que no depende de la curva α tal que α(0) = q, además, si: F (x) = F (x1 , x2 , ..., xn ) = (F1 (x), F2 (x), ..., Fn (x)), la diferencial en el punto q, en las bases canónicas es:     dFq =    ∂F1 (q) ∂x1 ∂F1 (q) ∂x2 .. . ... .. . ∂F1 (q) ∂xn ∂Fm (q) ∂x1 ∂Fm (q) ∂x2 ... ∂Fm (q) ∂xn .. . .. .     .   Definición 1.2.2 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un abierto U . Diremos que p ∈ U es punto crı́tico, si la diferencial de F en el punto p, dFp : IRn → IRm no es sobreyectiva. La imágem F (p), donde p es punto crı́tico es llamado valor crı́tico. Un punto de IRm que no es valor crı́tico se llama valor regular de F , esto es, a ∈ F (U ) es valor regular si dFx es sobreyectiva para todo x ∈ F −1 (a). Por un resultado de álgebra lineal obtenemos una equivalencia para la sobreyectividad de la diferencial dFx : Para todo x ∈ F −1 (a), dFx es sobreyectiva si y solamente si, el rango (dFx ) = m ≤ n. Ası́: a ∈ F (U ) es valor regular si, y solamente si, el rango (dFx ) = m, para todo x ∈ F −1 (a). En particular si m = 1 tal que a ∈ F (U ) es valor regular si, y solamente si, ∇F (x) 6= 0 para todo x ∈ F −1 (a). 8 Definición 1.2.3 Dado un conjunto M, un subconjunto Γ de partes de M, se dice una topologı́a en M si: 1. ∅ ∈ Γ y Γ ∈ M ; 2. Si A, B ∈ Γ entonces A ∩ B ∈ Γ; 3. Si (Ai )i∈l es una famı́lia de elementos de Γ, entonces S i∈l Ai ∈ Γ. El par (M, Γ) se dice espacio topológico y los elementos de Γ son llamados abiertos del espacio topológico (Γ, M ). Definición 1.2.4 (Espacios de Hausdorff ). Sea M un espacio topológico, diremos que M es un espacio de Hausdorff, si para cualquier par de elementos distintos en M, existen abiertos disjuntos de dichos elementos. Definición 1.2.5 Sea M un conjunto arbitrário, una métrica es una aplicación d : M × M → IR tal que para todo x, y, z ∈ M se satisfacen las siguientes condiciones: d1 : d(x, y) ≥ 0, d(x, y) = 0 si y sólo si x = y; d2 : d(x, y) = d(y, x); d3 : d(x, z) ≤ d(x, y) + d(y, z). El par (M, d) se llama espacio métrico. Definición 1.2.6 Una sucesión {xm } en un espacio métrico M se llama de Cauchy cuando para todo ǫ > 0 dado, existe n0 ∈ IN tal que para todo m, n > n0 , se tiene d(xm , xn ) < ǫ. Definición 1.2.7 El espacio métrico (M, d) es completo cuando toda sucesión de Cauchy en M es convergente. Definición 1.2.8 Sea (X, d) un espacio métrico completo. Una sucesión {y k }, k ≥ 0, de X es cuasi-Fejér convergente al conjunto U ⊂ X, si para cada u ∈ U existe una sucesión {ǫk } ⊆ IR tal que ǫk ≥ 0, +∞ X ǫk < +∞ y k=0 d2 (y k+1 , u) ≤ d2 (y k , u) + ǫk . 9 Teorema 1.2.1 En un espacio métrico completo (X, d), si {y k } es cuasi-Fejér convergente para un conjunto U ⊆ X, entonces {y k } es limitada. Si además, un punto de acumulación ȳ de {y k } pertence a U. Entonces {y k } converge y lim y k = ȳ. k→∞ Demostración. Análogo a BURACHIK (1995), [4]. 10 Capı́tulo 2 Elementos de Geometrı́a Riemanniana 2.1 Introducción Las nociones de geometrı́a riemanniana fueron introducidas por G. Riemann un 10 de Junio de 1854 a travéz de una disertación titulada: Sobre las hipótesis que están en los fundamentos de la geometrı́a. En él afirma que toda colección continua de fenómenos homogéneos puede considerarse como un espacio. Estas ideas dieron origen a lo que hoy conocemos como geometrı́a riemanniana. En este capı́tulo presentamos los conceptos principales de estas ideas que usaremos a lo largo de este trabajo, como son: variedades diferenciables, aplicaciones diferenciables entre variedades diferenciables y los espacios tangentes a estas variedades, también definiremos métrica riemanniana, geodésica, curvatura, gradiente y Hessiano de funciones o matriz Hessiana de una función, en una variedad riemanniana. En lo que concierne a métricas, presentamos una clase de métricas riemannianas diagonales, herramientas que nos permiten obtener propiedades interesantes para desarrollar nuevos algoritmos en Optimización, esto es, que sobre una variedad riemanniana se puede derivar un campo vectorial tangente a lo largo de una curva, a través de la llamada derivada covariante a lo largo de curvas que depende de la métrica. Formalizaremos estos resultados en las siguientes secciones. 11 2.2 Variedades diferenciables Una variedad diferenciable, a groso modo, es un espacio topológico (no necesariamente vectorial) semejante localmente al espacio euclidiano IRn cuja relación tiene el soporte de la diferenciabilidad. En esta sección presentamos estas ideas y daremos algunos ejemplos de variedades diferenciables relacionadas con problemas de Optimización. Para una demostración rigurosa de los resultados aquı́ presentados, referenciamos a Manfredo do CARMO (1988), [9]; SAKAI (1996), [22]; ELON LAGES (1960 y 1973), [15] y [16]; BOOTHBY (1986), [3], y HICKS (1966), [12]. En todo este capı́tulo, el término diferenciable de una función o aplicación significará que es infinitamente diferenciable. Definición 2.2.1 (Superficie regular de IRn ). Un subconjunto S ⊂ IRn , es una superficie regular de IRn de dimensión k ≤ n si para cada p ∈ S existe una vecindad V de p en IRn , un subconjunto abierto U ⊂ IRk y una aplicación biyectiva X : U → S ∩V tal que: 1. X es diferenciable en U. 2. X es homeomorfismo. 3. Para todo q ∈ U , dXq : IRk → IRn es inyectiva, donde dXq es la diferencial de X en el punto q. Vease un gráfico de la definición de superficie regular en IR3 . X p* V V ∩S x S U z y Figura 1. Superficie regular Para cada p ∈ S, la aplicación X : U → V ∩ S es llamada parametrización de S en p, o sistema de coordenadas locales en p. V ∩ S es llamada vecindad coordenada de p. 12 Proposición 2.2.1 Sea U un subconjunto abierto de IRn y F : U −→ IRm una función diferenciable en U con valor regular a ∈ IRm , entonces F −1 (a) es una superficie regular de dimensión n − m. Corolario 2.2.1 Sea U un subconjunto abierto de IRn y f : U −→ IR una función diferenciable tal que (∇f )(x) 6= 0, para todo x ∈ f −1 (a). Entonces S = f −1 (a) es una superficie regular. La Proposición 2.2.1 permite mostrar una famı́lia de superfı́cies regulares útiles en el contexto de la Optimización Matemática. Ejemplo 2.2.1 Consideremos los problemas de Optimización Lineal: (P ) min cT x (D) max bT λ s.a s.a Ax = b AT λ + s = c x ≥ 0. s ≥ 0. donde: x,s, c ∈ IRn ; λ, b ∈ IRm y A ∈ IRm×n es de rango m < n. El problema (P ) es llamado primal y (D) el dual de (P ). a). Restricciones estrictas primales. Si S = {x ∈ IRn++ : Ax = b} es el conjunto de las restricciones estrictas del problema (P ), definiendo la función F : IRn++ → IRm , por F (x) = Ax − b se tiene que dFx = A, para todo x ∈ IRn++ . Por tener la matriz A rango m y aplicando la Proposición 2.2.1 tenemos que F −1 (0) = S es una superfı́cie regular de dimensión n − m. b). Restricciones estrictas duales. Si S = {(λ, s) ∈ IRm ×IRn++ : AT λ+s = c} es el conjunto de las restricciones estrictas del problema (D), definiendo la función F : IRm × IRn++ −→ IRn , por:  F (λ, s) = AT λ + s − c = [AT I]    λ  −c s Se tiene dF(λ,s) = [AT I] con rango n, para todo (λ, s) ∈ IRm × IRn++ . Aplicando la Proposición 2.2.1, F −1 (0) = S es una superfı́cie regular de dimensión m. 13 Ejemplo 2.2.2 Consideremos el problema en Optimización no Lineal: min f (x) s.a h(x) = 0 x∈U donde U es un abierto de IRn , f : IRn → IR y h : IRn −→ IRm son funciones dadas. Si h es diferenciable y su matriz Jacobiana en el punto x, Jh (x) tiene rango m entonces, el conjunto {x ∈ U : h(x) = 0} es una superficie regular. Como casos particulares tenemos que los conjuntos {x ∈ IRn : h(x) = 0} y {x ∈ IRn : h(x) = 0 y x > 0} son superficies regulares. Una propiedad importante de las superficies regulares, es que ella no depende del cambio de parámetros, es decir, cualquier otra parametrización de la superficie en un punto p ∈ S sigue manteniendo las propiedades diferenciables. Este resultado nos servirá para generalizar la definición de superficie regular a variedad diferenciable. Definición 2.2.2 (Cambio de parámetros). Sean X −→ S y Y −→ S dos parametrizaciones de S en el punto p tales que W = X (U ) ∩ Y(V ) 6= ∅. La aplicación Y −1 oX : X −1 (W ) −→ Y −1 (W ) es llamada cambio de parámetros. Proposición 2.2.2 Sea S una superficie regular de IRn de dimensión k. El cambio de parámetros Y −1 oX : X −1 (W ) −→ Y −1 (W ) es un difeomorfismo. La noción de variedad diferenciable que definimos a seguir es necesaria para poder extender los métodos del cálculo diferencial a espacios más generales. Como veremos posteriormente, una superficie regular será un claro ejemplo de variedad diferenciable. Definición 2.2.3 (Variedad diferenciable). Una variedad diferenciable de dimensión n es un conjunto M y una famı́lia de aplicaciones inyectivas Xα : Uα −→ M , α ∈ I (conjunto de parámetros), definidos en abiertos Uα de IRn en M tales que se cumplen las siguientes condiciones: 14 1. M = [ α∈I Xα (Uα ). 2. Para todo par Xα , Xβ con Xα (Uα ) ∩ Xβ (Uβ ) = W 6= ∅, los conjuntos Xα −1 (W ) y Xβ −1 (W ) son abiertos en IRn y las aplicaciones Xβ −1 ◦ Xα : Xα −1 (W ) −→ Xβ −1 (W ) son diferenciables. El par (Uα , Xα ) con p ∈ Xα (Uα ) es llamado una parametrización. Una famı́lia {(Uα , Xα )} satisfaciendo los items 1 y 2 es llamada estructura diferenciable de M . Ası́, la variedad es un conjunto M con una estructura diferenciable. Una estructura diferenciable en una variedad diferenciable M induce de forma natural una topologı́a en M definido por: IRn . A ⊂ M es abierto en M si para todo α ∈ I, Xα −1 (A ∩ Xα (Uα )) es abierto en Observemos que la topologı́a es definida de tal modo que los conjuntos Xα (Uα ) son abiertos y las aplicaciones Xα son continuas. Debido a la Proposición 2.2.2 podemos enunciar, el siguiente resultado. Proposición 2.2.3 Toda superficie regular de IRn de dimensión k es una variedad diferenciable de la misma dimensión. Proposición 2.2.4 Si M1 y M2 son dos variedades diferenciables de dimension m1 y m2 respectivamente, entonces el producto cartesiano M1 × M2 es una variedad de dimensión m1 + m2 . Definición 2.2.4 (Variedad de Hausdorff de base numerable). Una variedad diferenciable M, es llamada variedad de Hausdorff si M, con la topologı́a dada, es un espacio de Hausdorff. La variedad diferenciable M tiene base numerable si ella puede ser cubierta por una cantidad numerable de vecindades coordenadas, esto es, si existe una suceción {Xn (Un )} , n ∈ IN , de vecindades coordenadas tal que: M = [ n∈N Xn (Un ). En todo este capı́tulo asumiremos que la variedad diferenciable M es de Hausdorff y de base numerable. 15 2.3 Aplicaciones diferenciables entre variedades Definición 2.3.1 Sea f : U ⊂ M −→ IR, donde U es un subconjunto abierto de la variedad diferenciable M . Diremos que f es diferenciable en p ∈ U , si para alguna parametrización Xα : Uα ⊂ IRn −→ M , con p ∈ Xα (Uα ) ⊂ U , la función compuesta f ◦ Xα : Uα ⊂ IRn −→ IR es diferenciable en Xα−1 (p). Se dice que f es diferenciable en U si es diferenciable en todo punto de U . f U IR p f (p) M Xα −1 Xα Uα f ◦ Xα Figura 2. f es diferenciable en U. Una consecuencia inmediata del item 2 de la Definición 2.2.3 es que, la diferenciabilidad de una función de valores reales definida sobre una variedad diferenciable M no depende de la elección de la parametrización. En efecto, sea Xβ : Uβ ⊂ IRn → M , otra parametrización tal que, p ∈ Xβ (Uβ ) ⊂ U . Podemos expresar: f ◦ Xβ = f ◦ Xα ◦ Xα−1 ◦ Xβ : Uβ ⊂ IRn → M. Como f ◦ Xα es diferenciable por definición y Xα−1 ◦ Xβ es diferenciable por ser cambio de parámetros, entonces f ◦ Xβ es también diferenciable. Definición 2.3.2 Una curva sobre una variedad difereciable M es una función γ : I → M donde I = (−ε, ε). Diremos que γ es diferenciable en t0 ∈ I si para alguna parametrización Xα : Uα ⊂ IRn → M con γ(t0 ) ∈ Xα (Uα ), la función compuesta β = Xα−1 ◦γ :I → Uα es diferenciable en t0 , donde γ(I) ⊂ Xα (Uα ). Si γ es diferenciable en todo t ∈ I, diremos que γ es diferenciable en I. 16 Xα (Uα ) Xα γ(t0 ) = pα γ(t) M γ −1 Xα I Uα ⊂ IRn −ǫ β= −1 Xα t0 ǫ ◦ γ Figura 3. γ es diferenciable en t ∈ I. La definición de diferenciabilidad puede ser extendida para aplicaciones entre variedades. Definición 2.3.3 Sean M1 y M2 variedades diferenciables de dimensión m y n respectivamente. Una aplicación ϕ : M1 → M2 es diferenciable en p ∈ V , si dados: X1 : U1 ⊂ IRn → M1 parametrización de M1 en p y: X2 : U2 ⊂ IRm → M2 parametrización de M2 en ϕ(p) con ϕ(X1 (U1 )) ⊂ X2 (U2 ), la aplicación X2−1 ◦ ϕ ◦ X1 : U1 ⊂ IRn → IRm es diferenciable en X1−1 (p). Esta última aplicación es llamada expresión de ϕ en las parametrizaciones X1 y X2 . ϕ es diferenciable en un abierto de M1 si es diferencible en todos los puntos del abierto. Análogamente al caso de funciones de valores reales, se muestra que la definición no depende de las parametrizaciones elejidas. Observación 2.3.1 Una consecuencia de la Definición 2.3.3 es que, si X : U → M es una parametrización de M en el punto p entonces X −1 : X (U ) ⊂ M → IRn es diferenciable. Definición 2.3.4 (Difeomorfismo entre variedades diferenciables). Sea ϕ : M1 → M2 una aplicación diferenciable entre dos variedades diferenciables. Decimos que ϕ 17 es difeomorfismo si ϕ es bijetiva y ϕ−1 es diferenciable. ϕ es difeomorfismo local en p ∈ M1 , si existen vecindades U de p y V de ϕ(p) tal que ϕ : U → V es difeomorfismo. Observación 2.3.2 De la observación 2.3.1, concluimos que cualquier parametriza ción X : U ⊂ IRn → X (U ) ⊂ M, es un difeomorfismo. Por esta razón, muchas veces para facilitar la notación se identifica X (U ) ≡ U. 2.4 Espacio tangente a una variedad diferenciable Las consideraciones a seguir motivan la definición que extiende a variedades diferenciables la noción de vector tangente. Para superficies de IR3 , un vector tangente en un punto p de la superficie es definida como el “vector velocidad” en IR3 de una curva de la superficie pasando por p. Como en variedades diferenciables no disponemos del soporte de un espacio ambiente, precisamos de una propriedad caracterı́stica del vector tangente que substituya la noción de velocidad. Recordemos algunas formalidades en superficies regulares. Sea ε > 0 suficientemente pequeño y una curva γ : (−ε, ε) → IRn tal que: γ(t) = (γ1 (t), ..., γn (t)), con γ(0) = p y γ (0) = (γ1 (0), ..., γn (0)) = v ∈ IRn . Sea además una función f : ′ ′ ′ IRn → IR diferenciable definida en una vecindad de p. Podemos restringir f a la curva γ y calcular la derivada direccional de f en la dirección de v ∈ IRn :  n n X X ∂f d(f ◦ γ) dγi ∂ ′  γi (0) (t) = (γ(0)) (0) = dt dt ∂γi i=1 ∂γi i=1 t=0 !   f. p Por tanto la derivada direccional en la dirección de v es un operador sobre funciones diferenciables que depende unicamente de v y esta es la propiedad caracterı́stica que usaremos para definir un vector tangente en variedades. Definición 2.4.1 (Vector tangente en un punto de una variedad diferenciable). Sea M una variedad diferenciable. Consideremos una curva diferenciable γ : (−ε, ε) → M, 18 donde γ(0) = p y sea Dp = {f : M −→ IR : f es diferenciable en p}. Definimos el vector tangente a la curva γ en t = 0 como la función γ ′ (0) : Dp → IR dada por: d(f ◦ γ) (t) , f ∈ Dp . γ (0)f ≡ γ (0)(f ) = dt t=0 ′ ′ Un vector tangente en p es el vector tangente en t = 0 de alguna curva γ : (−ε, ε) → M con γ(0) = p. Si M es una superficie regular de dimensión k ≤ n, esto es M ⊂ IRn , definimos el vector tangente en el punto p como el vector velocidad en IRn , esto es, γ ′ (0) = (γ1′ (0), γ2′ (0), ..., γn′ (0)). Definición 2.4.2 (Espacio tangente a una variedad diferenciable). El espacio tangente a una variedad M en un punto p representado por Tp M , es el conjunto de todos los vectores tangentes a M en p. Ası́, Tp M = {v ∈ IRm : v es un vector tangente en p }. Observación 2.4.1 Si para una parametrización X : U ⊂ IRn → M con p = X (0) y q ∈ U , podemos restringir la función f ∈ Dp y la curva γ : (−ε, ε) → M en esta parametrización: f oX (q) = f (X (q)) = f (q) = f (q1 , ..., qn ) (identificación: f oX ≡ f ). Podemos escribir también, X −1 ◦ γ(t) = (q1 (t), ..., qn (t)). Por definición tenemos: d(f ◦ γ) d(f ◦ X ◦ X −1 ◦ γ) γ ′ (0)f = (t) (t) = dt dt t=0 t=0 entonces: ! n X ∂ ∂f ′ (p) = qi (0). qi (0). γ (0)f = ∂qi ∂qi i=1 i=1 ′ n X d = (f (q1 (t), q2 (t), ..., qn (t)) dt t=0 ′ 19 ! ! 0 f. Ası́, n X ∂ qi (0). γ (0) = ∂qi i=1 ′ ′ ! (2.1) 0 es la expresión del vector tangente a γ en p con relación a la parametrización X . Observación 2.4.2 Para una curva coordenada en U , βi (xi ) = (0, ..., xi , ..., 0), se tiene que la composición X ◦ βi = γi es una curva coordenada sobre M y de la ′ ecuación anterior, γi (0) = ( ∂x∂ i )0 . Se sigue que ( ∂x∂ i )0 es el vector tangente a la curva coordenada γi (t). Observación 2.4.3 De la elección de una parametrización obtenemos n “vectores” ( ( ∂x∂ i )p , i = 1, ..., n ) en Tp M que generan, por (2.1), los vectores en Tp M . Observación 2.4.4 Sea M una variedad diferenciable, el fibrado tangente de M es definido por: T M = {(p, v); p ∈ M/ v ∈ Tp M }. T M puede ser unido de uma estructura diferenciable transformandose ası́ en una variedad diferenciable (ver do CARMO (1988), [8], pag. 15 para su demostración). En los siguientes resultados presentamos ejemplos de espacios tangentes. Proposición 2.4.1 El espacio tangente de una variedad diferenciable que es un subconjunto abierto de IRn es el propio IRn . Como consecuencia de esta proposición se tiene: a). Tp IRn = IRn , Tp IRn++ = IRn . b). Si M = {(λ, s) ∈ IRm × IRn : s > 0}, entonces Tp M = IRm+n . Proposición 2.4.2 Sea M = F −1 (a) una variedad de dimensión n − m, donde la aplicación F : U ⊂ IRn → IRm es una función diferenciable, U es abierto y a es un valor regular de F , entonces: Tp M = Tp (F −1 (a)) = Ker(dFp ). Ejemplo 2.4.1 Si M = {x ∈ IRn++ : Ax = b}, donde A ∈ IRm×n tiene rango m < n, entonces: Tp M = KerA = {∆x ∈ IRn : A∆x = 0}. 20 En efecto, la función que define M es F : IRn++ → IRm tal que F (x) = Ax − b, la diferencial de F en el punto p ∈ M es dFp = A, luego aplicando la Proposición 2.4.2 obtenemos el resultado. Ejemplo 2.4.2 Sea h : U ⊂ IRn → IRm una función diferenciable con Jacobiano Jh (x) = dhx con rango m. Consideremos la variedad M = h−1 (x) = {x ∈ U, h(x) = 0}, entonces: Tp h−1 (0) = Ker(Jh (x)). Corolario 2.4.1 Sea D ⊂ IRn un conjunto abierto y f : D −→ IR una función diferenciable tal que ∇f (x) 6= 0, para todo x ∈ f −1 (a) vimos que, M = f −1 (a) es una variedad diferenciable. Entonces para cada p ∈ M, Tp f −1 (a) = ∇f (p)⊥ . Proposición 2.4.3 Sean M1 y M2 dos variedades diferenciables de dimensión n y m respectivamente y sea ϕ : M1 → M2 una aplicación diferenciable. Para cada p ∈ M1 y cada v ∈ Tp M1 , escojamos una curva diferenciable α : (−ǫ, ǫ) → M con α(0) = p, α′ (0) = v. Definiendo β = ϕ ◦ α, la aplicación: dϕp : Tp M1 → Tϕ(p) M2 , dada por dϕp (v) = β ′ (0) es una aplicación lineal que no depende de la elección de α. Esta aplicación es llamada la diferencial de ϕ en p. Proposición 2.4.4 Sea M1 y M2 dos variedades diferenciables. Si ϕ : M1 → M2 es un difeomorfismo, entonces dϕp : Tp M1 → Tϕ(p) M2 es un isomorfismo. 2.5 Métricas riemannianas en variedades diferenciables Las métricas en un espacio son muy importantes porque nos permiten medir distancias, calcular errores, longitudes de curvas, etc. Cuando tenemos una curva 21 parametrizada en IRn , γ(t) = (γ1 (t), γ2 (t), ..., γn (t)) donde t pertenece a algun intervalo I de IR, la longitud de arco de la curva generada por γ(t) es medida por: ℓ(γ) = I kv(t)kdt ′ ′ ′ Z donde v(t) = (γ1 (t), γ2 (t), ..., γn (t)) y k, k representa la norma euclideana. Ası́, la longitud de la curva depende de la norma del vector velocidad definido por la métrica usual en IRn . Ahora, si nuestro espacio es una variedad diferenciable M y tenemos definida una curva en ella, entonces la longitud de arco de la curva será obtenida por la medida realizada en el vector perteneciente al espacio tangente en cada punto. Necesitamos entonces definir una métrica en el espacio tangente Tp M para cada p ∈ M. Recordemos que además del producto interno clásico: (v, w)p = X v i wi , i podemos definir otro producto interno: < v, w >p = X gij vi wi = (Gv, w), i,j donde G = (gij ) es una matriz simétrica definida positiva. Esta definición aparece de modo natural al realizar un cambio de coordenadas. En efecto, sean x = (x1 , x2 , ..., xn ) y z = (z1 , z2 , ..., zn ) tal que x(t) = x(z(t)), esto es, x(t) = (x1 (z1 (t), z2 (t), ..., zn (t)), x2 (z1 (t), z2 (t), ..., zn (t)), ..., xn (z1 (t), z2 (t), ..., zn (t)), entonces: n ∂xi ∂zj dxi X = dt j=1 ∂zj ∂t ! , para todo i = 1, 2, ..., n. Denotando v x = (v1x , v2x , ..., vnx ) y v z = (v1z , v2z , ..., vnz ), donde vix = tememos: x 2 x x k v k = (v , v ) = Como: dxi dt !2  = n X ∂xi j=1 ∂zj 2 vjz  = n X j=1 n X i=1 dxi dt n ∂xi z X ∂xi z vj v ∂zj k=1 ∂zk k 22 ! !2 = dxi dt y viz = dzi , dt . n X j=1 n X ∂xi ∂xi vkz ∂zj k=1 ∂zk ! vjz , entonces: kv k = n n X X i=1 j=1 k=1 k v x k2 = n n X X n X ∂xi ∂xi 2 x n X ∂xi ∂xi ∂zj ∂zk vkz ! vjz , conmutando sumandos: j=1 k=1 i=1 ∂zj ∂zk ! vkz vjz . Haciendo un cambio k por i e i por k obtenemos: x 2 kv k = Definiendo gij = n P k=1 ∂xk ∂xk ∂zj ∂zi x n X i,j=1 n X ∂xk ∂xk ∂zj ∂zi k=1 ! viz vjz . se tiene finalmente que: x x 2 (v , v ) =k v k = n X gij viz vjz = (Gv z , v z ). i,j=1 Queda claro que un cambio en el sistema de coordenadas no altera las métricas. En efecto, si v = G1\2 w tenemos que: (v, v)p = (G1\2 w, G1\2 w)p = (Gw, w)p = h w, wip . Métrica riemanniana. Definición 2.5.1 Sea S una variedad diferenciable. Una métrica riemanniana es una aplicación que asocia a cada p ∈ M un funcional h , ip h , ip : Tp M × Tp M −→ IR, de modo que se cumplen las siguientes condiciones: 1. h , ip es un producto interno (bilineal, simétrica y definida positiva) para cada p ∈ M. 2. h , ip varia diferenciablemente en el siguiente sentido: Si X : U ⊂ IRn −→ M es um sistema de coordenadas en torno de p, con X (x1 , x2 , x3 , ...., xn ) = q ∈ X (U ) y ∂ (q) ∂xi = dXq (0, 0, ..., 0, 1, 0, ..., 0, 0), entonces la función: gij : U −→ IR definida por gij (x1 , x2 , ..., xn ) = es diferenciable. 23 * + ∂ ∂ (q), (q) ∂xi ∂xj q , Las funciones gij son llamadas expresiones de la métrica riemanniana en el sistema coordenado X y la matriz G = (gij ) es la representación de la métrica riemanniana. Como X es un difeomorfismo (Observación 2.3.2) se tiene que dXq : IRn −→ Tq M es un isomorfismo (Proposición 2.4.4) y ası́ la matriz G = (gij ) es invertible. Por tanto, toda métrica riemanniana tiene su matriz de representación invertible. Definición 2.5.2 (Variedad riemanniana). Una variedad diferenciable para la cual se define una métrica riemanniana se denomina una variedad riemanniana. Ejemplo 2.5.1 Sea M = IRn , defina la parametrización X : IRn −→ IRn tal que X (x1 , x2 , ..., xn ) = (x1 , x2 , ..., xn ). Definamos la métrica: h , ip : IRn × IRn −→ IR, definido por h x, yip = xT y. Sea q ∈ IRn entonces: ∂ (q) = dXq ei = ei , ∂xi y ası́, gij : U → IR definidas por: gij (x) = * + ∂ ∂ (x), (x) ∂xi ∂xj x = h ei , ej ix = eTi ej = δij , son diferenciables en IRn . Luego M = IRn , con la expresión de la métrica G = Id, es una variedad riemanniana, esto es, el espacio euclidiano es un ejemplo particular de variedad riemanniana. Ejemplo 2.5.2 Sea M la variedad definida por el siguiente conjunto: M = {(x1 , x2 ) ∈ IR2 : x2 > 0}. Usamos la parametrización identidad, además Tp M = IR2 , con p = (p1 , p2 ) ∈ M . Definimos la aplicación: h , ip : IR2 × IR2 −→ IR tal que: h(x1 , x2 ), (y1 , y2 )ip = 24 1 (x1 y1 + x2 y2 ). p2 Sea q = (q1 , q2 ) ∈ M, entonces ∂ (q) = dXq ei = ei , para todo i = 1, 2. ∂xi Luego: gij : M −→ IR definidas por: gij (x1 , x2 ) = 1 1 h ei , ej i = δij , x2 x2 son diferenciables en M . Por lo tanto, M es una variedad riemanniana con la expresión de la métrica: G(p) = 1 (Id)2×2 . p2 Esta métrica es conocida como métrica de Lobatchevsky o Poincairé. Los siguientes dos ejemplos son también variedades riemannianas para las métricas G según se definen, los cuales se demuestran bajo el mismo procedimiento que los dos ultimos ejemplos anteriores. Ejemplo 2.5.3 Si M = IRn++ y el funcional h , ip : Tp IRn++ × Tp IRn++ −→ IR tal que: hu, vip = uT G(p)v, donde: G(p) = diag(1/(hi (pi ))2 ), entonces: gij (x) = δij . (h2 (xi ))2 Ejemplo 2.5.4 Sea la variedad riemanniana (IR2 , G(x)), con hu, vip = uT G(p)v, donde:  G(p) =   4p21  + 1 −2p1  −2p1 es la métrica riemanniana dada por Udriste. 25 1  2.6 Campos de vectores, conexiones afines y deriva da covariante Introducimos los campos de vectores en los espacios tangentes a las variedades riemannianas. En Optimización Matemática ellos representan las direcciones, a partir de un punto dado, para algún algoritmo iterativo propuesto. Observando la trayectoria continua del algoritmo, esta tendrá sus caracterı́sticas, como curvatura, que dependen obviamente de las caracterı́sticas del campo. Surge ası́ la necesidad de definir conceptos correspondientes al de derivada de funciones. Definición 2.6.1 (Campo de vectores en una variedad diferenciable). Un campo de vectores X en una variedad diferenciable M es una correspondencia que a cada punto p ∈ M asocia un vector X(p) ∈ Tp M . Considerando una parametrización X : U ⊂ IRn → M es posible escribir: X(p) = n X ai (p).( i=1 ∂ )p , ∂xi donde cada ai : M → IR es una función en M y {( ∂x∂ i )p } es una base asociada a X , 1 ≤ i ≤ n. Diremos que X es diferenciable si, y solamente si, las funciones ai son diferenciables para alguna parametrización. Es útil pensar en campos vectoriales como aplicaciones X : D −→ F definidas por (Xf )(p) = X ai (p). i ∂f (p), ∂xi donde D es el conjunto de las funciones diferenciables sobre M y F es el conjunto de las funciones sobre M. Como estamos interesados en trayectorias en M , consideraremos los campos restritos a una curva. Definición 2.6.2 (Campo de vectores a lo largo de curvas). Un campo vectorial V a lo largo de una curva α : I −→ M es una aplicación que a cada α(t) ∈ M asocia un vector tangente V (t) ∈ Tα(t) M . Se dise que V es diferenciable si para cada función diferenciable f en D, la función V (t)f es una función diferenciable en I. Sea X un campo definido en M , el campo X a lo largo de α será denotado V (t) = 26 X(α(t)) y diremos que V es inducido por X. El campo vectorial dX(X −1 ◦α)(t) [(X −1 ◦ α)′ (t)] = d(X oX −1 ◦α)(t) dt denotado por dα , dt es llamado campo velocidad o tangente de α. Conexiones Afines. Denotemos T M como el conjunto de espacios tangentes definidos en M. Sea H = H(M ) = {X : M −→ T M : para cada p ∈ M, X(p) ∈ Tp M, y X ∈ C ∞ } el conjunto de campo de vectores y D = D(M ) = {f : M −→ IR : f ∈ C ∞ } el conjunto de funciones reales de clase C ∞ . Definición 2.6.3 Una conexión afin es una aplicación ∇ : H × H −→ H donde a cada par de campos (X, Y ) se asocia otro campo ∇X Y tal que para todo X, Y, Z ∈ H, y f, g ∈ D verifique: 1. ∇(f X+gY ) Z = f ∇X Z + g∇Y Z; 2. ∇X (Y + Z) = ∇X Y + ∇X Z; 3. ∇X f Y = f ∇X Y + X(f )Y , donde X(f ) = n P i=1 (.) ai (.) ∂f . ∂xi Considerando una curva diferenciable en M α : I −→ M, denotaremos el conjunto de campo de vectores a lo largo de esta curva como Hα . Proposición 2.6.1 Sea M una variedad diferenciable con una conexión afin ∇. Entonces existe una única aplicación en Hα , denotado por DV dt D , dt donde a cada V ∈ Hα se asocia otro campo , tal que para todo V, W ∈ Hα y f : I −→ IR una función diferenciable en I se cunplen: a. D (V dt b. D (f V dt + W) = )= df V dt DV dt + DW . dt + f DV . dt c. Si V (t) = Y (α(t)), donde Y ∈ H, entonces D dt DV dt = ∇ dα Y. dt es llamada Derivada Covariante. Observación 2.6.1 La Proposición 2.6.1 muestra que la elección de una conexión afin de M da origen a una única derivada covariante para cada campo vectorial a lo largo de una curva. 27 Observación 2.6.2 Al realizar la demostración de esta Proposición, encontramos una caracterización de la derivada covariante para una cierta parametrización X , de acuerdo con: n n X X dxi dv j DV vj = Xj + ∇Xi Xj . dt dt j=1 dt i,j=1 Observación 2.6.3 La noción de conexión afin, ofrece una manera de derivar campo de vectores a lo largo de curvas. Ası́, en particular para el campo vectorial V = tenemos: dα dt ! D dt dα , dt que llamaremos aceleración de una curva α en M . Expresión de la conexión afin relativa a coordenadas locales. Suponga que los campos de vectores X, Y ∈ H sean representados en una cierta vecindad local X : U ⊂ Rn −→ M , de algún punto p, por: X= n X xi i=1 ∂ , ∂xi Y = n X i=1 yi ∂ , ∂xi donde (∂/∂xi ) representan los vectores de la base del sistema de coordenadas locales. Por simplicidad de notación expresaremos: ∂ = Xi . ∂xi Entonces tenemos X= n X xi Xi , Y = n X yi Xi . i=1 i=1 Según las propiedades de la definición de la conexión afin: ∇X Y      X X X xi ∇Xi  yj Xj  = ∇P xi Xi  yj Xj  = j i    X X X X = xi  (yj ∇Xi Xj ) + xi  i i j j j ! ∂yj Xj  . ∂xi Observe que ∇Xi Xj ∈ H, pudiendo por tanto ser también representado atravéz de una base local, esto es: ∇Xi Xj = n X Γkij Xk k=1 que, substituyendo en la ecuación anterior, se obtiene: 28 (2.2) ∇X Y = n X k=1   n X  n X ∂yk  xi + Xk . ∂xi i=1 xi yj Γkij i,j=1 Definición 2.6.4 (Sı́mbolos de Christoffel). Los sı́mbolos de Christoffel, o coeficientes de la conexión afin ∇ en U , son las funciones (diferenciables): Γkij : U ⊂ M → R definidas por (2.2). Expresión de la derivada covariante en términos de coordenadas locales y de los sı́mbolos de Christoffel. Sea X : U → M un sistema de coordenadas locales en torno de p ∈ M . Un resultado obtenido al demostrar la Proposición 2.6.1 es: n n X X dxi dv j DV vj = Xj + ∇Xi Xj , dt dt j=1 dt i,j=1 y usando ∇Xi Xj = tenemos n X Γkij Xk , k=1 n n X X DV dxi dv j vj = Xj + dt dt j=1 dt i,j=1 = n X dv j j=1 Ası́: dt Xj + n n X X k=1 i,j=1  vj n X Γkij Xk k=1 ! , dxi k Γ Xk . dt ij  n n X X DV dv k dxi k   Xk vj = + Γ dt dt dt ij i,j=1 k=1 (2.3) es la expresión de la derivada covariante en términos de coordenadas locales y de los sı́mbolos de Christoffel. Geodésicas y Campos paralelos. La derivada covariante permite definir el transporte paralelo a lo largo de curvas que dependen de la métrica, osea, que cambiando la métrica, cambia en general la manera de derivar campos vectoriales, en particular nos permite conocer geodésicas, curvas 29 cuyo vector tangente es paralelo o derivada covariante nula. Si α : [a, b] → M es una curva, tal que α(a) = y α(b) = q, el transporte paralelo es Pα(t) : Tp M → Tq M un isomorfismo lineal tal que Pα(t) (v) = V (b) que es el único transporte paralelo a lo largo de α. Con la métrica euclidiana la geodésica es el segmento de recta entre dos puntos p y q cualquiera que caracteriza la trayectoria de menor longitud que los une. Si α : [a, b] → IRn es una curva diferenciable pasando por: p = α(a) yq = α(b), siendo el campo dα dt asociado fisicamente a la velocidad, tenemos la aceleración d dα ( ) dt dt en cada punto α(t) con la propiedad de α ser geodésica dada por d dα ( ) = 0. dt dt La extensión de esta noción a variedades exigirá apenas que la componente tangencial de la derivada sea nula. Geodésicas. Definición 2.6.5 Una curva parametrizada α : I −→ M es una geodésica si el campo tangente dα dt verifica: D dα ( ) = 0. dt dt Campos paralelos. Dado M una variedad diferenciable, una conexión afin ∇ y un campo V a lo largo de una curva diferenciable α : I → M , V es denominado campo paralelo si para todo t ∈ I. Ası́, si α es una geodésica, entonces dα dt DV dt es paralelo. Ecuaciones geodésicas. De la expresión (2.3), un campo paralelo V es determinado por las ecuaciones o, equivalentemente,   n X dαi k  dv k  Xk = 0 vj + Γ dt dt ij i,j=1 k=1 n X n X dαi k dv k vj + Γ = 0, dt dt ij i,j=1 30 k = 1, ..., n. = 0, Cuando se trata de una geodésica α(t) = (α1 (t), ..., αn (t)), se tiene v i = dαi , dt entonces esta última ecuación se transforma en n X d dαk dαj dαi k ( )+ Γij = 0, dt dt i,j=1 dt dt o n X dαi dαj d2 αk Γkij + = 0, 2 dt dt dt i,j=1 k = 1, ..., n k = 1, ..., n (2.4) el cual es un sistema de n ecuaciones diferenciales de 2do. orden, que posee solución única en algun intervalo I = [a, b], verificando x(0) = α(0) = p y dx (0) dt = α′ (0) = v . Conexión afin en variedades riemannianas. Definición 2.6.6 Sea M una variedad diferenciable con una conexión afin ∇ y una métrica riemanniana h , i. Se dice que ∇ es compatible con la métrica h , i si para todo par de campos de vectores V y W a lo largo de la curva diferenciable α : I −→ M se tiene: DV DW d hV, W i = h , W i + hV, i. dt dt dt (2.5) Proposición 2.6.2 Si la conexión afin ∇ es compatible con h , i y V, W son campos paralelos a lo largo de una curva diferenciable α : I −→ M entonces, hV, W i es constante. , dα i es constante. En particular si α(t) = (α1 (t), ..., αn (t)) es una geodésica, h dα dt dt Proposición 2.6.3 Sea M una variedad riemanniana. Una conexión afin ∇ es compatible con el h, i si, y solamente si: XhY, Zi = h∇X Y, Zi + hY, ∇X Zi, para todo X, Y, Z ∈ H. Definición 2.6.7 Una conexión afin ∇ en una variedad diferenciable M es llamada simétrica si: ∇X Y − ∇Y X = [X, Y ], donde [X, Y ] = XY − Y X. Observaciones: 31 1. En un sistema de coordenadas (U, X ) la simetrı́a de la conexión afin implica que ∇ ∂ ∂xi ∂ ∂xj =∇ ∂ ∂xj ∂ . ∂xi En efecto, para todo f ∈ D, ∂2f ∂2f − = 0. Xi Xj (f ) − Xj Xi (f ) = ∂xi ∂xj ∂xj ∂xi 2. En consecuencia se tiene que: ∇Xi Xj − ∇Xj Xi = n X (Γkij − Γkji )Xk = 0. k=1 Debido a la independencia lineal de {Xk } obtenemos: Γkij = Γkji . La reciproca es inmediata. El teorema a seguir garantiza la existencia y unicidad de una conexión simétrica y compatible con la métrica en una variedad riemanniana. Teorema 2.6.1 (Levi-Civita). Dada una variedad riemanniana M , existe una única conexión afin ∇ en M satisfaciendo las condiciones: a) ∇ es simétrica. b) ∇ es compatible con la métrica riemanniana. (Esta conexión es denominada conexión riemanniana). Relación entre la métrica riemanniana y los sı́mbolos de Christoffel. Dado un sistema de coordenadas (U, X ), las funciones conocidas como sı́mbolos de Christoffel Γki,j : U → IR definen los coeficientes de conexión ∇Xi Xj = muestra que Γm ij n ∂ ∂ ∂ 1X gjk + gki − gij }g km , ={ 2 k ∂xi ∂xj ∂xk 32 n P k Γkij Xk . Se donde gij = h ∂x∂ i , ∂x∂ j i son elementos de la matriz G(x) y g ij los elementos de su inversa G−1 (x) respectivamente. En efecto, tomemos ∂ ∂xi = Xi , ∂ ∂xj = Xj y ∂ ∂xk = Xk . Usando el resultado siguiente: 1 hZ, ∇Y Xi = {XhY, Zi+Y hZ, Xi−ZhX, Y i−h[X, Z], Y i−h[Y, Z], Xi−h[X, Y ], Zi} 2 (2.6) tenemos: 1 hXk , ∇Xj Xi i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i}. 2 Como ∇Xj Xi = ∇Xi Xj = ∇Xi Xj = interno, se tiene: n P l=1 Γlij Xl y usando a linealidad del producto n X 1 Γlij hXk , Xl i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i}, 2 l=1 y ası́: n X 1 ∂ ∂ ∂ Γlij gkl = { gjk + gki − gij }. 2 ∂xi ∂xj ∂xk l=1 Denotando bk = 12 { ∂x∂ i gjk + ∂x∂ j gki − ∂x∂ k gij }, k = 1, 2, ..., n obtenemos un sistema lineal Gy = b con y = (Γ1ij , Γ2ij , ..., Γnij ) y b = (b1 , b2 , ..., bn ). Como G(x) es invertible (ver definición de métrica riemanniana) entonces y = G−1 b. Ası́ tenemos: Γm ij n 1X = g mk bk . 2 k=1 Finalmente sustituyendo el valor de bk en la expresión anterior se tiene: Γm ij = n ∂ 1X ∂ ∂ { gjk + gki − gij }g km . 2 k=1 ∂xi ∂xj ∂xk (2.7) Ejemplo 2.6.1 Sea la variedad riemanniana M = IRn++ , con la métrica dada por ! 1 1 1 , , , ..., G(x) = diag 2 2 (h1 (x1 )) (h2 (x2 )) (hn (xn )2 para funciones hi : IR++ −→ IR++ diferenciables. La inversa de la matriz G(x) es: G−1 (x) = diag (h1 (x1 ))2 , (h2 (x2 ))2 , ..., (hn (xn ))2 . 33 1. Obtención de los sı́mbolos de Christoffel. Recordemos que la relación de la métrica con los sı́mbolos de Christoffel está dado por la ecuación (2.7). Cuando k 6= m tenemos que g mk = 0, ası́ la expresión es reducida a: Γm ij ( 1 = 2 ) ∂ ∂ ∂ gim + gmi − gij g mm . ∂xi ∂xj ∂xm Consideramos dos casos: a) Si i = j Γm ii 1 = 2 ( ) ∂ ∂ ∂ gim + gmi − gii g mm . ∂xi ∂xi ∂xm Para m = i Γiii = − 1 ∂ (hi (xi )) . hi (xi ) ∂xi Para m 6= i b) Si i 6= j Γm ii = 0. Γm ij 1 = 2 ( ) ∂ ∂ gim + gmi g mm . ∂xi ∂xj Para m = i entonces, m 6= j y: Γiij = 0. Para m = j entonces, m 6= i y: Γjij = 0. Para m 6= i y m 6= j entonces, Γm ij = 0. De ambos casos tenemos: Γm ij = − 1 ∂(hi (xi )) δim δij hi (xi ) ∂xi (2.8) que es la expresión de los Sı́mbolos de Christoffel en relación a la métrica G(x). Como aplicaciones tenemos: 34 • Si hi (xi ) = 1, entonces, G(x) = I. Luego: Γm ij = 0, ∀ i, j, m = 1, ..., n. 1 • Si hi (xi ) = xi entonces, G(x) = X −2 . Luego: Γm ij = − xi δim δij . r r 1 • Si hi (xi ) = xi2 entonces, G(x) = X −r . Luego: Γm ij = − 2 xi δim δij . −r r • Se hi (xi ) = si 2 xi2 , si ∈ IR++ entonces, G(x) = S r X −r . Luego Γm ij = − 2r x1i δim δij . 2. Obtención de la derivada covariante. Vimos que la relación de la derivada covariante con respecto a los sı́mbolos de Christoffel es dada por la ecuación (2.3). Sustituyendo la expresión (2.8) en (2.3) obtenemos: ! n X dv i DV 1 ∂(hi (xi )) i dxi Xi . = − v dt dt hi (xi ) ∂xi dt i=1 En particular: • Si hi (xi ) = 1, Γkij = 0, y ası́: n X dv i DV = Xi , dt i=1 dt que es la propia derivada usual. 1 • Si hi (xi ) = xi , Γm ij = − xi δim δij y ! n X DV 1 dxi dv i Xi . = − vi dt dt xi dt i=1 r r 1 • Si hi (xi ) = xi2 , Γm ij = − 2 xi δim δij ! n X dv i r 1 i dxi DV Xi . = − v dt dt 2 xi dt i=1 3. Determinación de la ecuación geodésica: Sea p = (p1 , p2 , ..., pn ) ∈ IRn++ y v = (v1 , v2 , ..., vn ) ∈ Tp IRn++ = IRn con α : I → IRn++ : α(t) = (α1 (t), α2 (t), ..., αn (t)), donde α(0) = p y dα(0) dt = v, I alguún intervalo abierto de IR. Substituyendo los sı́mbolos de Christoffel (2.8) en la ecuación (2.4) obtenemos: 1 ∂(hi (αi )) dαi 2 d2 αi − ) = 0, ∀i = 1, ..., n ( dt2 hi (αi ) ∂αi dt 35 (2.9) αi (0) = pi , i = 1, ..., n αi′ (0) = vi , i = 1, ..., n. La ecuación diferencial (2.9) es equivalente a resolver: dαi = hi (αi )ai , dt para alguna constante ai , que también es equivalente a resolver la integral: Z 1 dαi = ai t + bi , hi (αi ) i = 1, 2, ..., n para algunas constantes ai y bi en IR. Entonces, la única geodésica α(t) de IRn++ , con métrica G(p), pasando por el punto α(0) = p, en la dirección α′ (0) = v, es obtenida resolviendo el siguiente problema: Z ( 1 )dαi = ai t + bi hi (αi ) i = 1, ..., n (2.10) donde ai y bi son constantes reales tales que: αi (0) = pi , i = 1, ..., n. αi′ (0) = vi , i = 1, ..., n. En particular: • Si hi (αi ) = 1 tenemos que G(p) = I y considerando las condiciones iniciales de (2.10) encontramos la expresión de la curva geodésica: αi (t) = vi t + pi i = 1, ..., n. Esto es, las geodésicas son curvas α : IR −→ IRn++ definidas por: α(t) = (v1 t + p1 , ..., vn t + pn ). Observemos que la geodésica α(t) está definida para valores de t tal que vi t + pi > 0. • Si h(αi ) = αi entonces, G(x) = X −2 considerando las condiciones iniciales de (2.10), las curvas geodésicas son funciones exponenciales: ! ! !! v2 vn v1 t , p2 exp t , ..., pn exp t α(t) = p1 exp p1 p2 pn . Vemos que dados cualquier p ∈ IRn++ y v ∈ IRn , la geodésica α(t) está definida para todo t ∈ IR. 36 Ejemplo 2.6.2 Consideremos la variedad riemanniana C0n = (0, 1)n con la métrica dada por: ! 1 1 1 , , , ..., G(p) = diag 2 2 (h1 (α1 )) (h2 (α2 )) (hn (αn ))2 para funciones hi : (0, 1) −→ (0, 1) diferenciables. Ası́, la única geodésica α(t) de C0n , con métrica G(p), pasando por el punto α(0) = p, en la direción α′ (0) = v ∈ Tp C0n = IRn , es obtenida resolviendo la siguiente ecuación: Z ( 1 )dαi = ai t + bi hi (αi ) i = 1, ..., n, donde ai y bi son constantes reales tales que: αi (0) = pi , i = 1, ..., n. αi′ (0) = vi , i = 1, ..., n. • Si hi (αi ) = sen2 (παi ) entonces G(p) = csc4 (πp), con las geodésicas en C0n , α(t) = (α1 (t), α2 (t), ..., αn (t)), considerando las condiciones iniciales de (2.10), son: αi (t) = 1 arccot −πcsc2 (πpi )vi t + cot(πpi ) para todo, i = 1, 2..., n. π Observamos que dados cualquier p ∈ C0n y v ∈ IRn , la geodésica α(t) está definida para todo t ∈ IR. • Si hi (αi ) = αi (1 − αi ) se tiene que G(p) = P −2 (I − P )−2 , las geodésicas en C0n , α(t) = (α1 (t), α2 (t), ..., αn (t)), considerando las condiciones iniciales de (2.10), son: ( !) 1 1 vi αi (t) = 1 + tgh t + arccoth(2pi − 1) 2 2 pi (1 − pi ) donde tanh(z) = ez −e−z ez +e−z para todo, i = 1, 2..., n. es la función tangente hiperbólica. Observamos que dados cualesquiera p ∈ C0n y v ∈ IRn , la geodésica α(t) está definida para todo t ∈ IR. 37 2.7 Curvatura de una variedad riemanniana En esta sección, presentamos la definición de curvatura de una variedad riemanniana que, intuitivamente, mide cuanto ella se aleja de ser euclidiana. Del punto de vista de las aplicaciones esta sección muestra esencialmente que las variedades IRn++ y C0n con la métrica dada por G(x) = diag 1 1 , , ..., (hn (x1 n ))2 (h1 (x1 ))2 (h2 (x2 ))2 para cuaquier función diferenciable hi : IR++ −→ IR++ y hi : (0, 1)n −→ IR++ respectivamnte, tiene curvatura cero. Definición 2.7.1 (Aplicación curvatura). Sea A(H, H) el conjunto de aplicaciones de H en H y ∇ la conexión afin en una variedad riemanniana M , dada por el teorema de Levi-Civita. Una curvatura K de una variedad riemanniana M es una correspondencia K : H × H −→ A(H, H) definida por: K(X, Y )Z = ∇Y ∇X Z − ∇X ∇Y Z + ∇[X,Y ] Z. Observación 2.7.1 Si la variedad M = IRn , entonces K(X, Y )Z = 0, para todo X, Y, Z ∈ H. En efecto, basta indicar Z = (z1 , z2 , ..., zn ) las componentes del campo Z en las coordenadas naturales de IRn y la conexión definida por: ∇X Z = (Xz1 , Xz2 , ..., Xzn ). Observación 2.7.2 Si consideramos un sistema de coordenadas (U, X ) en torno del punto p y {Xi } , i = 1, 2, ..., n es una base de Tp M obtenemos: K(Xi , Xj )Xk = ∇Xi ∇Xj − ∇Xj ∇Xi Xk . Observación 2.7.3 La curvatura K es antisimétrica. En efecto, K(X, Y )Z + K(Y, X)Z = ∇[X,Y ] Z + ∇[Y,X] Z, para todo Z ∈ H. Como [X, Y ] = −[Y, X], entonces: K(X, Y )Z + K(Y, X)Z = 0, para todo Z ∈ H, y ası́, K(X, Y ) = −K(Y, X). 38 Proposición 2.7.1 La curvatura K de una variedad riemanniana es trilineal, en el siguiente sentido: a. K es bilineal en H × H, esto es, K(f X1 + gX2 , Y1 ) = f K(X1 , Y1 ) + gK(X2 , Y1 ), K(X1 , f Y1 + gY2 ) = f K(X1 , Y1 ) + gK(X1 , Y2 ), donde f, g ∈ D(M ) y X1 ,X2 , Y1 , Y2 ∈ H. b. Para todo par X, Y ∈ H, el operador curvatura K(X, Y ) : H −→ H es lineal, esto es, K(X, Y )(Z + W ) = K(X, Y )Z + K(X, Y )W, K(X, Y )(f Z) = f K(X, Y )Z, donde f ∈ D(M ) y Z, W ∈ H. Proposición 2.7.2 Sea (U, X ) un sistema de coordenadas en torno de p ∈ M y {Xi } una base de Tp M en este sistema de coordenadas. Entonces: K(Xi , Xj )Xk = n X l Kijk Xl , l=1 l donde las componentes Kijk son dadas por: l Kijk = Xj Γlik − Xi Γljk + n X s=1 Γsik Γljs − n X Γsjk Γlis . s=1 Observación 2.7.4 Si en las coordenadas (U, X ) escribimos: X = n P j=1 v j Xj , Z = n P k=1 wk Xk , por la linealidad de K tenemos: K(X, Y )Z = n X n P i=1 ui Xi , Y = l Kijk ui v j wk Xl . i,j,k,l=1 Ejemplo 2.7.1 Sea M = IRn++ ó M = C0n con estructura de variedad riemanniana representada por la matriz G(x) = diag( (h1 (x1 1 ))2 , (h2 (x1 2 ))2 , ..., (hn (x1 n ))2 ). Ya vimos que sus sı́mbolos de Christoffel son: Γm ij = −1 ∂(hi (xi )) δim δij . hi (xi ) ∂xi 39 Si en las coordenadas (U, X ) escribimos: X = de la tri-linealidad de K tenemos: K(X, Y )Z = n X n P i=1 ui Xi , Y = n P j=1 v j Xj , Z = n P k=1 wk Xk , ui v j wk K(Xi , Xj )Xk . i,j,k=1 Por definición de curvatura: K(Xi , Xj )Xk = ∇Xj (∇Xi Xk ) − ∇Xi (∇Xj Xk ) + ∇[Xi ,Xj ] Xk , como la conexión es de Levi Civita se tiene [Xi , Xj ] = 0. Ası́, K(Xi , Xj )Xk = ∇Xj (∇Xi Xk ) − ∇Xi (∇Xj Xk ). Si i = j, entonces K(Xi , Xj )Xk = 0. Supongamos que i 6= j, entonces ∇Xi Xk = n X Γjik Xj . j=1 Sustituyendo los sı́mbolos de Christoffel tenemos: ∇Xi Xk = n X j=1 ! 1 ∂(hi (xi )) 1 ∂(hi (xi )) − δij δik Xj = − δik Xi hi (xi ) ∂xi hi (xi ) ∂xi luego tomando ∇Xj se tiene: ∇Xj (∇Xi Xk ) = ∇Xj (2.11) ! 1 ∂(hi (xi )) − δik Xi , hi (xi ) ∂xi por definición de conexión afin ∇X (f Y ) = f ∇X Y +X(f )Y donde X(f ) = entonces tenemos: n P i=1 ∂f , ai (.) ∂x i ! 1 ∂(hi (xi )) 1 ∂(hi (xi )) δik ∇Xj Xi + Xj − δik Xi . ∇Xj (∇Xi Xk ) = − hi (xi ) ∂xi hi (xi ) ∂xi Usando (2.11) y dado que i 6= j, el primero y segundo término de la suma anterior, es igual a cero. Por tanto: ∇Xj (∇Xi Xk ) = 0. Análogamente, ∇Xi (∇Xj Xk ) = 0. 40 De ambos resultados se tiene: K(Xi , Xj )Xk = 0, ∀ i, j, k = 1, 2, ...n. Ası́ K(X, Y )Z = 0. Luego las variedades riemannianas IRn++ y C0n con métrica G(x) tienen curvatura cero. En particular, con las métricas I, X −r , para IRn++ y cosec4 (πx), X −r (I − X)−r para C0n , son variedades de curvatura cero. Curvatura Seccional. Intimamente relacionado con el operador curvatura K está la curvatura seccional (o riemanniana) que definiremos a seguir. Sea M una variedad riemanniana y σ un subespacio bidimensional de Tp M . Definimos la forma cuadrática como Q : σ → IR tal que: Q(x, y) = hx, xihy, yi − hx, yi2 . Geométricamente q Q(x, y) representa el área del paralelogramo definido por x e y. Proposición 2.7.3 Sea σ ⊂ Tp M un subespacio bidimensional y x, y ∈ σ, dos vectores linealmente independientes. Entonces, K(x, y) = hK(x, y)x, yi , Q(x, y) no depende de la elección de los vectores x y y. Definición 2.7.2 (Curvatura Seccional). Dado un punto p ∈ M y σ ⊂ Tp M. El número K(x, y) = K(σ), donde {x, y} es una base de σ, es llamado “Curvatura Seccional de M ”. Si K(x, y) ≤ 0 para todo x, y ∈ σ entonces, la curvatura seccional de la variedad riemanniana es no positiva. Si K(x, y) ≥ 0 para todo x, y ∈ σ entonces, la curvatura seccional de la variedad riemanniana es no negativa. 41 2.8 Gradiente y Hessiana en una variedad riemanniana Sea M una variedad riemanniana y f : M −→ IR una función diferenciable. Dado p ∈ M sabemos que la diferencial de f en el punto p es un funcional lineal definido en Tp M, entonces por el teorema de representación de Riesz existe un único elemento denotado por ∇M f (p) ∈ Tp M tal que para todo v ∈ Tp M se tiene dfp (v) = h∇M f (p), vi (2.12) y k∇M f (p)k = kdfp k, esto es, la aplicación diferencial se puede caracterizar por la aplicación de producto interno. Ası́ podemos definir un campo vectorial grad f : M −→ T M, como grad f (p) = ∇M f (p). La expresión (2.12) puede ser escrita como: dfp (X(p)) = hgrad f (p), X(p)i, para todo X ∈ H, y ası́ también podemos definir una aplicación df : H −→ M ∗ = L(M, IR), donde L(M, IR) es el conjunto de funciones en M en IR, tal que: df (X) = hgrad f, Xi. Además, dfp (X(p)) = d (f dt ◦ γ)|t=0 para alguna curva γ : I −→ M con γ(0) = p y γ ′ (0) = X(p), luego tenemos que dfp (X(p)) = n P i=1 ∂f (p) = X(f )(p), por tanto γi′ (0) ∂x i df (X) = hgrad f, Xi = X(f ). Ası́ llegamos a la siguiente definición. Definición 2.8.1 El gradiente de una función diferenciable f : M −→ IR es un campo vectorial grad f : M −→ T M metricamente equivalente a la diferencial, esto es, dfp (X(p)) = hgrad f (p), X(p)i = X(p)f, para todo X ∈ H. 42 Observación 2.8.1 Sea M ⊂ IRn una variedad riemanniana con la métrica definida por hv, wix = v T G(x)w donde G(x) es una matriz simétrica definida positiva. Se puede caracterizar el campo gradiente como: grad f (q) = G−1 (q)f ′ (q), ∂f ∂f , ..., ∂x ) es el vector donde G−1 (q) = (g ij (q)) es la matriz inversa de G(q) y f ′ = ( ∂x n 1 de derivadas parciales de la función f ◦ X . En efecto, D dfq (v) = f ′ (q)T v = f ′ (q)T (G(q)−1 )T G(q)v = (G(q)−1 f ′ (q))T G(q)v = G(q)−1 f ′ (q), v E q Ejemplo 2.8.1 Sea la variedad riemanniana IRn con la métrica euclidiana G = I, entonces grad f (x) = f ′ (x) (el gradiente usual). Ejemplo 2.8.2 Sea la variedad riemanniana IRn++ con la expresión de la métrica ! 1 1 , , ..., G(x) = diag 2 (h1 (x1 )) (hn (xn ))2 para funciones hi : IR++ −→ IR++ grad f (x) = diag(h1 (x1 ))2 , ..., (hn (xn ))2 )f ′ (x). En particular: 1. Si hi (xi ) = xi entonces: grad f (x)f (x) = X 2 f ′ (x), donde denotamos X = diag(x1 , ..., xn ). r 2. Si hi (xi ) = xi2 , r 6= 2 entonces: grad f (x)f (x) = X r f ′ (x). Ejemplo 2.8.3 Sea la variedad riemanniana C0n = (0, 1)n con la expresión de la métrica dada por G(x) = csc 4 (πx) = diag(csc 4 (x1 ), ..., csc 4 (xn )), entonces grad f (x)f (x) = sen 4 (πx)f ′ (x), donde sen(X) = diag(sen(x1 ), ..., sen(xn )). 43 . Definición 2.8.2 Sea M una variedad riemanniana y p ∈ M . Decimos que p es punto crı́tico si grad f (p) = 0. Definición 2.8.3 (Hessiana de una función). Sea f : M −→ IR una función de clase C k , k ≥ 2. La Hessiana de f , denotada por H f , es definida como la derivada covariante del campo gradiente, esto es, Hf = D (grad f ) . dt Ası́, la Hessiana en el punto p, en la dirección de v ∈ Tp M es: Hpf (v) = D (grad f ) (p) = ∇v grad f (p). dt A partir del concepto de Hessiana podemos definir las aplicaciones Hpf : Tp M −→ Tp M y H f : M −→ L(T M, T M ) donde L(T M, T M ) es el conjunto de aplicaciones lineales de T M en T M y H f (p) = Hpf ∈ L(Tp M, Tp M ). Proposición 2.8.1 Para cada p ∈ M , el operador Hpf : Tp M −→ Tp M es lineal y autoadjunto, esto es, hHpf (v), wip = hv, Hpf (w)ip . De la Proposición anterior, para cada p ∈ M podemos introducir una forma cuadrática qpf : Tp M × Tp M −→ IR definida por: qpf (v, w) = hHpf v, wip . Más generalmente, podemos definir la aplicación q f : H × H −→ L(M, IR) dada por: q f (X, Y ) = h∇X grad f, Y i. (2.13) La función definida en (2.13) tiene la desventaja de depender del conocimiento de la métrica y de la conexión, cuando sabemos que la métrica determina una conexión afin (Teorema de Levi Civita), por tanto la proposición siguiente es importante para poder obtener una caracterización adecuada. Proposición 2.8.2 Para todo X, Y ∈ H q f (X, Y ) = (XY − ∇X Y )f = (Y X − ∇Y X)f. 44 Observación 2.8.2 En un sistema de coordenadas (X , U ) en terminos de la base {Xk } tenemos: f q (Xi , Xj ) = Xi Xj − q (Xi , Xj ) = hHpf Γm ij Xm m=1 esto es: f n X ! f, ! n X ∂f ∂2f Γm . − ij ∂xi ∂xj m=1 ∂xm Xi , Xj i = (2.14) Ejemplo 2.8.4 Sea la variedad riemanniana IRn con métrica G(x) = I; como vimos anteriormente, los sı́mbolos de Christoffel son Γm ij = 0, para todo i, j, m = 1..., n, entonces la matriz Hessiana es la Hessiana usual Hpf (p) = f ′′ (p). Ejemplo 2.8.5 Sea la variedad riemanniana IRn++ con la métrica gij = δij . hi (xi )hj (xj ) Sabemos que los sı́mbolos de Christoffel son: Γm ij = −1 ∂hi (xi ) δim δij , hi (xi ) ∂xi entonces: f q (Xi Xj ) = Xi Xj + n X 1 ∂hi (xi ) δim δij Xm . ∂xi m=1 hi (xi ) Si m 6= j entonces δim δij = 0, luego se tiene: f q (Xi , Xj ) = ! ∂ 1 ∂hi (xi ) ∂2 f. + δij ∂xi ∂xj hi (xi ) ∂xi ∂xi Ası́, Hxf = q f (Xi )(Xj ) es la matriz que representa la Hessiana de la función f . Aún podemos dar una representación matricial 1 Hxf = f ′′ (x) + G(x) 2 (G(x) donde: F ′ (x) = diag G(x) = diag ∂f (x) ∂f (x) , ∂x2 , ..., ∂f∂x(x) ∂x1 n . 1 1 , , ..., (hn (x1 n ))2 (h1 (x1 ))2 (h2 (x2 ))2 2 2 . 2 ∂ f f ′′ (x) = diag( ∂∂xf2 , ∂∂xf2 , ..., ∂x 2 ). 1 2 n En particular: 45 −1 2 )′ F ′ (x), 1. Si hi (xi ) = 1 entonces Hxf = f ′′ (x) la matriz Hessiana usual. 2. Si hi (xi ) = xi entonces Hxf = f ′′ (x) + X −1 F ′ (x). r 3. Si hi (xi ) = xi2 , r 6= 2, entonces: Hxf = f ′′ (x) + 2r X −1 F ′ (x). Corolario 2.8.1 Si p ∈ M es un punto crı́tico de f y X, Y ∈ H, entonces: Hpf (X(p), Y (p)) = X(p)Y (p)f. Demostración. Hpf (X(p), Y (p)) = X(p)(Y (p)f ) − h∇X(p) Y (p), grad f (p)i, y como grad f (p) = 0, se sigue el Corolario. De este corolario, se deduce que si p ∈ M es un punto crı́tico de f entonces la matriz Hessiana de f , calculada en este punto, coincide con la matriz Hessiana usual. 2.9 Variedades completas Todos los algoritmos desarrollados en Optimización, en la perspectiva de la geometrı́a riemanniana, necesitan de la hipótesis de variedad completa, que en términos simples significa que la geodésica, contenida en ella, está definida para todos los valores de t ∈ IR. El Teorema de Hopf y Rinow de gran importancia y utilidad en las aplicaciones el cual enunciaremos porteriormente, dice: Dados dos puntos cualquiera de la variedad completa existe siempre una geodésica que minimiza la longitud de arco entre todas las curvas regulares por partes que unen tales puntos. Una pregunta natural serı́a, si se podrı́a desarrollar métodos geodésicos donde la hipótesis de variedad completa sea más suave, por ejemplo, introduzir una medida en la variedad a partir del producto interno del espacio tangente donde la geodésica esté definida en casi todos los puntos y los puntos donde la geodésica no sea definida, pertenezca a un conjunto de medida nula. Restringiendonos a las variedades completas, desarrollamos esta teorı́a de manera resumida. Definición 2.9.1 Una variedad riemanniana M es llamada (geodésicamente) completa si para todo p ∈ M , las geodésicas que parten de p estan definidas para todos los valores del parámetro t ∈ R. 46 Ejemplo 2.9.1 IRn con la métrica euclidiana G(x) = I, es (geodesicamente) completa, pues dado un punto cualquiera x ∈ M y una dirección arbitraria v ∈ Tx M , vimos que la i-ésima componente de la geodésica que cumple las condiciones iniciales αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n, es dado por: αi (t) = xi + tvi , para todo i = 1, 2, ..., n, lo que está definida para todo t ∈ IR. Ejemplo 2.9.2 IRn++ con la métrica G(x) = X −2 es (geodésicamente) completa, pues dado un punto cualquiera x ∈ M y una dirección cualquiera v ∈ Tx M , vimos que la i-ésima componente de la geodésica cumpliendo las condiciones iniciales αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n es : αi (t) = xi exp( xvii t) la cual está definido para todo t ∈ IR. Ejemplo 2.9.3 C0n = (0, 1)n con la métrica dada por: G(x) = csc 4 (πx) = diag(csc 4 (πx1 ), ..., csc 4 (πxn )) es (geodesicamente) completa pues dado un punto arbitrário x ∈ M y una dirección cualquiera v ∈ Tx M, vimos que la i-ésima componente de la geodésica cumpliendo las condiciones iniciales αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n es: αi (t) = 1 arccot −πcsc2 (πxi )vi t + cot(πxi ) , π para todo i = 1, 2..., n. En adelante consideramos que la variedad riemanniana estudiada tiene la propriedad de conexidad, esto es, para cualquier par de puntos p, q de M existe una curva diferenciable contenida en M , γ : [a, b] :→ M , tal que γ(a) = p y γ(b) = q. Definición 2.9.2 Dados dos puntos p y q en M , la distancia riemanniana de p a q en la variedad, denotada por d(x, y), es definida por d(p, q) = Inf γ Z b a kγ ′ (t)kdt (2.15) donde γ : [a, b] → M es una curva diferenciable tal que γ(a) = p y γ(b) = q. Proposición 2.9.1 Con la distancia geodésica (2.15) M es un espacio métrico. 47 Teorema 2.9.1 (Hopf-Rinow) Sea M una variedad riemanniana y sea p ∈ M . Las siguientes afirmaciones son equivalentes: a) Limitados y cerrados son compactos. b) M es completo como espacios métrico. c) M es geodesicamente completa. d) Para todo q ∈ M existe una geodésica uniendo p y q con: d(p, q) = Inf γ Z b a kγ ′ (t)kdt, esto es, el mı́nimo de (2.15) es obtenida por una geodésica. Ejemplo 2.9.4 Sea la variedad riemanniana IRn++ con expresión de la métrica G(x) = X −2 . Dados p y q en IRn++ , existe una única geodésica uniendo p a q. En efecto, sea γi (t) = pi exp( vpiit ) y αi (t) = pi exp( wpiit ) las i-ésimas componentes que satisfazen las condiciones iniciales: γi (0) = αi (0) = pi , γi (t0 ) = αi (t0 ) = qi . Se puede verificar que vi = wi para todo i = 1, ..., n. En efecto, tomando el valor t = t0 tenemos que para todo i = 1, ..., n: qi = pi exp( vpi ti0 ) = pi exp( wpiit0 ) dividiendo por pi , tomando logaritmo y multiplicando por pi /t0 tenemos vi = wi y ası́ γi (t) = αi (t) para todo t ∈ IR. Además: a). Debido a que qi = pi exp( pvii ) entonces vi = pi ln( pqii ). b). γi′ (t) γi (t) = vi pi = d(p, q) = Z entonces γi′ (t) γi (t) 0 1 ln2 ( pqii ) t0 t0 ası́: kγ ′ (t)kdt =  " n X  ln i=1 !#2  12  qi .  pi Ejemplo 2.9.5 Sea la variedad riemanniana C0n = (0, 1) con la expresión de la métrica riemanniana G(x) = csc4 (πx). Dados p y q en C0n , existe una única geodésica que une p y q. Además tenemos: 48 a). qi = γi (t0 ) = 1 arccot (−πcsc2 (πpi )vi t0 π + ctg(πpi )) , para todo i = 1, ..., n, entonces vi = − b). γi′ (t) sen2 (πγi (t)) cot(πqi ) − cot(πpi ) . πt0 csc2 (πpi ) = ai = csc2 (πpi )vi . Substituyendo el valor de vi y elevando al cuadrado tenemos: γi′ (t) sen2 (πγi (t)) !2 = a2i = 1 π 2 t20 {cot(πqi ) − cot(πpi )}2 usando estos hechos tenemos: d(p, q) = Z 0 t0 ( n 1 X kγ (t)kdt = [cot(πqi ) − cot(πpi )]2 π i=1 ′ )1 2 . Teorema 2.9.2 Ley de cosenos. Sea M una variedad riemanniana completa con curvatura seccional no negativa, en un triángulo geodésico normalizado tal que γ1 , γ2 , γ3 segmento de geodésicas minimizantes. Vale la desigualdad c2 ≤ a2 + b2 − 2a b cosα (2.16) donde α = arg(γ1′ (0). − γ3′ (l3 )), a = L(γ1 ), b = L(γ3 ), c = L(γ2 ), L, longitud de geodésica 49 Capı́tulo 3 El Problema de Optimización y sus Condiciones de Optimalidad Diversos fenómemos naturales son estudiados a través de modelos matemáticos, en especial por modelos presentados por un problema de optimización el cual mostraremos más adelante. En estos modelos, es necesario garantizar inicialmente las condiciones para la existencia y caracterización de puntos óptimos, para luego desarrollar un algoritmo adecuado que resuelva algunos modelos matemáticos de optimización, en tal sentido, definimos el conjunto sobre el cual estamos trabajando, es decir conoceremos lo que és una variedad convexa y en ella estudiamos una clase particular de funciones llamadas convexas y cuasi-convexas. Para el desarrollo de este Capı́tulo, iniciamos con algunas definiciones elementales, que serán de gran utilidad al resolver un problema de optimización. Definición 3.0.3 (Mı́nimo: global, local, estricto). Sea M una variedad riemanniana completa y f : M −→ IR una función. 1. x̄ ∈ M es un mı́nimo global de f si, f (x̄) ≤ f (x), para todo x ∈ M. 2. x̄ ∈ M es un mı́nimo local de f si, existe δ > 0 tal que: f (x̄) ≤ f (x), para todo x ∈ B(x̄, δ), donde B(x̄, δ) = {x ∈ M, d(x̄, x) < δ} . 50 3. x̄ ∈ M es mı́nimo local estricto si, existe δ > 0 tal que f (x̄) < f (x), para todo x 6= x̄, x ∈ B(x̄, δ). El problema de interés será resolver el siguiente modelo: min f (x) x∈M (3.1) que significa encontrar los mı́nimos globale de una función f sobre M, y es denominado “Problema de Minimización”, sujeta generalmente a algunas restricciones sobre su dominio. El modelo (3.1) resuelve también el “Problema de Maximización”. max f (x) x∈M para ello basta definir f (x) = −g(x). 3.1 Existencia de puntos de mı́nimo global Definición 3.1.1 Una función f : M −→ IR es denominada semicontinua inferior en x̄ ∈ M, si para toda sucesión {xk } de M convergente a x̄ se tiene que: lim inf f (xk ) ≥ f (x̄). k→∞ Si f es semicontinua inferior para todo x ∈ M, entonces decimos que f es semicontinua inferior en M. El siguiente Teorema garantiza la existencia de un punto de mı́nimo global para el problema (3.1). Teorema 3.1.1 (Weierstrass) Considere el problema (3.1), si f : M −→ IR es semicontinua inferior y M es compacto, entonces existe un punto de mı́nimo global de f. Demostración. Mostraremos inicialmente que f es limitada inferiormente, esto es, existe α ∈ IR tal que: α ≤ f (x), para todo x ∈ M. 51 Por contradicción, supongamos que f no es limitada inferiormente, entonces existe una sucesión {xk } ⊂ M tal que: lim f (xk ) = −∞. k→+∞ (3.2) Dado que M es compacto, entonces existe una subsucesión {xkj } ⊂ {xk } tal que: lim xkj = xb, j→+∞ por la semicontinuidad inferior de f tenemos: lim inf f (xkj ) ≥ f (xb), j→+∞ lo que contradice a (3.2), por lo tanto f es limitada inferiormente en M. De aquı́ existe f ∗ ∈ IR tal que f ∗ = inf {f (x) : x ∈ M }. Por propiedad de ı́nfimo, existe una sucesión {xk } ⊂ M tal que: lim f (xk ) = f ∗ . k→∞ Por la compacidad de M, existe x̄ y {xkj } ⊂ {xk } tal que limj→∞ xkj = x̄ ∈ M. Nuevamente, por la semicontinuidad inferior de f lim inf f (xkj ) ≥ f (x̄). j→∞ Como {f (xk )} converge a f ∗ , la subsucesión {f (xkj )} converge a f ∗ obteniendo que f ∗ ≥ f (x̄), ası́, x̄ es un punto de mı́nimo global de f en M . 3.2 Caracterización de puntos de mı́nimo local Presentamos en esta Sección las condiciones necesarias y suficientes de optimalidad local para el problema (3.1). Teorema 3.2.1 (Condición necesaria de primer orden). Sea f : M → IR de clase C 1 . Si x∗ es un punto de mı́nimo local, entonces grad f (x∗ ) = 0. 52 Demostración. Tomemos v ∈ Tx∗ M y una curva geodésica γ : IR → M con condiciones γ(0) = x∗ y γ ′ (0) = v. Definamos la aplicación h : IR → IR tal que h(t) = f (γ(t)). Como x∗ es punto de mı́nimo local para f, entonces existe δ > 0 tal que h(0) = f (x∗ ) ≤ f (γ(0)) = h(t), para todo t ∈ (−δ, δ) lo que implica que en t = 0 tenemos un punto de mı́nimo local de h. Por la condición necesaria de primer orden en IR se tiene h′ (0) = hgrad f (x∗ ), vi = 0. Tomando en particular v = grad f (x∗ ) tenemos que grad f (x∗ ) = 0. Teorema 3.2.2 (Condición necesaria de segundo orden). Sea f : M → IR de clase C 2 . Si x∗ es punto de mı́nimo local, entonces hv, Hxf∗ vi ≥ 0, ∀ v ∈ Tx∗ M. Demostración. Sea v ∈ Tx∗ M, y γ : IR → M una geodésica con γ(0) = x∗ , γ ′ (0) = v. Definimos h : IR → IR tal que h(t) = f (γ(t)). Del Teorema 3.2.1, en t = 0 tenemos un punto de mı́nimo local de h, entonces por la condición necesaria de segundo orden: h′ (0) = 0, luego h′′ (0) ≥ 0. Veamos: h′ (t) = hgrad f (γ(t)), γ ′ (t)i h′′ (t) = = = d dt D hgrad f (γ(t)), γ ′ (t)i E D (grad f (γ(t))), γ ′ (t) dt D E f Hγ(t) γ ′ (t), γ ′ (t) D E D D E D + grad f (γ(t)), dt (γ ′ (t)) E = v, Hxf∗ v) = Hxf∗ v, v) ≥ 0. Teorema 3.2.3 (Condición suficiente de segundo orden). Sea f : M −→ IR de clase C 2 . Si x∗ ∈ M que satisface: a) grad f (x∗ ) = 0. b) Hxf∗ definida positiva. Entonces, x∗ es un punto de mı́nimo local estricto de f. 53 Demostración. Por contradicción. Supongamos que x∗ no es punto de mı́nimo local estricto, entonces existe una subsucesión {xk } ∈ B(x∗ , k1 )/{x∗ } tal que: f (x∗ ) ≥ f (xk ). (3.3) Sea la geodésica minimal γk : [0, 1] → IR tal que γk (0) = x∗ , γk (1) = xk , γk′ (0) = vk y d(x∗ .xk ) = expx∗ xk . Definimos h : IR → IR tal que h(t) = (f ◦ γk )(t) y por el desarrollo de Taylor de segundo orden de h en 0 : 1 2 ′′ θ(|t|2 ) 2 h(t) = h(0) + th (0) + t h (0) + θ(|t| ), donde, lim = 0, t→0 |t|2 2 ′ esto es, t2 f (γk (t)) = f (x ) + 2 ∗ D grad f (x∗ )vk , vk + θ(|t|2 ). dt Evaluando en t = 1 f (xk ) = f (x∗ ) + E 1D vk , Hxf∗ vk + θ(d2 (x∗ , xk )) 2 (3.4) θ(d2 (x∗ , xk ) = 0. d→0 d2 (x∗ , xk ) Definamos z k = kvvkk k , la sucesión {z n } es limitada, entonces existe una subsucesión donde: lim {z kj } ⊂ {z k } tal que {z kj } → z̄. Substituyendo en (3.4) k por kj , tenemos: f (xkj ) = f (x∗ ) + E 1D vkj , Hxf∗ vkj + θ(d2 (x∗ , xkj )) 2 (3.5) θ(d2 (x∗ , xkj ) = 0. d→0 d2 (x∗ , xkj ) De la relación (3.3) y tomando lı́mite en (3.5) cuando j → ∞, obtenemos: donde: lim E D 0 ≥ z̄, Hxf∗ z̄ , lo que contradice la hipótesis b) del Teorema 3.2.3. Por tanto, x∗ es un punto de mı́nimo local estricto. 3.3 Elementos del análisis convexo La teorı́a del análisis convexo en variedades riemannianas fueron estudiadas por RAPCSÁK (1997), [21] y UDRISTE (1997), [24]. Rapsáck considera una variedad 54 diferenciable con métrica induzida de IRn , obteniendo caracterizaciones de primer y segundo orden. UDRISTE consideró el estudio sobre una variedad riemanniana abstracta generalizando (independientemente) la teorı́a de convexidad. A partir de estos trabajos el estudio del análisis convexo con aplicación a la teorı́a de Optimización se ha profundizado, vease por ejemplo da CRUZ NETO y OLIVEIRA (1995),[5], FERREIRA y OLIVEIRA (1998), [10] quienes consideran en sus estudios, una variedad riemanniana completa con curvatura seccional no negativa, bajo esta misma perspectiva, desarrollamos básicamente el análisis convexo sobre una variedad riemanniana. En esta Sección damos algunas nociones de los elementos del análisis convexo y con esta misma perspectiva definimos funciones convexas y cuasi-convexas en una variedad riemanniana. 3.3.1 Convexidad en una variedad riemanniana Existen diversos puntos de vista en la geometrı́a riemannianna para generalizar el concepto de convexidad de IRn , los más importantes son los que presentamos en las siguientes definiciones. Definición 3.3.1 Sea M una variedad riemanniana completa, se dice que A ⊂ M es totalmente convexo, si para cualquier par de puntos p y q de A (no necesariamente distintos), las geodésicas que unen dichos puntos, estan integramente contenidos en A. Ejemplo 3.3.1 Si M = IRn con la métrica identidad G(x) = I, cualquier conjunto convexo en el sentido clásico es totalmente convexo. Ejemplo 3.3.2 Si p ∈ M y existe una relación geodésica no trivial en p, es decir una geodésica: γ : [a, b] −→ M tal que γ(a) = p = γ(b) con γ(t) 6= p para algun t ∈ [0, 1], entonces el conjunto A = {p} no es totalmente convexo. Se deduce de esto que en general conjuntos unitarios no son totalmente convexos. Definición 3.3.2 Decimos que A ⊂ M es convexo si para todo par de puntos p y q de A existe una geodésica minimal que une p y q contenido en A. 55 Ejemplo 3.3.3 El propio M y los conjuntos unitarios son conjuntos convexos. Definición 3.3.3 f : M −→ IR es llamada función convexa si su restricción a cualquier geodésica de M es una función convexa en IR, es decir, si γ : IR −→ M es una geodésica entonces: f ◦ γ : IR −→ IR es convexa. Teorema 3.3.1 f : M −→ R es convexa si, y solamente si, para todo segmento de geodésica γ : [a, b] −→ M y para cualquier λ ∈ [0, 1] se verifica f (γ((1 − λ)a + λb)) ≤ (1 − λ)f (γ(a)) + λf (γ(b)). Demostración. Siendo f convexa, demostraremos que: f (γ((1 − λ)a + λb)) ≤ (1 − λ)f (γ(a)) + λf (γ(b)) (3.6) Sea h : IR −→ IR tal que h(t) = f (γ(t)). Para a, b ∈ [a, b] y λ ∈ [0, 1] se tiene h((1 − λ)a + λb) ≤ (1 − λ)h(a) + λh(b). De aquı́ se tiene (3.6). Reciprocamente, sea t = (1 − λ)a + λb con λ ∈ [0, 1] entonces: f ◦ γ(t) = f (γ((1 − λ)a + λb)) ≤ f (γ((1 − λ)a) + f (γ(λb) = (1 − λ)f (γ(a)) + λf (γ(b)) ≤ (1 − λ)f ◦ γ(a) + λf ◦ γ(b). Observación 3.3.1 La Definición 3.3.3 es la generalización natural de la definición clásica de función convexa em M = IRn con la métrica usual. En efecto, dados p y q la geodésica γ : [0, 1] −→ M, que los une es: γ(λ) = p + λ(q − p) = (1 − λ)p + λq. Luego, del Teorema 3.3.1 tenemos: f (γ(λ)) = f ((1 − λ)p + λq) ≤ (1 − λ)f (p) + λf (q) 56 f ((1 − λ)p + λq) = f (γ(λ)) = f ((1 − λ)(0) + λ(1)) ≤ (1 − λ)f (γ(0)) + λf (γ(1)) = (1 − λ)f (p) + λf (p). Para α ∈ IR, definimos el conjunto de nivel M α = {x ∈ M ; f (x) ≤ α}. Teorema 3.3.2 Si f : M −→ IR es convexa, entonces M α es totalmente convexo. Demostración. Sea p, q ∈ M α y la geodésica γ : [a, b] −→ M tal que γ(a) = p y γ(b) = q. Probaremos que γ(t) ∈ M α , para todo t ∈ [a, b]. En efecto, sea t = (1 − λ)a + λb para algun λ ∈ [0, 1], como f es convexa y por el Teorema 3.3.1 se tiene f (γ(t)) = f (γ(1 − λ)a + λb) ≤ (1 − λ)f (γ(a)) + λf (γ(b)) = (1 − λ)f (p) + λf (q) ≤ (1 − λ)α + λα = α. Ası́ f (γ(t)) ≤ α, por tanto γ(t) ∈ M α . Teorema 3.3.3 f : M −→ IR, es convexa en p si y solo si, para cualquier geodésica γ : IR −→ M con γ(0) = p vale la desigualdad f (γ(t)) − f (p) ≥ t hgrad f (p), γ ′ (0)i . (3.7) Demostración. Definimos una aplicación h : IR −→ IR tal que h(t) = f (γ(t)), h es convexa en 0 desde que f es convexa en p y ası́ se tiene: h(t) − h(0) ≥ th′ (0), luego, f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i . Reciprocamente, si f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i , esto es, h(t) − h(0) ≥ th′ (0), entonces h es convexa en 0 y por tanto f es convexa en p. 57 Teorema 3.3.4 Si f : M −→ IR es convexa, entonces todo punto crı́tico de f es un punto de mı́nimo global de f. Demostración. Sea x ∈ M, debido al Teorema de Hopf-Rinow consideramos una geodésica γ : IR −→ M tal que γ(0) = x y γ(b) = y, como f es convexa y del Teorema 3.3.3: f (γ(b)) − f (γ(0)) ≥ b hgrad f (γ(0)), γ ′ (0)i , esto es, f (γ(b)) − f (x) ≥ b hgrad f (x), γ ′ (0)i . Como grad f (x) = 0 entonces f (y) ≥ f (x), para todo y ∈ M. Por tanto x es punto de mı́nimo global de f. Teorema 3.3.5 Sea f : M −→ IR de clase C 2 , f es convexa si, y solamente si, para todo p ∈ M la Hesiana de f en p Hpf : Tp M −→ Tp M, es semidefnida positiva. Demostración. Sea v ∈ Tp M y p ∈ M y la geodésica γ : IR −→ M tal que γ(0) = p y γ ′ (0) = v. Definiendo h : IR −→ IR tal que h(t) = f (γ(t)) sabemos que h es convexa y de clase C 2 . Del análisis convexo clásico, tenemos que esto es equivalente a h′′ (t) ≥ 0, se tiene h′ (t) = hgrad f (γ(t)), γ ′ (t)i y D E h′′ (0) = v, Hpf v ≥ 0. Reciprocamente, si D E v, Hpf v ≥ 0, entonces f es convexo. En efecto, definiendo h : IR −→ IR convexa, entonces se tiene h = f ◦ γ es convexa. 58 3.3.2 Funciones cuasi-convexas y pseudoconvexas Definición 3.3.4 Sea M una variedad riemanniana completa y f : M −→ IR una función real. f es llamada cuasi-convexa en M si para todo x, y ∈ M , t ∈ [0, 1], se cumple: f (γ(t)) ≤ max{f (x), f (y)}, para toda curva geodésica γ : [0, 1] −→ M , tal que γ(0) = x y γ(1) = y. Teorema 3.3.6 Sea f : M → IR una función diferenciable y cuasi-convexa en una variedad riemanniana completa M y sea x, y ∈ M . Si f (x) ≤ f (y) entonces: hgrad f (y), γ ′ (0)i ≤ 0, donde grad f es el gradiente de f y γ es la curva geodésica tal que γ(0) = y y γ(1) = x. Demostración. Sea la geodésica γ : [0, 1] −→ M tal que γ(0) = y y γ(1) = x. Definimos h : IR −→ IR tal que h(t) = f ◦ γ(t), usando la aproximación de Taylor de primer orden de h en t = 0 tenemos: h(t) = h(0) + th′ (0) + θ(t), θ(t) . Entonces tenemos: t→0 t donde: lim f (γ(t)) = f (γ(0)) + t hgrad f (γ(0)), γ ′ (0)i + θ(| t|), como f es cuasi-convexa y f (x) ≤ f (y) tenemos: t hgrad f (y), γ ′ (0)i , dividiendo por t y tomando lı́mite cuando t → 0 se tiene hgrad f (y), γ ′ (0)i ≤ 0. Definición 3.3.5 Una función diferenciable f : M → IR es pseudoconvexa si, para todo par de puntos distintos x, y ∈ M y toda curva geodésica que une x a y (γ(0) = x y γ(1) = y) tenemos: hgrad f (x), γ ′ (0)i ≥ 0, entonces f (y) ≥ f (x). 59 Teorema 3.3.7 Sea f : M −→ IR una función diferenciable y pseudoconvexa. Entonces, x∗ es un mı́nimo global de f si, solamente si, grad f (x∗ ) = 0. Demostración. Sea la geodésica γ : IR+ → M tal que γ(0) = x∗ y definimos h : IR → IR con h = f ◦ γ. Por el desarrollo de Taylor de primer orden de h en 0, h(t) = h(0) + th′ (0) + θ(| t|), donde lim t→∞ θ(|t|) = 0, entonces tenemos: |t| f (γ(t)) = f (x∗ ) + t hgrad f (x∗ ), γ ′ (0)i + θ(| t|). Como x∗ es mı́nimo global entonces f (x∗ ) ≤ f (y), en particular para y = γ(t) entonces, f (y) − f (x∗ ) = t hgrad f (x∗ ), γ ′ (0)i + θ(| t|), luego, t hgrad f (x∗ ), γ ′ (0)i + θ(| t|) ≥ 0, que en el lı́mite cuando t → 0, hgrad f (x∗ ), γ ′ (0)i ≥ 0, finalmente tomando γ ′ (0) = −grad f (x∗ ), se tiene grad f (x∗ ) = 0. El recı́proco es inmediato basta usar la definición de f ser pseudoconvexa. 60 Capı́tulo 4 Método del Máximo Descenso En este último capı́tulo estudiaremos el método de máximo descenso llamado también método del gradiente, buscaremos extender la convergencia global del método utilizando la regla de Armijo generalizado. Para este fin vamos a considerar el problema de Optimización no lineal min f (x) x∈M (4.1) donde, f : IRn → IR es una función de clase C 1 y M una variedad riemanniana completa. El método del máximo descenso genera una sucesión de puntos {xk } dados por: x0 ∈ M, (4.2) xk+1 = expxk (−tk grad f (xk )) (4.3) donde expxk es una aplicación exponencial en el punto xk , tk es un parámetro positivo, −grad f (x) es el gradiente de f . En el caso de tener M = IRn (el espacio euclidiano) tenemos que (4.3) es equivalente a: xk+1 = xk − tk ∇f (xk ). Ası́, el método de máximo descenso en variedades riemannianas generaliza el método clásico de máximo descenso en IRn , véase idealmente sobre una superficie de IR3 un esquema del funcionamiento iterativo del método del gradiente generalizado: 61 Txk M expxk α(0) = xk −grad f (xk ) xk+1 M α(t) Figura 4. Esquema del proceso iterativo del método de máximo descenso sobre una variedad M . Existen diferentes maneras de escoger el parámetro tk generando consecuentemente diversos submétodos los cuales para su aplicación, dependerá exclusivamente de su complejidad computacional, reglas que mostramos a seguir. Método A: Gradiente con búsqueda exacta 1. Dado xk , calcule el grad f (xk ) sobre el plano tangente Txk M. 2. Determine la geodésica γ(t), t ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) = −grad f (xk ). 3. Minimize f (γ(t)), t ≥ 0, obteniendo tk y defina: xk+1 = γ(tk ). Método B: Gradiente con Regla de Armijo 1. Dado xk , calcule el grad f (xk ) en Txk M. 2. Determine la geodésica γ(t), t ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) = −grad f (xk ). 3. Hacer: tk := 2−ik , donde ik es el menor entero positivo tal que: y α ∈ (0, 21 ). 2 f (γ(tk )) ≤ f (xk ) − αtk grad f (xk ) 62 Definición 4.0.6 Una función f : M −→ IR es llamada gradiente Lipschitziana con constante Γ si para todo p, q ∈ M y γ : [0, a] −→ M la geodésica con γ(0) = p y γ(a) = q se verifica: grad f (γ(t)) − Pγ(t) grad f (p) ≤ ΓL(t), para todo t ∈ [0, a], donde Pγ(t) es el transporte paralelo de γ(0) = p a γ(t). Método C: Gradiente con Pasos fijos 1. Dado xk calcule el grad f (xk ) en Txk M. 2. Determine la geodésica γ(tk ), tk ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) = −grad f (xk ) 3. Dados δ1 > 0 y δ2 > 0 tales que, δ1 Γ + δ2 > 1, donde Γ es la constante de Lipschitz asociada al campo gradiente de f, escoger 2 tk ∈ (δ1 , (1 − δ2 )). Γ Estamos interesados en resolver el siguiente problema de optimización: (p) min f (x) x∈M donde M es una variedad riemanniana conexa, completa de dimensión finita y f : M → IR es una función continuamente diferenciable y cuasi-convexa. Hipótesis A1. El conjunto de puntos óptimos globales del problema (p), denotado por X ∗ , es no vacio. Denotamos el valor óptimo de (p) por f ∗ . Ahora, definamos el siguiente conjunto U := {x ∈ M : f (x) ≤ inf f (xk )}. k El siguiente Lema es un resultado de gran interés el cual será usado para probar que la sucesión, generada el método de máximo descenso es cuasi-Fejér convergente a U. 63 Lema 4.0.8 Sea f : M → IR una función continuamente diferenciable y cuasiconvexa en una variedad riemanniana conexa, completa y de dimensión finita con curvatura seccional no negativa, entonces d2 (xk+1 , x) ≤ d2 (xk , x) + t2k ||grad f (xk )||2 , para todo x ∈ U y todo tk > 0. Demostración. Sea x ∈ U arbitrário. Sea también γ1 : [0, l1 ] → M la geodésica minimal que une xk y x con γ(0) = xk , kγ ′ (0)k = 1 y γ2 : [0, 1] → M una geodésica que une xk y xk+1 , esto es γ2 (0) = xk , γ2 (1) = xk+1 con γ2′ (0) = −tk grad f (xk ). Por propiedad de homogeneidad de las geodésicas, γ2 es reparametrizada tal que: γ2 : [0, tk ||grad f (xk )||] → M, tal que γ2 (tk ||grad f (xk )||) = xk+1 y ahora tenemos kγ2′ (0)k = 1. Del Teorema 2.9.2 tenemos: D E d2 (xk+1 , x) ≤ d2 (xk , x) + t2k ||grad f (xk )||2 + 2tk d(xk , x) grad f (xk ), γ1′ (0) . Como f es cuasi-convexa y f (x) ≤ f (xk ), del Teorema 3.3.6 obtenemos que: D E grad f (xk ), γ1′ (0) ≤ 0. Usando este resultado en la desigualdad anterior obtenemos el resultado deseado. 4.1 Método con búsqueda de Armijo generalizado LARRY ARMIJO (1966),[2], publicó su trabajo: “Minimization of functions having lipschitz continuous firts partial derivatives”, en el que demuestra la convergencia del método del gradiente, a partir de entonces sus resultados son utilizados convenientemente en la búsqueda de mejoras o extensiones teóricas computacionales. Para nuestro objetivo, desarrollamos el método del gradiente sobre variedades riemannianas utilizando la regla de Armijo generalizado. 64 En esta Sección probamos la convergencia global de este método para el caso cuasiconvexo. Estos resultados son una generalización de KIWIEL y MURTY (1996), [14], para variedades riemannianas y extiende resultados previos de convergencia obtenidos hasta este momento, para el caso convexo por BURACHIK et al. (1995), [4] y CRUZ NETO et al. (1999), [6]. El método del máximo descenso con regla de Armijo genera una sucesión de puntos {xk } dados por (4.2)-(4.3) donde se satisfacen las siguientes hipótesis: Hipótesis A2. Sea φ : IR+ −→ IR+ una función tal que: A2.1 Existe α ∈ (0, 1), τα > 0, tal que ∀t ∈ (0, τα ] : φ(t) ≤ αt, A2.2 Existe β > 0, τβ ∈ (0, +∞], tal que ∀t ∈ (0, τβ ) ∩ IR: φ(t) ≥ βt2 , A2.3 Para todo k, f (xk+1 ) ≤ f (xk ) − φ(tk )||grad f (xk )||2 y 0 < tk ≤ τβ en (4.3), A2.4 Existe γ > 1, τγ > 0, tal que ∀k : tk ≥ τγ o h i existe t̄k ∈ [tk , γtk ] : f (expxk (−t̄k grad f (xk ))) ≥ f (xk ) − φ(t̄k )||grad f (xk )||2 . Observación 4.1.1 Observemos que la hipótesis A2 es satisfecha por la regla de Armijo para estos valores: φ(t) = αt, β = α, γ = 2 y τα = τβ = τγ = 1. Observación 4.1.2 La hipótesis A2 tambiém es satisfecha por el método del gradiente con pasos fijos introduzida en BURACHIK et al. (1995), [4], y generalizada para variedades riemannianas por CRUZ NETO,LIMA y OLIVEIRA, [6]. En efecto, en las referencias mencionadas la regla para obtener tk es la siguiente: Dados δ1 y δ2 tal que δ1 Γ + δ2 < 1, donde Γ es la constante de Lipschitz asociada al grad f, escoger 2 tk ∈ δ1 , (1 − δ2 ) . Γ Definiendo φ(t) = βt2 , con β = Γδ2 , 2(1−δ2 ) τγ = δ1 , τβ = (2/Γ)(1 − δ2 ), α ∈ (0, 1) arbitrario y τα = α/β, garantizamos la hipótesis A2. Proposición 4.1.1 Sea f : M → IR una función continuamente diferenciable y cuasi-convexa. Suponga que las hipótesis A1 y A2 son satisfechas. Entonces la 65 sucesión {xk } generada por el método del gradiente con regla de Armijo generalizada es cuasi-Fejér convergente a U. Demostración. De las hipótesis A2.2 y A2.3 tenemos βt2k ||grad f (xk )||2 ≤ f (xk ) − f (xk+1 ). Esto implica que +∞ X k=0 t2k ||grad f (xk )||2 ≤ (4.4) f (x0 ) − f ∗ < +∞. β Del Lema 4.0.8 y la Definición 1.2.8 tenemos el resultado. Teorema 4.1.1 Sea f : M → IR una función continuamente diferenciable y cuasiconvexa. Suponga que las hipótesis A1 y A2 son satisfechas. Entonces la sucesión {xk } generada por el método del gradiente con regla de Armijo generalizado converge. Además, converge para un punto estacionário (un punto x̄ tal que grad f (x̄) = 0). Demostración. De la Proposición 4.1.1, {xk } es cuasi-Fejér convergente en U, por tanto {xk } es limitado por el Teorema 1.2.1. Entonces existen x̄ y una subsucesión {xkj } de {xk } que converge para x̄. De la continuidad de f obtenemos: lim f (xkj ) = f (x̄). j→+∞ Debido a que {f (xk )} es una sucesión no creciente, ver (4.4), con una subsucesión que converge para f (x̄), toda la sucesión converge para f (x̄) y ası́ f (x̄) ≤ f (xk ), para todo k ∈ IN . Esto implica que x̄ ∈ U. Ahora, del Teorema 1.2.1, concluimos que {xk } converge para x̄. Finalmente, probaremos que grad f (x̄) = 0. Por contradicción, supongamos que grad f (x̄) 6= 0. Claramente, tenemos que grad f (xk ) → grad f (x̄) 6= 0 y f (xk ) → f (x̄). Ahora, de (4.4), se cumple que lim tk = 0. k→+∞ (4.5) Por otro lado, usando A2.4 y A2.1, tenemos, para k suficientemente grande, f (expxk (−t̄k grad f (xk ))) − f (xk ) ≥ −αt̄k ||grad f (xk )||2 . 66 (4.6) Además, del teorema del valor medio, para cada k, existe t∗k ∈ [0, t̄k ] tal que −h grad f (expxk (−t∗k grad f (xk ))), Pγk ,0,t∗k grad f (xk )i ≥ −α||grad f (xk )||2 , donde Pγk ,0,t∗k es el transporte paralelo a lo largo de la geodésica γk tal que γk (0) = xk y γk′ (0) = −grad f (xk ). Ahora, (4.5) y A2.4 implican que limk→+∞ t∗k = 0. Haciendo k → +∞ en la desigualdad anterior y tomando en cuenta la continuidad de grad f , exp y el transporte paralelo, tenemos que 1 ≤ α, lo que contradice A2.1. Por tanto, grad f (x̄) = 0. Como consecuencia inmediata del teorema anterior y del Teorema 3.3.7 tenemos el siguiente resultado. Corolario 4.1.1 Sea f : M → IR una función continuamente diferenciable y pseudoconvexa. Entonces, con las hipótesis A1 y A2, la sucesión {xk } converge para un punto de mı́nimo global del problema (p). 4.2 Método com uma regularización proximal Sea {λk } una sucesión de números reales tal que λ′ ≤ λk ≤ λ′′ , donde 0 < λ′ ≤ λ′′ . El método de máximo descenso con una regularización proximal genera una sucesión {xk } definida por (4.2) y (4.3) donde tk = arg min{f (expxk (−tgradf (xk ))) + t2 λk ||gradf (xk )||2 : t ≥ 0}. (4.7) Este método fue introducido por IUSEM y SVAITER (1995), [13], para resolver problemas de optimización convexa em espacios euclidianos y luego generalizado para variedades riemannianas en Cruz Neto et al. (1999), [7]. En esta Sección extendemos los resultados de convergencia global de estos trabajos para el caso cuasi-convexo. Proposición 4.2.1 Sea f : M → IR una función continuamente diferenciable y cuasi-convexa. Supongamos que la hipótesis A1 es satisfecha. Entonces, la sucesión {xk }, generada por (4.2),(4.3) y (4.7), es Cuasi-Fejér convergente al conjunto U. 67 Demonstración. De (4.3) y (4.7) : f (xk+1 ) + t2k λk ||gradf (xk )||2 ≤ f (xk ). (4.8) De aqui, es fácil verificar que +∞ X k=0 t2k ||gradf (xk )||2 ≤ (1/λ′ )(f (x0 ) − f ∗ ) < +∞. Del Lema 4.0.8 y la Definición 1.2.8, obtenemos el resultado deseado. Teorema 4.2.1 Seja f : M → IR uma función continuamente diferenciable y cuasiconvexa. Supongase que la hipótesis A1 es satisfecha. Entonces, la sucesión {xk }, generada por (4.2),(4.3) e (4.7), converge a un punto estacionario. Demonstración. De (4.8) tenemos que {f (xk )} es una sucesión no cresciente. Usando los mesmos argumentos da demonstración del Teorema 4.1.1, podemos mostar que {xk } converge a un punto x∗ ∈ U. Finalmente, tenemos gradf (x∗ ) = 0, como una aplicación del Teorema 4.1, iiii, en [7], donde esto fue probado para una función arbitrária. Similar al Corolário 4.1.1 tenemos el siguiente resultado Corolario 4.2.1 Sea f : M → IR una función continuamente diferenciable y pseudoconvexa. Entonces, con la hipótesis A1, la sucesión {xk } converge a un punto de mı́nimo global de (p). Ejemplo 4.2.1 Sea la función f (x1 , x2 ) = (lnx1 )2 + (lnx2 )2 . cuya simulación se ve en las figuras 5, 6 y 7 a escala multiplicada por 10. −1000 −1500 −2000 −2500 −3000 0 −3500 0 50 50 100 100 150 68 150 Figura 5. Gráfico de la función f . Figura 6. Gráfico de la función f después de una rotación. 1500 1000 500 0 −500 0 50 100 150 50 0 100 Figura 7. Vista frontal del gráfico de f 69 150 Esta función f es claramente no convexa en IR2 con la métrica usual, sin embargo al hacer uso de la métrica G(p) = diag (1/(pi )2 ) con i = 1, 2., la función en cuestión se transforma en convexa sobre la variedad IR2++ , dado que su Hessiano es semidefinida positiva, a saber,  Hxf =   Su ecuación geodésica es 2 x1 0  0  . 2 x2 vi t γ(t) = pi exp pi , i = 1, 2 y las iteraciones del método de máximo descenso son: xk+1 i = xki exp ∂f (xk ) tk xki ∂xi 70 ! , i = 1, 2. Materiales y Métodos 1. El Universo: optimización sobre variedades riemannianas. 2. Técnicas de recopilación de datos: búsqueda de trabajos relacionados en revistas publicadas, uso de bibliotecas y hemerotecas especializadas como también viajes a centros de investigación en el extranjero (Brasil, Colombia y Argentina). 3. Técnicas estadı́sticas: no se usaron. 4. Técnicas descriptivas para la contrastación o demostración de las hipótesis: La metodologı́a usada en el desarrollo de este trabajo fue un enfoque de tipo inductivo-deductivo de las definiciones, teoremas y corolarios, como también de los resultados de recientes investigaciones. Luego se realizó un estudio minucioso y exhaustivo de cada material obtenido, con la finalidad de adaptarlo a nuestro enfoque y que nos llevó a la obtención de los resultados planteados en los objetivos de la investigación. Para realizar las pruebas computacionales hemos utilizado el lenguaje de programación C++ y un computador con sistema operativo Windows XP. Además, hemos usado el software Latex para la digitación del informe final. 71 Resultados Presentamos un método de optimización usando elementos de geometria riemanniana que supera algunas desventajas de los métodos proyectivos de optimización. Esta ventaja consiste en considerar el conjunto de restricciones del problema de optimización como una variedad riemanniana y ası́ transformar el problema restricto como un problema sin restricciones del punto de vista de la geometria de Riemann. Luego utilizar el método de máximo descenso en variedades riemannianas para obtener el óptimo del problema. Este método permite resolver el problema original sin realizar proyecciones en cada iteración reduciendo ası́ el costo computacional de los métodos proyectivos de optimización. Los resultados de convergencia del método propuesto son obtenidos para la clase de funciones cuasi-convexas diferenciables en la variedad riemanniana, de esta manera nuestro método resuelve problemas de optimización con funciones objetivo no convexas que se pueden transformar en cuasi-convexas en la variedad riemanniana. Presentamos también los elementos básicos de geometrı́a riemanniana de manera sencilla y natural con ejemplos orientados a la Optimización, de tal manera que sean entendidos por lectores con conocimiento elemental de análisis y geometrı́a diferencial. Introducimos nuevas métricas riemannianas para algunas variedades diferenciables útiles en problema de optimización. En particular, mediante la introduccón de una métrica diagonal riemanniana sobre el ortante positivo IRn++ damos caracterizaciones para el gradiente y Hessiana de una función en esta variedad. Luego, obtenemos condiciones para que funciones no convexas en el sentido usual se transformen en convexas en la variedad riemanniana IRn++ con dicha métrica. Debemos resaltar que la hipótesis del proyecto de investigación se han cumplido. 72 Discusión El presente trabajo recubre los resultados de convergencia del método del máximo descenso en variedades riemannianas que fueron obtenidos para el caso convexo por da CRUZ NETO, LIMA y OLIVEIRA (1999), [6]. Debemos observar que la hipótesis de curvatura no negativa es esencial para obtener la convergencia global del método a un punto crı́tico para funciones cuasiconvexas continuamente diferenciables. Ası́, para espacios donde la curvatura es negativa, como por ejemplo los espacios de Lobachevsky, no sabemos si nuestro algoritmo converge o no (globalmente). Esto nos lleva a formular la siguiente interrogante: ¿Podrá obtenerse la convergencia global del método sin usar hipótesis sobre la curvatura de la variedad riemanniana? 73 Bibliografı́a [1] ALEKSANDROV, ALEKSANDR DANILOVICH., KOLMOGOROV, ANDRÉI. and LAURENTIEV M. A. La Matemática: su contenido, métodos y significado, Madrid: Edit. Alianza Universidad, First Edition, 1981. [2] ARMIJO, L. Minimization of functions having lipschitz continuous firts partial derivates. Pacific Journal of Mathematics, 1966, Vol. 16 No. 1, pp. 1-3. [3] BOOTHBY, WILLIAM. An Introduction to differentiable manifold and riemannian geometry, Orlando, Florida USA: Edit. Adacemic Press, First Edition, 1986. [4] BURACHIK, R.S, GRAÑA DRUMOND, L M., IUSEM, A.N., and SVAITER, B. Full convergence of the steepest descent method with inexact line searches. Optimization, 1995, Vol. 32, pp. 137-145. [5] da CRUZ NETO, J.X and OLIVEIRA, P.R. Geodesic methods in riemannian manifolds. Systems Engineering and Computer Sciences PESC/COPPE, 1995, Technical Report ES-352/95, pp. 1-20. [6] da CRUZ NETO, J.X., de LIMA, L.L., OLIVEIRA, P.R. Geodesic algorithms in riemannian geometry. Balkan Journal of Geometry and its Aplications BJGA, 1998, Vol. 32 n. 2, pp. 89-100. [7] da CRUZ NETO, J.X., FERREIRA, O.P., LUCAMBIO PEREZ, L. A proximal regularization of the steepest descent method in Riemannian manifolds. Balkan Journal of Geometry and its Aplications BJGA, 1999, Vol. 4 n. 2, pp.118. 74 [8] do CARMO, MANFREDO PERDIGAO. Geometria Diferencial de Curvas e Superficies, Rio de Janeiro: Sociedad Brasilera de Matemática, terceira edição, 2005. [9] do CARMO, MANFREDO PERDIGAO., Geometria Riemanniana, Rio de Janeiro: IMPA-Projeto Euclides, segunda edição, 1988. [10] FERREIRA, O.P. and OLIVEIRA, P.R. Subgradient algorithm on riemannian manifold. Journal of Optimization Theory and Applications, 1998, Vol 97 n.1, pp. 93-104. [11] GABAY, D., Minimizing a differentiable function over a differentiable manifold. Journal of Optimization Theory and Aplication, 1982, Vol 37, pp. 177-219. [12] HICKS, NOEL. Notes on differential geometry, Michigan: Van Nostrand Reinhold Company The University of Michigan-USA, first edition, 1966. [13] IUSEM, A.N. and SVAITER, B.F. A proximal regularization of the steepest descent method. RAIRO Operations Reseach , 1995, Vol 29 n. 2, pp. 123-130. [14] KIWIEL, est K.C. descent and method MURTY, for K. Convergence minimization of the steep- quasiconvex functions. 1996, Vol 89 n.1, JOTA Journal of Optimization Theory and Applications, pp. 221-223. [15] LAGES, LIMA ELON. Introducao às variedades diferenciáveis, Rio de Janeiro: EMMA Porto Alegre, primeira edição, 1960. [16] LAGES, LIMA ELON. Variedades diferenciáveis, Rio de Janeiro: IMPA, primeira edição, 1973. [17] LUENBERGER, DAVID. The gradient projection method along geodesics, Management Science, 1972, Vol 18 n. 1, pp. 620-631. [18] LUENBERGER, D.G. Introduction to linear and nonlinear programming, Massachusetts:Addison-Wesley, second edition, 1973. 75 [19] OLIVEIRA, P.R. and da CRUZ NETO, J. X. Elementos de geometria riemanniana. Systems Engineering and Computer Sciences PESC/COPPE, 1995, Technical Report ES-351/95, pp. 1-20. [20] PAPA QUIROZ E. A., QUISPE E. M. and OLIVEIRA P. R. Steepest descent method with a generalized Armijo search for quasiconvex functions on riemannian manifolds. Journal of Mathematics Analysis and Applications, 2008, Vol 341, pp. 467-477. [21] RAPCSÁK, TÁMAS. Smooth nonlinear optimization in IRn , New York: Academic Publishers Kluwer USA, first edition, 1997. [22] SAKAI, TAKASHI. Riemannian Geometry, New York: American Mathematical Society, Providence, RI, 1996. [23] SMITH, S.T. Optimization techniques on riemannian Fields Institute Communications, AMS, Providence, RI, 1994, manifolds. Vol 3, pp. 113-146. [24] UDRISTE, CONSTANTIN. Convex functions and optimization methods on riemannian manifolds, New York: Academic Publishers, Kluwer USA., 1997. 76 Apéndice En esta sección damos algunos experimentos numéricos para resolver problemas con funciones cuasi-convexas sobre el hipercubo unitário, esto es, min{f (x) : 0 ≤ x ≤ e} (4.9) donde f es una función cuasi-convexa, x = (x1 , x2 , ..., xn ) es la variable del problema y e = (1, ...1) ∈ IRn . Tomando la variedad riemanniana completa y conexa ((0, 1)n , X −2 (I − X)−2 ), el algoritmo de máximo descenso con búsqueda de Armijo se expresa como: 1. Dado el punto xk = (xk1 , xk2 , ..., xkn ) ∈ (0, 1)n , k ≥ 0, calcular xk+1 dado por xk+1 i ( ∂f (xk ) 1 xki 1 1 tk + ln 1 + tanh − xki (1 − xki ) = 2 2 ∂xi 2 1 − xki !) , i = 1, 2, ..., n, donde tk = 2−ik and ik es el menor número natural tal que: f (xk+1 ) ≤ f (xk ) − αtk kdk k2 , donde dk = −Xk2 (I − Xk )2 ∇f (xk ) es el gradiente de f con respecto a la métrica Xk−2 (I − Xk )−2 , Xk = diag(xk1 , xk2 , ..., xkn ), ∇f (xk ) es el gradiente clásico de f y α ∈ (0, 1) es dado. 2. Como critério de parada calculamos la distancia geodésica entre los puntos xk y xk+1 , como:  " n X d(xk , xk+1 ) =  i=1 xk+1 i ln 1 − xk+1 i ! xki − ln 1 − xki !#2  12   3. Critério de parada: si ||d(xk , xk+1 )|| < ǫ, parar. Caso contrario, hacer xk ← xk+1 y volver al paso 1. 77 En todo el experimento numérico generamos la función cuasi-convexa f usando la regla de composición f (x) = h(g(x)) donde g(x) = − log (x1 (1 − x1 )x2 (1 − x2 )) es una función convexa sobre la variedad ((0, 1)n , X −2 (I − X)−2 ) y h : IR → IR es elegido como una función no decresciente no convexa. Implementamos nuestro código en C ++ y todos los tests fueron realizados en una computadora Pentium 866MHz con Windows XP. Para la implementación usamos el error ǫ = 0.000001 y α = 0.9. En la tablas presentadas, X0 denota el punto inicial del algoritmo, Iter. denota el número de iteraciones, Call. Armijo denota el número de tests de Armijo, Opt. Point denota la aproximación del punto óptimo, Opt. Value denota la aproximación del valor óptimo y finalmente, Riem. Distance denota la distancia riemanniana entre dos iteracioness consecutivas. Como veremos en los experimentos numéricos el método se ve promisorio en las aplicaciones. Experimento 1. Sea h(t) = √ t entonces f (x) = q − log (x1 (1 − x1 )x2 (1 − x2 )). Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto √ mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = 2 log 2 = 1.665109222. Table 4.1: X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance (0.45, 0.51) 65 65 (0.499999,0.5) 1.66511 9.27003e-007 (0.4,0.6) 71 71 (0.499999,0.500001) 1.66511 9.93398e-007 (0.1,0.9) 85 85 (0.499999,0.500001) 1.66511 8.92053e-007 (0.2,0.3) 79 79 (0.499999, 0.499999) 1.66511 8.79813e-007 (0.7,0.6) 75 75 ( 0.500001,0.500001) 1.66511 8.82938e-007 78 Experimento 2. Sea h(t) = log(1 + t), entonces f (x) = log (1 − log (x1 (1 − x1 )x2 (1 − x2 ))) Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = log(1 + 4 log 2) = 1.32776143. Table 4.2: X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance (0.45, 0.51) 73 73 (0.499998,0.5) 1.32776 9.75055e-007 (0.4,0.6) 81 81 (0.499999,0.500001) 1.32776 8.92195e-007 (0.1,0.9) 97 97 (0.499999,0.500001) 1.32776 9.20241e-007 (0.2,0.3) 89 89 (0.499999, 0.499999) 1.32776 9.58094e-007 (0.7,0.6) 84 84 ( 0.500001,0.500001) 1.32776 9.98606e-007 Experimento 3. Sea h(t) = arc tg(t), entonces f (x) = arc tg (− log (x1 (1 − x1 )x2 (1 − x2 ))) Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = arc tg(4 log 2) = 1.224644415. 79 Table 4.3: X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance (0.45, 0.51) 160 160 (0.499996,0.500001) 1.22464 9.55101e-007 (0.4,0.6) 178 178 (0.499997,0.500003) 1.22464 9.4978e-007 (0.1,0.9) 227 227 (0.499997,0.500003) 1.22464 9.71428e-007 (0.2,0.3) 200 200 (0.499997, 0.499997) 1.22464 9.69434e-007 (0.7,0.6) 187 187 ( 0.500004,0.500002) 1.22464 9.79192e-007 80

UNIVERSIDAD NACIONAL DEL CALLAO

Documentos relacionados

Productos

Apoyo

UNIVERSIDAD NACIONAL DEL CALLAO

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib