UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA INSTITUTO DE INVESTIGACIÓN Un Método no Euclidiano para Problemas de Optimización en Espacios Euclidianos. Erik Alex Papa Quiroz Resolución Rectorial N◦ 1352-2007-R (01 de noviembre de 2007 al 31 de octubre de 2008) Índice Resumen iv Introducción 1 Marco Teórico 6 1 Preliminares 7 1.1 Sı́mbolos y Notaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Definiciones Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 Elementos de Geometrı́a Riemanniana 11 2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Variedades diferenciables . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Aplicaciones diferenciables entre variedades . . . . . . . . . . . . . . . 16 2.4 Espacio tangente a una variedad diferenciable . . . . . . . . . . . . . 18 2.5 Métricas riemannianas en variedades diferenciables . . . . . . . . . . 21 2.6 Campos de vectores, conexiones afines y deriva da covariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.7 Curvatura de una variedad riemanniana . . . . . . . . . . . . . . . . 38 2.8 Gradiente y Hessiana en una variedad riemanniana . . . . . . . . . . 42 2.9 Variedades completas . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3 El Problema de Optimización y sus Condiciones de Optimalidad 50 3.1 Existencia de puntos de mı́nimo global . . . . . . . . . . . . . . . . . 51 3.2 Caracterización de puntos de mı́nimo local . . . . . . . . . . . . . . . 52 ii 3.3 Elementos del análisis convexo . . . . . . . . . . . . . . . . . . . . . . 54 3.3.1 Convexidad en una variedad riemanniana . . . . . . . . . . . . 55 3.3.2 Funciones cuasi-convexas y pseudoconvexas . . . . . . . . . . 59 4 Método del Máximo Descenso 61 4.1 Método con búsqueda de Armijo generalizado . . . . . . . . . . . . . 64 4.2 Método com uma regularización proximal . . . . . . . . . . . . . . . . 67 Materiales y Métodos 71 Resultados 72 Discusión 73 Bibliografı́a 74 Apéndice 77 iii Resumen Un Método no Euclidiano para Problemas de Optimización en Espacios Euclidianos Erik Alex Papa Quiroz El Objetivo de la investigación es presentar un método de optimización usando elementos de geometrı́a riemanniana para resolver problemas de optimización que mejoren algunas desventajas de los métodos proyectivos. Esta investigación fue motivada por el alto costo computacional de los métodos proyectivos para mantener viabilidad en cada iteración en la búsqueda de la solución de problemas de optimización con restricciones, como también, de la incertidumbre de la convergencia de los iterados cuando el problema tiene una función que no es convexa. La técnica empleada para la recopilación de datos fue la búsqueda de trabajos relacionados en revistas publicadas, uso de bibliotecas y hemerotecas especializadas como también viajes a centros de investigación en el extranjero (Brasil, Colombia y Argentina). El resultado de la investigación es la introducción de un método no euclidiano que bajo algunas hipótesis naturales sobre el problema se obtiene la convergencia de los iterados a un punto crı́tico del problema de optimización y cuando la función objetivo es convexa se demuestra la convergencia a la solución. Presentamos también una implementación del método para algunos problemas particulares. En este sentido, este trabajo puede ser considerado como un aporte significativo para la matemática computacional en la búsqueda de algoritmos eficientes en la solución de problemas prácticos que surgen en diversas áreas de las ciencias y la ingenierı́a. Palabras Claves: Método del gradiente, problemas convexos, métricas riemannianas, implementación computacional. iv Introducción La Optimización es una rama de la Matemática Aplicada que estudia el problema de maximizar o minimizar una función, llamada función objetivo, sujeta a algunas restricciones sobre su dominio. La Optimización, como lı́nea de investigación, surgió a mediados del siglo anterior y en este intervalo de tiempo a demostrado diversas aplicaciones en diferentes áreas de las Ciencias e Ingenierı́as, donde una elección óptima de los parámetros y variables conlleva al mejoramiento de las técnicas para resolver el problema planteado. El problema de Optimización puede ser expresado, sin perdida de generalidad, como: min{f (x) : h(x) = 0}, donde f : IRn → IR en una función de valores reales y f : IRn → IRm es una función de valores en IRm y x es la variable a determinar. Una clase de métodos muy conocidos y utilizados para resolver el problema planteado son los métodos proyectivos, los cuales generan una sucesión de puntos {xk }, dados por x0 ∈ IRn tal que h(x0 ) = 0 (un punto inicial dado) y xk = PM (xk + tk dk ), donde PM es la proyección ortogonal del punto xk + tk dk al conjunto M = {x ∈ IRn : h(x) = 0}, dk es la dirección de desplazamiento y tk es la longitud de paso de dk . Diferentes elecciones de dk dan origen a diferentes métodos proyectivos de optimización. Por ejemplo, si dk = −∇f (xk ), entonces tendremos el método de gradiente proyectado, si dk = −(∇2 f (xk ))−1 (∇f (xk )), tendremos el método de Newton proyec- tado, etc. Propiedades de convergencia global de estos métodos son garantizados bajo 1 algunas condiciones de convexidad sobre la función objetivo f y el conjunto de las restricciones M. Una desventaja de los métodos proyectivos es el alto costo computacional en realizar en cada iteración una proyección sobre M. Otra desventaja es cuando la función objetivo f pierde la propiedad de la convexidad, llevando ası́ a la indeterminación si la sucesión {xk } converge y si el punto de convergencia es un punto óptimo del problema. Observemos que en general propiedades de convexidad de la función objetivo y de las restricciones garantizan la convergencia global de los métodos a un punto óptimo. Una alternativa para superar estas desventajas es considerar al conjunto M como una variedad diferenciable dotada con propiedades geométricas no euclidianas y transformar el problema original en el siguiente problema irrestricto: min{f (x) : x ∈ M }. Una de tales geometrı́as es la geometrı́a riemanniana, teorı́a matemática que ha llamado mucho la atención de los investigadores después de su aplicación en la teorı́a de la relatividad por Albert Einstein. La alternativa planteada no es nueva, como se puede pensar, esta pertenece al área de la Optimización Matemática sobre variedades riemannianas el cual surgió como una extensión natural de la teorı́a y los métodos de optimización en el espacio euclidiano para espacios más generales. Una de las ventajas de usar herramientas de geometria riemanniana en optimización es que problemas restrictos pueden ser vistos como irrestrictos considerando las propiedades intrı́nsecas de la variedad. Otra ventaja, es que problemas no convexos se pueden transformar en convexos escogiendo una métrica riemanniana apropiada. Uno de los precursores de la geometrı́a riemanniana fué Lobachevski quien se atrevió a darnos la posibilidad de la existencia de una geometrı́a no euclidiana, ver ALEKSANDROV, KOLMOGOROV y LAURENTIEV (1981),[1], proponiendo nuevas ideas, relacionando la geometrı́a con la realidad material, el método, el alcance y sus aplicaciones. A raı́z de estas nuevas ideas, los matemáticos actualmente estudian diversos espacios, además del euclidiano, entre ellos los espacios de Lobachevski, 2 los proyectivos, de infinitas dimensiones, los riemannianos, topológicos entre otros. El uso de la geometrı́a riemanniana, por Einstein en 1915, en la teorı́a de la gravitación universal fue uno de los grandes impulsores para que en otras lı́neas de investigación se utilizen las ideas de la geometria no euclidiana. En los tiempos actuales en que vivimos, tenemos ya diversas aplicaciones de la geometria riemanniana en varios campos de la ciencia e ingenierı́a, por ejemplo en estadı́stica, economı́a, computación, biologı́a y optimización, entre otros. La relación entre los métodos de Optimización Matemática y la geometria riemanniana data por lo menos del año 1972, con el trabajo desarrollado por LUENBERGER (1972), [17], donde usando el método de descenso geodésico obtiene la tasa de convergencia del método del gradiente proyectado para el problema de min f (x), sujeto a h(x) = 0, donde f : IRn → IR, h : IRn → IRm , n > m. Esta lı́nea de investigación tuvo continuidad con GABAY (1982), [11], donde del punto de vista de esta teorı́a, estudia el método de gradiente reducido, generaliza los métodos de Cuasi-Newton obteniendo convergencia superlineal. También hace un análisis computacional mostrando que la teorı́a y la práctica interrelacionadas pueden dar buenos resultados. El método de máximo descenso, estudiado por Cauchy en l847, es uno de los métodos más antiguos y conocidos en la literatura para resolver problemas de optimización con funciones objetivo continuamente diferenciables. Sin embargo, para una función arbitraria los resultados de convergencia no son muy fuertes ya que la convergencia global, como también la existencia de puntos de acumulación no son garantizados. Solamente podemos asegurar que cualquier punto de acumulación, si existe, es un punto crı́tico del problema. La situación es muy diferente cuando la función objetivo es convexa, porque asumiendo solamente que el conjunto de soluciones óptimas es no vacı́o, el método de máximo descenso con búsqueda de ARMIJO (1966), [2], y con una regularización proximal converge a un punto óptimo. Este método en variedades riemannianas, considerando un problema de optimización con función objetivo arbitraria, fue estudiado por UDRISTE (1997), [24], SMITH (1994), [23] y RAPCSÁK (1997), [21], obteniendo los mismos resultados clásicos de convergencia. Para el caso convexo en estas varie3 dades con curvatura seccional no negativa, la convergencia global usando la regla de búsqueda de Armijo, pasos fijos y una regularización proximal, fue generalizada por da CRUZ NETO, LIMA y OLIVEIRA (1999), [6] y para funciones cuasi-convexas solamente en espacios euclidianos, por KIWIEL y MURTY (1997), [14]. Esta investigación, está orientada a extender los resultados de Kiwiel y Murty en variedades riemannianas completas y con curvatura seccional no negativa. El objetivo principal de este trabajo consiste en construir un método de optimización usando elementos de geometrı́a riemanniana que supere algunas desventajas de los métodos proyectivos. La importancia de esta investigación es que nuestros resultados permitirán resolver problemas de optimización sin necesidad de realizar proyecciones en cada iteración reduciendo ası́ el costo computacional de los métodos proyectivos. Otra importancia es que podremos resolver problemas de optimización con funciones objetivos no convexas que se transformen en convexas mediante la introducción de una métrica riemanniana apropiada sobre el conjunto de las restricciones, ampliando ası́ el campo de aplicación de los métodos proyectivos. Al no existir una metodologı́a efectiva para solucionar el problema planteado se justifica el desarrollo de este proyecto para una posible incorporación en los planes curriculares de estudio de las diversas especialidades de la matemática aplicada que desarrollen métodos de optimización como también de la construcción de nuevos algoritmos para resolver problemas más difı́ciles. El trabajo está organizada por los siguientes capı́tulos: En el Capı́tulo 1, presentamos los preliminares del trabajo de investigación. Damos algunos sı́mbolos y notaciones como también las herramientas matemáticas necesarias para el buen entendimiento del trabajo. En el Capı́tulo 2, presentamos elementos básicos de la geometrı́a riemanniana basados en BOOTHBY (1986), [3], do CARMO (2005) (1988), [8], [9], LAGES (1960) (1973), [15],[16] y su relación con la Optimización OLIVEIRA (1995), [19], damos ejemplos de las métricas más conocidas y estudiamos una clase particular de métricas riemannianas diagonales, definidas en el ortante positivo IRn++ y el hipercubo abierto (0, 1)n , espacios naturales donde se definen los problemas de optimización, obteniendo 4 propiedades geométricas importantes como curvatura cero, ecuaciones secillas para hallar geodésicas y condiciones suficientes para garantizar que la variedad riemanniana sea completa. En el Capı́tulo 3 presentamos el problema de optimización sobre una variedad riemanniana y desarrollamos sus condiciones de optimalidad, caracterizamos los puntos de mı́nimo, luego estudiamos la clase de funciones convexas y cuasi-convexas. En el Capı́tulo 4, desarrollamos el método de máximo descenso, y analizamos la convergencia del método para resolver el problema de minimización usando funciones objetivo cuasi-convexas. Probamos que la sucesión generada por el método, usando la regla de búsqueda generalizada de Armijo y una regularización proximal, converge a un punto crı́tico de la función. Presentamos también un Apéndice con algunos experimentos computacionales. Debemos resaltar que el resultado de esta investigación ha generado el artı́culo de autoria de PAPA QUIROZ, QUISPE CARDENAS y OLIVEIRA (2008), [20], publicado por la revista Journal of Mathematical Analysis and Applications (USA). 5 Marco Teórico 6 Capı́tulo 1 Preliminares En este capı́tulo haremos un resumen de los resultados básicos necesários al desarrollo de los subsiguientes capı́tulos. Las demostraciones serán, en princı́pio, todas ellas referenciadas. 1.1 Sı́mbolos y Notaciones A lo largo de este trabajo, usaremos la siguiente simbologı́a: (0, 1)n = (0, 1) × (0, 1) × ... × (0, 1). IRn+ = {x = (x1 , x2 , ..., xn ) ∈ IRn : xi > 0, i = 1, 2, .., n} . IRn++ = {x = (x1 , x2 , ..., xn ) ∈ IRn : xi ≥ 0, i = 1, 2, .., n} . Dados x, y ∈ IRn , (x, y) = Pn i=1 xi yi : producto interno euclideano en IRn . C p (Ω) = {f : Ω → IR : f es diferenciable de orden p } es el conjunto de funciones p veces diferenciables en un domı́nio abierto Ω. Si p = ∞, entonces C ∞ (Ω) es el conjunto de funciones infinitamente diferenciables. M : variedad diferenciable. Tp M : es el espacio tangente a M en el punto p. H : es el conjunto de campos de vectores X ∈ Tp M. ∇ : es la conexión afin del conjunto de campo de vectores H. X(p) : es un campo vectorial aplicado en el punto p. grad f (x) : es el gradiente de f en el sentido de la derivada covariante. H f : es la matriz Hessiana de f . 7 1.2 Definiciones Básicas Definición 1.2.1 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un abierto U . Definimos la diferencial de F en el punto q ∈ U como una aplicación dFq : IRn → IRm , definida de la siguiente manera, dFq (v) = β ′ (0) con v ∈ IRn , donde β = F o α para algún α : (−ε, ε) → U tal que α(0) = q y α′ (0) = v. Ası́: d (F oα)(t)|t=0 . dt dFq (v) = β ′ (0) = Se puede probar facilmente (ver do CARMO (2005),[8], pp. 127-128) que la diferencial es una aplicación lineal que no depende de la curva α tal que α(0) = q, además, si: F (x) = F (x1 , x2 , ..., xn ) = (F1 (x), F2 (x), ..., Fn (x)), la diferencial en el punto q, en las bases canónicas es: dFq = ∂F1 (q) ∂x1 ∂F1 (q) ∂x2 .. . ... .. . ∂F1 (q) ∂xn ∂Fm (q) ∂x1 ∂Fm (q) ∂x2 ... ∂Fm (q) ∂xn .. . .. . . Definición 1.2.2 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un abierto U . Diremos que p ∈ U es punto crı́tico, si la diferencial de F en el punto p, dFp : IRn → IRm no es sobreyectiva. La imágem F (p), donde p es punto crı́tico es llamado valor crı́tico. Un punto de IRm que no es valor crı́tico se llama valor regular de F , esto es, a ∈ F (U ) es valor regular si dFx es sobreyectiva para todo x ∈ F −1 (a). Por un resultado de álgebra lineal obtenemos una equivalencia para la sobreyectividad de la diferencial dFx : Para todo x ∈ F −1 (a), dFx es sobreyectiva si y solamente si, el rango (dFx ) = m ≤ n. Ası́: a ∈ F (U ) es valor regular si, y solamente si, el rango (dFx ) = m, para todo x ∈ F −1 (a). En particular si m = 1 tal que a ∈ F (U ) es valor regular si, y solamente si, ∇F (x) 6= 0 para todo x ∈ F −1 (a). 8 Definición 1.2.3 Dado un conjunto M, un subconjunto Γ de partes de M, se dice una topologı́a en M si: 1. ∅ ∈ Γ y Γ ∈ M ; 2. Si A, B ∈ Γ entonces A ∩ B ∈ Γ; 3. Si (Ai )i∈l es una famı́lia de elementos de Γ, entonces S i∈l Ai ∈ Γ. El par (M, Γ) se dice espacio topológico y los elementos de Γ son llamados abiertos del espacio topológico (Γ, M ). Definición 1.2.4 (Espacios de Hausdorff ). Sea M un espacio topológico, diremos que M es un espacio de Hausdorff, si para cualquier par de elementos distintos en M, existen abiertos disjuntos de dichos elementos. Definición 1.2.5 Sea M un conjunto arbitrário, una métrica es una aplicación d : M × M → IR tal que para todo x, y, z ∈ M se satisfacen las siguientes condiciones: d1 : d(x, y) ≥ 0, d(x, y) = 0 si y sólo si x = y; d2 : d(x, y) = d(y, x); d3 : d(x, z) ≤ d(x, y) + d(y, z). El par (M, d) se llama espacio métrico. Definición 1.2.6 Una sucesión {xm } en un espacio métrico M se llama de Cauchy cuando para todo ǫ > 0 dado, existe n0 ∈ IN tal que para todo m, n > n0 , se tiene d(xm , xn ) < ǫ. Definición 1.2.7 El espacio métrico (M, d) es completo cuando toda sucesión de Cauchy en M es convergente. Definición 1.2.8 Sea (X, d) un espacio métrico completo. Una sucesión {y k }, k ≥ 0, de X es cuasi-Fejér convergente al conjunto U ⊂ X, si para cada u ∈ U existe una sucesión {ǫk } ⊆ IR tal que ǫk ≥ 0, +∞ X ǫk < +∞ y k=0 d2 (y k+1 , u) ≤ d2 (y k , u) + ǫk . 9 Teorema 1.2.1 En un espacio métrico completo (X, d), si {y k } es cuasi-Fejér convergente para un conjunto U ⊆ X, entonces {y k } es limitada. Si además, un punto de acumulación ȳ de {y k } pertence a U. Entonces {y k } converge y lim y k = ȳ. k→∞ Demostración. Análogo a BURACHIK (1995), [4]. 10 Capı́tulo 2 Elementos de Geometrı́a Riemanniana 2.1 Introducción Las nociones de geometrı́a riemanniana fueron introducidas por G. Riemann un 10 de Junio de 1854 a travéz de una disertación titulada: Sobre las hipótesis que están en los fundamentos de la geometrı́a. En él afirma que toda colección continua de fenómenos homogéneos puede considerarse como un espacio. Estas ideas dieron origen a lo que hoy conocemos como geometrı́a riemanniana. En este capı́tulo presentamos los conceptos principales de estas ideas que usaremos a lo largo de este trabajo, como son: variedades diferenciables, aplicaciones diferenciables entre variedades diferenciables y los espacios tangentes a estas variedades, también definiremos métrica riemanniana, geodésica, curvatura, gradiente y Hessiano de funciones o matriz Hessiana de una función, en una variedad riemanniana. En lo que concierne a métricas, presentamos una clase de métricas riemannianas diagonales, herramientas que nos permiten obtener propiedades interesantes para desarrollar nuevos algoritmos en Optimización, esto es, que sobre una variedad riemanniana se puede derivar un campo vectorial tangente a lo largo de una curva, a través de la llamada derivada covariante a lo largo de curvas que depende de la métrica. Formalizaremos estos resultados en las siguientes secciones. 11 2.2 Variedades diferenciables Una variedad diferenciable, a groso modo, es un espacio topológico (no necesariamente vectorial) semejante localmente al espacio euclidiano IRn cuja relación tiene el soporte de la diferenciabilidad. En esta sección presentamos estas ideas y daremos algunos ejemplos de variedades diferenciables relacionadas con problemas de Optimización. Para una demostración rigurosa de los resultados aquı́ presentados, referenciamos a Manfredo do CARMO (1988), [9]; SAKAI (1996), [22]; ELON LAGES (1960 y 1973), [15] y [16]; BOOTHBY (1986), [3], y HICKS (1966), [12]. En todo este capı́tulo, el término diferenciable de una función o aplicación significará que es infinitamente diferenciable. Definición 2.2.1 (Superficie regular de IRn ). Un subconjunto S ⊂ IRn , es una superficie regular de IRn de dimensión k ≤ n si para cada p ∈ S existe una vecindad V de p en IRn , un subconjunto abierto U ⊂ IRk y una aplicación biyectiva X : U → S ∩V tal que: 1. X es diferenciable en U. 2. X es homeomorfismo. 3. Para todo q ∈ U , dXq : IRk → IRn es inyectiva, donde dXq es la diferencial de X en el punto q. Vease un gráfico de la definición de superficie regular en IR3 . X p* V V ∩S x S U z y Figura 1. Superficie regular Para cada p ∈ S, la aplicación X : U → V ∩ S es llamada parametrización de S en p, o sistema de coordenadas locales en p. V ∩ S es llamada vecindad coordenada de p. 12 Proposición 2.2.1 Sea U un subconjunto abierto de IRn y F : U −→ IRm una función diferenciable en U con valor regular a ∈ IRm , entonces F −1 (a) es una superficie regular de dimensión n − m. Corolario 2.2.1 Sea U un subconjunto abierto de IRn y f : U −→ IR una función diferenciable tal que (∇f )(x) 6= 0, para todo x ∈ f −1 (a). Entonces S = f −1 (a) es una superficie regular. La Proposición 2.2.1 permite mostrar una famı́lia de superfı́cies regulares útiles en el contexto de la Optimización Matemática. Ejemplo 2.2.1 Consideremos los problemas de Optimización Lineal: (P ) min cT x (D) max bT λ s.a s.a Ax = b AT λ + s = c x ≥ 0. s ≥ 0. donde: x,s, c ∈ IRn ; λ, b ∈ IRm y A ∈ IRm×n es de rango m < n. El problema (P ) es llamado primal y (D) el dual de (P ). a). Restricciones estrictas primales. Si S = {x ∈ IRn++ : Ax = b} es el conjunto de las restricciones estrictas del problema (P ), definiendo la función F : IRn++ → IRm , por F (x) = Ax − b se tiene que dFx = A, para todo x ∈ IRn++ . Por tener la matriz A rango m y aplicando la Proposición 2.2.1 tenemos que F −1 (0) = S es una superfı́cie regular de dimensión n − m. b). Restricciones estrictas duales. Si S = {(λ, s) ∈ IRm ×IRn++ : AT λ+s = c} es el conjunto de las restricciones estrictas del problema (D), definiendo la función F : IRm × IRn++ −→ IRn , por: F (λ, s) = AT λ + s − c = [AT I] λ −c s Se tiene dF(λ,s) = [AT I] con rango n, para todo (λ, s) ∈ IRm × IRn++ . Aplicando la Proposición 2.2.1, F −1 (0) = S es una superfı́cie regular de dimensión m. 13 Ejemplo 2.2.2 Consideremos el problema en Optimización no Lineal: min f (x) s.a h(x) = 0 x∈U donde U es un abierto de IRn , f : IRn → IR y h : IRn −→ IRm son funciones dadas. Si h es diferenciable y su matriz Jacobiana en el punto x, Jh (x) tiene rango m entonces, el conjunto {x ∈ U : h(x) = 0} es una superficie regular. Como casos particulares tenemos que los conjuntos {x ∈ IRn : h(x) = 0} y {x ∈ IRn : h(x) = 0 y x > 0} son superficies regulares. Una propiedad importante de las superficies regulares, es que ella no depende del cambio de parámetros, es decir, cualquier otra parametrización de la superficie en un punto p ∈ S sigue manteniendo las propiedades diferenciables. Este resultado nos servirá para generalizar la definición de superficie regular a variedad diferenciable. Definición 2.2.2 (Cambio de parámetros). Sean X −→ S y Y −→ S dos parametrizaciones de S en el punto p tales que W = X (U ) ∩ Y(V ) 6= ∅. La aplicación Y −1 oX : X −1 (W ) −→ Y −1 (W ) es llamada cambio de parámetros. Proposición 2.2.2 Sea S una superficie regular de IRn de dimensión k. El cambio de parámetros Y −1 oX : X −1 (W ) −→ Y −1 (W ) es un difeomorfismo. La noción de variedad diferenciable que definimos a seguir es necesaria para poder extender los métodos del cálculo diferencial a espacios más generales. Como veremos posteriormente, una superficie regular será un claro ejemplo de variedad diferenciable. Definición 2.2.3 (Variedad diferenciable). Una variedad diferenciable de dimensión n es un conjunto M y una famı́lia de aplicaciones inyectivas Xα : Uα −→ M , α ∈ I (conjunto de parámetros), definidos en abiertos Uα de IRn en M tales que se cumplen las siguientes condiciones: 14 1. M = [ α∈I Xα (Uα ). 2. Para todo par Xα , Xβ con Xα (Uα ) ∩ Xβ (Uβ ) = W 6= ∅, los conjuntos Xα −1 (W ) y Xβ −1 (W ) son abiertos en IRn y las aplicaciones Xβ −1 ◦ Xα : Xα −1 (W ) −→ Xβ −1 (W ) son diferenciables. El par (Uα , Xα ) con p ∈ Xα (Uα ) es llamado una parametrización. Una famı́lia {(Uα , Xα )} satisfaciendo los items 1 y 2 es llamada estructura diferenciable de M . Ası́, la variedad es un conjunto M con una estructura diferenciable. Una estructura diferenciable en una variedad diferenciable M induce de forma natural una topologı́a en M definido por: IRn . A ⊂ M es abierto en M si para todo α ∈ I, Xα −1 (A ∩ Xα (Uα )) es abierto en Observemos que la topologı́a es definida de tal modo que los conjuntos Xα (Uα ) son abiertos y las aplicaciones Xα son continuas. Debido a la Proposición 2.2.2 podemos enunciar, el siguiente resultado. Proposición 2.2.3 Toda superficie regular de IRn de dimensión k es una variedad diferenciable de la misma dimensión. Proposición 2.2.4 Si M1 y M2 son dos variedades diferenciables de dimension m1 y m2 respectivamente, entonces el producto cartesiano M1 × M2 es una variedad de dimensión m1 + m2 . Definición 2.2.4 (Variedad de Hausdorff de base numerable). Una variedad diferenciable M, es llamada variedad de Hausdorff si M, con la topologı́a dada, es un espacio de Hausdorff. La variedad diferenciable M tiene base numerable si ella puede ser cubierta por una cantidad numerable de vecindades coordenadas, esto es, si existe una suceción {Xn (Un )} , n ∈ IN , de vecindades coordenadas tal que: M = [ n∈N Xn (Un ). En todo este capı́tulo asumiremos que la variedad diferenciable M es de Hausdorff y de base numerable. 15 2.3 Aplicaciones diferenciables entre variedades Definición 2.3.1 Sea f : U ⊂ M −→ IR, donde U es un subconjunto abierto de la variedad diferenciable M . Diremos que f es diferenciable en p ∈ U , si para alguna parametrización Xα : Uα ⊂ IRn −→ M , con p ∈ Xα (Uα ) ⊂ U , la función compuesta f ◦ Xα : Uα ⊂ IRn −→ IR es diferenciable en Xα−1 (p). Se dice que f es diferenciable en U si es diferenciable en todo punto de U . f U IR p f (p) M Xα −1 Xα Uα f ◦ Xα Figura 2. f es diferenciable en U. Una consecuencia inmediata del item 2 de la Definición 2.2.3 es que, la diferenciabilidad de una función de valores reales definida sobre una variedad diferenciable M no depende de la elección de la parametrización. En efecto, sea Xβ : Uβ ⊂ IRn → M , otra parametrización tal que, p ∈ Xβ (Uβ ) ⊂ U . Podemos expresar: f ◦ Xβ = f ◦ Xα ◦ Xα−1 ◦ Xβ : Uβ ⊂ IRn → M. Como f ◦ Xα es diferenciable por definición y Xα−1 ◦ Xβ es diferenciable por ser cambio de parámetros, entonces f ◦ Xβ es también diferenciable. Definición 2.3.2 Una curva sobre una variedad difereciable M es una función γ : I → M donde I = (−ε, ε). Diremos que γ es diferenciable en t0 ∈ I si para alguna parametrización Xα : Uα ⊂ IRn → M con γ(t0 ) ∈ Xα (Uα ), la función compuesta β = Xα−1 ◦γ :I → Uα es diferenciable en t0 , donde γ(I) ⊂ Xα (Uα ). Si γ es diferenciable en todo t ∈ I, diremos que γ es diferenciable en I. 16 Xα (Uα ) Xα γ(t0 ) = pα γ(t) M γ −1 Xα I Uα ⊂ IRn −ǫ β= −1 Xα t0 ǫ ◦ γ Figura 3. γ es diferenciable en t ∈ I. La definición de diferenciabilidad puede ser extendida para aplicaciones entre variedades. Definición 2.3.3 Sean M1 y M2 variedades diferenciables de dimensión m y n respectivamente. Una aplicación ϕ : M1 → M2 es diferenciable en p ∈ V , si dados: X1 : U1 ⊂ IRn → M1 parametrización de M1 en p y: X2 : U2 ⊂ IRm → M2 parametrización de M2 en ϕ(p) con ϕ(X1 (U1 )) ⊂ X2 (U2 ), la aplicación X2−1 ◦ ϕ ◦ X1 : U1 ⊂ IRn → IRm es diferenciable en X1−1 (p). Esta última aplicación es llamada expresión de ϕ en las parametrizaciones X1 y X2 . ϕ es diferenciable en un abierto de M1 si es diferencible en todos los puntos del abierto. Análogamente al caso de funciones de valores reales, se muestra que la definición no depende de las parametrizaciones elejidas. Observación 2.3.1 Una consecuencia de la Definición 2.3.3 es que, si X : U → M es una parametrización de M en el punto p entonces X −1 : X (U ) ⊂ M → IRn es diferenciable. Definición 2.3.4 (Difeomorfismo entre variedades diferenciables). Sea ϕ : M1 → M2 una aplicación diferenciable entre dos variedades diferenciables. Decimos que ϕ 17 es difeomorfismo si ϕ es bijetiva y ϕ−1 es diferenciable. ϕ es difeomorfismo local en p ∈ M1 , si existen vecindades U de p y V de ϕ(p) tal que ϕ : U → V es difeomorfismo. Observación 2.3.2 De la observación 2.3.1, concluimos que cualquier parametriza ción X : U ⊂ IRn → X (U ) ⊂ M, es un difeomorfismo. Por esta razón, muchas veces para facilitar la notación se identifica X (U ) ≡ U. 2.4 Espacio tangente a una variedad diferenciable Las consideraciones a seguir motivan la definición que extiende a variedades diferenciables la noción de vector tangente. Para superficies de IR3 , un vector tangente en un punto p de la superficie es definida como el “vector velocidad” en IR3 de una curva de la superficie pasando por p. Como en variedades diferenciables no disponemos del soporte de un espacio ambiente, precisamos de una propriedad caracterı́stica del vector tangente que substituya la noción de velocidad. Recordemos algunas formalidades en superficies regulares. Sea ε > 0 suficientemente pequeño y una curva γ : (−ε, ε) → IRn tal que: γ(t) = (γ1 (t), ..., γn (t)), con γ(0) = p y γ (0) = (γ1 (0), ..., γn (0)) = v ∈ IRn . Sea además una función f : ′ ′ ′ IRn → IR diferenciable definida en una vecindad de p. Podemos restringir f a la curva γ y calcular la derivada direccional de f en la dirección de v ∈ IRn : n n X X ∂f d(f ◦ γ) dγi ∂ ′ γi (0) (t) = (γ(0)) (0) = dt dt ∂γi i=1 ∂γi i=1 t=0 ! f. p Por tanto la derivada direccional en la dirección de v es un operador sobre funciones diferenciables que depende unicamente de v y esta es la propiedad caracterı́stica que usaremos para definir un vector tangente en variedades. Definición 2.4.1 (Vector tangente en un punto de una variedad diferenciable). Sea M una variedad diferenciable. Consideremos una curva diferenciable γ : (−ε, ε) → M, 18 donde γ(0) = p y sea Dp = {f : M −→ IR : f es diferenciable en p}. Definimos el vector tangente a la curva γ en t = 0 como la función γ ′ (0) : Dp → IR dada por: d(f ◦ γ) (t) , f ∈ Dp . γ (0)f ≡ γ (0)(f ) = dt t=0 ′ ′ Un vector tangente en p es el vector tangente en t = 0 de alguna curva γ : (−ε, ε) → M con γ(0) = p. Si M es una superficie regular de dimensión k ≤ n, esto es M ⊂ IRn , definimos el vector tangente en el punto p como el vector velocidad en IRn , esto es, γ ′ (0) = (γ1′ (0), γ2′ (0), ..., γn′ (0)). Definición 2.4.2 (Espacio tangente a una variedad diferenciable). El espacio tangente a una variedad M en un punto p representado por Tp M , es el conjunto de todos los vectores tangentes a M en p. Ası́, Tp M = {v ∈ IRm : v es un vector tangente en p }. Observación 2.4.1 Si para una parametrización X : U ⊂ IRn → M con p = X (0) y q ∈ U , podemos restringir la función f ∈ Dp y la curva γ : (−ε, ε) → M en esta parametrización: f oX (q) = f (X (q)) = f (q) = f (q1 , ..., qn ) (identificación: f oX ≡ f ). Podemos escribir también, X −1 ◦ γ(t) = (q1 (t), ..., qn (t)). Por definición tenemos: d(f ◦ γ) d(f ◦ X ◦ X −1 ◦ γ) γ ′ (0)f = (t) (t) = dt dt t=0 t=0 entonces: ! n X ∂ ∂f ′ (p) = qi (0). qi (0). γ (0)f = ∂qi ∂qi i=1 i=1 ′ n X d = (f (q1 (t), q2 (t), ..., qn (t)) dt t=0 ′ 19 ! ! 0 f. Ası́, n X ∂ qi (0). γ (0) = ∂qi i=1 ′ ′ ! (2.1) 0 es la expresión del vector tangente a γ en p con relación a la parametrización X . Observación 2.4.2 Para una curva coordenada en U , βi (xi ) = (0, ..., xi , ..., 0), se tiene que la composición X ◦ βi = γi es una curva coordenada sobre M y de la ′ ecuación anterior, γi (0) = ( ∂x∂ i )0 . Se sigue que ( ∂x∂ i )0 es el vector tangente a la curva coordenada γi (t). Observación 2.4.3 De la elección de una parametrización obtenemos n “vectores” ( ( ∂x∂ i )p , i = 1, ..., n ) en Tp M que generan, por (2.1), los vectores en Tp M . Observación 2.4.4 Sea M una variedad diferenciable, el fibrado tangente de M es definido por: T M = {(p, v); p ∈ M/ v ∈ Tp M }. T M puede ser unido de uma estructura diferenciable transformandose ası́ en una variedad diferenciable (ver do CARMO (1988), [8], pag. 15 para su demostración). En los siguientes resultados presentamos ejemplos de espacios tangentes. Proposición 2.4.1 El espacio tangente de una variedad diferenciable que es un subconjunto abierto de IRn es el propio IRn . Como consecuencia de esta proposición se tiene: a). Tp IRn = IRn , Tp IRn++ = IRn . b). Si M = {(λ, s) ∈ IRm × IRn : s > 0}, entonces Tp M = IRm+n . Proposición 2.4.2 Sea M = F −1 (a) una variedad de dimensión n − m, donde la aplicación F : U ⊂ IRn → IRm es una función diferenciable, U es abierto y a es un valor regular de F , entonces: Tp M = Tp (F −1 (a)) = Ker(dFp ). Ejemplo 2.4.1 Si M = {x ∈ IRn++ : Ax = b}, donde A ∈ IRm×n tiene rango m < n, entonces: Tp M = KerA = {∆x ∈ IRn : A∆x = 0}. 20 En efecto, la función que define M es F : IRn++ → IRm tal que F (x) = Ax − b, la diferencial de F en el punto p ∈ M es dFp = A, luego aplicando la Proposición 2.4.2 obtenemos el resultado. Ejemplo 2.4.2 Sea h : U ⊂ IRn → IRm una función diferenciable con Jacobiano Jh (x) = dhx con rango m. Consideremos la variedad M = h−1 (x) = {x ∈ U, h(x) = 0}, entonces: Tp h−1 (0) = Ker(Jh (x)). Corolario 2.4.1 Sea D ⊂ IRn un conjunto abierto y f : D −→ IR una función diferenciable tal que ∇f (x) 6= 0, para todo x ∈ f −1 (a) vimos que, M = f −1 (a) es una variedad diferenciable. Entonces para cada p ∈ M, Tp f −1 (a) = ∇f (p)⊥ . Proposición 2.4.3 Sean M1 y M2 dos variedades diferenciables de dimensión n y m respectivamente y sea ϕ : M1 → M2 una aplicación diferenciable. Para cada p ∈ M1 y cada v ∈ Tp M1 , escojamos una curva diferenciable α : (−ǫ, ǫ) → M con α(0) = p, α′ (0) = v. Definiendo β = ϕ ◦ α, la aplicación: dϕp : Tp M1 → Tϕ(p) M2 , dada por dϕp (v) = β ′ (0) es una aplicación lineal que no depende de la elección de α. Esta aplicación es llamada la diferencial de ϕ en p. Proposición 2.4.4 Sea M1 y M2 dos variedades diferenciables. Si ϕ : M1 → M2 es un difeomorfismo, entonces dϕp : Tp M1 → Tϕ(p) M2 es un isomorfismo. 2.5 Métricas riemannianas en variedades diferenciables Las métricas en un espacio son muy importantes porque nos permiten medir distancias, calcular errores, longitudes de curvas, etc. Cuando tenemos una curva 21 parametrizada en IRn , γ(t) = (γ1 (t), γ2 (t), ..., γn (t)) donde t pertenece a algun intervalo I de IR, la longitud de arco de la curva generada por γ(t) es medida por: ℓ(γ) = I kv(t)kdt ′ ′ ′ Z donde v(t) = (γ1 (t), γ2 (t), ..., γn (t)) y k, k representa la norma euclideana. Ası́, la longitud de la curva depende de la norma del vector velocidad definido por la métrica usual en IRn . Ahora, si nuestro espacio es una variedad diferenciable M y tenemos definida una curva en ella, entonces la longitud de arco de la curva será obtenida por la medida realizada en el vector perteneciente al espacio tangente en cada punto. Necesitamos entonces definir una métrica en el espacio tangente Tp M para cada p ∈ M. Recordemos que además del producto interno clásico: (v, w)p = X v i wi , i podemos definir otro producto interno: < v, w >p = X gij vi wi = (Gv, w), i,j donde G = (gij ) es una matriz simétrica definida positiva. Esta definición aparece de modo natural al realizar un cambio de coordenadas. En efecto, sean x = (x1 , x2 , ..., xn ) y z = (z1 , z2 , ..., zn ) tal que x(t) = x(z(t)), esto es, x(t) = (x1 (z1 (t), z2 (t), ..., zn (t)), x2 (z1 (t), z2 (t), ..., zn (t)), ..., xn (z1 (t), z2 (t), ..., zn (t)), entonces: n ∂xi ∂zj dxi X = dt j=1 ∂zj ∂t ! , para todo i = 1, 2, ..., n. Denotando v x = (v1x , v2x , ..., vnx ) y v z = (v1z , v2z , ..., vnz ), donde vix = tememos: x 2 x x k v k = (v , v ) = Como: dxi dt !2 = n X ∂xi j=1 ∂zj 2 vjz = n X j=1 n X i=1 dxi dt n ∂xi z X ∂xi z vj v ∂zj k=1 ∂zk k 22 ! !2 = dxi dt y viz = dzi , dt . n X j=1 n X ∂xi ∂xi vkz ∂zj k=1 ∂zk ! vjz , entonces: kv k = n n X X i=1 j=1 k=1 k v x k2 = n n X X n X ∂xi ∂xi 2 x n X ∂xi ∂xi ∂zj ∂zk vkz ! vjz , conmutando sumandos: j=1 k=1 i=1 ∂zj ∂zk ! vkz vjz . Haciendo un cambio k por i e i por k obtenemos: x 2 kv k = Definiendo gij = n P k=1 ∂xk ∂xk ∂zj ∂zi x n X i,j=1 n X ∂xk ∂xk ∂zj ∂zi k=1 ! viz vjz . se tiene finalmente que: x x 2 (v , v ) =k v k = n X gij viz vjz = (Gv z , v z ). i,j=1 Queda claro que un cambio en el sistema de coordenadas no altera las métricas. En efecto, si v = G1\2 w tenemos que: (v, v)p = (G1\2 w, G1\2 w)p = (Gw, w)p = h w, wip . Métrica riemanniana. Definición 2.5.1 Sea S una variedad diferenciable. Una métrica riemanniana es una aplicación que asocia a cada p ∈ M un funcional h , ip h , ip : Tp M × Tp M −→ IR, de modo que se cumplen las siguientes condiciones: 1. h , ip es un producto interno (bilineal, simétrica y definida positiva) para cada p ∈ M. 2. h , ip varia diferenciablemente en el siguiente sentido: Si X : U ⊂ IRn −→ M es um sistema de coordenadas en torno de p, con X (x1 , x2 , x3 , ...., xn ) = q ∈ X (U ) y ∂ (q) ∂xi = dXq (0, 0, ..., 0, 1, 0, ..., 0, 0), entonces la función: gij : U −→ IR definida por gij (x1 , x2 , ..., xn ) = es diferenciable. 23 * + ∂ ∂ (q), (q) ∂xi ∂xj q , Las funciones gij son llamadas expresiones de la métrica riemanniana en el sistema coordenado X y la matriz G = (gij ) es la representación de la métrica riemanniana. Como X es un difeomorfismo (Observación 2.3.2) se tiene que dXq : IRn −→ Tq M es un isomorfismo (Proposición 2.4.4) y ası́ la matriz G = (gij ) es invertible. Por tanto, toda métrica riemanniana tiene su matriz de representación invertible. Definición 2.5.2 (Variedad riemanniana). Una variedad diferenciable para la cual se define una métrica riemanniana se denomina una variedad riemanniana. Ejemplo 2.5.1 Sea M = IRn , defina la parametrización X : IRn −→ IRn tal que X (x1 , x2 , ..., xn ) = (x1 , x2 , ..., xn ). Definamos la métrica: h , ip : IRn × IRn −→ IR, definido por h x, yip = xT y. Sea q ∈ IRn entonces: ∂ (q) = dXq ei = ei , ∂xi y ası́, gij : U → IR definidas por: gij (x) = * + ∂ ∂ (x), (x) ∂xi ∂xj x = h ei , ej ix = eTi ej = δij , son diferenciables en IRn . Luego M = IRn , con la expresión de la métrica G = Id, es una variedad riemanniana, esto es, el espacio euclidiano es un ejemplo particular de variedad riemanniana. Ejemplo 2.5.2 Sea M la variedad definida por el siguiente conjunto: M = {(x1 , x2 ) ∈ IR2 : x2 > 0}. Usamos la parametrización identidad, además Tp M = IR2 , con p = (p1 , p2 ) ∈ M . Definimos la aplicación: h , ip : IR2 × IR2 −→ IR tal que: h(x1 , x2 ), (y1 , y2 )ip = 24 1 (x1 y1 + x2 y2 ). p2 Sea q = (q1 , q2 ) ∈ M, entonces ∂ (q) = dXq ei = ei , para todo i = 1, 2. ∂xi Luego: gij : M −→ IR definidas por: gij (x1 , x2 ) = 1 1 h ei , ej i = δij , x2 x2 son diferenciables en M . Por lo tanto, M es una variedad riemanniana con la expresión de la métrica: G(p) = 1 (Id)2×2 . p2 Esta métrica es conocida como métrica de Lobatchevsky o Poincairé. Los siguientes dos ejemplos son también variedades riemannianas para las métricas G según se definen, los cuales se demuestran bajo el mismo procedimiento que los dos ultimos ejemplos anteriores. Ejemplo 2.5.3 Si M = IRn++ y el funcional h , ip : Tp IRn++ × Tp IRn++ −→ IR tal que: hu, vip = uT G(p)v, donde: G(p) = diag(1/(hi (pi ))2 ), entonces: gij (x) = δij . (h2 (xi ))2 Ejemplo 2.5.4 Sea la variedad riemanniana (IR2 , G(x)), con hu, vip = uT G(p)v, donde: G(p) = 4p21 + 1 −2p1 −2p1 es la métrica riemanniana dada por Udriste. 25 1 2.6 Campos de vectores, conexiones afines y deriva da covariante Introducimos los campos de vectores en los espacios tangentes a las variedades riemannianas. En Optimización Matemática ellos representan las direcciones, a partir de un punto dado, para algún algoritmo iterativo propuesto. Observando la trayectoria continua del algoritmo, esta tendrá sus caracterı́sticas, como curvatura, que dependen obviamente de las caracterı́sticas del campo. Surge ası́ la necesidad de definir conceptos correspondientes al de derivada de funciones. Definición 2.6.1 (Campo de vectores en una variedad diferenciable). Un campo de vectores X en una variedad diferenciable M es una correspondencia que a cada punto p ∈ M asocia un vector X(p) ∈ Tp M . Considerando una parametrización X : U ⊂ IRn → M es posible escribir: X(p) = n X ai (p).( i=1 ∂ )p , ∂xi donde cada ai : M → IR es una función en M y {( ∂x∂ i )p } es una base asociada a X , 1 ≤ i ≤ n. Diremos que X es diferenciable si, y solamente si, las funciones ai son diferenciables para alguna parametrización. Es útil pensar en campos vectoriales como aplicaciones X : D −→ F definidas por (Xf )(p) = X ai (p). i ∂f (p), ∂xi donde D es el conjunto de las funciones diferenciables sobre M y F es el conjunto de las funciones sobre M. Como estamos interesados en trayectorias en M , consideraremos los campos restritos a una curva. Definición 2.6.2 (Campo de vectores a lo largo de curvas). Un campo vectorial V a lo largo de una curva α : I −→ M es una aplicación que a cada α(t) ∈ M asocia un vector tangente V (t) ∈ Tα(t) M . Se dise que V es diferenciable si para cada función diferenciable f en D, la función V (t)f es una función diferenciable en I. Sea X un campo definido en M , el campo X a lo largo de α será denotado V (t) = 26 X(α(t)) y diremos que V es inducido por X. El campo vectorial dX(X −1 ◦α)(t) [(X −1 ◦ α)′ (t)] = d(X oX −1 ◦α)(t) dt denotado por dα , dt es llamado campo velocidad o tangente de α. Conexiones Afines. Denotemos T M como el conjunto de espacios tangentes definidos en M. Sea H = H(M ) = {X : M −→ T M : para cada p ∈ M, X(p) ∈ Tp M, y X ∈ C ∞ } el conjunto de campo de vectores y D = D(M ) = {f : M −→ IR : f ∈ C ∞ } el conjunto de funciones reales de clase C ∞ . Definición 2.6.3 Una conexión afin es una aplicación ∇ : H × H −→ H donde a cada par de campos (X, Y ) se asocia otro campo ∇X Y tal que para todo X, Y, Z ∈ H, y f, g ∈ D verifique: 1. ∇(f X+gY ) Z = f ∇X Z + g∇Y Z; 2. ∇X (Y + Z) = ∇X Y + ∇X Z; 3. ∇X f Y = f ∇X Y + X(f )Y , donde X(f ) = n P i=1 (.) ai (.) ∂f . ∂xi Considerando una curva diferenciable en M α : I −→ M, denotaremos el conjunto de campo de vectores a lo largo de esta curva como Hα . Proposición 2.6.1 Sea M una variedad diferenciable con una conexión afin ∇. Entonces existe una única aplicación en Hα , denotado por DV dt D , dt donde a cada V ∈ Hα se asocia otro campo , tal que para todo V, W ∈ Hα y f : I −→ IR una función diferenciable en I se cunplen: a. D (V dt b. D (f V dt + W) = )= df V dt DV dt + DW . dt + f DV . dt c. Si V (t) = Y (α(t)), donde Y ∈ H, entonces D dt DV dt = ∇ dα Y. dt es llamada Derivada Covariante. Observación 2.6.1 La Proposición 2.6.1 muestra que la elección de una conexión afin de M da origen a una única derivada covariante para cada campo vectorial a lo largo de una curva. 27 Observación 2.6.2 Al realizar la demostración de esta Proposición, encontramos una caracterización de la derivada covariante para una cierta parametrización X , de acuerdo con: n n X X dxi dv j DV vj = Xj + ∇Xi Xj . dt dt j=1 dt i,j=1 Observación 2.6.3 La noción de conexión afin, ofrece una manera de derivar campo de vectores a lo largo de curvas. Ası́, en particular para el campo vectorial V = tenemos: dα dt ! D dt dα , dt que llamaremos aceleración de una curva α en M . Expresión de la conexión afin relativa a coordenadas locales. Suponga que los campos de vectores X, Y ∈ H sean representados en una cierta vecindad local X : U ⊂ Rn −→ M , de algún punto p, por: X= n X xi i=1 ∂ , ∂xi Y = n X i=1 yi ∂ , ∂xi donde (∂/∂xi ) representan los vectores de la base del sistema de coordenadas locales. Por simplicidad de notación expresaremos: ∂ = Xi . ∂xi Entonces tenemos X= n X xi Xi , Y = n X yi Xi . i=1 i=1 Según las propiedades de la definición de la conexión afin: ∇X Y X X X xi ∇Xi yj Xj = ∇P xi Xi yj Xj = j i X X X X = xi (yj ∇Xi Xj ) + xi i i j j j ! ∂yj Xj . ∂xi Observe que ∇Xi Xj ∈ H, pudiendo por tanto ser también representado atravéz de una base local, esto es: ∇Xi Xj = n X Γkij Xk k=1 que, substituyendo en la ecuación anterior, se obtiene: 28 (2.2) ∇X Y = n X k=1 n X n X ∂yk xi + Xk . ∂xi i=1 xi yj Γkij i,j=1 Definición 2.6.4 (Sı́mbolos de Christoffel). Los sı́mbolos de Christoffel, o coeficientes de la conexión afin ∇ en U , son las funciones (diferenciables): Γkij : U ⊂ M → R definidas por (2.2). Expresión de la derivada covariante en términos de coordenadas locales y de los sı́mbolos de Christoffel. Sea X : U → M un sistema de coordenadas locales en torno de p ∈ M . Un resultado obtenido al demostrar la Proposición 2.6.1 es: n n X X dxi dv j DV vj = Xj + ∇Xi Xj , dt dt j=1 dt i,j=1 y usando ∇Xi Xj = tenemos n X Γkij Xk , k=1 n n X X DV dxi dv j vj = Xj + dt dt j=1 dt i,j=1 = n X dv j j=1 Ası́: dt Xj + n n X X k=1 i,j=1 vj n X Γkij Xk k=1 ! , dxi k Γ Xk . dt ij n n X X DV dv k dxi k Xk vj = + Γ dt dt dt ij i,j=1 k=1 (2.3) es la expresión de la derivada covariante en términos de coordenadas locales y de los sı́mbolos de Christoffel. Geodésicas y Campos paralelos. La derivada covariante permite definir el transporte paralelo a lo largo de curvas que dependen de la métrica, osea, que cambiando la métrica, cambia en general la manera de derivar campos vectoriales, en particular nos permite conocer geodésicas, curvas 29 cuyo vector tangente es paralelo o derivada covariante nula. Si α : [a, b] → M es una curva, tal que α(a) = y α(b) = q, el transporte paralelo es Pα(t) : Tp M → Tq M un isomorfismo lineal tal que Pα(t) (v) = V (b) que es el único transporte paralelo a lo largo de α. Con la métrica euclidiana la geodésica es el segmento de recta entre dos puntos p y q cualquiera que caracteriza la trayectoria de menor longitud que los une. Si α : [a, b] → IRn es una curva diferenciable pasando por: p = α(a) yq = α(b), siendo el campo dα dt asociado fisicamente a la velocidad, tenemos la aceleración d dα ( ) dt dt en cada punto α(t) con la propiedad de α ser geodésica dada por d dα ( ) = 0. dt dt La extensión de esta noción a variedades exigirá apenas que la componente tangencial de la derivada sea nula. Geodésicas. Definición 2.6.5 Una curva parametrizada α : I −→ M es una geodésica si el campo tangente dα dt verifica: D dα ( ) = 0. dt dt Campos paralelos. Dado M una variedad diferenciable, una conexión afin ∇ y un campo V a lo largo de una curva diferenciable α : I → M , V es denominado campo paralelo si para todo t ∈ I. Ası́, si α es una geodésica, entonces dα dt DV dt es paralelo. Ecuaciones geodésicas. De la expresión (2.3), un campo paralelo V es determinado por las ecuaciones o, equivalentemente, n X dαi k dv k Xk = 0 vj + Γ dt dt ij i,j=1 k=1 n X n X dαi k dv k vj + Γ = 0, dt dt ij i,j=1 30 k = 1, ..., n. = 0, Cuando se trata de una geodésica α(t) = (α1 (t), ..., αn (t)), se tiene v i = dαi , dt entonces esta última ecuación se transforma en n X d dαk dαj dαi k ( )+ Γij = 0, dt dt i,j=1 dt dt o n X dαi dαj d2 αk Γkij + = 0, 2 dt dt dt i,j=1 k = 1, ..., n k = 1, ..., n (2.4) el cual es un sistema de n ecuaciones diferenciales de 2do. orden, que posee solución única en algun intervalo I = [a, b], verificando x(0) = α(0) = p y dx (0) dt = α′ (0) = v . Conexión afin en variedades riemannianas. Definición 2.6.6 Sea M una variedad diferenciable con una conexión afin ∇ y una métrica riemanniana h , i. Se dice que ∇ es compatible con la métrica h , i si para todo par de campos de vectores V y W a lo largo de la curva diferenciable α : I −→ M se tiene: DV DW d hV, W i = h , W i + hV, i. dt dt dt (2.5) Proposición 2.6.2 Si la conexión afin ∇ es compatible con h , i y V, W son campos paralelos a lo largo de una curva diferenciable α : I −→ M entonces, hV, W i es constante. , dα i es constante. En particular si α(t) = (α1 (t), ..., αn (t)) es una geodésica, h dα dt dt Proposición 2.6.3 Sea M una variedad riemanniana. Una conexión afin ∇ es compatible con el h, i si, y solamente si: XhY, Zi = h∇X Y, Zi + hY, ∇X Zi, para todo X, Y, Z ∈ H. Definición 2.6.7 Una conexión afin ∇ en una variedad diferenciable M es llamada simétrica si: ∇X Y − ∇Y X = [X, Y ], donde [X, Y ] = XY − Y X. Observaciones: 31 1. En un sistema de coordenadas (U, X ) la simetrı́a de la conexión afin implica que ∇ ∂ ∂xi ∂ ∂xj =∇ ∂ ∂xj ∂ . ∂xi En efecto, para todo f ∈ D, ∂2f ∂2f − = 0. Xi Xj (f ) − Xj Xi (f ) = ∂xi ∂xj ∂xj ∂xi 2. En consecuencia se tiene que: ∇Xi Xj − ∇Xj Xi = n X (Γkij − Γkji )Xk = 0. k=1 Debido a la independencia lineal de {Xk } obtenemos: Γkij = Γkji . La reciproca es inmediata. El teorema a seguir garantiza la existencia y unicidad de una conexión simétrica y compatible con la métrica en una variedad riemanniana. Teorema 2.6.1 (Levi-Civita). Dada una variedad riemanniana M , existe una única conexión afin ∇ en M satisfaciendo las condiciones: a) ∇ es simétrica. b) ∇ es compatible con la métrica riemanniana. (Esta conexión es denominada conexión riemanniana). Relación entre la métrica riemanniana y los sı́mbolos de Christoffel. Dado un sistema de coordenadas (U, X ), las funciones conocidas como sı́mbolos de Christoffel Γki,j : U → IR definen los coeficientes de conexión ∇Xi Xj = muestra que Γm ij n ∂ ∂ ∂ 1X gjk + gki − gij }g km , ={ 2 k ∂xi ∂xj ∂xk 32 n P k Γkij Xk . Se donde gij = h ∂x∂ i , ∂x∂ j i son elementos de la matriz G(x) y g ij los elementos de su inversa G−1 (x) respectivamente. En efecto, tomemos ∂ ∂xi = Xi , ∂ ∂xj = Xj y ∂ ∂xk = Xk . Usando el resultado siguiente: 1 hZ, ∇Y Xi = {XhY, Zi+Y hZ, Xi−ZhX, Y i−h[X, Z], Y i−h[Y, Z], Xi−h[X, Y ], Zi} 2 (2.6) tenemos: 1 hXk , ∇Xj Xi i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i}. 2 Como ∇Xj Xi = ∇Xi Xj = ∇Xi Xj = interno, se tiene: n P l=1 Γlij Xl y usando a linealidad del producto n X 1 Γlij hXk , Xl i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i}, 2 l=1 y ası́: n X 1 ∂ ∂ ∂ Γlij gkl = { gjk + gki − gij }. 2 ∂xi ∂xj ∂xk l=1 Denotando bk = 12 { ∂x∂ i gjk + ∂x∂ j gki − ∂x∂ k gij }, k = 1, 2, ..., n obtenemos un sistema lineal Gy = b con y = (Γ1ij , Γ2ij , ..., Γnij ) y b = (b1 , b2 , ..., bn ). Como G(x) es invertible (ver definición de métrica riemanniana) entonces y = G−1 b. Ası́ tenemos: Γm ij n 1X = g mk bk . 2 k=1 Finalmente sustituyendo el valor de bk en la expresión anterior se tiene: Γm ij = n ∂ 1X ∂ ∂ { gjk + gki − gij }g km . 2 k=1 ∂xi ∂xj ∂xk (2.7) Ejemplo 2.6.1 Sea la variedad riemanniana M = IRn++ , con la métrica dada por ! 1 1 1 , , , ..., G(x) = diag 2 2 (h1 (x1 )) (h2 (x2 )) (hn (xn )2 para funciones hi : IR++ −→ IR++ diferenciables. La inversa de la matriz G(x) es: G−1 (x) = diag (h1 (x1 ))2 , (h2 (x2 ))2 , ..., (hn (xn ))2 . 33 1. Obtención de los sı́mbolos de Christoffel. Recordemos que la relación de la métrica con los sı́mbolos de Christoffel está dado por la ecuación (2.7). Cuando k 6= m tenemos que g mk = 0, ası́ la expresión es reducida a: Γm ij ( 1 = 2 ) ∂ ∂ ∂ gim + gmi − gij g mm . ∂xi ∂xj ∂xm Consideramos dos casos: a) Si i = j Γm ii 1 = 2 ( ) ∂ ∂ ∂ gim + gmi − gii g mm . ∂xi ∂xi ∂xm Para m = i Γiii = − 1 ∂ (hi (xi )) . hi (xi ) ∂xi Para m 6= i b) Si i 6= j Γm ii = 0. Γm ij 1 = 2 ( ) ∂ ∂ gim + gmi g mm . ∂xi ∂xj Para m = i entonces, m 6= j y: Γiij = 0. Para m = j entonces, m 6= i y: Γjij = 0. Para m 6= i y m 6= j entonces, Γm ij = 0. De ambos casos tenemos: Γm ij = − 1 ∂(hi (xi )) δim δij hi (xi ) ∂xi (2.8) que es la expresión de los Sı́mbolos de Christoffel en relación a la métrica G(x). Como aplicaciones tenemos: 34 • Si hi (xi ) = 1, entonces, G(x) = I. Luego: Γm ij = 0, ∀ i, j, m = 1, ..., n. 1 • Si hi (xi ) = xi entonces, G(x) = X −2 . Luego: Γm ij = − xi δim δij . r r 1 • Si hi (xi ) = xi2 entonces, G(x) = X −r . Luego: Γm ij = − 2 xi δim δij . −r r • Se hi (xi ) = si 2 xi2 , si ∈ IR++ entonces, G(x) = S r X −r . Luego Γm ij = − 2r x1i δim δij . 2. Obtención de la derivada covariante. Vimos que la relación de la derivada covariante con respecto a los sı́mbolos de Christoffel es dada por la ecuación (2.3). Sustituyendo la expresión (2.8) en (2.3) obtenemos: ! n X dv i DV 1 ∂(hi (xi )) i dxi Xi . = − v dt dt hi (xi ) ∂xi dt i=1 En particular: • Si hi (xi ) = 1, Γkij = 0, y ası́: n X dv i DV = Xi , dt i=1 dt que es la propia derivada usual. 1 • Si hi (xi ) = xi , Γm ij = − xi δim δij y ! n X DV 1 dxi dv i Xi . = − vi dt dt xi dt i=1 r r 1 • Si hi (xi ) = xi2 , Γm ij = − 2 xi δim δij ! n X dv i r 1 i dxi DV Xi . = − v dt dt 2 xi dt i=1 3. Determinación de la ecuación geodésica: Sea p = (p1 , p2 , ..., pn ) ∈ IRn++ y v = (v1 , v2 , ..., vn ) ∈ Tp IRn++ = IRn con α : I → IRn++ : α(t) = (α1 (t), α2 (t), ..., αn (t)), donde α(0) = p y dα(0) dt = v, I alguún intervalo abierto de IR. Substituyendo los sı́mbolos de Christoffel (2.8) en la ecuación (2.4) obtenemos: 1 ∂(hi (αi )) dαi 2 d2 αi − ) = 0, ∀i = 1, ..., n ( dt2 hi (αi ) ∂αi dt 35 (2.9) αi (0) = pi , i = 1, ..., n αi′ (0) = vi , i = 1, ..., n. La ecuación diferencial (2.9) es equivalente a resolver: dαi = hi (αi )ai , dt para alguna constante ai , que también es equivalente a resolver la integral: Z 1 dαi = ai t + bi , hi (αi ) i = 1, 2, ..., n para algunas constantes ai y bi en IR. Entonces, la única geodésica α(t) de IRn++ , con métrica G(p), pasando por el punto α(0) = p, en la dirección α′ (0) = v, es obtenida resolviendo el siguiente problema: Z ( 1 )dαi = ai t + bi hi (αi ) i = 1, ..., n (2.10) donde ai y bi son constantes reales tales que: αi (0) = pi , i = 1, ..., n. αi′ (0) = vi , i = 1, ..., n. En particular: • Si hi (αi ) = 1 tenemos que G(p) = I y considerando las condiciones iniciales de (2.10) encontramos la expresión de la curva geodésica: αi (t) = vi t + pi i = 1, ..., n. Esto es, las geodésicas son curvas α : IR −→ IRn++ definidas por: α(t) = (v1 t + p1 , ..., vn t + pn ). Observemos que la geodésica α(t) está definida para valores de t tal que vi t + pi > 0. • Si h(αi ) = αi entonces, G(x) = X −2 considerando las condiciones iniciales de (2.10), las curvas geodésicas son funciones exponenciales: ! ! !! v2 vn v1 t , p2 exp t , ..., pn exp t α(t) = p1 exp p1 p2 pn . Vemos que dados cualquier p ∈ IRn++ y v ∈ IRn , la geodésica α(t) está definida para todo t ∈ IR. 36 Ejemplo 2.6.2 Consideremos la variedad riemanniana C0n = (0, 1)n con la métrica dada por: ! 1 1 1 , , , ..., G(p) = diag 2 2 (h1 (α1 )) (h2 (α2 )) (hn (αn ))2 para funciones hi : (0, 1) −→ (0, 1) diferenciables. Ası́, la única geodésica α(t) de C0n , con métrica G(p), pasando por el punto α(0) = p, en la direción α′ (0) = v ∈ Tp C0n = IRn , es obtenida resolviendo la siguiente ecuación: Z ( 1 )dαi = ai t + bi hi (αi ) i = 1, ..., n, donde ai y bi son constantes reales tales que: αi (0) = pi , i = 1, ..., n. αi′ (0) = vi , i = 1, ..., n. • Si hi (αi ) = sen2 (παi ) entonces G(p) = csc4 (πp), con las geodésicas en C0n , α(t) = (α1 (t), α2 (t), ..., αn (t)), considerando las condiciones iniciales de (2.10), son: αi (t) = 1 arccot −πcsc2 (πpi )vi t + cot(πpi ) para todo, i = 1, 2..., n. π Observamos que dados cualquier p ∈ C0n y v ∈ IRn , la geodésica α(t) está definida para todo t ∈ IR. • Si hi (αi ) = αi (1 − αi ) se tiene que G(p) = P −2 (I − P )−2 , las geodésicas en C0n , α(t) = (α1 (t), α2 (t), ..., αn (t)), considerando las condiciones iniciales de (2.10), son: ( !) 1 1 vi αi (t) = 1 + tgh t + arccoth(2pi − 1) 2 2 pi (1 − pi ) donde tanh(z) = ez −e−z ez +e−z para todo, i = 1, 2..., n. es la función tangente hiperbólica. Observamos que dados cualesquiera p ∈ C0n y v ∈ IRn , la geodésica α(t) está definida para todo t ∈ IR. 37 2.7 Curvatura de una variedad riemanniana En esta sección, presentamos la definición de curvatura de una variedad riemanniana que, intuitivamente, mide cuanto ella se aleja de ser euclidiana. Del punto de vista de las aplicaciones esta sección muestra esencialmente que las variedades IRn++ y C0n con la métrica dada por G(x) = diag 1 1 , , ..., (hn (x1 n ))2 (h1 (x1 ))2 (h2 (x2 ))2 para cuaquier función diferenciable hi : IR++ −→ IR++ y hi : (0, 1)n −→ IR++ respectivamnte, tiene curvatura cero. Definición 2.7.1 (Aplicación curvatura). Sea A(H, H) el conjunto de aplicaciones de H en H y ∇ la conexión afin en una variedad riemanniana M , dada por el teorema de Levi-Civita. Una curvatura K de una variedad riemanniana M es una correspondencia K : H × H −→ A(H, H) definida por: K(X, Y )Z = ∇Y ∇X Z − ∇X ∇Y Z + ∇[X,Y ] Z. Observación 2.7.1 Si la variedad M = IRn , entonces K(X, Y )Z = 0, para todo X, Y, Z ∈ H. En efecto, basta indicar Z = (z1 , z2 , ..., zn ) las componentes del campo Z en las coordenadas naturales de IRn y la conexión definida por: ∇X Z = (Xz1 , Xz2 , ..., Xzn ). Observación 2.7.2 Si consideramos un sistema de coordenadas (U, X ) en torno del punto p y {Xi } , i = 1, 2, ..., n es una base de Tp M obtenemos: K(Xi , Xj )Xk = ∇Xi ∇Xj − ∇Xj ∇Xi Xk . Observación 2.7.3 La curvatura K es antisimétrica. En efecto, K(X, Y )Z + K(Y, X)Z = ∇[X,Y ] Z + ∇[Y,X] Z, para todo Z ∈ H. Como [X, Y ] = −[Y, X], entonces: K(X, Y )Z + K(Y, X)Z = 0, para todo Z ∈ H, y ası́, K(X, Y ) = −K(Y, X). 38 Proposición 2.7.1 La curvatura K de una variedad riemanniana es trilineal, en el siguiente sentido: a. K es bilineal en H × H, esto es, K(f X1 + gX2 , Y1 ) = f K(X1 , Y1 ) + gK(X2 , Y1 ), K(X1 , f Y1 + gY2 ) = f K(X1 , Y1 ) + gK(X1 , Y2 ), donde f, g ∈ D(M ) y X1 ,X2 , Y1 , Y2 ∈ H. b. Para todo par X, Y ∈ H, el operador curvatura K(X, Y ) : H −→ H es lineal, esto es, K(X, Y )(Z + W ) = K(X, Y )Z + K(X, Y )W, K(X, Y )(f Z) = f K(X, Y )Z, donde f ∈ D(M ) y Z, W ∈ H. Proposición 2.7.2 Sea (U, X ) un sistema de coordenadas en torno de p ∈ M y {Xi } una base de Tp M en este sistema de coordenadas. Entonces: K(Xi , Xj )Xk = n X l Kijk Xl , l=1 l donde las componentes Kijk son dadas por: l Kijk = Xj Γlik − Xi Γljk + n X s=1 Γsik Γljs − n X Γsjk Γlis . s=1 Observación 2.7.4 Si en las coordenadas (U, X ) escribimos: X = n P j=1 v j Xj , Z = n P k=1 wk Xk , por la linealidad de K tenemos: K(X, Y )Z = n X n P i=1 ui Xi , Y = l Kijk ui v j wk Xl . i,j,k,l=1 Ejemplo 2.7.1 Sea M = IRn++ ó M = C0n con estructura de variedad riemanniana representada por la matriz G(x) = diag( (h1 (x1 1 ))2 , (h2 (x1 2 ))2 , ..., (hn (x1 n ))2 ). Ya vimos que sus sı́mbolos de Christoffel son: Γm ij = −1 ∂(hi (xi )) δim δij . hi (xi ) ∂xi 39 Si en las coordenadas (U, X ) escribimos: X = de la tri-linealidad de K tenemos: K(X, Y )Z = n X n P i=1 ui Xi , Y = n P j=1 v j Xj , Z = n P k=1 wk Xk , ui v j wk K(Xi , Xj )Xk . i,j,k=1 Por definición de curvatura: K(Xi , Xj )Xk = ∇Xj (∇Xi Xk ) − ∇Xi (∇Xj Xk ) + ∇[Xi ,Xj ] Xk , como la conexión es de Levi Civita se tiene [Xi , Xj ] = 0. Ası́, K(Xi , Xj )Xk = ∇Xj (∇Xi Xk ) − ∇Xi (∇Xj Xk ). Si i = j, entonces K(Xi , Xj )Xk = 0. Supongamos que i 6= j, entonces ∇Xi Xk = n X Γjik Xj . j=1 Sustituyendo los sı́mbolos de Christoffel tenemos: ∇Xi Xk = n X j=1 ! 1 ∂(hi (xi )) 1 ∂(hi (xi )) − δij δik Xj = − δik Xi hi (xi ) ∂xi hi (xi ) ∂xi luego tomando ∇Xj se tiene: ∇Xj (∇Xi Xk ) = ∇Xj (2.11) ! 1 ∂(hi (xi )) − δik Xi , hi (xi ) ∂xi por definición de conexión afin ∇X (f Y ) = f ∇X Y +X(f )Y donde X(f ) = entonces tenemos: n P i=1 ∂f , ai (.) ∂x i ! 1 ∂(hi (xi )) 1 ∂(hi (xi )) δik ∇Xj Xi + Xj − δik Xi . ∇Xj (∇Xi Xk ) = − hi (xi ) ∂xi hi (xi ) ∂xi Usando (2.11) y dado que i 6= j, el primero y segundo término de la suma anterior, es igual a cero. Por tanto: ∇Xj (∇Xi Xk ) = 0. Análogamente, ∇Xi (∇Xj Xk ) = 0. 40 De ambos resultados se tiene: K(Xi , Xj )Xk = 0, ∀ i, j, k = 1, 2, ...n. Ası́ K(X, Y )Z = 0. Luego las variedades riemannianas IRn++ y C0n con métrica G(x) tienen curvatura cero. En particular, con las métricas I, X −r , para IRn++ y cosec4 (πx), X −r (I − X)−r para C0n , son variedades de curvatura cero. Curvatura Seccional. Intimamente relacionado con el operador curvatura K está la curvatura seccional (o riemanniana) que definiremos a seguir. Sea M una variedad riemanniana y σ un subespacio bidimensional de Tp M . Definimos la forma cuadrática como Q : σ → IR tal que: Q(x, y) = hx, xihy, yi − hx, yi2 . Geométricamente q Q(x, y) representa el área del paralelogramo definido por x e y. Proposición 2.7.3 Sea σ ⊂ Tp M un subespacio bidimensional y x, y ∈ σ, dos vectores linealmente independientes. Entonces, K(x, y) = hK(x, y)x, yi , Q(x, y) no depende de la elección de los vectores x y y. Definición 2.7.2 (Curvatura Seccional). Dado un punto p ∈ M y σ ⊂ Tp M. El número K(x, y) = K(σ), donde {x, y} es una base de σ, es llamado “Curvatura Seccional de M ”. Si K(x, y) ≤ 0 para todo x, y ∈ σ entonces, la curvatura seccional de la variedad riemanniana es no positiva. Si K(x, y) ≥ 0 para todo x, y ∈ σ entonces, la curvatura seccional de la variedad riemanniana es no negativa. 41 2.8 Gradiente y Hessiana en una variedad riemanniana Sea M una variedad riemanniana y f : M −→ IR una función diferenciable. Dado p ∈ M sabemos que la diferencial de f en el punto p es un funcional lineal definido en Tp M, entonces por el teorema de representación de Riesz existe un único elemento denotado por ∇M f (p) ∈ Tp M tal que para todo v ∈ Tp M se tiene dfp (v) = h∇M f (p), vi (2.12) y k∇M f (p)k = kdfp k, esto es, la aplicación diferencial se puede caracterizar por la aplicación de producto interno. Ası́ podemos definir un campo vectorial grad f : M −→ T M, como grad f (p) = ∇M f (p). La expresión (2.12) puede ser escrita como: dfp (X(p)) = hgrad f (p), X(p)i, para todo X ∈ H, y ası́ también podemos definir una aplicación df : H −→ M ∗ = L(M, IR), donde L(M, IR) es el conjunto de funciones en M en IR, tal que: df (X) = hgrad f, Xi. Además, dfp (X(p)) = d (f dt ◦ γ)|t=0 para alguna curva γ : I −→ M con γ(0) = p y γ ′ (0) = X(p), luego tenemos que dfp (X(p)) = n P i=1 ∂f (p) = X(f )(p), por tanto γi′ (0) ∂x i df (X) = hgrad f, Xi = X(f ). Ası́ llegamos a la siguiente definición. Definición 2.8.1 El gradiente de una función diferenciable f : M −→ IR es un campo vectorial grad f : M −→ T M metricamente equivalente a la diferencial, esto es, dfp (X(p)) = hgrad f (p), X(p)i = X(p)f, para todo X ∈ H. 42 Observación 2.8.1 Sea M ⊂ IRn una variedad riemanniana con la métrica definida por hv, wix = v T G(x)w donde G(x) es una matriz simétrica definida positiva. Se puede caracterizar el campo gradiente como: grad f (q) = G−1 (q)f ′ (q), ∂f ∂f , ..., ∂x ) es el vector donde G−1 (q) = (g ij (q)) es la matriz inversa de G(q) y f ′ = ( ∂x n 1 de derivadas parciales de la función f ◦ X . En efecto, D dfq (v) = f ′ (q)T v = f ′ (q)T (G(q)−1 )T G(q)v = (G(q)−1 f ′ (q))T G(q)v = G(q)−1 f ′ (q), v E q Ejemplo 2.8.1 Sea la variedad riemanniana IRn con la métrica euclidiana G = I, entonces grad f (x) = f ′ (x) (el gradiente usual). Ejemplo 2.8.2 Sea la variedad riemanniana IRn++ con la expresión de la métrica ! 1 1 , , ..., G(x) = diag 2 (h1 (x1 )) (hn (xn ))2 para funciones hi : IR++ −→ IR++ grad f (x) = diag(h1 (x1 ))2 , ..., (hn (xn ))2 )f ′ (x). En particular: 1. Si hi (xi ) = xi entonces: grad f (x)f (x) = X 2 f ′ (x), donde denotamos X = diag(x1 , ..., xn ). r 2. Si hi (xi ) = xi2 , r 6= 2 entonces: grad f (x)f (x) = X r f ′ (x). Ejemplo 2.8.3 Sea la variedad riemanniana C0n = (0, 1)n con la expresión de la métrica dada por G(x) = csc 4 (πx) = diag(csc 4 (x1 ), ..., csc 4 (xn )), entonces grad f (x)f (x) = sen 4 (πx)f ′ (x), donde sen(X) = diag(sen(x1 ), ..., sen(xn )). 43 . Definición 2.8.2 Sea M una variedad riemanniana y p ∈ M . Decimos que p es punto crı́tico si grad f (p) = 0. Definición 2.8.3 (Hessiana de una función). Sea f : M −→ IR una función de clase C k , k ≥ 2. La Hessiana de f , denotada por H f , es definida como la derivada covariante del campo gradiente, esto es, Hf = D (grad f ) . dt Ası́, la Hessiana en el punto p, en la dirección de v ∈ Tp M es: Hpf (v) = D (grad f ) (p) = ∇v grad f (p). dt A partir del concepto de Hessiana podemos definir las aplicaciones Hpf : Tp M −→ Tp M y H f : M −→ L(T M, T M ) donde L(T M, T M ) es el conjunto de aplicaciones lineales de T M en T M y H f (p) = Hpf ∈ L(Tp M, Tp M ). Proposición 2.8.1 Para cada p ∈ M , el operador Hpf : Tp M −→ Tp M es lineal y autoadjunto, esto es, hHpf (v), wip = hv, Hpf (w)ip . De la Proposición anterior, para cada p ∈ M podemos introducir una forma cuadrática qpf : Tp M × Tp M −→ IR definida por: qpf (v, w) = hHpf v, wip . Más generalmente, podemos definir la aplicación q f : H × H −→ L(M, IR) dada por: q f (X, Y ) = h∇X grad f, Y i. (2.13) La función definida en (2.13) tiene la desventaja de depender del conocimiento de la métrica y de la conexión, cuando sabemos que la métrica determina una conexión afin (Teorema de Levi Civita), por tanto la proposición siguiente es importante para poder obtener una caracterización adecuada. Proposición 2.8.2 Para todo X, Y ∈ H q f (X, Y ) = (XY − ∇X Y )f = (Y X − ∇Y X)f. 44 Observación 2.8.2 En un sistema de coordenadas (X , U ) en terminos de la base {Xk } tenemos: f q (Xi , Xj ) = Xi Xj − q (Xi , Xj ) = hHpf Γm ij Xm m=1 esto es: f n X ! f, ! n X ∂f ∂2f Γm . − ij ∂xi ∂xj m=1 ∂xm Xi , Xj i = (2.14) Ejemplo 2.8.4 Sea la variedad riemanniana IRn con métrica G(x) = I; como vimos anteriormente, los sı́mbolos de Christoffel son Γm ij = 0, para todo i, j, m = 1..., n, entonces la matriz Hessiana es la Hessiana usual Hpf (p) = f ′′ (p). Ejemplo 2.8.5 Sea la variedad riemanniana IRn++ con la métrica gij = δij . hi (xi )hj (xj ) Sabemos que los sı́mbolos de Christoffel son: Γm ij = −1 ∂hi (xi ) δim δij , hi (xi ) ∂xi entonces: f q (Xi Xj ) = Xi Xj + n X 1 ∂hi (xi ) δim δij Xm . ∂xi m=1 hi (xi ) Si m 6= j entonces δim δij = 0, luego se tiene: f q (Xi , Xj ) = ! ∂ 1 ∂hi (xi ) ∂2 f. + δij ∂xi ∂xj hi (xi ) ∂xi ∂xi Ası́, Hxf = q f (Xi )(Xj ) es la matriz que representa la Hessiana de la función f . Aún podemos dar una representación matricial 1 Hxf = f ′′ (x) + G(x) 2 (G(x) donde: F ′ (x) = diag G(x) = diag ∂f (x) ∂f (x) , ∂x2 , ..., ∂f∂x(x) ∂x1 n . 1 1 , , ..., (hn (x1 n ))2 (h1 (x1 ))2 (h2 (x2 ))2 2 2 . 2 ∂ f f ′′ (x) = diag( ∂∂xf2 , ∂∂xf2 , ..., ∂x 2 ). 1 2 n En particular: 45 −1 2 )′ F ′ (x), 1. Si hi (xi ) = 1 entonces Hxf = f ′′ (x) la matriz Hessiana usual. 2. Si hi (xi ) = xi entonces Hxf = f ′′ (x) + X −1 F ′ (x). r 3. Si hi (xi ) = xi2 , r 6= 2, entonces: Hxf = f ′′ (x) + 2r X −1 F ′ (x). Corolario 2.8.1 Si p ∈ M es un punto crı́tico de f y X, Y ∈ H, entonces: Hpf (X(p), Y (p)) = X(p)Y (p)f. Demostración. Hpf (X(p), Y (p)) = X(p)(Y (p)f ) − h∇X(p) Y (p), grad f (p)i, y como grad f (p) = 0, se sigue el Corolario. De este corolario, se deduce que si p ∈ M es un punto crı́tico de f entonces la matriz Hessiana de f , calculada en este punto, coincide con la matriz Hessiana usual. 2.9 Variedades completas Todos los algoritmos desarrollados en Optimización, en la perspectiva de la geometrı́a riemanniana, necesitan de la hipótesis de variedad completa, que en términos simples significa que la geodésica, contenida en ella, está definida para todos los valores de t ∈ IR. El Teorema de Hopf y Rinow de gran importancia y utilidad en las aplicaciones el cual enunciaremos porteriormente, dice: Dados dos puntos cualquiera de la variedad completa existe siempre una geodésica que minimiza la longitud de arco entre todas las curvas regulares por partes que unen tales puntos. Una pregunta natural serı́a, si se podrı́a desarrollar métodos geodésicos donde la hipótesis de variedad completa sea más suave, por ejemplo, introduzir una medida en la variedad a partir del producto interno del espacio tangente donde la geodésica esté definida en casi todos los puntos y los puntos donde la geodésica no sea definida, pertenezca a un conjunto de medida nula. Restringiendonos a las variedades completas, desarrollamos esta teorı́a de manera resumida. Definición 2.9.1 Una variedad riemanniana M es llamada (geodésicamente) completa si para todo p ∈ M , las geodésicas que parten de p estan definidas para todos los valores del parámetro t ∈ R. 46 Ejemplo 2.9.1 IRn con la métrica euclidiana G(x) = I, es (geodesicamente) completa, pues dado un punto cualquiera x ∈ M y una dirección arbitraria v ∈ Tx M , vimos que la i-ésima componente de la geodésica que cumple las condiciones iniciales αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n, es dado por: αi (t) = xi + tvi , para todo i = 1, 2, ..., n, lo que está definida para todo t ∈ IR. Ejemplo 2.9.2 IRn++ con la métrica G(x) = X −2 es (geodésicamente) completa, pues dado un punto cualquiera x ∈ M y una dirección cualquiera v ∈ Tx M , vimos que la i-ésima componente de la geodésica cumpliendo las condiciones iniciales αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n es : αi (t) = xi exp( xvii t) la cual está definido para todo t ∈ IR. Ejemplo 2.9.3 C0n = (0, 1)n con la métrica dada por: G(x) = csc 4 (πx) = diag(csc 4 (πx1 ), ..., csc 4 (πxn )) es (geodesicamente) completa pues dado un punto arbitrário x ∈ M y una dirección cualquiera v ∈ Tx M, vimos que la i-ésima componente de la geodésica cumpliendo las condiciones iniciales αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n es: αi (t) = 1 arccot −πcsc2 (πxi )vi t + cot(πxi ) , π para todo i = 1, 2..., n. En adelante consideramos que la variedad riemanniana estudiada tiene la propriedad de conexidad, esto es, para cualquier par de puntos p, q de M existe una curva diferenciable contenida en M , γ : [a, b] :→ M , tal que γ(a) = p y γ(b) = q. Definición 2.9.2 Dados dos puntos p y q en M , la distancia riemanniana de p a q en la variedad, denotada por d(x, y), es definida por d(p, q) = Inf γ Z b a kγ ′ (t)kdt (2.15) donde γ : [a, b] → M es una curva diferenciable tal que γ(a) = p y γ(b) = q. Proposición 2.9.1 Con la distancia geodésica (2.15) M es un espacio métrico. 47 Teorema 2.9.1 (Hopf-Rinow) Sea M una variedad riemanniana y sea p ∈ M . Las siguientes afirmaciones son equivalentes: a) Limitados y cerrados son compactos. b) M es completo como espacios métrico. c) M es geodesicamente completa. d) Para todo q ∈ M existe una geodésica uniendo p y q con: d(p, q) = Inf γ Z b a kγ ′ (t)kdt, esto es, el mı́nimo de (2.15) es obtenida por una geodésica. Ejemplo 2.9.4 Sea la variedad riemanniana IRn++ con expresión de la métrica G(x) = X −2 . Dados p y q en IRn++ , existe una única geodésica uniendo p a q. En efecto, sea γi (t) = pi exp( vpiit ) y αi (t) = pi exp( wpiit ) las i-ésimas componentes que satisfazen las condiciones iniciales: γi (0) = αi (0) = pi , γi (t0 ) = αi (t0 ) = qi . Se puede verificar que vi = wi para todo i = 1, ..., n. En efecto, tomando el valor t = t0 tenemos que para todo i = 1, ..., n: qi = pi exp( vpi ti0 ) = pi exp( wpiit0 ) dividiendo por pi , tomando logaritmo y multiplicando por pi /t0 tenemos vi = wi y ası́ γi (t) = αi (t) para todo t ∈ IR. Además: a). Debido a que qi = pi exp( pvii ) entonces vi = pi ln( pqii ). b). γi′ (t) γi (t) = vi pi = d(p, q) = Z entonces γi′ (t) γi (t) 0 1 ln2 ( pqii ) t0 t0 ası́: kγ ′ (t)kdt = " n X ln i=1 !#2 12 qi . pi Ejemplo 2.9.5 Sea la variedad riemanniana C0n = (0, 1) con la expresión de la métrica riemanniana G(x) = csc4 (πx). Dados p y q en C0n , existe una única geodésica que une p y q. Además tenemos: 48 a). qi = γi (t0 ) = 1 arccot (−πcsc2 (πpi )vi t0 π + ctg(πpi )) , para todo i = 1, ..., n, en- tonces vi = − b). γi′ (t) sen2 (πγi (t)) cot(πqi ) − cot(πpi ) . πt0 csc2 (πpi ) = ai = csc2 (πpi )vi . Substituyendo el valor de vi y elevando al cuadrado tenemos: γi′ (t) sen2 (πγi (t)) !2 = a2i = 1 π 2 t20 {cot(πqi ) − cot(πpi )}2 usando estos hechos tenemos: d(p, q) = Z 0 t0 ( n 1 X kγ (t)kdt = [cot(πqi ) − cot(πpi )]2 π i=1 ′ )1 2 . Teorema 2.9.2 Ley de cosenos. Sea M una variedad riemanniana completa con curvatura seccional no negativa, en un triángulo geodésico normalizado tal que γ1 , γ2 , γ3 segmento de geodésicas minimizantes. Vale la desigualdad c2 ≤ a2 + b2 − 2a b cosα (2.16) donde α = arg(γ1′ (0). − γ3′ (l3 )), a = L(γ1 ), b = L(γ3 ), c = L(γ2 ), L, longitud de geodésica 49 Capı́tulo 3 El Problema de Optimización y sus Condiciones de Optimalidad Diversos fenómemos naturales son estudiados a través de modelos matemáticos, en especial por modelos presentados por un problema de optimización el cual mostraremos más adelante. En estos modelos, es necesario garantizar inicialmente las condiciones para la existencia y caracterización de puntos óptimos, para luego desarrollar un algoritmo adecuado que resuelva algunos modelos matemáticos de optimización, en tal sentido, definimos el conjunto sobre el cual estamos trabajando, es decir conoceremos lo que és una variedad convexa y en ella estudiamos una clase particular de funciones llamadas convexas y cuasi-convexas. Para el desarrollo de este Capı́tulo, iniciamos con algunas definiciones elementales, que serán de gran utilidad al resolver un problema de optimización. Definición 3.0.3 (Mı́nimo: global, local, estricto). Sea M una variedad riemanniana completa y f : M −→ IR una función. 1. x̄ ∈ M es un mı́nimo global de f si, f (x̄) ≤ f (x), para todo x ∈ M. 2. x̄ ∈ M es un mı́nimo local de f si, existe δ > 0 tal que: f (x̄) ≤ f (x), para todo x ∈ B(x̄, δ), donde B(x̄, δ) = {x ∈ M, d(x̄, x) < δ} . 50 3. x̄ ∈ M es mı́nimo local estricto si, existe δ > 0 tal que f (x̄) < f (x), para todo x 6= x̄, x ∈ B(x̄, δ). El problema de interés será resolver el siguiente modelo: min f (x) x∈M (3.1) que significa encontrar los mı́nimos globale de una función f sobre M, y es denominado “Problema de Minimización”, sujeta generalmente a algunas restricciones sobre su dominio. El modelo (3.1) resuelve también el “Problema de Maximización”. max f (x) x∈M para ello basta definir f (x) = −g(x). 3.1 Existencia de puntos de mı́nimo global Definición 3.1.1 Una función f : M −→ IR es denominada semicontinua inferior en x̄ ∈ M, si para toda sucesión {xk } de M convergente a x̄ se tiene que: lim inf f (xk ) ≥ f (x̄). k→∞ Si f es semicontinua inferior para todo x ∈ M, entonces decimos que f es semicontinua inferior en M. El siguiente Teorema garantiza la existencia de un punto de mı́nimo global para el problema (3.1). Teorema 3.1.1 (Weierstrass) Considere el problema (3.1), si f : M −→ IR es semicontinua inferior y M es compacto, entonces existe un punto de mı́nimo global de f. Demostración. Mostraremos inicialmente que f es limitada inferiormente, esto es, existe α ∈ IR tal que: α ≤ f (x), para todo x ∈ M. 51 Por contradicción, supongamos que f no es limitada inferiormente, entonces existe una sucesión {xk } ⊂ M tal que: lim f (xk ) = −∞. k→+∞ (3.2) Dado que M es compacto, entonces existe una subsucesión {xkj } ⊂ {xk } tal que: lim xkj = xb, j→+∞ por la semicontinuidad inferior de f tenemos: lim inf f (xkj ) ≥ f (xb), j→+∞ lo que contradice a (3.2), por lo tanto f es limitada inferiormente en M. De aquı́ existe f ∗ ∈ IR tal que f ∗ = inf {f (x) : x ∈ M }. Por propiedad de ı́nfimo, existe una sucesión {xk } ⊂ M tal que: lim f (xk ) = f ∗ . k→∞ Por la compacidad de M, existe x̄ y {xkj } ⊂ {xk } tal que limj→∞ xkj = x̄ ∈ M. Nuevamente, por la semicontinuidad inferior de f lim inf f (xkj ) ≥ f (x̄). j→∞ Como {f (xk )} converge a f ∗ , la subsucesión {f (xkj )} converge a f ∗ obteniendo que f ∗ ≥ f (x̄), ası́, x̄ es un punto de mı́nimo global de f en M . 3.2 Caracterización de puntos de mı́nimo local Presentamos en esta Sección las condiciones necesarias y suficientes de optimalidad local para el problema (3.1). Teorema 3.2.1 (Condición necesaria de primer orden). Sea f : M → IR de clase C 1 . Si x∗ es un punto de mı́nimo local, entonces grad f (x∗ ) = 0. 52 Demostración. Tomemos v ∈ Tx∗ M y una curva geodésica γ : IR → M con condiciones γ(0) = x∗ y γ ′ (0) = v. Definamos la aplicación h : IR → IR tal que h(t) = f (γ(t)). Como x∗ es punto de mı́nimo local para f, entonces existe δ > 0 tal que h(0) = f (x∗ ) ≤ f (γ(0)) = h(t), para todo t ∈ (−δ, δ) lo que implica que en t = 0 tenemos un punto de mı́nimo local de h. Por la condición necesaria de primer orden en IR se tiene h′ (0) = hgrad f (x∗ ), vi = 0. Tomando en particular v = grad f (x∗ ) tenemos que grad f (x∗ ) = 0. Teorema 3.2.2 (Condición necesaria de segundo orden). Sea f : M → IR de clase C 2 . Si x∗ es punto de mı́nimo local, entonces hv, Hxf∗ vi ≥ 0, ∀ v ∈ Tx∗ M. Demostración. Sea v ∈ Tx∗ M, y γ : IR → M una geodésica con γ(0) = x∗ , γ ′ (0) = v. Definimos h : IR → IR tal que h(t) = f (γ(t)). Del Teorema 3.2.1, en t = 0 tenemos un punto de mı́nimo local de h, entonces por la condición necesaria de segundo orden: h′ (0) = 0, luego h′′ (0) ≥ 0. Veamos: h′ (t) = hgrad f (γ(t)), γ ′ (t)i h′′ (t) = = = d dt D hgrad f (γ(t)), γ ′ (t)i E D (grad f (γ(t))), γ ′ (t) dt D E f Hγ(t) γ ′ (t), γ ′ (t) D E D D E D + grad f (γ(t)), dt (γ ′ (t)) E = v, Hxf∗ v) = Hxf∗ v, v) ≥ 0. Teorema 3.2.3 (Condición suficiente de segundo orden). Sea f : M −→ IR de clase C 2 . Si x∗ ∈ M que satisface: a) grad f (x∗ ) = 0. b) Hxf∗ definida positiva. Entonces, x∗ es un punto de mı́nimo local estricto de f. 53 Demostración. Por contradicción. Supongamos que x∗ no es punto de mı́nimo local estricto, entonces existe una subsucesión {xk } ∈ B(x∗ , k1 )/{x∗ } tal que: f (x∗ ) ≥ f (xk ). (3.3) Sea la geodésica minimal γk : [0, 1] → IR tal que γk (0) = x∗ , γk (1) = xk , γk′ (0) = vk y d(x∗ .xk ) = expx∗ xk . Definimos h : IR → IR tal que h(t) = (f ◦ γk )(t) y por el desarrollo de Taylor de segundo orden de h en 0 : 1 2 ′′ θ(|t|2 ) 2 h(t) = h(0) + th (0) + t h (0) + θ(|t| ), donde, lim = 0, t→0 |t|2 2 ′ esto es, t2 f (γk (t)) = f (x ) + 2 ∗ D grad f (x∗ )vk , vk + θ(|t|2 ). dt Evaluando en t = 1 f (xk ) = f (x∗ ) + E 1D vk , Hxf∗ vk + θ(d2 (x∗ , xk )) 2 (3.4) θ(d2 (x∗ , xk ) = 0. d→0 d2 (x∗ , xk ) Definamos z k = kvvkk k , la sucesión {z n } es limitada, entonces existe una subsucesión donde: lim {z kj } ⊂ {z k } tal que {z kj } → z̄. Substituyendo en (3.4) k por kj , tenemos: f (xkj ) = f (x∗ ) + E 1D vkj , Hxf∗ vkj + θ(d2 (x∗ , xkj )) 2 (3.5) θ(d2 (x∗ , xkj ) = 0. d→0 d2 (x∗ , xkj ) De la relación (3.3) y tomando lı́mite en (3.5) cuando j → ∞, obtenemos: donde: lim E D 0 ≥ z̄, Hxf∗ z̄ , lo que contradice la hipótesis b) del Teorema 3.2.3. Por tanto, x∗ es un punto de mı́nimo local estricto. 3.3 Elementos del análisis convexo La teorı́a del análisis convexo en variedades riemannianas fueron estudiadas por RAPCSÁK (1997), [21] y UDRISTE (1997), [24]. Rapsáck considera una variedad 54 diferenciable con métrica induzida de IRn , obteniendo caracterizaciones de primer y segundo orden. UDRISTE consideró el estudio sobre una variedad riemanniana abstracta generalizando (independientemente) la teorı́a de convexidad. A partir de estos trabajos el estudio del análisis convexo con aplicación a la teorı́a de Optimización se ha profundizado, vease por ejemplo da CRUZ NETO y OLIVEIRA (1995),[5], FERREIRA y OLIVEIRA (1998), [10] quienes consideran en sus estudios, una variedad riemanniana completa con curvatura seccional no negativa, bajo esta misma perspectiva, desarrollamos básicamente el análisis convexo sobre una variedad riemanniana. En esta Sección damos algunas nociones de los elementos del análisis convexo y con esta misma perspectiva definimos funciones convexas y cuasi-convexas en una variedad riemanniana. 3.3.1 Convexidad en una variedad riemanniana Existen diversos puntos de vista en la geometrı́a riemannianna para generalizar el concepto de convexidad de IRn , los más importantes son los que presentamos en las siguientes definiciones. Definición 3.3.1 Sea M una variedad riemanniana completa, se dice que A ⊂ M es totalmente convexo, si para cualquier par de puntos p y q de A (no necesariamente distintos), las geodésicas que unen dichos puntos, estan integramente contenidos en A. Ejemplo 3.3.1 Si M = IRn con la métrica identidad G(x) = I, cualquier conjunto convexo en el sentido clásico es totalmente convexo. Ejemplo 3.3.2 Si p ∈ M y existe una relación geodésica no trivial en p, es decir una geodésica: γ : [a, b] −→ M tal que γ(a) = p = γ(b) con γ(t) 6= p para algun t ∈ [0, 1], entonces el conjunto A = {p} no es totalmente convexo. Se deduce de esto que en general conjuntos unitarios no son totalmente convexos. Definición 3.3.2 Decimos que A ⊂ M es convexo si para todo par de puntos p y q de A existe una geodésica minimal que une p y q contenido en A. 55 Ejemplo 3.3.3 El propio M y los conjuntos unitarios son conjuntos convexos. Definición 3.3.3 f : M −→ IR es llamada función convexa si su restricción a cualquier geodésica de M es una función convexa en IR, es decir, si γ : IR −→ M es una geodésica entonces: f ◦ γ : IR −→ IR es convexa. Teorema 3.3.1 f : M −→ R es convexa si, y solamente si, para todo segmento de geodésica γ : [a, b] −→ M y para cualquier λ ∈ [0, 1] se verifica f (γ((1 − λ)a + λb)) ≤ (1 − λ)f (γ(a)) + λf (γ(b)). Demostración. Siendo f convexa, demostraremos que: f (γ((1 − λ)a + λb)) ≤ (1 − λ)f (γ(a)) + λf (γ(b)) (3.6) Sea h : IR −→ IR tal que h(t) = f (γ(t)). Para a, b ∈ [a, b] y λ ∈ [0, 1] se tiene h((1 − λ)a + λb) ≤ (1 − λ)h(a) + λh(b). De aquı́ se tiene (3.6). Reciprocamente, sea t = (1 − λ)a + λb con λ ∈ [0, 1] entonces: f ◦ γ(t) = f (γ((1 − λ)a + λb)) ≤ f (γ((1 − λ)a) + f (γ(λb) = (1 − λ)f (γ(a)) + λf (γ(b)) ≤ (1 − λ)f ◦ γ(a) + λf ◦ γ(b). Observación 3.3.1 La Definición 3.3.3 es la generalización natural de la definición clásica de función convexa em M = IRn con la métrica usual. En efecto, dados p y q la geodésica γ : [0, 1] −→ M, que los une es: γ(λ) = p + λ(q − p) = (1 − λ)p + λq. Luego, del Teorema 3.3.1 tenemos: f (γ(λ)) = f ((1 − λ)p + λq) ≤ (1 − λ)f (p) + λf (q) 56 f ((1 − λ)p + λq) = f (γ(λ)) = f ((1 − λ)(0) + λ(1)) ≤ (1 − λ)f (γ(0)) + λf (γ(1)) = (1 − λ)f (p) + λf (p). Para α ∈ IR, definimos el conjunto de nivel M α = {x ∈ M ; f (x) ≤ α}. Teorema 3.3.2 Si f : M −→ IR es convexa, entonces M α es totalmente convexo. Demostración. Sea p, q ∈ M α y la geodésica γ : [a, b] −→ M tal que γ(a) = p y γ(b) = q. Probaremos que γ(t) ∈ M α , para todo t ∈ [a, b]. En efecto, sea t = (1 − λ)a + λb para algun λ ∈ [0, 1], como f es convexa y por el Teorema 3.3.1 se tiene f (γ(t)) = f (γ(1 − λ)a + λb) ≤ (1 − λ)f (γ(a)) + λf (γ(b)) = (1 − λ)f (p) + λf (q) ≤ (1 − λ)α + λα = α. Ası́ f (γ(t)) ≤ α, por tanto γ(t) ∈ M α . Teorema 3.3.3 f : M −→ IR, es convexa en p si y solo si, para cualquier geodésica γ : IR −→ M con γ(0) = p vale la desigualdad f (γ(t)) − f (p) ≥ t hgrad f (p), γ ′ (0)i . (3.7) Demostración. Definimos una aplicación h : IR −→ IR tal que h(t) = f (γ(t)), h es convexa en 0 desde que f es convexa en p y ası́ se tiene: h(t) − h(0) ≥ th′ (0), luego, f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i . Reciprocamente, si f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i , esto es, h(t) − h(0) ≥ th′ (0), entonces h es convexa en 0 y por tanto f es convexa en p. 57 Teorema 3.3.4 Si f : M −→ IR es convexa, entonces todo punto crı́tico de f es un punto de mı́nimo global de f. Demostración. Sea x ∈ M, debido al Teorema de Hopf-Rinow consideramos una geodésica γ : IR −→ M tal que γ(0) = x y γ(b) = y, como f es convexa y del Teorema 3.3.3: f (γ(b)) − f (γ(0)) ≥ b hgrad f (γ(0)), γ ′ (0)i , esto es, f (γ(b)) − f (x) ≥ b hgrad f (x), γ ′ (0)i . Como grad f (x) = 0 entonces f (y) ≥ f (x), para todo y ∈ M. Por tanto x es punto de mı́nimo global de f. Teorema 3.3.5 Sea f : M −→ IR de clase C 2 , f es convexa si, y solamente si, para todo p ∈ M la Hesiana de f en p Hpf : Tp M −→ Tp M, es semidefnida positiva. Demostración. Sea v ∈ Tp M y p ∈ M y la geodésica γ : IR −→ M tal que γ(0) = p y γ ′ (0) = v. Definiendo h : IR −→ IR tal que h(t) = f (γ(t)) sabemos que h es convexa y de clase C 2 . Del análisis convexo clásico, tenemos que esto es equivalente a h′′ (t) ≥ 0, se tiene h′ (t) = hgrad f (γ(t)), γ ′ (t)i y D E h′′ (0) = v, Hpf v ≥ 0. Reciprocamente, si D E v, Hpf v ≥ 0, entonces f es convexo. En efecto, definiendo h : IR −→ IR convexa, entonces se tiene h = f ◦ γ es convexa. 58 3.3.2 Funciones cuasi-convexas y pseudoconvexas Definición 3.3.4 Sea M una variedad riemanniana completa y f : M −→ IR una función real. f es llamada cuasi-convexa en M si para todo x, y ∈ M , t ∈ [0, 1], se cumple: f (γ(t)) ≤ max{f (x), f (y)}, para toda curva geodésica γ : [0, 1] −→ M , tal que γ(0) = x y γ(1) = y. Teorema 3.3.6 Sea f : M → IR una función diferenciable y cuasi-convexa en una variedad riemanniana completa M y sea x, y ∈ M . Si f (x) ≤ f (y) entonces: hgrad f (y), γ ′ (0)i ≤ 0, donde grad f es el gradiente de f y γ es la curva geodésica tal que γ(0) = y y γ(1) = x. Demostración. Sea la geodésica γ : [0, 1] −→ M tal que γ(0) = y y γ(1) = x. Definimos h : IR −→ IR tal que h(t) = f ◦ γ(t), usando la aproximación de Taylor de primer orden de h en t = 0 tenemos: h(t) = h(0) + th′ (0) + θ(t), θ(t) . Entonces tenemos: t→0 t donde: lim f (γ(t)) = f (γ(0)) + t hgrad f (γ(0)), γ ′ (0)i + θ(| t|), como f es cuasi-convexa y f (x) ≤ f (y) tenemos: t hgrad f (y), γ ′ (0)i , dividiendo por t y tomando lı́mite cuando t → 0 se tiene hgrad f (y), γ ′ (0)i ≤ 0. Definición 3.3.5 Una función diferenciable f : M → IR es pseudoconvexa si, para todo par de puntos distintos x, y ∈ M y toda curva geodésica que une x a y (γ(0) = x y γ(1) = y) tenemos: hgrad f (x), γ ′ (0)i ≥ 0, entonces f (y) ≥ f (x). 59 Teorema 3.3.7 Sea f : M −→ IR una función diferenciable y pseudoconvexa. Entonces, x∗ es un mı́nimo global de f si, solamente si, grad f (x∗ ) = 0. Demostración. Sea la geodésica γ : IR+ → M tal que γ(0) = x∗ y definimos h : IR → IR con h = f ◦ γ. Por el desarrollo de Taylor de primer orden de h en 0, h(t) = h(0) + th′ (0) + θ(| t|), donde lim t→∞ θ(|t|) = 0, entonces tenemos: |t| f (γ(t)) = f (x∗ ) + t hgrad f (x∗ ), γ ′ (0)i + θ(| t|). Como x∗ es mı́nimo global entonces f (x∗ ) ≤ f (y), en particular para y = γ(t) entonces, f (y) − f (x∗ ) = t hgrad f (x∗ ), γ ′ (0)i + θ(| t|), luego, t hgrad f (x∗ ), γ ′ (0)i + θ(| t|) ≥ 0, que en el lı́mite cuando t → 0, hgrad f (x∗ ), γ ′ (0)i ≥ 0, finalmente tomando γ ′ (0) = −grad f (x∗ ), se tiene grad f (x∗ ) = 0. El recı́proco es inmediato basta usar la definición de f ser pseudoconvexa. 60 Capı́tulo 4 Método del Máximo Descenso En este último capı́tulo estudiaremos el método de máximo descenso llamado también método del gradiente, buscaremos extender la convergencia global del método utilizando la regla de Armijo generalizado. Para este fin vamos a considerar el problema de Optimización no lineal min f (x) x∈M (4.1) donde, f : IRn → IR es una función de clase C 1 y M una variedad riemanniana completa. El método del máximo descenso genera una sucesión de puntos {xk } dados por: x0 ∈ M, (4.2) xk+1 = expxk (−tk grad f (xk )) (4.3) donde expxk es una aplicación exponencial en el punto xk , tk es un parámetro positivo, −grad f (x) es el gradiente de f . En el caso de tener M = IRn (el espacio euclidiano) tenemos que (4.3) es equivalente a: xk+1 = xk − tk ∇f (xk ). Ası́, el método de máximo descenso en variedades riemannianas generaliza el método clásico de máximo descenso en IRn , véase idealmente sobre una superficie de IR3 un esquema del funcionamiento iterativo del método del gradiente generalizado: 61 Txk M expxk α(0) = xk −grad f (xk ) xk+1 M α(t) Figura 4. Esquema del proceso iterativo del método de máximo descenso sobre una variedad M . Existen diferentes maneras de escoger el parámetro tk generando consecuentemente diversos submétodos los cuales para su aplicación, dependerá exclusivamente de su complejidad computacional, reglas que mostramos a seguir. Método A: Gradiente con búsqueda exacta 1. Dado xk , calcule el grad f (xk ) sobre el plano tangente Txk M. 2. Determine la geodésica γ(t), t ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) = −grad f (xk ). 3. Minimize f (γ(t)), t ≥ 0, obteniendo tk y defina: xk+1 = γ(tk ). Método B: Gradiente con Regla de Armijo 1. Dado xk , calcule el grad f (xk ) en Txk M. 2. Determine la geodésica γ(t), t ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) = −grad f (xk ). 3. Hacer: tk := 2−ik , donde ik es el menor entero positivo tal que: y α ∈ (0, 21 ). 2 f (γ(tk )) ≤ f (xk ) − αtk grad f (xk ) 62 Definición 4.0.6 Una función f : M −→ IR es llamada gradiente Lipschitziana con constante Γ si para todo p, q ∈ M y γ : [0, a] −→ M la geodésica con γ(0) = p y γ(a) = q se verifica: grad f (γ(t)) − Pγ(t) grad f (p) ≤ ΓL(t), para todo t ∈ [0, a], donde Pγ(t) es el transporte paralelo de γ(0) = p a γ(t). Método C: Gradiente con Pasos fijos 1. Dado xk calcule el grad f (xk ) en Txk M. 2. Determine la geodésica γ(tk ), tk ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) = −grad f (xk ) 3. Dados δ1 > 0 y δ2 > 0 tales que, δ1 Γ + δ2 > 1, donde Γ es la constante de Lipschitz asociada al campo gradiente de f, escoger 2 tk ∈ (δ1 , (1 − δ2 )). Γ Estamos interesados en resolver el siguiente problema de optimización: (p) min f (x) x∈M donde M es una variedad riemanniana conexa, completa de dimensión finita y f : M → IR es una función continuamente diferenciable y cuasi-convexa. Hipótesis A1. El conjunto de puntos óptimos globales del problema (p), denotado por X ∗ , es no vacio. Denotamos el valor óptimo de (p) por f ∗ . Ahora, definamos el siguiente conjunto U := {x ∈ M : f (x) ≤ inf f (xk )}. k El siguiente Lema es un resultado de gran interés el cual será usado para probar que la sucesión, generada el método de máximo descenso es cuasi-Fejér convergente a U. 63 Lema 4.0.8 Sea f : M → IR una función continuamente diferenciable y cuasiconvexa en una variedad riemanniana conexa, completa y de dimensión finita con curvatura seccional no negativa, entonces d2 (xk+1 , x) ≤ d2 (xk , x) + t2k ||grad f (xk )||2 , para todo x ∈ U y todo tk > 0. Demostración. Sea x ∈ U arbitrário. Sea también γ1 : [0, l1 ] → M la geodésica minimal que une xk y x con γ(0) = xk , kγ ′ (0)k = 1 y γ2 : [0, 1] → M una geodésica que une xk y xk+1 , esto es γ2 (0) = xk , γ2 (1) = xk+1 con γ2′ (0) = −tk grad f (xk ). Por propiedad de homogeneidad de las geodésicas, γ2 es reparametrizada tal que: γ2 : [0, tk ||grad f (xk )||] → M, tal que γ2 (tk ||grad f (xk )||) = xk+1 y ahora tenemos kγ2′ (0)k = 1. Del Teorema 2.9.2 tenemos: D E d2 (xk+1 , x) ≤ d2 (xk , x) + t2k ||grad f (xk )||2 + 2tk d(xk , x) grad f (xk ), γ1′ (0) . Como f es cuasi-convexa y f (x) ≤ f (xk ), del Teorema 3.3.6 obtenemos que: D E grad f (xk ), γ1′ (0) ≤ 0. Usando este resultado en la desigualdad anterior obtenemos el resultado deseado. 4.1 Método con búsqueda de Armijo generalizado LARRY ARMIJO (1966),[2], publicó su trabajo: “Minimization of functions having lipschitz continuous firts partial derivatives”, en el que demuestra la convergencia del método del gradiente, a partir de entonces sus resultados son utilizados convenientemente en la búsqueda de mejoras o extensiones teóricas computacionales. Para nuestro objetivo, desarrollamos el método del gradiente sobre variedades riemannianas utilizando la regla de Armijo generalizado. 64 En esta Sección probamos la convergencia global de este método para el caso cuasiconvexo. Estos resultados son una generalización de KIWIEL y MURTY (1996), [14], para variedades riemannianas y extiende resultados previos de convergencia obtenidos hasta este momento, para el caso convexo por BURACHIK et al. (1995), [4] y CRUZ NETO et al. (1999), [6]. El método del máximo descenso con regla de Armijo genera una sucesión de puntos {xk } dados por (4.2)-(4.3) donde se satisfacen las siguientes hipótesis: Hipótesis A2. Sea φ : IR+ −→ IR+ una función tal que: A2.1 Existe α ∈ (0, 1), τα > 0, tal que ∀t ∈ (0, τα ] : φ(t) ≤ αt, A2.2 Existe β > 0, τβ ∈ (0, +∞], tal que ∀t ∈ (0, τβ ) ∩ IR: φ(t) ≥ βt2 , A2.3 Para todo k, f (xk+1 ) ≤ f (xk ) − φ(tk )||grad f (xk )||2 y 0 < tk ≤ τβ en (4.3), A2.4 Existe γ > 1, τγ > 0, tal que ∀k : tk ≥ τγ o h i existe t̄k ∈ [tk , γtk ] : f (expxk (−t̄k grad f (xk ))) ≥ f (xk ) − φ(t̄k )||grad f (xk )||2 . Observación 4.1.1 Observemos que la hipótesis A2 es satisfecha por la regla de Armijo para estos valores: φ(t) = αt, β = α, γ = 2 y τα = τβ = τγ = 1. Observación 4.1.2 La hipótesis A2 tambiém es satisfecha por el método del gradiente con pasos fijos introduzida en BURACHIK et al. (1995), [4], y generalizada para variedades riemannianas por CRUZ NETO,LIMA y OLIVEIRA, [6]. En efecto, en las referencias mencionadas la regla para obtener tk es la siguiente: Dados δ1 y δ2 tal que δ1 Γ + δ2 < 1, donde Γ es la constante de Lipschitz asociada al grad f, escoger 2 tk ∈ δ1 , (1 − δ2 ) . Γ Definiendo φ(t) = βt2 , con β = Γδ2 , 2(1−δ2 ) τγ = δ1 , τβ = (2/Γ)(1 − δ2 ), α ∈ (0, 1) arbitrario y τα = α/β, garantizamos la hipótesis A2. Proposición 4.1.1 Sea f : M → IR una función continuamente diferenciable y cuasi-convexa. Suponga que las hipótesis A1 y A2 son satisfechas. Entonces la 65 sucesión {xk } generada por el método del gradiente con regla de Armijo generalizada es cuasi-Fejér convergente a U. Demostración. De las hipótesis A2.2 y A2.3 tenemos βt2k ||grad f (xk )||2 ≤ f (xk ) − f (xk+1 ). Esto implica que +∞ X k=0 t2k ||grad f (xk )||2 ≤ (4.4) f (x0 ) − f ∗ < +∞. β Del Lema 4.0.8 y la Definición 1.2.8 tenemos el resultado. Teorema 4.1.1 Sea f : M → IR una función continuamente diferenciable y cuasiconvexa. Suponga que las hipótesis A1 y A2 son satisfechas. Entonces la sucesión {xk } generada por el método del gradiente con regla de Armijo generalizado converge. Además, converge para un punto estacionário (un punto x̄ tal que grad f (x̄) = 0). Demostración. De la Proposición 4.1.1, {xk } es cuasi-Fejér convergente en U, por tanto {xk } es limitado por el Teorema 1.2.1. Entonces existen x̄ y una subsucesión {xkj } de {xk } que converge para x̄. De la continuidad de f obtenemos: lim f (xkj ) = f (x̄). j→+∞ Debido a que {f (xk )} es una sucesión no creciente, ver (4.4), con una subsucesión que converge para f (x̄), toda la sucesión converge para f (x̄) y ası́ f (x̄) ≤ f (xk ), para todo k ∈ IN . Esto implica que x̄ ∈ U. Ahora, del Teorema 1.2.1, concluimos que {xk } converge para x̄. Finalmente, probaremos que grad f (x̄) = 0. Por contradicción, supongamos que grad f (x̄) 6= 0. Claramente, tenemos que grad f (xk ) → grad f (x̄) 6= 0 y f (xk ) → f (x̄). Ahora, de (4.4), se cumple que lim tk = 0. k→+∞ (4.5) Por otro lado, usando A2.4 y A2.1, tenemos, para k suficientemente grande, f (expxk (−t̄k grad f (xk ))) − f (xk ) ≥ −αt̄k ||grad f (xk )||2 . 66 (4.6) Además, del teorema del valor medio, para cada k, existe t∗k ∈ [0, t̄k ] tal que −h grad f (expxk (−t∗k grad f (xk ))), Pγk ,0,t∗k grad f (xk )i ≥ −α||grad f (xk )||2 , donde Pγk ,0,t∗k es el transporte paralelo a lo largo de la geodésica γk tal que γk (0) = xk y γk′ (0) = −grad f (xk ). Ahora, (4.5) y A2.4 implican que limk→+∞ t∗k = 0. Haciendo k → +∞ en la desigualdad anterior y tomando en cuenta la continuidad de grad f , exp y el transporte paralelo, tenemos que 1 ≤ α, lo que contradice A2.1. Por tanto, grad f (x̄) = 0. Como consecuencia inmediata del teorema anterior y del Teorema 3.3.7 tenemos el siguiente resultado. Corolario 4.1.1 Sea f : M → IR una función continuamente diferenciable y pseudoconvexa. Entonces, con las hipótesis A1 y A2, la sucesión {xk } converge para un punto de mı́nimo global del problema (p). 4.2 Método com uma regularización proximal Sea {λk } una sucesión de números reales tal que λ′ ≤ λk ≤ λ′′ , donde 0 < λ′ ≤ λ′′ . El método de máximo descenso con una regularización proximal genera una sucesión {xk } definida por (4.2) y (4.3) donde tk = arg min{f (expxk (−tgradf (xk ))) + t2 λk ||gradf (xk )||2 : t ≥ 0}. (4.7) Este método fue introducido por IUSEM y SVAITER (1995), [13], para resolver problemas de optimización convexa em espacios euclidianos y luego generalizado para variedades riemannianas en Cruz Neto et al. (1999), [7]. En esta Sección extendemos los resultados de convergencia global de estos trabajos para el caso cuasi-convexo. Proposición 4.2.1 Sea f : M → IR una función continuamente diferenciable y cuasi-convexa. Supongamos que la hipótesis A1 es satisfecha. Entonces, la sucesión {xk }, generada por (4.2),(4.3) y (4.7), es Cuasi-Fejér convergente al conjunto U. 67 Demonstración. De (4.3) y (4.7) : f (xk+1 ) + t2k λk ||gradf (xk )||2 ≤ f (xk ). (4.8) De aqui, es fácil verificar que +∞ X k=0 t2k ||gradf (xk )||2 ≤ (1/λ′ )(f (x0 ) − f ∗ ) < +∞. Del Lema 4.0.8 y la Definición 1.2.8, obtenemos el resultado deseado. Teorema 4.2.1 Seja f : M → IR uma función continuamente diferenciable y cuasiconvexa. Supongase que la hipótesis A1 es satisfecha. Entonces, la sucesión {xk }, generada por (4.2),(4.3) e (4.7), converge a un punto estacionario. Demonstración. De (4.8) tenemos que {f (xk )} es una sucesión no cresciente. Usando los mesmos argumentos da demonstración del Teorema 4.1.1, podemos mostar que {xk } converge a un punto x∗ ∈ U. Finalmente, tenemos gradf (x∗ ) = 0, como una aplicación del Teorema 4.1, iiii, en [7], donde esto fue probado para una función arbitrária. Similar al Corolário 4.1.1 tenemos el siguiente resultado Corolario 4.2.1 Sea f : M → IR una función continuamente diferenciable y pseudoconvexa. Entonces, con la hipótesis A1, la sucesión {xk } converge a un punto de mı́nimo global de (p). Ejemplo 4.2.1 Sea la función f (x1 , x2 ) = (lnx1 )2 + (lnx2 )2 . cuya simulación se ve en las figuras 5, 6 y 7 a escala multiplicada por 10. −1000 −1500 −2000 −2500 −3000 0 −3500 0 50 50 100 100 150 68 150 Figura 5. Gráfico de la función f . Figura 6. Gráfico de la función f después de una rotación. 1500 1000 500 0 −500 0 50 100 150 50 0 100 Figura 7. Vista frontal del gráfico de f 69 150 Esta función f es claramente no convexa en IR2 con la métrica usual, sin embargo al hacer uso de la métrica G(p) = diag (1/(pi )2 ) con i = 1, 2., la función en cuestión se transforma en convexa sobre la variedad IR2++ , dado que su Hessiano es semidefinida positiva, a saber, Hxf = Su ecuación geodésica es 2 x1 0 0 . 2 x2 vi t γ(t) = pi exp pi , i = 1, 2 y las iteraciones del método de máximo descenso son: xk+1 i = xki exp ∂f (xk ) tk xki ∂xi 70 ! , i = 1, 2. Materiales y Métodos 1. El Universo: optimización sobre variedades riemannianas. 2. Técnicas de recopilación de datos: búsqueda de trabajos relacionados en revistas publicadas, uso de bibliotecas y hemerotecas especializadas como también viajes a centros de investigación en el extranjero (Brasil, Colombia y Argentina). 3. Técnicas estadı́sticas: no se usaron. 4. Técnicas descriptivas para la contrastación o demostración de las hipótesis: La metodologı́a usada en el desarrollo de este trabajo fue un enfoque de tipo inductivo-deductivo de las definiciones, teoremas y corolarios, como también de los resultados de recientes investigaciones. Luego se realizó un estudio minucioso y exhaustivo de cada material obtenido, con la finalidad de adaptarlo a nuestro enfoque y que nos llevó a la obtención de los resultados planteados en los objetivos de la investigación. Para realizar las pruebas computacionales hemos utilizado el lenguaje de programación C++ y un computador con sistema operativo Windows XP. Además, hemos usado el software Latex para la digitación del informe final. 71 Resultados Presentamos un método de optimización usando elementos de geometria riemanniana que supera algunas desventajas de los métodos proyectivos de optimización. Esta ventaja consiste en considerar el conjunto de restricciones del problema de optimización como una variedad riemanniana y ası́ transformar el problema restricto como un problema sin restricciones del punto de vista de la geometria de Riemann. Luego utilizar el método de máximo descenso en variedades riemannianas para obtener el óptimo del problema. Este método permite resolver el problema original sin realizar proyecciones en cada iteración reduciendo ası́ el costo computacional de los métodos proyectivos de optimización. Los resultados de convergencia del método propuesto son obtenidos para la clase de funciones cuasi-convexas diferenciables en la variedad riemanniana, de esta manera nuestro método resuelve problemas de optimización con funciones objetivo no convexas que se pueden transformar en cuasi-convexas en la variedad riemanniana. Presentamos también los elementos básicos de geometrı́a riemanniana de manera sencilla y natural con ejemplos orientados a la Optimización, de tal manera que sean entendidos por lectores con conocimiento elemental de análisis y geometrı́a diferencial. Introducimos nuevas métricas riemannianas para algunas variedades diferenciables útiles en problema de optimización. En particular, mediante la introduccón de una métrica diagonal riemanniana sobre el ortante positivo IRn++ damos caracterizaciones para el gradiente y Hessiana de una función en esta variedad. Luego, obtenemos condiciones para que funciones no convexas en el sentido usual se transformen en convexas en la variedad riemanniana IRn++ con dicha métrica. Debemos resaltar que la hipótesis del proyecto de investigación se han cumplido. 72 Discusión El presente trabajo recubre los resultados de convergencia del método del máximo descenso en variedades riemannianas que fueron obtenidos para el caso convexo por da CRUZ NETO, LIMA y OLIVEIRA (1999), [6]. Debemos observar que la hipótesis de curvatura no negativa es esencial para obtener la convergencia global del método a un punto crı́tico para funciones cuasiconvexas continuamente diferenciables. Ası́, para espacios donde la curvatura es negativa, como por ejemplo los espacios de Lobachevsky, no sabemos si nuestro algoritmo converge o no (globalmente). Esto nos lleva a formular la siguiente interrogante: ¿Podrá obtenerse la convergencia global del método sin usar hipótesis sobre la curvatura de la variedad riemanniana? 73 Bibliografı́a [1] ALEKSANDROV, ALEKSANDR DANILOVICH., KOLMOGOROV, ANDRÉI. and LAURENTIEV M. A. La Matemática: su contenido, métodos y significado, Madrid: Edit. Alianza Universidad, First Edition, 1981. [2] ARMIJO, L. Minimization of functions having lipschitz continuous firts partial derivates. Pacific Journal of Mathematics, 1966, Vol. 16 No. 1, pp. 1-3. [3] BOOTHBY, WILLIAM. An Introduction to differentiable manifold and riemannian geometry, Orlando, Florida USA: Edit. Adacemic Press, First Edition, 1986. [4] BURACHIK, R.S, GRAÑA DRUMOND, L M., IUSEM, A.N., and SVAITER, B. Full convergence of the steepest descent method with inexact line searches. Optimization, 1995, Vol. 32, pp. 137-145. [5] da CRUZ NETO, J.X and OLIVEIRA, P.R. Geodesic methods in riemannian manifolds. Systems Engineering and Computer Sciences PESC/COPPE, 1995, Technical Report ES-352/95, pp. 1-20. [6] da CRUZ NETO, J.X., de LIMA, L.L., OLIVEIRA, P.R. Geodesic algorithms in riemannian geometry. Balkan Journal of Geometry and its Aplications BJGA, 1998, Vol. 32 n. 2, pp. 89-100. [7] da CRUZ NETO, J.X., FERREIRA, O.P., LUCAMBIO PEREZ, L. A proximal regularization of the steepest descent method in Riemannian manifolds. Balkan Journal of Geometry and its Aplications BJGA, 1999, Vol. 4 n. 2, pp.118. 74 [8] do CARMO, MANFREDO PERDIGAO. Geometria Diferencial de Curvas e Superficies, Rio de Janeiro: Sociedad Brasilera de Matemática, terceira edição, 2005. [9] do CARMO, MANFREDO PERDIGAO., Geometria Riemanniana, Rio de Janeiro: IMPA-Projeto Euclides, segunda edição, 1988. [10] FERREIRA, O.P. and OLIVEIRA, P.R. Subgradient algorithm on riemannian manifold. Journal of Optimization Theory and Applications, 1998, Vol 97 n.1, pp. 93-104. [11] GABAY, D., Minimizing a differentiable function over a differentiable manifold. Journal of Optimization Theory and Aplication, 1982, Vol 37, pp. 177-219. [12] HICKS, NOEL. Notes on differential geometry, Michigan: Van Nostrand Reinhold Company The University of Michigan-USA, first edition, 1966. [13] IUSEM, A.N. and SVAITER, B.F. A proximal regularization of the steepest descent method. RAIRO Operations Reseach , 1995, Vol 29 n. 2, pp. 123-130. [14] KIWIEL, est K.C. descent and method MURTY, for K. Convergence minimization of the steep- quasiconvex functions. 1996, Vol 89 n.1, JOTA Journal of Optimization Theory and Applications, pp. 221-223. [15] LAGES, LIMA ELON. Introducao às variedades diferenciáveis, Rio de Janeiro: EMMA Porto Alegre, primeira edição, 1960. [16] LAGES, LIMA ELON. Variedades diferenciáveis, Rio de Janeiro: IMPA, primeira edição, 1973. [17] LUENBERGER, DAVID. The gradient projection method along geodesics, Management Science, 1972, Vol 18 n. 1, pp. 620-631. [18] LUENBERGER, D.G. Introduction to linear and nonlinear programming, Massachusetts:Addison-Wesley, second edition, 1973. 75 [19] OLIVEIRA, P.R. and da CRUZ NETO, J. X. Elementos de geometria riemanniana. Systems Engineering and Computer Sciences PESC/COPPE, 1995, Technical Report ES-351/95, pp. 1-20. [20] PAPA QUIROZ E. A., QUISPE E. M. and OLIVEIRA P. R. Steepest descent method with a generalized Armijo search for quasiconvex functions on riemannian manifolds. Journal of Mathematics Analysis and Applications, 2008, Vol 341, pp. 467-477. [21] RAPCSÁK, TÁMAS. Smooth nonlinear optimization in IRn , New York: Academic Publishers Kluwer USA, first edition, 1997. [22] SAKAI, TAKASHI. Riemannian Geometry, New York: American Mathematical Society, Providence, RI, 1996. [23] SMITH, S.T. Optimization techniques on riemannian Fields Institute Communications, AMS, Providence, RI, 1994, manifolds. Vol 3, pp. 113-146. [24] UDRISTE, CONSTANTIN. Convex functions and optimization methods on riemannian manifolds, New York: Academic Publishers, Kluwer USA., 1997. 76 Apéndice En esta sección damos algunos experimentos numéricos para resolver problemas con funciones cuasi-convexas sobre el hipercubo unitário, esto es, min{f (x) : 0 ≤ x ≤ e} (4.9) donde f es una función cuasi-convexa, x = (x1 , x2 , ..., xn ) es la variable del problema y e = (1, ...1) ∈ IRn . Tomando la variedad riemanniana completa y conexa ((0, 1)n , X −2 (I − X)−2 ), el algoritmo de máximo descenso con búsqueda de Armijo se expresa como: 1. Dado el punto xk = (xk1 , xk2 , ..., xkn ) ∈ (0, 1)n , k ≥ 0, calcular xk+1 dado por xk+1 i ( ∂f (xk ) 1 xki 1 1 tk + ln 1 + tanh − xki (1 − xki ) = 2 2 ∂xi 2 1 − xki !) , i = 1, 2, ..., n, donde tk = 2−ik and ik es el menor número natural tal que: f (xk+1 ) ≤ f (xk ) − αtk kdk k2 , donde dk = −Xk2 (I − Xk )2 ∇f (xk ) es el gradiente de f con respecto a la métrica Xk−2 (I − Xk )−2 , Xk = diag(xk1 , xk2 , ..., xkn ), ∇f (xk ) es el gradiente clásico de f y α ∈ (0, 1) es dado. 2. Como critério de parada calculamos la distancia geodésica entre los puntos xk y xk+1 , como: " n X d(xk , xk+1 ) = i=1 xk+1 i ln 1 − xk+1 i ! xki − ln 1 − xki !#2 12 3. Critério de parada: si ||d(xk , xk+1 )|| < ǫ, parar. Caso contrario, hacer xk ← xk+1 y volver al paso 1. 77 En todo el experimento numérico generamos la función cuasi-convexa f usando la regla de composición f (x) = h(g(x)) donde g(x) = − log (x1 (1 − x1 )x2 (1 − x2 )) es una función convexa sobre la variedad ((0, 1)n , X −2 (I − X)−2 ) y h : IR → IR es elegido como una función no decresciente no convexa. Implementamos nuestro código en C ++ y todos los tests fueron realizados en una computadora Pentium 866MHz con Windows XP. Para la implementación usamos el error ǫ = 0.000001 y α = 0.9. En la tablas presentadas, X0 denota el punto inicial del algoritmo, Iter. denota el número de iteraciones, Call. Armijo denota el número de tests de Armijo, Opt. Point denota la aproximación del punto óptimo, Opt. Value denota la aproximación del valor óptimo y finalmente, Riem. Distance denota la distancia riemanniana entre dos iteracioness consecutivas. Como veremos en los experimentos numéricos el método se ve promisorio en las aplicaciones. Experimento 1. Sea h(t) = √ t entonces f (x) = q − log (x1 (1 − x1 )x2 (1 − x2 )). Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto √ mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = 2 log 2 = 1.665109222. Table 4.1: X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance (0.45, 0.51) 65 65 (0.499999,0.5) 1.66511 9.27003e-007 (0.4,0.6) 71 71 (0.499999,0.500001) 1.66511 9.93398e-007 (0.1,0.9) 85 85 (0.499999,0.500001) 1.66511 8.92053e-007 (0.2,0.3) 79 79 (0.499999, 0.499999) 1.66511 8.79813e-007 (0.7,0.6) 75 75 ( 0.500001,0.500001) 1.66511 8.82938e-007 78 Experimento 2. Sea h(t) = log(1 + t), entonces f (x) = log (1 − log (x1 (1 − x1 )x2 (1 − x2 ))) Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = log(1 + 4 log 2) = 1.32776143. Table 4.2: X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance (0.45, 0.51) 73 73 (0.499998,0.5) 1.32776 9.75055e-007 (0.4,0.6) 81 81 (0.499999,0.500001) 1.32776 8.92195e-007 (0.1,0.9) 97 97 (0.499999,0.500001) 1.32776 9.20241e-007 (0.2,0.3) 89 89 (0.499999, 0.499999) 1.32776 9.58094e-007 (0.7,0.6) 84 84 ( 0.500001,0.500001) 1.32776 9.98606e-007 Experimento 3. Sea h(t) = arc tg(t), entonces f (x) = arc tg (− log (x1 (1 − x1 )x2 (1 − x2 ))) Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = arc tg(4 log 2) = 1.224644415. 79 Table 4.3: X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance (0.45, 0.51) 160 160 (0.499996,0.500001) 1.22464 9.55101e-007 (0.4,0.6) 178 178 (0.499997,0.500003) 1.22464 9.4978e-007 (0.1,0.9) 227 227 (0.499997,0.500003) 1.22464 9.71428e-007 (0.2,0.3) 200 200 (0.499997, 0.499997) 1.22464 9.69434e-007 (0.7,0.6) 187 187 ( 0.500004,0.500002) 1.22464 9.79192e-007 80