optimización

RESUMEN DE CÁLCULO III INGENIERÍA CIVIL 10129 COORDINADOR: M. BRAVO UNIVERSIDAD DE SANTIAGO DE CHILE FACULTAD DE CIENCIA DEPARTAMENTO DE MATEMÁTICA Y C. C. Optimización 1. Recuerdo del caso de funciones de una variable En esta sección recordaremos los aspectos básicos relacionados a extremos de una función de una variable. Esto nos permitirá una analogı́a con el caso de varias variables. Definición 1. Sea h : [a, b] → R una función tal que sus derivadas h0 y h00 existen en todo su dominio. (a) La función h tiene un máximo local en x0 si existe una vecindad V de x0 tal que h(x0 ) ≥ h(x) para todo x ∈ V. (b) La función h tiene un mı́nimo local en x0 si existe una vecindad V de x0 tal que h(x0 ) ≤ h(x) para todo x ∈ V. (c) El punto x0 ∈ [a, b] es un punto crı́tico de h si satisface que h0 (x0 ) = 0. Proposición 1. Si h tiene un máximo o mı́nimo local en x0 , entonces h0 (x0 ) = 0. Es decir, x0 es un punto crı́tico de h. Recordemos que, en el caso de una variable, la expansión de Taylor de segundo orden de h alrededor del valor crı́tico x0 es: 1 h(x) − h(x0 ) = h0 (x0 )(x − x0 ) + h00 (x0 )(x − x0 )2 + |x − x0 |2 R2 (x0 , x) | {z } 2 =0 donde R2 (x0 , x) → 0, cuando x → x0 . Intuitivamente, como el resto R2 (x0 , x) es pequeño, el signo de h(x) − h(x0 ) depende exclusivamente del signo de h00 (x0 ). Ahora, el criterio de la segunda derivada aplica cuando h00 es continua en x0 . En este caso tenemos: Proposición 2. Sea h una función tal que h00 es continua en una vecindad de x0 con h0 (x0 ) = 0. Entonces (a) Si h00 (x0 ) > 0, entonces h tiene un mı́nimo local en x0 . (b) Si h00 (x0 ) < 0, entonces h tiene un máximo local en x0 . 2. Extremos de funciones para funciones de varias variables De la misma manera que en el caso de una variable real, es posible definir los conceptos de máximo local, mı́nimo local, extremo local y punto crı́tico para una función f : D ⊆ Rn → R, donde supondremos D abierto para facilitar las hipótesis. Definición 2. Sea f : D ⊆ Rn → R. (a) La función f alcanza un máximo local en ~x0 si existe una vecindad V de ~x0 tal que f (~x0 ) ≥ f (~x), para todo ~x ∈ V. 1 2 (b) La función f alcanza un mı́nimo local en ~x0 si existe una vecindad V de ~x0 tal que f (~x0 ) ≤ f (~x), para todo ~x ∈ V. (c) Se dice que la función f alcanza un extremo local en ~x0 si es o bien un mı́nimo local o bien un máximo local en ~x0 . (d) Se dice que la función f tiene un punto crı́tico en ~x0 si ∇f (~x0 ) = ~0. (e) La función f tiene un punto silla en ~x0 ∈ D si ~x0 es un punto crı́tico pero no es un extremo local de f . Observación 1. Notemos que la igualdad ∇f (~x0 ) = ~0 es un sistema de n ecuaciones y n incógnitas: ∂f ∂f ∂f (~x0 ) = 0, (~x0 ) = 0, . . . , (~x0 ) = 0. ∂x1 ∂x2 ∂xn El siguiente resultado es el análogo al caso de varias variables de la Proposición 1. Proposición 3. Sea f : D ⊆ Rn → R una función diferenciable. Si ~x0 ∈ D es un extremo local de f entonces ∇f (~x0 ) = ~0. Observación 2. Análogamente al caso real, la Propiedad 3 implica que, si se quiere buscar un extremo local de una función diferenciable en un abierto D, los únicos candidatos posibles son las soluciones de ∇f (~x) = ~0. Ahora es necesario estudiar una condición de segundo orden para clasificar un punto crı́tico para una función f : D ⊆ Rn → R que sea análoga al caso de una variable donde se estudia el signo de h00 (x0 ). Esta noción involucra el estudio de la matriz Hessiana de f : D ⊆ Rn → R. Recordemos que el Hessiano de f en un punto ~x0 ∈ D está dado por ∂2f x0 ) 2 (~  ∂x1  ∂2f  ∂x2 ∂x1 (~x0 )   Hf (~x0 ) =    .. . ∂2f x0 ) ∂xn ∂x1 (~ ∂2f x0 ) ∂x1 ∂x2 (~ ∂2f x0 ) ∂x1 ∂x3 (~ ··· ∂2f (~x0 ) ∂x22 ∂2f x0 ) ∂x2 ∂x3 (~ ··· ∂2f x0 ) ∂xn ∂x2 (~ .. ∂2f ∂2f x0 ) ∂x1 ∂xn (~   ∂ 2 f (~ x0 ) x0 ) ∂x2 ∂xn (~   .. . . x0 ) ∂xn ∂x3 (~ ··· ∂2f (~x0 ) ∂x2n n n ∈R ×R .   El Hessiano de f en ~x0 tiene asociado una forma cuadrática asociada dada explı́citamente por Hf (~x0 )(~v ) = n 1 X ∂2f 1 (~x0 )vi vj = ~v T Hf (~x0 )~v , 2 ∂xi ∂xj 2 ~v ∈ Rn . i,j=1 Recordemos el resultado siguiente, que dice que si la función f es suficientemente regular en ~x0 , entonces las derivadas parciales cruzadas deben ser iguales. 3 Teorema 1 (Teorema de Schwarz). Sea f : D ⊆ Rn → Rn una función de clase1 C 2 en el abierto D con x0 ∈ D. Entonces ∂2f ∂2f (x0 ) = (x0 ) ∂xi ∂xj ∂xj ∂xi ∀ i, j = 1, ..., n Observación 3. Notemos que por el Teorema de Schwarz, si f es de clase C 2 en una vecindad de x0 , entonces la matriz Hessiana Hf (~x0 ) es simétrica. Como en el caso real, para una función escalar f : D ⊆ Rn → R suficientemente regular es posible obtener una expansión de Taylor de segundo orden en el punto ~x0 . Teorema 2 (Teorema de Taylor de 2o orden). Sea f : D ⊆ Rn → R una función de clase C 2 en una bola abierta B ⊆ D que contiene a ~x0 . Para todo ~x ∈ B, se cumple 1 f (~x) − f (~x0 ) = h∇f (~x0 ), ~x − ~x0 i + (~x − ~x0 )T Hf (~x0 )(~x − ~x0 ) + k~x − ~x0 k2 R2 (~x0 , ~x) 2 tal que R2 (~x0 , ~x) → 0 cuando ~x → ~x0 , Observación 4. Notemos que, cuando ~x0 es un punto crı́tico de f , esto es, ∇f (~x0 ) = 0 se tiene que h∇f (~x0 ), ~x − ~x0 i = 0. Ası́, 1 f (~x) − f (~x0 ) = (~x − ~x0 )T Hf (~x0 )(~x − ~x0 ) + k~x − ~x0 k2 R2 (~x0 , ~x). 2 Por tanto, intuitivamente, como el resto R2 (~x0 , ~x) es pequeño se tiene que el signo de f (~x) − f (~x0 ) depende exclusivamente de la forma cuadrática (~x − ~x0 )T Hf (~x0 )(~x − ~x0 ) para todo vector ~x ∈ Rn cercano a ~x0 . Motivados por la observación anterior, tenemos la siguiente definición. Definición 3. Sea A una matriz de dimensión n × n. La matriz A se dice (a) Definida positiva cuando la forma cuadrática ~xT A~x satisface ~xT A~x > 0 para todo ~x 6= ~0. (b) Definida negativa cuando la forma cuadrática ~xT A~x satisface ~xT A~x < 0 para todo ~x 6= ~0. (c) Semidefinida positiva cuando la forma cuadrática ~xT A~x satisface ~xT A~x ≥ 0 para todo ~x ∈ Rn . (d) Semidefinida negativa cuando la forma cuadrática ~xT A~x satisface ~xT A~x ≤ 0 para todo ~x ∈ Rn . 1Recuerde que una función es de clase C 2 en un punto ~ x si es dos veces diferenciable con segundas derivadas continuas en ~ x. 4 Observación 5. Recuerde de su curso de Álgebra Lineal que una matriz A ∈ Rn×n se dice diagonalizable si existe una matriz P tal que A = P DP T , donde P es una matriz invertible (ortogonal) y D es  λ1   0  PTP = I y D= .  ..  0 una matriz diagonal, es decir,  0 ··· 0  λ2 · · · 0   . .. . . ..  . .  .  0 · · · λn Los reales λ1 , λ2 , . . . , λn son los valores propios de A. Recuerde además que si A es una matriz simétrica a valores reales, entonces A es diagonalizable y todos sus valores propios están en R. Un resultado útil que permite saber si una matriz A ∈ Rn×n es definida (o semidefinida) positiva o definida (o semidefinida) negativa se enuncia más abajo. Proposición 4. Sea A una matriz a valores reales de dimensión n × n. Luego (a) A es definida positiva si y sólo si A tiene valores propios estrictamente positivos. (b) A es definida negativa si y sólo si A tiene valores propios estrictamente negativos. (c) A es semidefinida positiva si y sólo si A tiene valores propios positivos. (d) A es semidefinida negativa si y sólo si A tiene valores propios negativos. Observación 6. Es necesario notar que el cálculo de los valores propios de una matriz puede ser complicado. Como el Hessiano de una función de clase C 2 es una matriz simétrica podemos acudir a un resultado más especı́fico y mucho más simple de usar. Un criterio para determinar si una matriz simétrica A es definida positiva o definida negativa es el siguiente. Proposición 5. Sea A = (aij ) una matriz simétrica de dimensión n × n y sea Ar = (aij ) la matriz cuadrada de dimensión r × r cuya primera entrada es a11 , para todo r = 1, . . . , n. Entonces A es (a) Definida positiva si det(Ar ) > 0, para todo r = 1, . . . , n. (b) Definida negativa si (−1)r det(Ar ) > 0, para todo r = 1, . . . , n. Es decir, det(A1 ) < 0, det(A2 ) > 0, . . . (c) Semidefinida positiva si det(Ar ) ≥ 0, para todo r = 1, . . . , n. (d) Semidefinida negativa si (−1)r det(Ar ) ≥ 0, para todo r = 1, . . . , n. Es decir, det(A1 ) ≤ 0, det(A2 ) ≥ 0, . . . 5 En palabras sencillas si los determinantes de las submatrices superiores son todos estrictamente positivos, entonces la matriz es definida positiva. En cambio si son de signo alternante, partiendo de negativo, se trata de una matriz definida negativa. Veamos un ejemplo. Ejemplo 1. Sea f : R3 → R, dada por f (x, y, z) = y − 4x2 + 3xy − y 2 − z 2 . Probemos que la mztriz Hessiana de f es definida negativa en todo punto de R3 . Como f es una función de clase C 2 , el Hessiano es simétrico y podemos aplicar el criterio dado por la Proposición 5. Ahora, los determinantes de las submatrices del Hessiano para una función de 3 variables son: det(H1 ) = ∂ 2 f (~x) , det(H2 ) = ∂x21 ∂2f (~x) ∂x2 ∂2f x) ∂x∂y (~ ∂2f x) ∂x∂y (~ ∂2f (~x) ∂y 2 , det(H3 ) = ∂2f (~x) ∂x2 2 ∂ f x) ∂x∂y (~ ∂2f x) ∂x∂z (~ ∂2f x) ∂x∂y (~ 2 ∂ f (~x) ∂y 2 ∂2f x) ∂y∂z (~ ∂2f x) ∂x∂z (~ 2 ∂ f x) ∂y∂z (~ ∂2f (~x) ∂z 2 donde ~x = (x, y, z). Ahora, calculando las derivadas tenemos que ∂f (~x) = −8x + 3y, ∂x ∂2f (~x) = −8, ∂x2 ∂2f (~x) = 3, ∂y∂x ∂2f (~x) = 0, ∂z∂x ∂f (~x) = 1 + 3x − 2y, ∂y ∂2f (~x) = −2, ∂y 2 ∂2f (~x) = 3, ∂x∂y ∂2f (~x) = 0, ∂z∂y ∂f (~x) = −2z, ∂z ∂2f (~x) = −2, ∂z 2 ∂2f (~x) = 0, ∂x∂z ∂2f (~x) = 0. ∂y∂z Por lo tanto, la matriz Hessiana es constante para todos los puntos (se trata de una función cuadrática). Luego, tenemos que det(H1 ) = −8 < 0, det(H2 ) = det(H3 ) = −8 3 3 −2 −8 3 0 3 −2 0 0 0 −2 = 16 − 9 = 7 > 0, = −2 · 7 = −14 < 0. Los signos de las submatrices de la matriz Hessiana son alternados, con |H1 | negativo. En conclusión la matriz Hessiana es definida negativa en todo punto de R3 . Ahora podemos establecer los resultados necesarios para la clasificiación de puntos crı́ticos de la función f . El primer resultado contiene condiciones necesarias para máximos y mı́nimos locales. Teorema 3 (Condiciones necesarias de 2o orden). Sea f : D ⊆ Rn → R de clase C 2 en un abierto D. Sea ~x0 un punto crı́tico de f . Entonces (a) Si f alcanza un mı́nimo local en ~x0 , entonces Hf (~x0 ) es semidefinida positiva. , 6 (b) Si f alcanza un máximo local en ~x0 , entonces Hf (~x0 ) es semidefinida negativa. El siguiente es un resultado de suficiencia para la clasificación de puntos crı́ticos. Teorema 4 (Condiciones suficientes de 2o orden). Sea f : D ⊆ Rn → R de clase C 2 en un abierto D. Sea ~x0 un punto crtı́tico de f . Entonces (a) Si Hf (~x0 ) es definida positiva, entonces f alcanza un mı́nimo local en ~x0 . (b) Si Hf (~x0 ) es definida negativa, entonces f alcanza un máximo local en ~x0 . (c) Si Hf (~x0 ) no es definida positiva ni definida negativa, entonces f tiene un punto silla en ~x0 . Observación 7. Para notar la diferencia entre los dos resultados anteriores tomemos la función f (x, y) = x4 + y 2 que claramente tiene a (0, 0) como único punto crı́tico. Un cálculo sencillo muestra que la matriz Hessiana en (x, y) es ! 4x3 0 =⇒ Hf (0, 0) = Hf (x, y) = 0 2 0 0 ! . 0 2 La matriz Hf (0, 0) es semidefinida positiva y entonces NO se puede concluir que es un mı́nimo local USANDO el Teorema 4. Sin embargo, es fácil ver que f (x, y) ≥ 0 para todo (x, y) y entonces (0, 0) es, de hecho, un mı́nimo global de f . Ahora, la condición necesaria dada por el Teorema 3 nos dice simplemente que Hf (0, 0) es semidefinida positiva (cosa que ya sabı́amos). Ejemplo 2. Encontrar todos los puntos crı́ticos de f (x, y) = x2 + xy + y 2 − 3x y clasificarlos. Primero es necesario encontrar los puntos crı́ticos de f , resolviendo la ecuación ∇f = ~0, es decir, ∂f ∂f = 2x + y − 3, = x + 2y. ∂x ∂y Se debe resolver entonces el sistema de ecuaciones 2x + y − 3 = 0, x + 2y = 0. La única solución del sistema es el punto (x, y) = (2, −1), siendo luego el único punto crı́tico. La matriz Hessiana de f en el punto (2, 1) es Hf (2, −1) = 2 1 ! 1 2 Como det(H1 ) = 2 y det(H2 ) = 3, se conlcuye que f alcanza un mı́nimo local en el punto (2, −1). Ejemplo 3. Encontrar todos los puntos crı́ticos de f (x, y) = 2x3 + 6xy + 3y 2 y clasificarlos. Imponiendo que ∇f = ~0, se tiene ∂f = 6x2 + 6y, ∂x ∂f = 6x + 6y. ∂y 7 Luego, resuelve el sistema 6x2 + 6y = 0, 6x + 6y = 0. Las soluciones son (x1 , y1 ) = (1, −1), (x2 , y2 ) = (0, 0). La matriz Hessiana de f en (x, y) está dada por Hf (x, y) = 12x 6 6 12 ! . Luego. Hf (1, −1) = 12 6 6 12 ! Hf (0, −0) = , 0 6 ! 6 12 (a) En el caso del punto (1, −1), los determinantes son det(H1 ) = 12 y det(H2 ) = 108, por lo que f alcanza un mı́nimo local en (1, −1). (b) En el caso del punto (0, 0), como det(H1 ) = 0 y det(H2 ) = −26, tenemos que (0, 0) es un punto silla de f . 3. Extremos de funciones con restricciones de igualdad: Método de los multiplicadores de Lagrange En este capı́tulo estamos interesados en problemas de optimización con restricciones de igualdad, es decir, problemas del tipo minimización (o maximización) siguiente min f (~x) (ó max f (~x)) (P) s.a. gi (~x) = 0, i = 1, . . . , m, donde f, g1 , . . . , gm : D ⊆ Rn → R, con m < n. También podemos representar el sistema de ecuaciones dado por las restricciones como G(~x) = ~0, donde G : D ⊆ Rn → Rm definida como G(~x) = (g1 (~x), . . . , gm (~x)). Para este tipo de problemas, el método de los multiplicadores de Lagrange proporciona condiciones necesarias que deben cumplirse en el óptimo, es decir, condiciones de primer orden. La idea es convertir el problema en otro sin restricciones ampliado en m variables λi , que llamaremos multiplicadores de Lagrange, tal que la solución de este sistema ampliado, (~x, ~λ), coincida en las variables ~x con la solución del problema original (P ), y cumpla las restricciones gi (~x) = 0, para todo i ∈ {1, . . . , m}. Definición 4 (Conjunto factible). El conjunto factible S ⊆ Rn del problema (P ) es el conjunto de puntos de Rn que satisface las restricciones del problema, es decir, S = {~x = (x1 , . . . , xn ) ∈ D : gi (x1 , . . . , xn ) = 0, i = 1, . . . , m} 8 Definición 5 (hipótesis de calificación de las restricciones). Diremos que el punto ~x0 satisface la hipótesis de calificación de las restricciones si el conjunto {∇g1 (~x0 ), . . . , ∇gm (~x0 )} es una familia linealmente independiente de vectores. Estudiemos primero el caso de una restricción. Teorema 5 (Multiplicadores de Lagrange, una restricción). Sean f, g : D ⊆ Rn → R dos funciones de clase C 1 . Consideremos el problema min f (~x) s.a. (ó max f (~x)) g(~x) = 0. Sea ~x0 un extremo local de f en S. Supongamos que ∇g(~x0 ) 6= ~0, es decir, ~x0 satisface la hipótesis de calificación. Entonces, existe λ ∈ R tal que ∇f (~x0 ) = λ∇g(~x0 ). Teorema 6 (Multiplicadores de Lagrange, caso general). Sean f, g1 , . . . , gm : D ⊆ Rn → R funciones de clase C 1 , con m < n. Sea ~x0 un extremo local de f en S que satisface la hipótesis de clasificación. Entonces existen constantes λ1 , . . . , λm ∈ R tales que ∇f (~x0 ) = (C) m X λi ∇gi (~x0 ). i=1 Observación 8. Las constantes λ1 , . . . , λm se llaman multiplicadores de Lagrange. La función L : Rn × Rm → R definida por L(x1 , . . . , xn , λ1 , . . . , λm ) = f (x1 , . . . , xn ) − m X λi gi (x1 , . . . , xn ), i=1 se conoce como Lagrangeano del problema. Observemos que  Pm ∂L ∂f ∂gi  ~    ∂xj (~x, λ) = ∂xj (~x) − i=1 λi ∂xj (~x), j = 1, . . . , n  ∂L   (~x, ~λ) = gi (~x), i = 1, . . . , m.  ∂λi Entonces, (~x0 , ~λ) ∈ Rn × Rm satisface (C) con ~x0 ∈ S si y sólo si es un punto crı́tico del Lagrangeano, es decir, ∇L(~x0 , ~λ) = ~0. Ejemplo 4. Encontrar los puntos de la curva C ⊆ R3 definida como la intersección entre las superficies de ecuaciones x2 − xy + y 2 − z 2 = 1, y que están a distancia máxima y mı́nima del origen. x2 + y 2 = 1, 9 Solución: La distancia de un punto (x, y, z) al origen es D(x, y, z) = p x2 + y 2 + z 2 Entonces, el Lagrangeano del problema es L(x, y, z, λ1 , λ2 ) = p x2 + y 2 + z 2 − λ1 (x2 − xy + y 2 − z 2 − 1) − λ2 (x2 + y 2 − 1). La ecuación ∇L = ~0 se escribe como x p = λ1 (2x − y) + 2λ2 x, x2 + y 2 + z 2 y p = λ1 (−x + 2y) + 2λ2 y, 2 x + y2 + z2 z p = −2λ1 z, x2 + y 2 + z 2 x2 − xy + y 2 − z 2 − 1 = 0, x2 + y 2 − 1 = 0. Es claro que la curva no pasa por el origen, luego (x, y, z) 6= (0, 0, 0) para todo (x, y, z) ∈ C. Multiplicando la primera ecuación por y, la segunda por x, luego restando, se obtiene que λ1 (x2 − y 2 ) = 0. Las posibilidades son entonces λ1 = 0, x = y ó x = −y. • Si λ1 = 0, entonces z = 0 y con ello, x2 − xy + y 2 = 1. De esta última ecuación y de x2 + y 2 − 1 = 0, se obtiene que x = 0 ó y = 0. Si x = 0, entonces y = ±1 y λ2 = 1/2. Si y = 0, entonces x = ±1 y otra vez λ2 = 1/2. Resumiendo, obtenemos que los siguientes son puntos crı́ticos del Lagrangeano: 1 1 1 1 , −1, 0, 0, 0, , 0, 1, 0, 0, , 0, −1, 0, 0, 1, 0, 0, 0, 2 2 2 2 √ • Si se tiene qu x = y, entonces de la última ecuación del sistema se deduce x = ± 2 2 . Para calcular el valor de z, ocupamos la ecuación x2 − xy + y 2 − z 2 − 1 = 0. Luego se tiene que z 2 = −x2 y entonces x = z = 0, una contradicción. • En el caso que x = −y, la última ecuación del sistema implica que x = ± que de la penúltima, se deduce la igualdad z2 = x2 , √ 2 2 ; mientras es decir z = ±x. Con estos valores, en cada caso, se obtienen los multiplicadores de Lagrange λ1 , λ2 . De este análisis obtenemos los puntos crı́ticos √ √ √ √ ! √ √ √ √ ! 2 2 2 −1 2 2 2 2 −1 2 ,− , , √ ,− , ,− ,− , √ ,− , 2 2 2 8 2 2 2 8 6 6 √ ! √ ! √ √ √ √ √ √ 2 2 2 −1 2 2 2 2 −1 2 − , , , √ ,− , − , ,− , √ ,− . 2 2 2 8 2 2 2 8 6 6 10 Figura 1. Intersección de las superficies x2 − xy + y 2 − z 2 = 1 y x2 + y 2 = 1. Ahora bien, ¿Cómo saber cuál o cuáles puntos minimizan y maximizan la función objetivo? No tenemos, en este caso, un criterio de segundo orden. Es necesario entonces refinar el análisis. Notemos que la curva intersección es cerrada y acotada, es decir, compacta (y tiene dos secciones separadas, Ver Figura 1). Primero, la curva es cerrada trivialmente. Para ver que la curva es acotada, usamos que está contenida en el cilindro x2 + y 2 = 1 y, al reemplazar en la ecuación de la primera superficie, se obtiene que z 2 = −xy. Como x e y son acotados, z es acotado en C. Esto prueba que la figura es acotada. Luego, usando el Teorema de Wierstrass y el hecho que la distancia es una función continua, sabemos que la distancia al origen tiene un máximo y un mı́nimo. Como hemos detectado todos los posibles candidatos a puntos extremos del problema restringido basta evaluar simplemente en los puntos que obtuvimos y comparar los valores. Luego, D(1, 0, 0) = D(−1, 0, 0) = D(0, 1, 0) = D(0, −1, 0) = 1. Por otro lado, √ √ ! √ 2 2 2 ,− , =D D 2 2 2 √ √ √ ! 2 2 2 ,− ,− , 2 2 2 √ √ √ ! √ √ √ ! r 2 2 2 2 2 2 3 =D − , , =D − , ,− = > 1. 2 2 2 2 2 2 2 Entonces, los primeros cuatro puntos corresponden a mı́nimos de la distancia al origen de la curva mientras los últimos cuatro son máximos. 11 Observación 9. El estudio de condiciones generales de segundo orden para extremos restringidos va más allá del objetivo de este resumen de curso. Luego, nos remitiremos principalmente al caso donde el conjunto es compacto y se puede hacer un razonamiento análogo al del ejemplo. El siguiente ejemplo muestra la importancia de verificar que el punto en estudio verifica las condiciones de calificación. Ejemplo 5. Se quiere encontrar el mı́nimo de la función f (x, y, z) = y + x2 z bajo las restricciones x6 − z = 0, y 3 − z = 0. ¿Cuál es el mı́nimo de la función? ¿Se puede usar el método de los multiplicadores de Lagrange en este caso? Solución: Las restricciones nos dicen que y ≥ 0 y z ≥ 0 y entonces f ≥ 0 para todo (x, y, z) en el conjunto definido por las restricciones. Como (0, 0, 0) es factible, tiene que ser el mı́nimo de f . (También se puede reemplazar directamente el valor de y, z en función de x y escribir una función de una variable). Ahora bien, definiendo g1 (x, y, z) = x6 − z y g2 (x, y, z) = y 3 − z, se ve que ∇g1 (0, 0, 0) = ∇h2 (0, 0, 0) = (0, 0, −1), es decir, no son linealmente independientes y el método de Lagrange no entregará información. De hecho, ∇f (0, 0, 0) = (0, 1, 0) y entonces es imposible que existan multiplicadores de Lagrange, dado que este vector no puede ser una combinación lineal entre ∇g1 (0, 0, 0) y ∇g2 (0, 0, 0). 4. Extremos de funciones con restricciones de igualdad y desigualdad: Condiciones de Karush-Kuhn-Tucker (KKT) En esta sección trataremos un caso más general de optimización que surge cuando aparecen tanto restricciones de igualdad como de desigualdad. Nos interesa un problema del tipo min f (~x) (Q) s.a. gi (~x) = 0, i = 1, . . . , m, hi (~x) ≤ 0, i = 1, . . . , `. donde f, gi , hj : D ⊆ Rn → R son funciones de clase C 1 . Como antes, las funciones gi definen restricciones de igualdad, mientras que las hj definen restricciones de desigualdad. Observación 10. Notemos que en este caso sólo hablamos de un problema de minimización. Para estudiar el problema de maximización, basta usar la relación − min −f (x) = max f (x). x∈C x∈C Observación 11. En un ligero abuso de notación, se suele decir que “gi es una restricción de igualdad” y que “hj es una restricción de desigualdad”, 12 Definición 6 (Conjunto factible). El conjunto factible C ⊆ Rn del problema (Q) es el conjunto de puntos ~x ∈ Rn que satisfacen todas las restricciones del problema, esto es, C = {~x ∈ D : gi (~x) = 0, ∀ i = 1, . . . , m ; hj (~x) ≤ 0, ∀ j = 1, . . . , `} ⊆ Rn . A un punto de este conjunto lo llamaremos punto factible. Definición 7 (Restricción activa). Diremos que una restricción de desigualdad hj está activa en el punto factible ~x0 si ésta se satisface con igualdad, esto es, si hj (~x0 ) = 0. Definiremos el conjunto de ı́ndices correspondientes a las restricciones activas en ~x0 por: J(~x0 ) = {j ∈ {1, . . . , `} : hj (~x0 ) = 0}. Intuitivamente, la idea en el desarrollo del criterio de Karush-Kuhn-Tucker (KKT) usa el hecho que si una restricción de desigualdad, hj , está activa en el óptimo ~x0 , entonces puede tratarse como una de igualdad asignándosele un multiplicador µj . Si no está activa entonces puede ignorarse, con lo que su multiplicador µj debe ser cero. La condición que resume esta discusión es simplemente que µj hj (~x0 ) = 0. Más aún el multiplicador asociado µj deberá ser positivo. Tal como en el caso con restricciones de igualdad, se necesita una condición de calificación en el punto de estudio. Definición 8 (hipótesis de calificación de las restricciones). Diremos que el punto ~x0 satisface la hipótesis de calificación de las restricciones si el conjunto {∇gi (~x0 ), ∇hj (~x0 ), i ∈ {1, . . . , m}, j ∈ J(~x0 )} es linealmente independiente. Observación 12. Note que el conjunto anterior considera solo aquellas restricciones de desigualdad que están activas en ~x0 . El siguiente teorema describe condiciones de primer orden para el problema (Q) y se conoce como el criterio de Karush-Kuhn-Tucker (KKT). Permite, tal como en el caso sin restricciones o con restricciones de igualdad, encontrar candidatos a óptimos (locales) del problema de optimización en estudio. Teorema 7 (KKT). Sean f : Rn → R, gi : Rn → R, i = 1, . . . , m y hj : Rn → R, j = 1, . . . , ` funciones de clase C 1 . Sea ~x0 un extremo del problema (Q) que satisface la hipótesis de 13 calificación. Entonces existen escalares λ1 , . . . , λm ∈ R y µ1 , . . . , µ` ∈ R tales que ∇f (~x0 ) + [Optimalidad] m X λi ∇gi (~x0 ) + i=1 l X µj ∇hj (~x0 ) = ~0, j=1 [Holgura Complementaria] µi hi (~x0 ) = 0, i = 1, . . . ` [Positividad] µi ≥ 0, i = 1, . . . , `. Observación 13. Al comparar las condiciones de Optimalidad de KKT con la condición (C) del caso con restricciones de igualdad podemos notar una pequeña “inconsistencia” en el signo asociado al multiplicador λi . Naturalmente, esto no tiene influencia en los resultados aquı́ expuestos pues se trata simplemente de una convención. Veamos como se usan las condiciones de primer orden (KKT) mediante un ejemplo. Ejemplo 6. Considere el problema min − 3x + y − z 2 s.a. − x − 2y + z 2 = 0 x + y + z ≤ 0. Escribir las ecuaciones de KKT para el problema y encontrar el o los candidatos a soluciones óptimas del problema. Solución: Identifiquemos primero los elementos para aplicar el Teorema 7. Se tiene que m = 1, ` = 1, f (x, y, z) = −3x + y − z 2 , g(x, y, z) = −x − 2y + z 2 , h(x, y, z) = x + y + z. Además, ∇f (x, y, z) = (−3, 1, −2z), ∇g(x, y, z) = (−1, −2, 2z) ∇h(x, y, z) = (1, 1, 1), . Luego, las condiciones de KKT en este caso corresponden a encontrar un vector (x, y, z, λ, µ) tal que       0 1 −1          1  + λ −2 + µ 1 = 0 ,         2z 1 0 −2z  −3  µ ≥ 0. Es decir,    −3 − λ + µ       1 − 2λ + µ    −2z + 2λz + µ      µ(x + y + z)      µ =0 =0 =0 =0 ≥ 0. 14 De las dos primeras ecuaciones se deduce el valor de los multiplicadores µ = 7 > 0, λ = 4. Conocidos los multiplicadores y usando la tercera ecuación, se tiene que z = − 67 . Usando la holgura complementaria, se obtiene que x + y − 7/6 = 0. Por último, para encontrar los valores de x e y, es necesario resolver el sistema de ecuaciones: 2 7 −x − 2y + =0 6 7 x + y − = 0. 6 Luego x = 35 36 ey= 7 36 . Es decir, el punto candidato a óptimo (local a priori) es (x0 , y0 , z0 ) = 7 7 ( 35 36 , 36 , − 6 ). Queda como ejercicio comprobar que la condición de calificación de restricciones se cumple en (x0 , y0 , z0 ) Una observación interesante es la siguiente. El conjunto factible en este caso es no acotado, luego se necesita un criterio de segundo orden para saber si se trata efectivamente de un mı́nimo. Sin embargo, como sabemos que el multiplicador µ es estrictamente positivo, podemos convertir este problema particular en uno de dos variables: minimizar 3x + y − (x + y)2 sujeto a la restricción −x − 2y + (x + y)2 = 0. Convénzase gráficamente que el punto encontrado es un mı́nimo. Ejemplo 7. Analizar, utilizando las condiciones de KKT, el problema max x − e−y sin(x) + y ≤ 0 0≤x≤π Solución: El problema a resolver es equivalente al siguiente: −min e−y − x sin(x) + y ≤ 0 x−π ≤0 −x ≤ 0 Si f (x, y) = e−y − x, h1 (x, y) = sin(x) + y, h2 (x, y) = x − π, h3 (x, y) = −x, entonces los gradientes respectivamente son: ∇f (x, y) = (−1, −e−y ), ∇h1 (x, y) = (cos(x), 1), ∇h2 (x, y) = (1, 0), ∇h3 (x, y) = (−1, 0). 15 Las condiciones de KKT son entonces h1 (x, y) ≤ 0, h2 (x, y) ≤ 0, h3 (x, y) ≤ 0 y −1 + µ1 cos(x) + µ2 − µ3 = 0 −e−y + µ1 = 0 µ1 (sin(x) + y) = 0 µ2 (x − π) = 0 −µ3 x = 0 µ1 ≥ 0 µ2 ≥ 0 µ3 ≥ 0. Como µ1 = e−y , entonces µ1 > 0 y, por holgura complentaria, y = −sen(x). De la primera ecuación se obtiene que µ2 = 1 − esen(x) cos(x) + µ3 . • Si x = π, entonces µ3 = 0 y µ2 = 1 − esen(π) cos(π) = 2 > 0. Luego el punto (π, 0, 1, 2, 0) es solución del sistema y (π, 0) es candidato a óptimo. • Si µ3 > 0 entonces x = 0, y = 0 y µ2 = µ3 > 0. Por holgura complementaria x = π, una contradicción. • Si µ3 = 0 con x 6= π entonces µ2 = 1 − esen(x) cos(x) = 0. Esta ecuación tiene dos soluciones tales que 0 ≤ x ≤ π: x = 0 y x = x∗ con 0 < x∗ < π (¿Por qué?). Luego, hay dos puntos crı́ticos más: (0, 0, 1, 0, 0) y (x∗ , −sen(x∗ ), esen(x∗ ) , 0, 0), implicando que (0, 0) y (x∗ , −sen(x∗ )) también son candidatos. Como la región factible es no acotada, necesitamos a priori un criterio de segundo orden. Sin embargo, es fácil darse cuenta que, como se tiene siempre que y = −sen(x), la función φ(x) = x − esen(x) es decreciente en el intervalo [0, x∗ ] y luego creciente en el intervalo [x∗ , π] con φ(0) = −1 y φ(π) = π. Esto nos permite concluir que el punto (π, 0) es, de hecho, un máximo global. Ejemplo 8. Considere el problema min (x − 3)2 + (y − 2)2 x2 + y 2 ≤ 5 2x + y ≤ 6 x + 2y ≤ 4 x≥0 y≥0 16 Usar un método gráfico para encontrar el óptimo global del problema y verificar las condiciones de KKT en ese punto. Solución: Para aplicar el teorema, ponemos el problema en la forma: min (x − 3)2 + (y − 2)2 x2 + y 2 − 5 ≤ 0 2x + y − 6 ≤ 0 x + 2y − 4 ≤ 0 −x ≤ 0 −y ≤ 0 Notemos que el óptimo para el problema irrestricto es (3, 2), sin embargo, éste no es un punto factible. Ahora, usando el método gráfico, tenemos que según la Figura 2, el óptimo se alcanza en (x, y) = (2, 1), es decir, la circunferencia de menor radio que interceca el conjunto de factibilidad es aquella que pasa por este punto. Notemos además que en este punto las restricciones 1 y 3 son activas. Ahora verifiquemos que este punto satisface las condiciones de KKT. Las condiciones de KKT son entonces 2(x − 3) + 2µ1 x + 2µ2 + µ3 − µ4 = 0 2(y − 2) + 2µ1 y + µ2 + 2µ3 − µ5 = 0 µ1 (x2 + y 2 − 5) = 0 µ2 (2x + y − 6) = 0 µ3 (x + 2y − 4) = 0 µ4 (−x) = 0 µ5 (−y) = 0 µi ≥ 0 i = 1, 2, 3, 4, 5. Verifiquemos que los multiplicadores de KKT satisfacen las condiciones de no-negatividad en el punto (2, 1). Holgura complementaria implica que µ2 = µ4 = µ5 = 0 , 17 Figura 2. Método gráfico. lo que conduce al siguiente sistema, 2(x − 3) + 2µ1 x + µ3 = 0 2(y − 2) + 2µ1 y + 2µ3 = 0 x2 + y 2 = 5 x + 2y = 4 µ1 , µ3 ≥ 0 Reemplazando (x, y) = (2, 1), tenemos que µ1 = 1/3 ≥ 0 y µ3 = 2/3 ≥ 0.

optimización

Documentos relacionados

Productos

Apoyo

optimización

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib