Subido por Jorge Astete

optimización

Anuncio
RESUMEN DE CÁLCULO III
INGENIERÍA CIVIL 10129
COORDINADOR: M. BRAVO
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE CIENCIA
DEPARTAMENTO DE MATEMÁTICA Y C. C.
Optimización
1. Recuerdo del caso de funciones de una variable
En esta sección recordaremos los aspectos básicos relacionados a extremos de una función
de una variable. Esto nos permitirá una analogı́a con el caso de varias variables.
Definición 1. Sea h : [a, b] → R una función tal que sus derivadas h0 y h00 existen en todo
su dominio.
(a) La función h tiene un máximo local en x0 si existe una vecindad V de x0 tal que
h(x0 ) ≥ h(x) para todo x ∈ V.
(b) La función h tiene un mı́nimo local en x0 si existe una vecindad V de x0 tal que
h(x0 ) ≤ h(x) para todo x ∈ V.
(c) El punto x0 ∈ [a, b] es un punto crı́tico de h si satisface que h0 (x0 ) = 0.
Proposición 1. Si h tiene un máximo o mı́nimo local en x0 , entonces h0 (x0 ) = 0. Es decir,
x0 es un punto crı́tico de h.
Recordemos que, en el caso de una variable, la expansión de Taylor de segundo orden de
h alrededor del valor crı́tico x0 es:
1
h(x) − h(x0 ) = h0 (x0 )(x − x0 ) + h00 (x0 )(x − x0 )2 + |x − x0 |2 R2 (x0 , x)
| {z }
2
=0
donde R2 (x0 , x) → 0, cuando x → x0 .
Intuitivamente, como el resto R2 (x0 , x) es pequeño, el signo de h(x) − h(x0 ) depende
exclusivamente del signo de h00 (x0 ).
Ahora, el criterio de la segunda derivada aplica cuando h00 es continua en x0 . En este caso
tenemos:
Proposición 2. Sea h una función tal que h00 es continua en una vecindad de x0 con h0 (x0 ) =
0. Entonces
(a) Si h00 (x0 ) > 0, entonces h tiene un mı́nimo local en x0 .
(b) Si h00 (x0 ) < 0, entonces h tiene un máximo local en x0 .
2. Extremos de funciones para funciones de varias variables
De la misma manera que en el caso de una variable real, es posible definir los conceptos de
máximo local, mı́nimo local, extremo local y punto crı́tico para una función f : D ⊆ Rn → R,
donde supondremos D abierto para facilitar las hipótesis.
Definición 2. Sea f : D ⊆ Rn → R.
(a) La función f alcanza un máximo local en ~x0 si existe una vecindad V de ~x0 tal que
f (~x0 ) ≥ f (~x), para todo ~x ∈ V.
1
2
(b) La función f alcanza un mı́nimo local en ~x0 si existe una vecindad V de ~x0 tal que
f (~x0 ) ≤ f (~x), para todo ~x ∈ V.
(c) Se dice que la función f alcanza un extremo local en ~x0 si es o bien un mı́nimo local
o bien un máximo local en ~x0 .
(d) Se dice que la función f tiene un punto crı́tico en ~x0 si ∇f (~x0 ) = ~0.
(e) La función f tiene un punto silla en ~x0 ∈ D si ~x0 es un punto crı́tico pero no es un
extremo local de f .
Observación 1. Notemos que la igualdad ∇f (~x0 ) = ~0 es un sistema de n ecuaciones y n
incógnitas:
∂f
∂f
∂f
(~x0 ) = 0,
(~x0 ) = 0, . . . ,
(~x0 ) = 0.
∂x1
∂x2
∂xn
El siguiente resultado es el análogo al caso de varias variables de la Proposición 1.
Proposición 3. Sea f : D ⊆ Rn → R una función diferenciable. Si ~x0 ∈ D es un extremo
local de f entonces ∇f (~x0 ) = ~0.
Observación 2. Análogamente al caso real, la Propiedad 3 implica que, si se quiere buscar
un extremo local de una función diferenciable en un abierto D, los únicos candidatos posibles
son las soluciones de ∇f (~x) = ~0.
Ahora es necesario estudiar una condición de segundo orden para clasificar un punto crı́tico
para una función f : D ⊆ Rn → R que sea análoga al caso de una variable donde se estudia el
signo de h00 (x0 ). Esta noción involucra el estudio de la matriz Hessiana de f : D ⊆ Rn → R.
Recordemos que el Hessiano de f en un punto ~x0 ∈ D está dado por
∂2f
x0 )
2 (~
 ∂x1
 ∂2f
 ∂x2 ∂x1 (~x0 )


Hf (~x0 ) = 


..
.
∂2f
x0 )
∂xn ∂x1 (~
∂2f
x0 )
∂x1 ∂x2 (~
∂2f
x0 )
∂x1 ∂x3 (~
···
∂2f
(~x0 )
∂x22
∂2f
x0 )
∂x2 ∂x3 (~
···
∂2f
x0 )
∂xn ∂x2 (~
..
∂2f
∂2f
x0 )
∂x1 ∂xn (~


∂ 2 f (~
x0 )
x0 )
∂x2 ∂xn (~


..
.
.
x0 )
∂xn ∂x3 (~
···
∂2f
(~x0 )
∂x2n
n
n
∈R ×R .


El Hessiano de f en ~x0 tiene asociado una forma cuadrática asociada dada explı́citamente
por
Hf (~x0 )(~v ) =
n
1 X ∂2f
1
(~x0 )vi vj = ~v T Hf (~x0 )~v ,
2
∂xi ∂xj
2
~v ∈ Rn .
i,j=1
Recordemos el resultado siguiente, que dice que si la función f es suficientemente regular
en ~x0 , entonces las derivadas parciales cruzadas deben ser iguales.
3
Teorema 1 (Teorema de Schwarz). Sea f : D ⊆ Rn → Rn una función de clase1 C 2 en el
abierto D con x0 ∈ D. Entonces
∂2f
∂2f
(x0 ) =
(x0 )
∂xi ∂xj
∂xj ∂xi
∀ i, j = 1, ..., n
Observación 3. Notemos que por el Teorema de Schwarz, si f es de clase C 2 en una vecindad
de x0 , entonces la matriz Hessiana Hf (~x0 ) es simétrica.
Como en el caso real, para una función escalar f : D ⊆ Rn → R suficientemente regular es
posible obtener una expansión de Taylor de segundo orden en el punto ~x0 .
Teorema 2 (Teorema de Taylor de 2o orden). Sea f : D ⊆ Rn → R una función de clase C 2
en una bola abierta B ⊆ D que contiene a ~x0 . Para todo ~x ∈ B, se cumple
1
f (~x) − f (~x0 ) = h∇f (~x0 ), ~x − ~x0 i + (~x − ~x0 )T Hf (~x0 )(~x − ~x0 ) + k~x − ~x0 k2 R2 (~x0 , ~x)
2
tal que R2 (~x0 , ~x) → 0 cuando ~x → ~x0 ,
Observación 4. Notemos que, cuando ~x0 es un punto crı́tico de f , esto es, ∇f (~x0 ) = 0 se
tiene que h∇f (~x0 ), ~x − ~x0 i = 0. Ası́,
1
f (~x) − f (~x0 ) = (~x − ~x0 )T Hf (~x0 )(~x − ~x0 ) + k~x − ~x0 k2 R2 (~x0 , ~x).
2
Por tanto, intuitivamente, como el resto R2 (~x0 , ~x) es pequeño se tiene que el signo de f (~x) −
f (~x0 ) depende exclusivamente de la forma cuadrática (~x − ~x0 )T Hf (~x0 )(~x − ~x0 ) para todo
vector ~x ∈ Rn cercano a ~x0 .
Motivados por la observación anterior, tenemos la siguiente definición.
Definición 3. Sea A una matriz de dimensión n × n. La matriz A se dice
(a) Definida positiva cuando la forma cuadrática ~xT A~x satisface ~xT A~x > 0 para todo
~x 6= ~0.
(b) Definida negativa cuando la forma cuadrática ~xT A~x satisface ~xT A~x < 0 para todo
~x 6= ~0.
(c) Semidefinida positiva cuando la forma cuadrática ~xT A~x satisface ~xT A~x ≥ 0 para todo
~x ∈ Rn .
(d) Semidefinida negativa cuando la forma cuadrática ~xT A~x satisface ~xT A~x ≤ 0 para
todo ~x ∈ Rn .
1Recuerde que una función es de clase C 2 en un punto ~
x si es dos veces diferenciable con segundas derivadas
continuas en ~
x.
4
Observación 5. Recuerde de su curso de Álgebra Lineal que una matriz A ∈ Rn×n se dice
diagonalizable si existe una matriz P tal que
A = P DP T ,
donde P es una matriz invertible (ortogonal) y D es

λ1

 0

PTP = I
y
D= .
 ..

0
una matriz diagonal, es decir,

0 ··· 0

λ2 · · · 0 

.
.. . .
.. 
. . 
.

0 · · · λn
Los reales λ1 , λ2 , . . . , λn son los valores propios de A.
Recuerde además que si A es una matriz simétrica a valores reales, entonces A es diagonalizable y todos sus valores propios están en R.
Un resultado útil que permite saber si una matriz A ∈ Rn×n es definida (o semidefinida)
positiva o definida (o semidefinida) negativa se enuncia más abajo.
Proposición 4. Sea A una matriz a valores reales de dimensión n × n. Luego
(a) A es definida positiva si y sólo si A tiene valores propios estrictamente positivos.
(b) A es definida negativa si y sólo si A tiene valores propios estrictamente negativos.
(c) A es semidefinida positiva si y sólo si A tiene valores propios positivos.
(d) A es semidefinida negativa si y sólo si A tiene valores propios negativos.
Observación 6. Es necesario notar que el cálculo de los valores propios de una matriz
puede ser complicado. Como el Hessiano de una función de clase C 2 es una matriz simétrica
podemos acudir a un resultado más especı́fico y mucho más simple de usar.
Un criterio para determinar si una matriz simétrica A es definida positiva o definida negativa es el siguiente.
Proposición 5. Sea A = (aij ) una matriz simétrica de dimensión n × n y sea Ar = (aij )
la matriz cuadrada de dimensión r × r cuya primera entrada es a11 , para todo r = 1, . . . , n.
Entonces A es
(a) Definida positiva si det(Ar ) > 0, para todo r = 1, . . . , n.
(b) Definida negativa si (−1)r det(Ar ) > 0, para todo r = 1, . . . , n. Es decir, det(A1 ) < 0,
det(A2 ) > 0, . . .
(c) Semidefinida positiva si det(Ar ) ≥ 0, para todo r = 1, . . . , n.
(d) Semidefinida negativa si (−1)r det(Ar ) ≥ 0, para todo r = 1, . . . , n. Es decir, det(A1 ) ≤
0, det(A2 ) ≥ 0, . . .
5
En palabras sencillas si los determinantes de las submatrices superiores son todos estrictamente positivos, entonces la matriz es definida positiva. En cambio si son de signo alternante,
partiendo de negativo, se trata de una matriz definida negativa. Veamos un ejemplo.
Ejemplo 1. Sea f : R3 → R, dada por f (x, y, z) = y − 4x2 + 3xy − y 2 − z 2 . Probemos que
la mztriz Hessiana de f es definida negativa en todo punto de R3 .
Como f es una función de clase C 2 , el Hessiano es simétrico y podemos aplicar el criterio
dado por la Proposición 5. Ahora, los determinantes de las submatrices del Hessiano para
una función de 3 variables son:
det(H1 ) =
∂ 2 f (~x)
, det(H2 ) =
∂x21
∂2f
(~x)
∂x2
∂2f
x)
∂x∂y (~
∂2f
x)
∂x∂y (~
∂2f
(~x)
∂y 2
, det(H3 ) =
∂2f
(~x)
∂x2
2
∂ f
x)
∂x∂y (~
∂2f
x)
∂x∂z (~
∂2f
x)
∂x∂y (~
2
∂ f
(~x)
∂y 2
∂2f
x)
∂y∂z (~
∂2f
x)
∂x∂z (~
2
∂ f
x)
∂y∂z (~
∂2f
(~x)
∂z 2
donde ~x = (x, y, z). Ahora, calculando las derivadas tenemos que
∂f
(~x) = −8x + 3y,
∂x
∂2f
(~x) = −8,
∂x2
∂2f
(~x) = 3,
∂y∂x
∂2f
(~x) = 0,
∂z∂x
∂f
(~x) = 1 + 3x − 2y,
∂y
∂2f
(~x) = −2,
∂y 2
∂2f
(~x) = 3,
∂x∂y
∂2f
(~x) = 0,
∂z∂y
∂f
(~x) = −2z,
∂z
∂2f
(~x) = −2,
∂z 2
∂2f
(~x) = 0,
∂x∂z
∂2f
(~x) = 0.
∂y∂z
Por lo tanto, la matriz Hessiana es constante para todos los puntos (se trata de una función
cuadrática). Luego, tenemos que
det(H1 ) = −8 < 0,
det(H2 ) =
det(H3 ) =
−8
3
3
−2
−8
3
0
3
−2
0
0
0
−2
= 16 − 9 = 7 > 0,
= −2 · 7 = −14 < 0.
Los signos de las submatrices de la matriz Hessiana son alternados, con |H1 | negativo. En
conclusión la matriz Hessiana es definida negativa en todo punto de R3 .
Ahora podemos establecer los resultados necesarios para la clasificiación de puntos crı́ticos
de la función f .
El primer resultado contiene condiciones necesarias para máximos y mı́nimos locales.
Teorema 3 (Condiciones necesarias de 2o orden). Sea f : D ⊆ Rn → R de clase C 2 en un
abierto D. Sea ~x0 un punto crı́tico de f . Entonces
(a) Si f alcanza un mı́nimo local en ~x0 , entonces Hf (~x0 ) es semidefinida positiva.
,
6
(b) Si f alcanza un máximo local en ~x0 , entonces Hf (~x0 ) es semidefinida negativa.
El siguiente es un resultado de suficiencia para la clasificación de puntos crı́ticos.
Teorema 4 (Condiciones suficientes de 2o orden). Sea f : D ⊆ Rn → R de clase C 2 en un
abierto D. Sea ~x0 un punto crtı́tico de f . Entonces
(a) Si Hf (~x0 ) es definida positiva, entonces f alcanza un mı́nimo local en ~x0 .
(b) Si Hf (~x0 ) es definida negativa, entonces f alcanza un máximo local en ~x0 .
(c) Si Hf (~x0 ) no es definida positiva ni definida negativa, entonces f tiene un punto silla
en ~x0 .
Observación 7. Para notar la diferencia entre los dos resultados anteriores tomemos la
función f (x, y) = x4 + y 2 que claramente tiene a (0, 0) como único punto crı́tico. Un cálculo
sencillo muestra que la matriz Hessiana en (x, y) es
!
4x3 0
=⇒ Hf (0, 0) =
Hf (x, y) =
0 2
0 0
!
.
0 2
La matriz Hf (0, 0) es semidefinida positiva y entonces NO se puede concluir que es un mı́nimo
local USANDO el Teorema 4. Sin embargo, es fácil ver que f (x, y) ≥ 0 para todo (x, y) y
entonces (0, 0) es, de hecho, un mı́nimo global de f . Ahora, la condición necesaria dada
por el Teorema 3 nos dice simplemente que Hf (0, 0) es semidefinida positiva (cosa que ya
sabı́amos).
Ejemplo 2. Encontrar todos los puntos crı́ticos de f (x, y) = x2 + xy + y 2 − 3x y clasificarlos.
Primero es necesario encontrar los puntos crı́ticos de f , resolviendo la ecuación ∇f = ~0,
es decir,
∂f
∂f
= 2x + y − 3,
= x + 2y.
∂x
∂y
Se debe resolver entonces el sistema de ecuaciones 2x + y − 3 = 0, x + 2y = 0. La única
solución del sistema es el punto (x, y) = (2, −1), siendo luego el único punto crı́tico. La
matriz Hessiana de f en el punto (2, 1) es
Hf (2, −1) =
2 1
!
1 2
Como det(H1 ) = 2 y det(H2 ) = 3, se conlcuye que f alcanza un mı́nimo local en el punto
(2, −1).
Ejemplo 3. Encontrar todos los puntos crı́ticos de f (x, y) = 2x3 + 6xy + 3y 2 y clasificarlos.
Imponiendo que ∇f = ~0, se tiene
∂f
= 6x2 + 6y,
∂x
∂f
= 6x + 6y.
∂y
7
Luego, resuelve el sistema 6x2 + 6y = 0, 6x + 6y = 0. Las soluciones son (x1 , y1 ) =
(1, −1), (x2 , y2 ) = (0, 0). La matriz Hessiana de f en (x, y) está dada por
Hf (x, y) =
12x
6
6
12
!
.
Luego.
Hf (1, −1) =
12
6
6
12
!
Hf (0, −0) =
,
0
6
!
6 12
(a) En el caso del punto (1, −1), los determinantes son det(H1 ) = 12 y det(H2 ) = 108,
por lo que f alcanza un mı́nimo local en (1, −1).
(b) En el caso del punto (0, 0), como det(H1 ) = 0 y det(H2 ) = −26, tenemos que (0, 0)
es un punto silla de f .
3. Extremos de funciones con restricciones de igualdad: Método de los
multiplicadores de Lagrange
En este capı́tulo estamos interesados en problemas de optimización con restricciones de
igualdad, es decir, problemas del tipo minimización (o maximización) siguiente
min f (~x)
(ó
max f (~x))
(P)
s.a.
gi (~x) = 0,
i = 1, . . . , m,
donde f, g1 , . . . , gm : D ⊆ Rn → R, con m < n.
También podemos representar el sistema de ecuaciones dado por las restricciones como
G(~x) = ~0, donde G : D ⊆ Rn → Rm definida como G(~x) = (g1 (~x), . . . , gm (~x)).
Para este tipo de problemas, el método de los multiplicadores de Lagrange proporciona
condiciones necesarias que deben cumplirse en el óptimo, es decir, condiciones de primer
orden. La idea es convertir el problema en otro sin restricciones ampliado en m variables λi ,
que llamaremos multiplicadores de Lagrange, tal que la solución de este sistema ampliado,
(~x, ~λ), coincida en las variables ~x con la solución del problema original (P ), y cumpla las
restricciones gi (~x) = 0, para todo i ∈ {1, . . . , m}.
Definición 4 (Conjunto factible). El conjunto factible S ⊆ Rn del problema (P ) es el conjunto de puntos de Rn que satisface las restricciones del problema, es decir,
S = {~x = (x1 , . . . , xn ) ∈ D : gi (x1 , . . . , xn ) = 0, i = 1, . . . , m}
8
Definición 5 (hipótesis de calificación de las restricciones). Diremos que el punto ~x0 satisface
la hipótesis de calificación de las restricciones si el conjunto {∇g1 (~x0 ), . . . , ∇gm (~x0 )} es una
familia linealmente independiente de vectores.
Estudiemos primero el caso de una restricción.
Teorema 5 (Multiplicadores de Lagrange, una restricción). Sean f, g : D ⊆ Rn → R dos
funciones de clase C 1 . Consideremos el problema
min f (~x)
s.a.
(ó
max f (~x))
g(~x) = 0.
Sea ~x0 un extremo local de f en S. Supongamos que ∇g(~x0 ) 6= ~0, es decir, ~x0 satisface la
hipótesis de calificación. Entonces, existe λ ∈ R tal que
∇f (~x0 ) = λ∇g(~x0 ).
Teorema 6 (Multiplicadores de Lagrange, caso general). Sean f, g1 , . . . , gm : D ⊆ Rn → R
funciones de clase C 1 , con m < n. Sea ~x0 un extremo local de f en S que satisface la hipótesis
de clasificación. Entonces existen constantes λ1 , . . . , λm ∈ R tales que
∇f (~x0 ) =
(C)
m
X
λi ∇gi (~x0 ).
i=1
Observación 8. Las constantes λ1 , . . . , λm se llaman multiplicadores de Lagrange. La
función L : Rn × Rm → R definida por
L(x1 , . . . , xn , λ1 , . . . , λm ) = f (x1 , . . . , xn ) −
m
X
λi gi (x1 , . . . , xn ),
i=1
se conoce como Lagrangeano del problema. Observemos que

Pm
∂L
∂f
∂gi

~


 ∂xj (~x, λ) = ∂xj (~x) − i=1 λi ∂xj (~x), j = 1, . . . , n

∂L


(~x, ~λ) = gi (~x),
i = 1, . . . , m.

∂λi
Entonces, (~x0 , ~λ) ∈ Rn × Rm satisface (C) con ~x0 ∈ S si y sólo si es un punto crı́tico del
Lagrangeano, es decir, ∇L(~x0 , ~λ) = ~0.
Ejemplo 4. Encontrar los puntos de la curva C ⊆ R3 definida como la intersección entre
las superficies de ecuaciones
x2 − xy + y 2 − z 2 = 1,
y
que están a distancia máxima y mı́nima del origen.
x2 + y 2 = 1,
9
Solución: La distancia de un punto (x, y, z) al origen es
D(x, y, z) =
p
x2 + y 2 + z 2
Entonces, el Lagrangeano del problema es
L(x, y, z, λ1 , λ2 ) =
p
x2 + y 2 + z 2 − λ1 (x2 − xy + y 2 − z 2 − 1) − λ2 (x2 + y 2 − 1).
La ecuación ∇L = ~0 se escribe como
x
p
= λ1 (2x − y) + 2λ2 x,
x2 + y 2 + z 2
y
p
= λ1 (−x + 2y) + 2λ2 y,
2
x + y2 + z2
z
p
= −2λ1 z,
x2 + y 2 + z 2
x2 − xy + y 2 − z 2 − 1 = 0,
x2 + y 2 − 1 = 0.
Es claro que la curva no pasa por el origen, luego (x, y, z) 6= (0, 0, 0) para todo (x, y, z) ∈ C.
Multiplicando la primera ecuación por y, la segunda por x, luego restando, se obtiene que
λ1 (x2 − y 2 ) = 0. Las posibilidades son entonces λ1 = 0, x = y ó x = −y.
• Si λ1 = 0, entonces z = 0 y con ello, x2 − xy + y 2 = 1. De esta última ecuación y de
x2 + y 2 − 1 = 0, se obtiene que x = 0 ó y = 0. Si x = 0, entonces y = ±1 y λ2 = 1/2. Si
y = 0, entonces x = ±1 y otra vez λ2 = 1/2.
Resumiendo, obtenemos que los siguientes son puntos crı́ticos del Lagrangeano:
1
1
1
1
, −1, 0, 0, 0,
, 0, 1, 0, 0,
, 0, −1, 0, 0,
1, 0, 0, 0,
2
2
2
2
√
• Si se tiene qu x = y, entonces de la última ecuación del sistema se deduce x = ±
2
2 .
Para calcular el valor de z, ocupamos la ecuación x2 − xy + y 2 − z 2 − 1 = 0. Luego se tiene
que z 2 = −x2 y entonces x = z = 0, una contradicción.
• En el caso que x = −y, la última ecuación del sistema implica que x = ±
que de la penúltima, se deduce la igualdad
z2
=
x2 ,
√
2
2 ;
mientras
es decir z = ±x. Con estos valores, en
cada caso, se obtienen los multiplicadores de Lagrange λ1 , λ2 . De este análisis obtenemos los
puntos crı́ticos
√
√ √
√ ! √
√
√
√ !
2
2 2 −1
2
2
2
2 −1
2
,−
,
, √ ,−
,
,−
,−
, √ ,−
,
2
2 2
8
2
2
2
8
6
6
√ !
√ !
√ √ √
√ √
√
2 2 2 −1
2
2 2
2 −1
2
−
,
,
, √ ,−
, −
,
,−
, √ ,−
.
2 2 2
8
2 2
2
8
6
6
10
Figura 1. Intersección de las superficies x2 − xy + y 2 − z 2 = 1 y x2 + y 2 = 1.
Ahora bien, ¿Cómo saber cuál o cuáles puntos minimizan y maximizan la función
objetivo? No tenemos, en este caso, un criterio de segundo orden. Es necesario entonces
refinar el análisis. Notemos que la curva intersección es cerrada y acotada, es decir, compacta
(y tiene dos secciones separadas, Ver Figura 1). Primero, la curva es cerrada trivialmente.
Para ver que la curva es acotada, usamos que está contenida en el cilindro x2 + y 2 = 1 y, al
reemplazar en la ecuación de la primera superficie, se obtiene que z 2 = −xy. Como x e y son
acotados, z es acotado en C. Esto prueba que la figura es acotada.
Luego, usando el Teorema de Wierstrass y el hecho que la distancia es una función continua, sabemos que la distancia al origen tiene un máximo y un mı́nimo. Como hemos
detectado todos los posibles candidatos a puntos extremos del problema restringido basta
evaluar simplemente en los puntos que obtuvimos y comparar los valores. Luego,
D(1, 0, 0) = D(−1, 0, 0) = D(0, 1, 0) = D(0, −1, 0) = 1.
Por otro lado,
√ √ !
√
2
2 2
,−
,
=D
D
2
2 2
√
√
√ !
2
2
2
,−
,−
,
2
2
2
√ √ √ !
√ √
√ ! r
2 2 2
2 2
2
3
=D −
,
,
=D −
,
,−
=
> 1.
2 2 2
2 2
2
2
Entonces, los primeros cuatro puntos corresponden a mı́nimos de la distancia al origen de la
curva mientras los últimos cuatro son máximos.
11
Observación 9. El estudio de condiciones generales de segundo orden para extremos restringidos va más allá del objetivo de este resumen de curso. Luego, nos remitiremos principalmente al caso donde el conjunto es compacto y se puede hacer un razonamiento análogo
al del ejemplo.
El siguiente ejemplo muestra la importancia de verificar que el punto en estudio verifica
las condiciones de calificación.
Ejemplo 5. Se quiere encontrar el mı́nimo de la función f (x, y, z) = y + x2 z bajo las restricciones x6 − z = 0, y 3 − z = 0. ¿Cuál es el mı́nimo de la función? ¿Se puede usar el método
de los multiplicadores de Lagrange en este caso?
Solución: Las restricciones nos dicen que y ≥ 0 y z ≥ 0 y entonces f ≥ 0 para todo
(x, y, z) en el conjunto definido por las restricciones. Como (0, 0, 0) es factible, tiene que ser
el mı́nimo de f . (También se puede reemplazar directamente el valor de y, z en función de x
y escribir una función de una variable).
Ahora bien, definiendo g1 (x, y, z) = x6 − z y g2 (x, y, z) = y 3 − z, se ve que ∇g1 (0, 0, 0) =
∇h2 (0, 0, 0) = (0, 0, −1), es decir, no son linealmente independientes y el método de Lagrange
no entregará información. De hecho, ∇f (0, 0, 0) = (0, 1, 0) y entonces es imposible que existan
multiplicadores de Lagrange, dado que este vector no puede ser una combinación lineal entre
∇g1 (0, 0, 0) y ∇g2 (0, 0, 0).
4. Extremos de funciones con restricciones de igualdad y desigualdad:
Condiciones de Karush-Kuhn-Tucker (KKT)
En esta sección trataremos un caso más general de optimización que surge cuando aparecen
tanto restricciones de igualdad como de desigualdad. Nos interesa un problema del tipo
min f (~x)
(Q)
s.a.
gi (~x) = 0,
i = 1, . . . , m,
hi (~x) ≤ 0,
i = 1, . . . , `.
donde f, gi , hj : D ⊆ Rn → R son funciones de clase C 1 . Como antes, las funciones gi definen
restricciones de igualdad, mientras que las hj definen restricciones de desigualdad.
Observación 10. Notemos que en este caso sólo hablamos de un problema de minimización.
Para estudiar el problema de maximización, basta usar la relación
− min −f (x) = max f (x).
x∈C
x∈C
Observación 11. En un ligero abuso de notación, se suele decir que “gi es una restricción
de igualdad” y que “hj es una restricción de desigualdad”,
12
Definición 6 (Conjunto factible). El conjunto factible C ⊆ Rn del problema (Q) es el conjunto de puntos ~x ∈ Rn que satisfacen todas las restricciones del problema, esto es,
C = {~x ∈ D : gi (~x) = 0, ∀ i = 1, . . . , m ; hj (~x) ≤ 0, ∀ j = 1, . . . , `} ⊆ Rn .
A un punto de este conjunto lo llamaremos punto factible.
Definición 7 (Restricción activa). Diremos que una restricción de desigualdad hj está activa en el punto factible ~x0 si ésta se satisface con igualdad, esto es, si hj (~x0 ) = 0. Definiremos el conjunto de ı́ndices correspondientes a las restricciones activas en ~x0 por:
J(~x0 ) = {j ∈ {1, . . . , `} : hj (~x0 ) = 0}.
Intuitivamente, la idea en el desarrollo del criterio de Karush-Kuhn-Tucker (KKT) usa el
hecho que si una restricción de desigualdad, hj , está activa en el óptimo ~x0 , entonces puede
tratarse como una de igualdad asignándosele un multiplicador µj . Si no está activa entonces
puede ignorarse, con lo que su multiplicador µj debe ser cero. La condición que resume esta
discusión es simplemente que µj hj (~x0 ) = 0. Más aún el multiplicador asociado µj deberá ser
positivo.
Tal como en el caso con restricciones de igualdad, se necesita una condición de calificación
en el punto de estudio.
Definición 8 (hipótesis de calificación de las restricciones). Diremos que el punto ~x0 satisface
la hipótesis de calificación de las restricciones si el conjunto
{∇gi (~x0 ), ∇hj (~x0 ), i ∈ {1, . . . , m}, j ∈ J(~x0 )}
es linealmente independiente.
Observación 12. Note que el conjunto anterior considera solo aquellas restricciones de
desigualdad que están activas en ~x0 .
El siguiente teorema describe condiciones de primer orden para el problema (Q) y se
conoce como el criterio de Karush-Kuhn-Tucker (KKT). Permite, tal como en el caso sin
restricciones o con restricciones de igualdad, encontrar candidatos a óptimos (locales) del
problema de optimización en estudio.
Teorema 7 (KKT). Sean f : Rn → R, gi : Rn → R, i = 1, . . . , m y hj : Rn → R, j = 1, . . . , `
funciones de clase C 1 . Sea ~x0 un extremo del problema (Q) que satisface la hipótesis de
13
calificación. Entonces existen escalares λ1 , . . . , λm ∈ R y µ1 , . . . , µ` ∈ R tales que
∇f (~x0 ) +
[Optimalidad]
m
X
λi ∇gi (~x0 ) +
i=1
l
X
µj ∇hj (~x0 ) = ~0,
j=1
[Holgura Complementaria]
µi hi (~x0 ) = 0,
i = 1, . . . `
[Positividad]
µi ≥ 0,
i = 1, . . . , `.
Observación 13. Al comparar las condiciones de Optimalidad de KKT con la condición
(C) del caso con restricciones de igualdad podemos notar una pequeña “inconsistencia” en el
signo asociado al multiplicador λi . Naturalmente, esto no tiene influencia en los resultados
aquı́ expuestos pues se trata simplemente de una convención.
Veamos como se usan las condiciones de primer orden (KKT) mediante un ejemplo.
Ejemplo 6. Considere el problema
min − 3x + y − z 2
s.a.
− x − 2y + z 2 = 0
x + y + z ≤ 0.
Escribir las ecuaciones de KKT para el problema y encontrar el o los candidatos a soluciones
óptimas del problema.
Solución: Identifiquemos primero los elementos para aplicar el Teorema 7. Se tiene que
m = 1, ` = 1, f (x, y, z) = −3x + y − z 2 , g(x, y, z) = −x − 2y + z 2 , h(x, y, z) = x + y + z.
Además,
∇f (x, y, z) = (−3, 1, −2z),
∇g(x, y, z) = (−1, −2, 2z)
∇h(x, y, z) = (1, 1, 1), .
Luego, las condiciones de KKT en este caso corresponden a encontrar un vector (x, y, z, λ, µ)
tal que
 
   
0
1
−1
   


 
 1  + λ −2 + µ 1 = 0 ,
   

 

2z
1
0
−2z

−3

µ ≥ 0.
Es decir,



−3 − λ + µ






1 − 2λ + µ



−2z + 2λz + µ





µ(x + y + z)





µ
=0
=0
=0
=0
≥ 0.
14
De las dos primeras ecuaciones se deduce el valor de los multiplicadores µ = 7 > 0, λ = 4.
Conocidos los multiplicadores y usando la tercera ecuación, se tiene que z = − 67 . Usando
la holgura complementaria, se obtiene que x + y − 7/6 = 0. Por último, para encontrar los
valores de x e y, es necesario resolver el sistema de ecuaciones:
2
7
−x − 2y +
=0
6
7
x + y − = 0.
6
Luego x =
35
36
ey=
7
36 .
Es decir, el punto candidato a óptimo (local a priori) es (x0 , y0 , z0 ) =
7
7
( 35
36 , 36 , − 6 ). Queda como ejercicio comprobar que la condición de calificación de restricciones
se cumple en (x0 , y0 , z0 )
Una observación interesante es la siguiente. El conjunto factible en este caso es no acotado, luego se necesita un criterio de segundo orden para saber si se trata efectivamente de un
mı́nimo. Sin embargo, como sabemos que el multiplicador µ es estrictamente positivo, podemos convertir este problema particular en uno de dos variables: minimizar 3x + y − (x + y)2
sujeto a la restricción −x − 2y + (x + y)2 = 0. Convénzase gráficamente que el punto encontrado es un mı́nimo.
Ejemplo 7. Analizar, utilizando las condiciones de KKT, el problema
max
x − e−y
sin(x) + y ≤ 0
0≤x≤π
Solución: El problema a resolver es equivalente al siguiente:
−min e−y − x
sin(x) + y ≤ 0
x−π ≤0
−x ≤ 0
Si f (x, y) = e−y − x, h1 (x, y) = sin(x) + y, h2 (x, y) = x − π, h3 (x, y) = −x, entonces los
gradientes respectivamente son:
∇f (x, y) = (−1, −e−y ),
∇h1 (x, y) = (cos(x), 1),
∇h2 (x, y) = (1, 0),
∇h3 (x, y) = (−1, 0).
15
Las condiciones de KKT son entonces h1 (x, y) ≤ 0, h2 (x, y) ≤ 0, h3 (x, y) ≤ 0 y
−1 + µ1 cos(x) + µ2 − µ3 = 0
−e−y + µ1 = 0
µ1 (sin(x) + y) = 0
µ2 (x − π) = 0
−µ3 x = 0
µ1 ≥ 0
µ2 ≥ 0
µ3 ≥ 0.
Como µ1 = e−y , entonces µ1 > 0 y, por holgura complentaria, y = −sen(x). De la primera
ecuación se obtiene que µ2 = 1 − esen(x) cos(x) + µ3 .
• Si x = π, entonces µ3 = 0 y µ2 = 1 − esen(π) cos(π) = 2 > 0. Luego el punto (π, 0, 1, 2, 0)
es solución del sistema y (π, 0) es candidato a óptimo.
• Si µ3 > 0 entonces x = 0, y = 0 y µ2 = µ3 > 0. Por holgura complementaria x = π, una
contradicción.
• Si µ3 = 0 con x 6= π entonces µ2 = 1 − esen(x) cos(x) = 0. Esta ecuación tiene dos
soluciones tales que 0 ≤ x ≤ π: x = 0 y x = x∗ con 0 < x∗ < π (¿Por qué?). Luego, hay
dos puntos crı́ticos más: (0, 0, 1, 0, 0) y (x∗ , −sen(x∗ ), esen(x∗ ) , 0, 0), implicando que (0, 0) y
(x∗ , −sen(x∗ )) también son candidatos.
Como la región factible es no acotada, necesitamos a priori un criterio de segundo orden.
Sin embargo, es fácil darse cuenta que, como se tiene siempre que y = −sen(x), la función
φ(x) = x − esen(x) es decreciente en el intervalo [0, x∗ ] y luego creciente en el intervalo [x∗ , π]
con φ(0) = −1 y φ(π) = π. Esto nos permite concluir que el punto (π, 0) es, de hecho, un
máximo global.
Ejemplo 8. Considere el problema
min
(x − 3)2 + (y − 2)2
x2 + y 2 ≤ 5
2x + y ≤ 6
x + 2y ≤ 4
x≥0
y≥0
16
Usar un método gráfico para encontrar el óptimo global del problema y verificar las condiciones de KKT en ese punto.
Solución: Para aplicar el teorema, ponemos el problema en la forma:
min
(x − 3)2 + (y − 2)2
x2 + y 2 − 5 ≤ 0
2x + y − 6 ≤ 0
x + 2y − 4 ≤ 0
−x ≤ 0
−y ≤ 0
Notemos que el óptimo para el problema irrestricto es (3, 2), sin embargo, éste no es un
punto factible. Ahora, usando el método gráfico, tenemos que según la Figura 2, el óptimo se
alcanza en (x, y) = (2, 1), es decir, la circunferencia de menor radio que interceca el conjunto
de factibilidad es aquella que pasa por este punto. Notemos además que en este punto las
restricciones 1 y 3 son activas.
Ahora verifiquemos que este punto satisface las condiciones de KKT.
Las condiciones de KKT son entonces
2(x − 3) + 2µ1 x + 2µ2 + µ3 − µ4 = 0
2(y − 2) + 2µ1 y + µ2 + 2µ3 − µ5 = 0
µ1 (x2 + y 2 − 5) = 0
µ2 (2x + y − 6) = 0
µ3 (x + 2y − 4) = 0
µ4 (−x) = 0
µ5 (−y) = 0
µi ≥ 0
i = 1, 2, 3, 4, 5.
Verifiquemos que los multiplicadores de KKT satisfacen las condiciones de no-negatividad en
el punto (2, 1). Holgura complementaria implica que
µ2 = µ4 = µ5 = 0 ,
17
Figura 2. Método gráfico.
lo que conduce al siguiente sistema,
2(x − 3) + 2µ1 x + µ3 = 0
2(y − 2) + 2µ1 y + 2µ3 = 0
x2 + y 2 = 5
x + 2y = 4
µ1 , µ3 ≥ 0
Reemplazando (x, y) = (2, 1), tenemos que µ1 = 1/3 ≥ 0 y µ3 = 2/3 ≥ 0.
Descargar