Apuntes

Anuncio
Optimización Sin Restricciones
Departamento de Matemáticas, CSI/ITESM
1 de mayo de 2009
Índice
14.1. Introducción . . . . . . . . . . . . .
14.2. Óptimos de una Función . . . . . .
14.3. Punto Crı́tico o Estacionario . . .
14.4. Teorema Clave . . . . . . . . . . .
14.5. Ejemplo 1: Clasificación de puntos
14.6. Ejemplo 2 . . . . . . . . . . . . . .
14.7. Algunos comandos en la TI . . . .
14.8. Resultados requeridos . . . . . . .
14.1.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
3
6
9
10
Introducción
En esta sección se verá un método analı́tico para optimizar una función real en el caso que no existan
restricciones sobre el dominio de la función y cuando la función admite segundas derivadas continuas. Esta
técnica generaliza la técnica de optimización de funciones en una variable utilizando cálculo diferencial: primeramente se determina cuáles son los candidatos a óptimos, y posteriormente se aplica un criterio basado en la
segunda derivada para determinar si corresponden a un máximo o mı́nimo relativo. Primeramente definiremos
los puntos crı́ticos, que son los únicos puntos candidatos a óptimos de la función. Seguido de esto, se formula
el principal resultado que caracteriza los puntos máximos y mı́nimos locales e ilustraremos el proceso de optimización con un par de ejemplos detallados hechos a mano y usando la calculadora TI. En la última sección
se listan los resultados teóricos que son los argumentos necesarios para el teorema que caracterı́za los óptimos
locales.
14.2.
Óptimos de una Función
Definamos el óptimo de una función.
Definición
Sea f una función de valor real definida sobre un conjunto D ⊆ Rn . Sea x0 un punto en D , x0 se dice un
mı́nimo local de f si existe d > 0 tal que si x ∈ D y |xo − x| < d entonces f (x) ≥ f (x0 ). Por otro lado, se dice
máximo local si se cumple f (x) ≤ f (x0 ). En general, el concepto óptimo local se refiere a mı́nimos o máximos
locales. El valor del óptimo local x0 es f (x0 ).
14.3.
Punto Crı́tico o Estacionario
La siguiente definición nos da una condición necesaria que deben cumplir lo óptimos locales: Uno de nuestros
resultados importantes asegura que los óptimos locales deben ser puntos estacionarios. La definición se ve como
parte del proceso analı́tico de obtención de los óptimos de una función: la primera fase será determinar los
puntos crı́ticos.
Definición
Sea f una función de valor real definida sobre un conjunto D ⊆ Rn . Un punto x0 ∈ D se llama punto
estacionario o punto crı́tico si todas las parciales de f se hacen cero cuando se evaluan en x0 . Es decir, si
∇f (x0 ) = 0
14.4.
(1)
Teorema Clave
El resultado importante siguiente da las condiciones ncesarias y suficientes para los óptimos locales.
Teorema 14.1
Sea f : D ⊆ Rn → R. Suponga que f tiene segundas derivadas parciales continuas en D. Si x0 es
un punto estacionario de f entonces f tiene en x0 . . .
un mı́nimo local si Hf (x0 ) es positiva definida. (Todos los valores propios de Hf (x0 ) son
positivos)
un máximo local si Hf (x0 ) es negativa definida. (Todos los valores propios de Hf (x0 ) son
negativos)
un punto silla si Hf (x0 ) tiene valores propios negativos y también positivos.
Demostración
Al aplicar la fórmula de Taylor de segundo orden a f (x) en el punto estacionario x = x0 (Ası́ se cumple
∇f (x0 ) = 0) nos da:
1
f (x0 + x) − f (x0 ) = Q(x) + kxk2 E2 (x0 , x)
2
en donde E2 (x0 , x) → 0 cuando x → 0.
Supongamos que todos los valores propios λ1 ,λ2 ,. . . ,λn de Hf (x0 ) son positivos. Sea δ = 21 mı́n {λi }. Ası́ todos
los números λ1 − h,λ2 − h,. . . ,λn − h son positivos. Se prueba fácilmente que z es vector propio de Hf (x0 )
asociado al valor propio λi si y sólo si z es vector propio de la matriz simétrica [Hf (x0 ) − h I] asociado al valor
propio λ − h. Por consiguiente y por el resultado anterior, x′ [Hf (x0 ) − h I] x > 0 para todo x 6= 0. Y por
consiguiente
Q(x) = x′ Hf (x0 ) x > x′ (h I) x = h kxk2
para todo x 6= 0. Puesto que E2 (x0 , x) → 0 cuando x → 0, existe un r positivo tal que |E2 (x0 , x)| <
los vectores x que cumplen 0 < kxk < r. Entonces para tales vectores x tenemos
1
1
2
2 1
0 ≤ kxk |E2 (x0 , x)| < kxk
h = h kxk2 < Q(x)
4
4
2
De esto se tiene que
1
Q(x) − kxk2 |E2 (x0 , x)| > 0
2
2
1
4
h para
Por otro lado E2 (x0 , x) ≥ −|E2 (x0 , x)| implica que kxk2 E2 (x0 , x) ≥ −kxk2 E2 (x0 , x). De donde obtenemos
1
1
f (x0 + x) − f (x0 ) = Q(x) + kxk2 E2 (x0 , x) ≥ Q(x) − kxk2 E2 (x0 , x) > 0
2
2
para los vectores x que cumplen 0 < kxk < r. Ası́ concluimos que x0 corresponde a un mı́nimo local de f (x)
14.5.
Ejemplo 1: Clasificación de puntos
Para la función:
f (x, y) = 27 x −
1 3
x − 2 y2 + y4
9
clasifique los siguientes puntos:
a) P (−3, 1)
b) Q (9, −1)
c) R (−9, 1)
d) S (9, 0)
e) T (−9, 0)
respecto a las opciones:
1) Punto crı́tico: mı́nimo relativo
2) Punto crı́tico sin información por el criterio de la Hessiana
3) No punto crı́tico
4) Punto crı́tico: máximo relativo
5) Punto crı́tico: punto silla
Solución
La idea es sustituir cada uno de los puntos en el gradiente para determinar si el punto es punto crı́tico. Sólo
en caso de serlo, debemos sustituir en la Hessiana para ver si es máximo o mı́nimo local. En nuestro ejemplo
fx = 27 − 13 x2
fy = −4 y + 4 y 3
∇f = < 27 − 31 x2 , −4 y + 4 y 3 >
En la figura 1 se ilustra: limpieza de las variables, la captura de f (x, y) y la obtención de las parciales. En las
pantallas de la figura 2 se registran la captura de los puntos en la variable p y el cálculo de la matriz hessiana.
Análisis de P (−3, 1)
Como
∇f (P ) =< 24, 0 >6=< 0, 0 >
P (−3, 1) no es un punto crı́tico y por tanto no puede ser ni máximo ni mı́nimo relativo. En la figura 3 se ilustra
la sustitución del punto P (−3, 1) y del Q(9, −1) en ∇f .
Análisis de Q (9, −1)
Como
∇f (Q) =< 0, 0 >
3
Figura 1: Registro de f (x, y), fx y fy
Figura 2: Registro de puntos y Cálculo de la hessiana
Figura 3: Cálculo de ∇f (P ) y de ∇f (Q)
4
Figura 4: Criterio en Q(9, −1).
Figura 5: Criterio en R(−9, 1).
por tanto, Q(9, −1) es un punto crı́tico. Revisemos el criterio de la segunda derivada:
−6 0
Hf (Q) =
0 8
y ası́ los eigenvalores propios de Hf (Q) son -6 y 8. Por tanto, el punto Q(9, −1) es un punto silla. Los cálculos
se ilustran en la figura 4.
Análisis de R (−9, 1)
Como
∇f (R) =< 0, 0 >
por tanto, Q(−9, 1) es un punto crı́tico. Revisemos el criterio de la segunda derivada:
6 0
Hf (R) =
0 8
y aı́s los eigenvalores propios de Hf (R) son 6 y 8. Por tanto, el punto R(−9, 1) es un mı́nimo relativo. Los
cálculos se ilustran en la figura 5.
Análisis de S (9, 0)
Como
∇f (S) =< 0, 0 >
por tanto, S(9, 0) es un punto crı́tico. Revisemos el criterio de la segunda derivada:
−6 0
Hf (S) =
0 −4
y ası́ los eigenvalores propios de Hf (S) son -6 y -4. Por tanto, el punto S(9, 0) es un máximo relativo. Los
cálculos se ilustran en la figura 6.
Análisis de T (−9, 0)
Como
∇f (S) =< 0, 0 >
5
Figura 6: Criterio en S(9, 0).
Figura 7: Criterio en T (−9, 0).
por tanto, T (−9, 0) es un punto crı́tico. Revisemos el criterio de la segunda derivada:
6 0
Hf (T ) =
0 8
y ası́ los eigenvalores propios de Hf (T ) son 6 y 8. Por tanto, el punto T (−9, 0) es un mı́nimo relativo. Los
cálculos se ilustran en la figura 7.
Notas
Observe en las pantallas de la TI el uso de la variable i: este truco permite el reuso de las entradas anteriores
evitando ası́ el volver a escribir los comandos, para ello basta volver a localizar el comando utilizando el cursor.
Observe también el comando | utilizado para sustituir valores por variables en una expresión sin necesidad
de hacer una asignación.
14.6.
Ejemplo 2
Veamos ahora un ejemplo donde se ilustra el proceso de optimización cuando no existen restricciones. El
proceso consiste de dos fases. En la primera se determnan los puntos estacionarios resolviendo el sistema de
ecuaciones ∇f = 0. Los puntos buscados están dentro de este conjunto. La fase siguiente consiste en aplicar
el criterio para determinar si son máximos o mı́nimos locales.
Ejemplo
Analice la función: f : R2 → R definida por:
f (x, y) = x3 + y 3 − 3 x y
Solución
Determinemos primero los puntos crı́ticos. Para ello determinemos el gradiente de la función:
∇f (x) =< 3 x2 − 3 y, 3 y 2 − 3 x >′
Los puntos crı́ticos satisfacen ∇f (x) =< 0, 0 >′ , por tanto:
3 x2 − 3 y = 0 y 3 y 2 − 3 x = 0
6
De donde:
x2 − y = 0 y y 2 − x = 0
Despejando y de la primera y sustituyendo en la segunda obtenemos:
(x2 )2 − x = x4 − x = x (x3 − 1) = x (x − 1) (x2 + x + 1) = 0
Las raı́ces son
1 1 √
1 1 √
+ i 3, x4 = − i 3
2 2
2 2
Puesto que estamos sólo interesados en las raı́ces reales, sólo consideraremos a x1 = 0 y x2 = 1.
crı́ticos quedan: (como y = x2 ):
x1 = 0, x2 = 1, x3 =
Los puntos
x = 0 , y = 0: P (0, 0)
x = 1 , y = 1: Q(1, 1)
El siguiente paso es determinar cuáles son máximos o mı́nimos relativos y cuáles puntos silla. Para ello determinemos la matriz Hessiana de f :
6x −3
Hf (x) =
−3 6y
Para P (0, 0):
Hf (P ) =
0 −3
−3 0
→ Valores propios: − 3, 3
Da signos intercambiados: P (0, 0) es punto silla.
Para Q(1, 1):
Hf (Q) =
6 −3
−3 6
→ Valores propios: 9, 3
Todos positivos: Q(1, 1) es punto mı́nimo relativo.
Para terminar de convencernos de que efectivamente el criterio es válido tomemos el punto P (0, 0). La
matriz Hessiana tuvo valores propios α1 = 3 y α2 = −3. Tomemos el valor propio α1 . Para este valor propio
de Hessiana evaluada en P (0, 0) tiene como vector propio v1 =< 1, −1 >: esta dirección define en el punto
P (0, 0) a la recta y = −x. Si sobre esta recta consideramos a la función f (x, y) tenemos:
F (x) = f (x, y = −x) = x3 + (−x)3 − 3x(−x) = 3 x2
Si analizamos esta función efectivamente descubriremos que en x = 0 la función tiene un mı́nimo. Resumiendo:
en el punto P (0, 0) y en la dirección v1 =< 1, −1 > la función f (x, y) tiene un minimo. Por otro lado, para
el valor propio α2 = −3 la Hessiana evaluada en P (0, 0) tiene como vector propio v2 =< 1, 1 >: esta dirección
define en el punto P (x, y) la recta y = x. Si sobre esta recta consideramos la función f (x, y) tenemos
G(x) = f (x, y = x) = x3 + (x)3 − 3x (x) = 2 x3 − 3 x2
Si analizamos esta función efectivamente descubriremos que en x = 0 la función tiene un máximo en x = 0.
Resumiendo: en el punto P (0, 0) y en la dirección v2 =< 1, 1 > la función f (x, y) tiene un máximo. De estos
dos análisis concluimos que efectivamente la función f (x, y) tiene un punto crı́tico en P (0, 0).
Repitamos los cálculos en la TI. En la figura 9 se ilustra: la limpieza de las variables x y y; el registro
de la función f ; el cálculo de las parciales de f ; y la determinación de los puntos crı́ticos. En la figura 10
se ilustra la salida de la solución del sistema de ecuaciones que define los puntos crı́ticos. Por conveniencia,
se recomienda utilizar el comando exp◮list para convertir la solución dada por la calculadora en un formato
7
Figura 8: Graficas de F (x) y de G(x)
Figura 9: Preparación para el ejemplo 2.
Figura 10: Puntos crı́ticos de f .
Figura 11: Salida de exp◮list y cálculo de Hf .
8
Figura 12: Análisis de Q(1, 1) (p[1]) y de P (0, 0) (p[2]).
más fácil de manipular. En la figura 11 se ilustra la salida del comando exp◮list el cual es una matriz donde
las raı́ces están por renglones y el orden en las columnas está relacionado con el orden del segundo argumento
de exp◮list. También se ilustra parcialmente el registro de la Hessiana de f en la variable h. En las pantallas
de la figura 12 se muestran los resultados de sustituir los puntos en la matriz Hessiana de f y el cálculo de
sus eigenvalores. Recuerde que el primer renglón contiene las componentes del punto Q(1, 1), mientras que el
segundo renglón las de P (0, 0). Estos resultados confirman que Q(1, 1) es un mı́nimo relativo y que P (0, 0) es
un punto silla.
14.7.
Algunos comandos en la TI
En esta lectura usamos ciertos comandos que quizá merecen una explicación:
DelVar
exp◮list
|
d
DelVar var1, var2, var3, . . .
Este comando se usa para limpiar variables y es útil cuando se desea construir una expresión matemática que
involucra a ciertas variables. Previo a definir la expresión se debe invocar este comando. Ud. puede teclear
directamente la palaba delvar con minúsculas y su calculadora reconocerá el comando DelVar. Este comando
puede ser invocado con una o variables variables. En caso de ser varias, éstas deben ir separadas por comas: los
espacios no son necesarios. Este comando equivale entrar al var-link y limpiar la o las variables declaradas.
exp◮list(exp, {var1, var2, var3, . . .})
Este comando es útil para convertir las soluciones a un sistema de ecuaciones que proporciona la calculadora
TI en una matriz cuyos renglones son cada una de las raı́ces. Se asume que exp es una expresión del tipo
var1 = v11 and var2 = v12 and · · · and varN = v1N
or
..
.
or
var1 = vM 1 and var2 = vM 2 and · · · and varN = vM N
la cual es precisamente la forma de la salida del comando solve. La invocación de este comando crea la matriz:


v11 v12 · · · v1N
 ..
..
.. 
..
 .
.
.
. 
vM 1 v M 2 · · ·
9
vM N
Hay dos maneras de conseguir el comando exp◮list. Una manera es ingresar desde catalog ( 2nd 2 , en la
TI voyage 200) y luego moviéndose con las flechas hasta localizar la función (se puede presionar la letra e para
moverse al principio de las funciones que inician con e y después continuar con el movimiento del cursor). La
otra consiste en teclear directamente el comando ubicando adecuadamente el caracter ◮ en el teclado ( 2nd
Y , en la TI voyage 200).
Otra cosa importante de notar es que el orden de los valores en la columna va acorde con el orden declarado en
el segundo argumento (exp, {var1, var2, var3, . . .}) y no con el orden de aparición de las variables en la solución.
exp | var1 = v1 and var2 = v2 and · · ·
Esta construcción permite sustituir los valores vi de las variables vari en exp. Esto es muy conveniente pues no
ocurre una asignación de las variables que puedan contaminar los siguientes cálculos. El caracter | se obtiene
en la TI voyage 200 con la combinación 2nd K .
d (exp, var) o d (exp, var, n)
Este comando se usa para calcular derivadas de exp respecto a la variable var. El tercer argumento opcional
n indica el número de veces consecutivas que se deriva exp. Note la diferencia entre escribir la letra d y y el
comando d : El comando de derivación se obtiene en el menú de math en el submenú calculus, o con las teclas
2nd 8 en la TI voyage 200.
14.8.
Resultados requeridos
La teorı́a detrás de este método de optimización se basa en ciertos resultados sobre matrices y otros referentes a cálculo. El siguiente resultado es uno de los más importantes del álgebra lineal y es conocido como el
teorema espectral. Una de las cosas soprendentes es que un concepto simple como el de simetrı́a de una matriz
pueda tener repercusiones tan importantes. La demostración de este resultado viene en el teorema 8.8 del libro
de A. Basilevsky (1983): Applied Matrix Algebra in Statistical Sciences (North-Holland, New York). Los resultados sobre cálculo se relacionan con el desarrollo de Taylor (series de potencias) de una función en variables.
Teorema 14.2
Sea A una matriz n × n simétrica. Entonces todos los valores propios de A son reales y existe
para Rn una base ortogonal formada por vectores propios de A. Más aún, si x1 , x2 ,. . . ,xn forman
una base ortogonal de vectores propios asociados a los valores propios λ1 ,λ2 ,. . . ,λn respectivamente
entonces si P es la matriz cuya columna i es el vector xi y D es la matriz diagonal cuyo elemento
(i, i) es λi , entonces
A = P D P′
Bajo el supuesto de segundas derivadas parciales continuas de una función en varias variables f , el teorema
de Clairaut afirma que las derivadas parciales cruzadas son iguales y por tanto la matriz hessiana Hf es
simétrica. Y por tanto, evaluada en cualquier punto tendrá todos sus valores propios reales.
El teorema espectral tiene un impacto inmediato sobre funciones llamadas formas cuadráticas:
Teorema 14.3
Sea A = [aij ] una matriz n × n simétrica. Si definimos la forma cuadrática en la variable x =<
x1 , x2 , . . . , xn >
n X
n
X
Q(x) = x′ Ax =
aij xi xj
i=1 j=1
entonces:
10
Q(x) > 0 para toda x 6= 0 si y sólo si todos los valores propios de A son positivos.
Q(x) < 0 para toda x 6= 0 si y sólo si todos los valores propios de A son negativos.
Demostración
Por el teorema espectral existen C ortogonal y D diagonal n × n tal que A = C′ D C por consiguiente
Q(x) = x′ A x = x′ C′ D C x = (Cx)′ D (C x)
Si definimos y = C x entonces lo anterior queda:
′
Q(x) = y D y =
n
X
λ i yi 2
i=1
Note que al ser C ortogonal, C es invertible y por lo tanto x 6= 0 si y sólo si y 6= 0.
Si todos los valores propios son positivos, claramente se tiene que Q(x) > 0 para toda x 6= 0.
Si todos los valores propios son negativos, claramente se tiene que Q(x) < 0 para toda x 6= 0.
Por otro lado:
Si suponemos que Q(x) > 0 para toda x 6= 0. Entonces tomamos x = C′ ei . Ası́ y = ei y por tanto
Q(x) =
n
X
λi ei 2 = λi > 0
i=1
Si suponemos que Q(x) < 0 para toda x 6= 0. Entonces tomamos x = C′ ei . Ası́ y = ei y por tanto
Q(x) =
n
X
λi ei 2 = λi < 0
i=1
Esto completa la demostración
Dado que calcular valores y vectores propios de una matriz es un proceso numérico complejo, el siguiente
resultado cambia el proceso de la determinación de valores propios por el proceso directo de cálculo de determinantes. La demostración de este resultado vienen en la prueba del teorema 2.14.4 del libro de P. Lancaster
(1969): Theory of Matrices (Academic Press, New York).
Teorema 14.4
Sea A una matriz simétrica n × n. A tiene todos sus valores propios positivos si y sólo si todos los
determinantes de las matrices principales primeras son positivos, esto es
a11 a12 > 0, . . . , |A| > 0.
a11 > 0, a21 a22 11
El teorema clave que da las condiciones suficientes que deben cumplir los óptimos locales para ser máximos
relativos, mı́nimos relativos o puntos sillan se deduce de variantes del teorema de Taylor que da el desarrollo
de potencias de una función. La prueba de este resultado aparece en la demostración del teorema 7.5.1 del
libro de A. Khuri (1993): Advanced Calculus with Applications in Statistics (John Wiley and Sons, New York)
Teorema 14.5
Sea f : D ⊆ Rn → R y sea B(xo ) una vecindad de xo ∈ D tal que B(xo ) ⊆ D. Si todas las
parciales de f existen y son continuas hasta orden ≤ r en B(xo ), entonces para cualquier punto
xo + x ∈ B(xo ) se cumple
f (xo + x) = f (xo ) +
r−1
X
1 ′ r
1 ′ i
x ∇ f (xo ) +
x ∇ f (zo )
i!
r!
i=1
donde zo está en la lı́nea que une xo con xo + x.
Demostración de la versión del teorema utilizada en la prueba de la suficiencia de las condiciones para
máximos, mı́nimos y puntos silla y que se formula como sigue puede ser encontrada en la prueba del teorema
9.4 del libro de T. Apostol (1980): Calculus, Volumen 2 (Reverté, Barcelona).
Teorema 14.6
Sea f (x) una función escalar definida en una n-bola B(x0 ) y con derivadas parciales de segundo
orden continuas en B(x0 ). Entonces para todo x0 + x ∈ B(x0 ) se tiene
1
f (x0 + x) − f (x0 ) = ∇f (x0 ) • x + x′ Hf (x0 ) x + kxk2 E2 (x0 , x)
2
donde E2 (x0 , x) → 0 cuando x → 0.
Del teorema anterior se deduce que en un punto crı́tico x0 el signo de f (x0 + x) − f (x0 ) es el signo de
x′ Hf (x0 ) x.
12
Descargar