Tema 4 Funciones convexas y optimización convexa José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Contenidos del tema 4 I Repaso de algunos resultados sobre optimización de funciones. I Funciones convexas. Caracterizaciones. I Operaciones que preservan la convexidad. I Resultados generales sobre optimización convexa. Notación Para una función f : Rn → R, denotamos I Derivada direccional: sea d ∈ Rn con d 6= 0, f 0 (x, d) = lim λ→0 f (x + λd) − f (x) . λ I Derivadas parciales: fi 0 (x) = f 0 (x, ei ) con ei = (0, . . . , 1, . . . , 0)> . I Gradiente: ∇f (x) = (f10 (x), . . . , fn0 (x))> . I Matriz Hessiana: Hf (x) = 00 (x) f11 .. . 00 (x) fn1 ··· .. . ··· 00 (x) f1n .. . 00 fnn (x) Propiedades básicas I f tiene derivadas parciales continuas ⇒ f es diferenciable ⇒ f tiene derivadas parciales. I f diferenciable ⇒ f 0 (x, d) = ∇f (x)> d. I f es diferenciable en x̄ si y solo si f (x) = f (x̄) + ∇f (x̄)> (x − x̄) + kx − x̄kR(x̄; x − x̄), donde limx→x̄ R(x̄; x − x̄) = 0. I f es diferenciable dos veces en x̄ si y solo si f (x) = f (x̄) + ∇f (x̄)> (x − x̄) + 1 (x − x̄)> Hf (x̄)(x − x̄) + kx − x̄k2 R(x̄; x − x̄), 2 donde limx→x̄ R(x̄; x − x̄) = 0. I Si f es diferenciable en x̄ y ∇f (x̄)> d < 0 (resp. > 0), entonces existe δ > 0 tal que f (x̄) > f (x̄ + λd) (resp. <) si 0 < λ < δ. Condiciones para óptimos locales Condición necesaria de primer orden: Sea f diferenciable en x̄. Si x̄ es un mı́nimo o máximo local de f entonces ∇f (x̄) = 0. Condiciones necesarias de segundo orden: Sea f dos veces diferenciable en x̄. Si x̄ es un mı́nimo local de f entonces 1. ∇f (x̄) = 0 2. Hf (x̄) es semidefinida positiva Condiciones suficientes de segundo orden: Sea f dos veces diferenciable en x̄. Si 1. ∇f (x̄) = 0 2. Hf (x̄) es definida positiva entonces x̄ es un mı́nimo local (estricto) de f . Funciones convexas Una función f : D → R es convexa si su dominio D ⊂ Rn es convexo, y para todo x, y ∈ D, para todo λ ∈ [0, 1], se verifica f (λx + (1 − λ)y ) ≤ λf (x) + (1 − λ)f (y ). I La convexidad estricta requiere < en lugar de ≤. I Una función f es (estrictamente) cóncava si −f es (estrictamente) convexa. I f es convexa si y solo si para todo x y u, g (t) = f (x + tu) es convexa (en su dominio, es decir, {t : x + tu ∈ D}). Algunos ejemplos I f (x) = x 2 es convexa. I f (x) = max{x1 , . . . , xn } donde x = (x1 , . . . , xn )> es convexa. I Las funciones afines f (x) = Ax + b son cóncavas y convexas. I Cualquier norma f (x) = kxk es una función convexa. I Si S es convexo, la distancia a S, f (x) = d(x, S) = inf kx − sk s∈S es una función convexa. Desigualdad de Jensen Teorema: Si f : D → R es convexa, entonces para todo x1 , . . . , xk de su dominio y λ1 , . . . , λn ≥ 0 con λ1 + · · · + λk = 1 se cumple f (λ1 x1 + · · · + λk xk ) ≤ λ1 f (x1 ) + . . . + λk f (xk ). Demostración: Por inducción sobre k, observando que si x = λ1 x1 + · · · + λk+1 xk+1 , P entonces x = λy + (1 − λ)xk+1 , donde y = ki=1 (λ1 /λ)xi , con λ = 1 − λk+1 . Si X es una v.a. que toma los valores xi con probabilidad λi , entonces f [E(X )] ≤ E[f (X )]. Epigrafo El epigrafo de una función f : D → R se define como: epi(f ) = {(x, t) : x ∈ D, f (x) ≤ t} ⊂ Rn+1 . Teorema: Una función es convexa si y solo si su epigrafo es un conjunto convexo. Teorema: Sea {fi : i ∈ I } una familia de funciones convexas definidas sobre un conjunto convexo no vacı́o S tal que para todo x ∈ S, el conjunto {fi (x) : i ∈ I } está acotado superiormente. Entonces la función f (x) = sup{fi (x) : i ∈ I }, x ∈ S, es convexa. Demostración: epi(f ) = T i∈I epi(fi ). Funciones convexas diferenciables Teorema: Sea f : D → R diferenciable sobre un dominio convexo y abierto D. Entonces, f es convexa si y solo si f (x) ≥ f (x̄) + ∇f (x̄)> (x − x̄), para todo x, x̄ ∈ D. Demostración: (⇒) Si x, x̄ ∈ D y f es convexa en D, f (λx + (1 − λ)x̄) ≤ λf (x) + (1 − λ)f (x̄) ⇔ [f x̄ + λ(x − x̄) − f (x̄)]/λ ≤ f (x) − f (x̄). Se toman lı́mites cuando λ → 0. (⇐) Si x 6= y y λ ∈ [0, 1], se aplica la condición a x e y con x̄ = λx + (1 − λ)y : f (x) ≥ f (x̄) + ∇f (x̄)(x − x̄) y f (y ) ≥ f (x̄) + ∇f (x̄)(y − x̄). Se multiplica la primera desigualdad por λ, la segunda por 1 − λ y se suman. Funciones convexas diferenciables dos veces Teorema: Sea f : D → R con dos derivadas continuas sobre un dominio convexo y abierto D. Entonces, f es convexa si y solo si Hf (x) es semidefinida positiva para todo x ∈ D. Demostración: Para n = 1 se demuestra en los ejercicios. Para n > 1 se considera g (λ) = f (x + λd) y se tiene en cuenta que g 00 (λ) = d > Hf (x + λd)d. I Una función dos veces diferenciable es cóncava si D es convexo y Hf (x) es semidefinida negativa para todo x ∈ D. I Si Hf (x) es definida positiva para todo x ∈ D, la función es estrictamente convexa, pero el recı́proco no es cierto (por ejemplo, f (x) = x 4 ). Operaciones que preservan la convexidad I El supremo de funciones convexas es una función convexa. I Sumas ponderadas no negativas: Si fi convexa y wi ≥ 0, para i = 1, . . . , n, entonces f = w1 f1 + . . . + wn fn es convexa. I Composición con una aplicación afı́n: g (x) = f (Ax + b) es convexa si f es convexa. I Composición: Sea D ⊂ Rn y f : D → R convexa. Sea I ⊂ f (D) un intervalo tal que g : I → R es creciente y convexa. Entonces la composición g ◦ f es convexa. I Minimización parcial: Si f es convexa en (x, y ) y C es un conjunto convexo no vacı́o, la función g (x) = inf y ∈C f (x, y ) es convexa en x. Más ejemplos de funciones convexas I f (x) = − log x es convexa. I f (x) = e ax es convexa en R para todo a ∈ R. I f (x) = x a (x > 0) es convexa si a ≤ 0 o a ≥ 1, y cóncava si 0 ≤ a ≤ 1. I f (x) = x > Ax + a> x + c, donde A es simétrica, es convexa si y solo si A es semidefinida positiva. I Sea X una matriz n × p y sean β ∈ Rp e y ∈ Rn , entonces f (β) = ky − X βk es convexa, donde k · k es cualquier norma. Problema general de optimización convexa La optimización convexa trata el problema general de minimizar una función convexa, sobre un conjunto factible también convexo: minimizar f (x) s.a. x ∈ S, donde f : D → R es convexa y S ⊂ D ⊂ Rn es convexo. Casos particulares: I Optimización lineal. I Optimización cuadrática. I Mı́nimos cuadrados. (1) Teorema local-global En un problema convexo no hay distinción entre mı́nimos globales y locales. Teorema: Todo mı́nimo local de (1) es también un mı́nimo global de (1). Demostración: I Sea x̄ un mı́nimo local. Existe R > 0 tal que f (x̄) ≤ f (x), para todo x ∈ S ∩ B(x̄, R). I Spg. que existe y ∈ S tal que f (y ) < f (x̄). I Consideramos z = (1 − θ)x̄ + θy , para θ > 0 suficientemente pequeño. I z ∈ S ∩ B(x̄, R) pero f (z) < f (x̄). Mı́nimos globales bajo convexidad y diferenciabilidad Teorema: Consideremos el problema (1) en el que se supone además que f es diferenciable. Un punto x̄ ∈ S es mı́nimo global de (1) si y solo si ∇f (x̄)> (x − x̄) ≥ 0, para todo x ∈ S. Demostración: (⇐) Por la convexidad de f , para todo x ∈ S, f (x) ≥ f (x̄) + ∇f (x̄)> (x − x̄) ≥ f (x̄). (⇒) 1. Spg. existe x ∈ S con ∇f (x̄)> (x − x̄) < 0. Entonces, x − x̄ es una dirección de descenso local. 2. Existe 0 < λ < 1 tal que f (x̄) > f x̄ + λ(x − x̄) = f (λx + (1 − λ)x̄). 3. λx + (1 − λ)x̄ ∈ S porque S es convexo. 4. Por lo tanto, x̄ no es un mı́nimo global. Observaciones 1. Si S es abierto (por ejemplo, S = Rn ) entonces la condición del teorema anterior se reduce a ∇f (x̄) = 0. (Considera x = x̄ − λ∇f (x̄), para λ > 0 suf. pequeño.) 2. Sin embargo, si S no es abierto la condición sirve para detectar óptimos en la frontera. (min x 2 s.a. 1 ≤ x ≤ 2.) 3. Si ∇f (x̄) 6= 0, entonces −∇f (x̄) define un hiperplano soporte a S en x̄. 4. Aplicación a un problema de optimización lineal. 5. Aplicación a un problema convexo con restricciones de igualdad: min f (x) s.a. Ax = b, donde f es convexa y diferenciable. Ejemplo Resuelve gráficamente el problema: minimizar s.a. (x1 − 4)2 + (x2 − 6)2 x2 ≥ x12 x2 ≤ 4 Demuestra analı́ticamente que la solución obtenida gráficamente es el mı́nimo global del problema. Una versión más explı́cita del problema convexo En la práctica consideramos problemas convexos para los que el conjunto factible se conoce más explı́citamente: minimizar s.a. f (x) fi (x) ≤ 0, ai> x = bi , i = 1, . . . , m i = 1, . . . , p, donde las funciones f , f1 , . . . , fn son convexas. Equivalentemente, minimizar s.a. f (x) fi (x) ≤ 0, Ax = b, i = 1, . . . , m donde las filas de A son los vectores ai> . Denotamos por D la intersección de los dominios de todas las funciones del problema.