Modelos Sustitutos en la optimización de procesos complejos

Anuncio
Modelos Sustitutos en la optimización de procesos
complejos
Salvador Pintos
ICA-LUZ
31/mayo/2010
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
1 / 33
Qué tipo de problemas queremos resolver
Diseño óptimo en Ingeniería que requieran simuladores computacionales
extremadamente costosos ( tiempo de ejecución)
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
2 / 33
Qué tipo de problemas queremos resolver
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
3 / 33
Características del simulador
Determinístico
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
4 / 33
Características del simulador
Determinístico
Respuesta continua y a menudo suave
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
4 / 33
Características del simulador
Determinístico
Respuesta continua y a menudo suave
Computacionalmente costoso (tiempo) que impide realizar muchas
evaluaciones
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
4 / 33
Características del simulador
Determinístico
Respuesta continua y a menudo suave
Computacionalmente costoso (tiempo) que impide realizar muchas
evaluaciones
Sin garantías de convexidad
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
4 / 33
Formulación del problema
Si x ∈ D ⊂ R p es el vector de las variables de diseño, y F es el simulador
numérico que sólo puede ser evaluado un número reducido de veces, el
problema es:
min{F (x), x ∈ D}
donde los algoritmos de optimización global -tales como DIRECT
(Lipschitzian ) o GLOBAL (multistart)- necesitan más evaluaciones que las
permitidas
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
5 / 33
Estrategia de los Modelos Sustitutos
Se parte de un diseño inicial (habitualmente Hipercubo latino (HCL))
Se evalúan en el simulador
Se construye un Modelo Sustituto
Se selecciona un nuevo punto
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
6 / 33
Características del muestreo en optimización
Compromiso entre búsqueda local y global
Se intensifica en zonas óptimas y subóptimas
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
7 / 33
Paradigma: F como una realización de un proceso
estocástico
MODELO DACE
Sacks, J., Welch, W.J., Mitchell, T.J., Wynn, H.P. (1989a) "Design and
analysis of computer experiments (with discussion)" Statistical Science 4:
409-435
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
8 / 33
Proceso estacionario
Si para cualquier conjunto finito {x1 , ...xj , ...xm } arbitrario la distribución
conjunta de las variables aleatorias asociadas {z1 , ...zj , ...zm } es invariante
a traslaciones del conjunto {x1 , ...xj , ...xm }.
Más débil: estacionario de segundo orden
E (zj ) = µ constante ∨ zj
Var (zj ) = σ 2
constante ∨ zj
cov (z(x1 ), z(x2 )) = cov (z(x1 + t), z(x2 + t))
∨t
Entonces, si h es el vector x2 − x1
cov (z(x1 ), z(x2 )) = c(h)
µ y c(h) contienen la información del proceso
ISOTROPÍA: el proceso es isotrópico si la covarianza sólo depende del
módulo: c(h) = c (khk)
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
9 / 33
Primera etapa: inferir la estructura de covarianza
Sea A = {(z1 , x1 ), ...(zj , xj ), ...(zn , xn )} una muestra del campo aleatorio
(proceso estocástico) en el espacio R p , es decir: z1 , ...zj , ...zn las variables
aleatorias definidas en los puntos x1 , ...xj , ...xn de D ⊂ R p
Anisotropía propuesta:
!
p
t
X
θk x1k − x2k cov (z(x1 ), z(x2 )) = σ 2 exp −
k=1
θk indica como decae la correlación en la dirección de la variable x k
σ 2 varianza del proceso
t habitualmente se fija en 1 o 2 dependiendo de la suavidad del proceso
Se asume (z1, ...... zn ) Normal (µ, C ) y se estima por máxima verosimilitud
los p + 2 parámetros µ, σ 2 , θ1, ..... , θp
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
10 / 33
Segunda etapa: Kriging
Dado A = {(z1 , x1 ), ...(zj , xj ), ...(zn , xn )} Kriging ordinario es un método
para predecir la variable aleatoria z(x) para todo punto x del campo D ; y,
además, establecer un valor del error de la predicción
Hipótesis
El proceso es estacionario de segundo orden
Su estructura de covarianza es conocida
La media del proceso, E (zj ) = µ , es desconocida
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
11 / 33
Segunda etapa: Kriging
Dado A = {(z1 , x1 ), ...(zj , xj ), ...(zn , xn )} Kriging ordinario es un método
para predecir la variable aleatoria z(x) para todo punto x del campo D ; y,
además, establecer un valor del error de la predicción
Hipótesis
El proceso es estacionario de segundo orden
Su estructura de covarianza es conocida
La media del proceso, E (zj ) = µ , es desconocida
Propósitos
construir un estimador lineal insesgado µ̂ de µ de varianza mínima
dado punto arbirario x0 , donde se desconoce z0 , construir un predictor
lineal insesgado zˆ0 de z0 , de modo de minimizar la varianza del
error, Var (error = z0 − z0ˆ )
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
11 / 33
Kriging
Notación:
Z = (z1 , ...zj , ...zn )T , entonces la matriz de covarianza es C = cov (Z )
w = (cov (z0 , z1 ), .... cov (z0 , zj ), ..., cov (z0 , zn ))T
L = (1 1........ 1 1)T
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
12 / 33
Kriging
Notación:
Z = (z1 , ...zj , ...zn )T , entonces la matriz de covarianza es C = cov (Z )
w = (cov (z0 , z1 ), .... cov (z0 , zj ), ..., cov (z0 , zn ))T
L = (1 1........ 1 1)T
Estimación de la media β T Z
β=
C −1 L
LT C −1 L
Salvador Pintos (ICA-LUZ)
T
µ
b=β Z
Var (b
µ) =
1
LT C −1 L
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
12 / 33
Predicción
Predicción
Varianza del error
zb0 = µ
b + w T C −1 ( Z − L b
µ)
Var (Error ) = σ 2 − w T C −1 w + Var (b
µ) (1 − w T C −1 L)2
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
13 / 33
Ejemplo: Branin-Hoo
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
14 / 33
Kriging: curvas de nivel
Curvas de nivel de una superficie de predicción por Kriging a partir de una
muestra de 21 puntos
(a) Branin-Hoo ; (b) Kriging
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
15 / 33
Propiedades de Kriging
es interpolante (honra la data)
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
16 / 33
Propiedades de Kriging
es interpolante (honra la data)
Var (xk ) = 0 en los puntos de la muestra
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
16 / 33
Propiedades de Kriging
es interpolante (honra la data)
Var (xk ) = 0 en los puntos de la muestra
Si x0 más allá del rango de influencia se predice con la media µ
b
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
16 / 33
Propiedades de Kriging
es interpolante (honra la data)
Var (xk ) = 0 en los puntos de la muestra
Si x0 más allá del rango de influencia se predice con la media µ
b
Aunque en general suaviza la respuesta no es un filtro pasa bajos
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
16 / 33
Propiedades de Kriging
es interpolante (honra la data)
Var (xk ) = 0 en los puntos de la muestra
Si x0 más allá del rango de influencia se predice con la media µ
b
Aunque en general suaviza la respuesta no es un filtro pasa bajos
“declustering”
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
16 / 33
Ejemplo
Función objetivo
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
17 / 33
Ejemplo continuación
Muestra de 10 puntos
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
18 / 33
Ejemplo, continuación
La salida: dos superficies que constituyen la entrada para la construcción
de la estrategia de selección
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
19 / 33
Figura de mérito
Dada la data A = {(z1 , x1 ), ...(zj , xj ), ...(zn , xn )} , sean z(x) el predictor de
Kriging en x y σ(x) la desviación estándar del error asociada, construidos a
partir de A
Figura de mérito es una función, g , de la superficie de predicción y de la
superficie de error de Kriging
FM(x) = g (z(x) , σ(x))
que se optimiza para seleccionar un nuevo punto de diseño
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
20 / 33
Algoritmo básico
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
21 / 33
Cómo seleccionar un punto
infill methods
Métodos
Maximizar la probabilidad de superar una meta
Minimizar una cota inferior estadística
Minimizar sorpresas
Maximizar varianza
Mejora esperada
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
22 / 33
Maximizar la probabilidad de superar una meta
2 . Probabilidad de mejora es
T la meta a superar; Y Normal
N
z(x),
σ(x)
−z(x)
PI (x) = Prob(Y < T ) = φ T σ(x)
maxx {PI (x), x ∈ D}
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
23 / 33
Ejemplo
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
24 / 33
Otras figuras de mérito
Minimizar una cota inferior estadística
minx {z(x) − κσ(x), x ∈ D}
Maximizar varianza del error
maxvar = maxx
σ 2 (x), x ∈ D
Minimizar sorpresas
Si ampliamos la data A con un nuevo punto y , sea maxvar (y ) la
máxima varianza obtenida a partir de la data By = {x1 , ..., xj , ...xn , y }
miny {maxvar (y )}
este método consume tiempo en exceso debido a la doble optimización
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
25 / 33
ejemplo de máxima varianza
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
26 / 33
La mejora esperada
Si Y Normal N z(x), σ(x)2 y Fmin = min{F (xk ) : k = 1, ...., n} la
mejora es:
I (x) = max (0, Fmin − Y (x) )
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
27 / 33
Maximizar la mejora esperada
expected improvement (EI)
Jones, D., Schonlau, M., Welch, W. (1998) "Efficient global optimization
of expensive black-box functions" Journal of Global Optimization 13:
455-492
La mejora esperada, EI, es el valor esperado de I(x)
EI (x) = E (I (x))
Si b =
Fmin−z(x)
σ(x)
entonces:
σ(x) [ bΦ(b) + ϕ(b) ]
EI (x) =
0
σ(x) 6= 0
σ(x) = 0
Donde φ y ϕ son la cdf y pdf de la Normal
o su expresión equivalente que aparece frecuentemente en la literatura:
EI (x) = (Fmin − z(x))Φ(b) + σ(x)ϕ(b)
Objetivo:
maxx { EI (x) : x ∈ D }
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
28 / 33
Ejemplo mejora esperada
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
29 / 33
Convergencia local de la mejora esperada
El comportamiento local de la mejora esperada para el punto de la muestra
asociado a Fmin, es cualitativamente distinto al observado en los restantes
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
30 / 33
Optimización en una sola etapa
Se asume que f ∗ < Fmin es una meta alcanzable en x ∗ desconocido
Sea Z = (z1 , ...zj , ...zn , z ∗ )T Normal, C = σ 2 R y w = σ 2 r . Entonces, la
distribución condicionada (Z : z ∗ = f ∗ ) es Normal con media
µ∗ = µL + (f ∗ − µ) r y covarianza C ∗ = σ 2 (R − r r T )
Para x ∗ fijo, se estima por máxima verosimilitud los p + 2 parámetros
µ, σ 2 , θ1, ..... , θp , donde x ∗ participa en el proceso a través de r . El
máximo obtenido es una medida de credibilidad de x ∗
Luego, se halla el x ∗ que maximiza esa credibilidad. En la práctica, se
busca el máximo de la verosimilitud condicionada respecto de
µ, σ 2 , θ1, ..... , θp , x ∗
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
31 / 33
Algoritmos por lotes
Solicitar no un nuevo punto sino un lote q (computación paralela, cluster
de procesadores, etc)
Se desea que el lote represente un equilibrio entre búsqueda local y global
Superficie de la mejora esperada mostrando múltiples máximos locales
Estrategia de selección: sea V = {x : EI (x) > k max EI (x)}
Construir q clusters en V y considerar los q centros como nuevos puntos
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
32 / 33
Algoritmos por lotes
Salvador Pintos (ICA-LUZ)
Modelos Sustitutos en la optimización de procesos complejos
31/mayo/2010
33 / 33
Descargar