1. Mínimos Cuadrados

Anuncio
1. Mínimos Cuadrados
1. Mínimos Cuadrados __________________________________ 1
1.1. Introducción _____________________________________ 2
1.2. Método de Mínimos Cuadrados_____________________ 2
1.1.1. Forma Recursiva: ___________________________________ 4
1.1.2. Inclusión del Factor de Olvido. _________________________ 5
1.3. Características Estadísticas de la Estimación_________ 8
1.1.3. Correlación de la Estimación: __________________________ 9
1.4. Influencia del Valor Medio ________________________ 10
1.5. Ejemplo: Sistema de Primer Orden. ________________ 10
05-Mínimos Cuadrados.doc 1
1.1. Introducción
Se abordará en este capítulo la modelización de sistemas
lineales mediante técnicas de mínimos cuadrados ya que es uno de
los pilares para el desarrollo del control adaptativo. Este mecanismo
es llamado comúnmente Identificación de Sistemas. Lo que intenta el
método es automatizar la búsqueda de la relación causa-efecto entre
excitación y respuesta de un proceso dado. De igual manera, se perturba al sistema con una determinada señal y se toman pares de
muestras de entrada y salida. Se construye una tabla con estos pares
para calcular los coeficientes de un modelo previamente definido. El
método más usual para este cómputo es el de mínimos cuadrados del
cual se desprenden una cantidad apreciable de algoritmos modificados. Se particularizará el análisis para modelos lineales expresados
en ecuaciones en diferencias. La representación gráfica del método
se puede ver en la figura siguiente en donde se observa que la
excitación tiene efecto sobre la planta y sobre el modelo. Ambos
generan una salida que serán más o menos similares dependiendo de
la bondad del modelo. La diferencia, llamada también error de
estimación o predicción, es la que se utiliza como realimentación para
corregir el modelo.
Excitación
Planta
Salida de la Planta
+
Error de Estimación
-
Modelo
Salida del Modelo
Ilustración 1-1 Identificación de Parámetros
1.2. Método de Mínimos Cuadrados
Se considera, a los efectos del análisis, la siguiente planta real:
n
m
i=1
i=0
n
m
i=1
i=0
y k +1 = ∑ a i y k-i +1 + ∑ biuk −i + ek = x kT θ k + ek
[1-1]
siendo e′ una perturbación o incertidumbre por momento
genérica.
Se propone un modelo de la misma forma es decir:
yˆ k +1 = ∑ aˆ i y k-i +1 + ∑ bˆi u k-i = x Tk θˆk
[1-2]
05-Mínimos Cuadrados.doc 2
donde
 aˆ 1 
 yk 
M
 M 
 


 aˆ n 
 y k-n +1
xk = 

θˆk =  ˆ 
 b0 
 uk 
M
 M 
 


bˆm 1× N = n +m +1
 u k-m 1× N = n +m +1
[1-3]
Se ha definido una forma vectorial de escribir el modelo y planta
a fin de compactar la notación. Para cada instante k habrá un error o
diferencia entre la salida de la planta y la del modelo:
ek +1 = yk +1 − yˆk +1
[1-4]
Si se toman todas las muestra, desde 0 hasta k se puede
construir un vector de errores de la forma:
 ek +1
Ek +1 =  M  = Y k +1 - φ kθˆ
 
 e1 
[1-5]
con
 y k +1


Y k +1 =  M 
 y1 
 aˆ1 
M
 
 aˆn 
, θˆ =  ˆ 
 b0 
M
 
 bˆm 
 x Tk   y k K
  
φk =  M  = M

 x T0   y 0 K
[1-6]
y k-n +1 u k K u k-m 

M
M
M

y1-n u 0 K u -m 
[1-7]
El modelo será más exacto cuanto más pequeño sea el error de
estimación. Este error es dependiente de las mediciones y del vector
de parámetros θˆ . Ahora el objetivo es buscar este vector tal que el
error entre modelo y planta sea el menor posible. Una forma de
lograrlo es construyendo un funcional J de la forma
J k = e Tk ⋅ e k
[1-8]
y minimizarlo, es decir estamos calculando el mínimo error
cuadrático en el modelo. Para realizar esto se deriva con respecto a
θˆ resultando:
05-Mínimos Cuadrados.doc 3
T
T
∇ pJ |pˆ = 2φ Y - 2φ φθˆ = 0
el valor de θˆ que hace mínimo J es:
*
 T
θˆk = φ k
φ k 
−1
φk Y k
T
[1-9]
[1-10]
Con esto estaría resuelto el problema de encontrar un modelo ya
que θˆ queda expresado en función de datos. Existen en esta forma
de expresar el modelo dos inconvenientes: primero, se debe conocer
previamente todas las muestras y segundo, en el cálculo se presenta
la inversión de una matriz que no es muy cómodo desde el punto de
vista computacional. Se analizará más adelante una vía de llegar a
otra expresión que evite estos problemas.
1.1.1. Forma Recursiva:
Analicemos una forma más cómoda de expresar la ecuación
[1-10]. Primero definamos la matriz P como sigue:
 x Tk-N  k-N
-1
φ kT φ  = P -1k = [ x k-N K x0 ]  M  = ∑ x i x iT = P k-1
+ x k x Tk




 xT0  i=0
[1-11]
Del mismo modo el vector b será:
 y k-N  k-N


T
bk = φ k Y k = [ x k-N K x0 ]  M  = ∑ x i y i = bk-1 + x k y k
i=0
 y 0 
[1-12]
Entonces [1-10] se expresará
θˆk = P k bk
[1-13]
La inversa de la matriz P en un instante k puede expresarse en
función de su valor anterior más otra matriz
[1-14]
P -1k = P -1k-1 + x k x kT
Si la premultiplicamos por Pk
Pk P k = I = Pk P -1k-1 + Pk x k x Tk
y luego, posmultiplicando por Pk −1 resulta:
-1
P k-1 = P k + P k x k xTk P k-1
[1-15]
[1-16]
o lo que es lo mismo
P k-1 - P k = P k x k x kT P k-1
[1-17]
Posmultipliquemos [1-16] por xk
T
T
P k-1 x k = P k x k + P k x k x k P k-1 x k = P k x k 1 + x k P k-1 x k 
[1-18]
y agrupemos.
05-Mínimos Cuadrados.doc 4
-1
T
P k-1 x k 1 + x k P k-1 x k  = P k x k
[1-19]
Ahora, reemplazando [1-19] en [1-17]
T
P k-1 - Pk =
P k-1 x k x k P k-1
1 + xTk P k-1 x k
[1-20]
o su equivalente
T
P k-1 x k x k P k-1
P k = P k-1 1 + xTk P k-1 x k
[1-21]
Haremos lo mismo con el vector θ . Por la ecuación [1-19]
tenemos
[1-22]
T

P k x k x k P k-1 
[b k-1 + x k y k ]
θˆk =  P k-1 1 + xTk P k-1 x k 

= θˆk-1 -
T
P k-1 x k x k P k-1
[bk-1 + x k y k ] + P k-1 x k y k
1 + x Tk P k-1 x k
por [1-19] sabemos que:
Pk x k =
P k-1 x k
1 + x Tk P k-1 x k
[1-23]
reemplazando en la anterior
T
T
θˆk = θˆk-1 - P k x k x k P k-1 bk-1 - P k x k x k P k-1 x k y k + P k-1 x k y k
= θˆk-1 - P k x k x kT pˆ k-1 +  P k-1 - P k x k x kT P k-1 x k y k
[1-24]
de [1-17] resulta
P k = P k-1 - P k x k x kT P k-1
[1-25]
quedando
T
θˆk = θˆk-1 - P k x k  x k θˆk-1 - y k 
[1-26]
en resumen el algoritmo está formado por las dos ecuaciones
siguientes:
θˆk = θˆk-1 - P k x k [ yˆ k - y k ]

T

P k-1 x k x k P k-1
=
 P k P k-1
1 + xTk P k-1 x k

[1-27]
1.1.2. Inclusión del Factor de Olvido.
En el algoritmo anterior pesamos de igual manera las medidas
muy viejas y las nuevas. Esto puede traer complicaciones cuando la
planta cambie sus parámetros. En este caso el vector θ no podrá
converger al nuevo valor. Modificaremos este algoritmo para pesar de
forma exponencial las distintas muestras según el instante en que han
sido tomadas. Esto se logra modificando el funcional J siendo ahora
J = eTk ⋅ Q ⋅ ek
[1-28]
05-Mínimos Cuadrados.doc 5
donde


Qk = 



1
0
M
0
0
α
M
0
L
L
L




k-N 
α 
0
0
M
[1-29]
La matriz Q pondera las muestras dándole más o menos
importancia a la historia con respecto al último valor según el
parámetro α el cual se llama factor de olvido.
Igual que antes derivamos J para obtener el mínimo.
T
T
[1-30]
∆ pJ |pˆ = 2Φ Q Y - 2 Φ Q Φpˆ = 0
resultando
-1
*
T
T
θˆk = Φ k Q k Φ k  Φ k Q k Y k
[1-31]
La matriz P ahora será:
 x Tk- N 
φ Tk Qφ  = P -1k = [ x k-N K x 0] Q  M  =




 xT0 
[1-32]
k-N
= ∑ α i xi x Ti = α P -1k-1 + x k xTk
i=0
T
-1
T
P = φ k Qk φk  = α P k-1 + x k x k
-1
k
[1-33]
Del mismo modo el vector b será:
 y k - N  k-N


i
bk = φ Y k = [ x k-N K x0 ] Q  M  = ∑ α x i y i = α b k-1 + x k y k
i=0
 y 0 
T
bk = φ k Q k Y k = α b k-1 + xk y k
T
k
[1-34]
[1-35]
Entonces se expresará
θˆk = P k bk
[1-36]
La inversa de la matriz P en un instante k puede expresarse en
función de su valor anterior más otra matriz
Pk−1 = α Pk−−11 + xk xkT
[1-37]
Si la premultiplicamos por Pk
Pk Pk−1 = I = α Pk Pk−−11 + Pk xk xkT
y luego, posmultiplicando por Pk −1 resulta:
Pk −1 = α Pk + Pk xk xTk Pk−1
[1-38]
[1-39]
o lo que es lo mismo
05-Mínimos Cuadrados.doc 6
Pk −1 − α Pk = Pk xk xTk Pk−1
[1-40]
Posmultipliquemos [1-39] por xk
Pk −1xk = α Pk xk + Pk xk xTk Pk −1xk = Pk xk α + xkT Pk −1 xk 
[1-41]
y agrupemos.
−1
Pk −1xk α + xkT Pk −1 xk  = Pk xk
[1-42]
Ahora, reemplazando [1-19] en [1-17]
Pk −1 − α Pk =
Pk −1xk xTk Pk−1
α + xTk Pk −1 xk
[1-43]
o su equivalente
1
Pk −1xk xTk Pk −1 
Pk =  Pk −1 −

α
α + xkT Pk −1 xk 
[1-44]
Haremos lo mismo con el vector θ . Por la ecuación [1-19]
tenemos
[1-45]
θˆk =
Pk −1xk xTk Pk −1 
1
P −
[α bk-1 + xk yk ] =
α  k −1 α + xkT Pk −1xk 
= θˆ k-1 −
1
 1
P k-1 x k xTk P k-1 
bk −1 + x k y k  + Pk −1xk y k
T

α + x k P k-1 x k 
α
 α
por [1-19] sabemos que:
Pk x k =
P k-1 x k
α + xTk P k-1 x k
[1-46]
reemplazando en la anterior
1

 1
T
θˆk = θˆk-1 − P k x k x k P k-1  bk-1 + x k y k  + P k-1 x k y k
α

 α
1
1
= θˆk-1 − P k x k xTk P k-1b k-1 − P k x k xTk P k-1 x k y k + P k-1 x k y k
α
α
1
= θˆk-1 − P k x k xTk θˆk-1 +  P k-1 − P k x k xTk P k-1  x k y k
α
[1-47]
de [1-17] resulta
1
 P k-1 - P k x k xTk P k-1 
α
Pk −1 − Pk xk xTk Pk −1 = α Pk
Pk =
[1-48]
[1-49]
quedando
T
θˆk = θˆk-1 - P k x k  x k θˆk-1 - y k 
[1-50]
en resumen el algoritmo está formado por las dos ecuaciones
siguientes:
05-Mínimos Cuadrados.doc 7
θˆk = θˆk-1 - P k x k [ yˆ k - y k ]


Pk −1 xk xTk Pk−1 
1
 Pk = α  Pk −1 − α + xT P x 

k k −1 k 

[1-51]
Se puede asemejar esta idea a la introducción de un filtro en el
cálculo de la inversa de P según lo muestra la figura siguiente:
xk xkT
1
1 − α q −1
Pk−1
Figura 4-1Inclusión del factor de olvido
1.3. Características Estadísticas de la Estimación
A continuación se verá qué características estadísticas tiene el
modelo obtenido y qué condiciones se deben cumplir para que éste
converja al sistema real. Primeramente se observará la forma que
tiene el corchete de la ecuación [1-10] que, desplegado resulta:
K
 yk
 M

y
T
φ k φ k =  k-n +1
 uk
 M

 u k-m
y0 
M 
  y K y + u k K u k-m 
k-n 1
K y 1-n   k
⋅ M
M
M
M  [1-52]
K u 0  
 y K y1-n u 0 K u -m 
M   0

K u -m 
Si se supone que, tanto entradas como salidas tienen media
nula, cada elemento corresponderá, para un gran número de
muestras, a la autocovarianza o covarianza cruzada según sea el
término. Tomando el elemento [1,1] como ejemplo se verifica que
tiene la siguiente forma:
k
φ φ k [1,1] = y + L + y = ∑ yi2 = ry ( 0 )
T
2
k
2
0
[1-53]
i =0
La matriz total se llama matriz de covarianza del algoritmo y será:
05-Mínimos Cuadrados.doc 8
K
 r y (o)

M


M
T
φk φk = 
 r uy( n - m - 1 ) K

M

K
 r uy(n-1)
r y(n-1)
M
M
r uy(n-1)
M
r uy( n - m - 1 ) K
M
r uy(n-1)
r u(0)
M
ruy( n - m - 1 )
r u(m)
r uy(n-1) 

M

K r uy( n - m - 1 ) 

K
r u(m) 

M

K
r u(0) 
[1-54]
Veremos ahora qué condiciones se deben cumplir para que
exista una convergencia del algoritmo. Para esto calculemos la
media de θˆ .
-1 T
T
lim E θˆk  = lim E  φ k φ k  φ k Y k  = E θˆk 
  k →∞ 
 

k →∞
-1
T
T
= lim E  φ k φ k  φ k [φ k θ + e k ]

k →∞

[1-55]
-1 T
T
= lim E [θ ] + lim E  φ k φ k  φ k e k 
k →∞
k →∞


-1 T
T
E θˆk  = lim E [θ ] + lim E  φ k φ k  φ k e k 


k →∞
k →∞
[1-56]
Por lo tanto la media de la estimación coincidirá con el valor real
-1 T
de θ si el error e es incorrelado con φ φ  φ . En cualquier otro


T
caso existirá un sesgo en la estimación.
También debemos notar que para que exista solución la
matrizφ φ 1debe ser invertible o sea
T
det φ T φ  ≠ 0
[1-57]
Observando la ecuación 0 podemos inferir que esto se puede
lograr si el sistema está persistentemente excitado.
1.1.3. Correlación de la Estimación:
Calculemos la correlación de θ que tiene la siguiente forma:
[1-58]
T
E  θˆk - θ  θˆk - θ   =


T
-1
-1


T
T
T
T
E   φ φ  φ [φ θ + e] - θ   φ φ  φ [φ θ + e ] - θ  





 

-1
-1
T
T
T
= E  φ φ  φ e eT φ φ φ  


-1 T
si se cumple que e es incorrelado con φ φ  φ 4 se verifica:


T
05-Mínimos Cuadrados.doc 9
[1-59]
-1 T
-1
T
T
T
rθˆ = E φ φ  φ e e φ φ φ  


-1
= E  φ T φ   E e eT 


Suponiendo que el ruido es incorrelado consigo mismo
llamaremos
T
2
[1-60]
r e = E  e e  = σ e I
y se cumplirá que
E  ek eTk+τ  = 0 ∀ τ ≠ 0
[1-61]
-1
T
2
rθˆ = E  φ φ  σ e 


[1-62]
por lo tanto la correlación de θ resulta:
1.4. Influencia del Valor Medio
Otra consideración a tener en cuenta en una estimación es que
las mediciones de u e y no deben tener un valor medio distinto de
cero ya que estamos suponiendo que el modelo del sistema es lineal.
En caso de que éste exista deberemos eliminarlo. Si las variaciones
son muy lentas se puede usar el siguiente filtro de primer orden:
x n = α x n-1 + (1- α ) x n
[1-63]
1.5. Ejemplo: Sistema de Primer Orden.
Para familiarizarnos un poco más con el funcionamiento del
estimador veamos un ejemplo sencillo. Sea un sistema de primer
orden cuya ecuación en diferencias es:
[1-64]
y k = a y k-1 + b u k-1
con a = 0,5 y b = 1
En la siguiente tabla se muestran los valores de la respuesta a un
escalón.
k
yk
uk
0
0
1
1
b =1
1
2
b (1 + a ) = 1,5
1
05-Mínimos Cuadrados.doc 10
3
b (1 + a + a 2 ) = 1,75
1
4
b (1 + a + a 2 + a 3 ) = 1,875
1
El vector φ será, para tres muestras,
1,75 1
φ =  1,5 1


 1 1
[1-65]
su transpuesta,
1,75 1,5 1
φT = 
1 1
 1
[1-66]
el vector de medidas de la salida,
1,875


Y k =  1,75 
 1,5 
[1-67]
la matriz de covarianza,
6,3125 4,25
T
φ φ =
3 
 4.25
[1-68]
la matriz P:
-1
 3.4286 -4.8571
φ T φ  = 

-4.8571 7.2143 
[1-69]
y finalmente el vector
7,4063
T
φ Y= 

 5,125 
[1-70]
Con estos datos ya podemos calcular la estimación de los dos
parámetros del sistema resultando obviamente,
-1
0,5
θˆ = φ T φ  φ T Y =  
 1 
[1-71]
05-Mínimos Cuadrados.doc 11
Descargar