Valores singulares

Anuncio
Capı́tulo 3
Valores singulares
3.1.
Introducción
Los valores singulares juegan un papel central en el álgebra lineal numérica
actual. Son esenciales para calcular de forma fiable cantidades tan importantes como
el rango de una matriz o la distancia de una matriz no singular al conjunto de las
matrices singulares.
Como tantas veces en matemáticas, no fue la necesidad práctica (derivada, por
ejemplo, del cálculo numérico) sino la necesidad de profundizar en el conocimiento lo
que produjo el surgimiento de los valores singulares. Por otra parte, no ha sido hasta
el reciente desarrollo del álgebra lineal numérica cuando tal concepto ha adquirido la
importancia que actualmente tiene e incluso la denominación que ahora le estamos
dando. En efecto, fue en la segunda parte del siglo XIX cuando algunos geómetras se
preguntaron, utilizando lenguaje actual, por la posibilidad de reducir unitariamente
una forma cuadrática a forma diagonal. Entre los matemáticos que contribuyeron
65
66
Valores singulares
a la solución de este problema se encuentran nombres tan famosos como Eugenio
Beltrami, Camille Jordan, James Joseph Sylvester, Erhard Scmidt o Hermann Weyl.
Una breve e interesante historia de los valores singulares puede encontrarse en el
report de G. W. Stewart: On the early history of the Singular Value Decomposition
que se puede obtener en la dirección
http://citeseer.ist.psu.edu/stewart92early.html
o mediante ftp anónimo en thales.cs.umd.edu en el directorio pub/reports.
En nuestro proceso hacia la definición de los valores singulares y del teorema
central de este capı́tulo (El Teorema SVD) necesitamos recordar el concepto de
matriz unitaria. A ello dedicamos la primera sección.
3.2.
Matrices Ortogonales y Unitarias
Comenzamos repasando los conceptos de producto escalar y ortogonalidad. Si
x, y P Fn entonces el producto escalar de y y x es
$ ř
n
’
yi xi “ y T x si F “ R,
&
i“1
ă x, y ą“
n
ř
’
%
y i xi “ y ˚ x si F “ C
i“1
Por lo general supondremos que F “ C de modo que el producto escalar de x y y lo
escribiremos como un producto de matrices; i.e. y ˚ x. Deberemos entender que en el
caso en que los vectores sean reales y hablemos del producto escalar en Rn entonces
se debe sustituir ˚ por T .
Debe observarse que para todo x P Cn
x˚ x “
n
ÿ
i“1
|xi |2 “ }x}22 .
Esta forma de expresar la norma euclı́dea de un vector, la usaremos muy a menudo.
Un vector diremos que es unitario si su norma es 1.
Dos vectores se dice que son ortogonales si su producto escalar es cero:
x K y ô y ˚ x “ 0.
3.2 Matrices Ortogonales y Unitarias
67
Nótese que y ˚ x y x˚ y son números complejos conjugados:
x˚ y “ y ˚ x,
pero si x, y P Rn entonces xT y “ y T x.
Dos conjuntos X, Y Ă Fn son ortogonales si cada vector de X es ortogonal a
cada vector de Y . Escribiremos, en tal caso, X K Y . Si S Ď Fn es un subconjunto
denotaremos
S K “ ty P Fn |x˚ y “ 0, @x P Su.
Independientemente de si S es un subespacio vectorial o no, S K siempre lo es, y
lo llamaremos el subespacio ortogonal de S. Abusando de lenguaje diremos que un
conjunto de vectores no nulos es ortogonal si cada vector es ortogonal a todos los
demás:
S ortogonal ô @x, y P S, x˚ y “ 0.
Si, además, todos los vectores del conjunto son unitarios entonces el conjunto se dice
que es ortonormal :
S ortonormal ô S ortogonal y @x P S, }x}2 “ 1.
Proposición 3.1 Todos los vectores de un conjunto S “ tv1 , . . . , vt u ortogonal son
linealmente independientes.
Demostración.- Si
t
ř
i“1
0 “ vj˚
t
ÿ
i“1
ai vi “ 0, entonces para j “ 1, . . . , t
ai v i “
t
ÿ
i“1
ai pvj˚ vi q “ cj pvj˚ vj q “ cj }xj }.
Por lo tanto, cj “ 0.
Definición 3.2 (a) Una matriz U P Cnˆn es unitaria si sus columnas forman
una base ortonormal de vectores de Cn .
(b) Una matriz P P Rnˆn es ortogonal si sus columnas forman una base ortonormal de vectores de Rn .
68
Valores singulares
Hay algunas condiciones equivalentes a ser unitaria (aplicado a F “ R sirven
para matrices ortogonales):
Proposición 3.3 Para U P Cnˆn las siguientes condiciones son equivalentes:
(i) U es unitaria.
(ii) U es no singular y U ˚ “ U ´1 .
(iii) U U ˚ “ In .
(iv) U ˚ es unitaria.
(v) Las filas de U forman un sistema ortonormal de vectores de Cn .
(vi) Para todo x P Cn se tiene }x}2 “ }U x}2
La demostración de estas propiedades es más o menos inmediata salvo, quizá,
la condición (vi). Desde luego, si U es unitaria entonces
}U x}22 “ pU xq˚ U x “ x˚ U ˚ U x “ x˚ x “ }x}22
donde hemos usado las condiciones (iv) y (iii) equivalentes a ser U unitaria (i.e.
U ˚ U “ In ). El recı́proco se puede demostrar siguiendo las siguientes ideas: Si
}U x}2 “ }x}2 entonces x˚ U ˚ U x “ x˚ x, que equivale a x˚ pU ˚ U ´ In qx “ 0. Teniendo
en cuenta que U ˚ U ´ In es hermı́tica (simétrica en el caso real de matrices ortogonales) es fácil ver que x˚ pU ˚ U ´ In qx “ 0 implica U ˚ U ´ In “ 0. En efecto, si ponemos
A “ U ˚ U ´ In , x˚ Ax “ 0 para todo x P Fn implica que si ei “ p0, . . . , 1, . . . , 0q es el
i-ésimo vector canónico entonces
e˚i Aei “ 0 ñ aii “ 0
pei ` ej q˚ Apei ` ej q “ 0 ñ Repaij q “ 0.
pei ` iej q˚ Apei ` iej q “ 0 ñ Impaij q “ 0
Las matrices unitarias forman un subgrupo multiplicativo del Grupo General
Lineal, llamado Grupo Unitario. La condición (vi) de la Proposición 3.3 indica que
el grupo unitario es el grupo de isometrı́as para la norma euclı́dea.
3.2 Matrices Ortogonales y Unitarias
69
Definición 3.4 Una norma } ¨ } en Cmˆn se dice que es unitariamente invariantes
si @A P Cmˆn y para todo par de matrices unitarias U P Cmˆm y V P Cnˆn se
cumple que }U AV } “ }A}.
Proposición 3.5 Las normas } ¨ }2 y } ¨ }F definidas en Cnˆn son unitariamente
invariantes.
Demostración.- Recordemos que }A}2F “ trpA˚ Aq “ trpAA˚ q. Ası́, si U es
unitaria
}U A}2F “ trpA˚ U ˚ U Aq “ trpA˚ Aq “ }A}2F .
De la misma forma, si V es unitaria
}AV }2F “ trppAV qpAV q˚ q “ trpAV V ˚ A˚ q “ trpAA˚ q “ }A}2F .
Por lo tanto, si U y V son unitarias:
}U AV }F “ }U A}F “ }A}F .
Por otra parte, }A}2 “ máx }Ax}2 . Entonces, si U es unitaria
}x}2 “1
}U A}2 “ máx }U Ax}2 .
}x}2 “1
Pero por ser U unitaria, }U x}2 “ }x}2 , de modo que }U Ax}2 “ }Ax}2 y
}U A}2 “ máx }U Ax}2 “ máx }Ax}2 “ }A}2 .
}x}2 “1
}x}2 “1
También, si V es unitaria los conjuntos
tx P Cn |}x}2 “ 1u “ tV x P Cn |}V x}2 “ 1u
son iguales. Entonces
}AV }2 “ máx }AV x}2 “ máx }AV x}2 “ máx }Ay}2 “ }A}2 .
}x}2 “1
En consecuencia }U AV }2 “ }A}2 .
}V x}2 “1
}y}2 “1
70
Valores singulares
3.3.
Valores singulares
Hay varias formas de introducir los valores singulares de una matriz. Tal y
como se ha mencionado en la Introducción de esta Lección, históricamente los valores singulares son el resultado de la búsqueda de una forma de reducir las formas
cuadráticas a forma diagonal mediante cambios de base ortonormales. Este hecho,
sin embargo tiene un significado geométrico que no debe pasar desapercibido:
Las aplicaciones lineales transforman las esferas unidad en hiperelipses.
Una hiperelipse es la generalización a m dimensiones de una elipse. Podrı́amos definirla como la superficie que se obtiene al estirar o comprimir la esfera unidad en m
direcciones ortogonales por factores σ1 , σ2 ,. . . , σm (posiblemente cero). Es decir, si
fijamos m vectores ortonormales u1 , . . . , um P Fm , los vectores σ1 u1 ,. . . , σm um son
los semiejes de la hiperelipse con longitudes σ1 ,. . . , σm .
Si
S n´1 “ tx P Fn |}x}2 “ 1u
es la esfera unidad y A P Fmˆn entonces ApS n´1 q es una hiperelipse. La Figura 3.1
representa el caso n “ m “ 2 y F “ R.
v1
v2
A
s2 u 2
s1 u 1
Figura 3.1: Las matrices transforman esferas en elipses
El hecho de que las aplicaciones lineales (o matrices) transformen la esfera unidad en hiperelipses no es obvia y quedará demostrada cuando probemos el llamado
3.3 Valores singulares
71
Teorema SVD. Por ahora aceptémosla y veamos qué significa en términos de matrices. Supongamos que la matriz de la aplicación lineal es A P Fmˆn y que, por
sencillez, rangpAq “ n ď m. Notemos que, como aplicación lineal, A : Fn Ñ Fm .
Tal y como hemos mencionado, la hiperelipse queda determinada, en principio,
por m vectores ortonormales tu1 , . . . , um u y las correspondientes longitudes de los
semiejes σ1 ,. . . , σm que los vamos a suponer ordenados de forma que σ1 ě σ2 ě
¨ ¨ ¨ ě σm ě 0. Ası́ σi ui es el i-ésimo semieje más largo de ApS n´1 q. Ası́ pues,
para i “ 1, . . . , m σi ui P ApS n´1 q Ă Im A. Pero como los vectores tu1 , . . . , um u son
ortonormales, y por lo tanto son linealmente independientes, si rangpAq “ r debe
haber a lo sumo r vectores σi ui linealmente independientes. De todo ello se sigue que
hay r de los σi que son distintos de cero a lo má. En otras palabras, si la hiperelipse
es la imagen por A de la esfera unidad, debe estar en Im A ası́ que sólo puede
contener r vectores linealmente independientes. Finalmente sean tv1 , . . . , vn u Ă S n´1
las anteimágenes de los semiejes no nulos de la hiperelipse:
Avi “ σi ui ,
i “ 1, . . . , r.
En este momento no es claro por qué pero admitamos que los vectores vi son ortogonales (y, por lo tanto, ortonormales porque están en la esfera unidad).
La condición
escribir en forma matricial: Si
“ Avi “ σi u
‰ i , i “ 1,“ . . . , r, se puede
‰
ponemos Û “ u1 ¨ ¨ ¨ ur y V̂ “ v1 ¨ ¨ ¨ vr tenemos que
AV̂ “ Σ̂Û ,
Σ̂ “ Diagpσ1 , . . . , σr q.
siendo Û P Fmˆn y V̂ P Fnˆn matrices cuyas columnas son vectores ortonormales.
Si escogemos base ortonormal de Ker
“ A y‰ que sean ortogonales a los de “V̂ podemos
‰
formar una matrix unitari V “ V̂ Ṽ que es unitaria y AV “ Û Σ̂ 0 . Por
consiguiente
“
‰
A “ Û Σ̂ 0 V ˚ “ Û Σ̂V̂ ˚ .
A esta factorización de A se le llama Descomposición en Valores Singulares Reducida
o Económica de A. O, más abreviadamente, SVD Reducida de A.
Hay también una Descomposición en Valores Singulares Completa de A, que es
la que aparece en la mayorı́a de los libros que tratan el tema, aunque en la mayor
parte de las aplicaciones es la descomposición reducida la que se utiliza. Pasar de
una descomposición a la otra es muy fácil: Si m ě n, Û no es una matriz unitaria y Σ̂
no tiene el tamaño de A. Una descomposición completa es una que cumpla estos dos
72
Valores singulares
requisitos. Para ello basta ampliar el sistema de vectores ortonormales tu1 , . . . , un u
hasta una base ortonormal de Cm . Tal cosa siempre es posible porque los vectores
u1 , . . . , un son linealmente independientes y se pueden ampliar hasta una base de Cn .
Luego basta aplicar el método de Gram-Schmidt para obtener la base ortonormal.
Sea entonces tu1 , . . . , un , un`1 , . . . , um u una base ortonormal de Cm y pongamos
„

“
‰
Σ̂
U “ u1 ¨ ¨ ¨ un un`1 ¨ ¨ ¨ um
y Σ“
0m´nˆn
Entonces
˚
“
U ΣV “ Û Ũ
‰
„
Σ̂
0m´nˆn

V ˚ “ Û Σ̂V ˚ “ A.
Por lo tanto, A “ U ΣV ˚ es una descomposición en valores singulares completa de
A. Nótese que de una descomposición en valores singulares completa de A se obtiene
una reducida sin más que suprimir las filas cero de Σ y las correspondientes columnas
de U y V .
Definición 3.6 Sea m, n enteros positivos y A P Cmˆn . Una descomposición en
valores singulares (completa) de A es una factorización
A “ U ΣV ˚
donde U P Cmˆm y V P Cnˆn son unitarias y Σ es diagonal. Además,
$ „

Diagpσ
,
.
.
.
,
σ
q
’
1
n
’
si m ě n
&
0m´nˆn
Σ“
’
’
‰
% “
Diagpσ1 , . . . , σm q 0mˆn´m si n ě m
En cualquier caso, σ1 ě ¨ ¨ ¨ ě σp ě 0, p “ mı́ntm, nu son números reales no
negativos ordenados de mayor a menor y se llaman valores singulares de A.
Además, a los vectores u1 , . . . , um y v1 , . . . , vn que forman las columnas de U y V se
les llama vectores singulares de A por la izquierda y por la derecha, respectivamente.
Si A P Rmˆn basta cambiar “matriz unitaria” por “matriz ortogonal”.
Nos queda establecer de manera rigurosa que tal descomposición es siempre
posible y que los valores singulares están determinados de forma única por A. Admitiéndolo, deberı́a ya ser claro que, en efecto, la imagen de la esfera unidad en
3.3 Valores singulares
73
Fn por A “ U ΣV ˚ es una hiperelipse:V ˚ por ser unitaria preserva la esfera, Σ la
deforma estirando o encogiendo la esfera en direcciones ortogonales y U , de nuevo
unitaria, la gira o refleja.
Todo lo anterior tiene sentido una vez que demostremos el siguiente resultado
fundamental
Teorema 3.7 (Teorema SVD) Toda matriz A P Fmˆn admite una descomposición en valores singulares. Además, los valores singulares están determinados de
forma única, y, si A es cuadrada y sus valores singulares son todos distintos, entonces los vectores singulares están también determinados de forma única salvo producto
por un número complejo de módulo 1.
Demostración.- Supondremos F “ C y todo lo que vamos a decir es de aplicación a matrices de números reales cambiando la palabra “unitaria” por “ortogonal”.
Dado que el caso de A “ 0 es trivial, supondremos que A ‰ 0 y procederemos por
inducción sobre n, el número de columnas de A. Supondremos, además, que m ě n.
Si fuera n ě m, y una vez demostrado el Teorema con m ě n, lo aplicarı́amos
a A˚ . Ası́, existirı́an matrices unitarias U y V tales que A˚ “ U ΣV ˚ Entonces
A “ pA˚ q˚ “ V Σ˚ U ˚ . Como los valores singulares son números reales Σ˚ “ Σ y
A “ V ΣU ˚ con U y V unitarias.
Sea entonces n “ 1 y m ě 1. Ponemos Û “
Û Σ̂V “
1
A,
}A}2
Σ̂ “ }A}2 y V “ 1. Ası́
1
A ¨ }A}2 ¨ 1 “ A.
}A}2
Para n “ 1, A P Cmˆ1 es un vector columna y por lo tanto Û es un vector columna
unitario. Ası́ A “ Û Σ̂V es una descomposición reducida de A que puede extenderse
a una descomposición completa tal y como hemos visto más arriba.
Consideremos ahora que el Teorema ha sido demostrado para matrices de tamaño m ˆ p (p ď n ´ 1). Sea A P Cmˆn y σ1 “ }A}2 . Como }A}2 “ máx }Ax}2
}x}2 “1
existe un vector unitario v1 P C , }v1 }2 “ 1, tal que σ1 “ }A}2 “ }Av1 }2 . Sea
u1 “ }Av11 }2 Av1 . Ası́ }u1 }2 “ 1 y Av1 “ σ1 u1 . Extendamos u1 y v1 hasta bases ortonormales de Cm y Cn , respectivamente, y sean U1 y V1 las matrices, unitarias, cuyas
n
74
Valores singulares
columnas son los vectores de esas bases. Escribamos
“
‰
“
‰
U1 “ u1 U 1 , V1 “ u1 V 1 .
Entonces
U1˚ AV1
„

„ ˚

“
‰
u˚1
u1 Av1 u˚1 AV 1
“
.
˚ A v1 V 1 “
˚
˚
U1
U 1 Av1 U 1 AV 1
Por una parte Av1 “ σ1 u1 implica que u˚1 Av1 “ σ1 (recordemos que u˚1 u1 “ 1 porque
˚
˚
u1 es un vector unitario). Además U 1 Av1 “ σ1 U 1 u1 . Pero las columnas de U 1 son
˚
ortogonales a u1 y esto equivale a U 1 u1 “ 0. Ası́ pues
„ ˚

u1 Av1 u˚1 AV 1
˚
U1 AV1 “
.
˚
U 1 AV 1
0
˚
Veamos que también
u˚1 AV 1 “ 0. Pongamos w˚ “ u˚1 AV 1 y B “ U 1 AV 1 , S “
„ 
σ
U1˚ AV1 y z “ 1 . Como la norma espectral es consistente con la norma euclı́dea
w
›„
›„ 2
 „ ›
›
› σ1 w˚ σ1 ›
› σ1 ` w ˚ w ›
› ě pσ12 ` w˚ wq “
› “›
}S}2 }z}2 ě }Sz}2 “ ››
›
›
0 B
w ›
Bw
2
“
pσ12
˚
` w wq
1{2
2
›„ ›
› σ1 ›
2
˚
1{2
›
›
› w › “ pσ1 ` w wq }z}2 .
2
Ası́ pues, }S}2 ě pσ12 ` w˚ wq1{2 . Pero la norma espectral es unitariamente invariante
(Proposición 3.5); por lo tanto σ1 “ }A}2 “ }S}2 ě pσ12 ` w˚ wq1{2 ; lo cual implica
que w “ 0 tal y como querı́amos demostrar.
En consecuencia
U1˚ AV1
„

σ1 0
“
.
0 B
Debe notarse que B es la restricción de A al subespacio ortogonal a u1 ; i.e. ă
u1 ąK . Además B P Cpm´1qˆpn´1q . Por la hipótesis de inducción, B admite una
descomposición en valores singulares:
B “ U2 Σ2 V2˚ con U2 P Cpm´1qˆpm´1q y V2 P
„
Diagpσ2 , . . . , σn q
Cpn´1qˆpn´1q unitarias y Σ2 “
. Ası́
0
„

„
 „
„
„
 „

1 0
1 0
1 0
σ1 0 1 0
Diagpσ1 , σ2 , . . . , σn q
˚
U AV
“
“
.
0 U2˚ 1 1 0 V2
0 U2˚
0 B 0 V2
0
3.3 Valores singulares
Si ponemos
75
„

1 0
˚
U “
˚ U1
0 U2
˚
y V “ V1
„

1 0
,
0 V2
tenemos que U ˚ AV “ Σ y A “ U ΣV ˚ . Esto prueba la existencia de la descomposición de A en valores singulares, excepto el ordenamiento de los valores singulares.
Según la hipótesis de inducción los valores singulares de B están ordenados de mayor
a menor. Basta entonces demostrar que σ1 pAq ě σ1 pBq. Es decir, }A}2 ě }B}2 , o
bien, máx }Ax}2 ě máx }Bx}2 . Además, como la norma espectral es unitariamente
}x}2 “1
}x}2 “1
invariante podemos suponer que
„

σ1 0
A“
.
0 B
Sea x0 P Cn´1 un vector unitario para el que }Bx0 } “ máx }Bx}2 y sea
„ 
0
y“
P Cn .
x0
}x}2 “1
Claramente y ˚ y “ x˚0 x0 “ 1, de modo que
máx }Ax}2 ě }Ay} “ y ˚ A˚ Ay “ x˚0 B ˚ Bx0 “ }Bx0 } “ máx }Bx}2 ,
}x}2 “1
}x}2 “1
tal y como se deseaba demostrar.
La unicidad de los valores singulares ası́ como el resto del teorema lo demostraremos una vez analizadas unas cuantas propiedades importantes de los valores
singulares.
Observaciones 3.8 Si A P Rmˆn entonces existen matrices ortogonales P P Rmˆm
y Q P Rnˆn tales que A “ P ΣQT con
$ „

Diagpσ
,
.
.
.
,
σ
q
’
1
n
’
si m ě n
&
0m´nˆn
Σ“
’
’
‰
% “
Diagpσ1 , . . . , σm q 0mˆn´m si n ě m.
En cualquier caso, σ1 ě ¨ ¨ ¨ ě σp ě 0, p “ mı́ntm, nu son números reales no
negativos.
76
Valores singulares
3.4.
Propiedades de los valores singulares
A continuación analizamos algunas propiedades que se derivan del Teorema
SVD.
Proposición 3.9 Si r es el número de valores singulares de A distintos de cero,
entonces rang A “ r.
La demostración es una consecuencia inmediata de que el rango de una matriz no
varı́a si la multiplicamos por matrices invertibles.
˚
mˆn
Proposición 3.10 Si A “ U ΣV
es una descomposición
“
‰
“ de A P C
‰en valores
singulares, r “ rang A, y U “ u1 u2 ¨ ¨ ¨ um y V “ v1 v2 ¨ ¨ ¨ vn entonces
Im A “ă u1 , . . . , ur ą y Ker A “ă vr`1 , . . . , vm ą.
Demostración.- Sobre la base de que V y U son invertibles es fácil ver que
ImpAV q “ ImpAq y
KerpU ˚ Aq “ KerpAq.
Ahora bien,
ImpAV q “ ImpU Σq “ă σ1 u1 , . . . σr ur ą“ă u1 , . . . , ur ą .
Por otra parte, como tv1 , . . . , , vm u es una base ortonormal de Cn , si x P Cn entonces
m
ř
x“
ci vi “ V c con c “ pc1 , . . . , cm q. Ası́
i“1
x P KerpAq ô Ax “ 0 ô AV c “ 0 ô U ˚ AV c “ 0 ô Σc “ 0 ô
m
ř
ô σi ci “ 0, 1 ď i ď r ô x “
ci vi .
i“r`1
Esto significa que KerpAq “ă vr`1 , . . . , vm ą.
De forma similar se prueba
˚
mˆn
Proposición 3.11 Si A “ U ΣV
es una descomposición
“
‰
“ de A P C
‰en valores
singulares, r “ rang A, y U “ u1 u2 ¨ ¨ ¨ um y V “ v1 v2 ¨ ¨ ¨ vn entonces
Im A˚ “ă v1 , . . . , vr ą y Ker A˚ “ă ur`1 , . . . , um ą.
3.4 Propiedades de los valores singulares
77
Esta proposición también se puede ver como una consecuencia inmediata de la
anterior teniendo en cuenta las siguientes propiedades cuya demostración es muy
simple
pIm AqK “ Ker A˚ y pKer AqK “ Im A˚
La siguiente proposición nos proporciona una forma práctica de calcular los
valores singulares de una matriz:
Proposición 3.12 Los valores singulares de A P Cmˆn distintos de cero son las
raı́ces cuadradas positivas de los valores propios distintos de cero de A˚ A y también
de los de AA˚ .
Demostración.- Probaremos que los valores singulares de A son las raı́ces cuadradas positivas de los valores propios de A˚ A. Que también son los de AA˚ se
demuestra igual. También es consecuencia de la siguiente propiedad: Si A P Fmˆn y
B P Fnˆm entonces los valores propios distintos de cero de AB y BA son los mismos.
La explicación de esta propiedad está contenida en la siguiente ecuación:
„
„
„
 „

Im ´A AB 0 Im A
0
0
“
.
0 In
B 0
0 In
B BA
„
´1 „

„
 „

Im A
Im ´A
AB 0
0
0
Como
“
, las matrices
y
son semejantes;
0 In
0 In
B„ 0
B BA 
λIm ´ AB 0
i.e. tiene los mismos valores propios. Además, det
“ λn detpλIm ´
´B
λI
n
„

λIm
0
ABq y det
“ λm detpλIn ´ BAq. Por lo tanto, las matrices AB y
´B λIn ´ BA
BA tienen los mismos valores propios distintos de cero.
Si A “ U ΣV ˚ es una descomposición de A en valores singulares entonces
A˚ A “ V Σ˚ U ˚ U ΣV ˚ “ V ΣT ΣV ˚
porque Σ es una matriz de números reales. Como V es unitaria V ˚ “ V ´1 , por lo
que A˚ A y ΣT Σ son semejantes. Es decir, tienen los mismos valores propios. Pero
ΣT Σ “ Diagpσ12 , . . . , σr2 , 0, . . . 0q P Rnˆn
78
Valores singulares
con r “ rangpAq. Por lo tanto σ12 ě ¨ ¨ ¨ ě σr2 son los valores propios de ΣT Σ y de
A˚ A. .
La demostración de la Proposición anterior nos da un método para calcular los
valores singulares de A: se calculan los valores propios de A˚ A no nulos, se obtiene
su raı́z cuadrada positiva y el resultado son los valores singulares de A no nulos. Los
restantes son cero. Ahora bien, este método no nos proporciona, a priori, los vectores
singulares; o lo que es lo mismo, no obtenemos la descomposición SVD de A. Sin
embargo, podemos usar el cálculo de los valores y vectores propios de A˚ A para
obtener dicha descomposición. Para ver el modo de hacerlo tenemos que tener en
cuenta algunas propiedades de la matriz A˚ A. En primer lugar, A˚ A es una matriz
hermı́tica. Además es semidefinida positiva (o definida no negativa). Una matriz
hermı́tica H P Cnˆn , o simétrica si es real, se dice que es semidefinida positiva si
para todo x P Cnˆ1 , x˚ Hx ě 0. Y es definida positiva si la desigualdad es estricta
para todo x. Una propiedad importante que caracteriza las matrices semidefinidas
positivas es que sus valores propios son números reales no negativos (positivos,
si la matriz es definida positiva). La matriz A˚ A es semidefinida positiva porque
cualquiera que sea x P Fnˆ1 , x˚ A˚ Ax “ }Ax}2 ě 0. Otra propiedad importante de
las matrices hermı́ticas, que se demostrará en la Lección 9, es que son unitariamente
diagonalizables. Es decir, que si H P Fnˆn es hermı́tica (simétrica en el caso real)
entonces existe una matriz unitaria (ortogonal en el caso real) U P Fnˆn tal que
U ˚ HU “ D, siendo D una matriz diagonal. Los elementos en la diagonal de D (que
son números reales) son los valores propios de H.
Con estos ingredientes, el siguiente procedimiento nos proporciona una factorización SVD de A P Fmˆn donde supodremos que m ě n (en otro caso cambiarı́amos
A˚ A por AA˚ en todo lo que sigue):
1. Calculamos los valores y vectores propios ortonormales de A˚ A: A˚ A “ V ΛV ˚ ,
Λ “ Diagpλ1 , . . . , λn q con V P Fnˆn unitaria y λ1 ě ¨ ¨ ¨ ě λn
2. Observamos que AV es una matriz cuyas columnas son ortonormales. En efecto, si B “ AV y bj es su j-ésima columna entonces b˚i bj “ vi˚ A˚ Avj , y como
V ˚ A˚ AV “ Λ, b˚i bj es el elemento en la posición pi, jq de Λ. Es decir,
"
0 si i ‰ j
˚
bi b j “
λi si i “ j,
a
de modo que las columnas de B “ AV son ortonormales y }bj }2 “ ` λj .
3.4 Propiedades de los valores singulares
79
“
Por lo tanto, si ponemos uj “ `?1 λ bj tenemos que U1 “ u1 u2 ¨ ¨ ¨
j
‰
un es
una matriz
m‰ˆ n con columnas ortonormales. La ampliamos hasta una matriz
“
U “ U1 U2 P Fmˆm unitaria. Ası́,
“
AV “ B “ b1 b2 ¨ ¨ ¨
bn
‰
„
? 
?
Diagp` λ1 , . . . , ` λn q
“U
0
„
?
? 
?
Diagp` λ1 , . . . , ` λn q ˚
3. Obtenemos A “ U
V . Poniendo, σi “ ` λi , i “
0
„
Diagpσ1 , . . . , σn q
1, . . . , n, y Σ “
, tenemos que A “ U ΣV ˚ es una descom0
posición de A en valores singulares.
Recordemos ahora que los valores propios son únicos para cada matriz. Esto
demuestra la segunda parte del Teorema SVD
Corolario 3.13 Los valores singulares de A están determinados de forma única.
Para probar la última parte del Teorema SVD; es decir, que si A es cuadrada
y sus valores singulares son todos distintos, entonces los vectores singulares están
también determinados de forma única salvo producto por un número complejo de
módulo 1, debemos recordar lo siguiente sobre los valores propios de una matriz: Si
M P Cnˆn y sus valores propios son distintos dos a dos entonces admite un sistema
completo de vectores propios linealmente independientes. Esto es una consecuencia
de que a valores propios distintos corresponden vectores propios linealmente independientes. Si M tiene n valores propios distintos hay n vectores propios linealmente
independientes; y como están en un espacio de dimensión n deben ser una base. Ahora bien, si vi es un vector propio asociado al valor propio λi entonces M vi “ λi vi .
Y cualquier otro vector propio wi asociado al mismo valor propio “debe ser propor-‰
cional a vi ; es decir, existe α P C tal que wi “ αvi . Ahora, si T “ v1 v2 ¨ ¨ ¨ vn
entonces T P Cnˆn es invertible y
T ´1 M T “ Diagpλ1 , . . . , λn q
(3.1)
Y recı́procamente, si T P Cnˆn es una matriz invertible que verifica (3.1) con λi ‰ λj ,
entonces la i-ésima columna de T es un vector propio asociado al valor propio λi .
80
Valores singulares
Aplicando todo esto a la matriz A˚ A y teniendo en cuenta la demostración de
la Proposición 3.12 tenemos que
V ˚ A˚ AV “ Diagpσ12 , σ22 , . . . , σn2 q,
y también
U ˚ AA˚ U “ Diagpσ12 , σ22 , . . . , σn2 q.
Esto quiere decir que las columnas de V son una base ortonormal de vectores propios
de Cn respecto de A˚ A; y las de U son una base ortonormal de vectores propios de
Cn respecto AA˚ . Y, además, si A “ U1 ΣV1˚ es otra descomposición de A en valores
singulares, entonces vi “ αvi1 (i-ésimas columnas de V y V1 ). Como en este caso son,
˚
además, vectores unitarios, tenemos que 1 “ vi˚ vi “ |α|2 vi1 vi1 “ |α|. Es decir, α es
un escalar de módulo 1. Para las columnas de U sirve un razonamiento similar.
La unicidad de los valores singulares produce la siguiente consecuencia:
Proposición 3.14 Si A P Cmˆn y σ1 ě ¨ ¨ ¨ σp ě 0, p “ mı́ntm, nu, son sus valores
singulares, entonces }A}2 “ σ1 y }A}F “ σ12 ` ¨ ¨ ¨ ` σp2 .
Demostración.- En efecto si A “ U ΣV ˚ es una descomposición en valores
singulares de A, como las normas } ¨ }2 y } ¨ }F son unitariamente invariantes tenemos
}A}2 “ }Σ}2
y }A}F “ }Σ}F .
Basta probar que }Σ}2 “ σ1 y }Σ}F “ σ12 ` ¨ ¨ ¨ ` σp2 . Lo segundo es inmediato por
la propia definición de la norma de Frobenius. En cuanto a lo primero, supongamos
por sencillez que m ě n y sea x P Cn un vector arbitrario de norma euclı́dea 1.
Entonces
b
a
}Σx}2 “ σ12 |x1 |2 ` ¨ ¨ ¨ ` σn2 |xn |2 ď σ1 |x1 |2 ` ¨ ¨ ¨ ` |xn |2 “ σ1 }x}2 “ σ1 ,
donde hemos utilizado que σ1 ě ¨ ¨ ¨ ě σn y que }x}2 “ 1. Además, resulta que si
e1 “ p1, 0, . . . , 0q P Cn entonces }e1 }2 “ 1 y }Σe1 }2 “ σ1 . Esto prueba que
σ1 “ máx }Σx}2 “ }Σ}2 .
}x}2 “1
Proposición 3.15 Si A P Cnˆn y σ1 ě ¨ ¨ ¨ ě σn son sus valores singulares entonces
| detpAq| “ σ1 ¨ . . . ¨ σn
3.4 Propiedades de los valores singulares
res,
81
Demostración.- Si A “ U ΣV ˚ es una descomposición de A en valores singuladetpAq “ detpU q detpΣq detpV ˚ q.
Pero U y V son unitarias. Entonces, por una parte, U U ˚ “ In y por otra detpU ˚ q “
detpU q porque el conjugado de cualquier suma y producto de números complejos es
la suma o producto de los conjugados de dichos números. Ası́ pues, 1 “ detpIn q “
detpU q detpU ˚ q “ detpU qdetpU q “ | detpU q|2 . En conclusión,
| detpU q| “ | detpV q| “ 1,
y
| detpAq| “ | detpΣq| “ σ1 ¨ ¨ ¨ . . . ¨ σn .
Proposición 3.16 Si A P Cnˆn es invertible y σ1 ě ¨ ¨ ¨ ě σn son sus valores
1
1
singulares entonces los valores singulares de A´1 son
ě ¨ ¨ ¨ ě . En particular,
σn
σ1
1
´1
}A }2 “
.
σn
Demostración.- Si A “ U ΣV ˚ es una descomposición en valores singulares de
A y es invertible, entonces A´1 “ V Σ´1 U ˚ . Notemos que
ˆ
˙
1
1
´1
Σ “ Diag
,...,
σ1
σn
y que
1
1
ď ¨¨¨ ď
. Existe una matriz de permutación
σ1
σn
»
fi
0 ¨¨¨ 0 1
—0 ¨ ¨ ¨ 1 0ffi
—
ffi
P “ — ..
.. .. ffi
–.
. . fl
1 ¨¨¨ 0 0
˙
ˆ
1
1
´1 T
,...,
. Si ponemos V1 “ V P T y U1 “ U P T resulta
tal que P Σ P “ Diag
σn
σ1
que U1 y V1 son unitarias, porque el producto de matrices unitarias es una matriz
unitaria, y A´1 “ V1 P Σ´1 P T U1˚ es una descomposición en valores singulares de A´1 .
Como }A´1 }2 es el mayor valor singular de A´1 la conclusión es inmediata.
82
Valores singulares
La descomposición de A en valores singulares nos proporciona una forma especialmente útil de escribir A como suma de matrices de rango 1:
Proposición 3.17 Si A “ U ΣV ˚ P Cmˆn es una descomposición de A en valores
singulares y rangpAq “ r entonces
A“
“
‰
“
r
ÿ
σi ui vi˚
i“1
donde U “ u1 ¨ ¨ ¨ um , V “ v1 ¨ ¨ ¨
singulares positivos de A.
‰
vn y σ1 ě ¨ ¨ ¨ ě σr ą 0 son los valores
Demostración.- Basta poner
Σ “ Σ1 ` Σ2 ` ¨ ¨ ¨ ` Σr ,
„

Diagp0, . . . , σi , . . . , 0q 0
Σi “
0
0
donde Diagp0, . . . , σi , . . . , 0q P Crˆr y σi aparece en la i-ésima posición.
Es claro que A “
Debe notarse que
r
ř
i“1
U Σi V ˚ y que U Σi V ˚ “ σi ui vi˚ .
r
ÿ
i“1
σi ui vi˚ “ Ur Σr Vr˚
‰
con Ur “ u1 ¨ ¨ ¨ ur , Vr “ v1 ¨ ¨ ¨ vr y Σr “ Diagpσ1 , . . . , σr q, es una descomposición reducida en valores singulares de A.
“
3.5.
‰
“
Aproximación a matrices de menor rango
Una de las aplicaciones más interesantes del Teorema SVD es que nos permite
calcular el rango de una matriz con bastante fiabilidad. De hecho, el Teorema SVD
nos da mucho más que eso, nos proporciona una medida de esa fiabilidad. Ello es
consecuencia del siguiente teorema que nos proporciona una cota de la distancia que
hay de una matriz al conjunto de las matrices de rango menor que ella.
3.5 Aproximación a matrices de menor rango
83
Teorema 3.18 .- Sea A P Fmˆn una matriz de rango r; y sea k ă r un entero no
negativo. Entonces
mı́n }A ´ B}2 “ σk`1
rangpBqďk
donde σ1 ě σ2 ě . . . ě σr ą 0 son los valores singulares no nulos de A.
Demostración.- Tal y como viene siendo habitual demostraremos que σk`1 es
una cota superior alcanzable del conjunto de números
t}A ´ B}2 : rangpBq ď ku;
es decir, que para cualquier matriz B P Fmˆn con rangpBq ď k se tiene que }A ´
B}2 ě σk`1 y que existe una matriz Ak P Fmˆn con rangpAk q “ k tal que }A ´
Ak`1 }2 “ σk`1 .
Sean U P Cmˆm y V P Cnˆn matrices unitarias tales que
„

Σr 0
˚
U AV “ D “ Σ “
0 0
con Σr “ Diagpσ1 , σ2 , . . . , σr q.
Observemos que como mı́ntn, mu ě r ą k tenemos que k ` 1 ď n. Sea Vk`1 la
submatriz de V formada por sus primeras k ` 1 columnas. Como las columnas de
Vk`1 son ortonormales, dim Im Vk`1 “ k ` 1.
Sea ahora B P Fmˆn una matriz cualquiera tal que rang B ď k. Esto significa
que dim KerpBq “ n ´ rangpBq ě n ´ k. Tanto Ker B como Im Vk`1 son subespacios
vectoriales de Fn , pero dim Ker B ` dim Im Vk`1 ě n ` 1. Esto significa que Ker B X
Im Vk`1 ‰ t0u y, en consecuencia, hay un vector x P Ker B X Im Vk`1 no nulo que
podemos tomarlo de norma 1: k x k2 “ 1. Ahora
}A ´ B}22 ě }pA ´ Bqx}22 “ }Ax ´ Bx}22 “ }Ax}22 “ }U ΣV ˚ x}22 “ }ΣV ˚ x}22
porque x P Ker B y U es unitaria. Dado que x P Im Vk`1 es ortogonal a las últimas
n ´ k ´ 1 columnas de V . Es decir, vi˚ x “ 0 para i “ k ` 2, . . . , n. Por lo tanto,
si y “ V ˚ x entonces las n ´ k ´ 1 últimas componentes de y son iguales a cero.
Ası́ pues, teniendo en cuenta que k ă r
2
}ΣV ˚ x}22 “ σ12 |y1 |2 ` ¨ ¨ ¨ σk`1
|yk`1 |2 .
84
Valores singulares
Como σ1 ě ¨ ¨ ¨ ě σk`1 deducimos que
2
}ΣV ˚ x}22 ě σk`1
p|y1 |2 ` ¨ ¨ ¨ ` |yk`1 |2 q “ σk`1 }y}22
porque yk`2 “ ¨ ¨ ¨ “ yn “ 0. Finalmente, }y}2 “ }V ˚ x}2 “ }x}2 “ 1 porque V es
una matriz unitaria y x un vector de norma euclı́dea igual a 1. En consecuencia,
}A ´ B}22 ě σk`1 , tal y como se deseaba demostrar.
Veamos ahora que existe una matriz Ak de rango k tal que }A ´ Ak }2 “ σk`1 .
Pongamos Ak “ U Dk V ˚ , siendo
„

Diagpσ1 , . . . , σk q 0
Dk “
P Cmˆn .
0
0
Teniendo en cuenta que la norma espectral es unitariamente invariante, resulta que
}A ´ Ak }2 “ }U pD ´ Dk qV ˚ }2 “ }D ´ Dk }2 .
Pero
D ´ Dk “
„
Diagp0, . . . , 0, σk`1 , . . . , σr q 0
0
0

cuyos valores singulares no nulos son σk`1 ě . . . ě σr porque existe una matriz de
permutación -y en consecuencia unitaria- Q tal que
„

Diagpσk`1 , . . . , σr q 0
T
Q pD ´ Dk qQ “
.
0
0
Por lo tanto
}A ´ Ak }2 “ }D ´ Dk }2 “ σk`1 ,
lo que concluye la demostración.
Este teorema nos proporciona, como corolario, la distancia de una matriz no
singular a la matriz singular más próxima en la norma espectral: el valor singular
más pequeño de la matriz no singular.
Corolario 3.19 .- Si A P Cnˆn es una matriz no singular y σ1 ě σ2 ě . . . ě σn ą 0
son sus valores singulares, entonces
mı́n }A ´ B}2 “ σn .
detpBq“0
3.6 La inversa de Moore-Penrose
85
Demostración.- det B “ 0 si y sólo si rangpBq ď n ´ 1. Por el teorema anterior
mı́n }A ´ B}2 “
detpBq“0
mı́n
rangpBqďn´1
}A ´ B}2 “ σn .
Una consecuencia inmediata de este Corolario es el siguiente
Corolario 3.20 El conjunto de las matrices de rango completo de Cmˆn es abierto.
Demostración.- En efecto, suponiendo, por sencillez que m ě n, tenemos que si
A P Fmˆn y rangpAq “ n entonces las matrices de rango menor que n más próximas a
A están a una distancia σn , medida en la norma espectral. En consecuencia, cualquier
bola abierta con centro en A y radio r ď σn está completamente contenida en el
conjunto de las matrices de rango completo. Esto demuestra que este conjunto es
abierto.
3.6.
La inversa de Moore-Penrose
Ya hemos visto en la Proposición 3.16 que si
A “ U ΣV ˚ ,
Σ “ Diagpσ1 , . . . , σn q
es una descomposición en valores singulares de A P Cnˆn y ésta es invertible entonces
ˆ
˙
1
1
´1
˚
A “ Ṽ Σ̃Ũ , Σ̃ “ Diag
,...,
σn
σ1
con Ṽ “ V P y Ũ “ U P , P una matriz de permutación, es una descomposición en
valores singulares de A´1 .
Podemos usar esta idea para generalizar el concepto de inversa a inversa generalizada (o pseudoinversa) que juega un papel fundamental en varias partes de la
matemática y en particular en la solución del problema de mı́nimos cuadrados. Hay
varias inversas generalizadas (ver [2]). Aquı́ sólo trataremos de la llamada inversa
generalizada de Moore-Penrose o, simplemente, inversa de Moore-Penrose o pseudoinversa de Moore-Penrose. En MATLAB se utiliza el comando pinv para calcularla.
86
Valores singulares
Supongamos que A P Cmˆn y r “ rangpAq. Sean σ1 ě ¨ ¨ ¨ ě σr ą 0 sus valores
singulares no nulos y
„

Diagpσ1 , . . . , σr q 0
˚
A “ U ΣV , Σ “
0
0
una descomposición de A en valores singulares. Pongamos
˙ fi
ˆ
»
1
1
,...,
0fl
Diag
,
Σ: “ –
σ1
σr
0
0
y definamos
A : “ V Σ: U ˚ .
Definición 3.21 A la matriz A: se le llama inversa generalizada o pseudoinversa de Moore-Penrose de A.
En los ejercicios se presentan algunas propiedades importantes de la inversa de
Moore-Penrose. En particular, la definición dada aquı́ no es la que aparece habitualmente en los libros clásicos, aunque es la que mejor se adapta a nuestras circunstancias. La definición habitual es la siguiente: Es la única matriz que cumple las
siguientes cuatro propiedades:
piq
AA: A “ A,
piiq A: AA: “ A: ,
:
:
˚
piiiq A A “ pA Aq , pivq AA: “ pAA: q˚ .
Se puede demostrar que la Definición 3.21 es equivalente a estas cuatro condiciones. En cualquier caso, a primera vista en la Definición 3.21 no parece que se pueda
asegurar que hay una única inversa de Moore-Penrose para cada A. En efecto, la
definición depende de la elección de las matrices U y V en la descomposición de A en
valores singulares y éstas no son, en general, únicas. Nos proponemos demostrar que,
a pesar de la arbitrariedad en la elección de los vectores singulares por la izquierda
y por la derecha, la inversa de Moore-Penrose es única:
Proposición 3.22 Para cada A P Cmˆn hay una única inversa de Moore-Penrose.
3.6 La inversa de Moore-Penrose
87
Demostración.- Sea
˚
A “ U ΣV ,
„

Diagpσ1 , . . . , σr q 0
Σ“
0
0
una descomposición en valores singulares de A, r “ rangpAq. Y sea A: “ V Σ: U ˚ la
correspondiente inversa de Moore-Penrose. Por la Proposición 3.10 las r primeras
˚
columnas de U y V forman bases ortonormales
“ de ‰ImpAq y “de ImpA
‰ q, respectivamente. De acuerdo con esto escribimos V “ V1 V2 y U “ U1 U2 con V1 P Cnˆr
y U1 P Cmˆr . Si además, ponemos
ˆ
˙
1
1
´1
Σr “ Diagpσ1 , . . . , σr q entonces Σr “ Diag
,...,
,
σ1
σr
y
A “ U1 Σr V1˚
˚
y A: “ V1 Σ´1
r U1 .
Ahora, si hubiera otra descomposición de A en valores singulares, como éstos son
únicos, existirı́an matrices unitarias Ũ P Cmˆm y Ṽ P Cnˆn tales que A “ Ũ ΣṼ ˚ .
Partiendo Ũ y Ṽ como U y V tendrı́amos que A “ Ũ1 Σr Ṽ1˚ con Ũ1 y Ṽ1 matrices
cuyas columnas forman bases ortonormales de ImpAq y ImpA˚ q, respectivamente.
Para esta descomposición de A, la inversa de Moore-Penrose correspondiente
˚
:
:
serı́a: Ã: “ Ṽ1 Σ´1
r Ũ1 . Debemos demostrar que A “ Ã .
Por una parte, las columnas de U1 y Ũ1 forman bases ortonormales de ImpAq y
las columnas de V1 y Ṽ1 forman bases ortonormales de ImpA˚ q. Por lo tanto, existen
matrices unitarias P, Q P Crˆr tales que
Ũ1 “ U1 P
y Ṽ1 “ V1 Q.
(P y Q son las matrices de cambio de bases ortonormales; por lo tanto, unitarias).
Por otra parte,
de modo que
Ũ1 Σr Ṽ1˚ “ U1 Σr V1˚ ,
U1 P Σr Q˚ V1˚ “ U1 Σr V1˚ .
Pero U1˚ U1 “ V1˚ V1 “ Ir , ası́ que
P Σr Q˚ “ Σr .
88
Valores singulares
Y como Σr es invertible
y también
Es decir,
˚
´1
QΣ´1
r P “ Σr ,
˚ ˚
´1 ˚
V1 QΣ´1
r P U1 “ V1 Σr U1 .
˚
´1 ˚ ˚
´1 ˚
:
Ã: “ Ṽ1 Σ´1
r Ũ1 “ V1 QΣr P U1 “ V1 Σr U1 “ A ,
tal y como se deseaba demostrar.
Descargar