Capı́tulo 3 Valores singulares 3.1. Introducción Los valores singulares juegan un papel central en el álgebra lineal numérica actual. Son esenciales para calcular de forma fiable cantidades tan importantes como el rango de una matriz o la distancia de una matriz no singular al conjunto de las matrices singulares. Como tantas veces en matemáticas, no fue la necesidad práctica (derivada, por ejemplo, del cálculo numérico) sino la necesidad de profundizar en el conocimiento lo que produjo el surgimiento de los valores singulares. Por otra parte, no ha sido hasta el reciente desarrollo del álgebra lineal numérica cuando tal concepto ha adquirido la importancia que actualmente tiene e incluso la denominación que ahora le estamos dando. En efecto, fue en la segunda parte del siglo XIX cuando algunos geómetras se preguntaron, utilizando lenguaje actual, por la posibilidad de reducir unitariamente una forma cuadrática a forma diagonal. Entre los matemáticos que contribuyeron 65 66 Valores singulares a la solución de este problema se encuentran nombres tan famosos como Eugenio Beltrami, Camille Jordan, James Joseph Sylvester, Erhard Scmidt o Hermann Weyl. Una breve e interesante historia de los valores singulares puede encontrarse en el report de G. W. Stewart: On the early history of the Singular Value Decomposition que se puede obtener en la dirección http://citeseer.ist.psu.edu/stewart92early.html o mediante ftp anónimo en thales.cs.umd.edu en el directorio pub/reports. En nuestro proceso hacia la definición de los valores singulares y del teorema central de este capı́tulo (El Teorema SVD) necesitamos recordar el concepto de matriz unitaria. A ello dedicamos la primera sección. 3.2. Matrices Ortogonales y Unitarias Comenzamos repasando los conceptos de producto escalar y ortogonalidad. Si x, y P Fn entonces el producto escalar de y y x es $ ř n ’ yi xi “ y T x si F “ R, & i“1 ă x, y ą“ n ř ’ % y i xi “ y ˚ x si F “ C i“1 Por lo general supondremos que F “ C de modo que el producto escalar de x y y lo escribiremos como un producto de matrices; i.e. y ˚ x. Deberemos entender que en el caso en que los vectores sean reales y hablemos del producto escalar en Rn entonces se debe sustituir ˚ por T . Debe observarse que para todo x P Cn x˚ x “ n ÿ i“1 |xi |2 “ }x}22 . Esta forma de expresar la norma euclı́dea de un vector, la usaremos muy a menudo. Un vector diremos que es unitario si su norma es 1. Dos vectores se dice que son ortogonales si su producto escalar es cero: x K y ô y ˚ x “ 0. 3.2 Matrices Ortogonales y Unitarias 67 Nótese que y ˚ x y x˚ y son números complejos conjugados: x˚ y “ y ˚ x, pero si x, y P Rn entonces xT y “ y T x. Dos conjuntos X, Y Ă Fn son ortogonales si cada vector de X es ortogonal a cada vector de Y . Escribiremos, en tal caso, X K Y . Si S Ď Fn es un subconjunto denotaremos S K “ ty P Fn |x˚ y “ 0, @x P Su. Independientemente de si S es un subespacio vectorial o no, S K siempre lo es, y lo llamaremos el subespacio ortogonal de S. Abusando de lenguaje diremos que un conjunto de vectores no nulos es ortogonal si cada vector es ortogonal a todos los demás: S ortogonal ô @x, y P S, x˚ y “ 0. Si, además, todos los vectores del conjunto son unitarios entonces el conjunto se dice que es ortonormal : S ortonormal ô S ortogonal y @x P S, }x}2 “ 1. Proposición 3.1 Todos los vectores de un conjunto S “ tv1 , . . . , vt u ortogonal son linealmente independientes. Demostración.- Si t ř i“1 0 “ vj˚ t ÿ i“1 ai vi “ 0, entonces para j “ 1, . . . , t ai v i “ t ÿ i“1 ai pvj˚ vi q “ cj pvj˚ vj q “ cj }xj }. Por lo tanto, cj “ 0. Definición 3.2 (a) Una matriz U P Cnˆn es unitaria si sus columnas forman una base ortonormal de vectores de Cn . (b) Una matriz P P Rnˆn es ortogonal si sus columnas forman una base ortonormal de vectores de Rn . 68 Valores singulares Hay algunas condiciones equivalentes a ser unitaria (aplicado a F “ R sirven para matrices ortogonales): Proposición 3.3 Para U P Cnˆn las siguientes condiciones son equivalentes: (i) U es unitaria. (ii) U es no singular y U ˚ “ U ´1 . (iii) U U ˚ “ In . (iv) U ˚ es unitaria. (v) Las filas de U forman un sistema ortonormal de vectores de Cn . (vi) Para todo x P Cn se tiene }x}2 “ }U x}2 La demostración de estas propiedades es más o menos inmediata salvo, quizá, la condición (vi). Desde luego, si U es unitaria entonces }U x}22 “ pU xq˚ U x “ x˚ U ˚ U x “ x˚ x “ }x}22 donde hemos usado las condiciones (iv) y (iii) equivalentes a ser U unitaria (i.e. U ˚ U “ In ). El recı́proco se puede demostrar siguiendo las siguientes ideas: Si }U x}2 “ }x}2 entonces x˚ U ˚ U x “ x˚ x, que equivale a x˚ pU ˚ U ´ In qx “ 0. Teniendo en cuenta que U ˚ U ´ In es hermı́tica (simétrica en el caso real de matrices ortogonales) es fácil ver que x˚ pU ˚ U ´ In qx “ 0 implica U ˚ U ´ In “ 0. En efecto, si ponemos A “ U ˚ U ´ In , x˚ Ax “ 0 para todo x P Fn implica que si ei “ p0, . . . , 1, . . . , 0q es el i-ésimo vector canónico entonces e˚i Aei “ 0 ñ aii “ 0 pei ` ej q˚ Apei ` ej q “ 0 ñ Repaij q “ 0. pei ` iej q˚ Apei ` iej q “ 0 ñ Impaij q “ 0 Las matrices unitarias forman un subgrupo multiplicativo del Grupo General Lineal, llamado Grupo Unitario. La condición (vi) de la Proposición 3.3 indica que el grupo unitario es el grupo de isometrı́as para la norma euclı́dea. 3.2 Matrices Ortogonales y Unitarias 69 Definición 3.4 Una norma } ¨ } en Cmˆn se dice que es unitariamente invariantes si @A P Cmˆn y para todo par de matrices unitarias U P Cmˆm y V P Cnˆn se cumple que }U AV } “ }A}. Proposición 3.5 Las normas } ¨ }2 y } ¨ }F definidas en Cnˆn son unitariamente invariantes. Demostración.- Recordemos que }A}2F “ trpA˚ Aq “ trpAA˚ q. Ası́, si U es unitaria }U A}2F “ trpA˚ U ˚ U Aq “ trpA˚ Aq “ }A}2F . De la misma forma, si V es unitaria }AV }2F “ trppAV qpAV q˚ q “ trpAV V ˚ A˚ q “ trpAA˚ q “ }A}2F . Por lo tanto, si U y V son unitarias: }U AV }F “ }U A}F “ }A}F . Por otra parte, }A}2 “ máx }Ax}2 . Entonces, si U es unitaria }x}2 “1 }U A}2 “ máx }U Ax}2 . }x}2 “1 Pero por ser U unitaria, }U x}2 “ }x}2 , de modo que }U Ax}2 “ }Ax}2 y }U A}2 “ máx }U Ax}2 “ máx }Ax}2 “ }A}2 . }x}2 “1 }x}2 “1 También, si V es unitaria los conjuntos tx P Cn |}x}2 “ 1u “ tV x P Cn |}V x}2 “ 1u son iguales. Entonces }AV }2 “ máx }AV x}2 “ máx }AV x}2 “ máx }Ay}2 “ }A}2 . }x}2 “1 En consecuencia }U AV }2 “ }A}2 . }V x}2 “1 }y}2 “1 70 Valores singulares 3.3. Valores singulares Hay varias formas de introducir los valores singulares de una matriz. Tal y como se ha mencionado en la Introducción de esta Lección, históricamente los valores singulares son el resultado de la búsqueda de una forma de reducir las formas cuadráticas a forma diagonal mediante cambios de base ortonormales. Este hecho, sin embargo tiene un significado geométrico que no debe pasar desapercibido: Las aplicaciones lineales transforman las esferas unidad en hiperelipses. Una hiperelipse es la generalización a m dimensiones de una elipse. Podrı́amos definirla como la superficie que se obtiene al estirar o comprimir la esfera unidad en m direcciones ortogonales por factores σ1 , σ2 ,. . . , σm (posiblemente cero). Es decir, si fijamos m vectores ortonormales u1 , . . . , um P Fm , los vectores σ1 u1 ,. . . , σm um son los semiejes de la hiperelipse con longitudes σ1 ,. . . , σm . Si S n´1 “ tx P Fn |}x}2 “ 1u es la esfera unidad y A P Fmˆn entonces ApS n´1 q es una hiperelipse. La Figura 3.1 representa el caso n “ m “ 2 y F “ R. v1 v2 A s2 u 2 s1 u 1 Figura 3.1: Las matrices transforman esferas en elipses El hecho de que las aplicaciones lineales (o matrices) transformen la esfera unidad en hiperelipses no es obvia y quedará demostrada cuando probemos el llamado 3.3 Valores singulares 71 Teorema SVD. Por ahora aceptémosla y veamos qué significa en términos de matrices. Supongamos que la matriz de la aplicación lineal es A P Fmˆn y que, por sencillez, rangpAq “ n ď m. Notemos que, como aplicación lineal, A : Fn Ñ Fm . Tal y como hemos mencionado, la hiperelipse queda determinada, en principio, por m vectores ortonormales tu1 , . . . , um u y las correspondientes longitudes de los semiejes σ1 ,. . . , σm que los vamos a suponer ordenados de forma que σ1 ě σ2 ě ¨ ¨ ¨ ě σm ě 0. Ası́ σi ui es el i-ésimo semieje más largo de ApS n´1 q. Ası́ pues, para i “ 1, . . . , m σi ui P ApS n´1 q Ă Im A. Pero como los vectores tu1 , . . . , um u son ortonormales, y por lo tanto son linealmente independientes, si rangpAq “ r debe haber a lo sumo r vectores σi ui linealmente independientes. De todo ello se sigue que hay r de los σi que son distintos de cero a lo má. En otras palabras, si la hiperelipse es la imagen por A de la esfera unidad, debe estar en Im A ası́ que sólo puede contener r vectores linealmente independientes. Finalmente sean tv1 , . . . , vn u Ă S n´1 las anteimágenes de los semiejes no nulos de la hiperelipse: Avi “ σi ui , i “ 1, . . . , r. En este momento no es claro por qué pero admitamos que los vectores vi son ortogonales (y, por lo tanto, ortonormales porque están en la esfera unidad). La condición escribir en forma matricial: Si “ Avi “ σi u ‰ i , i “ 1,“ . . . , r, se puede ‰ ponemos Û “ u1 ¨ ¨ ¨ ur y V̂ “ v1 ¨ ¨ ¨ vr tenemos que AV̂ “ Σ̂Û , Σ̂ “ Diagpσ1 , . . . , σr q. siendo Û P Fmˆn y V̂ P Fnˆn matrices cuyas columnas son vectores ortonormales. Si escogemos base ortonormal de Ker “ A y‰ que sean ortogonales a los de “V̂ podemos ‰ formar una matrix unitari V “ V̂ Ṽ que es unitaria y AV “ Û Σ̂ 0 . Por consiguiente “ ‰ A “ Û Σ̂ 0 V ˚ “ Û Σ̂V̂ ˚ . A esta factorización de A se le llama Descomposición en Valores Singulares Reducida o Económica de A. O, más abreviadamente, SVD Reducida de A. Hay también una Descomposición en Valores Singulares Completa de A, que es la que aparece en la mayorı́a de los libros que tratan el tema, aunque en la mayor parte de las aplicaciones es la descomposición reducida la que se utiliza. Pasar de una descomposición a la otra es muy fácil: Si m ě n, Û no es una matriz unitaria y Σ̂ no tiene el tamaño de A. Una descomposición completa es una que cumpla estos dos 72 Valores singulares requisitos. Para ello basta ampliar el sistema de vectores ortonormales tu1 , . . . , un u hasta una base ortonormal de Cm . Tal cosa siempre es posible porque los vectores u1 , . . . , un son linealmente independientes y se pueden ampliar hasta una base de Cn . Luego basta aplicar el método de Gram-Schmidt para obtener la base ortonormal. Sea entonces tu1 , . . . , un , un`1 , . . . , um u una base ortonormal de Cm y pongamos „ “ ‰ Σ̂ U “ u1 ¨ ¨ ¨ un un`1 ¨ ¨ ¨ um y Σ“ 0m´nˆn Entonces ˚ “ U ΣV “ Û Ũ ‰ „ Σ̂ 0m´nˆn V ˚ “ Û Σ̂V ˚ “ A. Por lo tanto, A “ U ΣV ˚ es una descomposición en valores singulares completa de A. Nótese que de una descomposición en valores singulares completa de A se obtiene una reducida sin más que suprimir las filas cero de Σ y las correspondientes columnas de U y V . Definición 3.6 Sea m, n enteros positivos y A P Cmˆn . Una descomposición en valores singulares (completa) de A es una factorización A “ U ΣV ˚ donde U P Cmˆm y V P Cnˆn son unitarias y Σ es diagonal. Además, $ „ Diagpσ , . . . , σ q ’ 1 n ’ si m ě n & 0m´nˆn Σ“ ’ ’ ‰ % “ Diagpσ1 , . . . , σm q 0mˆn´m si n ě m En cualquier caso, σ1 ě ¨ ¨ ¨ ě σp ě 0, p “ mı́ntm, nu son números reales no negativos ordenados de mayor a menor y se llaman valores singulares de A. Además, a los vectores u1 , . . . , um y v1 , . . . , vn que forman las columnas de U y V se les llama vectores singulares de A por la izquierda y por la derecha, respectivamente. Si A P Rmˆn basta cambiar “matriz unitaria” por “matriz ortogonal”. Nos queda establecer de manera rigurosa que tal descomposición es siempre posible y que los valores singulares están determinados de forma única por A. Admitiéndolo, deberı́a ya ser claro que, en efecto, la imagen de la esfera unidad en 3.3 Valores singulares 73 Fn por A “ U ΣV ˚ es una hiperelipse:V ˚ por ser unitaria preserva la esfera, Σ la deforma estirando o encogiendo la esfera en direcciones ortogonales y U , de nuevo unitaria, la gira o refleja. Todo lo anterior tiene sentido una vez que demostremos el siguiente resultado fundamental Teorema 3.7 (Teorema SVD) Toda matriz A P Fmˆn admite una descomposición en valores singulares. Además, los valores singulares están determinados de forma única, y, si A es cuadrada y sus valores singulares son todos distintos, entonces los vectores singulares están también determinados de forma única salvo producto por un número complejo de módulo 1. Demostración.- Supondremos F “ C y todo lo que vamos a decir es de aplicación a matrices de números reales cambiando la palabra “unitaria” por “ortogonal”. Dado que el caso de A “ 0 es trivial, supondremos que A ‰ 0 y procederemos por inducción sobre n, el número de columnas de A. Supondremos, además, que m ě n. Si fuera n ě m, y una vez demostrado el Teorema con m ě n, lo aplicarı́amos a A˚ . Ası́, existirı́an matrices unitarias U y V tales que A˚ “ U ΣV ˚ Entonces A “ pA˚ q˚ “ V Σ˚ U ˚ . Como los valores singulares son números reales Σ˚ “ Σ y A “ V ΣU ˚ con U y V unitarias. Sea entonces n “ 1 y m ě 1. Ponemos Û “ Û Σ̂V “ 1 A, }A}2 Σ̂ “ }A}2 y V “ 1. Ası́ 1 A ¨ }A}2 ¨ 1 “ A. }A}2 Para n “ 1, A P Cmˆ1 es un vector columna y por lo tanto Û es un vector columna unitario. Ası́ A “ Û Σ̂V es una descomposición reducida de A que puede extenderse a una descomposición completa tal y como hemos visto más arriba. Consideremos ahora que el Teorema ha sido demostrado para matrices de tamaño m ˆ p (p ď n ´ 1). Sea A P Cmˆn y σ1 “ }A}2 . Como }A}2 “ máx }Ax}2 }x}2 “1 existe un vector unitario v1 P C , }v1 }2 “ 1, tal que σ1 “ }A}2 “ }Av1 }2 . Sea u1 “ }Av11 }2 Av1 . Ası́ }u1 }2 “ 1 y Av1 “ σ1 u1 . Extendamos u1 y v1 hasta bases ortonormales de Cm y Cn , respectivamente, y sean U1 y V1 las matrices, unitarias, cuyas n 74 Valores singulares columnas son los vectores de esas bases. Escribamos “ ‰ “ ‰ U1 “ u1 U 1 , V1 “ u1 V 1 . Entonces U1˚ AV1 „ „ ˚ “ ‰ u˚1 u1 Av1 u˚1 AV 1 “ . ˚ A v1 V 1 “ ˚ ˚ U1 U 1 Av1 U 1 AV 1 Por una parte Av1 “ σ1 u1 implica que u˚1 Av1 “ σ1 (recordemos que u˚1 u1 “ 1 porque ˚ ˚ u1 es un vector unitario). Además U 1 Av1 “ σ1 U 1 u1 . Pero las columnas de U 1 son ˚ ortogonales a u1 y esto equivale a U 1 u1 “ 0. Ası́ pues „ ˚ u1 Av1 u˚1 AV 1 ˚ U1 AV1 “ . ˚ U 1 AV 1 0 ˚ Veamos que también u˚1 AV 1 “ 0. Pongamos w˚ “ u˚1 AV 1 y B “ U 1 AV 1 , S “ „ σ U1˚ AV1 y z “ 1 . Como la norma espectral es consistente con la norma euclı́dea w ›„ ›„ 2 „ › › › σ1 w˚ σ1 › › σ1 ` w ˚ w › › ě pσ12 ` w˚ wq “ › “› }S}2 }z}2 ě }Sz}2 “ ›› › › 0 B w › Bw 2 “ pσ12 ˚ ` w wq 1{2 2 ›„ › › σ1 › 2 ˚ 1{2 › › › w › “ pσ1 ` w wq }z}2 . 2 Ası́ pues, }S}2 ě pσ12 ` w˚ wq1{2 . Pero la norma espectral es unitariamente invariante (Proposición 3.5); por lo tanto σ1 “ }A}2 “ }S}2 ě pσ12 ` w˚ wq1{2 ; lo cual implica que w “ 0 tal y como querı́amos demostrar. En consecuencia U1˚ AV1 „ σ1 0 “ . 0 B Debe notarse que B es la restricción de A al subespacio ortogonal a u1 ; i.e. ă u1 ąK . Además B P Cpm´1qˆpn´1q . Por la hipótesis de inducción, B admite una descomposición en valores singulares: B “ U2 Σ2 V2˚ con U2 P Cpm´1qˆpm´1q y V2 P „ Diagpσ2 , . . . , σn q Cpn´1qˆpn´1q unitarias y Σ2 “ . Ası́ 0 „ „ „ „ „ „ 1 0 1 0 1 0 σ1 0 1 0 Diagpσ1 , σ2 , . . . , σn q ˚ U AV “ “ . 0 U2˚ 1 1 0 V2 0 U2˚ 0 B 0 V2 0 3.3 Valores singulares Si ponemos 75 „ 1 0 ˚ U “ ˚ U1 0 U2 ˚ y V “ V1 „ 1 0 , 0 V2 tenemos que U ˚ AV “ Σ y A “ U ΣV ˚ . Esto prueba la existencia de la descomposición de A en valores singulares, excepto el ordenamiento de los valores singulares. Según la hipótesis de inducción los valores singulares de B están ordenados de mayor a menor. Basta entonces demostrar que σ1 pAq ě σ1 pBq. Es decir, }A}2 ě }B}2 , o bien, máx }Ax}2 ě máx }Bx}2 . Además, como la norma espectral es unitariamente }x}2 “1 }x}2 “1 invariante podemos suponer que „ σ1 0 A“ . 0 B Sea x0 P Cn´1 un vector unitario para el que }Bx0 } “ máx }Bx}2 y sea „ 0 y“ P Cn . x0 }x}2 “1 Claramente y ˚ y “ x˚0 x0 “ 1, de modo que máx }Ax}2 ě }Ay} “ y ˚ A˚ Ay “ x˚0 B ˚ Bx0 “ }Bx0 } “ máx }Bx}2 , }x}2 “1 }x}2 “1 tal y como se deseaba demostrar. La unicidad de los valores singulares ası́ como el resto del teorema lo demostraremos una vez analizadas unas cuantas propiedades importantes de los valores singulares. Observaciones 3.8 Si A P Rmˆn entonces existen matrices ortogonales P P Rmˆm y Q P Rnˆn tales que A “ P ΣQT con $ „ Diagpσ , . . . , σ q ’ 1 n ’ si m ě n & 0m´nˆn Σ“ ’ ’ ‰ % “ Diagpσ1 , . . . , σm q 0mˆn´m si n ě m. En cualquier caso, σ1 ě ¨ ¨ ¨ ě σp ě 0, p “ mı́ntm, nu son números reales no negativos. 76 Valores singulares 3.4. Propiedades de los valores singulares A continuación analizamos algunas propiedades que se derivan del Teorema SVD. Proposición 3.9 Si r es el número de valores singulares de A distintos de cero, entonces rang A “ r. La demostración es una consecuencia inmediata de que el rango de una matriz no varı́a si la multiplicamos por matrices invertibles. ˚ mˆn Proposición 3.10 Si A “ U ΣV es una descomposición “ ‰ “ de A P C ‰en valores singulares, r “ rang A, y U “ u1 u2 ¨ ¨ ¨ um y V “ v1 v2 ¨ ¨ ¨ vn entonces Im A “ă u1 , . . . , ur ą y Ker A “ă vr`1 , . . . , vm ą. Demostración.- Sobre la base de que V y U son invertibles es fácil ver que ImpAV q “ ImpAq y KerpU ˚ Aq “ KerpAq. Ahora bien, ImpAV q “ ImpU Σq “ă σ1 u1 , . . . σr ur ą“ă u1 , . . . , ur ą . Por otra parte, como tv1 , . . . , , vm u es una base ortonormal de Cn , si x P Cn entonces m ř x“ ci vi “ V c con c “ pc1 , . . . , cm q. Ası́ i“1 x P KerpAq ô Ax “ 0 ô AV c “ 0 ô U ˚ AV c “ 0 ô Σc “ 0 ô m ř ô σi ci “ 0, 1 ď i ď r ô x “ ci vi . i“r`1 Esto significa que KerpAq “ă vr`1 , . . . , vm ą. De forma similar se prueba ˚ mˆn Proposición 3.11 Si A “ U ΣV es una descomposición “ ‰ “ de A P C ‰en valores singulares, r “ rang A, y U “ u1 u2 ¨ ¨ ¨ um y V “ v1 v2 ¨ ¨ ¨ vn entonces Im A˚ “ă v1 , . . . , vr ą y Ker A˚ “ă ur`1 , . . . , um ą. 3.4 Propiedades de los valores singulares 77 Esta proposición también se puede ver como una consecuencia inmediata de la anterior teniendo en cuenta las siguientes propiedades cuya demostración es muy simple pIm AqK “ Ker A˚ y pKer AqK “ Im A˚ La siguiente proposición nos proporciona una forma práctica de calcular los valores singulares de una matriz: Proposición 3.12 Los valores singulares de A P Cmˆn distintos de cero son las raı́ces cuadradas positivas de los valores propios distintos de cero de A˚ A y también de los de AA˚ . Demostración.- Probaremos que los valores singulares de A son las raı́ces cuadradas positivas de los valores propios de A˚ A. Que también son los de AA˚ se demuestra igual. También es consecuencia de la siguiente propiedad: Si A P Fmˆn y B P Fnˆm entonces los valores propios distintos de cero de AB y BA son los mismos. La explicación de esta propiedad está contenida en la siguiente ecuación: „ „ „ „ Im ´A AB 0 Im A 0 0 “ . 0 In B 0 0 In B BA „ ´1 „ „ „ Im A Im ´A AB 0 0 0 Como “ , las matrices y son semejantes; 0 In 0 In B„ 0 B BA λIm ´ AB 0 i.e. tiene los mismos valores propios. Además, det “ λn detpλIm ´ ´B λI n „ λIm 0 ABq y det “ λm detpλIn ´ BAq. Por lo tanto, las matrices AB y ´B λIn ´ BA BA tienen los mismos valores propios distintos de cero. Si A “ U ΣV ˚ es una descomposición de A en valores singulares entonces A˚ A “ V Σ˚ U ˚ U ΣV ˚ “ V ΣT ΣV ˚ porque Σ es una matriz de números reales. Como V es unitaria V ˚ “ V ´1 , por lo que A˚ A y ΣT Σ son semejantes. Es decir, tienen los mismos valores propios. Pero ΣT Σ “ Diagpσ12 , . . . , σr2 , 0, . . . 0q P Rnˆn 78 Valores singulares con r “ rangpAq. Por lo tanto σ12 ě ¨ ¨ ¨ ě σr2 son los valores propios de ΣT Σ y de A˚ A. . La demostración de la Proposición anterior nos da un método para calcular los valores singulares de A: se calculan los valores propios de A˚ A no nulos, se obtiene su raı́z cuadrada positiva y el resultado son los valores singulares de A no nulos. Los restantes son cero. Ahora bien, este método no nos proporciona, a priori, los vectores singulares; o lo que es lo mismo, no obtenemos la descomposición SVD de A. Sin embargo, podemos usar el cálculo de los valores y vectores propios de A˚ A para obtener dicha descomposición. Para ver el modo de hacerlo tenemos que tener en cuenta algunas propiedades de la matriz A˚ A. En primer lugar, A˚ A es una matriz hermı́tica. Además es semidefinida positiva (o definida no negativa). Una matriz hermı́tica H P Cnˆn , o simétrica si es real, se dice que es semidefinida positiva si para todo x P Cnˆ1 , x˚ Hx ě 0. Y es definida positiva si la desigualdad es estricta para todo x. Una propiedad importante que caracteriza las matrices semidefinidas positivas es que sus valores propios son números reales no negativos (positivos, si la matriz es definida positiva). La matriz A˚ A es semidefinida positiva porque cualquiera que sea x P Fnˆ1 , x˚ A˚ Ax “ }Ax}2 ě 0. Otra propiedad importante de las matrices hermı́ticas, que se demostrará en la Lección 9, es que son unitariamente diagonalizables. Es decir, que si H P Fnˆn es hermı́tica (simétrica en el caso real) entonces existe una matriz unitaria (ortogonal en el caso real) U P Fnˆn tal que U ˚ HU “ D, siendo D una matriz diagonal. Los elementos en la diagonal de D (que son números reales) son los valores propios de H. Con estos ingredientes, el siguiente procedimiento nos proporciona una factorización SVD de A P Fmˆn donde supodremos que m ě n (en otro caso cambiarı́amos A˚ A por AA˚ en todo lo que sigue): 1. Calculamos los valores y vectores propios ortonormales de A˚ A: A˚ A “ V ΛV ˚ , Λ “ Diagpλ1 , . . . , λn q con V P Fnˆn unitaria y λ1 ě ¨ ¨ ¨ ě λn 2. Observamos que AV es una matriz cuyas columnas son ortonormales. En efecto, si B “ AV y bj es su j-ésima columna entonces b˚i bj “ vi˚ A˚ Avj , y como V ˚ A˚ AV “ Λ, b˚i bj es el elemento en la posición pi, jq de Λ. Es decir, " 0 si i ‰ j ˚ bi b j “ λi si i “ j, a de modo que las columnas de B “ AV son ortonormales y }bj }2 “ ` λj . 3.4 Propiedades de los valores singulares 79 “ Por lo tanto, si ponemos uj “ `?1 λ bj tenemos que U1 “ u1 u2 ¨ ¨ ¨ j ‰ un es una matriz m‰ˆ n con columnas ortonormales. La ampliamos hasta una matriz “ U “ U1 U2 P Fmˆm unitaria. Ası́, “ AV “ B “ b1 b2 ¨ ¨ ¨ bn ‰ „ ? ? Diagp` λ1 , . . . , ` λn q “U 0 „ ? ? ? Diagp` λ1 , . . . , ` λn q ˚ 3. Obtenemos A “ U V . Poniendo, σi “ ` λi , i “ 0 „ Diagpσ1 , . . . , σn q 1, . . . , n, y Σ “ , tenemos que A “ U ΣV ˚ es una descom0 posición de A en valores singulares. Recordemos ahora que los valores propios son únicos para cada matriz. Esto demuestra la segunda parte del Teorema SVD Corolario 3.13 Los valores singulares de A están determinados de forma única. Para probar la última parte del Teorema SVD; es decir, que si A es cuadrada y sus valores singulares son todos distintos, entonces los vectores singulares están también determinados de forma única salvo producto por un número complejo de módulo 1, debemos recordar lo siguiente sobre los valores propios de una matriz: Si M P Cnˆn y sus valores propios son distintos dos a dos entonces admite un sistema completo de vectores propios linealmente independientes. Esto es una consecuencia de que a valores propios distintos corresponden vectores propios linealmente independientes. Si M tiene n valores propios distintos hay n vectores propios linealmente independientes; y como están en un espacio de dimensión n deben ser una base. Ahora bien, si vi es un vector propio asociado al valor propio λi entonces M vi “ λi vi . Y cualquier otro vector propio wi asociado al mismo valor propio “debe ser propor-‰ cional a vi ; es decir, existe α P C tal que wi “ αvi . Ahora, si T “ v1 v2 ¨ ¨ ¨ vn entonces T P Cnˆn es invertible y T ´1 M T “ Diagpλ1 , . . . , λn q (3.1) Y recı́procamente, si T P Cnˆn es una matriz invertible que verifica (3.1) con λi ‰ λj , entonces la i-ésima columna de T es un vector propio asociado al valor propio λi . 80 Valores singulares Aplicando todo esto a la matriz A˚ A y teniendo en cuenta la demostración de la Proposición 3.12 tenemos que V ˚ A˚ AV “ Diagpσ12 , σ22 , . . . , σn2 q, y también U ˚ AA˚ U “ Diagpσ12 , σ22 , . . . , σn2 q. Esto quiere decir que las columnas de V son una base ortonormal de vectores propios de Cn respecto de A˚ A; y las de U son una base ortonormal de vectores propios de Cn respecto AA˚ . Y, además, si A “ U1 ΣV1˚ es otra descomposición de A en valores singulares, entonces vi “ αvi1 (i-ésimas columnas de V y V1 ). Como en este caso son, ˚ además, vectores unitarios, tenemos que 1 “ vi˚ vi “ |α|2 vi1 vi1 “ |α|. Es decir, α es un escalar de módulo 1. Para las columnas de U sirve un razonamiento similar. La unicidad de los valores singulares produce la siguiente consecuencia: Proposición 3.14 Si A P Cmˆn y σ1 ě ¨ ¨ ¨ σp ě 0, p “ mı́ntm, nu, son sus valores singulares, entonces }A}2 “ σ1 y }A}F “ σ12 ` ¨ ¨ ¨ ` σp2 . Demostración.- En efecto si A “ U ΣV ˚ es una descomposición en valores singulares de A, como las normas } ¨ }2 y } ¨ }F son unitariamente invariantes tenemos }A}2 “ }Σ}2 y }A}F “ }Σ}F . Basta probar que }Σ}2 “ σ1 y }Σ}F “ σ12 ` ¨ ¨ ¨ ` σp2 . Lo segundo es inmediato por la propia definición de la norma de Frobenius. En cuanto a lo primero, supongamos por sencillez que m ě n y sea x P Cn un vector arbitrario de norma euclı́dea 1. Entonces b a }Σx}2 “ σ12 |x1 |2 ` ¨ ¨ ¨ ` σn2 |xn |2 ď σ1 |x1 |2 ` ¨ ¨ ¨ ` |xn |2 “ σ1 }x}2 “ σ1 , donde hemos utilizado que σ1 ě ¨ ¨ ¨ ě σn y que }x}2 “ 1. Además, resulta que si e1 “ p1, 0, . . . , 0q P Cn entonces }e1 }2 “ 1 y }Σe1 }2 “ σ1 . Esto prueba que σ1 “ máx }Σx}2 “ }Σ}2 . }x}2 “1 Proposición 3.15 Si A P Cnˆn y σ1 ě ¨ ¨ ¨ ě σn son sus valores singulares entonces | detpAq| “ σ1 ¨ . . . ¨ σn 3.4 Propiedades de los valores singulares res, 81 Demostración.- Si A “ U ΣV ˚ es una descomposición de A en valores singuladetpAq “ detpU q detpΣq detpV ˚ q. Pero U y V son unitarias. Entonces, por una parte, U U ˚ “ In y por otra detpU ˚ q “ detpU q porque el conjugado de cualquier suma y producto de números complejos es la suma o producto de los conjugados de dichos números. Ası́ pues, 1 “ detpIn q “ detpU q detpU ˚ q “ detpU qdetpU q “ | detpU q|2 . En conclusión, | detpU q| “ | detpV q| “ 1, y | detpAq| “ | detpΣq| “ σ1 ¨ ¨ ¨ . . . ¨ σn . Proposición 3.16 Si A P Cnˆn es invertible y σ1 ě ¨ ¨ ¨ ě σn son sus valores 1 1 singulares entonces los valores singulares de A´1 son ě ¨ ¨ ¨ ě . En particular, σn σ1 1 ´1 }A }2 “ . σn Demostración.- Si A “ U ΣV ˚ es una descomposición en valores singulares de A y es invertible, entonces A´1 “ V Σ´1 U ˚ . Notemos que ˆ ˙ 1 1 ´1 Σ “ Diag ,..., σ1 σn y que 1 1 ď ¨¨¨ ď . Existe una matriz de permutación σ1 σn » fi 0 ¨¨¨ 0 1 —0 ¨ ¨ ¨ 1 0ffi — ffi P “ — .. .. .. ffi –. . . fl 1 ¨¨¨ 0 0 ˙ ˆ 1 1 ´1 T ,..., . Si ponemos V1 “ V P T y U1 “ U P T resulta tal que P Σ P “ Diag σn σ1 que U1 y V1 son unitarias, porque el producto de matrices unitarias es una matriz unitaria, y A´1 “ V1 P Σ´1 P T U1˚ es una descomposición en valores singulares de A´1 . Como }A´1 }2 es el mayor valor singular de A´1 la conclusión es inmediata. 82 Valores singulares La descomposición de A en valores singulares nos proporciona una forma especialmente útil de escribir A como suma de matrices de rango 1: Proposición 3.17 Si A “ U ΣV ˚ P Cmˆn es una descomposición de A en valores singulares y rangpAq “ r entonces A“ “ ‰ “ r ÿ σi ui vi˚ i“1 donde U “ u1 ¨ ¨ ¨ um , V “ v1 ¨ ¨ ¨ singulares positivos de A. ‰ vn y σ1 ě ¨ ¨ ¨ ě σr ą 0 son los valores Demostración.- Basta poner Σ “ Σ1 ` Σ2 ` ¨ ¨ ¨ ` Σr , „ Diagp0, . . . , σi , . . . , 0q 0 Σi “ 0 0 donde Diagp0, . . . , σi , . . . , 0q P Crˆr y σi aparece en la i-ésima posición. Es claro que A “ Debe notarse que r ř i“1 U Σi V ˚ y que U Σi V ˚ “ σi ui vi˚ . r ÿ i“1 σi ui vi˚ “ Ur Σr Vr˚ ‰ con Ur “ u1 ¨ ¨ ¨ ur , Vr “ v1 ¨ ¨ ¨ vr y Σr “ Diagpσ1 , . . . , σr q, es una descomposición reducida en valores singulares de A. “ 3.5. ‰ “ Aproximación a matrices de menor rango Una de las aplicaciones más interesantes del Teorema SVD es que nos permite calcular el rango de una matriz con bastante fiabilidad. De hecho, el Teorema SVD nos da mucho más que eso, nos proporciona una medida de esa fiabilidad. Ello es consecuencia del siguiente teorema que nos proporciona una cota de la distancia que hay de una matriz al conjunto de las matrices de rango menor que ella. 3.5 Aproximación a matrices de menor rango 83 Teorema 3.18 .- Sea A P Fmˆn una matriz de rango r; y sea k ă r un entero no negativo. Entonces mı́n }A ´ B}2 “ σk`1 rangpBqďk donde σ1 ě σ2 ě . . . ě σr ą 0 son los valores singulares no nulos de A. Demostración.- Tal y como viene siendo habitual demostraremos que σk`1 es una cota superior alcanzable del conjunto de números t}A ´ B}2 : rangpBq ď ku; es decir, que para cualquier matriz B P Fmˆn con rangpBq ď k se tiene que }A ´ B}2 ě σk`1 y que existe una matriz Ak P Fmˆn con rangpAk q “ k tal que }A ´ Ak`1 }2 “ σk`1 . Sean U P Cmˆm y V P Cnˆn matrices unitarias tales que „ Σr 0 ˚ U AV “ D “ Σ “ 0 0 con Σr “ Diagpσ1 , σ2 , . . . , σr q. Observemos que como mı́ntn, mu ě r ą k tenemos que k ` 1 ď n. Sea Vk`1 la submatriz de V formada por sus primeras k ` 1 columnas. Como las columnas de Vk`1 son ortonormales, dim Im Vk`1 “ k ` 1. Sea ahora B P Fmˆn una matriz cualquiera tal que rang B ď k. Esto significa que dim KerpBq “ n ´ rangpBq ě n ´ k. Tanto Ker B como Im Vk`1 son subespacios vectoriales de Fn , pero dim Ker B ` dim Im Vk`1 ě n ` 1. Esto significa que Ker B X Im Vk`1 ‰ t0u y, en consecuencia, hay un vector x P Ker B X Im Vk`1 no nulo que podemos tomarlo de norma 1: k x k2 “ 1. Ahora }A ´ B}22 ě }pA ´ Bqx}22 “ }Ax ´ Bx}22 “ }Ax}22 “ }U ΣV ˚ x}22 “ }ΣV ˚ x}22 porque x P Ker B y U es unitaria. Dado que x P Im Vk`1 es ortogonal a las últimas n ´ k ´ 1 columnas de V . Es decir, vi˚ x “ 0 para i “ k ` 2, . . . , n. Por lo tanto, si y “ V ˚ x entonces las n ´ k ´ 1 últimas componentes de y son iguales a cero. Ası́ pues, teniendo en cuenta que k ă r 2 }ΣV ˚ x}22 “ σ12 |y1 |2 ` ¨ ¨ ¨ σk`1 |yk`1 |2 . 84 Valores singulares Como σ1 ě ¨ ¨ ¨ ě σk`1 deducimos que 2 }ΣV ˚ x}22 ě σk`1 p|y1 |2 ` ¨ ¨ ¨ ` |yk`1 |2 q “ σk`1 }y}22 porque yk`2 “ ¨ ¨ ¨ “ yn “ 0. Finalmente, }y}2 “ }V ˚ x}2 “ }x}2 “ 1 porque V es una matriz unitaria y x un vector de norma euclı́dea igual a 1. En consecuencia, }A ´ B}22 ě σk`1 , tal y como se deseaba demostrar. Veamos ahora que existe una matriz Ak de rango k tal que }A ´ Ak }2 “ σk`1 . Pongamos Ak “ U Dk V ˚ , siendo „ Diagpσ1 , . . . , σk q 0 Dk “ P Cmˆn . 0 0 Teniendo en cuenta que la norma espectral es unitariamente invariante, resulta que }A ´ Ak }2 “ }U pD ´ Dk qV ˚ }2 “ }D ´ Dk }2 . Pero D ´ Dk “ „ Diagp0, . . . , 0, σk`1 , . . . , σr q 0 0 0 cuyos valores singulares no nulos son σk`1 ě . . . ě σr porque existe una matriz de permutación -y en consecuencia unitaria- Q tal que „ Diagpσk`1 , . . . , σr q 0 T Q pD ´ Dk qQ “ . 0 0 Por lo tanto }A ´ Ak }2 “ }D ´ Dk }2 “ σk`1 , lo que concluye la demostración. Este teorema nos proporciona, como corolario, la distancia de una matriz no singular a la matriz singular más próxima en la norma espectral: el valor singular más pequeño de la matriz no singular. Corolario 3.19 .- Si A P Cnˆn es una matriz no singular y σ1 ě σ2 ě . . . ě σn ą 0 son sus valores singulares, entonces mı́n }A ´ B}2 “ σn . detpBq“0 3.6 La inversa de Moore-Penrose 85 Demostración.- det B “ 0 si y sólo si rangpBq ď n ´ 1. Por el teorema anterior mı́n }A ´ B}2 “ detpBq“0 mı́n rangpBqďn´1 }A ´ B}2 “ σn . Una consecuencia inmediata de este Corolario es el siguiente Corolario 3.20 El conjunto de las matrices de rango completo de Cmˆn es abierto. Demostración.- En efecto, suponiendo, por sencillez que m ě n, tenemos que si A P Fmˆn y rangpAq “ n entonces las matrices de rango menor que n más próximas a A están a una distancia σn , medida en la norma espectral. En consecuencia, cualquier bola abierta con centro en A y radio r ď σn está completamente contenida en el conjunto de las matrices de rango completo. Esto demuestra que este conjunto es abierto. 3.6. La inversa de Moore-Penrose Ya hemos visto en la Proposición 3.16 que si A “ U ΣV ˚ , Σ “ Diagpσ1 , . . . , σn q es una descomposición en valores singulares de A P Cnˆn y ésta es invertible entonces ˆ ˙ 1 1 ´1 ˚ A “ Ṽ Σ̃Ũ , Σ̃ “ Diag ,..., σn σ1 con Ṽ “ V P y Ũ “ U P , P una matriz de permutación, es una descomposición en valores singulares de A´1 . Podemos usar esta idea para generalizar el concepto de inversa a inversa generalizada (o pseudoinversa) que juega un papel fundamental en varias partes de la matemática y en particular en la solución del problema de mı́nimos cuadrados. Hay varias inversas generalizadas (ver [2]). Aquı́ sólo trataremos de la llamada inversa generalizada de Moore-Penrose o, simplemente, inversa de Moore-Penrose o pseudoinversa de Moore-Penrose. En MATLAB se utiliza el comando pinv para calcularla. 86 Valores singulares Supongamos que A P Cmˆn y r “ rangpAq. Sean σ1 ě ¨ ¨ ¨ ě σr ą 0 sus valores singulares no nulos y „ Diagpσ1 , . . . , σr q 0 ˚ A “ U ΣV , Σ “ 0 0 una descomposición de A en valores singulares. Pongamos ˙ fi ˆ » 1 1 ,..., 0fl Diag , Σ: “ – σ1 σr 0 0 y definamos A : “ V Σ: U ˚ . Definición 3.21 A la matriz A: se le llama inversa generalizada o pseudoinversa de Moore-Penrose de A. En los ejercicios se presentan algunas propiedades importantes de la inversa de Moore-Penrose. En particular, la definición dada aquı́ no es la que aparece habitualmente en los libros clásicos, aunque es la que mejor se adapta a nuestras circunstancias. La definición habitual es la siguiente: Es la única matriz que cumple las siguientes cuatro propiedades: piq AA: A “ A, piiq A: AA: “ A: , : : ˚ piiiq A A “ pA Aq , pivq AA: “ pAA: q˚ . Se puede demostrar que la Definición 3.21 es equivalente a estas cuatro condiciones. En cualquier caso, a primera vista en la Definición 3.21 no parece que se pueda asegurar que hay una única inversa de Moore-Penrose para cada A. En efecto, la definición depende de la elección de las matrices U y V en la descomposición de A en valores singulares y éstas no son, en general, únicas. Nos proponemos demostrar que, a pesar de la arbitrariedad en la elección de los vectores singulares por la izquierda y por la derecha, la inversa de Moore-Penrose es única: Proposición 3.22 Para cada A P Cmˆn hay una única inversa de Moore-Penrose. 3.6 La inversa de Moore-Penrose 87 Demostración.- Sea ˚ A “ U ΣV , „ Diagpσ1 , . . . , σr q 0 Σ“ 0 0 una descomposición en valores singulares de A, r “ rangpAq. Y sea A: “ V Σ: U ˚ la correspondiente inversa de Moore-Penrose. Por la Proposición 3.10 las r primeras ˚ columnas de U y V forman bases ortonormales “ de ‰ImpAq y “de ImpA ‰ q, respectivamente. De acuerdo con esto escribimos V “ V1 V2 y U “ U1 U2 con V1 P Cnˆr y U1 P Cmˆr . Si además, ponemos ˆ ˙ 1 1 ´1 Σr “ Diagpσ1 , . . . , σr q entonces Σr “ Diag ,..., , σ1 σr y A “ U1 Σr V1˚ ˚ y A: “ V1 Σ´1 r U1 . Ahora, si hubiera otra descomposición de A en valores singulares, como éstos son únicos, existirı́an matrices unitarias Ũ P Cmˆm y Ṽ P Cnˆn tales que A “ Ũ ΣṼ ˚ . Partiendo Ũ y Ṽ como U y V tendrı́amos que A “ Ũ1 Σr Ṽ1˚ con Ũ1 y Ṽ1 matrices cuyas columnas forman bases ortonormales de ImpAq y ImpA˚ q, respectivamente. Para esta descomposición de A, la inversa de Moore-Penrose correspondiente ˚ : : serı́a: Ã: “ Ṽ1 Σ´1 r Ũ1 . Debemos demostrar que A “ à . Por una parte, las columnas de U1 y Ũ1 forman bases ortonormales de ImpAq y las columnas de V1 y Ṽ1 forman bases ortonormales de ImpA˚ q. Por lo tanto, existen matrices unitarias P, Q P Crˆr tales que Ũ1 “ U1 P y Ṽ1 “ V1 Q. (P y Q son las matrices de cambio de bases ortonormales; por lo tanto, unitarias). Por otra parte, de modo que Ũ1 Σr Ṽ1˚ “ U1 Σr V1˚ , U1 P Σr Q˚ V1˚ “ U1 Σr V1˚ . Pero U1˚ U1 “ V1˚ V1 “ Ir , ası́ que P Σr Q˚ “ Σr . 88 Valores singulares Y como Σr es invertible y también Es decir, ˚ ´1 QΣ´1 r P “ Σr , ˚ ˚ ´1 ˚ V1 QΣ´1 r P U1 “ V1 Σr U1 . ˚ ´1 ˚ ˚ ´1 ˚ : Ã: “ Ṽ1 Σ´1 r Ũ1 “ V1 QΣr P U1 “ V1 Σr U1 “ A , tal y como se deseaba demostrar.