Valores singulares

Capı́tulo 3 Valores singulares 3.1. Introducción Los valores singulares juegan un papel central en el álgebra lineal numérica actual. Son esenciales para calcular de forma fiable cantidades tan importantes como el rango de una matriz o la distancia de una matriz no singular al conjunto de las matrices singulares. Como tantas veces en matemáticas, no fue la necesidad práctica (derivada, por ejemplo, del cálculo numérico) sino la necesidad de profundizar en el conocimiento lo que produjo el surgimiento de los valores singulares. Por otra parte, no ha sido hasta el reciente desarrollo del álgebra lineal numérica cuando tal concepto ha adquirido la importancia que actualmente tiene e incluso la denominación que ahora le estamos dando. En efecto, fue en la segunda parte del siglo XIX cuando algunos geómetras se preguntaron, utilizando lenguaje actual, por la posibilidad de reducir unitariamente una forma cuadrática a forma diagonal. Entre los matemáticos que contribuyeron 65 66 Valores singulares a la solución de este problema se encuentran nombres tan famosos como Eugenio Beltrami, Camille Jordan, James Joseph Sylvester, Erhard Scmidt o Hermann Weyl. Una breve e interesante historia de los valores singulares puede encontrarse en el report de G. W. Stewart: On the early history of the Singular Value Decomposition que se puede obtener en la dirección http://citeseer.ist.psu.edu/stewart92early.html o mediante ftp anónimo en thales.cs.umd.edu en el directorio pub/reports. En nuestro proceso hacia la definición de los valores singulares y del teorema central de este capı́tulo (El Teorema SVD) necesitamos recordar el concepto de matriz unitaria. A ello dedicamos la primera sección. 3.2. Matrices Ortogonales y Unitarias Comenzamos repasando los conceptos de producto escalar y ortogonalidad. Si x, y P Fn entonces el producto escalar de y y x es $ ř n ’ yi xi “ y T x si F “ R, & i“1 ă x, y ą“ n ř ’ % y i xi “ y ˚ x si F “ C i“1 Por lo general supondremos que F “ C de modo que el producto escalar de x y y lo escribiremos como un producto de matrices; i.e. y ˚ x. Deberemos entender que en el caso en que los vectores sean reales y hablemos del producto escalar en Rn entonces se debe sustituir ˚ por T . Debe observarse que para todo x P Cn x˚ x “ n ÿ i“1 |xi |2 “ }x}22 . Esta forma de expresar la norma euclı́dea de un vector, la usaremos muy a menudo. Un vector diremos que es unitario si su norma es 1. Dos vectores se dice que son ortogonales si su producto escalar es cero: x K y ô y ˚ x “ 0. 3.2 Matrices Ortogonales y Unitarias 67 Nótese que y ˚ x y x˚ y son números complejos conjugados: x˚ y “ y ˚ x, pero si x, y P Rn entonces xT y “ y T x. Dos conjuntos X, Y Ă Fn son ortogonales si cada vector de X es ortogonal a cada vector de Y . Escribiremos, en tal caso, X K Y . Si S Ď Fn es un subconjunto denotaremos S K “ ty P Fn |x˚ y “ 0, @x P Su. Independientemente de si S es un subespacio vectorial o no, S K siempre lo es, y lo llamaremos el subespacio ortogonal de S. Abusando de lenguaje diremos que un conjunto de vectores no nulos es ortogonal si cada vector es ortogonal a todos los demás: S ortogonal ô @x, y P S, x˚ y “ 0. Si, además, todos los vectores del conjunto son unitarios entonces el conjunto se dice que es ortonormal : S ortonormal ô S ortogonal y @x P S, }x}2 “ 1. Proposición 3.1 Todos los vectores de un conjunto S “ tv1 , . . . , vt u ortogonal son linealmente independientes. Demostración.- Si t ř i“1 0 “ vj˚ t ÿ i“1 ai vi “ 0, entonces para j “ 1, . . . , t ai v i “ t ÿ i“1 ai pvj˚ vi q “ cj pvj˚ vj q “ cj }xj }. Por lo tanto, cj “ 0. Definición 3.2 (a) Una matriz U P Cnˆn es unitaria si sus columnas forman una base ortonormal de vectores de Cn . (b) Una matriz P P Rnˆn es ortogonal si sus columnas forman una base ortonormal de vectores de Rn . 68 Valores singulares Hay algunas condiciones equivalentes a ser unitaria (aplicado a F “ R sirven para matrices ortogonales): Proposición 3.3 Para U P Cnˆn las siguientes condiciones son equivalentes: (i) U es unitaria. (ii) U es no singular y U ˚ “ U ´1 . (iii) U U ˚ “ In . (iv) U ˚ es unitaria. (v) Las filas de U forman un sistema ortonormal de vectores de Cn . (vi) Para todo x P Cn se tiene }x}2 “ }U x}2 La demostración de estas propiedades es más o menos inmediata salvo, quizá, la condición (vi). Desde luego, si U es unitaria entonces }U x}22 “ pU xq˚ U x “ x˚ U ˚ U x “ x˚ x “ }x}22 donde hemos usado las condiciones (iv) y (iii) equivalentes a ser U unitaria (i.e. U ˚ U “ In ). El recı́proco se puede demostrar siguiendo las siguientes ideas: Si }U x}2 “ }x}2 entonces x˚ U ˚ U x “ x˚ x, que equivale a x˚ pU ˚ U ´ In qx “ 0. Teniendo en cuenta que U ˚ U ´ In es hermı́tica (simétrica en el caso real de matrices ortogonales) es fácil ver que x˚ pU ˚ U ´ In qx “ 0 implica U ˚ U ´ In “ 0. En efecto, si ponemos A “ U ˚ U ´ In , x˚ Ax “ 0 para todo x P Fn implica que si ei “ p0, . . . , 1, . . . , 0q es el i-ésimo vector canónico entonces e˚i Aei “ 0 ñ aii “ 0 pei ` ej q˚ Apei ` ej q “ 0 ñ Repaij q “ 0. pei ` iej q˚ Apei ` iej q “ 0 ñ Impaij q “ 0 Las matrices unitarias forman un subgrupo multiplicativo del Grupo General Lineal, llamado Grupo Unitario. La condición (vi) de la Proposición 3.3 indica que el grupo unitario es el grupo de isometrı́as para la norma euclı́dea. 3.2 Matrices Ortogonales y Unitarias 69 Definición 3.4 Una norma } ¨ } en Cmˆn se dice que es unitariamente invariantes si @A P Cmˆn y para todo par de matrices unitarias U P Cmˆm y V P Cnˆn se cumple que }U AV } “ }A}. Proposición 3.5 Las normas } ¨ }2 y } ¨ }F definidas en Cnˆn son unitariamente invariantes. Demostración.- Recordemos que }A}2F “ trpA˚ Aq “ trpAA˚ q. Ası́, si U es unitaria }U A}2F “ trpA˚ U ˚ U Aq “ trpA˚ Aq “ }A}2F . De la misma forma, si V es unitaria }AV }2F “ trppAV qpAV q˚ q “ trpAV V ˚ A˚ q “ trpAA˚ q “ }A}2F . Por lo tanto, si U y V son unitarias: }U AV }F “ }U A}F “ }A}F . Por otra parte, }A}2 “ máx }Ax}2 . Entonces, si U es unitaria }x}2 “1 }U A}2 “ máx }U Ax}2 . }x}2 “1 Pero por ser U unitaria, }U x}2 “ }x}2 , de modo que }U Ax}2 “ }Ax}2 y }U A}2 “ máx }U Ax}2 “ máx }Ax}2 “ }A}2 . }x}2 “1 }x}2 “1 También, si V es unitaria los conjuntos tx P Cn |}x}2 “ 1u “ tV x P Cn |}V x}2 “ 1u son iguales. Entonces }AV }2 “ máx }AV x}2 “ máx }AV x}2 “ máx }Ay}2 “ }A}2 . }x}2 “1 En consecuencia }U AV }2 “ }A}2 . }V x}2 “1 }y}2 “1 70 Valores singulares 3.3. Valores singulares Hay varias formas de introducir los valores singulares de una matriz. Tal y como se ha mencionado en la Introducción de esta Lección, históricamente los valores singulares son el resultado de la búsqueda de una forma de reducir las formas cuadráticas a forma diagonal mediante cambios de base ortonormales. Este hecho, sin embargo tiene un significado geométrico que no debe pasar desapercibido: Las aplicaciones lineales transforman las esferas unidad en hiperelipses. Una hiperelipse es la generalización a m dimensiones de una elipse. Podrı́amos definirla como la superficie que se obtiene al estirar o comprimir la esfera unidad en m direcciones ortogonales por factores σ1 , σ2 ,. . . , σm (posiblemente cero). Es decir, si fijamos m vectores ortonormales u1 , . . . , um P Fm , los vectores σ1 u1 ,. . . , σm um son los semiejes de la hiperelipse con longitudes σ1 ,. . . , σm . Si S n´1 “ tx P Fn |}x}2 “ 1u es la esfera unidad y A P Fmˆn entonces ApS n´1 q es una hiperelipse. La Figura 3.1 representa el caso n “ m “ 2 y F “ R. v1 v2 A s2 u 2 s1 u 1 Figura 3.1: Las matrices transforman esferas en elipses El hecho de que las aplicaciones lineales (o matrices) transformen la esfera unidad en hiperelipses no es obvia y quedará demostrada cuando probemos el llamado 3.3 Valores singulares 71 Teorema SVD. Por ahora aceptémosla y veamos qué significa en términos de matrices. Supongamos que la matriz de la aplicación lineal es A P Fmˆn y que, por sencillez, rangpAq “ n ď m. Notemos que, como aplicación lineal, A : Fn Ñ Fm . Tal y como hemos mencionado, la hiperelipse queda determinada, en principio, por m vectores ortonormales tu1 , . . . , um u y las correspondientes longitudes de los semiejes σ1 ,. . . , σm que los vamos a suponer ordenados de forma que σ1 ě σ2 ě ¨ ¨ ¨ ě σm ě 0. Ası́ σi ui es el i-ésimo semieje más largo de ApS n´1 q. Ası́ pues, para i “ 1, . . . , m σi ui P ApS n´1 q Ă Im A. Pero como los vectores tu1 , . . . , um u son ortonormales, y por lo tanto son linealmente independientes, si rangpAq “ r debe haber a lo sumo r vectores σi ui linealmente independientes. De todo ello se sigue que hay r de los σi que son distintos de cero a lo má. En otras palabras, si la hiperelipse es la imagen por A de la esfera unidad, debe estar en Im A ası́ que sólo puede contener r vectores linealmente independientes. Finalmente sean tv1 , . . . , vn u Ă S n´1 las anteimágenes de los semiejes no nulos de la hiperelipse: Avi “ σi ui , i “ 1, . . . , r. En este momento no es claro por qué pero admitamos que los vectores vi son ortogonales (y, por lo tanto, ortonormales porque están en la esfera unidad). La condición escribir en forma matricial: Si “ Avi “ σi u ‰ i , i “ 1,“ . . . , r, se puede ‰ ponemos Û “ u1 ¨ ¨ ¨ ur y V̂ “ v1 ¨ ¨ ¨ vr tenemos que AV̂ “ Σ̂Û , Σ̂ “ Diagpσ1 , . . . , σr q. siendo Û P Fmˆn y V̂ P Fnˆn matrices cuyas columnas son vectores ortonormales. Si escogemos base ortonormal de Ker “ A y‰ que sean ortogonales a los de “V̂ podemos ‰ formar una matrix unitari V “ V̂ Ṽ que es unitaria y AV “ Û Σ̂ 0 . Por consiguiente “ ‰ A “ Û Σ̂ 0 V ˚ “ Û Σ̂V̂ ˚ . A esta factorización de A se le llama Descomposición en Valores Singulares Reducida o Económica de A. O, más abreviadamente, SVD Reducida de A. Hay también una Descomposición en Valores Singulares Completa de A, que es la que aparece en la mayorı́a de los libros que tratan el tema, aunque en la mayor parte de las aplicaciones es la descomposición reducida la que se utiliza. Pasar de una descomposición a la otra es muy fácil: Si m ě n, Û no es una matriz unitaria y Σ̂ no tiene el tamaño de A. Una descomposición completa es una que cumpla estos dos 72 Valores singulares requisitos. Para ello basta ampliar el sistema de vectores ortonormales tu1 , . . . , un u hasta una base ortonormal de Cm . Tal cosa siempre es posible porque los vectores u1 , . . . , un son linealmente independientes y se pueden ampliar hasta una base de Cn . Luego basta aplicar el método de Gram-Schmidt para obtener la base ortonormal. Sea entonces tu1 , . . . , un , un`1 , . . . , um u una base ortonormal de Cm y pongamos „  “ ‰ Σ̂ U “ u1 ¨ ¨ ¨ un un`1 ¨ ¨ ¨ um y Σ“ 0mńˆn Entonces ˚ “ U ΣV “ Û Ũ ‰ „ Σ̂ 0mńˆn  V ˚ “ Û Σ̂V ˚ “ A. Por lo tanto, A “ U ΣV ˚ es una descomposición en valores singulares completa de A. Nótese que de una descomposición en valores singulares completa de A se obtiene una reducida sin más que suprimir las filas cero de Σ y las correspondientes columnas de U y V . Definición 3.6 Sea m, n enteros positivos y A P Cmˆn . Una descomposición en valores singulares (completa) de A es una factorización A “ U ΣV ˚ donde U P Cmˆm y V P Cnˆn son unitarias y Σ es diagonal. Además, $ „  Diagpσ , . . . , σ q ’ 1 n ’ si m ě n & 0mńˆn Σ“ ’ ’ ‰ % “ Diagpσ1 , . . . , σm q 0mˆn´m si n ě m En cualquier caso, σ1 ě ¨ ¨ ¨ ě σp ě 0, p “ mı́ntm, nu son números reales no negativos ordenados de mayor a menor y se llaman valores singulares de A. Además, a los vectores u1 , . . . , um y v1 , . . . , vn que forman las columnas de U y V se les llama vectores singulares de A por la izquierda y por la derecha, respectivamente. Si A P Rmˆn basta cambiar “matriz unitaria” por “matriz ortogonal”. Nos queda establecer de manera rigurosa que tal descomposición es siempre posible y que los valores singulares están determinados de forma única por A. Admitiéndolo, deberı́a ya ser claro que, en efecto, la imagen de la esfera unidad en 3.3 Valores singulares 73 Fn por A “ U ΣV ˚ es una hiperelipse:V ˚ por ser unitaria preserva la esfera, Σ la deforma estirando o encogiendo la esfera en direcciones ortogonales y U , de nuevo unitaria, la gira o refleja. Todo lo anterior tiene sentido una vez que demostremos el siguiente resultado fundamental Teorema 3.7 (Teorema SVD) Toda matriz A P Fmˆn admite una descomposición en valores singulares. Además, los valores singulares están determinados de forma única, y, si A es cuadrada y sus valores singulares son todos distintos, entonces los vectores singulares están también determinados de forma única salvo producto por un número complejo de módulo 1. Demostración.- Supondremos F “ C y todo lo que vamos a decir es de aplicación a matrices de números reales cambiando la palabra “unitaria” por “ortogonal”. Dado que el caso de A “ 0 es trivial, supondremos que A ‰ 0 y procederemos por inducción sobre n, el número de columnas de A. Supondremos, además, que m ě n. Si fuera n ě m, y una vez demostrado el Teorema con m ě n, lo aplicarı́amos a A˚ . Ası́, existirı́an matrices unitarias U y V tales que A˚ “ U ΣV ˚ Entonces A “ pA˚ q˚ “ V Σ˚ U ˚ . Como los valores singulares son números reales Σ˚ “ Σ y A “ V ΣU ˚ con U y V unitarias. Sea entonces n “ 1 y m ě 1. Ponemos Û “ Û Σ̂V “ 1 A, }A}2 Σ̂ “ }A}2 y V “ 1. Ası́ 1 A ¨ }A}2 ¨ 1 “ A. }A}2 Para n “ 1, A P Cmˆ1 es un vector columna y por lo tanto Û es un vector columna unitario. Ası́ A “ Û Σ̂V es una descomposición reducida de A que puede extenderse a una descomposición completa tal y como hemos visto más arriba. Consideremos ahora que el Teorema ha sido demostrado para matrices de tamaño m ˆ p (p ď n ´ 1). Sea A P Cmˆn y σ1 “ }A}2 . Como }A}2 “ máx }Ax}2 }x}2 “1 existe un vector unitario v1 P C , }v1 }2 “ 1, tal que σ1 “ }A}2 “ }Av1 }2 . Sea u1 “ }Av11 }2 Av1 . Ası́ }u1 }2 “ 1 y Av1 “ σ1 u1 . Extendamos u1 y v1 hasta bases ortonormales de Cm y Cn , respectivamente, y sean U1 y V1 las matrices, unitarias, cuyas n 74 Valores singulares columnas son los vectores de esas bases. Escribamos “ ‰ “ ‰ U1 “ u1 U 1 , V1 “ u1 V 1 . Entonces U1˚ AV1 „  „ ˚  “ ‰ u˚1 u1 Av1 u˚1 AV 1 “ . ˚ A v1 V 1 “ ˚ ˚ U1 U 1 Av1 U 1 AV 1 Por una parte Av1 “ σ1 u1 implica que u˚1 Av1 “ σ1 (recordemos que u˚1 u1 “ 1 porque ˚ ˚ u1 es un vector unitario). Además U 1 Av1 “ σ1 U 1 u1 . Pero las columnas de U 1 son ˚ ortogonales a u1 y esto equivale a U 1 u1 “ 0. Ası́ pues „ ˚  u1 Av1 u˚1 AV 1 ˚ U1 AV1 “ . ˚ U 1 AV 1 0 ˚ Veamos que también u˚1 AV 1 “ 0. Pongamos w˚ “ u˚1 AV 1 y B “ U 1 AV 1 , S “ „  σ U1˚ AV1 y z “ 1 . Como la norma espectral es consistente con la norma euclı́dea w ›„ ›„ 2  „ › › › σ1 w˚ σ1 › › σ1 ` w ˚ w › › ě pσ12 ` w˚ wq “ › “› }S}2 }z}2 ě }Sz}2 “ ›› › › 0 B w › Bw 2 “ pσ12 ˚ ` w wq 1{2 2 ›„ › › σ1 › 2 ˚ 1{2 › › › w › “ pσ1 ` w wq }z}2 . 2 Ası́ pues, }S}2 ě pσ12 ` w˚ wq1{2 . Pero la norma espectral es unitariamente invariante (Proposición 3.5); por lo tanto σ1 “ }A}2 “ }S}2 ě pσ12 ` w˚ wq1{2 ; lo cual implica que w “ 0 tal y como querı́amos demostrar. En consecuencia U1˚ AV1 „  σ1 0 “ . 0 B Debe notarse que B es la restricción de A al subespacio ortogonal a u1 ; i.e. ă u1 ąK . Además B P Cpm´1qˆpn´1q . Por la hipótesis de inducción, B admite una descomposición en valores singulares: B “ U2 Σ2 V2˚ con U2 P Cpm´1qˆpm´1q y V2 P „ Diagpσ2 , . . . , σn q Cpn´1qˆpn´1q unitarias y Σ2 “ . Ası́ 0 „  „  „ „ „  „  1 0 1 0 1 0 σ1 0 1 0 Diagpσ1 , σ2 , . . . , σn q ˚ U AV “ “ . 0 U2˚ 1 1 0 V2 0 U2˚ 0 B 0 V2 0 3.3 Valores singulares Si ponemos 75 „  1 0 ˚ U “ ˚ U1 0 U2 ˚ y V “ V1 „  1 0 , 0 V2 tenemos que U ˚ AV “ Σ y A “ U ΣV ˚ . Esto prueba la existencia de la descomposición de A en valores singulares, excepto el ordenamiento de los valores singulares. Según la hipótesis de inducción los valores singulares de B están ordenados de mayor a menor. Basta entonces demostrar que σ1 pAq ě σ1 pBq. Es decir, }A}2 ě }B}2 , o bien, máx }Ax}2 ě máx }Bx}2 . Además, como la norma espectral es unitariamente }x}2 “1 }x}2 “1 invariante podemos suponer que „  σ1 0 A“ . 0 B Sea x0 P Cn´1 un vector unitario para el que }Bx0 } “ máx }Bx}2 y sea „  0 y“ P Cn . x0 }x}2 “1 Claramente y ˚ y “ x˚0 x0 “ 1, de modo que máx }Ax}2 ě }Ay} “ y ˚ A˚ Ay “ x˚0 B ˚ Bx0 “ }Bx0 } “ máx }Bx}2 , }x}2 “1 }x}2 “1 tal y como se deseaba demostrar. La unicidad de los valores singulares ası́ como el resto del teorema lo demostraremos una vez analizadas unas cuantas propiedades importantes de los valores singulares. Observaciones 3.8 Si A P Rmˆn entonces existen matrices ortogonales P P Rmˆm y Q P Rnˆn tales que A “ P ΣQT con $ „  Diagpσ , . . . , σ q ’ 1 n ’ si m ě n & 0mńˆn Σ“ ’ ’ ‰ % “ Diagpσ1 , . . . , σm q 0mˆn´m si n ě m. En cualquier caso, σ1 ě ¨ ¨ ¨ ě σp ě 0, p “ mı́ntm, nu son números reales no negativos. 76 Valores singulares 3.4. Propiedades de los valores singulares A continuación analizamos algunas propiedades que se derivan del Teorema SVD. Proposición 3.9 Si r es el número de valores singulares de A distintos de cero, entonces rang A “ r. La demostración es una consecuencia inmediata de que el rango de una matriz no varı́a si la multiplicamos por matrices invertibles. ˚ mˆn Proposición 3.10 Si A “ U ΣV es una descomposición “ ‰ “ de A P C ‰en valores singulares, r “ rang A, y U “ u1 u2 ¨ ¨ ¨ um y V “ v1 v2 ¨ ¨ ¨ vn entonces Im A “ă u1 , . . . , ur ą y Ker A “ă vr`1 , . . . , vm ą. Demostración.- Sobre la base de que V y U son invertibles es fácil ver que ImpAV q “ ImpAq y KerpU ˚ Aq “ KerpAq. Ahora bien, ImpAV q “ ImpU Σq “ă σ1 u1 , . . . σr ur ą“ă u1 , . . . , ur ą . Por otra parte, como tv1 , . . . , , vm u es una base ortonormal de Cn , si x P Cn entonces m ř x“ ci vi “ V c con c “ pc1 , . . . , cm q. Ası́ i“1 x P KerpAq ô Ax “ 0 ô AV c “ 0 ô U ˚ AV c “ 0 ô Σc “ 0 ô m ř ô σi ci “ 0, 1 ď i ď r ô x “ ci vi . i“r`1 Esto significa que KerpAq “ă vr`1 , . . . , vm ą. De forma similar se prueba ˚ mˆn Proposición 3.11 Si A “ U ΣV es una descomposición “ ‰ “ de A P C ‰en valores singulares, r “ rang A, y U “ u1 u2 ¨ ¨ ¨ um y V “ v1 v2 ¨ ¨ ¨ vn entonces Im A˚ “ă v1 , . . . , vr ą y Ker A˚ “ă ur`1 , . . . , um ą. 3.4 Propiedades de los valores singulares 77 Esta proposición también se puede ver como una consecuencia inmediata de la anterior teniendo en cuenta las siguientes propiedades cuya demostración es muy simple pIm AqK “ Ker A˚ y pKer AqK “ Im A˚ La siguiente proposición nos proporciona una forma práctica de calcular los valores singulares de una matriz: Proposición 3.12 Los valores singulares de A P Cmˆn distintos de cero son las raı́ces cuadradas positivas de los valores propios distintos de cero de A˚ A y también de los de AA˚ . Demostración.- Probaremos que los valores singulares de A son las raı́ces cuadradas positivas de los valores propios de A˚ A. Que también son los de AA˚ se demuestra igual. También es consecuencia de la siguiente propiedad: Si A P Fmˆn y B P Fnˆm entonces los valores propios distintos de cero de AB y BA son los mismos. La explicación de esta propiedad está contenida en la siguiente ecuación: „ „ „  „  Im Á AB 0 Im A 0 0 “ . 0 In B 0 0 In B BA „ ´1 „  „  „  Im A Im Á AB 0 0 0 Como “ , las matrices y son semejantes; 0 In 0 In B„ 0 B BA  λIm ´ AB 0 i.e. tiene los mismos valores propios. Además, det “ λn detpλIm ´ ´B λI n „  λIm 0 ABq y det “ λm detpλIn ´ BAq. Por lo tanto, las matrices AB y ´B λIn ´ BA BA tienen los mismos valores propios distintos de cero. Si A “ U ΣV ˚ es una descomposición de A en valores singulares entonces A˚ A “ V Σ˚ U ˚ U ΣV ˚ “ V ΣT ΣV ˚ porque Σ es una matriz de números reales. Como V es unitaria V ˚ “ V ´1 , por lo que A˚ A y ΣT Σ son semejantes. Es decir, tienen los mismos valores propios. Pero ΣT Σ “ Diagpσ12 , . . . , σr2 , 0, . . . 0q P Rnˆn 78 Valores singulares con r “ rangpAq. Por lo tanto σ12 ě ¨ ¨ ¨ ě σr2 son los valores propios de ΣT Σ y de A˚ A. . La demostración de la Proposición anterior nos da un método para calcular los valores singulares de A: se calculan los valores propios de A˚ A no nulos, se obtiene su raı́z cuadrada positiva y el resultado son los valores singulares de A no nulos. Los restantes son cero. Ahora bien, este método no nos proporciona, a priori, los vectores singulares; o lo que es lo mismo, no obtenemos la descomposición SVD de A. Sin embargo, podemos usar el cálculo de los valores y vectores propios de A˚ A para obtener dicha descomposición. Para ver el modo de hacerlo tenemos que tener en cuenta algunas propiedades de la matriz A˚ A. En primer lugar, A˚ A es una matriz hermı́tica. Además es semidefinida positiva (o definida no negativa). Una matriz hermı́tica H P Cnˆn , o simétrica si es real, se dice que es semidefinida positiva si para todo x P Cnˆ1 , x˚ Hx ě 0. Y es definida positiva si la desigualdad es estricta para todo x. Una propiedad importante que caracteriza las matrices semidefinidas positivas es que sus valores propios son números reales no negativos (positivos, si la matriz es definida positiva). La matriz A˚ A es semidefinida positiva porque cualquiera que sea x P Fnˆ1 , x˚ A˚ Ax “ }Ax}2 ě 0. Otra propiedad importante de las matrices hermı́ticas, que se demostrará en la Lección 9, es que son unitariamente diagonalizables. Es decir, que si H P Fnˆn es hermı́tica (simétrica en el caso real) entonces existe una matriz unitaria (ortogonal en el caso real) U P Fnˆn tal que U ˚ HU “ D, siendo D una matriz diagonal. Los elementos en la diagonal de D (que son números reales) son los valores propios de H. Con estos ingredientes, el siguiente procedimiento nos proporciona una factorización SVD de A P Fmˆn donde supodremos que m ě n (en otro caso cambiarı́amos A˚ A por AA˚ en todo lo que sigue): 1. Calculamos los valores y vectores propios ortonormales de A˚ A: A˚ A “ V ΛV ˚ , Λ “ Diagpλ1 , . . . , λn q con V P Fnˆn unitaria y λ1 ě ¨ ¨ ¨ ě λn 2. Observamos que AV es una matriz cuyas columnas son ortonormales. En efecto, si B “ AV y bj es su j-ésima columna entonces b˚i bj “ vi˚ A˚ Avj , y como V ˚ A˚ AV “ Λ, b˚i bj es el elemento en la posición pi, jq de Λ. Es decir, " 0 si i ‰ j ˚ bi b j “ λi si i “ j, a de modo que las columnas de B “ AV son ortonormales y }bj }2 “ ` λj . 3.4 Propiedades de los valores singulares 79 “ Por lo tanto, si ponemos uj “ `?1 λ bj tenemos que U1 “ u1 u2 ¨ ¨ ¨ j ‰ un es una matriz m‰ˆ n con columnas ortonormales. La ampliamos hasta una matriz “ U “ U1 U2 P Fmˆm unitaria. Ası́, “ AV “ B “ b1 b2 ¨ ¨ ¨ bn ‰ „ ?  ? Diagp` λ1 , . . . , ` λn q “U 0 „ ? ?  ? Diagp` λ1 , . . . , ` λn q ˚ 3. Obtenemos A “ U V . Poniendo, σi “ ` λi , i “ 0 „ Diagpσ1 , . . . , σn q 1, . . . , n, y Σ “ , tenemos que A “ U ΣV ˚ es una descom0 posición de A en valores singulares. Recordemos ahora que los valores propios son únicos para cada matriz. Esto demuestra la segunda parte del Teorema SVD Corolario 3.13 Los valores singulares de A están determinados de forma única. Para probar la última parte del Teorema SVD; es decir, que si A es cuadrada y sus valores singulares son todos distintos, entonces los vectores singulares están también determinados de forma única salvo producto por un número complejo de módulo 1, debemos recordar lo siguiente sobre los valores propios de una matriz: Si M P Cnˆn y sus valores propios son distintos dos a dos entonces admite un sistema completo de vectores propios linealmente independientes. Esto es una consecuencia de que a valores propios distintos corresponden vectores propios linealmente independientes. Si M tiene n valores propios distintos hay n vectores propios linealmente independientes; y como están en un espacio de dimensión n deben ser una base. Ahora bien, si vi es un vector propio asociado al valor propio λi entonces M vi “ λi vi . Y cualquier otro vector propio wi asociado al mismo valor propio “debe ser propor-‰ cional a vi ; es decir, existe α P C tal que wi “ αvi . Ahora, si T “ v1 v2 ¨ ¨ ¨ vn entonces T P Cnˆn es invertible y T ´1 M T “ Diagpλ1 , . . . , λn q (3.1) Y recı́procamente, si T P Cnˆn es una matriz invertible que verifica (3.1) con λi ‰ λj , entonces la i-ésima columna de T es un vector propio asociado al valor propio λi . 80 Valores singulares Aplicando todo esto a la matriz A˚ A y teniendo en cuenta la demostración de la Proposición 3.12 tenemos que V ˚ A˚ AV “ Diagpσ12 , σ22 , . . . , σn2 q, y también U ˚ AA˚ U “ Diagpσ12 , σ22 , . . . , σn2 q. Esto quiere decir que las columnas de V son una base ortonormal de vectores propios de Cn respecto de A˚ A; y las de U son una base ortonormal de vectores propios de Cn respecto AA˚ . Y, además, si A “ U1 ΣV1˚ es otra descomposición de A en valores singulares, entonces vi “ αvi1 (i-ésimas columnas de V y V1 ). Como en este caso son, ˚ además, vectores unitarios, tenemos que 1 “ vi˚ vi “ |α|2 vi1 vi1 “ |α|. Es decir, α es un escalar de módulo 1. Para las columnas de U sirve un razonamiento similar. La unicidad de los valores singulares produce la siguiente consecuencia: Proposición 3.14 Si A P Cmˆn y σ1 ě ¨ ¨ ¨ σp ě 0, p “ mı́ntm, nu, son sus valores singulares, entonces }A}2 “ σ1 y }A}F “ σ12 ` ¨ ¨ ¨ ` σp2 . Demostración.- En efecto si A “ U ΣV ˚ es una descomposición en valores singulares de A, como las normas } ¨ }2 y } ¨ }F son unitariamente invariantes tenemos }A}2 “ }Σ}2 y }A}F “ }Σ}F . Basta probar que }Σ}2 “ σ1 y }Σ}F “ σ12 ` ¨ ¨ ¨ ` σp2 . Lo segundo es inmediato por la propia definición de la norma de Frobenius. En cuanto a lo primero, supongamos por sencillez que m ě n y sea x P Cn un vector arbitrario de norma euclı́dea 1. Entonces b a }Σx}2 “ σ12 |x1 |2 ` ¨ ¨ ¨ ` σn2 |xn |2 ď σ1 |x1 |2 ` ¨ ¨ ¨ ` |xn |2 “ σ1 }x}2 “ σ1 , donde hemos utilizado que σ1 ě ¨ ¨ ¨ ě σn y que }x}2 “ 1. Además, resulta que si e1 “ p1, 0, . . . , 0q P Cn entonces }e1 }2 “ 1 y }Σe1 }2 “ σ1 . Esto prueba que σ1 “ máx }Σx}2 “ }Σ}2 . }x}2 “1 Proposición 3.15 Si A P Cnˆn y σ1 ě ¨ ¨ ¨ ě σn son sus valores singulares entonces | detpAq| “ σ1 ¨ . . . ¨ σn 3.4 Propiedades de los valores singulares res, 81 Demostración.- Si A “ U ΣV ˚ es una descomposición de A en valores singuladetpAq “ detpU q detpΣq detpV ˚ q. Pero U y V son unitarias. Entonces, por una parte, U U ˚ “ In y por otra detpU ˚ q “ detpU q porque el conjugado de cualquier suma y producto de números complejos es la suma o producto de los conjugados de dichos números. Ası́ pues, 1 “ detpIn q “ detpU q detpU ˚ q “ detpU qdetpU q “ | detpU q|2 . En conclusión, | detpU q| “ | detpV q| “ 1, y | detpAq| “ | detpΣq| “ σ1 ¨ ¨ ¨ . . . ¨ σn . Proposición 3.16 Si A P Cnˆn es invertible y σ1 ě ¨ ¨ ¨ ě σn son sus valores 1 1 singulares entonces los valores singulares de A´1 son ě ¨ ¨ ¨ ě . En particular, σn σ1 1 ´1 }A }2 “ . σn Demostración.- Si A “ U ΣV ˚ es una descomposición en valores singulares de A y es invertible, entonces A´1 “ V Σ´1 U ˚ . Notemos que ˆ ˙ 1 1 ´1 Σ “ Diag ,..., σ1 σn y que 1 1 ď ¨¨¨ ď . Existe una matriz de permutación σ1 σn » fi 0 ¨¨¨ 0 1 —0 ¨ ¨ ¨ 1 0ffi — ffi P “ — .. .. .. ffi –. . . fl 1 ¨¨¨ 0 0 ˙ ˆ 1 1 ´1 T ,..., . Si ponemos V1 “ V P T y U1 “ U P T resulta tal que P Σ P “ Diag σn σ1 que U1 y V1 son unitarias, porque el producto de matrices unitarias es una matriz unitaria, y A´1 “ V1 P Σ´1 P T U1˚ es una descomposición en valores singulares de A´1 . Como }A´1 }2 es el mayor valor singular de A´1 la conclusión es inmediata. 82 Valores singulares La descomposición de A en valores singulares nos proporciona una forma especialmente útil de escribir A como suma de matrices de rango 1: Proposición 3.17 Si A “ U ΣV ˚ P Cmˆn es una descomposición de A en valores singulares y rangpAq “ r entonces A“ “ ‰ “ r ÿ σi ui vi˚ i“1 donde U “ u1 ¨ ¨ ¨ um , V “ v1 ¨ ¨ ¨ singulares positivos de A. ‰ vn y σ1 ě ¨ ¨ ¨ ě σr ą 0 son los valores Demostración.- Basta poner Σ “ Σ1 ` Σ2 ` ¨ ¨ ¨ ` Σr , „  Diagp0, . . . , σi , . . . , 0q 0 Σi “ 0 0 donde Diagp0, . . . , σi , . . . , 0q P Crˆr y σi aparece en la i-ésima posición. Es claro que A “ Debe notarse que r ř i“1 U Σi V ˚ y que U Σi V ˚ “ σi ui vi˚ . r ÿ i“1 σi ui vi˚ “ Ur Σr Vr˚ ‰ con Ur “ u1 ¨ ¨ ¨ ur , Vr “ v1 ¨ ¨ ¨ vr y Σr “ Diagpσ1 , . . . , σr q, es una descomposición reducida en valores singulares de A. “ 3.5. ‰ “ Aproximación a matrices de menor rango Una de las aplicaciones más interesantes del Teorema SVD es que nos permite calcular el rango de una matriz con bastante fiabilidad. De hecho, el Teorema SVD nos da mucho más que eso, nos proporciona una medida de esa fiabilidad. Ello es consecuencia del siguiente teorema que nos proporciona una cota de la distancia que hay de una matriz al conjunto de las matrices de rango menor que ella. 3.5 Aproximación a matrices de menor rango 83 Teorema 3.18 .- Sea A P Fmˆn una matriz de rango r; y sea k ă r un entero no negativo. Entonces mı́n }A ´ B}2 “ σk`1 rangpBqďk donde σ1 ě σ2 ě . . . ě σr ą 0 son los valores singulares no nulos de A. Demostración.- Tal y como viene siendo habitual demostraremos que σk`1 es una cota superior alcanzable del conjunto de números t}A ´ B}2 : rangpBq ď ku; es decir, que para cualquier matriz B P Fmˆn con rangpBq ď k se tiene que }A ´ B}2 ě σk`1 y que existe una matriz Ak P Fmˆn con rangpAk q “ k tal que }A ´ Ak`1 }2 “ σk`1 . Sean U P Cmˆm y V P Cnˆn matrices unitarias tales que „  Σr 0 ˚ U AV “ D “ Σ “ 0 0 con Σr “ Diagpσ1 , σ2 , . . . , σr q. Observemos que como mı́ntn, mu ě r ą k tenemos que k ` 1 ď n. Sea Vk`1 la submatriz de V formada por sus primeras k ` 1 columnas. Como las columnas de Vk`1 son ortonormales, dim Im Vk`1 “ k ` 1. Sea ahora B P Fmˆn una matriz cualquiera tal que rang B ď k. Esto significa que dim KerpBq “ n ´ rangpBq ě n ´ k. Tanto Ker B como Im Vk`1 son subespacios vectoriales de Fn , pero dim Ker B ` dim Im Vk`1 ě n ` 1. Esto significa que Ker B X Im Vk`1 ‰ t0u y, en consecuencia, hay un vector x P Ker B X Im Vk`1 no nulo que podemos tomarlo de norma 1: k x k2 “ 1. Ahora }A ´ B}22 ě }pA ´ Bqx}22 “ }Ax ´ Bx}22 “ }Ax}22 “ }U ΣV ˚ x}22 “ }ΣV ˚ x}22 porque x P Ker B y U es unitaria. Dado que x P Im Vk`1 es ortogonal a las últimas n ´ k ´ 1 columnas de V . Es decir, vi˚ x “ 0 para i “ k ` 2, . . . , n. Por lo tanto, si y “ V ˚ x entonces las n ´ k ´ 1 últimas componentes de y son iguales a cero. Ası́ pues, teniendo en cuenta que k ă r 2 }ΣV ˚ x}22 “ σ12 |y1 |2 ` ¨ ¨ ¨ σk`1 |yk`1 |2 . 84 Valores singulares Como σ1 ě ¨ ¨ ¨ ě σk`1 deducimos que 2 }ΣV ˚ x}22 ě σk`1 p|y1 |2 ` ¨ ¨ ¨ ` |yk`1 |2 q “ σk`1 }y}22 porque yk`2 “ ¨ ¨ ¨ “ yn “ 0. Finalmente, }y}2 “ }V ˚ x}2 “ }x}2 “ 1 porque V es una matriz unitaria y x un vector de norma euclı́dea igual a 1. En consecuencia, }A ´ B}22 ě σk`1 , tal y como se deseaba demostrar. Veamos ahora que existe una matriz Ak de rango k tal que }A ´ Ak }2 “ σk`1 . Pongamos Ak “ U Dk V ˚ , siendo „  Diagpσ1 , . . . , σk q 0 Dk “ P Cmˆn . 0 0 Teniendo en cuenta que la norma espectral es unitariamente invariante, resulta que }A ´ Ak }2 “ }U pD ´ Dk qV ˚ }2 “ }D ´ Dk }2 . Pero D ´ Dk “ „ Diagp0, . . . , 0, σk`1 , . . . , σr q 0 0 0  cuyos valores singulares no nulos son σk`1 ě . . . ě σr porque existe una matriz de permutación -y en consecuencia unitaria- Q tal que „  Diagpσk`1 , . . . , σr q 0 T Q pD ´ Dk qQ “ . 0 0 Por lo tanto }A ´ Ak }2 “ }D ´ Dk }2 “ σk`1 , lo que concluye la demostración. Este teorema nos proporciona, como corolario, la distancia de una matriz no singular a la matriz singular más próxima en la norma espectral: el valor singular más pequeño de la matriz no singular. Corolario 3.19 .- Si A P Cnˆn es una matriz no singular y σ1 ě σ2 ě . . . ě σn ą 0 son sus valores singulares, entonces mı́n }A ´ B}2 “ σn . detpBq“0 3.6 La inversa de Moore-Penrose 85 Demostración.- det B “ 0 si y sólo si rangpBq ď n ´ 1. Por el teorema anterior mı́n }A ´ B}2 “ detpBq“0 mı́n rangpBqďn´1 }A ´ B}2 “ σn . Una consecuencia inmediata de este Corolario es el siguiente Corolario 3.20 El conjunto de las matrices de rango completo de Cmˆn es abierto. Demostración.- En efecto, suponiendo, por sencillez que m ě n, tenemos que si A P Fmˆn y rangpAq “ n entonces las matrices de rango menor que n más próximas a A están a una distancia σn , medida en la norma espectral. En consecuencia, cualquier bola abierta con centro en A y radio r ď σn está completamente contenida en el conjunto de las matrices de rango completo. Esto demuestra que este conjunto es abierto. 3.6. La inversa de Moore-Penrose Ya hemos visto en la Proposición 3.16 que si A “ U ΣV ˚ , Σ “ Diagpσ1 , . . . , σn q es una descomposición en valores singulares de A P Cnˆn y ésta es invertible entonces ˆ ˙ 1 1 ´1 ˚ A “ Ṽ Σ̃Ũ , Σ̃ “ Diag ,..., σn σ1 con Ṽ “ V P y Ũ “ U P , P una matriz de permutación, es una descomposición en valores singulares de A´1 . Podemos usar esta idea para generalizar el concepto de inversa a inversa generalizada (o pseudoinversa) que juega un papel fundamental en varias partes de la matemática y en particular en la solución del problema de mı́nimos cuadrados. Hay varias inversas generalizadas (ver [2]). Aquı́ sólo trataremos de la llamada inversa generalizada de Moore-Penrose o, simplemente, inversa de Moore-Penrose o pseudoinversa de Moore-Penrose. En MATLAB se utiliza el comando pinv para calcularla. 86 Valores singulares Supongamos que A P Cmˆn y r “ rangpAq. Sean σ1 ě ¨ ¨ ¨ ě σr ą 0 sus valores singulares no nulos y „  Diagpσ1 , . . . , σr q 0 ˚ A “ U ΣV , Σ “ 0 0 una descomposición de A en valores singulares. Pongamos ˙ fi ˆ » 1 1 ,..., 0fl Diag , Σ: “ – σ1 σr 0 0 y definamos A : “ V Σ: U ˚ . Definición 3.21 A la matriz A: se le llama inversa generalizada o pseudoinversa de Moore-Penrose de A. En los ejercicios se presentan algunas propiedades importantes de la inversa de Moore-Penrose. En particular, la definición dada aquı́ no es la que aparece habitualmente en los libros clásicos, aunque es la que mejor se adapta a nuestras circunstancias. La definición habitual es la siguiente: Es la única matriz que cumple las siguientes cuatro propiedades: piq AA: A “ A, piiq A: AA: “ A: , : : ˚ piiiq A A “ pA Aq , pivq AA: “ pAA: q˚ . Se puede demostrar que la Definición 3.21 es equivalente a estas cuatro condiciones. En cualquier caso, a primera vista en la Definición 3.21 no parece que se pueda asegurar que hay una única inversa de Moore-Penrose para cada A. En efecto, la definición depende de la elección de las matrices U y V en la descomposición de A en valores singulares y éstas no son, en general, únicas. Nos proponemos demostrar que, a pesar de la arbitrariedad en la elección de los vectores singulares por la izquierda y por la derecha, la inversa de Moore-Penrose es única: Proposición 3.22 Para cada A P Cmˆn hay una única inversa de Moore-Penrose. 3.6 La inversa de Moore-Penrose 87 Demostración.- Sea ˚ A “ U ΣV , „  Diagpσ1 , . . . , σr q 0 Σ“ 0 0 una descomposición en valores singulares de A, r “ rangpAq. Y sea A: “ V Σ: U ˚ la correspondiente inversa de Moore-Penrose. Por la Proposición 3.10 las r primeras ˚ columnas de U y V forman bases ortonormales “ de ‰ImpAq y “de ImpA ‰ q, respectivamente. De acuerdo con esto escribimos V “ V1 V2 y U “ U1 U2 con V1 P Cnˆr y U1 P Cmˆr . Si además, ponemos ˆ ˙ 1 1 ´1 Σr “ Diagpσ1 , . . . , σr q entonces Σr “ Diag ,..., , σ1 σr y A “ U1 Σr V1˚ ˚ y A: “ V1 Σ´1 r U1 . Ahora, si hubiera otra descomposición de A en valores singulares, como éstos son únicos, existirı́an matrices unitarias Ũ P Cmˆm y Ṽ P Cnˆn tales que A “ Ũ ΣṼ ˚ . Partiendo Ũ y Ṽ como U y V tendrı́amos que A “ Ũ1 Σr Ṽ1˚ con Ũ1 y Ṽ1 matrices cuyas columnas forman bases ortonormales de ImpAq y ImpA˚ q, respectivamente. Para esta descomposición de A, la inversa de Moore-Penrose correspondiente ˚ : : serı́a: Ã: “ Ṽ1 Σ´1 r Ũ1 . Debemos demostrar que A “ Ã . Por una parte, las columnas de U1 y Ũ1 forman bases ortonormales de ImpAq y las columnas de V1 y Ṽ1 forman bases ortonormales de ImpA˚ q. Por lo tanto, existen matrices unitarias P, Q P Crˆr tales que Ũ1 “ U1 P y Ṽ1 “ V1 Q. (P y Q son las matrices de cambio de bases ortonormales; por lo tanto, unitarias). Por otra parte, de modo que Ũ1 Σr Ṽ1˚ “ U1 Σr V1˚ , U1 P Σr Q˚ V1˚ “ U1 Σr V1˚ . Pero U1˚ U1 “ V1˚ V1 “ Ir , ası́ que P Σr Q˚ “ Σr . 88 Valores singulares Y como Σr es invertible y también Es decir, ˚ ´1 QΣ´1 r P “ Σr , ˚ ˚ ´1 ˚ V1 QΣ´1 r P U1 “ V1 Σr U1 . ˚ ´1 ˚ ˚ ´1 ˚ : Ã: “ Ṽ1 Σ´1 r Ũ1 “ V1 QΣr P U1 “ V1 Σr U1 “ A , tal y como se deseaba demostrar.

Valores singulares

Documentos relacionados

Productos

Apoyo

Valores singulares

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib