Subido por wilsonk21

Yuri Nickolavich Skiba - Fundamentos de los Metodos Computacionales en Algebra Lineal

Anuncio
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/328772684
Fundamentos de los métodos computacionales en álgebra lineal
Book · June 2018
CITATIONS
READS
0
723
1 author:
Yuri Skiba
Universidad Nacional Autónoma de México
245 PUBLICATIONS 1,175 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Pollution of aquatic zones View project
Numerical algorithms View project
All content following this page was uploaded by Yuri Skiba on 18 November 2019.
The user has requested enhancement of the downloaded file.
i
i
“”Fundamentos de los Metodos Computacionales”” — 2017/11/24 — 16:31 — page 4 — #4
i
i
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
Centro de Ciencias de la Atmósfera
Dirección General de Publicaciones y Fomento Editorial
i
i
i
i
Prólogo
En las últimas décadas, la aparición y desarrollo de las computadoras, así como el uso de la
modelación matemática en áreas científicas y técnicas provocó una revolución en el campo de los
métodos numéricos que ahora se aplican en campos donde antes nadie ni siquiera imaginaba. A
menudo, los métodos numéricos son la única posibilidad de resolver problemas complejos cuando es
difícil o imposible aplicar los métodos analíticos, estadísticos o experimentales. Los métodos de
diferencias finitas, de elementos finitos, de Galërkin, etc. permiten aproximar varios problemas
continuos de física, química, matemática, biología, inmunología, etc., y reducirlos a sistemas
discretos de ecuaciones. En el caso de un sistema de ecuaciones lineales, dicho sistema se resuelve
por un método exacto basado en la factorización de la matriz, o por un método iterativo.
Casi todos los cálculos numéricos en la física, mecánica, química, ingeniería, economía,
finanzas, etcétera, implican álgebra lineal numérica, es decir, las operaciones con matrices. Por lo
tanto, el álgebra lineal es una parte integral de la simulación numérica e importante en términos de
rendimiento y eficiencia.
Es preciso mencionar que la evolución de los métodos numéricos es lenta si se compara con
el ritmo de desarrollo de las computadoras. A pesar de que aparecen nuevas ideas, los métodos
básicos se mantienen como hace muchos años. Por ejemplo, el método de eliminación de Gauss
continúa siendo uno de los mejores métodos para resolver sistemas de ecuaciones lineales, mientras
que el método de Runge-Kutta sigue siendo uno de los mejores para hallar la solución de ecuaciones
diferenciales ordinarias. Sin embargo, los métodos numéricos, como una rama independiente e
importante de las matemáticas, están evolucionando permanentemente para aprovechar las enormes
posibilidades de las computadoras modernas.
i
Entre las dificultades que afectan a la computación científica hay que mencionar
inestabilidades, desaparición de los dígitos, extrañas raíces de ecuaciones, uso de algoritmos
incorrectos, o el uso de un algoritmo que es correcto, pero bastante inapropiado para el problema. El
análisis numérico dispone de las siguientes características básicas:
1) interés en temas tales como el tiempo de computadora necesario para hallar la solución y
los requisitos impuestos por los algoritmos a la memoria del ordenador;
2) análisis de los errores causados por las operaciones aritméticas con un número limitado de
bits en el ordenador.
Por ejemplo, de acuerdo con la primera característica, el método de eliminación de Gauss se
hace el más preferido para la resolución de sistemas lineales. Pero hay muchas variantes del método
de eliminación de Gauss, y análisis de errores sirve como una guía para la selección de una de ellas.
El presente libro está dedicado a una exposición de métodos computacionales
para resolver los problemas básicos de álgebra lineal. Estos problemas incluyen la solución de un
sistema de ecuaciones lineales, la inversión de una matriz, la solución de los problemas espectrales,
completos y especiales, etcétera. El libro se destina básicamente a los estudiantes de nivel
licenciatura y posgrado, o para autoeducación. También puede ser útil como una referencia para los
ingenieros, físicos, ingenieros, que utilizan métodos numéricos de algebra lineal.
El texto está basado en los cursos que el autor ha impartido durante últimos veinte años en el
Departamento de Física de la Facultad de Ciencias y en los programas de posgrado de Ciencia e
Ingeniería de Materiales y Ciencias de la Tierra de la UNAM. Mi objetivo era hacer que el libro de
fácil acceso, pero al mismo tiempo lo suficientemente completo para presentar métodos y algoritmos
numéricos y sus características principales. Contiene ejemplos y ejercicios que ayuden consolidar
los conocimientos.
ii
Aprovecho la ocasión para expresar mi agradecimiento a la Dirección General de Asuntos
del Personal Académico, UNAM, por su apoyo en la edición de este libro a través del Proyecto
PE100116 del Programa de Apoyo a Proyectos para la Innovación y Mejoramiento de la Enseñanza.
Agradeceré cualquier sugerencia que lectores pueden mandarme.
Yuri N. Skiba
Centro de Ciencias de la Atmósfera
Universidad Nacional Autónoma de México
México, D.F., 2016
iii
Contenido
Prólogo
Conceptos preliminares
Capítulo 1. Elementos básicos de análisis matricial
1.1. Introducción
(importancia de los métodos numéricos; errores de cálculos; calidad de los cálculos:
aproximación de un problema continuo, estabilidad de cálculos y convergencia de la solución
numérica hacia la solución del problema continuo original; ejercicios).
1.2. Espacios lineales y vectores
(axiomas de un espacio lineal; espacio euclidiano; espacio unitario; dimensión del
espacio; base y coordenadas; combinación lineal de vectores; dependencia lineal de vectores;
transformación de coordenadas; módulo de un vector; producto escalar; ortogonalidad de
vectores; ortogonalización de Gram-Schmidt; desigualdad de Schwarz; normas vectoriales;
desigualdad de Hölder; equivalencia de normas vectoriales; ejercicios).
1.3. Matrices
(matriz rectangular; matriz cuadrada; operaciones con matrices; matriz nula; matriz
identidad; matriz traspuesta; matriz conjugada; matriz adjunta; determinante de una matriz y sus
propiedades; matriz inversa; eigenvalor y eigenvector de una matriz; traza de una matriz; imagen,
espacio nulo y rango de una matriz; ejercicios).
1.4. Matrices especiales
(matriz escalar; matriz diagonal; matriz tridiagonal superior; matriz triangular
inferior; matriz simétrica; matriz hermitiana; matriz antisimétrica; matriz antihermitiana; matriz
ortogonal; matriz unitaria; matriz normal; matriz definida positiva; matriz semidefinida positiva;
matriz idempotente; matriz diagonal dominante; ejercicios).
1.5. Problema espectral
(eigenvalores y eigenvectores; celda de Jordan; matriz diagonalizable; multiplicidad
algebraica y multiplicidad geométrica de un eigenvalor; eigenespacio (espacio propio); forma
cuadrática asociada con una matriz cuadrada; ejercicios).
1.6. Normas matriciales
(axiomas de una norma matricial; norma de Frobenius (o de Hilbert-Schmidt); radio
espectral; norma espectral; p-normas; norma consistente; norma subordinada; equivalencia de
normas; estimaciones de normas inversas; Lema de Kellog; teorema de Horn y Johnson;
ejercicios).
1.7. Problemas al capítulo 1
i
Capítulo 2. Problemas de algebra lineal
2.1. Tipos de problemas computacionales
(sistema de ecuaciones lineales algebraicas Ax  b ; sistema AX  B donde A, X y B son
matrices; búsqueda de la matriz inversa; cálculo de determinantes; problema espectral Ax   x
para una matriz simétrica o hermitiana A ; problema espectral generalizado Ax  Cx para una
matriz simétrica A y una matriz simétrica y positiva definida C ; problemas relacionados con
desigualdades lineales Ax  b ; matriz dispersa; matriz densa; matriz generador; matriz
almacenada; matriz de banda; ejercicios).
2.2. Fuentes de problemas computacionales
(aproximación de un problema continuo funcional por un problema discreto;
problemas de interpolación; solución de los problemas lineales por el método de los mínimos
cuadrados; búsqueda de la matriz inversa; resolución de un sistema de ecuaciones diferenciales
ordinarias homogéneas lineales con coeficientes constantes; ejercicios).
2.3. Número de condición de una matriz
(inestabilidad de la solución de un sistema mal condicionado; ejemplo de Kahan;
estimación de los errores relativos; número de condición de una matriz cuadrada; matrices bien y
mal condicionadas; matriz de Hilbert; equivalencia de los números de condición calculados
usando diferentes normas; ejercicios).
2.4. Estimación del número de condición
(número de condición de una matriz tridiagonal; número de condición de una matriz
simétrica; el determinante de una matriz y su número de condición; estimaciones del número de
condición desde abajo y desde arriba; números singulares de una matriz; simetrizaciòn de un
sistema de ecuaciones; ejercicios).
2.5. Método de las potencias
(problema espectral particular; idea del método iterativo; descripción del algoritmo;
proceso de deflación; ejemplos; cálculo de los límites espectrales de una matriz simétrica; un
problema de resonancia; ejercicios).
2.6. Estimación de eigenvalores
(desigualdad de Wielandt-Hoffman; teorema de Wielandt-Hoffman; perturbación
infinitesimal de la celda de Jordan; criterio de Gershgorin; ejemplos; teorema de Schur;
estimaciones de Hirsch; estimación de autovalores de una matriz tridiagonal hermitiana;
ejercicios).
2.7. Problemas al capítulo 2
Capítulo 3. Métodos directos para sistemas lineales
3.1. Factorización LU
(regla de Cramer; esquema de solución de un sistema lineal con la matriz
factorizada; matriz estrictamente regular; matriz unitriangular, superior o inferior; teorema LU
sobre la existencia y unicidad de factorización; tres métodos para calcular la matriz inversa;
Criterio de Sylvester; factorización de Cholesky; factorización de una matriz estrictamente
regular y simétrica; ejercicios).
3.2. Eliminación de Gauss
(demostración del método para un sistema de orden cuatro; algoritmo en el caso
general; estimación del número de operaciones aritméticas; la relación entre la eliminación de
Gauss y la factorización LU; matriz permutación y cambio de filas de la matriz A ; factorización
PA  LU ; algoritmo de factorización de Cholesky; ejercicios).
ii
3.3. Factorización QR por medio de la ortogonalización de Gram-Schmidt
(solución de un sistema lineal con la matriz factorizada; existencia y unicidad de la
factorización QR; factorización de una matriz rectangular; factorización por medio de la
ortogonalización de Gram-Schmidt; dos ejemplos de factorización; ejercicios).
3.4. Factorización QR por medio de transformaciones de Givens
(matriz de rotación del plano; matrices ortogonales de Givens; factorización por
medio de rotaciones de Givens; estimación del número de operaciones aritméticas; ejercicios).
3.5. Factorización QR por medio de transformaciones de Householder
(transformación de Hausholder; factorización por medio de trancformaciones de
Householder; estimación del número de operaciones aritméticas; esquema de reducción de
Householder; ejercicios).
3.6. Método de Thomas
(ecuaciones tripuntuales con condiciones de Dirichlet, Neumann y mixtas; algoritmo
de Thomas; condiciones de estabilidad; análisis de estabilidad; ejercicios).
3.7. Método de disparo
(descripción del algoritmo para un problema no lineal; descripción del algoritmo
para un problema lineal; dos ejemplos que muestran la inestabilidad del método; ejercicios).
3.8. Método de Thomas en el caso de condiciones periódicas
(fórmula de Sherman-Morrison; aplicación de la fórmula de Sherman-Morrison y del
método de Thomas; ejercicios).
3.9. Método de cuadrados mínimos
(rango de una matriz rectangular; espacios row( A) y col( A) generados por
combinaciones lineales de las filas y columnas; relación entre ker( A) y row( A) para una matriz
rectangular; proyector ortogonal sobre el subespacio col( A) ; solución por el método de cuadrados
mínimos; aplicación de transformaciones de Householder para resolver el problema de cuadrados
mínimos; ejercicios).
3.10. Problemas al capítulo 3
Capítulo 4. Métodos iterativos para sistemas lineales
4.1. Convergencia de las iteraciones
(forma canónica de iteraciones sucesivas; condición suficiente para la convergencia
de iteraciones; estimación del error de las iteraciones; criterio de convergencia; ejemplo de
convergencia de las iteraciones simples; ejercicios).
4.2. Método de Jacobi
(condición necesaria para la aplicación del método; fórmula de iteraciones para las
componentes del vector; la convergencia del método para una matriz con diagonal principal
dominante; estimación del número de iteraciones; matriz irreducible; teorema de convergencia
para una matriz irreducible y débilmente dominante; ejercicios).
4.3. Método de Gauss-Seidel
(condición necesaria para la aplicación del método; fórmula de iteraciones para las
componentes del vector; la convergencia del método para una matriz estrictamente diagonal
dominante; el criterio de Sassenfeld de la convergencia de iteraciones; la convergencia de
iteraciones para una matriz simétrica y definida positiva; teorema de Householder-John; teorema
de Stein-Rosenberg; ejercicios).
4.4. Métodos de relajación
(método de Jacobi con relajación; parámetro de relajación óptimo  para una matriz
especial del método de Jacobi con relajación; método de Gauss-Seidel con relajación; teorema de
iii
Kahan sobre la divergencia del método fuera del intervalo 0    2 ; teorema de Ostrowski;
matriz coherentamente ordenada; teorema de Young; ejercicios).
4.5. Métodos de minimización
(forma canónica de procesos iterativos basados en los métodos de minimización;
convergencia monótona de las iteraciones; método de descenso más pronunciado; método simple;
A-ortogonalización; método de gradientes conjugados y su convergencia; ejercicios).
4.6. Algoritmos LR y QR
(cálculo de los eigenvalores de una matriz no singular; algoritmo iterativo LR;
teorema de Rutishauser; algoritmo iterativo QR; matriz de Hessenberg; algoritmos LR y QR para
una matriz simétrica; ejercicios).
4.7. Problemas al capítulo 4
5. Eficiencia de los cálculos
5.1. Importancia de la estabilidad de los cálculos
(estabilidad numérica; diferentes tipos de estabilidad; ejemplos de algoritmos
inestables; ejercicios).
5.2. Estabilidad de la solución de un problema
(problema Cauchy para la ecuación de transporte unidimensional; aproximación del
problema continuo; estabilidad de un algoritmo numérico; convergencia de la solución numérica
a la solución del problema continuo; teorema de Lax; interpretación geométrica de la relación
entre la condición de Courant y la convergencia del esquema explícito de Godunov; comparación
de la estabilidad de un problema continuo y un problema discreto; ejercicios).
5.3. Piense bien!
(eficiencia de cálculos; esquema de Horner; ejemplos de algoritmos eficientes para
encontrar las sumas de series numéricas, infinitas y finitas; ejercicios).
5.4. Importancia de métodos geométricos
(demostraciones sin palabras: teorema de Pitágoras; suma de una progresión
geométrica; suma de cualquier progresión geométrica; desigualdad de las medias aritmética y
geométrica; fórmulas de la tangente del ángulo mitad; distancia entre un punto y una línea;
fórmulas de doble ángulo; teorema de Napoleón).
Referencias
Indice Analítico
Signos convencionales
iv
Conceptos preliminares
En esta sección serán desarrolladas algunas de las herramientas básicas y las
relaciones que serán utilizados en varias ocasiones en los capítulos siguientes.
1. Conjuntos. Un conjunto es una colección de cosas que se llaman elementos. Para
indicar que a es un elemento de un conjunto A es habitual escribir que a  A . Por
ejemplo, sea S  {1, 2,3, 4,5} un conjunto compuesto por los elementos 1,2,3,4 y 5.
Entonces, 4 S . O bien, el símbolo [a, b) , donde a y b son números reales, denota el
conjunto de números reales x tales que a  x  b . Este tipo de conjuntos de números reales
se denominan intervalos. A veces una regla especifica un conjunto. Por ejemplo, sea Ζ el
conjunto de todos los números enteros. Entonces S  {x  Ζ : x  1} podría ser especificado
como el conjunto de números naturales.
Si cada elemento de A es un elemento de B , entonces A es un subconjunto de B ,
en símbolos, A  B . La misma afirmación acerca de estos conjuntos también se puede
escribir como B  A . Por ejemplo, {1,2,3,4,5}  {2,3,4,5}.
La unión A  B de dos conjuntos A y B es el conjunto formado por todos los
elementos de ambos conjuntos, es decir
A  B  {x : x  A o x  B}
Por ejemplo, {1,2,3,4,5,8} {2,3,4,5,7}  {1,2,3,4,5,7,8} . O bien, si ( x  5)(3x  9)  0
entonces la solución es x  5 o x  3 . En cuanto a la notación de conjuntos esto se denota
por (, 5] [3, ) .
1
La intersección A  B de dos conjuntos A y B es el conjunto formado por todos
los elementos comunes de los dos conjuntos, es decir,
A  B  {x : x  A y x  B}
Por ejemplo, {1,2,3,4,5,8} {2,3,4,5,7}  {2,3,4,5} . O bien, si ( x  3)( x  5)  0
entonces la solución es x  5 y x  3 . En cuanto a la notación de conjuntos esto se denota
por [5, )  (,3]  [5,3] .
Un conjunto especial es el conjunto vacío que se denota por 0 y se define como el
conjunto que no tiene elementos que lo integran. Los matemáticos les gusta decir que el
conjunto vacío es un subconjunto de cada conjunto A , es decir, 0  A .
Si A y B son dos conjuntos, A \ B denota el conjunto de los elementos que están
en A , pero no en B . Por lo tanto
A \ B  {x  A : x  B}
Por ejemplo, si A  {1, 2,3, 4,5,8,9} and B  {2,3,4,5,8} entonces A \ B  {1,9} .
2. Funciones. El concepto de una función es la de algo que da una salida única para
una entrada dada. Consideramos dos conjuntos, D y R junto con una regla f que asigna
un único elemento f ( x) de R para cada elemento x  D . Esta regla f se llama función.
Es común escribir la notación f : D  R . El conjunto D se denomina el dominio de f (la
notación D( f ) también puede ser usado). El conjunto R es llamado a veces el codominio
de f . Un subconjunto de todos los elementos de R que son de la forma f ( x) para algún
x  D se denomina la imagen de f . Cuando la imagen es igual a R la función f se dice
que es sobreyectiva:
2
Fig.1. Función sobreyectiva.
Otro ejemplo de una función sobreyectiva es sen x : [0,2 ]  [1,1] :
Fig.2. Función sobreyectiva sen x .
Si siempre que x  y se sigue f ( x)  f ( y) , la función se llama inyectiva:
Fig.3. Función inyectiva.
3
Otros ejemplos de funciones inyectivas si D  (, ) son
f ( x)  x  5 ,
f ( x)  2x  3 and f ( x)  x3
A diferencia de ellos, la función f ( x)  x 2 no es inyectiva si D  (, ) , porque (por
ejemplo) f (1)  1  f (1) .
Sea f : D  R una función. El gráfico de la función consiste del conjunto
{( x, y) : y  f ( x) para x D
Nota que el conocimiento de la gráfica de una función es equivalente a conocimiento de la
función.
3. Números complejos. Así como un número real debe ser considerado como un
punto de la línea, un número complejo se considera como un punto en el plano. Por lo tanto
(a, b) identifica un punto cuya coordenada x es a y cuya coordenada y es b . Al tratar
con los números complejos, tal punto se escribe como z  a  ib donde i  1 es la
unidad imaginaria. Multiplicación y suma se definen de la manera más obvia:
(a  ib)  (c  id )  (a  c)  i(b  d )
y
(a  ib)(c  id )  (ac  bd )  i(bc  ad )
Cada número complejo distinto de cero tiene un inverso multiplicativo único:
z 1 
1
a  ib
a
b
 2
 2
i 2
2
2
a  ib a  b
a b
a  b2
Las siguientes propiedades se cumplen para números complejos x, y and z :
1. z  x  x  z (ley conmutativa para la adición)
2. z  0  z (identidad aditiva)
3. z  (z)  0
4
4. ( x  y)  z  x  ( y  z) (ley asociativa para la adición)
5. zx  xz (ley conmutativa para la multiplicación)
6. ( xy) z  x( yz) (ley asociativa para la multiplicación)
7. 1 z  z (identidad multiplicativa)
8. Para cada z  0 existe z 1 tal que zz 1  1 (existencia del inverso multiplicativo)
9. x( y  z)  xy  xz (ley distributiva).
Una construcción importante con respecto a los números complejos es el complejo
conjugado denotado por una línea horizontal por encima del número. Se define como
sigue:
z  a  ib  a  ib
Es fácil demostrar que
zz  (a  ib)(a  ib)  (a  ib)(a  ib)  a 2  b 2
A menudo, los números complejos se escriben en la forma polar:
z  a  ib  r (cos   i sin  )  rei
Fig.4. Complex number.
5
donde r  z  a 2  b 2 and el ángulo  [0, 2 ) se define por
cos  
a
a 2  b2
, sen 
b
a 2  b2
Usando la inducción matemática es fácil demostrar que
z n  r n ein  r n (cos n  i sin n )
El valor absoluto (o modulo) de un número complejo se define como sigue:
z  rei  r  a  ib  a 2  b 2  ( zz )1/2
Se deduce de la definición que si z  a  ib  z ei and x  c  id  x ei entonces
zx  z x ei (  )  z x ,
zx  z  x ,
z  x  zx
y la distancia entre los dos números se define por
z  x  (a  c)2  (b  d ) 2 .
4. Los errores de redondeo y la aritmética computacional. La aritmética realizada
por una calculadora o computadora es diferente de la aritmética en cursos de álgebra y
cálculo. Es probable que se puede esperar que siempre tenemos como instrucciones
verdaderas cosas tales como 5  6  30 and
 2
2
 2 . Sin embargo, con la aritmética de
ordenador no vamos a tener con precisión dichos resultados. Para entender por qué esto es
cierto hay que explorar el mundo de la aritmética de precisión finita.
Aritmética de precisión finita significa que los cálculos se hacen con un número
constante de dígitos. Por ejemplo,
sin embargo,
3  1.732050 usando aritmética de corte a 6 dígitos,
3  1.732051 usando aritmética de redondeo a seis dígitos. Observe que el
6
resultado
exacto
que
se
obtiene
en
ambos
casos
es
una
aproximación
al
valor
3  1.732050807568877... que tiene el número infinito de dígitos.
A continuación se define el error absoluto y el error relativo. Si x es una
aproximación de x entonces el error absoluto es ea  x  x
er 
y el error relativo es
xx
, x  0 . Consideremos tres ejemplos:
x
1. x  105 , x  102 , ea  3 , er  0.02857142857
2. x  1.05 , x  1.02 , ea  0.03 , er  0.02857142857
3. x  0.0105 , x  0.0102 , ea  0.0003 , er  0.02857142857
Observe que el error relativo es el mismo en los tres casos, pero el error absoluto es distinto
en cada caso. Es aconsejable como una medida de precisión trabajar con el error relativo ya
que el error absoluto puede ser engañoso.
Ejemplo (Faires y Burden, 2010). La fórmula cuadrática establece que las raíces de
ax2  bx  c  0 cuando a  0 son
x1 
b  b2  4ac
2a
y x2 
b  b2  4ac
2a
En el caso cuando a  c  1 y b  62.1 las raíces son aproxidamente x1  0.01610723 y
x2  62.08390 . En las calculaciones para determinar las raíces vamos a usar la aritmética
de redondeo a cuatro dígitos. Notemos que en esta ecuación, b2 es mucho mayor que 4ac ,
por lo que el numerador en el cálculo para x1 implica la sustracción de números casi
iguales. Ya que
b2  4ac  (62.10)2  (4.000)(1.000)(1.000)  3852.  62.06
7
obtenemos
x1 
62.10  62.06 0.04000

 0.02000
2.000
2.000
Lo que representa una aproximación pobre a x1  0.0161 con el error relativo grande
er 
0.01610  0.02000
 2.4 101 .
0.01610
Por otro lado, el cálculo de la raíz x2 no presenta ningún problema.
Con el fin de obtener una aproximación más precisa para la raíz x1 , cambiamos la
forma de la fórmula cuadrática racionalizando el numerador:
x1 
b  b2  4ac b  b2  4ac
2c


2
2a
b  b  4ac b  b2  4ac
Por lo tanto,
x1 
2c
b  b  4ac
2

2.000
2.000

 0.01610
62.10  62.06 124.2
Ya tiene el error relativo pequeño: er  6.2 104 .
8
Capítulo 1. Elementos básicos de análisis matricial
En la práctica, en la mayoría de los casos no se logra hallar una solución exacta del problema
matemático planteado. Esto ocurre principalmente porque la solución no se expresa en funciones
elementales o en otras funciones conocidas. Por eso adquirieron gran importancia los métodos
numéricos que reducen el procedimiento de la solución de un problema a operaciones aritméticas y
lógicas sobre los números, que pueden ser realizadas por una computadora. Según el grado de
complejidad del problema, la exactitud establecida, el método aplicado, etc., puede ser necesario
cumplir desde varias decenas hasta muchos miles de millones de operaciones.
El álgebra lineal está en todas partes en simulaciones numéricas, siempre crucial en términos
de eficiencia y rendimiento. Casi todos los cálculos numéricos en la física, mecánica, ingeniería,
química, economía, finanzas, etc., implican el álgebra lineal numérica, es decir, operaciones que
implican matrices. Un conocimiento profundo de las partes más fundamentales del álgebra lineal es
un requisito esencial para cualquier persona en cualquier trabajo técnico en estos días con el fin de
llevar a cabo tareas de trabajo en un nivel adecuado. En esta era de Internet con ordenadores que juega
un papel vital y creciente en cada puesto de trabajo, el uso más eficaz de los equipos requiere una
sólida formación al menos en las partes básicas de álgebra lineal.
Para resolver un problema, hay que ejecutar un conjunto finito de instrucciones o pasos que
forman un algoritmo numérico. De un modo más formal, un algoritmo es una secuencia finita de
operaciones realizables, no ambiguas, cuya ejecución da una solución de un problema en un tiempo
finito. Es preciso notar que los objetos principales de los algoritmos numéricos son los números,
vectores y matrices. Por lo tanto, en este capítulo introducimos los conceptos básicos relacionados con
9
los vectores y matrices: los espacios de vectores y matrices, el producto escalar, el número de
condición de una matriz, las normas vectoriales y matriciales, la equivalencia de normas, etc. También
se introduce el problema espectral y los eigenvalores y eigenvectores de una matriz. El capítulo se
termina con la sección 1.7 que contiene varios ejercicios.
Hasta cierto punto, el libro puede ser visto como un curso extendido de conferencias. Esto
explica la brevedad y la concisión que son inherentes a las conferencias de duración limitada. Para un
estudio más profundo de la teoría de matrices se recomiendan los libros de: Faddeev y Faddeeva
(1963), Wilkinson (1965), Gantmacher (1966), Lancaster (1969), Parlett (1980), Voevodin y
Kuznetzov (1984), Ortega (1987), Rutishauser (1990), Winter (1992), Jacob (1995), Bhatia (1997),
Horn y Johnson (1999), Meyer (2000), Higham (2002), etcétera.
1.1. Introducción
En proceso de modelación de un fenómeno natural siempre hay diferencia entre un problema
(modelo) matemático y dicho fenómeno. Además, la solución obtenida por un método numérico es
aproximada, es decir, hay cierta diferencia no nula entre la solución exacta y la solución numérica. Las
causas principales de la diferencia son las siguientes:
1. errores en los datos iniciales (parámetros de entrada);
2. errores de un método numérico usado para resolver el problema;
3. errores de redondeo en las operaciones aritméticas.
Los errores de redondeo son inevitables y se producen cuando se usan números que tienen un número
finito de cifras significativas para representar números exactos. Su nivel depende de la precisión de
cada computadora. Los errores de redondeo se analizan con detalle en Taylor (1982) (véase también
10
Chapra y Canale (2002)). Para los errores de los tipos 1 y 3, la relación entre el resultado exacto re y
el aproximado ra está dado por re  ra   , donde  es un error, llamado error absoluto. Una
manera de tomar en cuenta las magnitudes de las cantidades que se evalúan consiste en normalizar el
error absoluto respecto al valor exacto (  rel   / re ), o el aproximado (  rel   / ra ). Se llama el error
relativo. Este error se puede multiplicar por 100% para expresarlo como el error relativo porcentual
 p  ( / re )100% .
Sin embargo, los primeros dos tipos de errores a menudo son mas grandes que los errores de
redondeo. El análisis de los errores de un método numérico es uno de los objetivos principales del
libro. Cada método numérico se puede expresar como una cadena de varios algoritmos Ai
( i  1,2,..., N ):
Entrada
Salida
 A1  A2  A3  ...  AN 
DATOS INICIALES
SOLUCIONNUMERICA
(1.1.1)
En este libro, consideraremos los siguientes problemas estándares: sistemas de ecuaciones
lineales, problemas de cuadrados mínimos, problemas espectrales (de eigenvalores y eigenvectores),
problemas de valores singulares.
A pesar de que el libro está dedicado sólo a los métodos de solución de problemas de algebra
lineal, es útil mencionar aquí los tres conceptos principales relacionados con la simulación numérica,
con modelos y algoritmos numéricos:
1. La aproximación. La proximidad de un modelo numérico al modelo original (diferencial, integral,
etcétera), o el grado de aproximación, caracteriza el error que se introduce al hacer discreto el
modelo continuo. El grado de aproximación n se estima mediante un factor que tiene el error entre
dos modelos. Este factor tiene la forma h n en el método de diferencias finitas donde h es el tamaño
11
de la malla, o N n en un método de proyección (método de colocación, método de Rayleigh-Ritz,
método de Galërkin, método espectral, método de elementos finitos) donde N es el número de
truncación (número de términos) de las series de Fourier. Así, el grado de aproximación caracteriza
la rapidez de reducción del error entre los dos modelos cuando el tamaño de malla h tiende al cero,
o el número de truncación N tiende al infinito.
2. La estabilidad. Es una característica muy importante de la calidad de cada método. La estabilidad
caracteriza la manera de propagación de los errores iniciales durante los cálculos en el algoritmo
(1.1.1). Si el incremento de los errores iniciales es considerable y sin ningún control, entonces el
método numérico se llama inestable. Al contrario, si los errores en los cálculos dependen
continuamente de los errores iniciales (es decir, se reducen a cero cuando los errores iniciales
tienden a cero), entonces el método se llama estable.
3. La convergencia. La convergencia significa que la solución numérica converge hacia la solución
exacta cuando el tamaño de la malla h tiende a cero, o el número de truncación N tiende al infinito.
Demostramos ahora que la calidad de cálculos (la proximidad de la solución aproximada
[numérica] a la solución exacta) está directamente relacionada con dos conceptos principales: la
aproximación del problema y la estabilidad del método.
Ejemplo 1.1.1. La importancia de la aproximación la mostraremos con el problema
d
u (t )  a u (t ), u (0)  1, a  0
dt
Su solución exacta u (t )  exp  at  es positivo para toda t, y en particular, en los puntos t n  n de
una malla ( n  0,1,2,... ). Ahora hallamos una solución numérica del problema. Sean u (tn ) y un los
12
valores en el punto t n  n de la solución exacta y de la solución numérica, respectivamente.
Aproximemos el problema continuo por el problema discreto
un1  un

 a un , u0  0
Así pues, un1  (1   a) un . Es fácil demostrar que el error de aproximación en la primera derivada
depende del tamaño de la malla  . En efecto, si la malla es bastante fina (   1 / a ) entonces la
solución numérica un es positiva para toda n, igual que la solución exacta. Sin embargo, si   1 / a
entonces los valores positivos y negativos de un alternan, y la solución numérica un es lejos de la
solución exacta u (tn ) . ■
Ejemplo 1.1.2. Mostramos ahora la importancia de la estabilidad de los cálculos. Supongamos
que la integral
1
xn
un  
dx
x5
0
(1.1.2)
hay que calcular para cada n (n=0,1,2,3,….). Es fácil notar que para toda n, un  0 y un 1  un . Para
simplificar los cálculos se puede usar la fórmula recurrente
un  5un 1 
1
n
(1.1.3)
En efecto,
1
un  5un1 

0
1
Usando el valor inicial
u0  
0
xn1 ( x  5)
1
dx   x n1dx 
x5
n
0
1
1
1
dx  ln( x  5)0  0.182 y la fórmula recurrente (1.1.3)
x5
obtenemos
13
u1  1  5u0  0.090 , u2 
1
 5u1  0.050 ,
2
1
1
u3   5u2  0.083 , u4   5u3  0.165 .
3
4
Notemos que el resultado numérico u3  u2 contradice al resultado exacto u3  u2 , además el valor
negativo u4 ya representa un absurdo. La causa del absurdo es la inestabilidad del algoritmo (1.1.3)
con respecto a los errores de redondeo. En efecto, según la fórmula (1.1.3), un pequeño error inicial
 0 crece con el factor -5:  1  5 0 ;  2  25 0 ;  3  625 0 , etcétera. Después de unos k
pasos, el error  k  (5) k  0 superará el valor de la solución exacta. ■
Ejercicios:
1. Verifique las siguientes fórmulas de sumar
n
 k  12 n(n  1)
k 1

2. Verifique la fórmula
 2k  1
k 1
3. Demuestre que

2 k 2
2k
2

2
8
n
y
k
k 1
2
 16 n(n  1)(2n  1)
.
1
2
dx 
y, por lo tanto,
2
x
(2k  1) 2

2
 (2k  1)
k m
2

1
.
4m
  





4. Sea y   ( x )  1 ( x ), 2 ( x ), ..., n ( x )  una función, donde x  x1 , x2 , ..., xn  , y  y1 , y2 , ..., yn  .


  
Demuestre que errores pequeños x causan errores y  D ( x) x donde
     
D ( x )   i ( x )
  x j



es la matriz (Jacobiano) que representa la sensibilidad de y a variaciones pequeñas en x .
5. Evalúe las siguientes expresiones de una manera numericamente estable:
1 cos x
a)
para x  0 , x  1 ;
x
14
b)
1
1 x

1  2x 1  x
c)
x  x 1  x  x 1
para x  1 ;
para x  1 .
6. Sea a1 ,..., an un conjunto de observaciones, y a 
2 
1 n
 a j . Cual de las fórmulas
n j 1

1 n
1  n 2
  a j  na 2  y  2 
a j  a 2



n  1 j 1
n  1  j 1

es numericamente más exacta?
N
7. Es bien conocido que si S N   uk y uk  f (k )  f (k  1) para una función f (k ) entonces
k 1
S N  f (n)  f (0) . Usando la última fórmula demuestre que:
N
1
1
N
[Indirecta: f (k )  
];

k 1
N 1
k 1 k (k  1)
N
1
3 1 1
1 
b) S N  
  

 [Indirecta: uk  f (k  1)  f (k  1) ;
4 2  N  2 N 1
k 1 k (k  2)
1
f (k )  
];
2(k  1)
N
1
c) S N   k 2  N ( N  1)(2 N  1)
[Indirecta: uk  16  f (k )  f (k  1) ;
6
k 1
f (k )  k (k  1)(2k  1) ];
a) S N  
 N 
d) S N   k    k 
k 1
 k 1 
N
3
2
[Indirecta: uk 
15
1
4
 f (k )  f (k  1) ;
f (k )   k (k  1)  ].
2
1.2. Espacios lineales y vectores
Desde hace mucho tiempo, algebra lineal y la teoría de matrices han servido como herramientas
básicas en varias disciplinas matemáticas. Y el análisis numérico no es una excepción. En el presente
libro introducimos y usaremos sólo definiciones y propiedades principales de los vectores y matrices
necesarias para nuestros objetivos. Para profundizar sus conocimientos, les recomiendan a los lectores
varios libros clásicos reconocidos como Wilkinson (1963), Gantmacher (1966), Lancaster (1969),
Horn y Johnson (1999), Jacob (1995), etcétera.
Introducimos axiomáticamente el concepto de un espacio lineal. Un espacio lineal es una
colección de objetos matemáticos (o físicos) para los cuales están definidas dos operaciones: adición y
multiplicación por todos números reales o complejos; estos operaciones satisfacen las condiciones
siguientes (axiomas):
1.
X  Y  Y  X (ley conmutativa);
2.
X  (Y  Z )  ( X  Y )  Z (ley asociativa);
3.
 ( X  Y )   X  Y ,
4.
Existe un elemento “0” tal que X  0  X ;
5.
Para todos X existe un elemento negativo  X tal que X  ( X )  0 ;
6.
1 X  X ;
7.
 ( X )   X .
(   ) X   X   X (leyes distributivas);
Los elementos de un espacio lineal se llaman vectores. De los axiomas mencionados arriba se
deduce la unicidad del elemento cero “0”, la unicidad del elemento negativo  X , y las igualdades
0  X    0  0 , ( X )  (1)  X .
16
Un espacio se llama de dimensión finita si existe un número finito de vectores x1 , x2 ,..., xn tal
que cada vector en el espacio se puede representar en la forma
c1 x1  c2 x2  ...  cn xn
Denotaremos como R n y C n espacios vectoriales de dimensión n sobre el campo de los números
reales y complejos, respectivamente. Normalmente, R n se llama espacio euclidiano y C n espacio
unitario. Denotamos por
 x1 
 
x
x  2 y
 
 
 xn 
x T  ( x1 , x2 ,..., xn )
vector columna x y su traspuesta (vector fila) xT . Toso vector x con las componentes  xi  i 1 se
n
caracteriza por su magnitud (o módulo)

x
y su dirección. Sean x  ( x1 , x2 ,
x1  x2    xn
2
2
, xn )T y y  ( y1 , y2 ,
2
(1.2.1)
, yn )T dos vectores columnas. La suma de
vectores y las multiplicaciones de vectores por números reales (o complejos) 
y  se definen
como
 x   y  ( x1   y1 ,  x2   y2 , ,  xn   yn )T
(1.2.2)
Según los axiomas 1-3 del espacio lineal,
   
xy yx
  
  
x  ( y  z )  ( x  y)  z
 


 ( x  y)   x   y ,



(   ) x   x   x
Existe un elemento cero (axioma 4) y un elemento negativo (axioma 5).
17
(1.2.3)
(1.2.4)
(1.2.5)
Introducimos en el espacio vectorial otra operación muy importante y útil.
Definición 1.2.1. El producto escalar de dos vectores de C n se define como
    n
x , y  y x   xi yi
(1.2.6)
i 1
donde

y   ( y 1 , y 2 , , y n ) T
es el vector adjunto (traspuesto y complejo conjugado) de

y  ( y1 , y2 ,, yn ) . ■
En el caso del espacio euclidiano R n , (1.2.6) se reduce a
    n
x , y  y T x   xi yi
i 1
En particular,
 

x, x  x
2
(1.2.7)
El producto escalar (1.2.6) posee las siguientes propiedades (Lancaster, 1969):
(1)
 
x , x  0 , además,
 
x , x  0 si y solo si

x  0;
 
 
(2)  x , y   x , y ;
(3)
  
 
 
x  y, z  x , z  y, z ;
(4)
 
 
x , y  y, x .
Definición 1.2.2. Los vectores  xi i 1 se llaman linealmente independientes si de la ecuación
n
n

i 1
i

xi  0
(1.2.8)
se deduce que i  0 para toda i. Si en (1.2.8) por lo menos una constante i es no nulo, entonces
dichos vectores se llaman linealmente dependientes. Los vectores linealmente independientes
 

x1 , x2 ,, xn forman la base del espacio de dimensión n. ■
18

x1   i  2 ( i / 1 ) xi , es decir, el vector x1 se expresa
n
Por ejemplo, si 1  0 entonces
como una combinación lineal de los restantes vectores.
 

Un sistema de vectores x1 , x2 ,, xn es linealmente dependiente si y sólo si
 x1 , x1

x ,x
det G  det  2 1


 xn , x1
x1 , x2
x2 , x2
xn , x2
x1 , xn 

x2 , xn 
0


xn , xn 
(1.2.9)
donde det G es el determinante de la matriz de Gram G , formada por los productos escalares de los
 

vectores x1 , x2 ,, xn . ■


Definición 1.2.3. Vectores x y y se llaman ortogonales si
 
x, y  0
 
En este caso, usamos la notación x  y . ■
Es una generalización del concepto de la ortogonalidad en el espacio euclidiano R n al espacio
unitario C n . En efecto, si todas las componentes de ambos vectores son números reales, entonces
(1.2.8) implica
 
 
x , y  x y cos  0
es decir, el ángulo  entre dos vectores es recto: =90. A pesar de que el concepto de ángulo no se
introduce en el espacio unitario, la ortogonalidad de dos vectores también desempeña un papel
importante en este espacio.
 

Vectores ortogonales x1 , x2 ,, xn siempre son linealmente independientes, ya que su matriz
19
de Gram (1.2.9) es diagonal y det G  0 . Para ortogonalizar un sistema de vectores linealmente
 m
independientes ui i1 se usa el proceso de Gram-Schmidt.
ui im1
Ortogonalización de Gram-Schmidt. Sea
un conjunto de vectores linealmente
independientes. Describiremos ahora un proceso que permite transformar este conjunto en un sistema
ortogonal vi i 1 cuando
m
vi , v j  0 si i  j .
 
k
Ponemos primero v1  u1 . Suponiendo que el sistema ortogonal vi i 1 ya está construido, el

siguiente vector ortogonal vk 1 se busca de la forma
k



vk 1  uk 1   akivi
(1.2.10)
i 1
 k
En virtud de que los vectores vi i1 son ortogonales, obtenemos que
aki 
uk 1 , vi
u ,v
 k 1 2 i
vi , vi
vi
Los espacios generados por los dos sistemas
( i  1,2,..., k )
ui im1
y
vi im1
son iguales. El nuevo sistema
vi im1 se llama la ortogonalización de la base ui im1 .
  

A menudo, es conveniente normalizar vi a un vector unitario ei  vi / vi inmediatamente

 
después de calcularlo. En este caso, ei  1 , aki  uk 1 , ei
1, si i  j
0 , si i  j
 ij  
es la delta de Kronecker.
20
y vi , v j   ij donde
 
Desigualdad de Schwarz. Demostramos ahora que dos vectores arbitrarios x , y en un
espacio euclidiano o unitario siempre satisfacen la desigualdad de Schwarz (Cauchy-BuniakowskySchwarz):
 
 
x, y  x y
(1.2.11)
 
  


Demostración. Sea a   y , x , b  x , x , z  ax  by . Entonces, hay que demostrar la
 
2
desigualdad a  b y , y . Tenemos
 

 





0  z , z  ax  by, ax  by  a ax  by,x  b ax  by, y



 
 aa x , x  ba y , x  ab x , y  bb y , y
De aquí, usando las definiciones de a y b, y la igualdad b  b , obtenemos que los primeros
 
2
dos términos de la última suma se cancelan, y los dos restantes nos dan 0  b(b y , y  a ) . Si b=0,
 

2
entonces x  0 , y (1.2.11) se cumple evidentemente. Pues, si b 0, entonces a  b y , y . ■


Ejemplo 1.2.1. En el espacio euclidiano R n , los vectores e1  (1,0,,0) , e2  (0,1,,0) ,…,

en  (0,0,,1) son linealmente independientes y representan un sistema básico ortonormal:

 
ei , e j   ij . En este caso, todo vector x se representa como
n


x   xi ei ,
i 1
 
donde xi  x , ei
son sus componentes relacionadas con la base
ortonormal en R n . Entonces
n
 n 

x   xi ei   ~
xi ui
i 1
i 1
21
e 
i
n
i 1
. Sea
ui in1
otra base
 n
 
xi  x ,ui son sus componentes relacionadas con la base ui i1 . Así pues, las componentes
donde ~
de un vector dependen de la base. ■
Definición 1.2.4. Sea U un subespacio de R n . El complemento ortogonal de U en R n es el


 

subespacio U    x  R n : x , y  0  y  U . Es fácil demostrar que U U   0 , y cualquier

  



vector u  Rn se puede expresar de una manera única como u  v  w , donde v  U y w U  . El



vector v  U (o vector w U  ) se llama la proyección ortogonal del vector u  Rn en U ( U  ). La
matriz P se llama operador de la proyección ortogonal en U si Pu  v para todos los vectores

u  Rn . La matriz E  P es el operador de la proyección ortogonal en U  . ■


En la mayoría de los casos, para medir la magnitud de un vector x , se usa el valor absoluto x . Es
un ejemplo de la norma vectorial. Introducimos ahora otras normas vectoriales útiles.
Definición 1.2.5.
Una función de vectores

se denomina norma vectorial si para


cualesquiera vectores x y y del R n o C n se satisfacen los siguientes axiomas:

1. x  0 ;

2. x  0 


3. ax  a x

x  0;
para cualquier número complejo a;
 


4. x  y  x  y
(desigualdad triangular). ■
Consideremos una familia importante de las normas.
Definición 1.2.6. Sea p  1 . Las normas de Hölder, o las p-normas, se definen por

x
p
 n
p
   xi 
 i 1

En particular, obtenemos la 1-norma
22
1Ip
.■
(1.2.12)
n

x 1   xi
(1.2.13)
i 1
para p  1 , la 2-norma (o norma euclidiana)
 n
2

x 2    xi 
 i 1

1I 2
 
 x, x
1I 2
  1I 2
  x  x
(1.2.14)
para p  2 , y la -norma

x

 max xi
(1.2.15)
1i n
para p   .
Una de las diferencias entre las normas (1.2.13)-(1.2.15) es su dependencia de la dimensión n.
Por ejemplo, sea x  (1,1,
,1) . Entonces x

 1 , mientras que
x2 n
y
x 1  n van a
crecer junto con n .
Desigualdad de Hölder.
Para cualesquiera dos vectores
 
x , y se cumple la
desigualdad
 

xy  x
p

y
q
, donde
p  1, q  1 y
1 1
  1. ■
p q
(1.2.16)
Observación 1.2.1. En particular, cuando p=q=2, la desigualdad (1.2.16) coincide con la de
Schwarz (1.2.11). Debemos decir, que entre todos los espacios definidos por las normas de Hölder
(1.2.12), sólo el espacio euclidiano (p=q=2) posee el producto escalar. Otra ventaja principal del
espacio euclidiano consiste en que sólo la norma euclidiana (2-norma) es invariable bajo cualquier
transformación unitaria (por ejemplo, una rotación). En efecto, si Q es una matriz unitaria (u
ortogonal), entonces
23

Qx
2
2
 
  
  

 Qx , Qx  Qx  Qx  x  (Q Q) x  x  x  x
2
2
(1.2.17)
ya que Q  Q  E , donde E es la matriz identidad. ■
 
Es fácil introducir una métrica (distancia entre dos vectores x , y ) en C n mediante una norma:
 


( x , y)  x  y
(1.2.18)
El ejemplo 1.2.2 muestra que cada métrica introduce su propia topología en el espacio vectorial.
Ejemplo 1.2.2 (Ortega y Poole, 1981). Consideremos en el espacio bidimensional real las
métricas definidas mediante las normas (1.2.13)-(1.2.15):
2
 1( x, y)  x  y 1   xi  yi
(1.2.19)
i 1
1I 2
 2
2
 2( x, y)  x  y 2    xi  yi 
 i 1

(1.2.20)
 ( x, y)  x  y
(1.2.21)
y

 max xi  yi
1i  2

Las “bolas” (o “esferas”)  i ( x ,0)  1 definidas por las métricas (1.2.19)-(1.2.21) se representan en la
Figura 1.2.1. ■
24
Fig. 1.2.1. Esferas unitarias definidas por métricas (1.2.19) (
(1.2.20) (—) y (1.2.21) (----).
Definición 1.2.7. Dos normas

p
y

q
),
se llaman equivalentes en un espacio vectorial si
existen dos constantes universales positivas M y K tales que



M x p x q  K x
p
(1.2.22)

para cualquier vector x . ■
Las desigualdades (1.2.22) son importantes en varias estimaciones de los vectores. Por ejemplo,
 
si una sucesión de vectores converge en la p-norma: xn  x p  0 , entonces, según la desigualdad
 
derecha (1.2.22), dicha sucesión también converge en la q-norma: xn  x q  0 .
Teorema 1.2.1.
En un espacio C n (o R n ) de dimensión finita, todas las normas son
equivalentes.
 


Demostración. Sea u1 , u2 ,..., un una base en C n . Entonces todo vector x  C n se puede expresar
como
25
 n 
x   ai ui
i 1
Según (1.2.15),

x

 max ai
(1.2.23)
1 i  n
es la norma en C n . Sea  cualquier otra norma en C n . Usando los axiomas 3 y 4 de la norma,
obtenemos la parte derecha de (1.2.22):
n



x   ai ui  K x
i 1

(1.2.24)

para cualquier x  C n , donde
n

K   ui .
i 1


Supongamos ahora lo contrario, es decir, no existe ninguna constante M, tal que M x   x


para todo x  C n . Sea k un número natural, y M  1 / k . Entonces existe un vector xk tal que

 


1 
xk   xk . Introduciendo vk  xk / xk obtenemos vk   k . De esta manera, se puede hallar una
k



 


sucesión vk  con vk  1 , tal que vk   k . Consideremos la sucesión wk  con wk  vk / vk

y
escribimos
n


wk   aik ui
i 1

Como wk

 1 , la sucesión numérica aik  está acotada para cada i  1,2,..., n . Por lo tanto, según
el teorema de Bolzano-Weierstrass, se puede escoger de la sucesión aik  una subsucesión aik (m )  que
26
converge hacia un número ai . Así pues, para cada i, aik  ai  0 cuando k   . Se deduce de aquí


que wk ( m )  w   0 cuando m   , donde
n


w   ai ui ,
i 1




wk ( m )  w  K wk ( m )  w
y, debido a (1.2.24),

 
wk  vk / vk


 1 / vk


 0 cuando m   . Pero, de otro lado tenemos


 0 cuando k   . Por eso w  0 y, por consiguiente, wk ( m )

cuando m   . Esto contradice wk


0
 1 para todo k. ■
Por ejemplo,



x 2 x 1 n x

x

 x


x

2
2

 n x


 x1n x


(1.2.25)
(1.2.26)
(1.2.27)
Notemos que en el límite, cuando la dimensión n tiende a infinito, la segunda constante en
(1.2.25)-(1.2.27) no está acotada (también tiende a infinito) y, por lo tanto, la equivalencia de normas
se pierde. Así, a diferencia de los espacios de dimensión finita, en un espacio de dimensión infinita
dos normas no son en general equivalentes. ■
Ejercicios:
n

1. Demuestre que  xi
i 1
2
n

  xi
2

si los vectores x i son ortogonales.
i 1



 
2. Sea la función x una norma vectorial. Demuestre que x  y  x  y .
27
3. Sea p1 un número natural. Demuestre que (1.2.12) satisface a todos los axiomas de la
norma.
4. Demuestre que
 
 
x, y  x 1 y  .

5. Demuestre que x
2
2
 
 x 1 x .
6. Sea  una norma vectorial, y T una matriz no singular. Demuestre que la función


definida por x T  Tx también es una norma vectorial.


2
7. Por qué la función x  2 x1  3 x 2  x 2

8. Demuestre que x


2 1/ 2

T
es la norma?

 lim x p .
p 

9. Demuestre que la serie

 xk converge si converge la serie
k 1


x
k 1
k
.
10. Sean U y V dos subespacios en R n , con U  V . Demuestre que V   U  .
11. Sean U y V dos subespacios en R n . Demuestre que (U  V )   U  V  .
12. Sean x  0 y y  0 dos vectores reales. Demuestre que
x, y
x2 y
2
2
y 
1 n  xi
 1 
 i  .
2 i 1  x 2 y 2 
13. Explique, por qué cualquier conjunto de vectores que contiene un vector cero debe ser linealmente
dependiente.
14. Demuestre que un conjunto de vectores M  {x1 , x2 ,..., xn } es linealmente independiente si y sólo
si el conjunto
S  {x1 ,  i 1 xi ,  i 1 xi ,...,  i 1 xi }
2
3
n
es linealmente independiente.
15. La independencia lineal de las funciones y de los vectores se define de la misma manera. ¿Cuál de
los dos conjuntos de funciones es linealmente independiente: {sin x ,cos x , x cos x} o
{sin 2 x , cos 2 x , cos 2 x} ?
16. Sean X y Y espacios de Banach con las normas 
{x, y}  x
X

 y Y , {x, y}  x
2
 y
X
X

y  Y , respectivamente. Demuestre que
2 1/2
Y
y {x, y}  max( x X, y Y)
para {x, y} X Y definen normas en el producto X  Y .
28
1.3. Matrices
Es importante mencionar que en la teoría de matrices existen dos acercamientos a la definición
de una matriz (Bellman, 1960; Gantmacher, 1966; Lancaster, 1969; Parlett, 1980; Lancaster y
Tismenetsky, 1985; Horn y Johnson, 1999; Stewart y Ji-guang Sun, 1990). Por un lado, la matriz se
considera como un conjunto de números. Por otro lado, representa una transformación lineal de un
espacio vectorial a otro.
Un arreglo rectangular
 a11
a
A   aij    21


am1
a12
a22

am 2
 a1n 
 a2 n 
 

 amn 
de números complejos aij en sus m filas y n columnas se llama matriz rectangular de dimensión
m  n . Los números aij ( i  1, ,m ; j  1,,n ) se llaman elementos (o entradas) de la matriz A.
En el caso cuando m  n , A se llama matriz cuadrada de dimensión n.
Definimos ahora las siguientes operaciones:
(1) La suma de dos matrices m  n A   aij  y B  bij  es la matriz m  n C  A  B   cij 
con elementos cij  aij  bij .
(2) El producto de una matriz A   aij  por un número complejo  es la matriz C  A con
elementos cij   aij .
(3) El producto de una matriz m  l A   aij  por una matriz l  n B  bij  es la matriz m  n
C  AB   cij  con elementos cij   aik bkj .
l
k 1
29
Una buena comprensión de la definición de la multiplicación de matrices es bastante útil:
1) La columna j-ésima de AB es la misma que A multiplicada por la columna j-ésima de B .
2) La fila i-ésima de AB es la misma que la fila i-ésima de A multiplicado por B .
3) El (i, j ) -elemento de ABC se obtiene como
 c1 j 
 
(ai1 ,..., aip ) B  
 cqj 
 
 
donde (ai1 ,..., aip ) es la fila i-ésima de A , B  bij es una matriz p  q y (c1 j ,..., cqj) T es la columna
j-ésima de C .
Es fácil verificar que
A(B  C)  AB  AC ,
( A  B)C  AC  BC , y A(BC)  ( AB)C
En general, AB  BA . En el caso cuando AB  BA decimos que las matrices A y B conmutan.
Introducimos ahora dos matrices importantes. La matriz nula
0
0
0


0
0
0
0
0
0 


0
es aquella que todos sus elementos son cero, y la matriz identidad
1 0  0
0 1  0

E   ij   
   


0 0  1
que se define mediante la delta de Kronecker (1.2.9), es decir, sus elementos diagonales son todos uno
y el resto son cero.
30
Definición 1.3.1. Sea A   aij  una matriz m  n . La matriz n  m AT  ( AT )ij   a ji  se
llama traspuesta, es decir, el elemento a ji de la matriz original A se convierte en el elemento
( AT )ij de la matriz transpuesta AT . Por ejemplo,
  i 2  3i 
A

 4 5  2i 
4 
 i
y AT  
 .
2  3i 5  2i 
La matriz conjugada A   aij  es el resultado de la sustitución de los elementos aij de la matriz
A   aij  por sus conjugadas aij . Es decir, la parte imaginaria de los elementos de la matriz A
cambia su signo:
  i 2  3i 
A

 4 5  2i 
 i 2  3i 
y A
 .
 4 5  2i 
La matriz transpuesta conjugada, matriz adjunta o simplemente adjunta de una matriz A es una
 

T
matriz A  A  a ji
obtenida de A mediante la obtención de su transpuesta y después de su
conjugada compleja:
  i 2  3i 
A

 4 5  2i 
4 
 i
A*  
. ■
2  3i 5  2i 
y
Así, A es la matriz conjugada de AT . Se puede verificar que
A 
T T
 A,
( A  B)T  AT  BT ,
( AB)T  BT AT
(1.3.1)
 A,
( A  B)*  A*  B* ,
( AB)*  B* A*
(1.3.2)
y
A 
* *
31
Introducimos ahora inductivamente una característica (un número) importante y útil para una
matriz cuadrada A. Se llama determinante de A y se denota por det(A) o por A . Supongamos
primero que A es una matriz 1 1 , es decir, A  a contiene solo un número a y por la definición
ponemos det( A)  a . Sea A una matriz 2  2 . En este caso, definimos
det( A) 
a11 a12
a21 a22
 a11a22  a12a21
(1.3.3)
Ahora consideremos el caso general ( n  3 ).
Definición 1.3.2.
Sea A una matriz de n  n . Denotamos como A(i, j ) la matriz
(n 1)  (n 1) obtenida de A omitiendo la i-ésima fila y la j-ésima columna. El determinante de A se
define como
n
det( A) 
 (1)
i j
aij det A(i, j ) ,
i  1,2,..., n
(1.3.4)
det( A)   (1)i j aij det A(i, j ) ,
j  1,2,..., n
(1.3.5)
j 1
o como
n
i 1
Las fórmulas (1.3.4) y (1.3.5) se llaman la extensión de Laplace por la í-ésima fila y j-ésima columna,
respectivamente. ■
Debido a que (1.3.4) y (1.3.5) son equivalentes,
det( A)  det( AT )
(1.3.6)
Es preciso notar que el determinante no depende de la elección de una fila (índice i) en (1.3.4) o una
columna (índice j) en (1.3.5). Aplicando la fórmula (1.3.4), por ejemplo, a una matriz 3 3 e i  1 ,
obtenemos:
32
3
a22 a23
j 1
a32 a33
det( A)   (1)1 j a1 j det A(1, j )  a11
 a12
a21 a23
a31 a33
 a13
a21 a22
a31 a32
Se deducen directamente de las fórmulas (1.3.4) y (1.3.5) las siguientes propiedades del determinante:
Teorema 1.3.1. Sean A y B dos matrices n  n .
(1) si todos los elementos de una fila (o columna) de A son nulos, entonces det( A)  0 ;
(2) si B se obtiene de A mediante la multiplicación de una fila de A por un número no nulo  ,
entonces det( B)   det( A) ;
(3) si B se obtiene de A mediante la adición de una fila, multiplicada por un número, a otra fila,
entonces det(B)  det( A) ;
(4) si B se obtiene de una matriz A mediante el intercambio de dos filas, entonces
det(B)   det( A) ;
(5) el determinante de una matriz triangular superior (o inferior) es egual al producto
a11 a22 ann de sus elementos diagonales;
(6) det( AB)  det( A) det(B) .
Debido a la propiedad (6) obtenemos, en particular, que
det( A) det( A1 )  1 o
det( A1)  1/ det( A)
Definición 1.3.3. Para una matriz cuadrada A, su inversa A 1 se define por las igualdades
A 1 A  AA 1  E
(1.3.7)
es decir, el producto de una matriz por su inversa es igual a la matriz identidad. ■
Esta matriz inversa A 1 existe aunque no siempre. Condición necesaria y suficiente para
que una matriz sea invertible es que no sea singular, es decir, que su determinante sea no nulo
det( A)  0 . Por ejemplo, dada una matriz de segundo orden con determinante no nulo:
1
a b 
1  d b 
1  d b 
A 





det( A)  c a  ad  bc  c a 
c d 
1
Está definida siempre y cuando ad  bc  0 .
33
Sean A y B dos matrices cuadradas de orden n. Debido a que ( AB)( B1 A1 )  E
obtenemos que
( AB)1  B 1 A1
Quizás el método más frecuentemente usado para el cálculo de la matriz inversa X  A1
es el siguiente: hay que resolver Ax j  e j para
A 1 y e j  (0,...,1,0,...,0)
T
j  1, ...,n , donde x j es la j-ésima columna de
. Sin embargo, el método requiere gran capacidad de almacenamiento
j
temporal.
Definición 1.3.4. Sea A una matriz cuadrada de orden n. Un número complejo  se llama
eigenvalor (valor propio o autovalor) de A si


Au  u ,
(1.3.8)
o bien, si es una raís del polinomio característico
c( )  det( A   E )  A   E  0
(1.3.9)

El vector u se denomina eigenvector (vector propio o autovector) de A. ■
El número de veces que un eigenvalor i se produce como una raíz de la ecuación
característica se denomina la multiplicidad algebraica del valor propio. Factorizamos el polinomio
característico como
det( A   E )  (1   )
(n   )
(1.3.10)
En particular, al elegir   0 en (1.3.10) obtenemos que det( A) es sólo el producto de los
eigenvalores i de A:
det A  1
34
n
Del mismo modo, al igualar los coeficientes de  n1 a cada lado de (1.3.10), vemos que
t r A  1  2 
 n
donde
t r A  a11  a22  ...  ann
es la traza de la matriz A definida como la suma de los elementos de la diagonal principal de A.
Definición 1.3.9. Sea A una matriz m  n , es decir, tiene m filas y n columnas. En este caso,
A : R n  R m es una transformación lineal del espacio R n al espacio R m . El subespacio
im( A)   Ax : x  R n 
(1.3.11)
del espacio R m se llama la imagen de A. El subespacio
ker( A)   x  Rn : Ax  0
(1.3.12)
del espacio R n se llama el espacio nulo de A. ■
Definición 1.3.10. Sea A una matriz m  n . La dimensión de im( A) se llama el rango de A y
se denota por rk( A) . La dimensión de ker(A) se llama la nulidad de A y se denota por null( A) . ■
Teorema 1.3.2. Sea A una matriz de n  n . Entonces las siguientes afirmaciones son
equivalentes:
(1) det( A)  0 ;
(2) A es invertible (no singular), es decir, existe A1 ;
(3) rk( A)  n ;


(4) el sistema homogeneo Ax  0 tiene sólo la solución nula: x  0 (es decir, ker( A)  0 ).
La demostración del teorema se puede encontrar, por ejemplo, en Jacob (1995).
Teorema 1.3.3. Sea A una matriz de m  n . Entonces rk( A)  null( A)  n .
35
 

 

Demostración. Sea u1 , u2 ,..., uk  un sistema básica en ker(A) . Suponemos que uk 1 , uk 2 ,..., un 



extienden este sistema a una base para R n . Demostramos ahora que Auk 1 , Auk 2 ,..., Aun  es la base




en im( A) . En efecto, notemos que si u  a1u1  a2 u2  ...  an un es un vector de R n , entonces







Au  a1 Au1  a2 Au2  ...  an Aun  ak 1 Auk 1  ak 2 Auk 2  ...  an Aun ,



es decir, im( A) es la combinación lineal de los vectores Auk 1 , Auk 2 ,..., Aun . Nos falta demostrar que
estos vectores son linealmente independientes. Suponemos que



ak 1 Auk 1  ak 2 Auk 2  ...  an Aun  0 .






Entonces A(ak 1uk 1  ak 2 uk 2  ...  an un )  0 , y ak 1uk 1  ak 2 uk 2  ...  an un  ker( A) . Así pues,
existen números reales a1 , a2 , ..., ak tales que






a1u1  a2 u2  ...  ak uk  ak 1uk 1  ak 2 uk 2  ...  an un
 

Ya que u1 , u2 ,..., un  es el sistema básica en R n , tenemos
vectores



Auk 1 , Auk 2 ,..., Aun
son
linealmente
a1  0, a2  0, ..., an  0 , es decir, los
independientes.
Hemos
mostrado
que
rk( A)  null( A)  n . ■
Ejercicios:
1. Demuestre los teoremas 1.3.1 y 1.3.2.
2. Demuestre que dos rectas ax1  bx2  g y cx1  dx2  f se cruzan en un punto si y sólo si el
a b 
determinante de la matriz 
 es no nulo.
c d 
3. Determine una condición necesaria y suficiente para que
a) ( A  B)( A  B)  A2  B 2 ; b) ( A  B)( A  B)  A2  B 2 .
4. Sean A y B dos matrices de orden n. Demuestre que
36
A B
det 
 A
A
 det A  det B
A
5. Sean A, B, C y D matrices de orden n, además A es no singular. Demuestre que
A B
det 
 det A  det( D  CA1B) .

C D 
6. Para cualquier matriz A , demostrar que A  0 si y sólo si tr AT A  0 .
7. Consideremos el conjunto de todas las matrices cuadradas A de orden n tal que tr A  0 .
Demostrar que el conjunto es un espacio vectorial y encontrar su dimensión.
8. Demuestre que
n
 n

det A     aij 
i 1  j 1

 
9. Una matriz A  aij
y
n
 n

det A     aij 

j 1  i 1
se dice que es triangular superior si verifica que aij  0 para i  j , y
triangular inferior si verifica que aij  0 para i  j . Demuestre que el determinante de una matriz
triangular es igual al producto de sus elementos diagonales (y, por lo tanto, la matriz es singular si
por lo menos uno de dichos elementos es nulo).
10. Sea A una matriz no
A( E  A)1  ( E  A)1 A .
singular.
Demuestre
que
A
y
( E  A)1
conmutan:
11. Sean A y B dos matrices no singulares. Demuestre que si A y B conmutan, entonces A y B 1
también conmutan: AB 1  B 1 A .
12. Una matriz hermitiana A de orden n se llama definida positiva si Ax , x  0 para cualquier

vector no nulo x . Demuestre que x A  Ax , x es la norma si A es una matriz definida
positiva.
13. Demuestre que det( AB)  det A  det B .
14. Demuestre que det A  0 si y sólo si A es singular.
15. Sea A una matriz no singular. Demuestre que det A  det AT .
16. Sea A una matriz no singular. Demuestre que det A*  det A .
37
n
17. Sea p( x)   ak x k un polinomio de grado n, y sean k ( A) eigenvalores de una matriz cuadrada
k 0
n
n
k 0
k 0
A de orden n. Demuestre que i ( pk ( A))   ak [i ( A)]k donde pk ( A)   ak Ak .
18. Demuestre que el número de eigenvalores positivos de la matriz AT A es igual al rango rk( A) de
la matriz A .
19. Demuestre que E
p
 1 para todos los p , while E
F
 n , donde n es orden de la matriz
identidad.
20. Sea A una matriz m  n . Demuestre que max aij  A 2  mn max aij .
i, j
i, j
21. Demuestre que im( AB)  im( A) y ker( AB)  ker( B) .
22. Sea A una matriz cuadrada no singular. Demuestre que sus columnas (y también sus filas)
forman vectores linealmente independientes.
23. Demuestre que rk( A) es igual al tamaño de la más grande menor no cero de la matriz A .
38
1.4. Matrices especiales
Entre la infinidad de matrices que podemos considerar, existen algunos que por tener características
determinadas reciben nombres especiales y serán muy útiles posteriormente.
 
Definición 1.4.1. Una matriz cuadrada A  aij se llama escalar y se denota por A  aE si
aij  a  ij
(1.4.1)
donde a es un número, y  ij es la delta de Kronecker (1.2.9). ■
 
Definición 1.4.2. Una matriz cuadrada A  aij se dice que es diagonal si todos los elementos
que no están en la diagonal principal son cero:
aij  di  ij
(1.4.2)
donde d i son en general números distintos, dicha matriz se denota por A  diag d1 , d 2 ,..., d n . ■
 
Definición 1.4.3. Una matriz A  aij
se dice que es triangular superior si verifica que
aij  0 para i  j , y triangular inferior si verifica que aij  0 para i  j . ■
Las matrices
5 0 0 
0 5 0  ,


0 0 5 
0
0
1
0  5  2i 0  ,


0
0
6i 
0
0
5i 4  9i  12 
 i
0


8
3i  y  5
2  7i 0 

 0
6  9i
0
2  7i 
4i
25
son ejemplos de una matriz escalar, diagonal, triangular superior y triangular inferior,
respectivamente.
39
Definición 1.4.4. Una matriz real A se llama simétrica si A T  A , y antisimétrica si
A T   A . Una matriz compleja A se llama hermitiana (o hermítica) si A   A , y antihermitiana (o
antihermítica) si A   A . ■
En el caso de ser de elementos reales, una matriz hermitiana es sinónima de simétrica. Por
ejemplo, las matrices
1  7i 
1  7i 
 3 4
0  3  2
 2i
,y 
4 0 , 3 0  , 1  7i

9 
0 



 
 1  7i
representan una matriz simétrica, antisimétrica, hermitiana y antihermitiana, respectivamente.
Definición 1.4.5.
Una matriz real Q es ortogonal si verifica que QT Q  QQT  E , o
Q T  Q 1 . Una matriz compleja U se llama unitaria si U U  UU   E , o U   U 1 . ■
Así pues, una matriz U  u1 u2
un  es unitaria (u ortogonal) si y sólo si sus columnas
u j (o filas) forman una base ortonormal (es decir, representan vectores ortogonales cuyos módulos
son iguales a uno):
U U 
*
ij
1 cuando i  j
 ui*u j  
0 cuando i  j
Por ejemplo, las matrices
1 / 2

1 / 2
1 / 2 

1/ 2 
y
 1/ 2 1/ 3

 1/ 2 1/ 3

1/ 3
 0
son ortogonales, mientras que las matrices
1
2
1 i 
 i 1


1 1  i 1  i 
2 1  i 1  i 
y
40
1/ 6 

1/ 6 

2 / 6 
son unitarias.
 
Notemos que es fácil hallar la solución del problema Ax  b para una matriz ortogonal (o

 


unitaria) A ya que x  A1b  AT b ( x  A*b ).
El conjunto de las matrices adjuntas (o hermitianas) contiene las matrices traspuestas
(simétricas), y los conjuntos de las matrices antihermitianas (o unitarias) contienen las matrices
antisimétricas (ortogonales).
Definición 1.4.6. Una matriz hermitiana A de orden n se llama definida positiva y se denota
por A  0 si
    n n
Ax, x  x  Ax   aij xi x j  0
(1.4.3)
i 1 j 1

para cualquier vector no nulo x de C n . En este caso, la matriz  A se llama definida negativa y se
denota por A  0 . La matriz A se llama semidefinida positiva y se denota por A  0 si
 
Ax, x  0

para cualquier vector x de C n . ■
Hacemos un comentario importante. Sea A una matriz cuadrada compleja. Notemos que en la
representación A  A  A , la matriz A  12 ( A  A* ) es hermitiana y la matriz A  12 ( A  A* ) es
antihermitiana, además, x  A x es real y x  A x es puro imaginario para todos los vectores complejos
x . Así, si Ax , x  x  Ax  x  A x  x  A x es real para todos los vectores complejos x , entonces
x  A x  0 y A  0 , es decir, A es hermitiana. Por lo tanto, la suposición de que A es hermitiana en
la Definición 1.4.6 no es necesario. Sin embargo, es acostumbrado.
Si una matriz A es definida positiva entonces A es no singular. En efecto, si Ax  0 entonces
Ax , x  0 y, por lo tanto, x  0 y A no es singular.
41
Sea A una matriz hermitiana y definida positiva de orden n . Esto es equivalente a la condición
de que la matriz A es hermitiana y todos sus eigenvalores son positivos, o que A  H 2 con una matriz
hermitiana no singular H. Además, det A  1
n  0 para una matriz hermitiana y definida
positiva. También mencionamos que todos eigenvalores de una matriz hermitiana y semidefinida
positiva son no negativos.
Ejemplo 1.4.1. Se puede dar ejemplo cuando una matriz no hermitiana satisface la condición
(1.4.3), pero tiene un eigenvalor complejo. En efecto, sea B una matriz antisimétrica y a  0 .
Entonces la matriz A  B  aE tiene eigenvalores  ( A)  ( B)  a . Si el orden de la matriz B es
igual o grande que 2, entonces entre eigenvalores  (B) existe por lo menos un número puro
imaginario y, por lo tanto,  ( A)  ( B)  a no es un número real (es cierto, por ejemplo para la
 0 1
matriz B  
 ). Sin embargo, la condición (1.4.3) se cumple: Ax , x  Bx , x  a x , x  0 .■
 1 0 
2
Definición 1.4.7. Se dice que una matriz cuadrada es idempotente si A  A . ■
Si A es idempotente, entonces cada valor propio de A es 0 o 1 . En efecto, si 1 ,..., n son
2
2
2
2
eigenvalores de A entonces 1 ,..., n son eigenvalores de A . Por lo tanto, las igualdades i  i
implican solo dos opciones: i  0 o i  1 para cada i. La matriz nula o la matriz unidad son
2
ejemplos de las matrices idempotentes: 02  0 , E  E . También son idempotentes las siguientes
matrices:
1
A

0
,
0
 2 / 3 1/ 3 
A
,
 2 / 3 1/ 3 
42
 
A
    2
  2 
1


n
m
Ejemplo 1.4.2. Notemos que un proyector P : R  R donde m  n   es una matriz
idempotente. Introducimos ahora un proyector ortogonal elemental sobre el subespacio de los
vectores, ortogonales a un vector dado w . Demostremos que dicho proyector es la matriz
P  E  wwT donde
wT w  w  w 2  1 . En efecto, la matriz P es idempotente: P 2  P .
Además, cada vector x se puede presentar como x  Px  (I  P) x . Evidentemente que
( I  P) x  w( wT x ) tiene dirección del vector w , mientras que Px es ortogonal a w , ya que
Px , w  wT Px  0 . Claro que ( I  P)  wwT  (wwT )2 es otro proyector ortogonal sobre el
subespacio unidimensional formado por el vector w . ■
Definición 1.4.8. Una matriz cuadrada B se llama semejante a una matriz A si existe una
matriz no singular S , tal que B  S 1 AS . ■
Definición 1.4.9. Una matriz cuadrada A se llama unitariamente semejante a una matriz
triangular superior R si existe una matriz unitaria U , tal que A  U  RU  U 1RU . ■
Es preciso notar que si A  U 1RU entonces los elementos diagonales
rii de R son
eigenvalores de A. En efecto,
c( )  det(E  A)  det(U 1U  U 1RU )  det(U 1 ) det(E  R) det(U )
n
 det(E  R)   (  rii ) .
i 1
43
(1.4.4)
Ya que, al mismo tiempo, c( ) 
n
 (   ) , obtenemos que
i
i 1
i  rii ( i  1,2,..., n ). Notemos
que rii son eigenvalores de R. Se deduce de (1.4.4) que dos matrices unitariamente semijantes tienen
los mismos eigenvalores.
Teorema 1.4.1 (Schur y Toeplitz). Cualquier matriz A de n  n es unitariamente semejante a
una matriz triangular superior R. ■
Demostración. Usaremos la inducción matemática. Sea n  2 y A tiene eigenvalor 1 con


eigenvector u1 normalizado: u1
2
 1 . Usando la ortogonalización de Gram-Schmidt, construimos la
 
 
base ortonormal u1 ,u2  . La matriz U 2  u1,u2  es unitaria. Entonces

   
u1* 
u1* Au1 u1* Au2 
 
R  U AU 2   *   A  u1 , u2    *  *  
u2 
u2 Au1 u2 Au2 
*
2
* 


 
Ya que Au1  1u1 y u2u1  0 , tenemos u2* Au1  0 y, por lo tanto, R es la matriz triangular
superior. Supongamos que el teorema es valido en el caso cuando n  k  1 , es decir, existe una
matriz unitaria Vk 1 tal que la matriz Vk*1 Ak 1Vk 1 es triangular superior. Demostramos ahora su validez


para n  k . Sea 1 un eigenvalor de A con eigenvector u1 normalizado: u1
ortogonalización de Gram-Schmidt, construimos la base ortonormal
 

U k  u1 , u2 ,...,uk  es unitaria. Entonces

u1* 



 
U k* AU k      A  u1 , ...,uk    1
0
uk* 
 
44
 
Ak 1 
2
 1 . Usando
u1 , u2 ,...,uk  .
La matriz
donde Ak 1 es una matriz (k 1)  (k 1) . Por hipótesis de inducción, existe una matriz unitaria Vk 1
tal que la matriz Vk*1 Ak 1Vk 1 es triangular superior. La fórmula
1 0 
Vk  U k 

0 Vk 1 
define una matriz unitaria k  k , además,
R  Vk* AkVk
es triangular superior. El teorema queda
demostrado. ■
Cualquier matriz diagonal, simétrica, antisimétrica, hermitiana, antihermitiana, ortogonal o
unitaria pertenece a un conjunto de matrices normales que conmutan con su matriz adjunta:
AA  A A
(1.4.5)
Este conjunto es más amplio que la unión de las matrices hermitianas, antihermitianas, y unitarias. Por
ejemplo, la matriz 1  1 no es simétrica o ortogonal, pero es normal. El sistema de eigenvectores de
1 1


una matriz normal de orden n con distintos eigenvalores representa una base ortogonal del espacio
vectorial de dimensión n. Y para una matriz normal con algunos eigenvalores iguales, hay una libertad
en la definición de eigenvectores; correspondientes a los eigenvalores iguales (relacionada con su
reemplazo por cualquiera combinación lineal). Esto significa que siempre se puede realizar la
ortogonalización de Gram-Schmidt y encontrar un conjunto completo de eigenvectores ortogonales.
Además, la importancia de las matrices normales se explica por la siguiente proposición.
Teorema 1.4.2. Una matriz cuadrada A es normal si y solo si ella es unitariamente semejante
a la matriz diagonal de sus eigenvalores.
45
Demostración.  Supongamos que A es normal. Según el teorema 1.4.1, existe una matriz unitaria U
y una matriz triangular superior R, tales que A  U  RU . Es fácil verificar que AA  A A 
RR   R  R . Igualando los elementos (1,1) de la última ecuación, obtenemos
n
r
2
1j
j 1
 r11 .
2
Por lo tanto, r1 j  0 para j=2,3,…,n. Igualando los elementos (2,2) de la misma ecuación, llegamos a
n
r
j 2
Ya que
r12  0 , se deduce que
2j
2
 r12  r22 .
2
r2 j  0 para
2
j=3,4,…,n. Continuando de la misma manera,


encontramos que R es diagonal: R  D . Ya que el problema espectral Avn   n v n es equivalente


al problema D(Uv n )   n (Uv n ) , tenemos rii  i , es decir, los elementos rii son eigenvalores.
 Al contrario, supongamos que A se puede presentar de la forma A  U  DU , donde U es
una matriz unitaria y D es una matriz diagonal. Entonces
AA  (U  DU )(U  DU )  U  DDU  U  DDU  (U  DU )  (U  DU )  A A . ■
Ejercicios:
1. Sea A una matriz antihermitiana: A   A . Demuestre que todos sus eigenvalores son puro
imaginarios (es decir, pertenecen al eje imaginario).
2. Demuestre que una matriz triangular A es normal si y sólo si A es diagonal.
3. Una matriz A se llama estrictamente triangular superior si A es triangular superior con los
elementos diagonales nulos. Demuestre que si matriz n  n A es estrictamente triangular superior,
entonces An  0 .
4. Demuestre que el producto de las matrices triangulares superiores (o inferiores) también es una
matriz triangular superior (inferior).
46
5. Demuestre que la matriz inversa a una matriz triangular superior (o inferior) también es triangular
superior (inferior). Los ejercicios 4 y 5 muestren que el conjunto de las matrices triangulares
superiores (o inferiores) del mismo orden es un espacio lineal.
6. Sea A una matriz simétrica y definida positiva, y sea C una matriz real no singular. Demuestre
que C T AC también es definida positiva.
7. Sean A y B dos matrices antisimétricas del mismo orden. Demuestre que AB es simétrica si y
sólo si AB  BA .
8. Demuestre que los elementos diagonales de una matriz definida positiva son positivos.
9. Demuestre que la matriz
1 2 3 
A  2 3 4
3 4 4
no es definida positiva.
10. Sea A una matriz simétrica, no singular. Demuestre que A es definida positiva si y sólo si A1 es
definida positiva.
11. Sea A una matriz normal. Demuestre que A   E es también normal.
12. Sea A una matriz normal. Demuestre que x es eigenvector de A si y solo si x es eigenvector de
A* .
13. Sea H una matriz hermitiana. Demuestre que la matriz Q  ( E  iH )1 ( E  iH ) es unitaria.
14. Sea A  E   xx* donde x 2  1 . Encuentre todos los números complejos  , para los cuales la
matriz A será unitaria.
15. Sea
U12 
U
U   12

U 21 U 22 
una matriz unitaria descompuesta en cuatro bloques n  n . Demuestre que
det(U12 )  det(U 21 ) .
16. Demuestre que si una matriz semidefinida positiva tiene un elemento diagonal cero, entonces toda
la fila y la columna, a la que pertenece dicho elemento, debe ser cero.
47
17. Sea A una matriz simétrica y definida positiva. Demuestre que
1/2
x
A
 Ax , x
1/2
 n n

   aij xi x j 
 i 1 j 1

es una norma vectorial.
18. Sea A una matriz normal. Demuestra que A
2
es igual al radio espectral  ( A) .
19. Sea Q una matriz ortogonal. Demuestre que i (Q )  1 para todos los eigenvalores i (Q) .
20. Demuestre que una matriz A es no singular si y sólo si 12 ( A  A* ) es no singular.
21. Sea U una matriz unitaria. Demuestre que las siguientes propiedades son equivalentes:
a) U tiene columnas ortonormales;
b) U tiene filas ortonormales;
c) U   U 1
d) Ux 2  x 2 .
 1 1
22. ¿Si la matriz A  
 es antisimétrica?
 1 0 
23. Sea A una matriz antihermitiana. Demuestre que A  12 ( A  A* ) .
24. Demuestre que P
2
25. Demuestre que P
2
 1 para cada proyector P  0 . ¿Cuándo P
 EP
2
2
1?
para cada proyector P  0 y P  E .
48
1.5. Problema espectral
Definición 1.5.1. Sea A una matriz de n  n . El problema espectral para A tiene la forma:


Au  u
(1.5.1)

donde  es eigenvalor y u es eigenvector (véase la Definición 2.2.7). La matriz A tiene exactamente
n eigenvalores. El conjunto de todos los eigenvalores de A se llama el espectro de A. ■
Se deduce de (1.5.1) that
A1u 
1

u
(1.5.2)
Así, la matriz inversa tiene las mismos eigenvectores pero invierte los eigenvalores.


Sea a un número complejo, a  0 . Es evidente que A(au )   (au ) y, por lo tanto,

au también es eigenvector asociado con el mismo eigenvalor  . Notemos que un eigenvalor puede

ser nulo, pero el eigenvector u siempre tiene que ser no nulo. Si   0 entonces el eigenvector

asociado con u pertenece al ker(A) . El problema (1.5.1) es equivalente al problema

(E  A) u  0


Entonces u es eigenvector asociado con el eigenvalor  si y sólo si u  ker(E  A) .
El problema (1.5.1) tiene una solución única no nula si
det(E  A)  0
(1.5.3)
o bien, si  es una raís del polinomio característico c( )  det(E  A) .
Teorema 1.5.1 (Forma canónica de Jordan). 1. Sea A una matriz compleja n  n con
eigenvalores 1 ,..., n (no necesariamente distintos). Entonces existe una matriz compleja n  n X tal
que
49
X 1 AX  diag( J1 ,..., J m )
donde
i
0


Ji  



 0
es una celda de Jordan ki  ki y

m
1
i
0
1
0
i
1
i
0
0




0
1

i 
k n.
i 1 i
2. Sea A una matriz real n  n con eigenvalores 1 ,..., n (no necesariamente distintos).
Entonces existe una matriz real n  n X tal que
X 1 AX  diag( J1 ,..., J m )
donde
i
0


Ji  



 0
1
i
0
1
0
i
1
i
0
0




0
1

i 
en el caso de eigenvalores reales, y
M i
 0


Ji  



 0
I2
Mi
0
I2
Mi
0
I2
Mi
0
50
0 




0 
I2 

M i 
  i i 
1 0 
donde M i  
y I2  

 en el caso de eigenvalores complejo conjugados i  ii .
  i  i 
0 1 
Demostración. Véase demostración, por ejemplo, en Ortega (1987).
Definición 1.5.2. Una matriz cuadrada A se llama diagonalizable (o simple) si existe una
matriz invertible (no singular) P tal que P 1 AP  D es una matriz diagonal. Dicen que A es
semejante a D. ■
Según el Teorema 1.4.2, cada matriz normal es diagonalizable. Sin embargo, la clase de las
matrices diagonalizables es más amplia que la de las matrices normales. Si D es una matriz diagonal
D  diag 1 , 2 ,..., n , entonces su polinomio característico es
c( )  (  1 )(  2 ) (  n ) .
(1.5.4)
Así, los eigenvalores de D son 1 , 2 ,..., n , mientras que el eigenvector que corresponde al

eigenvalor i es el vector básico ei  0,...,1,0,...,0 con todas sus componentes nulas, excepto la i-
ésima componente, la cual es uno.
Supongamos que A es diagonalizable, es decir, existe una matriz invertible P tal que
P 1 AP  D es diagonal. Entonces AP  PD , y






A( Pei )  ( AP)ei  ( PD)ei  P( Dei )  Pi ei i ( Pei ) .


Así, Pei es eigenvector de A con eigenvalor i ( i  1,2,..., n ). Ya que ei son vectores canónicos
ortogonales y P es invertible, obtenemos que cada matriz diagonalizable n  n tiene n eigenvectores
 

linealmente independientes Pe1 , Pe2 ,..., Pen . Por eso, la búsqueda de la matriz P para diagonalizar A
es un problema extremadamente importante en la teoría de matrices.
51
Teorema 1.5.2. Una matriz cuadrada A de dimensión n es diagonalizable si y sólo si A tiene n
eigenvectores linealmente independientes.
Demostración.

Sea
A
una
matriz
diagonalizable.
Entonces
P 1 AP  D ,
donde

D  diag 1 , 2 ,..., n  , y Pei es eigenvector de A con eigenvalor i ( i  1,2,..., n ). Debido a que los

vectores Pei son las columnas de la matriz invertible P, ellos son linealmente independientes.
 Al contrario, supongamos que tiene n eigenvectores linealmente independientes


 

 

u1 , u2 ,..., un : Aui  i ui . Sea P  u1 , u2 ,..., un  la matriz cuyas columnas son eigenvectores. Por la

 
definición de la multiplicación de matrices, tenemos Pei  ui . De la misma manera, ( P 1 AP)ei es la
i-ésima columna de P 1 AP . Encontramos que





( P 1 AP)ei  P 1 Aui  i P 1 ui  i P 1 Pei  i ei , es
decir, P 1 AP  D  diag 1 , 2 ,..., n  es la matriz diagonal. ■
La demostración del teorema nos muestra la manera de construir la matriz P en el caso cuando
sabemos que la matriz A es diagonalizable: las columnas de P son eigenvectores.
Cada matriz n  n tiene exactamente n eigenvalores. La pregunta importante es, ¿cuando una
matriz n  n tiene n eigenvectores linealmente independientes? La afirmación siguiente presenta
condiciones que garantizan la existencia de n eigenvectores linealmente independientes.
 

Teorema 1.5.3. Sean u1 , u2 ,..., un eigenvectores de una matriz A que corresponden a n
eigenvalores diferentes
1 , 2 ,..., n . Entonces los vectores
 

u1 , u2 ,..., un
son linealmente
independientes.
Demostración. Supongamos lo contrario, es decir,



a1 u1  a2 u2  ...  an un  0
52
(1.5.5)
donde no todos los números ai son nulos. Notemos que por lo menos dos coeficientos ai son no
 

nulos, ya que los vectores u1 , u2 ,..., un son no nulos. Supongamos que (1.5.5) contiene un número
mínimo de los coeficientes no nulos ai entre todas las expresiones (1.5.5) posibles. Siempre se puede
reordenar los eigenvalores de tal manera que a1  0 y 1  0 . Tenemos








0  A  0  A(a1 u1  a2 u2  ...  an un )  a1 1 u1  a2 2 u2  ...  an n un ,
o bien,

 
 
a1 u1  a2 2 u2  ...  an n un  0
1
1
(1.5.6)
Restando (1.5.6) de (1.5.5) obtenemos

 
 
0  u1  a2 (1  2 ) u2  ...  an (1  n ) un  0
1
1
(1.5.7)
donde todos los coeficientos (1 2 / 1 ), ..., (1  n / 1 ) son no nulos. Ya que por lo menos dos
coeficientos ai son no nulos en (1.5.5), al menos un coeficiente a2 , a3 ,..., an es no nulo. Entonces,

(1.5.7) es una combinación lineal no trivial que es igual a cero. Puesto que u1 tiene 0 como su
coeficiente, (1.5.7) tiene menos coeficientes no nulos que (1.5.5). Lo último contradice a nuestra
elección original de la expresión (1.5.5). El teorema queda demostrado. ■
Corolario 1.5.1. Si una matriz cuadrada A de dimensión n tiene n eigenvalores distintos (o su
polinomio característico (1.5.4) tiene n raíces distintas), entonces A es diagonalizable. ■
Definición 1.5.3. Sea i eigenvalor de una matriz n  n . La potencia máxima de (  i )
que divide el polinomio característico (1.5.4) se llama la multiplicidad algebraica del eigenvalor i .
La dimensión del eigenespacio de A asociado con i se llama la multiplicidad geométrica del
53
eigenvalor i . Así, la multiplicidad geométrica de un eigenvalor nunca supera su multiplicidad
algebraica (Bhatia, 1997). Una matriz se llama defectuosa si tiene por lo menos un eigenvalor tal que
su multiplicidad geométrica es menor que su multiplicidad algebraica. Una matriz se llama no
defectuosa si la multiplicidad geométrica de cada eigenvalor coincide con su multiplicidad algebraica.
Si la multiplicidad geométrica de cada eigenvalor de una matriz es 1 (indepentientemente de su
multiplicidad algebraica), entonces la matriz se llama simple.
■
Una matriz simple y no defectuosa tiene distintos eigenvalores.
Teorema 1.5.4 (Gantmacher, 1966). Una matriz cuadrada A de dimensión n es diagonalizable
si y sólo si la multiplicidad geométrica de cada eigenvalor de A coincide con su multiplicidad
algebraica. ■
Ejemplo 1.5.1. Consideremos la celda de Jordan de dimensión 2 (Lancaster, 1969):
2 1 
J 

0 2
La matriz J tiene el polinomio característico c( )  (  2)2 y eigenvalor   2 con multiplicidad
algebraica 2. Sin embargo, la multiplicidad geométrica del eigenvalor   2 es 1, ya que su
eigenespacio es unidimensional y, por consiguiente, J no tiene dos eigenvectores independentes. La
matriz J no es diagonalizable (es defectuosa).
Ejemplo 1.5.2. Consideremos la matriz
5
0
A
0

0
0
5 1 0 
0 5 0

0 0  1
1 0
Su polinomio característico es
54
  5
 0
c( )  det(E  A)  det 
 0

 0
1
0 
  5 1
0 
 (  5)3 (  1)
0
 5
0 

0
0
  1
0
con dos raices 5 y  1 , y sus eigenvalores son 5, 5, 5, y  1 . La matriz A es diagonal por bloques, y
uno de dos bloques representa la celda de Jordan de dimensión 3. Entonces, la matriz es defectuosa.
Tiene eigenvalor   5 con multiplicidad algebraica 3 y multiplicidad geométrica 1. Con el fin de
hallar los espacios propios (eigenespacios), hay que calcular
ker (E  A) y ker (5E  A) . El
eigenespacio asociado con   5 es
0  1 0
0 0  1
ker (5E  A)  ker 
0 0 0

0 0 0
0
1
0
0
 
 span  
0
0

0
4
y eigenespacio asociado con   1 es
 6  1 0
 0  6 1
ker ( E  A)  ker 
0
0 6

0
0
0
0
0
0
0
 
 span  
0
0

1
0


En las últimas fórmulas span a es el espacio unidimencional formado por el vector a . ■
Teorema 1.5.5. Todos los eigenvalores de una matriz hermitiana A son reales. Además, sus
eigenvectores correspondientes a diferentes eigenvalores son ortogonales.


Demostración. En efecto, consideremos el problema espectral para la matriz A : Ax   x . De aquí

 


tenemos x  A   x  , y por lo tanto, (    ) x  x  0 . Ya que x  0 , obtenemos
   , es
 
 


decir, el eigenvalor es real. Sea Ay   y , donde  . Por una parte, y  Ax   y  x , por otra
55
 
 





parte tenemos y  A y  A  ( Ay )   ( y )    y  , por lo tanto, (   ) y x  (   ) x , y  0 .
Ya que  , obtenemos
 
x , y  0 , es decir, dos eigenvectores son ortogonales. ■

Definición 1.5.4. Sea A una matriz cuadrada de dimensión n. La forma cuadrática F (x)
asociada con A se define mediante el producto escalar como

    n n
F ( x )  A x , x  x  A x   aij xi x j . ■
(1.5.8)
i 1 j 1
En particular, para una matriz diagonal D  diag d1 , d 2 ,..., d n , la forma

    n
2
F ( x )  Dx, x  x  D x   di xi
(1.5.9)
i 1

se llama el polinomio diagonal. Una forma F (x) se llama definida positiva (o semidefinida positiva)



si F ( x)  0 ( F ( x)  0 ) para cualquier vector no nulo x de C n .
Ya que cualquier matriz cuadrada real A se puede presentar como suma de dos matrices:
1
1
A  ( A  AT )  ( A  AT )
2
2
(1.5.10)
1
1
donde S  ( A  AT ) es simétrica, y B  ( A  AT ) es antisimétrica, se obtiene
2
2

 
 
F ( x )  Ax , x  S x , x
(1.5.11)
 

puesto que Bx , x  0 para una matriz simétrica y cualquier vector x de R n .
La propiedad de que una matriz hermitiana S es unitariamente semejante a una matriz diagonal
D  diag d1 , d 2 ,..., d n  (véase el Teorema 1.4.2) es extremadamente útil en relación a las formas
cuadráticas. En efecto, ya que existe una matriz unitaria U tal que U *SU  D , la forma cuadratica

F (x) acepta la forma de un polinomio diagonal
56
   


   n
2
F ( x )  x  S x  x  (U * DU ) x  (Ux )* D(U x )  y* Dy   di yi
(1.5.12)
i 1


en nuevas variables y1 , y2 ,..., yn definidas por la transformación y  Ux .

 

Ejemplo 1.5.3. Sea x  ( x1 , x2 )T un vector columna. Consideremos la forma F ( x )  Sx , x
donde
1 3
S

3 1
es la matriz simétrica que es unitariamente semejante a la matriz diagonal D  QSQT  diag   2, 4 
donde
 12
Q 1
 2
1
2
1
2




es la matriz ortogonal: QT  Q 1 . Por eso, introduciendo otro vector columna y  ( y1 , y2 )T mediante
la fórmula

 y1 
x 
   QT  1   Q  
 y2 
 x2 

1
2
1
2

1
2
1
2
  x1 
1  x1  x2 


   
x
x

x
2
2
1
2





obtenemos que F ( x1 , x2 )  2 y12  4 y22 . ■
Ejercicios:
1. Sean 1 ,..., n eigenvalores de la matriz A. Demuestre que det A  1 n .
2. Sea A una matriz hermitiana diagonal dominante ( aii   aij para cada i). Demuestre que A es
j i
definida positiva si todos sus elementos diagonales son positivos.




3. Sean 1 ,..., n eigenvalores y sean u1 ,..., u n eigenvectores de una matriz A, es decir, Aui  i ui .


Demuestre que para cada número complejo c , ( A  cE)ui  (i  c)u , es decir la matriz A+cE
tiene eigenvalores 1  c,...,n  c .
57


4. Sea A una matriz no singular y Au  u . Demuestre que A1u  1u .
5. Sea A una matriz diagonal, A  diag{ d1 ,..., d n } . Demuestre que d1 ,..., d n son eigenvalores de A.
6. Demuestre que det A  0 si y sólo si A tiene eigenvalor nulo.
7. Demuestre que los eigenvalores de A son los mismos que los de A T . Demuestre con un ejemplo
que los eigenvectores de A y A T son distintos.
8. Demuestre que si A y B son matrices de dimensión n, entonces los eigenvalores de AB son los
mismos que los de BA.
9. Encuentre el polinomio característico y tres eigenvectores ortogonales de la matriz simétrica
 2  2  4
S   2 5  2 .
 4  2 2 
10. Encuentre la matriz no singular P que diagonaliza la matriz S del ejercicio anterior. Demuestre
que P es ortogonal.
11. ¿Cuales de las siguientes curvas son elipses y cuales son hipérbolas?
x12  4 x1 x2  1 , x12  2 x1 x2  4 x22  1, x12  4 x1 x2  4 x22  1 , x12  6 x1 x2  4 x22  1.
12. Encontrar los eigenvalores de la matriz cuadrada de orden n con todos los elementos diagonales
iguales a a y todos los elementos restantes iguales a b [Respuesta: a  (n 1)b y a  b con
multiplicidades 1 y n  1 , respectivamente.]
13. Si B es una matriz no singular, a continuación, mostrar que A y B 1 AB tienen los mismos
eigenvalores.
14. Sea Pn ( x ) un polinomio algebraico de grado n, y sean i eigenvalores de una matriz A.
Demostrar que Pn (i ) son eigenvalores de la matriz Pn ( A) .
15. Sean A y B dos matrices cuadradas de orden n tales que A, B, y A-B son semidefinidas positivas.
Demostrar que A1/2  B1/2 es semidefinida positiva.
16. Sea A una matriz cuadrada tal que A  AT es definida positiva. Demostrar que A es no singular
[Indirecta: Usar que xT ( A  AT ) x  0 si Ax  0 ].
58
1.6. Normas matriciales
El conjunto de las matrices de n  n es un espacio vectorial de dimensión n2 y, por lo tanto, “el
valor” de una matriz se puede medir mediante una norma vectorial. Sin embargo, el espacio matricial
no es simplimente un espacio vectorial, ya que en dicho espacio está definida la operación de la
multiplicación de las matrices. Por eso, al estimar una matriz, a menudo es útil relacionar la norma del
producto AB de dos matrices con las normas de cada factor A y B.
Definición 1.6.1. Una función  de matrices se llama norma matricial si para cualesquiera
matrices A y B se satisfacen los axiomas siguientes:
1. A  0 ;
2. A  0 
A  0;
3. aA  a A para cualquier número complejo a;
4. A  B  A  B (desigualdad triangular);
5. AB  A B (compatibilidad). ■
Una norma muy útil es la norma de Frobenius
A
F
 n n
2
  a ij 
 i 1 j 1

1I 2
(1.6.1)
También se llama norma euclidiana (o de Hilbert-Schmidt). Se puede demostrar que
m
A F  tr ( AA* )  tr ( A* A)   i
2
2
i 1
n
donde tr ( A)   aii es la traza de A, y i es eigenvalor no nulo de A (i=1,2,…,m).
i 1
Definición 1.6.2. Una norma matricial se llama consistente con una norma vectorial si
Ax  A x para cada x .
59
Definición 1.6.3. Una norma matricial se llama subordinada a una norma vectorial (o
norma asociada con una norma vectorial) si
A  max Ax  max A
x 1
x 0
Ax
x
 max
x 0
x
x
Claro que cualquier norma subordinada es consistente. Además, entre todas las normas
consistentes con una norma vectorial la norma subordinada es mínima. Notemos que no todas las
normas matriciales están asociadas. Por ejemplo, la norma de Frobenius no está asociada.
Introducimos ahora una familia de las normas matriciales útiles dependiente de un número
natural p.
Definición 1.6.4. Sea p 1 un número entero. La p-norma de una matriz A se define por
A
p

 max
Ax

x p 1
p

Ax p
 max


x 0
x p
■
(1.6.2)
Así, la p-norma (1.6.2) es la norma matricial subordinada a la p-norma vectorial (1.2.12).
Definición 1.6.5. El radio espectral  ( A) de una matriz A es
 ( A)  max i ( A) . ■
1i  n
La 2-norma
A 2   ( A* A)
(1.6.3)
llamada norma espectral de la matriz A se define mediante el eigenvalor máximo
 ( A* A)  max i ( A* A)
1i  n
de la matriz hermitiana y semidefinida positiva A* A . En efecto,
60
Ax
2
2
 A* Ax , x
para todos los x con
x
2
 1 . Además, todos eigenvalores i ( A* A) son
números reales y no negativos, ya que
 x 2   x , x  A* Ax , x  Ax , Ax  Ax 2  0
2
2
Denotamos i ( A* A)   i2 , y sea 0   12  ...   n2 . Entonces  ( A* A)   n2 . Debido de definición de 2norma se obtiene A 2  max Ax
2
x 2 1
2
2
  n2 y
A 2   n   ( A* A) .
Teorema 1.6.1. Para una matriz normal A,
A 2  max i   ( A) ,
(1.6.4)
1i n
es decir, la norma espectral coincide con el radio espectral  (A) de la matriz A.
Demostración. Según el Teorema 1.4.2, cualquier matriz normal se presenta como A  U U ,
donde   diag 1 , 2 ,...,n  es la matriz diagonal de los eigenvalores de A. Así pués,



Sea x el eigenvector normalizado ( x 2  Ux 2  1 ) de A
A* A  U  (UU  )U  U  U .


correspondiente al eigenvalor máximo según módulo: Ax   x , y
   ( A) . Debido a que el




problema espectral Ax   x es equivalente al problema (Ux)  (Ux) , obtenemos
2
 
 
 
2
A 2  max
Ax 2  max
Ax , Ax  max
A* Ax , x  max
U * Ux , x




x 2 1
x 2 1
x 2 1
x 2 1
 2
2
 max
(Ux ) 2     2 ( A) . ■

Ux 2 1
Teorema 1.6.2. Sea A una matriz normal y sea  una norma matricial. Entonces
 ( A)  A
61
(1.6.5)
 

Demostración. Sea Ax   x , x  0 , y x  1 . Entonces
   x   x  Ax  A x  A
y, por lo tanto,  ( A)  max   A . ■
 y una matriz A, tenemos
Para cada norma matricial
1
,
A
A 1 
E 1,
An  A
n
La desigualdad E  1 es cierta debido al Teorema 1.6.1, ya que la norma espectral de la matriz
identidad E es igual a uno. Las otras dos desigualdades se deducen inmediatamente del axioma 5 de la
definición 1.6.1. Por ejemplo,
A 1 A  A 1 A  E  1 .
Si A es una matriz definida positiva y hermitiana ( A*  A ), entonces la función
x
A
 Ax, x
1/2
es la norma matricial, se llama norma de energía.
Ejemplo 1.6.1. Demostremos que AB
AB
2
F
n
n
n
   aik bkj
i 1 j 1 k 1
F
2
 A
F
B F . En efecto,
n
n
n
2
 n
2 
    aik   bk j 
i 1 j 1  k 1
 k 1

n
n
 n n
2 
   aik    b jk
 i 1 k 1
  j 1 k 1
Ejemplo 1.6.2. Demostremos ahora que AB
62
p
2
 A

 A


p
B
p
2
F
B
2
F
. En efecto,
AB
p

ABx
 sup


x p
x 0
p


 A( Bx )
 sup



Bx p
x 0 





 Ay p 

 Bx p 

 sup
   sup
   A


x p 
y 0  y
p 

 x 0 


p
p

Bx p 

 
x p 

B p.
Ejemplo 1.6.3. Demostremos que

A   max
Ax

x  1

Mediante la fórmula (1.2.15), obtenemos

Ax

n
n

 max  aij x j  max  aij x j  x
1i  n
1i  n
j 1
j 1
n
max  aij
 1i  n
j 1

Si ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x , entonces

 

n
A
 max  aij . Con este fin, fijemos un i , y elegimos x  x j
1i  n

caso, x

j 1
 1,
n
n
j 1
j 1

Ax
 aij x j  aij , y


 x
n
j 1
, donde x j  sign aij . En este
n
max  aij . Así,
 1 i  n
j 1
n
A   max  aij
1in
(1.6.6)
j 1
Se llama la norma máxima por las filas. ■
Ejemplo 1.6.4. La función
A max  max aij
1 i , j  n
no es la norma, ya que no se cumple el
axioma 5 de la norma. En efecto, si
1 1
 , entonces
A  B  
1 1
2  AB
63
max
 A max B
max
 1.
Sin embargo, es fácil verificar que la función ligeramente modificada, A n max  n max aij , ya
1 i , j  n
satisface a todos los axiomas de la norma matricial.
Ejemplo 1.6.5. Demostremos que
n
A 1  max  aij
1 j  n
(1.6.7)
i 1
En efecto, según (1.2.13), tenemos
n
n
i 1
j 1
n
n
Ax 1    aij x j   aij x j
i 1 j 1
n

 n





  max aij   x j    x 1  max  aij 
1 j  n
1 j  n
i 1 
i 1




 j 1

n
(1.6.8)

Si ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x , entonces,
A 1  max  aij . Supongamos que max  aij se alcanza para j= k , y elegimos un x   x j 
j 1
n
1 j  n
n
1 j  n
i 1
n
i 1

donde todos x j son nulos excepto x k  sign a ik  . En este caso, x 1  1 y, por lo tanto,
n
n
n
n


Ax 1    aij x j   aik  x 1 max  aij
i 1 j 1
i 1
1 j n
i 1
La fórmula (1.6.7) queda demostrada. Se llama la norma máxima por las columnas. ■
Evidentamente que A 1  A

para una matriz hermitiana.
Teorema 1.6.3. Transformaciones unitarias (u ortogonales) no cambian la norma espectral (2norma) ni la de Frobenius de una matriz A; es decir,
64
QAZ
2
 A 2, y
QAZ
F
 A
(1.6.9)
F
para cualesquiera matrices unitarias (u ortogonales) Q y Z.
Demostración. En efecto, usando (1.2.17) obtenemos
QAZ
2

Q( AZ x )
 sup


x2
x 0
2

 A( Z x )
 sup

 
Zx  0 
 Zx 2
2

 A2

(1.6.10)
 


Luego, si escribimos la matriz A  a1 a2 an  mediante sus vectores columnas ai entonces
 2 
2
A F  a1 2  a2
2
2

 ...  an
2
2
Usando de nuevo (1.2.17) obtenemos
 2

2
QA F  Qa1 2  Qa2
Usando la igualdad B
F
 B*
F
2
2

 ...  Qan
2
2
 2 
 a1 2  a2
2
2

 ...  an
2
2
 AF
2
obtenemos
QAZ
F
 AZ
F
 Z * A*
F
 A*
F
 AF
donde Q y Z son matrices unitarias. ■
Ya mencionamos en el principio de esta sección que un espacio de las matrices n  n es el
espacio vectorial de dimensión finita n 2 y, por el teorema 1.2.1, dos normas matriciales en este
espacio siempre son equivalentes:
C A p Aq  K A
p
(1.6.11)
Las desigualdades (1.6.11) tienen gran importancia en varias estimaciones de las matrices. Por
ejemplo, si una sucesión de matrices An converge hacia la matriz A en p-norma: An  A p  0 ,
65
entonces dicha sucesión también converge hacia A en q-norma. Especificamos las constantes C y K
en (1.6.11) para algunas normas particulares:
A2  A
1
n
1
n
1
n
A

F
 A
A1  A
 n A2
2
2
(1.6.12)

n A

n A1
(1.6.13)

(1.6.14)
A n max  max aij  A 2  n max aij  A n max
1i , j n
(1.6.15)
1i , j  n
A
Ejemplo 1.6.6. Demostremos que A
2
2

A1 A
(1.6.16)

 A F . En efecto, usando (1.2.14) y la desigualdad
de Schwarz, obtenemos

Ax
2
2
n

i 1
2
n
a
j 1
ij
xj

n

n
  
i 1

j 1
n
2 
a ij    x j
  j 1
2


  x


2
2




n
n

i 1 j 1
2

a ij   x

2
2
A
2
F
Tomando en cuenta (1.6.2), llegaremos a la estimación necesaria. ■
Demostramos ahora dos afirmaciones útiles.
Teorema 1.6.4 (Marchuk, 1982). Sea A una matriz semidefinida positiva y sea   0 una
constante. Entonces
E  A1
2
1
(1.6.17)
Demostración. Debido a la definición de la norma euclidiana (1.2.14) y la del producto escalar
(1.2.6), tenemos
66
 E   A
1
2
 E   A
 max
1
x 0
2
 E   A
x,
1
x
(1.6.18)
x, x
Introduciendo elementos nuevos y por
y   E   A x
1
(1.6.19)
obtenemos
 E   A
2
1
2
y, y
 max
 E   A y,  E   A  y
y 0

Ay, y
Ay, Ay

 min 1  2
 2
y 0
y, y
y, y


Ya que





1
.
(1.6.20)
Ay, y  0 , la desigualdad (1.6.17) es válida. ■
Corolario 1.6.1. Si la matriz A es definida positiva y   0 , entonces
E  A1
2
 1.
(1.6.21)
Teorema 1.6.5 (Lema de Kellogg). Sea A una matriz semidefinida positiva y   0 una
constante. Entonces
E  AE  A1
2
 1.
(1.6.22)
Demostración. Denotamos por T  E  AE  A . Según la definición de la norma euclidiana
1
(1.2.14) y la del producto escalar (1.2.6), tenemos
T
2
2
 max
x 0
Tx
x
2
2
2
 max
2
67
x 0
Tx , Tx
x, x
 E   A y,  E   A  y
 E   A y,  E   A  y
 max
y 0
(1.6.23)
donde y se define por (1.6.19), por lo tanto
T
2
2
 max
y 0
y, y  2 Ay, y   2 Ay , Ay
y, y  2 Ay, y   2 Ay , Ay
 1.
El lema queda demostrado. ■
Corolario 1.6.2. Si la matriz A es definida positiva y   0 , entonces
E  AE  A1
2
 1. ■
(1.6.24)
Los lemas 1.6.1 y 1.6.2 se usarán en el estudio de la estabilidad de varios esquemas numéricos
implícitos.
Teorema 1.6.6 (Horn y Johnson, 1999). Sea A una matriz n  n . La seria de potencias

 ak Ak converge si existe una norma matricial  tal que la serie numérica
k 0
N
o por lo menos sus sumas particulares S N   ak  A
k

a
k 0
k
 A
k
converge,
representan una sucesión acotada. ■
k 0
Corolario 1.6.3. Una matriz n  n A es invertible si existe una norma matricial 
tal que

E  A  1 . En este caso, A1   ( E  A) k .
k 0
Demostración. Si E  A  1 entonces la serie

 ( E  A)
k
converge hacia una matriz C, ya que el
k 0
radio de convergencia de la serie numérica
z
k
es igual a 1. Tomando en cuenta la fórmula
68
N
N
k 0
k 0
A  ( E  A) k  E  ( E  A)  ( E  A) k  E  ( E  A) N 1  E
cuando N   , deducimos que C  A1 . ■
La siguiente afirmación es equivalente al corolario 1.6.3.
Corolario 1.6.4. Si A  1 en una norma matricial, entonces la matriz E  A es invertible y

( E  A) 1   Ak . ■
k 0
Corolario 1.6.5. Sea A una matriz diagonal estrictamente dominante:
aii 
n

j 1, j i
aij ,
i  1,2,..., n .
(1.6.25)
Entonces la matriz A es invertible.
Demostración. Debido a (1.6.25), aii  0 para cada i, y la matriz diagonal D  diag  a11, a22 ,..., ann 
es invertible. La matriz B  E  D 1 A tiene los elementos nulos en su diagonal principal, mientras
que los elementos no diagonales son bij  aij / aii . Por eso, B

 1 , y la matriz E  B  D 1 A es
invertible debido al corolario 1.6.5. Entonces, A también es invertible. ■
Ejercicios:
1. Demuestre que Ax  A  x .
2. Sea función A una norma matricial. Demuestre que A  B  A  B .
3. Demuestre que la función
a
ij
es la norma matricial.
i, j
4. Demuestre que A 2   ( AA* ) donde  ( AA* ) es el radio espectral de la matriz AA* .
5. Sea U una matriz unitaria. Demuestre que U
2
1.
69
6. Sea A una matriz normal. Demuestre que A 2   ( A) .
7. Demuestre que se puede definir la norma matricial mediante las siguientes fórmulas equivalentes:


Ax
Ax


A  max
Ax  max
Ax  max
  max
 .




x 1
x 1
x 0
x 1
x
x
8. Demuestre que AB
9. Cuando A

F
 A
2
B
F
y AB
F
 A
F
B
2
para todas las matrices A y B.
 A1 ?
10. Sean i eigenvalores de una matriz cuadrada A de orden n. Demuestre que
det A  1
n .
11. Encuentre matrices A and B para las cuales  ( A  B)   ( A)   ( B) . Esto demuestra que  ( A)
no puede ser una norma matricial.
12. Sea A una matriz no singular. Demuestre que
A 
1
1
  A para cualquier eigenvalor  de
la matriz A.
13. Demuestre que  ( A)  A para cualquier norma asociada.
70
1.7. Problemas al capítulo 1

1. Sea la función x una norma vectorial. El conjunto de vectores para los cuales
 
x  x0  r

es una esfera con el centro x0 y radio r. Demuestre que la esfera es un conjunto convexo, es


decir, si x y y son dos vectores arbitrarios de la esfera entonces z  tx  (1  t ) y también
pertenece a la esfera para cualquier número t del segmento 0  t  1 .
2. Sea p>1 un número natural. Demuestre la desigualdad de Minkowski:
 


x y p  x p  y
p
[Indirecta: Utilice la identidad
( x
i
i
 yi )   xi ( xi  yi )
p
p 1
i
  yi ( xi  yi )
p 1
i
y aplique dos veces la desigualdad de Hölder].
3. Sean X y Y dos espacios vectoriales con normas 
x, y  x
X
 y
Y
X
y  Y , respectivamente. Demuestre que
es la norma en el espacio vectorial X  Y que es el producto directo de
X yY.
 

4. Vectores u1 , u2 ,..., un se llaman ortonormales si son ortogonales:
 
ui , u j  0 , y además,

ui  1 . Usando la ortogonalización de Gram-Schmidt (1.2.10), construye la base ortonormal



para los vectores u1T  (1,0,1) , u2T  (1,1,0) y u3T  (1,0,1) .



5. Demuestre que los vectores u1T  (1,1,1,1) , u2T  (1,0,1,0) y u3T  (1,0,0,1) forman una base en
subespacio tridimensional V
de R 4 . Aplique la ortogonalización de Gram-Schmidt para
construir una base ortonormal en V.
71
6. Demuestre que una matriz cuadrada de dimensión n es ortogonal si y sólo si sus columnas (o
filas) forman una base ortonormal en R n .
  
 
 

7. Sea V un subespacio en R n , u1 , u2 , u3  V , u1 u2 , y u2  u3 . Son ortogonales los vectores u1 y

u3 ? Construye un contraejemplo.
8. Sea A y B dos matrices unitariamente semejantes, y sea p(x) un polinomio. Demuestre que las
matrices p(A) y p(B) también son unitariamente semejantes. En particular A  E y B  E
son unitariamente semejantes para cualquier número  .
9. Demuestre que una norma  en un espacio lineal X se genera por un producto escalar si y

 2  2
2 
x y  xy 2 x  y
sólo si la igualdad del paralelogramo
2
 
cualesquier vectores x y y de X.
10. Demuestre que una matriz tridiagonal
0

0 
 b1 c1
a b
c2

 
2
 2
A0   
0 


   an1 bn1 cn1 
 0  0
an
bn 
con las propiedades b1  c1  0 , bn  an  0 , bi  ai  ci , y ai ci  0 ,
i  2,..., n  1 , no es singular.
11. Sea A una matriz diagonal dominante:
aii   aij  i ,
1 i  n .
j i
Demuestre que A no es singular, es decir, existe la matriz inversa A 1 .
72

se verifica para
[Indirecta:
det A  d1 d 2  d n , donde d i  aii   i ].
12. Sea A una matriz cuadrada. Demuestre que A* A es hermitiana y semidefinida positiva, es
decir, sus autovalores son reales y no negativos.
13. Encuentre la matriz simétrica asociada con la forma cuadrática
2 x12  2 x1 x2  2 x22  x1 x3  x32
y diagonalize la forma.
14. Sea A una matriz. Demuestre que
A
A  A*
2
 A H
2
para cada matriz
2
hermitiana H.
15. Sean A y B dos matrices (A es no singular) y sea AB=E+P donde E es la matriz identidad.
Suponiendo que P es bastante pequeña, estimen la norma A 1  B en términos de B y
P .
16. Sea
C
A T
B
B
D 
una matriz real y definida positiva, donde C, B y D son matrices cuadradas. Demuestre que la
matriz C  BT A1B es definida positiva.
17. Sean A y B matrices cuadradas n  n . ¿Cuando ( A  B)( A  B)  A2  B 2 ?
18. Sea A una matriz normal. Demuestre que dos eigenvectores x y y que corresponden a
distintos eigenvalores son ortogonales en el sentido de que
73
x, y  0 .
19. Sea A  HU una matriz compleja donde H es una matriz hermitiana y U es una matriz
unitaria. Demuestre que la matriz A es normal si y solo si HU  UH .
20. Sean A , B y AB matrices normales. Demuestre que la matriz BA es también normal.
21. Una matriz A se llama singular si det A  0 . Demuestre que una matriz simétrica no singular
A tiene única matriz inversa A1 .
22. Sea A una matriz singular. Demuestre que se puede hallar una matriz B con elementos
arbitrariamente pequeños tal que A  B no es singular.
23. Sean A y B dos matrices simétricas y A  B (es decir, A  B es semidefinida positiva).
Demuestre que A  B  0 implica B 1  A1 .
24. Sean A y B dos matrices simétricas y A  B . Demuestre que en general la condición A  B
no implica A2  B 2 .
25. Sea A una matriz real antisimétrica. Demuestre que la matriz E  A no es singular.
26. Sea A una matriz real antisimétrica. Demuestre que matriz ( E  A)( E  A)1 es ortogonal.
27. Sea x un vector real. Demuestre que x, Ax  x,
A  AT
x .
2
 x  y
28. Sea C  
. Encuentre C 1 .

y x 
29. Sea H una matriz hermitiana y definida positiva. Demuestre que existe una matriz triangular
T tal que H  TT * .
74
30. Supongamos que la ecuación Ax  b tiene la solución para cualquier vector b . Demuestre que
la matriz inversa A1 existe.
31. Sea A una matriz definida positiva. Demuestre que A  A1  2 E .
32. Sea B una matriz real y det B  0 . Demuestre que la matriz A  BBT es definida positiva.
33. Sea C una matriz compleja y det C  0 . Demuestre que la matriz H  CC* es definida
positiva.
34. Demuestre que
QDQT
es definida positive si la matriz
Q
es ortogonal y
D  diag{d11 , d22 ,..., dnn } es una matriz diagonal con todos los elementos diagonales positivos:
dii  0 .
35. Una submatriz A es una matriz formada por la selección de ciertas filas y columnas de una
matriz B más grande. Sea A una submatriz de la matriz B . Demuestre que A p  B p .
36. Demuestre que una matriz normal es hermitiana si y solo si todos sus eigenvalores son reales.
37. Demuestre que una matriz normal es unitaria si y solo si el valor absoluto de todos sus
eigenvalores es igual a uno.
38. Demuestre que todos los eigenvalores del producto de una matriz hermitiana y una matriz
definida positiva son reales.
39. Demuestre que
AB
F
 A
2
B F.
A
40. Una matriz normal tiene forma A   11
0
A12 
. Demuestre que las matrices A11 y A22 son
A22 
normales, y además, A12  0 .
75
A
40. Demuestre que det  11
0
A12 
 det A11  det A22 .
A22 
41. Demuestre que cualquier matriz hermitiana A se puede presentar como A  B  iC donde B
es una matriz simétrica y C es una matriz antisimétrica.
42. Sea A  B  iC hermitiana. Demuestre que la matriz
 B C 
K 

C B 
es simétrica. Compare los eigenvalores y eigenvectores de las matrices A  B  iC y K .
43. Demuestre que las matrices semejantes tienen los mismos eigenvalores.
44. Sean A y B dos matrices ortogonales y det A   det B . Demuestre que la matriz A  B es
singular.
45. Sea A una matriz ortogonal y triangular. Demuestre que A es diagonal.
76
Capítulo 2. Problemas de algebra lineal
La necesidad de resolver grandes sistemas de ecuaciones lineales era uno de los motivos
principales para el desarrollo de ordenadores.
En la sección 2.1, se consideran varios tipos de problemas computacionales que
incluyen los sistemas de ecuaciones lineales algebraicas Ax  b y AX  B ; la búsqueda
de la matriz inversa; el cálculo de determinantes; el problema espectral Ax   x ; el
problema espectral generalizado Ax  Cx para una matriz simétrica A y una matriz
simétrica y definida positiva C ; los problemas relacionados con desigualdades lineales
Ax  b . Varias fuentes de dichos problemas computacionales se discuten en la sección 2.2.
El capítulo se termina por varios problemas presentados en el apartado 2.9.
2.1. Tipos de problemas computacionales
Listaremos ahora los tipos de problemas computacionales considerados en álgebra
lineal, o relacionados con ellos. Elegimos a enfatizar estos problemas estándar, porque
surgen con tanta frecuencia en la práctica científica y de ingeniería. (Forsythe y Moler,
1967).
1) Sistema lineal de ecuaciones. Resolver el sistema lineal
Ax  b
77
(2.1.1)
donde A es una matriz cuadrada no singular de orden n (real o posiblemente compleja), b
es un vector columna dado con n componentes y x es un vector columna desconocido con
n componentes.
2) Sistema lineal con múltiples vectores derechos. En el problema anterior se da a
veces múltiples vectores b , por ejemplo, k , y también se requiere de encontrar k vectores
desconocidos x . Si tomamos como B – matriz n  k de lados derechos, y como X - matriz
n  k de soluciones correspondiente, entonces tenemos que resolver el sistema
AX  B
(2.1.2)
donde la matriz A se define en el párrafo 1).
3) Problema de los mínimos cuadrados. Sea A una matriz n  k y sean b y x
vectores de dimensión n y k , respectivamente. Hay que calcular x que minimiza
Ax  b , es decir, minimiza vector residual. Si n  k entonces tenemos más ecuaciones
2
que incógnitos y el sistema se llama sobredeterminado. En este caso, en general, no
podemos resolver el problema Ax  b exactamente, y el vector x es la solución por el
método de los mínimos cuadrados. Si el rango de la matriz A no es igual a k , rk( A)  k ,
entonces existe un número infinito de soluciones x por el método de los mínimos
cuadrados. A veces es necesario encontrar entre ellas la solución x que tiene la norma más
pequeño x . Tal vector es siempre único.
Y si n  k , el sistema se llama indeterminado y va a tener un número infinito de
soluciones.
4) Búsqueda de la matriz inversa. Encontrar la matriz inversa A1 de la matriz no
singular A .
78
5) Problema espectral. Para una matriz real simétrica dada A , encontrar algunos o
todos sus eigenvalores (necesariamente reales), así como, tal vez, los correspondientes
eigenvectores x .
A veces se pone el mismo problema para una matriz hermitiana A . En este caso, cada
eigenvalor  es real, pero los eigenvectores x suelen ser complejos.
6) Problema espectral generalizado. Para una matriz simétrica dada A y una matriz
simétrica y definida positiva C , encontrar todos o una parte de los eigenvalores
generalizados. Un eigenvalor generalizado es el número  , de manera que existe un vector
x que satisface la ecuación (Watkins, 2007)
Ax  Cx
(2.1.3)
A veces también es necesario calcular los correspondientes vectores x . Como C es
definida positiva, existe su inversa C 1 . Así, el problema espectral generalizado (2.1.3) es
equivalente al problema espectral estándar (2.1.1): C 1 Ax   x . Sin embargo, la matriz
C 1 A no es necesariamente simétrica.
Teorema 2.1.1. Sean A y C dos matrices simétricas n  n y C es definida positiva.
Entonces el problema espectral generalizado (2.1.3) tiene n eigenvalores reales, y n
eigenvectores correspondientes que son ortogonales con respecto al producto escalar
x, y
C
 x T Cy . Además, si A es definida positiva, entonces todos los eigenvalores 
también son positivos.
Demostración. Como C es simétrica y definida positiva, existe la factorización de
Cholesky C  RT R donde R es no singular (véase sección 3.1, Teorema 3.1.2). Entonces el
problema espectral
79
Ax   RT Rx
se puede reescribir como el problema equivalente
( R T AR 1 )( Rx )   ( Rx )
Denotando B  R T AR 1 y z  Rx , el último problema acepta la forma
Bz   z
Ya que B  BT , dicho problema tiene n eigenvalores reales, y los eigenvectores
son ortogonales: zi , z j   ij . Entonces xi  R 1 zi son eigenvalores del problema
espectral generalizado (2.1.3), y
xi , x j
C
 xiT Cx j  ziT R T ( RT R) R 1 z j  ziT z j   ij
Finalmente, si A es simétrica y definida positiva, entonces B es también simétrica y
definida positiva y, por lo tanto, todos los eigenvalores  son positivos. ■
7) Problema espectral particular. Para una matriz dada A (real o compleja),
encontrar algunos o todos sus eigenvalores

y, posiblemente, también los
correspondientes eigenvectores. (Incluso para una matriz real A todos eigenvalores 
pueden ser complejos).
Recordemos que para cada eigenvector  de la matriz A existe al menos un
eigenvector x tal que
Ax   x
(2.1.4)
Si la multiplicidad algebraica m del valor  es mayor que uno, entonces no
necesariamente existen otros eigenvectores correspondientes a
independientes de x .
80

y linealmente
8) Problema de los valores singulares. Para una matriz n  k dada hay que
encontrar un vector de dimensión k y escalar  tales que
AT Ax   x
(2.1.5)
Este tipo especial del problema espectral es bastante importante para merecer la
consideración por separado.
Listaremos ahora los tipos de matrices de problemas prácticos (Forsythe y Moler,
1967).
Una matriz cuadrada A de orden n se compone de n2 elementos aij . Con matrices
de gran tamaño los métodos tradicionales para almacenar la matriz en la memoria de una
computadora o para la resolución de sistemas de ecuaciones lineales necesitan una gran
cantidad de memoria y de tiempo de proceso.
Si sólo unos pocos elementos aij no son cero, la matriz se llama dispersa (sparse
matrix). Está claro que usando una codificación correspondiente se puede representar dicha
matriz por la cantidad de números reales que es mucho menos que n2 , ya que los elementos
nulos no es necesario memorizar. Se han diseñado algoritmos específicos para estos fines
cuando las matrices son dispersas.
Si la mayoría de los elementos de una matriz no es cero, la matriz se llama matriz
densa. La palabra “densidad” se utiliza para denotar la relación entre el número de
elementos no nulos a n2 .
A veces, incluso si ninguno de los elementos matriciales aij no es cero, dichos
elementos pueden ser calculados utilizando un algoritmo simple. Esta matriz recibe el
81
nombre de matriz generador, y sus n2 elementos no requieren almacenamiento en la
memoria del ordenador. Si, por el contrario, los elementos de la matriz se representan como
n2 números reales, la matriz se llama almacenada. Y no importa si algunos elementos son
iguales a cero, ya que los ceros también es necesario recordar.
Del gran interés son matrices de banda. En matemáticas, a una matriz se le llama
matriz de banda cuando es una matriz donde los valores no nulos son confinados en un
entorno de la diagonal principal, formando una banda de valores no nulos que completan la
diagonal principal de la matriz y más diagonales en cada uno de sus costados.
Escrito formalmente, una matriz cuadrada A  {aij } de orden n es una matriz
banda si todos sus elementos son cero fuera de una zona diagonal cuyo rango se determina
por las constantes k1  0 y k2  0 :
aij  0 si
k2  j  i  k1
(2.1.7)
Los valores k1 y k 2 determinan el semiancho de banda izquierdo y derecho
respectivamente. El ancho de banda de una matriz es k1  k2  1, y se puede definir como el
número menor de diagonales adyacentes con valores no nulos.
Una matriz banda con k1  k2  0 es una matriz diagonal. Una matriz banda con
k1  k2  1 es una matriz tridiagonal; cuando
k1  k2  2 se tiene una matriz
pentadiagonal y así sucesivamente.
Una matriz banda con k1  k2  p , dependiendo del número p, se le puede llamar
matriz p-banda, formalmente se puede definir como
aij  0 si
i  j  p;
82
p0
(2.1.8)
Una matriz con k1  0, k2  n  1 , se obtiene la definición de una matriz triangular
inferior. De forma similar, para k1  n  1, k2  0 , se obtiene la definición de una matriz
triangular superior.
Ejercicios:
1. Definición. La matriz permutación es la matriz cuadrada con todos sus n  n elementos
iguales a cero, excepto uno cualquiera por cada fila y columna, el cual debe ser igual a
uno. Ejemplo:
1 0 0 
0 1 0  ,


0 0 1 
0 1 0 
0 0 1  ,


1 0 0 
0 0 1 
1 0 0 


0 1 0 
2. Definición. Una matriz cuadrada A se llama reducible si existen matrices
permutaciones tales que la matriz obtenida de A por permutaciones es la matriz por
bloques de forma
B 0 
B C 
o
C D 
 0 D .




donde B y D son submatrices cuadradas (bloques) y 0 es la matriz nula.
3. Definición. Una matriz cuadrada A se llama irreducible si A no es reducible.
4. Demuestre que una matriz irreducible y de diagonal dominante no es singular.
83
2.2. Fuentes de problemas computacionales
Sobre la base de la clasificación de problemas de álgebra lineal computacionales
dada en la sección anterior, indicamos ahora algunas fuentes de dichos problemas.
Solución de sistemas de ecuaciones algebraicas lineales
Ax  b
(2.2.1)
(problema 1 de la sección 2.1), al parecer, es el más común problema en un centro de
cómputo. Un matemático aplicado a menudo debe elegir algunos parámetros en el
procesamiento de datos. Por ejemplo, se puede interpolar una función utilizando sus n
valores dados con ayuda de un polinomio. En este caso, los n coeficientes del polinomio
representan dichos parámetros.
Dado que los coeficientes afectan los valores del polinomio de manera lineal, el
problema de interpolación se reduce a resolver un sistema de ecuaciones algebraicas
lineales. En las tareas más complejas, en las que los parámetros se entran no linealmente, se
obtienen las ecuaciones no lineales. Sin embargo, una forma típica de la solución de un
sistema no lineal de ecuaciones es su linealización y la posterior resolución del sistema
linealizado, es decir, de nuevo el problema 1 en la sección 2.1.
La fuente más común de un sistema de ecuaciones lineales es la aproximación de
una ecuación continua por un problema de diferencias finitas. Por ejemplo, el problema de
Dirichlet para el operador diferencial Laplace puede ser aproximado por un gran sistema de
simples ecuaciones en diferencias finitas. La matriz asociada a las ecuaciones en
diferencias, casi siempre es grande y dispersa.
84
La segunda fuente muy importante de los sistemas de ecuaciones lineales es la
solución de problemas lineales por el método de los mínimos cuadrados. Supongamos que
la matriz A , tal como se define en el problema 3 de la sección 2.1 tiene rango k . Se
demuestra a continuación que la matriz AT A también tiene rango k y, por lo tanto, es no
singular y definida positiva. A continuación, la tarea es minimizar la expresión
Ax  b
2
 ( Ax  b )T ( Ax  b )
 xT AT Ax  2xT AT b  b T b
 ( AT Ax  AT b )T ( AT A) 1 ( AT Ax  AT b )
b T A( AT A) 1 AT b  b T b
(2.2.2)
El lector puede verificar estas ecuaciones por simple multiplicación. Como ( AT A)1 es la
matriz definida positiva, el mínimo en (2.2.2) se alcanza cuando AT Ax  AT b  0 , es decir,
cuando x satisface la ecuación normal
AT Ax  AT b
(2.2.3)
Esta ecuación es el problema 1 de la sección 2.1.
Para demostrar que AT A tiene rango k , probaremos un resultado más general, a
saber, que
rk( AT A)  rk( A)
(2.2.4)
donde rk(C) es el rango de la matriz C . Utilizamos el siguiente teorema
Teorema 2.2.1 (Forsythe y Moler, 1967). Sea A una matriz real n  k de rango r .
Entonces existen matrices ortogonales U y V de orden n y k , respectivamente, tales que
U T AV es la matriz n  k de forma
85
 1



D




donde 1  2 
2
r
0

0 



0 

0
(2.2.5)
 r  0 son valores singulares de A .
Según el teorema 2.2.1,
U T AV  D
(2.2.6)
y A  UDV T . Por lo tanto,
AT A  (VDTU T )UDV T  VDT DV T
(2.2.7)
Obviamente, las matrices DT D y D son del mismo rango r y, debido a (2.2.7), se obtiene
que rk( AT A)  rk( A) .
El sistema de ecuaciones lineales que surge de la ecuación normal (2.2.3) por lo
general tiene una orden pequeña y su matriz es densa. Sin embargo, el uso de la ecuación
normal no es siempre la forma más eficaz y precisa para resolver el problema por el método
de los mínimos cuadrados (Golub, 1965; Buzinger y Golub, 1965; Golub y Kahan, 1965).
A menudo el problema que conduce a un sistema de ecuaciones lineales, se
caracteriza por la misma relación funcional pero por diferentes datos. Por ejemplo, un
sistema de ecuaciones en diferencias finitas puede tener varias versiones de las condiciones
de contorno para las mismas ecuaciones en el dominio interno, o la transformación de los
datos por el método de los mínimos cuadrados se puede hacer para una serie de vectores
dados b bajo los mismos parámetros reguladores que forman la matriz A . Estas
86
situaciones conducen a sistemas de ecuaciones lineales (2.1.2) de la forma AX  B , es
decir, al problema 2 de la sección 2.1.
La búsqueda de la matriz inversa A1 de una matriz no singular A (problema 4 de
la sección 2.1) es más común en los cálculos estadísticos, en los que la matriz inversa es
importante en sí mismo para la evaluación de ciertos parámetros estadísticos. En la mayoría
de otros problemas prácticos, la búsqueda de la matriz inversa A1 no es realmente
necesaria, aunque puede ser de gran interés su norma.
Si para una matriz dada A hay muchas partes derechas b , entonces la matriz inversa
A1 es en realidad “el operador de influencia”, que transforma directamente b en la
solución x del sistema Ax  b , es decir, x  A1b . Por esta razón a menudo es deseable
de antemano calcular A1 de manera que un nuevo vector b se transforma en x mediante la
1
aplicación A al vector b . Sin embargo, si la matriz A es dispersa, su inversa A es
comúnmente densa. Por lo tanto, aunque A puede ser almacenado en un pequeño volumen
1
de memoria, la matriz inversa A requiere demasiada memoria. Afortunadamente, hay
maneras de almacenamiento de datos en la que el vector A1b para un determinado b se
1
puede calcular de forma rápida sin tener que memorizar los elementos de la matriz A y
1
con menos errores de redondeo que genera la multiplicación de A por el vector b .
El problema 7 de la sección 2.1 por lo general se produce cuando se resuelve un
sistema de ecuaciones diferenciales ordinarias homogéneas lineales con coeficientes
constantes. Si imaginamos tal sistema en la forma
dz
 Az , donde z (t ) es un vector ndt
dimensional, entonces intento de encontrar una solución exponencial en la forma
87
z (t )  x  exp(t ) donde x es un vector n-dimensional constante, conduce directamente a
un problema de tipo 7 para determinar  .
De la misma manera, un sistema de segundo orden
A
d 2z
dz
B
 Cz  0
2
dt
dt
(2.1.8)
conduce a un problema de tipo 7. Este sistema es particularmente común en el estudio de
los sistemas dinámicos no conservativos tales como los sistemas de control automático,
donde hay un flujo de energía y cuando no hay seguridad de que el sistema será estable.
Los procesos que tienen lugar en sistemas mecánicos, se describen por sistemas de tipo
(2.1.8), donde A es la matriz de las masas (coeficientes inerciales), B es la matriz de los
coeficientes de las resistencias, y C es la matriz que caracteriza las fuerzas.
En muchos problemas B  0 , mientras que A y C son matrices simétricas y
definidas positivas. A continuación, el sistema (2.1.8) toma la forma
A
d 2z
 Cz  0
dt 2
(2.1.9)
Sea z (t )  x  exp(it ) donde x es un vector n-dimensional constante y  es la
frecuencia de las oscilaciones propias del sistema. Como resultado, se obtiene el sistema
 2 Ax  Cx  0
(2.1.10)
o, si suponemos que   1/  2 ,
Ax  Cx
(2.1.11)
es decir, el problema 6 de la sección 2.1.
En muchos casos, la matriz de las masas A es la matriz identidad. A continuación,
por lo general consideran    2 y reciben un problema común de encontrar los valores
propios (problema 5 de la sección 2.1)
88
Cx   x
(2.1.12)
donde la matriz C es definida positiva.
Ejemplo 2.1.1. Consideremos en un espacio de Hilbert el problema de la mejor
aproximación media cuadrática de una función f (x) por un polinomio generalizado
m
 m ( x)   ci  i ( x) ,
(2.1.13)
i 0
de grado m formado por un sistema de funciones básicas i ( x )i 0 . Se plantea el problema
m
de hallar los coeficientes ci del polinomio (2.1.13) que minimiza la distancia
( f ,  m )  f   m  f   m , f   m
1/ 2
(2.1.14)
Dicho problema tiene una sola solución que se obtiene al resolver el sistema de ecuaciones
algebraicas lineales
m
c
i
 i ,  j  f ,  j , ( j  0,1,2,, m)
(2.1.15)
i 0
Ejercicios:
1. Encuentre en el intervalo 0,  el polinomio 1 ( x)  c0  c1 x de la mejor
aproximación media cuadrática para la función f ( x)  sen x  cos x . [Indirecta: para el
cálculo de los productos internos
 x sen x dx  sen x  x cos x ,
y
 x cos x dx  cos x  x sen x
].
3
2. Construye el polinomio de la mejor aproximación media cuadrática  3 ( x)   c j Pj ( x)
j 0
para la función f ( x)  3 (  1  x  1 ).
x
3. En el método puntual de cuadrados mínimos se minimiza la distancia
1/ 2
 ( f , m )  f  m
n

   f ( xi )   m ( xi )2 
 i0

89
que se calcula mediante la suma de los cuadrados de desviaciones del polinomio  m (x)
de la función f (x) en los puntos xi . Usando el método puntual de cuadrados mínimos
en el intervalo
0, 
aproxime la función
trigonométrico 1 ( x)  c0  c1 cos x
x4   .
f ( x)  1  x 2 /  2 por un polinomio
en los puntos x0  0 , x1 


2
, x2  , x3 
,
3
2
3
[La solución: 1 ( x)  0.64  0.47 cos x ].
4. Aproxime la función f (x )  e x por un polinomio lineal 1 ( x)  a  bx en el
segmento  1,1 a fin de minimizar la distancia
 (e x , 1 ( x))  max e x  1 ( x) .
 
x 1,1
5. Sea g ( x )  0 en 0,1 , y sea f n ( x ) no nula solo en un segmento  A, B de longitud
1 / n 3 , donde su valor máximo es igual a n (Fig.2.1.1). Demuestre que
1 ( f , g )  max f ( x)  g ( x)  max f ( x)  n  
x0,1
x0,1
y
1/2
1

1
2
2 ( f , g )    f ( x)  g ( x) dx  
0
n
0

cuando n   . Así, las distancias 1 ( f , g ) y 2 ( f , g) no son equivalentes.
Fig.2.1.1. Gráfico de f n ( x ) en el intervalo 0,1 .
90
2.3. Número de condición de una matriz
El determinante de una matriz A es una de sus características más importantes. Por ejemplo, si la
 
matriz A es singular, es decir, si det A  0 entonces el sistema Ax  b no tiene ninguna solución. Los
eigenvalores de la matriz A también pueden dar información valiosa sobre sus propiedades. En esta
sección, se introduce otra característica importante de la matriz, llamada el número de condición. Pero
antes consideremos tres ejemplos instructivos.
Ejemplo 2.3.1 (W. Kahan). Sea
 
Ax  b
(2.3.1)
el sistema de ecuaciones lineales con
.
0.8648
12969
A
 , y
.
0.2161 01441

 0.8642 
b

 0.1440 
(2.3.2)
 



Denotemos el término residual r  b  Ay , donde y es una solución aproximada. Ya que r  0



para la solución exacta x  A 1b , es natural suponer que y es buena aproximación de la solución

exacta cuando el término residual r es muy pequeño. Sin embargo, esto no es siempre una buena
idea. Por ejemplo, para la matriz (2.3.2) esta suposición no es cierta. En efecto, elegimos

y  (0.9911,  0.4870) T . En este caso el vector residual es

r  (10 8 , 10 8 ) T , es decir, muy


pequeño. No obstante, el vector y queda lejos de la solución exacta x  (2,  2) T . ■
Ejemplo 2.3.2. Consideremos el sistema lineal (2.3.1) con
0.780 0.563
A
, y
 0.913 0.659
91
 0.217
b

0.254
(2.3.3)

Si elegimos y1  (0.341,  0.087) T como una solución aproximada, entonces el término residual es


. ) T como otra solución aproximada, entonces el
r1  (10 6 , 0) T . Y si elegimos y2  (0.999,  1001



término residual es r2  (0.0013... ,  0.0015... ) T . Al comparar r1 con r2 concluimos que el vector



y1 aproxima la solución exacta x mejor que y2 . No obstante, la solución exacta es (1,1) T y, en

realidad, el vector y2 es la mejor aproximación entre dos vectores. ■
Se dice que un sistema de ecuaciones lineales está mal acondicionado cuando pequeña
perturbación en el sistema puede producir cambios relativamente grandes en la solución exacta. De lo
contrario, se dice que el sistema está bien acondicionado.
Surge la pregunta, “¿Por qué un sistema mal condicionado es tan inestable?”
Es
fácil
visualizar que ocurre en un sistema mal condicionado, en el caso de dos ecuaciones.
Geométricamente, dos ecuaciones representan dos líneas directas, y el punto de intersección es la
solución del sistema. Un sistema mal condicionado representa dos líneas directas que son casi
paralelas. En este caso, si la inclinación de una de las líneas se cambia sólo ligeramente, entonces el
punto de intersección se altera drásticamente (Fig.2.3.1).
Fig.2.3.1. Impacto de una perturbación pequeña en b .
92
Con el fin de demostrar que el muy pequeño término residual
 

r  b  Ay no siempre



garantiza la proximidad de la solución aproximada y a la solución exacta x  A 1b , consideraremos
un ejemplo más.
Ejemplo 2.3.3 (Maubach, 2005). El sistema (2.3.1) es 2  2 con la matriz
1 0 
A

0  
donde   0 es un número muy pequeño. Sea w  y  x . Tenemos
Ay  b
2
 A( y  x )  w* ( A* A)w  w12   2 w22
2
 ( y1  x1 ) 2   2 ( y2  x2 ) 2
Por lo tanto Ay  b  a implica
( y1  x1 ) 2 ( y2  x2 ) 2

 1,
a2
a 2 2

es decir, todas las soluciones aproximados y cuyas términos residuales son
Ay  b  a
pertenecen a un elipse con los radios a y a /  . Por ejemplo, tanto y1  ( x1  a, x2 )T como
y2  ( x1 , x2  a 1 )T corresponden al término residual Ay  b  a , pero
y1  x  a
De un lado, det A  
a 1  y2  x .
1 . Veremos más adelante que la matriz A es mal condicionada, ya que
su número de condición en la norma espectral es enorme  2 ( A)   1 . ■
Explicaremos ahora la inestabilidad de la solución en un sistema mal condicionado (Forsythe
et al., 1977; Ciarlet, 1995). Supongamos que la matriz del sistema (2.3.1) es no singular ( det A  0 )
93

y b  0 . En este caso, el sistema tiene una sola solución

x  0 . Analicemos ahora un sistema
perturbado
 
 
A(x   )  b  

donde 
(2.3.4)



y  son los errores absolutos de la solución x y vector b , respectivamente. Claro que
 
A   , y


  A 1 .
(2.3.5)



 
Dividiendo el error relativo  / x en la solución entre el error relativo  / b en el vector b , y
usando (2.3.1) y (2.3.5) obtenemos

 

 A 1
b
 / x

Ax
1
           A A ,
x
x
 / b



(2.3.6)
Definición 2.3.1. Sea A una matriz. El número
 A A1 , si A no es singular
 ( A)  cond A  
  , si A es singular
(2.3.7)
se denomina número de condición de la matriz A. ■
Se deduce de (2.3.6) y (2.3.7) que




   ( A)  ,
x
b
(2.3.8)
es decir, el error relativo de la solución del problema (2.3.1) se estima mediante el error relativo del

vector b multiplicado por el número de condición de la matriz. Por eso, cuando  ( A) es pequeño o
 
moderado, el error  / x en la solución del problema (2.3.1) está acotado y depende continuamente
94

 
 
 
del error  / b en b en el sentido de que  / x tiende a cero junto con  / b . En esta situación, la
matriz A (y por consiguiente, el sistema (2.3.1)) se llama bien condicionada. Sin embargo, si el
número de condición de la matriz A es muy grande (por ejemplo, 10 20 o 10 30 ), entonces el error en la
 
 
solución  / x ya no es controlable a pesar de que el error  / b es muy pequeño (por ejemplo,
10 10 ). En la última situación, el sistema (2.3.1) y su matriz A se llaman mal condicionados, y es
posible esperar problemas graves con la precisión de la solución calculada.
Se puede demostrar que el número de condición (2.3.7) es también una característica
importante en la evaluación de la respuesta del sistema (2.3.1) a errores en la matriz A. En efecto,

supongamos que b es exacto, pero A contiene un error A :
( A   A)( x   )  b
Así, en lugar de la solución exacta


x  A 1b , tenemos una solución aproximada
x     A   A b , o   { A   A  A1}b . Sustituyendo
1
1
B  A  A
en la identidad
B 1  A 1  A 1 ( A  B )B 1 , obtenemos
   A1  A  A   A b   A1  A( x   )
1
Por lo tanto,
  A1  A x   . Se deduce que

x 
  ( A)
A
A
Así, el error relativo en la solución se limita arriba por el error relativo en la matriz A multiplicado por
el número de condición (2.3.7).
95
Ahora es posible contestar la pregunta sobre el comportamiento extraño de las soluciones en
los ejemplos 2.3.1 y 2.3.2. En efecto, lo que pasa en dichos ejemplos se debe a la condicionalidad
mala de las matrices (2.3.2) y (2.3.3), y de acuerdo con la estimación (2.3.8), un error pequeño en el

vector b produce un error bastante grande en la solución.
Ejemplo 2.3.4. Sea A una matriz simétrica, no singular. Debido a (1.7.4), la 2-norma (o
norma espectral) de A es
A 2  max i . Como
1i  n
A   A 
1 
 1
 A1 , la matriz inversa también es
simétrica. Además,
1
1
2
1 
1 
min A1 x, A1 x   min Ay, Ay 
A1  max
A
x
,
A
x

 x 1

 y 1


2
x 1




1
1
2
 
 min
A
y
,
y
,


2
y

1


min i
1i  n
Así, el número de condición de una matriz simétrica A en la norma espectral es
 2 ( A)  max  i ( A) / min  i ( A)
i
i
(2.3.9)
y se llama número de condición espectral de A. ■
La fórmula (2.3.9) es válida para qualquier matriz normal no singular.
Ejemplo 2.3.5. Demostramos que cualquier matriz unitaria n  n está perfectamente
condicionada en la norma espectral. En efecto, sea U una matriz unitaria, es decir, UU 1  E .
Debido a que la norma espectral tanto de U como de U 1  U * son iguales a uno, el número de
96
condición espectral de U es  (U )   2 (U )  U
2
U 1
2
 1 . Sin embargo, se puede demostrar que
en la norma de Frobenius, el número de condición de cada matriz unitaria es igual a n. ■
Se puede demostrar que para la norma espectral, la igualdad  2 ( A)  1 se cumple si y solo si
A  Q o A  U , donde  es un número, Q es una matriz ortogonal y U es una matriz unitaria.
Por el teorema 2.4.3,
 2 ( A)   2 (QAU ) y  F ( A)   F (QAU )
donde  2 ( A) y  F ( A) son los números de condición de una matriz A , calculados usando la norma
espectral y la norma de Frobenius, respectivamente, y Q y U son matrices ortogonales o unitarias.
Las siguientes desigualdades tienen lugar (Voevodin y Kuznetzov, 1984):
max{
 ( A)  ( B)
,
}   ( AB)   ( A)  ( B)
 ( B)  ( A)
Ejemplo 2.3.6. La matriz de Hilbert
 1 12 
1
1

3
H n  hij   2
  
1
1
 n n1 
 

1 
n1 
,

1 
2 n1 
1
n
(2.3.10)
Es una matriz simétrica cuyos elementos se definen como
hij 
1
.
i  j 1
Consideremos ahora un problema donde aparecen las matrices de Hilbert. Supongamos que se
requiere aproximar en el intervalo 0  x  1 una función f ( x) por un polinomio algebraico
n
c x
i 1
i
97
i 1
con el objetivo de minimizar el error de aproximación
2
 n

e     ci xi 1  f ( x)  dx

0  i 1
1
Dicho error se minimiza bajo las condiciones
e
0
ci
(i  1,..., n)
Del último sistema se obtiene
1
 1 i  j 2 
dx  c j   f ( x) xi 1dx
 x

j 1  0
0

n
(i  1,..., n)
o bien, el sistema
n
h
j 1
ij
c j  bi
(i  1,..., n)
1
donde bi   f ( x) xi 1dx se definen por la función dada f ( x) (i  1,...,n ), y hij  1/ (i  j  1) es el
0
elemento de la matriz de Hilbert (i, j  1,..., n) .
Horn y Johnson (1999) mencionan que el número de condicion de H n empeora cuando la
dimensión n aumenta y asintoticamente coincide con la función exponencial e cn , donde la constante c
es aproximadamente igual a 3.5. Por ejemplo,
 ( H 3 ) ~ 5 10 2 ,  ( H 6 ) ~ 1.5 10 7 ,
 ( H 8 ) ~ 1.5  1010 ,
es decir, crece como e3.5n . Notemos que la norma de Frobenius H n
aumenta, ya que
Hn
2
F
n
1
,
k 1 k

98
F
tiende a infinito cuando n
y la serie del lado derecho diverge. Sin embargo, para el radio espectral  ( H n ) es válida la
estimación
 1 

 ( H n )    O
 log n 
cuando n   .
Así, a pesar de que los elementos de H n son uniformemente acotados en n y el radio espectral
 ( H n ) no es grande, la matriz es mal condicionada cuando n es grande. Se puede explicar este
fenómeno si tomamos en cuenta que H n es simétrica y, según el ejemplo 2.3.4, su número de
condición espectral es
 2 ( H n )   ( H n ) / min  i ( H n )
i
Entonces el eigenvalor mínimo  ( H n )  min  i ( H n ) de la matriz de Hilbert tiende a cero cuando
i
n  . ■
Según (2.3.7), el número de condición  ( A) depende de la norma matricial elegida. Por
ejemplo,
 p ( A)  A
A 1
p
p
(2.3.11)
si se usa p-norma (1.7.2). Notemos que
 p ( A)  A
p
A1
p
 AA1
p
 E p  E 2  1.
(2.3.12)
Además, en virtud de la equivalencia de las normas matriciales, (véase (1.7.11)), obtenemos
C 2 p ( A)   q ( A)  K 2 p ( A)
99
(2.3.13)
donde C y K son las constantes universales positivas de (1.7.11) que dependen sólo de las normas
elegidas y no dependen de A. Así, los números de condición de una matriz A calculados en dos
normas diferentes, también son equivalentes, es decir, si A es bien (o mal) condicionada en una
norma y las constantes C y K no son enormes, entonces, según (2.3.12), A también es bien (mal)
condicionada en otra norma.
Ejercicios:
1  
1. Sea A( )  
 una matriz donde   0 . Demuestre que A( ) se hace mal condicionada
1   
cuando  se aproxima a cero. [Indirecta: Hay que construir la matriz inversa A1 ( ) , y usando la
n
norma matricial A

 max  aij , demuestre que   ( A)  1 
1i  n
j 1
1

].
5 7 3
2. Encuentre 1( A) ,  2 ( A) y   (A) para la matriz A  7 11 2 .


3 2 6
3. Encuentre   (A) para la matriz
1 
1 1

A  1 10
100  .
1 100 10000 
Demuestre que el numero de condición de la matriz A se puede mejorar mediante escalar A por una
matriz diagonal D. Calcule   (DA) para D  diag1 / 3, 1/ 111, 1 / 10101 .
4. Compare la solución del sistema:
5.3433 x  4.1245 y  3.1417
5.3432 x  4.1244 y  3.1416
con la del sistema
5.343 x  4.124 y  3.142
5.343 x  4.124 y  3.142
que se obtiene mediante omitir la última cifra de la mantisa en todos los coeficientos. ¿Que número
de condición tiene la matriz del sistema original? [La solución del primer sistema es
x  2.5776, y  2.5776 , mientras que el segundo sistema tiene número infinito de soluciones].
100
5. Sea A una matriz no singular. Demuestre que  ( A1 )   ( A) .
6. Demuestre que una matriz normal es unitaria si y sólo si el módulo de cada su eigenvalor es igual
a uno.
7. Demuestre que una matriz normal es hermitiana si y sólo si todos sus eigenvalores son reales.
8. Demuestre que una matriz normal es antihermitiana si y sólo si todos sus eigenvalores son puros
imaginarios.
9. Demuestre que  ( A)  max  i ( A) / min  i ( A) para qualquier matriz no singular y respecto a
i
i
cualquier norma matricial.
10. Sea   0 , y
1 
1
A  
.
1  1   
Demuestre que  (A) es proporcional a  1 respecto a cualquier norma matricial.
Demuestre, sin embargo, que cuando   0 , entonces la razon max  i ( A) / min  i ( A) es del
i
i
orden 1, es decir, para una matriz no normal, la razon de eigenvalores no puede servir como una
estimación del número de condición.
11. Determine   (A) de la matriz del Ejemplo 2.3.2 tomando en cuenta que
 659000  563000 
A1  
.
 913000 780000 
12. Demuestre que  ( A)   (aA) donde a es un número complejo.
13. (Meyer, 2000). La solución exacta del sistema
.835x  .667 y  .168
.333x  .266 y  .067
es x  1, y  1 . Demuestre que la perturbación de b2 de b2  .067 a b2  .066 cambiará
drásticamente la solución exacta: x  666, y  834 .
101
2.4. Estimación del número de condición


 
Notemos que la solución x  A 1b del problema Ax  b es equivalente a la búsqueda de la matriz
inversa A 1 . A pesar de que es útil estimar el número de condición  ( A)  A A 1 de la matriz A,
en el caso general es un problema difícil, ya que el segundo factor A1 está desconocido (la matriz
inversa A 1 está desconocida). Por lo tanto, cualquier método de estimar el número de condición es
muy importante. En la sección presente consideramos algunos métodos para estimar el número de
condición.
Ejemplo 2.4.1. Calculemos el número de condición de la matriz triangular de Toeplitz
 2 1
 1 2

T 

0 0
 0 0
0
0 0 


2 1
1 2 
0
(2.4.1)
de orden n. La matriz es simétrica y definida positiva, es decir, todos sus eigenvalores son positivos.
Es bien conocido que los eigenvalores de T se hallan mediante la fórmula
k (T )  2(1  cos
k
)  2(1  cos kh)
n 1
(2.4.2)
donde h   / (n  1) (Smith, 1978). Usando (2.4.2) obtenemos
 (T )  1 (T )  2(1  cos h) ,
Ya que
 (T )  n (T )  2(1  cos nh)
(2.4.3)
cos (n  1)h  cos  1, y por lo tanto, cos nh  cos n / (n 1)   cos h , según
(2.3.9), tenemos
 2 (T ) 
102
1  cos h
1  cos h
(2.4.4)
Si h es pequeño, entonces cos h  1  h 2 / 2 , y
 2 (T ) 
4  h2
 O(h 2 ) ,
2
h
(2.4.5)
es decir, la matriz de Toeplitz (2.4.1) es moderadamente mal condicionada. Tales matrices surgen a
menudo al aproximar el problema unidimensional de contorno para el operador de Laplace. ■
Determinante y número de condición. Es preciso notar que no hay ninguna correlación entre
el determinante y el número de condición de una matriz. Por ejemplo, la matriz diagonal
Dn  diag (10 1 ,10 1 ,,10 1 ) del orden n es bien condicionada, ya que  2 ( Dn )  1 para cada n. Sin
embargo, det( Dn )  10  n , es decir, el determinante tiende a cero cuando n aumenta. Así, una matriz
casi singular puede ser bien condicionada. Otro ejemplo es la matriz ortogonal aQ de orden n. En
efecto, det (aQ)  a n det Q  a n que se puede hacer arbitrariamente pequeño (si a  1 ) o grande
(si a  1 ) a pesar de que la matriz aQ está perfectamente condicionada.
Por otro lado, demostremos ahora que la matriz
 1 1 1
 0 1 1

0 0 1
A
  
0 0 0

0 0 0
 1 1
 1 1

 1 1

  
 1 1

 0 1
(2.4.6)
del orden n cuyo determinante es uno, es mal condicionada. Examinemos el sistema (2.3.1) con la
matriz (2.4.6) y el vector columna b  (1, 1,
, 1, 1)T con todos sus componentes iguales a 1 ,
excepto el último componente que es uno. En una forma más detallada, este sistema tiene el aspecto
siguiente:
103
x1  x 2  x 3  x n  1
x 2  x 3  x n  1

(2.4.7)
x n  1  x n  1
xn  1

El sistema (2.4.7) tiene una solución única x  (0, 0, ,0, 1) T que obtenemos usando la sustitución
regresiva.
Ahora escribimos un método que usa la desigualdad (2.3.8) y a veces permite demostrar que el
número de condición ( A) de la matriz A es enorme.
Estimación del número ( A) desde abajo. Supongamos que en la sustitución regresiva
usada para resolver el sistema (2.4.7) se ha cometido un solo error: en lugar de
bn  1 se ha
introducido bn  1   , donde   0 es muy pequeño en comparación con la unidad. Entonces, en
 

vez de la solución exacta x del sistema (2.4.7) obtendremos la solución perturbada x   del sistema
A( x   )  b   , donde   (0, 0,

, 0,  )T y el error   ( 1 ,  2 , ,  n ) T
satisface el sistema
lineal
 1   2   3  n  0
 2   3  n  0

(2.4.8)
 n 1   n  0
n 
De aquí obtenemos  n   ,  n 1   ,  n 2  2 ,  n  k  2 k 1  ,  ,  1  2 n 2  . En la notación
(1.2.15) de la -norma tenemos
104




x
 max  i  2 n2  ,
i



 1,

,

b

 1,
(2.4.9)
y según (2.3.6) y (2.3.7),

  ( A)  A

A

1

 




/ x

/ b

 2 n 2
(2.4.10)

Por ejemplo, si n=102, tenemos   ( A)  2100  10 30 , y por lo tanto, según la última igualdad en

(2.4.10), 

 2 100   10 30  . Particularmente, si   1015 (es decir, el único error cometido en la
sustitución regresiva es muy pequeño), no obstante, el error de la solución hallada es enorme:



 10 15 .
Estimación del número ( A) desde arriba. Consideremos ahora otro método que tiene la
aplicación limitada, pero permite fácilmente evaluar el número de condición  ( A)  A A 1 desde
arriba y, por lo tanto, es muy útil para demostrar que la matriz de un sistema es bien condicionada.
 
Sea Ax  b un sistema para resolver. Introducimos otra matriz, B  E  A , y representamos el
sistema original como

 
x  Bx  b
(2.4.11)
El método que describimos ahora es válido sólo para un grupo de las matrices A que satisfacen la
condición
B  E  A 1
(2.4.12)
en una norma matricial. En la seción 4.1, demostraremos el Teorema 4.1.1 que afirma que a condición

de que (2.4.12) se cumple, el problema (2.4.11) tiene una solución única x* y
105


x*  A 1b 

b
1 B
(2.4.13)

para cualquier vector b . El denominador en (2.4.13) es positivo debido a (2.4.12). Se deduce de la
Definición 1.6.3 y (2.4.13) que
A
1
A1b
 max
b 0

b
1
1 B
Por otro lado, A  E  B  E  B  1  E . Entonces, según (2.3.7), tenemos
 ( A)  A A 1 
1 E
1 B
(2.4.14)
Ejemplo 2.4.2. Evaluamos el número de condición de la matriz A  E  B , donde
bij 
0.8
 (1) i  j ,
n
1  i, j  n
(2.4.15)
son los elementos de la matriz B . Tenemos
B

n
n
j 1
j 1
0.8
 0.8
n
 max  bij 
i
y también,
1/ 2
B2 B
F
 n

   bij2 
 j 1 
 0.8
Por lo tanto, la condición (2.4.12) se cumpla. Entonces, de acuerdo con la fórmula (2.4.14),
 ( A)   (( E  B) 
11
 10
1  0.8
 
Así, el número de condición de la matriz A es pequeño, y tanto la matriz A como el sistema Ax  b
están bien condicionados. ■
106
Números singulares. Sea A una matriz cuadrada. Es fácil demostrar que los eigenvalores


i ( A* A) de la matriz hermitiana A* A son no negativos. En efecto, A* A ui  i ( A* A) ui . Tomando el

producto escalar de cada parte de la última ecuación con el eigenvector ui , obtenemos

i ( A* A) ui
2
2
 
 
 


 2
 i ( A* A) ui , ui  i ( A* A) ui , ui  A* A ui , ui  A ui , Aui  Aui 2 ,
es decir, i ( A* A)  0 .
Definición 2.4.1. Sea A una matriz cuadrada. Las raíces cuadradas i  i ( A* A)  0 de
los eigenvalores de la matriz hermitiana A* A se llaman números singulares de la matriz A.
Teorema 2.4.1. Sea A una matriz compleja. Existen matrices unitarias U y V tales que
V  AU  D
(2.4.16)
donde D  diag 1 , 2 ,..., n  es la matriz diagonal de los números singulares i  i ( A* A)  0 de
la matriz A. Si A es una matriz real entonces U y V son matrices ortogonales.
Demostración. Sea A una matriz compleja. Según el Teorema 1.4.2, existe una matriz unitaria U tal
que

U  A* AU  diag 12 ,  22 ,...,  n2

(2.4.17)

donde i  i ( A* A) son números singulares de la matriz A. Designando por c j el vector columna
j-ésima de la matriz AU , se puede reescribir (2.4.17) como
 
ci* c j   i2  ij ,
1  i, j  n

Sea 1 , 2 ,..., k el conjunto (posiblemente vacio) de los números singulares nulos; entonces c j  0


para j  1,2,..., k . Si definimos los vectores u j   j 1 c j para j  k  1, k  2,..., n entonces
107
 
ui* u j  ij , k  1 i, j  n

Usando la ortogonalización de Gram-Schmidt (1.2.10) se puede extender el sistema de vectores u j a
una base ortogonal
 
ui* u j  ij , 1 i, j  n
(2.4.18)

La matriz V cuya j-ésima columna es el vector u j es la matriz requerida. En efecto, según (2.4.18), es
una matriz unitaria. Además,
   0   j ij
(V * AU )ij  ui*c j    * 
 j ui u j   j ij
si 1  j  k
si k  1  j  n
.
La demostración está sin cambio en el caso cuando A es una matriz real. ■
Simetrización de un sistema de ecuaciones. Consideremos un sistema de ecuaciones lineales
 
Ax  b
(2.4.19)
con una matriz no singular A. Tratando de mejorar la estructura de la matriz del sistema, se puede
transformarlo al sistema


A* Ax  A*b
(2.4.20)
 2 ( A * A)   2 ( A) ,
(2.4.21)
con la matriz hermitiana A* A . Sin embargo
es decir, la simetrización de la matriz A del sistema (2.4.19) sólo aumenta el número de condición de
la matriz A* A del sistema nuevo (2.4.20), lo que hace su solución aún más sensible a errores en los
elementos de la matriz A y en las componentes del vector b .
Demostremos (2.4.21). Según un Teorema 2.4.1, existen matrices unitarias U, V y una matriz
diagonal D  diag 1 , 2 ,..., n  tales que
108
A VDU 
donde i  i ( A* A)  0 son números singulares de la matriz A. Por lo tanto,
A* UDV  , A1  UD1V  y
( A* ) 1  VD1U  .
Así pués,
A* A  UDV VDU *  UD2U  ,
( A* A) 1  A1 ( A* ) 1  UD1V VD 1U *  UD2U 
Según el Teorema 1.6.3, transformaciones unitarias no cambian la norma espectral de una matriz A y,
por lo tanto,
 2 ( A)  A 2 A1 2  VDU 
2
UD 1V 
2
 D
2
D 1 .
2
Tomando en cuenta que
 2 ( A * A)  A* A 2 ( A* A)1 2  UD 2U *
 D2
2
D2
2
 D
2
2
D1
2
UD 2U 
2
2
2
y la desigualdad  2 ( A)  1 (véase (2.3.12)) obtenemos
2
 2 ( A * A)  D 2 D 1 2   22 ( A)   2 ( A) . ■
2
En la demostración se usa la norma espectral de las matrices. Pero, en la realidad, solo se usa
la propiedad de que las transformaciones unitarias no cambian la norma espectral. Según el teorema
1.6.3, las transformaciones unitarias tampoco cambian la norma de Frobenius y, por lo tanto,
 F ( A * A)   F ( A) .
Ejercicios:
109
(2.4.22)
1. Encuentre eigenvalores de la matriz
1 
1
 0,
A( )  
,
 1 1   
y su inversa A1 ( ) . Verifique que  2 ( A)   ( A) /  ( A) es proporcional a  1 , es decir, A es
mal condicionada cuando   0 .
1 
1
1
2. Sea   0 . Encuentre eigenvalores de la matriz A( )  
 y su inversa A ( ) .
1

1




1
Verifique que  ( A) /  ( A) es O(1) , pero  (A) es proporcional a  .
3. Usando las propiedades de normas matriciales, demuestre que  ( A)  1 .
4. Sea A una matriz diagonal, A  diag{ d1 ,..., d n } , y sea d i  10 i . Demuestre que  2 ( A) aumenta
con n, es decir, la matriz A se hace mal condicionada.
5. Demuestre que  (cA)   ( A) para cualquiera matriz A y cualquier número c  0 .
6. Demuestre que  2 ( A)  1 si y sólo si A  cU , donde c  0 es un número y U es una matriz
unitaria.
7. Demuestre que  2 ( A)   2 (VAU ) , donde V y U son dos matrices unitarias.
9. Demuestre que  ( AB)   ( A) (B) .
110
2.5. Método de las potencias
El problema espectral completo de una matriz consiste en la búsqueda de todos sus
eigenvalores y eigenvectores. Este problema surge en varios campos de física matemática, por
ejemplo, en el estudio de la estabilidad lineal de flujos hidrodinámicos o atmosféricos (vean, por
ejemplo, Skiba, 1998; Skiba y Adem, 1998). En general, el cálculo de todos los eigenvalores y
eigenvectores es un problema bastante difícil (Wilkinson, 1965). Sin embargo, a menudo en las
aplicaciones es necesario conocer sólo eigenvalores de modulo máximo o/y mínimo, o sólo algunos
eigenvalores máximos y los eigenvectores correspondientes. Aquí nos detendremos sólo en el método
de las potencias para resolver el problema espectral particular, es decir, determinar sólo el eigenvalor
de módulo máximo y el eigenvector asociado (Faddeev y Faddeeva, 1963; Ortega y Poole, 1981;
Marchuk, 1982; Golub y Ortega, 1992).
El método de las potencias, en su forma pura, se utiliza no a menudo. Pero muchos algoritmos
modernos explotan explícita o implícitamente este método.
Método de las potencias. Supongamos que A es una matriz de dimensión n que tiene un
 n
sistema completo ei i 1 de eigenvectores normalizados de la manera siguiente:


ei  ei
2
 1.
(2.5.1)
Tenemos


Aei  i ei
i  1,..., n ,
(2.5.2)

donde i es eigenvalor correspondiente a ei . Por ejemplo, tal sistema de eigenvectores siempre
existe para cualquiera matriz normal. Además admitamos que
111
1  2  3    n .
(2.5.3)
es decir, existe un eigenvector dominante 1 de módulo máximo. Sea




x0  c1e1  c 2 e2    c n en
(2.5.4)
c1  0 .
(2.5.5)
un vector arbitrario no nulo, y
Hallamos sucesivamente los vectores


xk  Axk 1
, k  1,2,3, .
(2.5.6)
De acuerdo con (2.5.2), tenemos
n
n
 n 




x1  Ax 0  A  ci ei    ci Aei   ci  i ei ,
 i 1
 i 1
i 1
y, en general,
n


 
x k   ci ki ei  k1 ( c1 e1   k ) ,
(2.5.7)
i 1
donde
k
k
  
  
 k  c2  2  e2  cn  n  en
 1 
 1 


con la particularidad de que, en virtud de (2.5.3), la norma euclidiana  k
k
velocidad  2 :
1
112
tiende a cero con

 O 2

 1

k
k

 0 , k ,


(2.5.8)
Tomando en consideración (2.5.7), obtenemos
 
 
 
x k , x k 1   21k 1 c1 e1   k , c1 e1   k 1 )
 
 
 
 21k 1 c12  c1 e1 , k 1  c1  k ,e1   k , k 1


(2.5.9)
La aplicación de la desigualdad de Schwarz conduce a

 
 
e1 , k 1  e1  k 1   k 1
,
 

 k ,e1   k
,
 


 k , k 1   k  k 1
Por lo tanto, debido a (2.5.8) se obtiene

 
x k , x k 1  21k 1 ( c12  O 2

 1
k 1

)


(2.5.10)
Análogamente obtenemos

 
x m , x m   21m ( c12  O 2

 1
m

)


(2.5.11)
Por consiguiente, la k-ésima aproximación del eigenvalor  1 se calcula por
 

x k , x k 1
( 1 ) k  
  1  O 2


x k 1 , x k 1
 1
k 1




(2.5.12)
Se deduce de (2.5.11) que

 
xk  xk , xk
1/ 2
 1
113
k

( c1  O 2

 1
k

)


(2.5.13)

y, por lo tanto, la k-ésima aproximación del eigenvector e1 se calcula como





e1  k  x k / x k   sign  1  k  sign c1  e1  O 2
 1
k




(2.5.14)
Así pues, debido a las condiciones (2.5.3), el proceso iterativo (2.5.6) permite hallar el eigenvalor

dominante  1 (de modulo máximo), y el eigenvector asociado e1 . El error de la k-ésima

aproximación a  1 y e1 se determina por medio de las fórmulas (2.5.12) y (2.5.14), respectivamente.
Se deduce de (2.5.8), (2.5.12) y (2.5.14) que la velocidad de convergencia del proceso iterativo
depende del valor de  2 /  1 y, por lo tanto, es rápida si dicho valor es pequeño y es lenta si él es
sólo un poco menor que uno.
 1  1 , entonces, según (2.5.13),
Observación 2.5.1. Si
 1  1 , entonces

x k   cuando k   . Y si

x k  0 cuando k   . Al realizar los cálculos con una computadora, ambos
casos son indeseables. En efecto, en el primer caso puede ocurrir que rebase el límite admisible y,

como resultado, se interrumpa el cálculo. En el segundo caso, la norma x k puede convertirse en cero
de máquina, y provocar la perdida de información. Para evitar ambas situaciones, es conveniente
realizar las iteraciones mediante las fórmulas modificadas, pero equivalentes:

 e1  0


 x0 / x0 ,


x k  A  e1  k 1 ,
 
( 1 ) k  x k ,  e1  k 1 ,

 e1  k


 xk / xk
(2.5.15)
El algoritmo (2.5.15) ya no tiene los referidos defectos y proporciona el mismo resultado que las
iteraciones (2.5.6), (2.5.12) y (2.5.14). ■
114
Observación 2.5.2. Es poco probable que inicialmente c1  0 , es decir, no se cumple la
condición (2.5.5). Pero si sucede, entonces, a expensas de los errores de redondeo, después de unas k


iteraciones aparecerá la componente no nula del vector x k que corresponde al eigenvector e1 . ■
Observación 2.5.3. Sea Pn ( t )  a0  a1 t  a2 t 2  an t n un polinomio algebraico de grado
n, y sea A y B dos matrices, además, B  Pn ( A)  a0 E  a1 A  a2 A 2  an A n , donde E es matriz
unidad, entonces
 i (B)  Pn ( i ( A))
(2.5.16)
donde  i ( A) y  i (B) son eigenvalores de las matrices A y B, respectivamente. ■
Observación 2.5.4. Si todas las desigualdades (2.5.3) de una matriz cuadrada A son estrictas,
entonces el método de las potencias permite calcular todos los eigenvalores (y eigenvectores) de la

matriz A. Con este fin, se usa el método de reducción de la dimensión de A. Sean 1 y e1 el
eigenvalor y el eigenvector correspondiente calculados por el método de las potencias, y sea S una

matriz no singular tal que su primera columna es e1 . Se puede demostrar que

S 1 AS   1
0
 
An1 
donde An1 de dimensión n  1 tiene los eigenvalores 2 ,..., n (los mismos que A). Aplicando
repetidamente el método de reducción, se puede encontrar otros eigenvalores, ya trabajando con la
matriz An1 .

Otro método se llama el proceso de deflación. Supongamos que 1 y e1 ya calculamos, y
1  2  3 
 n . Entonces se puede encontrar
115
2 y e2 aplicando el método de las
potencias a la matriz nueva B  A  1e1e1T con e1T e1  1 , luego 3 y e3 , etcétera. En efecto, la
matriz B satisface la ecuación Aei  i ei
 i  2,..., n  . Sin embargo, hay que tomar en cuenta
que este método sufre de cualquier imprecisión en el eigenvector e1 , lo que produce cada vez la
matriz B todavía más degradada. ■
Consideramos ahora algunos ejemplos de la aplicación del método iterativo (2.5.15).
Ejemplo 2.5.1. Aplicaremos el proceso iterativo (2.5.15) en el caso cuando
.
 2 0.5 15

A   0.5 0
1  , y
15
.
1
1 
1

x 0  1
1
Después de 85 iteraciones tenemos   1  85  2.624016 , y
 1.000000 

 e1  85   0.036666 
0.403788
La convergencia de iteraciones es muy lenta, debido a que los eigenvalores exactos de la matriz A son
 1  2.624015 ,  2  2.189657 ,  3  0.565641 , y, por lo tanto, la razón  2 /  1 está cerca de
uno. ■
Ejemplo 2.5.2. Aplicaremos el proceso iterativo (2.5.15) en el caso cuando
3 1 2 
A   4 1 6 , y
 1 0 1 
1

x 0  1 .
1
Ya después de seis iteraciones obtenemos   1  6  11.344810 , y
116
 0.445042

 e1  6   0.801938
 1.000000 
La convergencia de iteraciones es rápida debido a que los eigenvalores exactos de la matriz A son
,  2  0515730
,
 1  11344810
.
.
, y, por consiguiente, la razón  2 /  1
 3  0170914
.
es
pequeño. ■
Ejemplo 2.5.3.
Calculemos límites espectrales de una matriz simétrica A, es decir, el
eigenvalor máximo  ( A)  max  i ( A) , y eigenvalor mínimo  ( A)  min  i ( A) . Utilizando el
i
i
método iterativo (2.5.15), se puede encontrar el eigenvalor de A máximo según el módulo,  ( A) . De
la misma manera, se puede calcular el eigenvalor máximo según el módulo,  ( B ) , de otra matriz
simétrica B  A   ( A) E . Consideremos dos opciones que existen:
1. Si  ( A)  0 , entonces  ( A)   ( A) . Además, de acuerdo con (2.5.16), tenemos que
 i ( B)   i ( A)   ( A)  0
para cada i. Por eso,
 ( B)  min  i ( A)   ( A) ,
i
es decir,
 ( A)   ( B )   ( A) .
 ( A)  0 , entonces  ( A)   ( A) . Por lo tanto,  ( B )  max  i ( A)   ( A) , y
2. Si
i
 ( B)  
 ( A) . ■
de nuevo,  ( A)  
Observación 2.5.5. Si la matriz simétrica A tiene dos eigenvalores reales de módulo máximo
( 1  2  max i ), pero de signos opuestos, entonces para distintos vectores iniciales (2.5.4), las
i
aproximaciones sucesivas
( 1 ) k del proceso iterativo (2.5.15) pueden converger hacia números
diferentes. A fin de evitar esta situación es necesario desplazar el espectro de la matriz, es decir,
117
aplicar el método del ejemplo 2.5.1 a una matriz nueva A  A  cE , donde c es un número no nulo.
■
Observación 2.5.6. Si la matriz A tiene eigenvalores múltiples de módulo máximo, entonces
para distintos vectores iniciales (2.5.4), las aproximaciones sucesivas ( 1 ) k del proceso iterativo
(2.5.15) convergen hacia un mismo número, pero los eigenvectores

 e1  k
convergen a vectores no
colineales. En particular, el caso de dos eigenvalores complejo conjugados ( 1  2  max i
y
i
1  2 ) se considera en Faddeev y Faddeeva (1963). ■
Ejemplo 2.5.4. Obtenemos la distancia   min  i ( A)   0 entre un punto dado  0 y el
i
próximo eigenvalor más cercano de una matriz simétrica A. Este problema surge al estudiar los
fenómenos del tipo de resonancia. Examinemos el caso que representa el mayor interés:  0 pertenece
al espectro de A:
 ( A)  min  i ( A)   0   ( A)  max  i ( A)
i
i
Sea l  max 0   ( A),  ( A)   0  . Demostremos que
  l 1   ( B)
donde B  E 
(2.5.17)
1
2
A   0 E  es simétrica, y, en virtud de (2.5.16),
2 
l
 i ( B)  1 
1
2
 ( A)   0   0
2  i
l
para cada i. Se deduce que
 ( B)  1 

1 
 ( A)   0
l2

2
 1
2
l2
donde  ( A) es el eigenvalor de A, inmediato a  0 , es decir, la expresión (2.5.17) es justa. ■
118
Ejemplo 2.5.5.
Calculemos la 2-norma de una matriz A, y de su inversa A 1 . El
conocimiento de ambas normas es a menudo indispensable para optimizar un algoritmo numérico, o
realizar varias estimaciones teóricas de su estabilidad y/o convergencia. Las siguientes relaciones son
válidas:
2
A   ( A A)  ˆ ( A A) ,
2

(2.5.18)

1
A1   ( A A) .
(2.5.19)
En particular, según (2.5.7), el número de condición de A es
 ( A)  A  A1   ( A A) /  ( A A)
1/ 2
.■
(2.5.20)
Ejercicios:
1. Sea Pn ( t )  a0  a1 t  a2 t 2  an t n un polinomio algebraico de grado n, y sea A y B dos
matrices; además, B  Pn ( A)  a0 E  a1 A  a2 A 2  an A n , donde E es matriz unidad. Demuestre
que  i (B)  Pn ( i ( A)) , donde  i ( A) y  i (B) son eigenvalores de A y B, respectivamente.
2. Demuestre que una matriz A es no singular si aii a jj   aik
k i
a
k j
jk
para todos i  j .
3. Una matriz tridiagonal
0 
 b1 c1 0
a   0 

J  2
 0   c n 1 


 0 0 a n bn 
del orden n se llama matriz de Jacobi si ai ci 1  0 para i=2,…,n. Demuestre que para cada matriz
de Jacobi J existe una matriz diagonal no singular D  diag{ d1 ,..., d n } tal que DJD1 es
c
simétrica. [ d i2  d i21 i 1 , i=2,…,n , donde d1  0 es arbitrario].
ai
4. Una matriz n  n , T  tij  se llama matriz de Toeplitz si cada diagonal contiene elementos
iguales: t ij   i  j , i,j=1,…,n. Por ejemplo,
119
  0  0 
     


A  0    0


     
 0  0   
es matriz simétrica tridiagonal de Toeplitz, es decir, la matriz de Jacobi. Demuestre que A tiene
 πj 

eigenvalores  j    2 cos
 y los eigenvectores correspondientes v j con componentes
 n 1
2
 πjk 
v j ,k 
sin 
 , j=1,…,n. Se deduce que dos matrices simétricas tridiagonales de
n 1  n 1
Toeplitz del orden n tienen los mismos eigenvectores y, por lo tanto, son conmutativas.
5. Prepare un programa de cómputo para el método de potencia (2.5.15). Pruebe este programa usando
las matrices de los ejemplos 2.5.1 y 2.5.2.
120
2.6. Estimación de eigenvalores
Para las matrices normales existe una dependencia continua de sus eigenvalores respecto a
perturbaciones pequeñas de sus elementos. Por ejemplo, se cumple tanto la estimación
max  i ( A)   i ( B)  A  B 2 ,
(2.6.1)
i
como la desigualdad de Wielandt-Hoffman
n
  ( A)   ( B)
i
i 1
i
2
 A B
2
F
.
(2.6.2)
En las desigualdades (2.6.1) y (2.6.2) figuran la norma espectral (1.7.3) y la norma de Frobenius
(1.7.1), respectivamente. Además, es valida la afirmación siguiente.
Teorema 2.6.1 (de Wielandt-Hoffman). Sean A, B y C matrices normales del orden n, y
A  C  B . Sean  i ,  i y  i eigenvalores de A, B y C, respectivamente, numerados de la manera
siguiente:  i   i 1 ,
 i   i 1 , y
 i   i 1 . Entonces
n
 i   i
i 1
2
n
  i . ■
2
(2.6.3)
i 1
Ejemplo 2.6.1. Los resultados de Wielandt-Hoffman son válidos para las matrices normales.
Consideremos ahora una matriz no normal
3 
1 2
A   0 4
5 
 0 0 4.001
121
y demostremos que en este caso, ya no hay dependencia continua de los eigenvalores de la matriz A
con respecto a una perturbación pequeña en sus elementos. Ya que A es triangular, tiene eigenvalores
 ( A)  1, 4, 4.001 . Consideremos una matriz perturbada
A  A , donde
0 0
 0

A   0
0 0 .
0.001 0 0
.
, 4.0582, 3.9427 , es decir, una perturbación de 0.001
Sus eigenvalores ya son  ( A  A)  10001
en el elemento matricial a31 de la matriz A causa un error de 0.1 en su tercer eigenvalor. ■
También notemos que bajo una perturbación infinitesimal de sus elementos, una matriz
defectuosa se convierte en una matriz no singular. En otras palabras, las matrices defectuosas tienen la
medida nula en el espacio de todas las matrices. La celda de Jordan es un ejemplo típico. En efecto, el
siguiente ejemplo demuestra que los eigenvalores y eigenvectores de una celda de Jordan pueden
cambiarse drásticamente bajo una perturbación infinitesimal de los elementos de la celda.
Ejemplo 2.6.2. Caso 1. En primer lugar, consideremos una familia de matrices cuadradas del
segundo orden A( ) que depende de un parámetro  :
0 1
A( )  

 0
Si   1 entonces la matriz A(1) es simétrica, y si   0 entonces la matriz A(0) es la celda de
Jordan. Consideremos ahora el caso cuando 0  
1 . Los eigenvalores de la matriz A( ) son
1,2 ( )    , mientras que los eigenvectores correspondientes son
122
 1 
 1 
u1    y u2  

 
  
En el límite, cuando   0 , la celda de Jordan A(0) tiene dos eigenvalores iguales a cero:
1 (0)  2 (0)  0 , y solo un eigenvector, debido a que los dos eigenvectores u1 y u2 convergen a
1 
solo un eigenvector u1    .
0 
Caso 2. Sea

0


J ( )  

0

0
1

0
1
0
0
1
0
0
0
0

0
0
0 


0
1


celda de Jordan de orden n . Tiene sólo un eigenvalor  de multiplicidad n . Sin embargo, tiene sólo
un eigenvector correspondiente, ya que J () x   x , o bien, {J ()  }x  0 . Se puede reescribir la
última ecuación como

0




0

0
1

0
1
0
0
1
0
0

0
0
0
0   x1  0 
0   x2  0 
  

 

0   xn  2  0 
1   xn 1  0 
  

   xn  0 
Las primeras n  1 ecuaciones muestran que x2  0,..., xn  0 y, por lo tanto, existe solo un
eigenvector normalizado a uno: x  {1,0,0,...,0} . ■
123
Ejemplo 2.6.3. Sea
0 1 0  0 0
0 0 1  0 0


     
A( )  

    1 0 
0 0 0  0 1


 0 0  0 0
(2.6.4)
la matriz cuadrada 10  10 . Cuando   0 , la matriz (2.6.4) es celda de Jordan. Consideremos el
problema espectral:


A( )u  u . Es evidente que tanto eigenvector

u  (u1 , u2 ,, u10 ) , como
eigenvalor  de la matriz A( ) dependen del valor de  . En efecto, es evidente que
u2  u1 , u3  u2 ,, u10  u9 , u1  u10 . Por eso, u1  u10  2 u9  3 u8   10 u1 ,
es
decir, 10   , y, por lo tanto,   10  . Así,

1) si   0 , entonces   0 y u  (1, 0,, 0) .

. y u  (1, 10 1 , 10 2 ,, 10 9 ) .
2) si   10 10 , entonces   01
En resumen, la perturbación muy pequeña  de la celda de Jordan A( 0) causa cambios drásticos en
la solución del problema espectral. ■
En lo que sigue, formulemos varios teoremas que pueden ser útiles para localizar eigenvalores
de una matriz.
  una matriz compleja n  n . Entonces
Teorema 2.6.2 (Criterio de Gershgorin). Sea A  a ij
todos sus eigenvalores se encuentran en la unión Gn (A) de n círculos
z  a kk  Rk , donde Rk 
124
n
a
j 1, j  k
kj
( k  1,2 ,...,n ).
(2.6.6)
Si la unión Gm ( A) de unos m círculos ( m  n ) están aislados de otros, entonces esta unión contiene
exactamente m eigenvalores. ■



Demostración. Supongamos que Au  u y u

uk  u



T
 1 , y para u  u1 , u 2 ,...,u n  escogemos j tal que
 1 . Entonces
  akk  (  akk ) uk 
n
 akj u j 
j 1, j  k
n
a
j 1, j  k
kj
 Rk .
Ya que no sabemos el número concreto k para el eigenvalor  , sólo podemos declarar que 
pertenece a la unión de los circulos (2.6.6).
Para
demostrar
D  diag  a11, a22 ,..., ann  ,
la
segunda
y
parte
del
teorema,
designamos
A  D  B,
donde
A(t )  D  t B . Notemos que A(0)  D , A(1)  D  B  A , y
Rk (t )  Rk (t B)  t Rk . Es conveniente suponer que los primeros m círculos ( m  n ) están aislada de
otros y forman el dominio Gm ( A) . Por la continuidad, para cada t  `0,1 , la unión Gm ( A(t )) de los
priméros m círculos pertenece al dominio Gm ( A)  Gm ( A(1)) . Además, el dominio complementario
(la unión de restos n  m círculos) Gnm ( A(t ))  Gn ( A(t )) \ Gm ( A(t )) está aislado de Gm ( A) para
cada t. Consideremos eigenvalores k ( A(t )) , k  1,2,...,m . Debido a que los eigenvalores de una
matriz dependen continuamente de sus elementos, cada eigenvalor k ( A(0))  k ( D)  akk , está
conectado con cierto eigenvalor k ( A(1))  k ( A) por una curva continua formada por los
eigenvalores k ( A(t )), 0  t  1 y localizada totalmente en Gm ( A) . Los restos n  m eigenvalores
pertenecen al dominio complementario Gnm ( A)  Gn ( A) \ Gm ( A) . ■
125
Ya que A y AT tienen los mismos eigenvalores, entonces, según el teorema 2.6.2, todos los
eigenvalores también pertenecen a la unión de los círculos de Gershgorin
z  akk  Rk , donde Rk 
n

j 1, j  k
a jk
( k  1, 2,...,n ).
(2.6.7)
Como resultado, todos los eigenvalores de la matriz A pertenecen a la intersección de dos grupos de
círculos (2.6.6) y (2.6.7).
Ejemplo 2.6.4. Según el teorema 2.6.2, los eigenvalores de la matriz
 1 10 4 
A   4

2 
10
pertenecen a dos intervalos [1  10 4 ,1  10 4 ] y [2  10 4 , 2  10 4 ] . Sin embargo, en realidad, los
eigenvalores de A son 1,2  1.5  0.5 10 8 y, por lo tanto, pertenecen a la unión de los intervalos
mucho más pequeños:
[1  2  108 ,1  2  108 ] y [2  2  10 8 , 2  2  10 8 ] . ■
Este ejemplo muestra que el teorema de Gershgorin, a pesar de que se aplica a cualquier
matriz, proporciona sólo estimaciones aproximadas de los eigenvalores.
Ejemplo 2.6.5. Consideremos un proceso iterativo xk  Bxk 1  d , con la matriz
 8 2 4 
1 
B   1 4 2 
16
 2 2 10 
126
Según el teorema de Gershgorin todos los eigenvalores pertenecen a la unión de tres círculos:
z  5 / 8  1 / 4 . Se deduce que el módulo de cada
z  1 / 4  3 / 16 , y
z  1/ 2  3 / 8 ,
eigenvalor es menor que uno, y por lo tanto, el proceso iterativo converge para cualquier vector
inicial. ■
Fig. 2.6.1. Círculos de Gershgorin para el ejemplo 2.6.5.
Teorema 2.6.3 (de Schur). Sea A una matriz de n  n , sea A
F
su norma de Frobenius y sean
 1 ,,  n sus eigenvalores. Si H  12 ( A  A ) y C  12 ( A  A  ) , entonces
n
 i
i 1
2
 A
2
F
n
,
 Re(i )  H
2
i 1
2
, y
F
n
 Im(
)  C
2
i
i 1
2
F
(2.6.8)
Las igualdades en (2.6.8) tienen lugar si y sólo si A es una matriz normal. ■
Demostración. Existe tal matriz unitaria U que A  U  RU , donde R es una matriz triangular
superior, y eigenvalores  i de A son elementos diagonales de R. Ya que la norma de Frobenius
A
F
es invariable respecto a cualquier transformación unitaria, tenemos
elementos de R por rij , obtenemos
127
A
F
 R F . Denotando los
AF  R
2
2
F
n
n
  i   rij   i .
2
2
i 1
i j
2
(2.6.9)
i 1
Usando la igualdad H  12 U  ( R  R  )U , obtenemos
H
2
F

1
2
( R  R )
2
F
n
n
  12 (i  i )   12 (rij  rij )   Re i .
2
2
i 1
i j
2
(2.6.10)
i 1
Análogamente se prueba la última desigualdad (2.6.8) usando la fórmula C  12 U  ( R  R )U .
La igualdad en (2.6.9) y (2.6.10) es posible sólo si R es diagonal. Entonces A  U  RU es
normal, debido al teorema 2.2.3. Por el contrario, si A es normal entonces, según el teorema 2.2.3, R
es diagonal, y (2.6.8) son igualdades. ■
Corolario 2.6.1 (Teorema de Hirsch). Sea  un eigenvalor de una matriz A , y sean
  max aij ,   max hij ,   max cij ,
i, j
i, j
(2.6.11)
i, j
donde aij , hij y cij son elementos de las matrices A, H y C del teorema 2.6.3. Entonces
  n ,
Ejemplo 2.6.6.
Re   n ,
Im   n .
(2.6.12)
Sean A y B dos matrices, además, A es diagonalizable: A  VV 1 y
  diag 1 , 2 ,..., n  donde i son eigenvalores de A. Sea  un eigenvalor de la matriz A  B .
Demostramos ahora que existe un eigenvalor i de A tal que
  i  V
donde B


V 1

B

   (V ) B  .
(2.6.13)
es la norma (1.7.6). En efecto, según el Criterio de Gershgorin, los eigenvalores de una
matriz   C están dentro de los círculos
z  k  ckk 
128
n
c
j 1, j  k
kj
que pertenecen a los círculos
n
z  k   ckj  C  .
j 1
Por lo tanto, si  es un eigenvalor de   C entonces
  k  C  .
Ahora notemos que las matrices A  B
(2.6.14)
V 1 ( A  B)V    V 1BV
y
tienen los mismos
eigenvalores y, según (2.6.14), tenemos
  i  V 1BV

V

V 1

B

   (V ) B  . ■
Por último, estimamos los valores propios de una matriz tridiagonal hermitiana.
Teorema 2.6.4. Sea A una matriz tridiagonal hermitiana:
0
 a1 c2  0
c a  0
0 
2
 2
A      


 0 0  an1 cn 
 0 0  cn an 
Entonces
i  max  ci  ai  ci1 , c1  cn1  0 .
1in
Demostración. Según la definición de la norma, tenemos
A   max  ci  ai  ci 1
1i  n


 
y de la ecuación A x  i x , x  0 , tenemos

i x


 i x


 Ax
es decir, i  A  . ■
129


 A x

,
(2.6.13)
Ejercicios:
1. Usando el teorema de Gershgorin demuestre que una matriz simétrica y estrictamente diagonal
dominante con los elementos diagonales positivos, es definida positiva.
2. Encuentre los círculos de Gershgorin para la matriz
1
0
i 
 0
 1
6
1
1  .

i / 2 i
1
1 


 0 1 / 2 1 / 2  2
dx
 Ax . Demuestre que la solución x es etable con respecto a
dt
perturbaciones iniciales si todos los círculos de Gershgorin pertenecen al semiplano izquierdo
( Re   0 ).
3. Considere la ecuación
4. Sea A  aij  una matriz cuadrada. Demuestre que si para algún i y para todos los k  i se cumplen
las desigualdades
akk  aii   akj   aij , entonces el círculo de Gershgorin es z  aii  Ri
j k
j i
(véase el teorema 2.6.2) contiene sólo un eigenvalor.
5. (Teorema de Brauer). Demuestre que cualquier eigenvalor de una matriz A se encuentra por lo
menos en uno de los dominios (óvalos de Cassini)
z  aii z  a jj   aik
k i
a
k j
jk
para toda i  j .
6. Demuestre que una matriz cuadrada A  aij  es invertible si aii a jj   aik
k i
a
k j
jk
.
7. Es preciso señalar que la inestabilidad de los eigenvalores no está necesariamente relacionada con
la existencia de eigenvalores multiples y menos con la existencia de celdas de Jordan de dimensión
2 o más (como en el caso de la matriz A(0) en el ejemplo 2.6.2). En efecto, consideremos la matriz
20 20 0 0 0 0 
 0 19 20 0 0 0 


 0 0 18 20 0 0 
A( )  

0 0 0   0
 0 0 0  2 20 


0 0  0 1 
 
La matriz A(0) es triangular con sólo dos diagonales no nulos. Sus eigenvalores que coinciden con
los elementos diagonales, están bien separados, y no hay ningunas razones para esperar
inestabilidad. Sin embargo, demuestre que la variación en el término libre del polinomio
130
característico de A( ) es 2019  si   0 . Ya que el producto de eigenvalores coincide con el
término libre, los eigenvalores tienen que cambiar fuertemente.
8. La matriz
1 1 0 0
1 1 0 0

A
0 0 1 0 


0 0 0 1 
tiene eigenvalores  ( A)   0,1,1, 2 . Demuestre que la matriz
1 1   
1 1 0 0 
,
A  
 0 1 0 


 0 0 1 
donde 0    1 , tiene eigenvalores  ( A )  1  (1  2 2 )1/ 2 , 1, 1, 1  (1  2 2 )1/ 2 .
9. Demuestre que una matriz cuadrada A  aij  es invertible si aii a jj   aik
k i
131
a
k j
jk
.
2.7. Problemas al capítulo 2
1. Demuestre que dos matrices muy cercanas
5 7 6 5 
7 10 8 7 

A
6 8 10 9 


5 7 9 10 
5.1 7 6 5 
 7 10 8 7 

A  A  
 6 8 10 9 


 5 7 9 10 
y
tienen polinomios característicos distintos,
4  353  1462  100  1
4  35.13 1492 110.6  7.8 ,
y
y por lo tanto, eigenvalores distintos (con precisión de tres dígitos en la mantisa):
1, 2,3, 4  0.010, 0.843, 3.858, 30.289
y
1, 2,3, 4  0.079, 0.844, 3.874, 30.303 .
 
2. Sea A  a jk una matriz cuadrada de dimensión n, tal que

n
j 1
aij  1 para cada i
( i  1,..., n) . Demuestre que   ( A)    ( DA) para cualquier matriz diagonal D.
3. Demuestre que  2 ( A)  max  i ( A) / min  i ( A) para cualquier matriz normal.
i
i
1
4. Sea A una matriz no singular. Demuestre que  ( A)  A
1
min B donde el
B
valor mínimo se busca sobre todas las matrices B tales que A+B es singular, es decir,
det( A  B)  0 . Así, una matriz no singular A es cerca de una matriz singular si su
número de condición  (A) es grande.
5. Sea
  una norma matricial definida con cinco axiomas. Demuestre que para
cualquier matriz
A,
  ( A)  max  i ( A) / min  i ( A) donde i (A) es un
i
eigenvalor de A .
132
i
6. Designamos por Ak la matriz k  k formada por la intersección de las primeras k filas
y columnas de la matriz A . Sea A una matriz hermitiana y definida positiva.
Demuestre que  2 ( Ak )   2 ( A) para cada k (k  1, 2,..., n) .
7. En muchos casos, la consideración de ambas matrices (A y A T ) permite mejorar las
estimaciones. Demuestre que cualquier eigenvalor de una matriz A se encuentra por
lo menos en uno de los dominios

z  aii z  a jj    aik
 k i

a jk 

k j



  a ki

 k i

a kj 

k j

1
para todos los i  j si 0    1 .
8. Sea A una matriz diagonalizable n  n con eigenvalores 1 , 2 ,..., n , sea B una matriz
n  n , y  un eigenvalor de la matriz A  B . Demuestre que
min   k   p (C) B p ,
1 k  n
donde C es una matriz no singular tal que C 1 AC es diagonal y p  1,2,  .
9. Encuentre el lugar de la curva cuadrática x12  4 x22  x1  4 x2 en la clasificación.
10. Sea P(x) un polinomio. Demuestre que para dos matrices semejantes A y B , las
matrices P(A) y P(B) también son semejantes.
11. Sea Q una matriz ortogonal. Sea  su eigenvalor tal que   1 , pero   1 .
Suponiendo que x  iy donde x y y son vectores reales, demuestre que x es
ortogonal a y .
133
12. Sean A y B dos matrices simétricas y A  0 (semidefinida positiva). Demuestre que
todos los eigenvalores de la matriz AB son números reales.
13. Sean A y B dos matrices simétricas. Demuestre que todos los eigenvalores de la
matriz AB  BA son números puros imaginarios.
14. Sea x , Ax  x , Bx para cualquier vector x . ¿Se deduce de aquí que A  B ?
15. Demuestre que  AT   A ,
 AB 
16. Demuestre que  A*   A ,
 AB 
T
*
17. Demuestre que ( A1 A2
T
An )*  An*
*
 BT AT ,
 A  B
T
 AT  BT ,
A  A 
n T
T
n
.
 B* A* .
A2* A1* .
18. Sea B una matriz simétrica. Demuestre que la matriz AT BA es simétrica.
19. Sea A  iB una matriz hermitiana, donde A y B son matrices reales. Demuestre que
AT  A y BT   B .
20. Sea Q una matriz ortogonal. Demuestre que la matriz traspuesta Q T también es
ortogonal.
21. Sea A una matriz normal y todos sus números características son reales. Demuestre
que la matriz A es hermitiana y se reduce a la forma diagonal con una transformada
unitaria.
22. Demuestre que det A  det AT .
23. Demuestre que Ax, By  x, AT By .
134
24. ¿Bajo qué condiciones Ax , x  0 para todos los vectores x ?
25. Demuestre que si AX  XA para cualquier matriz X entonces A es una matriz
escalar: A  aE .
26. Sean A y B dos matrices triangulares superiores. Demuestre que AB es del mismo
tipo, sin embargo en general AB  BA .
cos 
27. Sea T ( )  
 sen
sen 
. Demuestre que T (1 ) T (2 )  T (2 )T (1 )  T (1  2 ) .
cos  
28. Demuestre que
2
 n

Ax , Ax     aij x j  .
i 1  j 1

n
29. Sea A una matriz real simétrica. Demuestre que la matriz E   A es definida
positiva si  es bastante pequeño.
30. Demuestre que la suposición de la existencia de N diferentes números característicos
se puede sustituir por el requisito de la existencia N eigenvectores linealmente
independientes.
31. Sea A una matriz normal y todos sus números característicos son reales. Demuestre
que la matriz A es hermitiana y se reduce a la forma diagonal con una transformada
unitaria.
32. Encuentre una condición necesaria y suficiente que garantiza que cada solución de la
ecuación x(n 1)  Ax(n) tiende a cero cuando n   .
135
33. Demuestre que los eigenvectores de una matriz A son los eigenvectores de la matriz
p( A) para cualquier polinomio p( x) .
34. Sea A una matriz no singular. Demuestre que existe una matriz triangular T tal que
la matriz TA es unitaria.
35. Sean AiT  Ai
m
y
 A  E . Entonces las condiciones siguientes son equivalentes:
i 1
i
a) cada matriz Ai es idempotente;
b) Ai Aj  0 si i  j .
36. Demuestre que i ( A)  i ( AT )
37. Sea Q una matriz ortogonal, y sea U una matriz unitaria. Demuestre que
i ( A)  i (QT AQ) y i ( A)  i (U * AU ) .
38. Sean
A
y
B
dos matrices cuadradas de orden dos. Demuestre que
i ( A)  i ( B)  i ( A  B) y i ( A)  i ( B)  i ( AB) .
39. Sea A una matriz m  n , y sea B   B1 B2
Demuestre que AB   AB1 AB2
Bn  una matriz particionada n  p .
ABn  .
40. De condiciones necesarias y suficientes para una matriz triangular superior para ser
invertible.
136
Capítulo 3. Métodos directos para sistemas lineales
Todos los métodos desarrollados para resolver un sistema de ecuaciones algebraicas lineales se
dividen en dos grupos. Al primer grupo pertenecen los métodos exactos (o directos), es decir, los
algoritmos que permiten obtener la solución de un sistema lineal en un número finito de
operaciones aritméticas. Aquí figuran la conocida regla de Cramer para calcular la solución por
medio de determinantes, el método de eliminación de Gauss, y otros métodos basados en la
factorización LU (Rutishauser, 1958) o la factorización QR (Francis, 1961; Kublanovskaya, 1961)
de la matriz del sistema. Para matrices bandas (que tienen valores no nulos sólo en un entorno de la
diagonal principal) y definidas positivas se recomiendan los métodos especiales. Entre los métodos
de este grupo, el método de factorización de Thomas (1949) para una matriz tridiagonal, ocupa un
lugar especial.
La regla de Cramer es una fórmula explícita para hallar la solución x  ( x1 , x2 ,..., xn ) de un
 
sistema de ecuaciones lineales Ax  b con una matriz cuadrada A no singular de orden n (Cramer,
1750):
xi  det( Ai ) / det( A) , i  1, 2,..., n
donde Ai es la matriz obtenida mediante la sustitución de la i-ésima columna de A por el vector
b . Cabe señalar que a pesar de su gran importancia teórica, la regla de Cramer no se usa en las
computadoras, ya que requiere un número de operaciones aritméticas mucho mayor que el método
de Gauss. Sin embargo, se puede utilizar el método de Cramer para hallar sólo una componente xi
del vector desconocido, sin tener que resolver todo el sistema de ecuaciones.
137
No es posible elaborar un método directo para cada tarea. Por ejemplo, utilizando un
número finito de operaciones aritméticas no se puede resolver la ecuación x2  2 . Si la extracción
de la raíz se asume como operación elemental, entonces el método directo ya existe, pero gracias al
teorema de Abel-Ruffini, sabemos que aun en este caso, no pueden resolverse por radicales las
ecuaciones polinómicas generales de grado igual o superior a cinco.
Para sistemas lineales, métodos directos existen. Normalmente, dichos métodos se emplean
para resolver un sistema lineal si el orden n de la matriz no es demasiado grande (por ejemplo, es
menor que cien mil). Y si el orden n es muy grande se usan los métodos aproximados (iterativos)
como más efectivos y económicos. En este capítulo, estudiamos los métodos directos, mientras
algunos métodos iterativos se considerarán en el capítulo 4 (el método de Jacobi o iteraciones
simples, el método de Gauss-Seidel, el método de SOR y métodos de minimización). Para un
estudio más profundo de los métodos de ambos grupos se recomiendan los trabajos de Kunz
(1957), Faddeev y Faddeeva (1963), Fox (1964), Wilkinson (1965), Gantmacher (1966), Forsythe
et al. (1977), Lawson y Hanson (1974), Hageman y Young (1981), Marchuk (1982), Rutishauser
(1990), Golub y Ortega (1992), Stoer y Bulirsch (1993), y Ciarlet (1995), Myron y Isaacson (1998).
Varios problemas se presentan en los apartados 3.10 y 4.7.
3.1. Factorización LU
Todos los métodos directos (exactos) para resolver sistemas de ecuaciones algebraicas lineales
 
Ax  b están basados en una factorización de la matriz A como el producto de dos matrices que
tienen una estructura más simple. Es particularmente útil la factorización A  LU , donde L es una
matriz triangular inferior, y U es una matriz triangular superior. Empezaremos a estudiar dicha
138
factorización con el teorema LU (Parlett, 1980). Las condiciones de este teorema garantizan la
existencia de la factorización LU y la posibilidad de presentar el problema original
 
Ax  b
(3.1.1)


L(U x )  b
(3.1.2)
como
Por lo tanto, la solución del sistema (3.1.1) se reduce a la solución sucesiva de los dos sistemas
lineales triangulares:
 
Ly  b
 
y Ux  y
(3.1.3)
Ya que tanto L como U son matrices triangulares, cada uno de los sistemas (3.1.3) se resuelve
fácil y exactamente usando la sustitución hacia adelante o la sustitución hacia atrás (véase, por
ejemplo, las fórmulas (2.4.6) y (2.4.7)) y requiere solo O(n2 ) operaciones. Por otra parte, el
algoritmo (3.1.3) además se puede utilizar como un método económico para resolver cualquier otro
sistema lineal Ax  d con la misma matriz, pero con un vector distinto. Sin embargo, hay que
mencionar que en general, la factorización LU es la más lenta parte en el proceso de solución del
sistema (3.1.1).
Definición 3.1.1. Designamos por Ak la matriz k  k formada por la intersección de las
primeras k filas y columnas de la matriz A . Si det Ak   0 para todo k (k  1, 2,..., n ) , la matriz A
se llama estrictamente regular.
139
Definición 3.1.2. Una matriz se llama unitriangular (superior o inferior) si es la matriz
triangular (superior o inferior) en la que todos los elementos de la diagonal principal son iguales a
uno.
Teorema 3.1.1 (teorema LU ). Sea A una matriz estrictamente regular n  n . Entonces
existe sólo una matriz unitriangular inferior L   lij  y sólo una matriz triangular superior
U  uij  tal que
A  LU
Demostración.
(3.1.4)
Usamos la inducción matemática con n. Para n  1 , la factorización l11  1,
u11  a11 es única. Supongamos que el teorema es válido para n  k  1 , es decir, Lk 1U k 1  Ak 1 .
Entonces, para n  k , presentamos Lk , U k y Ak de la forma siguiente:

 Ak 1 r 
,
Ak    T
akk 
p
L
Lk   kT1
l

0
 ,
1

U k 1 u 

Uk   T
u kk 
0
(3.1.5)

  
donde p , r , l y u son vectores columnas con k  1 componentes cada uno. Si identificamos el
producto LkU k con la matriz Ak entonces obtenemos las cuatro ecuaciones:
Lk 1U k 1  Ak 1 ,
 
Lk 1u  r ,


l TU k 1  pT ,
 
l T u  u kk  a kk
(3.1.6)
Según la hipótesis de la inducción, las matrices Lk 1 y U k 1 están únicamente determinadas y son
no singulares, ya que
det( Lk 1 )  det(U k 1 )  det( Ak 1 )  0
140
(3.1.7)
 
y, por lo tanto, los vectores u y l también están únicamente determinados por el segundo y tercero
sistemas triangulares (3.1.6). Finalmente, el número u kk se determina de la última ecuación (3.1.6).
Entonces, Lk y U k están únicamente determinadas. El teorema queda demostrado. ■
Observación 3.1.1. Se puede dar otra demostración de la unicidad de la factorización LU .
1
1
En efecto, supongamos que LU
1 1  L2U 2 . Entonces L2 L1  U 2U1  D . La matriz D es diagonal,
ya que el producto L21 L1 es una matriz triangular inferior, mientras que el producto U 2U11 es una
matriz triangular superior. Además, el producto L21 L1 de dos matrices unitriangulares es también
unitriangular, es decir, D  E (matriz identidad) y, por lo tanto, L2  L1 y U 2  U1 . ■
Observación 3.1.2. Cuando det Ak   0 para un número k (k  1,2,..., n 1) , la
factorización LU de la matriz A puede no existir como lo muestra el siguiente ejemplo simple. Sea
0 3 
A

3 2
Suponiendo que la factorización A  LU existe, obtenemos
0  u11 u12  l11u11
l11u12
l
 0 3
LU   11


 
 


l21 l22   0 u22  l21u11 l21u12  l22u22  3 2
Como l11u11  0 , hay dos opciones: l11  0 (y, por tanto, la primera fila de la matriz LU es nula), o
u11  0 (y, por tanto, la primera columna de la matriz LU es nula). En ambos casos llegamos a una
contradicción. Entonces, A  LU . Sin embargo, siempre se puede cambiar las filas de la matriz y
presentar el problema original
141
 0 3   x1   b1 
 3 2   x   b 

 2  2
como
 3 2   x1  b2 
0 3   x    b 

 2  1
La matriz del problema modificado ya tiene factorización LU. ■
Corolario 3.1.1. Una matriz A tiene la factorización LU si y sólo si A es estrictamente
regular.
Cálculo de la matriz inversa. En la sección 1.3 ya consideramos un método para el
cálculo de la matriz inversa X  A1 :
Método 1: hay que resolver Ax j  e j para
j  1,..., n , donde x j es la j-ésima columna de
A 1 y e j  (0,...,1,0,...,0) T .
j
Otros dos métodos para hallar X  A1 están basados en el uso de la factorización A  LU
(Higham, 2002).
Método 2: requiere primero calcular U 1 y luego resolver para X la ecuación XL  U 1 .
Notemos que los métodos 1 y 2 son equivalentes en el sentido de que el primer método
resuelve para X la ecuación LUX  E , mientras el segundo método resuelve XLU  E . Por
lo tanto, los dos métodos llevan a cabo operaciones análogas, pero en diferentes órdenes.
Método 3: requiere primero calcular L1 y U 1 , y luego formar A1  U 1  L1 .
La ventaja de este método es que no se necesita ningún espacio de trabajo adicional; L1
y U 1 pueden sobrescribir L y U , y luego pueden ser sobrescritos por su producto.
142
Factorización de Cholesky. La factorización A  LU toma una forma más sencilla
cuando la matriz A es simétrica y definida positiva. Se llama factorización de Cholesky. La
demostración está basada en la afirmación siguiente:
Criterio de Sylvester. Una matriz simétrica A de orden n es definida positiva si y sólo si
det Ak   0 para cada k (k  1, 2,..., n) . ■
Teorema 3.1.2 (Factorización de Cholesky). Si A es una matriz simétrica y definida
positiva, entonces existe sólo una factorización
A  RT R
(3.1.8)
donde R es una matriz triangular superior con todos los elementos positivos en su diagonal
principal.
Demostración. Debido al teorema 3.1.1, la factorización A  LU existe y es única. Notemos que
det( Lk )  1 . Se deducen de aquí las fórmulas
det( Ak )  det( Lk )  det(U k )  det(U k )
(3.1.9)
y
det( Ak )  u kk det( Ak 1 ) .
(3.1.10)
Tomando en consideración (3.1.9), (3.1.10), y el criterio de Sylvester, obtenemos
u11  a11  0 , y
u kk 
det( Ak )
0 ,
det( Ak 1 )
k=2,3,…,n
(3.1.11)
Introduciendo la matriz diagonal definida positiva D  diag u11, u 22 ,, u nn  se puede escribir la
factorización de la forma
A  LU  LDD1U  LDP
143
donde P  D1U . Además, notemos que L y P son matrices triangulares, únicamente determinadas,
y con todos los elementos en sus diagonales principales iguales a uno. Por la simetría de la matriz
A, tenemos A  AT  P T DLT  LDP , o bien, L  PT  U T D1 . Definiendo la matriz R como
R  D1/ 2U , obtenemos
R T R  (U T D 1 / 2 )( D 1 / 2U )  (U T D 1 )U  LU  A
El teorema queda demostrado. ■
Corolario 3.1.2. Los minores det( Ak ) son positivos para todos k si y sólo si ukk  0
(k  1,2,..., n) .
Véase (3.1.11). ■
Corolario 3.1.3. Si A es una matriz estrictamente regular y simétrica ( AT  A ), entonces
existe
la
factorización
A  LDLT
donde
L
es
una
matriz
unitriangular
inferior,
D  diag u11, u 22 ,, u nn  y uii  0 son elementos diagonales de la matriz U en la factorización
A  LU .
En efecto, A  LU  LDD1U  AT  (U T D1 )( DLT ) . Obviamente, la matriz U T D1 es
unitriangular inferior. Debido a la unicidad de la factorización LU, DLT  U . ■
Corolario 3.1.4. Si A es una matriz estrictamente regular y hermitiana ( A*  A ), entonces
existe la factorización
A  LDL*
donde
L
es una matriz unitriangular inferior y
D  diag u11, u 22 ,, u nn  es la matriz diagonal no singular ( uii  0 ).
Ejemplo 3.1.1. Sea
144
 1 1 0 0 0 
 1 2  1 0 0 


A   0 1 2 1 0 


 0 0  1 2  1
 0 0 0  1 2 
Esta matriz es simétrica y definida positiva (según el criterio de Sylvester), y aparece al discretizar
 2
el operador A  a
x2
2
condiciones 1   0
y
en la malla regular x i (i  0,1,...,6) con el tamaño h  a y las
 6  0 en los puntos de la frontera. Según el teorema 3.1.2, la
factorización de A tiene forma A  R T R , donde
1  1 0 0 0 
0 1  1 0 0 


R  0 0 1  1 0  . ■


0 0 0 1  1
0 0 0 0 1 
Ejercicios:
 
1. Demuestre que el sistema Ax  b con la matriz
3 1
2
A   1 2 1 
 1 12 5 
a) no tiene ninguna solución si b  (4, 6,9)T ;
b) tiene un número infinito de soluciones si b  (4, 6,10)T .
2. Sea det Ak   0 para cada k (k  1,2,..., n 1) , pero det A  det An   0 (A es singular).
Demuestre que el resultado del teorema LU sigue siendo válido con la particularidad de que
u nn  0 .
145
3. Sea A una matriz y sea A=LU su factorización LU. Demuestre que la matriz B=UL es
semejante a A, y por lo tanto, sus eigenvalores coinciden con los de la matriz A. [Indirecta:
demuestre que A  LBL1 ].
4. Sea A  R T R la factorización (3.1.8) de una matriz simétrica y definida positiva A. Sea W una
matriz obtenida mediante el cambio del signo de cada elemento Rij de la i-ésima fila de R.
Demuestre que A  W TW . Así, la factorización (3.1.8) no es única. Sin embargo, es única si R
tiene todos los elementos positivos en su diagonal principal.
5. Encuentre la factorización LU de las matrices siguientes:
1 1 0
A  0 1 1 .
1 1 1
1 3 
A
;
2 7 
6. Encuentre la factorización de Cholesky de las matrices siguientes:
 2 1 0 0 
 1 2  1 0 

A
 0  1 2  1 ;


 0 0 1 2 
1 2 3 4 
2 5 1 10 

A
3 1 35 5  .


4 10 5 45
7. Sea A una matriz simétrica, pero no todos sus elementos diagonales son positivos. ¿Cuántas
distintas factorizaciones de Cholesky existen en este caso?
8. Sea L una matriz triangular inferior no singular. Demuestre que la matriz inversa L1 es
triangular inferior. Además, demuestre que si todos los elementos diagonales de L son iguales
a uno (es decir, la matriz L es unitriangular inferior), entonces L1 también es unitriangular.
146
3.2. Eliminación de Gauss
En este apartado estudiamos el método de Gauss (la eliminación gaussiana) que sigue siendo uno
de los más famosos y mejores métodos para resolver un sistema de ecuaciones lineales (Faddeev y
Faddeeva, 1963; Hamilton, 1989; Volkov, 1990; Golub y Ortega, 1992; Ciarlet, 1995; Iserles,
1998).
Un caso particular. Para facilitar la exposición del método de eliminación de Gauss,
examinemos un sistema de cuatro ecuaciones algebraicas lineales
 
Ax  b ,
(3.2.1)
o bien,
4
a
j 1
ij
x j  bi , i=1,2,3,4
Es conveniente introducir nuevas designaciones (Volkov, 1990): aij( 0 )  a ij
(3.2.2)
y bi  ai(50)
donde
i,j=1,2,3,4. Entonces el sistema (3.2.2) se puede escribir como
(0)
(0)
(0)
(0)
(0)
a11
x1  a12
x2  a13
x3  a14
x4  a15
(0)
(0)
(0)
(0)
(0)
a 21
x1  a 22
x2  a 23
x3  a 24
x4  a 25
,
(0)
(0)
(0)
(0)
(0)
a31
x1  a32
x2  a33
x3  a34
x4  a35
(3.2.3)
(0)
(0)
(0)
(0)
(0)
a 41
x1  a 42
x2  a 43
x3  a 44
x4  a 45
o en una forma más compacta:
4
a
j 1
( 0)
ij
x j  ai(50) , i=1,2,3,4
(3.2.4)
( 0)
El coeficiente a11
, que multiplica la primera incógnita x1 en la primera ecuación (3.2.3), se
conoce como el pivote (elemento rector) en este primer paso de eliminación. Supongamos que
(0)
(0)
a11
 0 . De lo contrario, por un cambio de filas siempre es posible hacer que la condición a11
0
se cumpla (la matriz no es singular). Para reducir el error de redondeo, a menudo es necesario
147
realizar intercambios de filas incluso cuando los elementos de pivote no son cero (con el fin de
seleccionar como pivote un elemento con la mayor magnitud). Esto puede ser seguido por el
intercambio de las columnas, si necesario.
( 0)
Al dividir la primera ecuación (3.2.3) entre a11
, obtenemos una ecuación nueva:
x1  a12(1) x2  a13(1) x3  a14(1) x4  a15(1)
(3.2.5)
donde a1(1j)  a1( 0j ) / a11( 0 ) , j=2,3,4,5. Eliminemos la incógnita x1 en cada una de las ecuaciones del
sistema (3.2.3) a partir de la segunda, a base de sustraer la ecuación (3.2.5) multiplicada por el
coeficiente de x1 en la ecuación correspondiente. Las ecuaciones transformadas adquieren la forma
siguiente:
(1)
(1)
(1)
(1)
a 22
x2  a 23
x3  a 24
x4  a 25
(1)
(1)
(1)
(1)
a32
x2  a33
x3  a34
x4  a35
,
(1)
(1)
(1)
(1)
a 42 x2  a 43 x3  a 44 x4  a 45
(3.2.6)
o bien,
4
a
j 2
(1)
ij
x j  ai(51) , i=2,3,4 ,
(3.2.7)
donde aij(1)  aij( 0 )  a1(1j)  ai(10 ) , i=2,3,4; j=2,3,4,5.
(1)
(1)
Ahora supongamos que el pivote a22
también es distinto de cero: a22
 0 . Entonces, al
dividir la primera ecuación (3.2.6) entre este coeficiente, obtendremos la ecuación
( 2)
( 2)
( 2)
x2  a23
x3  a24
x4  a25
(3.2.8)
(1)
donde a 2( 2j)  a 2(1j) / a 22
, j=3,4,5. Al eliminar, mediante la ecuación (3.2.8), la incógnita x2 en las
dos últimas ecuaciones del sistema (3.2.6), llegamos a las ecuaciones
( 2)
( 2)
( 2)
a33
x3  a34
x4  a35
,
( 2)
( 2)
( 2)
a 43
x3  a 44
x4  a 45
148
(3.2.9)
o bien,
4
a
j 3
( 2)
ij
x j  ai(52) , i=3,4,
(3.2.10)
donde aij( 2 )  aij(1)  a 2( 2j)  ai(21) , i=3,4; j=3,4,5.
Si a33( 2 )  0 , entonces, dividiendo entre este pivote la primera ecuación (3.2.9), y restando la
( 2)
ecuación hallada, multiplicada por a43
de la segunda ecuación del sistema (3.2.9), obtenemos
( 3)
( 3)
x3  a34
x4  a35
(3.2.11)
( 3)
( 3)
a44
x4  a45
(3.2.12)
( 2)
( 3)
donde a3( 3j)  a3( 2j ) / a33( 2 ) , a 4( 3j)  a 4( 2j)  a3( 3j)  a 43
, j=4,5. Por último, si a44
 0 , entonces
( 4)
x4  a 45
(3.2.13)
( 4)
( 3)
( 3)
 a 45
/ a 44
donde a 45
.
( 2)
( 0)
(1)
( 3)
Así pues, si los pivotes a11
, a22
, a33
y a44
son distintos de cero, entonces el sistema
(3.2.3) es equivalente al siguiente sistema simplificado con una matriz triangular superior:
(1)
(1)
(1)
(1)
x1  a12
x2  a13
x3  a14
x4  a15
( 2)
( 2)
( 2)
x2  a 23
x3  a 24
x4  a 25
( 3)
( 3)
x3  a34
x4  a35
(3.2.14)
( 4)
x4  a 45
obtenido a base de unir las ecuaciones (3.2.5), (3.2.8), (3.2.11) y (3.2.13). El proceso de reducción
del sistema (3.2.3) a la forma triangular (3.2.14) se llama carrera directa del método de Gauss.
Luego, las incógnitas x1 , x2 , x3 , y x4 del sistema (3.2.14) se calculan por sustitución regresiva
según las fórmulas
149
( 4)
x4  a 45
( 3)
( 3)
x3  a35
 a34
x4
( 2)
( 2)
( 2)
x2  a 25  a 23 x3  a 24
x4
(3.2.15)
(1)
(1)
(1)
(1)
x1  a15
 a12
x2  a13
x3  a14
x4
La búsqueda de las incógnitas mediante la sustitución regresiva (3.2.15) se llama carrera inversa
del método de Gauss.
El caso general. Análogamente, utilizando el método de Gauss se resuelve el sistema de un
número arbitrario n de ecuaciones algebraicas lineales. Sea dado el sistema
n
a
j 1
(0)
ij
x j  ai(,0n)1 , i=1,2,…, n
(3.2.16)
(0)
Si a11
 0 y los pivotes a ii( i 1) , i=2,3,…, n de las demás filas, que se obtienen en el curso de los
cálculos, son distintos de cero, entonces, el sistema (3.2.16) se reduce a la siguiente forma
triangular (la carrera directa):
xi 
n
a
j i 1
(i )
ij
x j  ai(,in)1 , i=1,2,…, n
(3.2.17)
donde
k  1, 2,
, n  j  k  1,
, n 1
akj( k )  akj( k 1) / akk( k 1) ;
i  k  1, n 
(3.2.18)

aij( k )  aij( k 1)  akj( k )  aik( k 1) 
La carrera inversa, donde las incógnitas se calculan por sustitución regresiva, se realiza por medio
de las fórmulas
150
xn  an( n,n)1 ;
i  n  1, n  2,  , 1

(i )
 xi  ai ,n1 

(3.2.19)

aij( i ) x j 

j i 1

n
Observación 3.2.1. La cantidad de tiempo requerido para completar los cálculos depende
del número de operaciones aritméticas en punto flotante necesarios para resolver un problema. En
general, la cantidad de tiempo necesario para realizar una multiplicación o división en un ordenador
es aproximadamente el mismo y es considerablemente mayor que la requerida para llevar a cabo
una adición o sustracción. Las diferencias reales en tiempo de ejecución, sin embargo, dependen
del
sistema
informático
particular.
La
eliminación
de
Gauss
necesita
n3 / 3  O( n 2 )
multiplicaciones/divisiones y n3 / 3  O(n2 ) adiciones/sustracciones. Así, la duplicación del número
de incógnitos (n) aumenta el tiempo computacional por factor de ocho. Por ejemplo, si una
computadora hace una multiplicación más una adición por 106 segundos, entonces la eleminación
de Gauss reqiere aproximadamente 10 minutos para una matriz de dimensión n  103 , y seis días para una matriz de dimensión n  104 . Por eso, para matrices de dimensión alta, un método
iterativo a menudo es más económico que la eliminación de Gauss. ■
El siguiente afirmación muestra que el método de Gauss se basa en la factorización A  LU


de la matriz A del sistema original L(U x )  b , y se reduce a la solución sucesiva del sistema
 
 
Ly  b (la carrera directa) y del sistema U x  y (la carrera inversa).
Teorema 3.2.1. Para una matriz no singular A, la eliminación de Gauss sin reordenar filas y
columnas realiza la factorización LU.
151
Demostración. En la primera etapa de la eliminación, la primera ecuación se multiplica por
a j1 / a11 , y el resultado se resta de la ecuación j-ésima, es decir, la matriz original A1  A se
multiplica de la izquierda por la matriz triangular inferior
0  0
 1
 a21

1  0
 a
L1   11
.
    
 an1 0  1 
 a11

Como resultado, obtenemos la matriz
a
A2  L1 A1   11
0
* 
An(1)1 
donde An(1)1 es una matriz de dimensión n-1. En la segunda etapa, el mismo procedimiento se repita
para la matriz An(1)1 cual se multiplica por la matriz L2 , etc. De esta manera, después de n-1 etapas
de eliminación, llegamos a la matriz A2  Ln 1  L2 L1 A  U con las matrices triangulares inferiores
(no singulares) L1 , L2 ,..., Ln 1 , y una matriz triangular superior U. Denotando L  ( Ln 1  L2 L1 ) 1 ,
obtenemos A  LU , donde la matriz L es una matriz triangular inferior. ■
Ejemplo 3.2.1 (Jacob, 1995). Consideremos la matriz
1 2 0
A  1 3 1 .
0 2 4
La secuencia de operaciones con filas de la matriz reduce A a una matriz triangular superior U:
1 2 0
1 2 0
1 2 0




A  1 3 1  L1 A  0 1 1  L2 L1 A  U  0 1 1 ,
0 2 4
0 2 4
0 0 2
152
donde
 1 0 0
L1   1 1 0 ,
 0 0 1
0 0
1 0 0
1



L2  0 1 0 y L2 L1   1 1 0 .
0  2 1
 2  2 1
Así
( L2 L1 )
1
1 0 0
 L  1 1 0 . ■
0 2 1
Definición 3.2.1. La matriz permutación es una matriz binaria cuadrada que tiene
exactamente una entrada de 1 en cada fila y cada columna y ceros en otros lugares. De acuerdo a
esta definición existen n ! matrices de permutación distintas, de las cuales una mitad corresponde a
matrices de permutación par (con el determinante igual a 1), y la otra mitad a matrices de
permutación impar (con el determinante igual a 1 ). ■
Por ejemplo, de las dos matrices
0 0 1 
1 0 0 


P1  1 0 0 y P2  0 0 1  ,


0 1 0
0 1 0
P1 es la matriz de permutación par, y P2 es la matriz de permutación impar.
Cuando una matriz de permutación P se multiplica con una matriz M de la izquierda
( PM ) se permutar las filas de M , y cuando P se multiplica con M desde la derecha ( MP ) se
permutar las columnas de M .
Ejemplo 3.2.2 (La factorización PA=LU). Para cada matriz no singular A existe una
matriz de permutación P tal que PA posee la factorización LU : PA  LU . Ahora consideramos
153
el caso cuando en el proceso de la eliminación de Gauss hay que cambiar algunas filas de la matriz.
Sea dado la matriz
1 2 3
A  0 0 2 .
1 3 4
En la segunda etapa de la eliminación es necesario cambiar las dos últimas filas de A. Sin
embargo, aplicando a la matriz A una matriz de permutación P obtenemos la matriz
1 0 0 1 2 3 1 2 3
PA  0 0 1 0 0 2  1 3 4 .
0 1 0 1 3 4 0 0 2
A diferencia de A , la matriz
PA ya se puede factorizar usando la eliminación de Gauss sin
ningun cambio de filas:
1 2 3 1 0 0 1 2 3
PA  1 3 4  1 1 0 0 1 1  LU . ■
0 0 2 0 0 1 0 0 2
Según el punto 3 del teorema 1.3.1, si B se obtiene de una matriz A mediante la adición de
una fila, multiplicada por un número, a otra fila, entonces det(B)  det( A) . Además, el punto 4 de
la misma teorema dice que si B se obtiene de A mediante el intercambio de dos filas, entonces
det(B)   det( A) . Se puede usar dichas propiedades para calcular el determinante de una matriz
mediante los pasos del proceso de eliminación de Gauss.
Ejemplo 3.2.3. Consideremos la matriz
1 0 1
A  2 0 3 .
1 3 1
154
Restamos de la segunda fila la primera multiplicada por 2. Luego restamos la primera fila de la
tercera. Obtenemos
1 0 1
1 0 1


det 2 0 3  det 0 0 1 .
1 3 1
0 3 0
Si intercambiamos dos últimas filas entonces obtenemos una matriz triangular. Ya que su
determinante es el producto de sus elementos diagonales, llegamos al siguiente resultado:
1 0 1
1 0 1


det 0 0 1   det 0 3 0  3 . ■
0 3 0
0 0 1
El caso de una matriz simétrica.
 
Sea dado el sistema Ax  b con una matriz A
simétrica. Si la eliminación gaussiana se realiza sin ningún cambio de filas y columnas, entonces se
puede demostrar por inducción que para cada paso k,
aij( k )  a (jik ) ,
es decir, los elementos transformados de la matriz siempre forman matrices simétricas de la
dimensión
n 1  k . Si es el caso, entonces es necesario calcular sólo los elementos de estas
matrices que están en la diagonal principal y arriba de esa diagonal.
Observación 3.2.2. Se han desarrollado diversas técnicas de selección de elementos pivotes
para minimizar los efectos del error de redondeo, que puede dominar la solución cuando se utilizan
métodos directos. Ahora dirigimos nuestra atención a las dos clases de matrices para las cuales la
eliminación de Gauss se puede realizar de manera eficiente sin intercambiar las filas o columnas de
la matriz. La primera clase consiste de las matrices diagonal dominantes, es decir, aii   aij para
j i
cada i. La demostración se puede encontrar en Burden y Faires (2011). La segunda clase forman las
155
matrices simétricas y definidas positivas. Notemos que los elementos diagonales aii y eigenvalores
i de una matriz definida positiva son positivos, además aij2  aii a jj y max 1k , j n akj  max 1i n aii .
Se puede demostrar que la simetría y definidad positiva de una matriz se conservan en cada etapa
de la eliminación de Gauss si los elementos diagonales se toman como pivotes. Notemos que la
selección correcta de elementos pivotes hace la eliminación de Gauss incondicionalmente estable.
 
Factorización de Cholesky. Sea dado un sistema Ax  b donde A es una matriz simétrica
y definida positiva. En virtud del teorema 3.1.2, usamos la factorización A  R T R donde R T  rij 
es una matriz triangular inferior con todos los elementos positivos en su diagonal principal ( rii  0
para cada i). Tenemos
 r11


 ri1


rn1





0

rii

rni
Entonces r11  a11 
1/ 2
,
 0
  
 0

 
 rnn 
r11


0


 0





ri1

rii

0
 rn1   a11
    
 rni  =  ai1
 
   
 rnn  an1





a1i

aii

ani
 a1n 
  
 ain 

  
 ann 
(3.2.20)
ri1  ai1 / r11 (i  2,3,..., n) . En general,
i
j
k 1
k 1
aii   rik2 , aij   rik r jk (j<i)
La factorización de Cholesky se puede presentar como
1/ 2
j 1


2 
j  1,2,, n rjj   a jj   rjk  ;
k 1



j 1


1
i  j  1, n rij   aij   rik rjk 
rjj 

k 1

(3.2.21)
Ejemplo 3.2.4. Vamos a realizar la factorización de Cholesky A  R T R de la matriz
156
1   r11 0
4 2

A   2 10 3.5    r21 r22
1 3.5 10.25  r31 r32
 r112
r11r1

  r11r21
r212  r222
 r11r31 r21r31  r22 r32

0   r11 r21
0   0 r22
r33   0 0
r31 
r32 
r33 


r21r31  r22 r32 
r312  r322  r332 
r11r31
Así pues,
r112  4 y r11  2 ; r11r21  2 y r21  1 ; r11r31  1 y r31  0.5
r212  r222  10 y r22  3 ; r21r31  r22 r32  3.5 y r32  1 ;
r312  r322  r332  10.25 y r33  3
y tenemos
 2 0 0  2 1 0.5
A  R R   1 3 0 0 3 1 
0.5 1 3 0 0 3 
T
Observación 3.2.3. El algoritmo de Cholesky tiene las ventajas siguientes sobre el método
general de Gauss:
1) requiere la mitad de operaciones aritméticos ( n3 / 6  O(n2 ) multiplicaciones y n3 / 6  O(n2 )
adiciones),
2) la memoria requerida es también de la mitad,
3) conserva el ancho de la banda cuando A es una matriz de banda,
4) se puede guardar los valores rij en el lugar de aij .
157
Sin embargo, no es siempre posible realizar la eliminación de Gauss con una matriz simétrica
sin ningún cambio de filas y columnas. Por ejemplo, sea dada la matriz
0 1 
A

1  
Ya que el pivote de la primera fila es nulo, el cambio de columnas transforma a A en la matriz
1 0
A
,
 1
es decir, destruye la simetría de la matriz original. Además, el ejemplo muestra que el algoritmo de
Gauss con una matriz simétrica puede ser inestable si  es muy pequeño:   1 . ■
Ejercicios:
1. Usando los pasos de la eliminación de Gauss (es decir, aplicando las
3.2.1) encuentre la factorización LU de las matrices siguientes:
 2 1 4
1 2 0
1 2 3
 4 1 5




A  0 2 1 ; A  1 0 1 ; A  
 2 2  2
0 1 0
0 1 0

3 9
0
2. Encuentre la factorización PA=LU de las matrices siguientes:
0 3
A
;
2 7 
0 1 0 
A  0 1 1 ;
1 1 0
matrices Li del ejemplo
0
1
3 .

4
1 1 3
A  1 1 1 .
0 2 0
3. Usando las eliminaciones de Gauss demuestre que la matriz
2
3
A
7

0
1 4 7
0 1 1 
2 9 15

1 1 1
es singular [Indirecta: demuestre que det A  0 ].
4. Demostrar que el método de eliminación de Gauss es equivalente a la multiplicación de la
 
matriz A del sistema original Ax  b por una matriz triangular inferior F , además, FA=B
donde B es una matriz triangular superior con todos sus elementos diagonales iguales a uno. Si
denotemos C  F 1 , entonces A=CB está factorizada y los elementos de la matriz C se
j 1
calculen mediante las formulas: cij  aij   cipbpj
p 1
158
(i  j ) .
5. Una matriz H  hij  se llama matriz de Hessenberg si hij  0 cuando i  j  1 . ¿Cuántas
 
operaciones se requieren para resolver el sistema H x  b por el método de eliminación de
Gauss?
6. Resuelve los sistemas siguientes
2 x1  x2  x3  4
3 x1  4 x2  2 x3  11 ,
3 x1  2 x2  4 x3  11
mediante la eliminación de Gauss.
2 x1  4 x2  x3  4
2 x1  6 x2  x3  10
x1  5 x2  2 x3  2
7. Demuestre que la eliminación de Gauss para una matriz tridiagonal n  n reqiere 4n
multiplicaciones.
8. Sea A1 A una matriz cuadrada y Pi Ai  LU
i
i donde
0




Pi  
1




 0
1
1
1
0
1
1
0










1 
es una matriz de permutación que garantiza la factorización LU, Pi 1  PiT . A veces, bajo ciertas
condiciones, el proceso iterativo
Ai 1  U i Pi T Li  Li 1 ( Pi Ai Pi T ) Li
converge a una matriz trianguar superior A con los eigenvalores  j de la matriz A en su
diagonal principal. Demuestre que dicho proceso a veces diverge y, por tanto, no es un buen
algoritmo para calcular los eigenvalores de la matriz A [Indirecta: Considere la matriz
1 3
A 1 A  
 y demuestre que A 3  A1 ].
2 0
9. Determine valores de a para los cuales el sistema
x1  x2  ax3  2
 x1  2 x2  ax3  3
ax1  x2  x3  2
no tiene soluciones, o tiene un número infinito de soluciones.
159
10. Sea
 1 0 1
A   0 1 1 
 1 1 a 
Hallar todos valores de a para los cuales A es simétrica, A es singular, A es definida positiva, A
es diagonal dominante.
11. Sea P una matriz de permutación. ¿Es valida la igualdad P 2  E ?
12. (Meyer, 2000). Trate de resolver el sistema
 x1  3 x2  2 x3  4
 x1  4 x2  3 x3  5
 x1  5 x2  4 x3  6
usando la eliminación de Gauss y explique por qué este sistema debe tener un número infinito de
soluciones.
13. Explique por qué un sistema lineal no puede tener exactamente dos soluciones diferentes, y si
tiene más de una solución, entonces debe tener un número infinito de soluciones diferentes.
160
3.3.
Factorización QR por medio de la ortogonalización de Gram-Schmidt
La factorización A  QR donde Q es una matriz ortogonal, mientras que R es una matriz
triangular superior se llama factorización QR de la matriz A .
La factorización QR es de gran importancia para resolver el sistema de las ecuaciones
algebraicas lineales
 
Ax  b
(3.3.1)
ya que en este caso, la solución del problema original


Q( R x )  b
(3.3.2)
se reduce a la solución de un sistema con una matriz no singular triangular
Rx  QT b
(3.3.3)
El último sistema coincide con el sistema obtenido al terminar la primera etapa del método de
eliminación de Gauss, y se resuelva por la sustitución regresiva.
La factorización QR también se puede utilizar para resolver los problemas de cuadrados
mínimos (véase la sección 3.9, Observación 3.9.1). Además, dicha factorización es la parte
principal del algoritmo QR
para hallar eigenvalores. Para ver más información sobre este
algoritmo, consulte Golub y Van Loan (1986). El algoritmo QR se usa para calcular eigenvalores
de las matrices simétricas, las matrices no simétricas reales, y los pares de matrices complejas, así
como los valores singulares de matrices generales (Wilkinson, 1965; véase la sección 4.6).
Teorema 3.3.1. La factorización QR existe para cualquier matriz cuadrada real.
161
Demostración. 1. Sea A una matriz no singular. Entonces AT A es simétrica y definida positiva y,
por lo tanto, existe la factorización de Cholesky
AT A  RT R
(3.3.4)
Es fácil ver que la matriz Q  AR 1 es ortogonal:
QT Q  ( AR 1 )T ( AR 1 )  ( R 1 )T ( AT A) R 1  ( R 1 )T ( RT R) R 1  E
(3.3.5)
y A  QR .
2. Sea A una matriz singular. Entonces la matriz perturbada An  A  1n E es no singular
para todos n bastante grandes y, por lo tanto, existe la factorización An  Qn Rn . Como el conjunto
de matrices ortogonales es compacto, existe una subsecuencia Qnk de matrices ortogonales que
converge a Q : Qnk  Q . Así,
QnTk Ank  Rnk  QT A  R
y de nuevo A  QR . ■
Teorema 3.3.2. Para una matriz no singular, las matrices Q y R se definen de manera única
si todos los elementos diagonales de la matriz R son positivos.
T
1
Demostración. Supongamos lo contrario: A  Q1R1  Q2 R2 . Entonces Q2 Q1  R2 R1  U . La
1
matriz R2 R1 es triangular superior con todos los elementos diagonales positivos, mientras que la
T
matriz Q2 Q1 es ortogonal. Así, la matriz U es triangular superior con todos los elementos
diagonales positivos, y cuyas columnas forman un conjunto de vectores ortonormales. Por lo tanto,
T
el vector U1 de la primera columna de U es U1  (1, 0,..., 0)  e1 . Un argumento similar, junto
162
con el hecho de que las columnas de U son mutuamente ortogonales, produce que el vector U 2 de
T
la segunda columna de U es U 2  (0,1, 0,..., 0)  e2 . Procediendo inductivamente establece que
U k  ek para cada k, es decir U  E y, por lo tanto, Q2  Q1 y R2  R1 . ■
La factorización QR de una matriz rectangular. Sea A una matriz rectangular real m  n
y m  n . Entonces existe la factorización A  QR donde R es una matriz triangular superior de
orden n , y las columnas de la matriz Q forman vectores ortonormales. Para demostrar esta
afirmación es suficiente encerrar la matriz A en una matriz cuadrada m  m y llenar las posiciones
adicionales con ceros (Tyrtyshnikov, 2006). Por lo tanto, la factorización QR es bastante útil en
resolver problemas de cuadrados mínimos (véase la sección 3.9).
Aplicación de la ortogonalización de Gram-Schmidt. El método de Gram-Schmidt
 m
descrito en la sección 1.2 se puede usar para ortonormalizar un sistema de vectores. Sea ui i1 un
sistema de vectores linealmente independientes. Para obtener un sistema ortogonal vi i 1 ponemos
m
 k
 
primero v1  u1 . Suponiendo que el sistema ortogonal vi i 0 ya está construido, el siguiente vector

ortogonal vk 1 se busca de la forma
k



vk 1  uk 1   akivi
(3.3.6)
i 1
donde
 
 
uk 1 , vi
uk 1 , vi
aki      2
vi , vi
vi
( i  1,2,..., k )
  

Es conveniente normalizar vi a un vector unitario ei  vi / vi

 
calcularlo. En este caso, ei  1 y aki  uk 1 , ei .
163
(3.3.7)
inmediatamente después de
Además, se puede aplicar el método de Gram-Schmidt para resolver el sistema (3.3.1)
usando la factorización QR de la matriz A y algoritmo (3.3.2)-(3.3.3) (Tyrtyshnikov, 2006).
Consideraremos ahora la factorización QR de dos matrices.
Ejemplo 3.3.1. Factorizamos la matriz
0 0 1 
A  1 1 0  u1 u2
0 1 0
u3 

aplicando la ortogonalización de Gram-Schmidt (3.3.6) y (3.3.7) a sus columnas u1T  (0,1,0) ,


u2T  (0,1,1) y u3T  (1,0,0) : v1  u1 ,
k
vk 1  uk 1  
i 0
uk 1 , vi
vi , (k  1, 2)
vi , vi
Como resultado, obtenemos
v1  1  u1  0  u2  0  u3
v2   1  u1  1  u2  0  u3
(3.3.8)
v3  0  u1  0  u2  1  u3
Las tres ecuaciones (3.3.8) del proceso de Gram-Schmidt representan operaciones con las
columnas de la matriz A  u1 u2
v1
v2
u3  :
v3   u1 u2
1 1 0
u3  0 1 0
0 0 1 
(3.3.9)
Es fácil calcular la matriz inversa de la matriz triangular superior que aparece en (3.3.9):
164
1
1 1 0 
1 1 0 
0 1 0   0 1 0 




0 0 1 
0 0 1 
De (3.3.9) se obtiene
u1  1  v1  0  v2  0  v3
u2  1  v1  1  v2  0  v3
u3  0  v1  0  v2  1  v3
Así, la matriz A se puede escribir como
A  u1 u2
u3    v1
v3 
v1  v2
o en la forma
1 1 0 
v3  0 1 0
0 0 1 
A   v1 v2
v
 1
 v1
 v1
v3  
 0
v3  
 0
v2
v2
Q
0
v2
0
0
0
v3
 1 1 0 


 0 1 0 
 0 0 1 
R
v
 1
 v1
v2
v2
Q
 v1
v3  
 0
v3  
 0
v1
v2
0
R
165
0
0
v3


  QR

Las columnas de la matriz Q son los vectores ortonormales vi / vi
obtenidos mediante la
ortogonalización de Gram-Schmidt y, por lo tanto, Q es ortogonal. Así pués, el proceso de GramSchmidt permite factorizar A como el producto de una matriz ortogonal Q y una matriz triangular
superior R. ■
La factorización QR descrita en el ejemplo 3.3.1 se puede aplicar a cualquier matriz
rectangular n  m .
Ejemplo 3.3.2. Factorizamos la matriz rectangular
1
0
A
0

0
1 1
1 0 
 u1 u2
0 1

1 1
u3 
aplicando la ortogonalización de Gram-Schmidt (3.3.6) y (3.3.7) a sus columnas:
v1  u1  (1, 0, 0, 0)T ,
u2 , v1
v2  u2 
v3  u3 
v1
u3 , v1
v1
2
2
 v1 
v1   1 v1  1 u2  (0,1, 0,1)T ,
u3 , v2
v2
2
(3.3.10)
 v2   v1  12 v2  u3  (0,  12 ,1, 12 )T
o, bien,
u1  1  v1  0  v2  0  v3
u2  1  v1  1  v2  0  v3
u3  1  v1   v2  1  v3
1
2
166
(3.3.11)
Como resultado, se obtiene
A  u1 u2
u3    v1
  v1 v2
v
 1
 v1
v2
v2
Q
 v1
v3  
 0
v3  
 0
v1  12 v2  v3 
v1  v2
1 1 1 
v3  0 1 12 
0 0 1 
0
v2
0
0
0
v3
 1 1 1 

1
 0 1 2   QR . ■
 0 0 1 
R
donde las columnas de la matriz rectangular Q forman vectores ortogonales.
Ejercicios:
1. Sea A una matriz ortogonal. ¿Qué estructura tiene la matriz R en su transformación QR?
2. Sea A  QR , donde Q es ortogonal y R es triangular superior. ¿Cuál es la relación entre det R
y det A ?
3. Resuelve el sistema
x1  6 x2  2 x3  5
2 x1  x2  2 x3  1
2 x1  2 x2  6 x3  10
mediante la factorización QR .
4. Aplicando la ortogonalización de Gram-Schmidt, encuentre la factorización QR de las matrices
siguientes:
1  1 1 
1 1 1
0 0 1 
1 1
1 0 0




A  0 1 ; A  1 1 0 ; A  1  1 0  .




1 1
0 1  1
1 0 1
167
5. Introducimos el producto interno de funciones definidas en el intervalo [1,1] como
1
f , g  12  f ( x) g ( x)dx
1
Demuestre que la aplicación del proceso de Gram-Schmidt con el fin de ortogonalizar los
polinomios 1, x, x 2 ,... en el intervalo [1,1] genera los polinomios de Legendre
Pn ( x ) 
1 dn
( x 2  1) n ,
2 n n! d x n
168
n  0,1,2,...
3.4. Factorización QR por medio de transformaciones de Givens
Rotaciones de Givens. En la sección 3.3, ya mencionamos que la factorización A  QR
 
permite resolver exactamente el sistema de las ecuaciones algebraicas lineales Ax  b , ya que la


solución del problema original Q( R x )  b se reduce a la solución del sistema Rx  QT y .
En el caso de un espacio vectorial de dos dimensiones R 2 , una matriz ortogonal Q se puede
presentar como producto de matrices ortogonales simples basadas en la matriz de rotación de plano
por un ángulo  :
 cos  sen 
 sen cos  


(3.4.1)
En el caso de un espacio vectorial de tres dimensiones R 3 , las matrices de rotación
alrededor de los ejes x, y y z por un ángulo  son
0
0 
1

Px  0 cos  sen   ,
0  sen  cos  
 cos  0 sen  
Py   0
1
0  y
  sen  0 cos  
 cos  sen  0
Pz    sen  cos  0
 0
0
1 
Usando las matrices de rotación, Givens (1954) ofreció un método que usa matrices
unitarias para transformar una matriz hermitiana a una forma triangular superior. Estudiamos ahora
su método que permite realizar la factorizar QR de cualquier matriz real n  n A :
A  QR
(3.4.2)
donde Q es una matriz ortogonal, mientras que R es una matriz triangular superior (Faddeev y
Faddeeva, 1963; Parlett, 1980; Golub y Ortega, 1992; Stoer y Bulirsch, 1993).
Givens introdujo las matrices de rotación n  n Pij en el espacio vectorial R n de n
dimensiones:
169
 1







Pij  









1
cij



1


sij




 sij


1


cij
1

















1 
(3.4.3)
donde cij  cosij y sij  senij están situados en las filas y columnas i-ésima y j-ésima como se
indica, y todos los restos elementos no diagonales son ceros. Las matrices (3.4.3) se llaman
matrices de rotación de plano, rotaciones (o transformaciones) de Givens. Sean ei vectores
unitarios ortogonales que forman la base ortogonal en R n ( i  1, 2,..., n ), y sea x  Rn un vector,
x   i 1 xi ei . Mientras que la matriz (3.4.1) define una rotación del plano, la matriz Pij realiza una
n
rotación en el plano formado por los vectores básicos ei y e j en el espacio R n . En efecto, Pij
“rota” las coordenadas (i, j ) del vector x en el sentido de que
x1






 cij xi  sij x j 


Pij x  

  sij xi  cij x j 






xn


donde cij xi  sij x j es la i-ésima componente y  sij xi  cij x j es la j-ésima componente del vector
Pij x . Si xi  0 y x j  0 , y si establecemos
170
cij 
xi
xi2  x 2j
y
sij 
xj
xi2  x 2j
Entonces
 x1 




 x2  x2 
j
 i

Pij x  



0






 xn 
Esto significa que con Pij , podemos aniquilar selectivamente cualquiera de las componentes del
vector x (la j-ésima componente en este caso) por una rotación en el plano (i, j ) sin afectar a
ninguna entrada excepto xi y x j . Por lo tanto, rotaciones de Givens se puede usar para aniquilar
todas las componentes del vector x que se encuentran por debajo de cualquier particular
componente xi . Por ejemplo, para aniquilar todas las componentes del vector x que se encuentran
por debajo de x1 hay que aplicar las siguientes rotaciones:
 x2  x2 
2
 1

0


 x

3


P12 x   x4  ,


 x5 




 xn 
 x2  x2  x2 
2
3
 1

0




0


P13 P12 x  
x4
 , …,


x5






xn


P1n





P13 P12 x  





x

0
0

0
0


0 
El producto de rotaciones de Givens generalmente no es otra rotación de Givens, pero tal
producto es siempre una matriz ortogonal. Así, se puede decir que la secuencia de rotaciones
171
P1n
P13 P12 realiza la rotación en el espacio R n de un vector no nulo x sobre el eje de coordenadas
primero. Más en general, la siguiente afirmación es cierta:
Cada vector distinto de cero se puede girar para la i-ésima eje de coordenadas por una
secuencia de n  1 rotaciones de Givens. En otras palabras, existe una matriz ortogonal P tal que
Px  x ei
donde P tiene la forma
P  Pin
Pi ,i 1Pi ,i 1
Pi1 .
Factorización QR . Con el fin de lograr la factorización QR vamos a usar matrices Pij para
transformar la matriz original A a una matriz triangular superior, es decir, para reducir al cero
todos los elementos debajo de la diagonal principal de la matriz A . Designamos la fila i-ésima de

la matriz A por a i :
 a1 
a 
 2
A   a3 
 
 
 an 
Al multiplicar A por P12 , obtenemos la matriz


 c12a1  s12a 2 
 s a  c a 
 12 1 12 2 

P12 A  
a3








an
Si elegimos s12 y c12 de tal manera que
172
(3.4.4)
 s12a11  c12a21  0 ,
(3.4.5)
entonces P12 A tiene elemento nulo en la posición (2,1), y los otros elementos de las primeras dos
filas son distintos de aquellos de A. Para satisfacer (3.4.5), elegimos

2
2
c12  a11 a11
 a21

1 / 2
,

2
2
s12  a21 a11
 a21

1 / 2
(3.4.6)
El denominador en (3.4.6) es distinto de cero si a21  0 . Pero, si a21  0 entonces la meta ya está
alcanzada,
y
no
es
necesario
aplicar
P12 .
Luego,
aplicando
sucesivamente
las
transformaciones P13 , P14 ,..., P1n a la matriz resultante, obtenemos la matriz
P1n P1,n1  P13 P12 A  A1
(3.4.7)
que tiene todos los elementos nulos en la primera columna debajo de la diagonal principal.
Similarmente, la matriz
P2 n P2,n1  P24 P23 A1  A2
(3.4.8)
ya tiene elementos nulos en dos primeras columnas debajo de la diagonal principal. Continuando de
manera similar, obtenemos la matriz tridiagonal superior
Pn1,n ( Pn2,n Pn2,n1 )( P2 n P2,n1  P24 P23 )( P1n P1,n1  P13 P12 ) A  An1
(3.4.9)
Introduciendo dos matrices
P  Pn1,n ( Pn2,n Pn2,n1 )( P2 n P2,n1  P24 P23 )( P1n P1,n1  P13 P12 )
(3.4.10)
y
R  An1 ,
173
(3.4.11)
escribimos (3.4.9) como PA  R donde P es una matriz ortogonal, debido a que es el producto
(3.4.10) de las matrices ortogonales. Ya que Q  P 1 también es una matriz ortogonal, obtenemos
la factorización requerida
A  P 1 R  QR
(3.4.12)
Observación 3.4.1. Sea U y V dos matrices ortogonales. Es fácil demostrar que el producto
UV y la matriz inversa U 1 también son ortogonales. En efecto,
(UV )T (UV )  V T U T UV  V T (U T U )V  V T V  E ,
(U 1 )T U 1  (U T ) 1U 1  (UU T ) 1  E 1  E .
Observación 3.4.2. La factorización QR requiere
■
4 3
2
n multiplicaciones y n 3 adiciones.
3
3
Además, el cálculo de los valores c ij y s ij requiere O(n 2 ) operaciones aritméticas. Así, la
factorización QR requiere aproximadamente cuatro veces más de multiplicaciones y dos veces más
adiciones que la factorización LU (véase § 27). En § 30 consideramos la factorización QR más
económica basada en las transformaciones de Hauseholder. ■
Ejercicios:
  
1. Sea T  
Ω
tal que
 , donde    . Determine una rotación de Givens
0  
  

 T T  
[Indirecta: e1 es un eigenvector de T correspondiente al eigenvalor  ].

0 
2. Sea A una matriz ortogonal. ¿Qué estructura tiene la matriz R en su transformación QR?
3. Sea A  QR , donde Q es ortogonal y R es triangular superior. ¿Cuál es la relación entre
det R y det A ?
174
4. Sea A una matriz normal n  n con todos sus eigenvalores distintos según módulo: i   j si
i  j . Entonces las matrices Ak de la transformación QR convergen a la matriz diagonal
diag 1 , 2 ,..., n  de los eigenvalores de A.
5. Si A es una matriz de Hessenberg (véase el ejercicio 5 en la sección 3.2) entonces todas las
matrices Ak de la transformación QR son también matrices de Hessenberg.
6. Resuelve el sistema
x1  6 x2  2 x3  5
2 x1  x2  2 x3  1
2 x1  2 x2  6 x3  10
mediante la factorización QR .
7. Aplicando la ortogonalización de Gram-Schmidt, encuentre la factorización QR de las matrices
siguientes:
1 1
A  0 1 ;
1 1
1
1
A
1

1
1 1
0 0
1 0 ;

0 1
1  1 1 
0 0 1 

A
1  1 0  .


0 1  1
8. ¿Bajo qué condiciones sobre los números reales a y b será ortogonal la matriz
a  b b  a 
P
 ?
a  b a  b
9. Sean U y V dos matrices ortogonales. Demuestre que la matriz
U 0 
P

0 V
es ortogonal, mientras que la matriz U  V puede ser no ortogonal.
10. Transformación de Cayley (1889). Sea A una matriz antihermitiana. Demuestre que la matriz
U  ( E  A)( E  A)1  ( E  A)1 ( E  A)
es ortogonal.
11. Sea U una matriz ortogonal, a  Ux y b  Uy . Demuestre que a , b  x , y .
175
3.5. Factorización QR por medio de transformaciones de Householder
Definición 3.5.1. Cada matriz H de la forma

H  E  2wwT ,
(3.5.1)
 
donde wT w  1 se llama transformación de Householder (Householder, 1964). ■
  T es simétrica y ortogonal. En efecto,
Es fácil demostrar que la matriz H  E  2w
w
E  2w w 
T T

 E  2wwT
y
E  2w w E  2w w 
T
T T

   
 E  4wwT  4w(wT w)wT  E
Por lo tanto, la transformación de Householder deja invariable la norma euclidiana de un vector, es
decir,


si y  Hx entonces
 

 
  
yT y  ( Hx )T Hx  x T ( H T H ) x  x T x
La transformación de Householder también se llama matriz de transformación elemental.
Ejemplo 3.5.1. Sea x y y dos vectores, además y  x  0 pero y  x . Se busca una


matriz ortogonal H tal que y  Hx y x  Hy . La solución es la matriz de Householder
xy
H  E2
xy
2
( x  y )T
En efecto,
H ( x  y)  ( x  y)  2
xy
xy
176
2
( x  y )T ( x  y )
 ( x  y)  2
xy
xy
x y  yx
2
2
Por otra parte,
H ( x  y)  ( x  y)  2
 ( x  y)  2
xy
xy
xy
xy
2
( x  y )T ( x  y )
(x  y ) x y
2
2
2
Así, se obtiene el sistema de ecuaciones
Hx  Hy  y  x
Hx  Hy  x  y


Se deduce de aquí que y  Hx y x  Hy . ■
Ahora demostramos cómo utilizar las transformaciones de Householder para realizar la
factorización QR de una matriz A (Ortega y Poole, 1981; Golub y Ortega, 1992; Stoer y Bulirsch,
1993; Ciarlet, 1995).
Presentamos la matriz A en la forma
A   a1
a2
a3
an 
donde ai es la i-ésima columna de A. En particular,
 a11 
a 
a1   21 
 
 
 an1 
o a1T   a11 , a21 ,
Definimos el vector
177
, an1 


w1  1u1
donde

u1T  a11  s1 , a21 ,, an1 
s1    a1T a1  ,
1/2
1   2s12  2a11s1 
1/2

(3.5.2)
1
(3.5.3)
2 s12  2a11s1
Notemos que el signo de s1 se elige opuesto al signo de a11 con el fin de evitar una posible división
entre cero en la fórmula (3.5.3) para 1 , es decir, la inestabilidad del algoritmo.
n
De la definición de s1 tenemos
a
j 2
2
j1
2
y, por lo tanto,
 s12  a11
n


 
2
2
2
w1T w1  12 a11  s1    a 2j1   12 a11
 2a11s1  2s12  a11
1
j

2




 
Entonces H1  E  2w1w1T es la transformación de Householder. Además,
n


 
1
w1T a1  1 a11  s1 a11   a 2j1   1 s12  a11s1 
21
j 2




y, por lo tanto,
2a11  s1 1
 
a11  2w1 w1T a1  a11 
 s1
21
(3.5.4)
2a 
 
ai1  2wi w1T a1  ai1  i1 1  0 , i= 2,3,…, n
21
(3.5.5)
Las fórmulas (3.5.4) y (3.5.5) muestran que
178
 s1 
0
T
H1a1  a1  2( w1 a1 ) w1    ,
 
 
0
(3.5.6)
es decir, en la primera columna de la matriz H1 A , todos los elementos situados por debajo de la
 
diagonal principal son iguales a cero. Así, una transformación ortogonal H1  E  2w1w1T aplicada a
la matriz A da el mismo resultado que  n  1 transformaciones de Givens P1n P1,n 1
P13 P12 A .
El segundo paso del método es análogo al primero. Sean bij los elementos de la matriz


T
B  H1 A . En lugar del vector a1 usaremos el vector b2  b12 ,b22 ,,bn 2  cuyos componentes
representan la segunda columna de la matriz B . Se usa la transformación de Householder
 
H 2  E  2w2 w2T definida por un vector


w2   2u2
(3.5.7)
donde
u2   0, b22  s2 , b32 ,
, bn 2 
T
(3.5.8)
y
 
s2   b2T b2


1/ 2
,
 2  2s22  2b22s2 
1 / 2
(3.5.9)
son las fórmulas análogas a (3.5.2) y (3.5.3). Con esta transformación obtenemos que en las dos
primeras columnas de la matriz H 2 H1 A , todos los elementos situados por debajo de la diagonal
principal son iguales a cero. Continuamos de la misma manera usando las transformaciones


 
H i  E  2wi wiT donde los primeros (i-1) componentes del vector wi   i ui son iguales a cero
( i  3,..., n 1 ). Finalmente, obtenemos una matriz triangular superior
179
R  H n1H n2
(3.5.10)
H 2 H1 A
Escribimos (3.5.10) como HA  R donde la matriz P  H n1H n2  H 2 H1 es ortogonal, debido a
que el producto de las matrices ortogonales es también una matriz ortogonal. Ya que la matriz
Q  P 1 también es ortogonal, obtenemos la factorización requerida
A  P 1 R  QR
(3.5.11)

Ahora vamos a ver cómo se transforman las demás columnas a i de la matriz A mediante la
aplicación de la matriz H 1 (i=2,3,…,n). Tenemos


 
    
 
H1 A  A  2w1w1T A  A  2w1 w1T a1 , w1T a2 ,, w1T an ,
(3.5.12)
Así pues, la columna i-ésima de la matriz B  H1 A es

  

  
a i  2( w1T a i ) w1  a i   1 (u1T a i )u1 ,
(3.5.13)
donde
 1  212  s12  s1 a11 
1

Notemos que en (3.5.13), es más económico trabajar directamente con  1 y u1 sin formar el

vector w1 explícitamente.
Observación 3.5.1. La transformación de Householder se generaliza de inmediato al caso

de matrices complejos: la matriz H  E  2ww* donde
Householder. La matriz H es hermitiana y unitaria. ■
180
 
w*w  1 se llama transformación de
Observación 3.5.2. Se puede hacer un resumen de los esfuerzos computacionales. La
factorización QR mediante las transformaciones de Householder requiere 2n3 / 3  O(n2 )
multiplicaciones y 2n3 / 3  O(n2 ) adiciones. Entonces, mientras que el número de adiciones
coincide con el del método de las transformaciones de Givens, el número de multiplicaciones es la
mitad, es decir, el método nuevo es más económico. Sin embargo, hay situaciones, donde la
aplicación de las matrices de Givens es preferible. Para comparar notemos que para reducir una
matriz cuadrada de orden n a una forma triangular superior, el método de Gram-Schmidt requiere
aproximadamente n3 multiplicaciones/divisiones, mientras que la eliminación de Gauss requiere
aproximadamente n3 / 3 multiplicaciones/divisiones (Meyer, 2000). Además, a diferencia de los
dos métodos mencionados en último, los métodos de Givens y Householder son
incondicionalmente estables. ■
Observación 3.5.3. A pesar de que las factorizaciones de Givens y Householder son
estables numéricamente, la eliminación de Gauss es más económica para resolver un sistema de
ecuaciones lineales algebraicas. Sin embargo, la factorización QR es la parte básica del algoritmo
para resolver el problema espectral completo. ■
Reducción de Householder. El esquema de reducción de Householder tiene el aspecto
siguiente (Golub y Ortega, 1992):
1/ 2


 n 2
s k   sign a kk   a lk 


 l k





k=1,…,n-1 u kT  (0,  ,0,a kk  s k ,a k 1, k ,  , a nk )
   s 2  s a 1 ; a  s

k
k
k kk
kk
k






181
 
  j   k u kT a j 
j=k+1,…,n  

  .■
a j  a j   j u k 
Ejercicios:
 

1. Demuestre que una matriz P  E   wwT , donde wT w  1 , es ortogonal sólo si   2 .

 
2. Sea x  y , x
 
que Hx  y .
2

 y
2
 
, y y * x es real. Entonces existe tal transformación de Householder H
3. Sea A  QR . Demuestre que A * A  R * R . La matriz R se llama factor de Cholesky de la
matriz A* A .
4. Sea A  QR . Demuestre que A F  R F donde  F es la norma de Frobenius.
5. Sea A una matriz cuadrada. Es bien conocido que existe una matriz no singular S y una matriz
triangular superior T tal que T  S 1 AS . Usando la factorización QR demuestre el teorema 2.2.2
[Indirecta: use la factorización S=QR].
6. Realize la factorización QR de la matriz
2  1 1 
A  2 3 1 .
1  1 2
7. Sea A una matriz de banda (véase el problema 1 en 3.9). Demuestre que la factorización QR
conserva la estructura de banda.
8. Demuestre que la solución un sistema lineal de dimensión n por la factorización QR mediante
transformaciones de Householder reqiere 2n3 / 3  O(n2 ) multiplicaciones.
9. (Stoer y Bulirsch, 1993). Sea A1 A una matriz n  n tal que 1  2  3 
 n ,
donde i son sus eigenvalores y A  Y 1 DY , donde Y  LYUY y D  diag 1,..., n  . Sean
Ai  Qi Ri y Ai 1  Ri Qi . Entonces existen matrices Si  diag  1 ,...,  n  ,  k  1 , tales que
limi  Si*Qi Si 1  E y limi  Si* Ri Si 1  limi  Si*1 Ai Si 1 es una matriz triangular superior con
i en su diagonal principal.
182
3.6. Método de Thomas
Consideremos ahora un método directo y simple para resolver un sistema de ecuaciones algebraicas
lineales de forma
ai yi 1  bi yi  ci yi 1  fi ,
i  1, 2,3..., N  1
y0   '0 y1  0
y N   N y N 1   N
donde
y0 , y1 ,
(3.6.1)
(3.6.2)
, yN son incógnitas, mientras que ai , bi , ci , fi y  '0 ,  0 , N ,  N son parámetros
dados (Godunov y Ryabeñkii, 1964; Marchuk, 1982; Volkov, 1990). Se llama método de Thomas
(Thomas, 1949) y está basado en la factorización de la matriz tridiagonal del sistema (3.6.1),
(3.6.2). El sistema de ecuaciones (3.6.1) a menudo se obtiene al discretizar una ecuación diferencial
parcial del segundo grado en los nodos internos de un intervalo, y las ecuaciones (3.6.2) se obtienen
al discretizar las condiciones de contorno de Dirichlet, de Neumann, o mixtos en puntos extremos
del intervalo.
Las ecuaciones (3.6.1) se llaman tripuntuales, ya que cada ecuación enlaza únicamente tres
valores desconocidos yi 1 , yi
y yi 1 . Además, supongamos que los parámetros del sistema
satisfacen las siguientes condiciones:
bi  ai  ci , i  1, 2,..., N  1 ,
 0  1,  N  1 .
(3.6.3)
(3.6.4)
Posteriormente, será mostrado que bajo las condiciones (3.6.3) y (3.6.4) el problema (3.6.1), (3.6.2)
tiene una única solución, y el método de Thomas es estable y económico.
183
Se puede escribir el sistema (3.6.1), (3.6.2) en la forma vectorial:
donde y   y0 , y1 ,
Ay  f
(3.6.5)
, yN  es el vector desconocido (la solución), f   0 , f1 , f 2 ,
, f N 1 ,  N  es el
T
T
vector dado, y
 1 0
a  b
1
 1
0
a2
A
 
0
0

0
 0
0
c1
 b2

0
0
0
0
c2

0
0
 0
 0
 0
 
 a N 1
 0
0
0
0

 b N 1
N
0 
0 
0 


c N 1 

1 
(3.6.6)
es la matriz tridiagonal de dimensión n+1.
Sustituyendo la primera ecuación (3.6.2) en la primera ecuación del sistema (3.6.1),
obtenemos
a1  0 y1   0   b1 y1  c1 y2  f1
o bien,
y1  1 y2  1
(3.6.7)
donde
1 
c1
a10  f 1
, 1 
b1  a10
b1  a10
(3.6.8)
Al introducir la expresión (3.6.7), hallada para y1 , en la segunda ecuación del sistema (3.6.1),
obtenemos una ecuación que relaciona y2 y y3 , etc. Supongamos que ya hemos obtenido la
relación
184
yk 1   k 1 yk  k 1 , k  N  1
(3.6.9)
En la k-ésima ecuación del sistema (3.6.1) introducimos yk 1 en forma de (3.6.9):
ak  k 1 yk   k 1   bk yk  ck yk 1  f k
Resolviendo esta ecuación respecto a yk obtenemos
yk   k yk 1   k
(3.6.10)
donde
k 
ck
a   fk
, k  k k 1
bk  a k  k 1
bk  a k  k 1
(3.6.11)
Por consiguiente, los coeficientes de las ecuaciones (3.6.10) que enlazan los valores contiguos yk y
yk 1 (k = 1, 2, ..., N-1) se puede determinar por medio de las relaciones recurrentes (3.6.11), ya que
 0 y  0 están dados mediante (3.6.2).
Sustituyendo la expresión yN 1   N 1 yN   N 1 , deducida de (3.6.10) para k  N  1 , en la
segunda condición de contorno (3.6.2) obtenemos
y N   N  N 1 y N   N 1    N
donde
N
y  N son coeficientes definidos por (3.6.2), mientras que  N 1
(3.6.12)
y  N 1 se han
calculado por medio de las fórmulas (3.6.11). De la ecuación (3.6.12) hallamos la incógnita
yN 
 N   N  N 1
1   N N 1
185
(3.6.13)
Luego, mediante la fórmula (3.6.10) se calculan por sustitución regresiva las demás incógnitas
yN 1 , yN 2 , ..., y0 . Notemos que la fórmula (3.6.10) coincide (para k = 0) con la primera condición
de contorno (3.6.2). El proceso de cálculo de los coeficientes  k y  k por medio de las fórmulas
(3.6.11) donde k  1, 2,..., N 1, se llama la carrera directa del método de factorización. El otro
proceso, la obtención de las incógnitas yk por medio de las fórmulas (3.6.10) y (3.6.13), donde
k  N 1, N  2,...,0 , se llama la carrera inversa del método de factorización.
Estabilidad del método. En virtud de las condiciones (3.6.3) y (3.6.4), los cálculos
mediante las fórmulas (3.6.11) y (3.6.13) son correctos, es decir, sus denominadores no se reducen a
cero. En efecto, admitamos que para cierto k ( 0  k  N  1 ) se verifica la desigualdad  k 1  1 .
Por ejemplo, 0  1 .
En vista de que
bk  ak  ck  0 , utilizando la condición (3.6.3),
obtenemos
bk  a k k 1  bk  a k   k 1  bk  a k  0
(3.6.14)
y por tanto,
k 
ck
bk  ak

1
bk  ak k 1
bk  ak   k 1
De aquí, por inducción se deduce que
k 1
(3.6.15)
para cada k ( k  0,1,2,..., N 1). Debido a (3.6.15) y (3.6.4),
bk  a k k 1  0 para cada k,
186
(3.6.16)
y
1   N  N 1  0 ,
(3.6.17)
es decir, los denominadores de las expresiones (3.6.11) y (3.6.13) nunca se convierten en cero
durante el proceso de cálculo.
Observación 3.6.1. El método de factorización (3.6.10)-(3.6.13) se puede presentar en la
forma matricial:
KS1S2 y  F
(3.6.18)
donde K es una matriz diagonal, S 1 es una matriz tridiagonal inferior, y
S 2 es una matriz
tridiagonal superior.
Ejercicios:
1. Sea
 b1 c1  0 
a b   
2

A 2
    cn1 


 0  a n bn 
 k  bk  k 1  ak ck 1  k 2 ,
una
matriz
2k n.
tridiagonal,
Demuestre
y
que
sean
 0  1,
 k  det  k
 1  b1 ,
y
donde
 b1 c1  0 
a b   
2
 , 1 k  n .
k   2
    ck 1 


 0  ak bk 
2. Si todos los  k  det  k son distintos de cero, entonces la factorización LU de la matriz A del
ejercicio 1 es
187
 1
 0
a 2 
1
A  LU  


 0

0

1



 an
 n2
 n 1
1
0  
 0
 
0

0 

1 
  0


0 

2

 
.
1
  c n 1 

n 
 0
 n 1 
c1

3. Sea T  t ij  una matriz tridiagonal n  n de Toeplitz (véase el ejercicio 4 en la sección 2.5) y
n>2. Demuestre que T 1 es de Toeplitz si y sólo si T es triangular.
4. Resuelve por el método de factorización el problema
 ( 2) ( x)  x   ( x) , 0  x  1;  (0)  0 ,  (1)  0 .
5. Resuelve por el método de factorización el problema
 ( 2) ( x)  2 x (1) ( x)  2 ( x)  4 x , 0  x  1;  (0)   (1) (0)  0 ,  (1)  3.718 .
6. Demuestre que la solución general de la ecuación discreta homogenea
aii1  bii  cii1  0
con los coeficientes variables ai  0 , ci  0 , se puede escribir de la forma  i   ui   vi donde
ui y vi son dos soluciones particulares arbitrarias de esta ecuación, para las cuales el
determinante
u0 u1
v0 v1
es no nulo.
7. Resuelve el problema
ai i1  bi i  ci i1  f i , ( 0  i  N )
con las condiciones de contorno
 0  1  u ,  N   N 1  v
si los números  y  son no nulos.
188
3.7. Método de disparo
Problema no lineal. Consideremos el problema de contorno para la ecuación diferencial
del segundo orden
y  f ( x, y, y) ,
a xb
(3.7.1)
con condiciones de frontera
y(a)   ,
y(b) 
(3.7.2)
El método de disparo usa los métodos numéricos desarrollados para resolver problemas
evolucionarios, donde las condiciones iniciales en el punto x  a se ponen de tal manera que la
solución satisface las condiciones (3.7.2). Con este fin, en adición al problema (3.7.1), también
consideremos el problema evolucionario
y  f ( x, y, y) , y(a)   , y(a)  s
(3.7.3)
con un parametro s. Geometricamente, el parametro s prescribe la inclinación de la curva de la
solución (es decir, la dirección del disparo). Si la función f es continua y satisface la condición de
Lipschitz con respecto a y y y , entonces el problema (3.7.3) tiene solución única y( x, s) . Esta
solución va a satisfacer la condición y(b)  del problema (3.7.1) sólo si
F (s)  y(b, s)  y  0
(3.7.4)
Es preciso notar que a condición de que la ecuación (3.7.1) es no lineal, la ecuación (3.7.4)
tampoco es lineal. Para encontrar una solución de la ecuación (3.7.4) se usa el método de Newton
(véase la seción 9.3). Para calcular la derivada F(s) requerido para el método de Newton,
suponemos que la solución y( x, s) es continuamente diferenciable con respecto al parametro s.
Denotando v  y / s y diferenciando el problema (3.7.3) con respecto a s obtenemos
189
vy ( x, s)  f y ( x, y ( x, s), y( x, s )) v( x, s )  f y ( x, y ( x, s ), y ( x, s )) v( x, s )
(3.7.5)
y
v(a, s)  0 , v(a, s)  1
(3.7.6)
F (s)  v(b, s)
(3.7.7)
Ya que
el cálculo de la derivada (3.7.7) requiere la solución del problema adicional (3.7.5), (3.7.6) para v,
donde y( x, s) es la solución conocida del problema (3.7.3). Notemos que (3.7.3) se resuelve
numéricamente y, por lo tanto, y( x, s) está dada sólo en puntos de malla. Resumiendo todo lo
anterior, obtenemos el método de disparo que contiene los pasos siguientes (Kress, 1998):
1) elegir una inclinación inicial s;
2) resolver numéricamente el problema (3.7.3) y luego el problema (3.7.5), (3.7.6);
3) si y(b)  se satisface con la precisión requerida, entonces parar el proceso; de lo contrario,
reemplazar s por s  ( y(b)  ) / v(b) y luego volver al paso 2.
Problema lineal. Aplicamos ahora el método de disparo para resolver el problema lineal
(3.6.1)-(3.6.4) (Godunov y Ryabeñkii, 1964; Roberts y Shipman, 1972; Ortega y Poole, 1981). Es
preciso notar que en el caso de un problema lineal, el método de disparo se simplifica
considerablemente y, en comparación con el método de Thomas (sección 3.6), requiere un poco
menos operaciones aritméticas. Sin embargo, como se muestra en el ejemplo siguiente, a diferencia
del método de Thomas, el método de disparo a menudo puede ser inestable y por lo tanto inútil.
Supongamos que el sistema (3.6.1) y (3.6.2) tiene la forma siguiente

an yn 1  bn yn  cn yn 1  f n


 y0   , yN  
190
0  n  N 
(3.7.8)
1
1
Describimos el método de disparo. Escogiendo como el primer “disparo” y0    y y1   0 ,
1
1
hallamos todos los valores yn  usando la ecuación (3.7.19) para índices n  2,..., N . Claro que yn 
satisface las ecuaciones (3.7.19) y la primera condición y0   , pero generalmente la trayectoria
1
del “disparo” no satisface la segunda condición, es decir, y N    (Fig.3.7.1).
1
Fig.3.7.1. Trayectorias yn  y yn(2) de dos disparos.
Luego, supongamos que
y0    ,
y1   1 , y calculemos de nuevo todos los
2
2
yn(2) usando
(3.7.19). De nuevo, la trayectoria del segundo “disparo” yn(2) satisface las ecuaciones (3.7.8) y la
2
primera condición y0    , pero, en general,
no satisface la segunda condición, es decir,
y N    . Consideremos ahora la combinación lineal de dos “disparos”:
2
yn   yn   1    yn(2) ,
1
n  0,1, 2,..., N
(3.7.9)
Es evidente, que y0   para cada  , y yn satisface todas las ecuaciones (3.7.8). Escogemos
ahora  con el fin de satisfacer la segunda condición (3.7.2):
yN   yN   1    yN    ,
1
2
191
(3.7.10)
o bien,

  y N 2 
(3.7.11)
y N   y N 
1
2
Entonces las fórmulas (3.7.9) y (3.7.11) resuelven el problema (3.7.8). En caso de cálculos ideales,
sin errores, este algoritmo es bueno. Sin embargo, este es inestable y, por tanto, prácticamente
inapropiado para los números N grandes.
Consideremos ahora dos ejemplos que demuestran explicitamente la inestabilidad del
método de disparo.
Ejemplo 3.7.1. Sea a n  1 , bn  26 / 5 , c n  1 y f n  0 en el sistema (3.7.8). En este
caso, la solución exacta es
5 N  n  5n  N
5n  5  n
yn  N
  N N 
5  5 N
5 5
(3.7.12)
Claro que se satisfacen las condiciones (3.6.3) y (3.6.4) y, por consiguiente, sin ningún problema se
puede resolver este sistema por el método estable de factorización. Aplicaremos ahora el método
1
de disparo para resolver dicho sistema. Es fácil hallar las trayectorias de dos disparos yn  y yn(2)
1
2
1
2
con las condiciones y0    , y1   0 y y0    , y1   1 , respectivamente:
yn1  
Notemos que max yn 
1
n

24
5n 

24
52n ;
y max yn
2
n
yn 2 
5   n  25

5  5   5    5 n
24
 24

(3.7.13)
1
2
aumentan como 5N . Por eso, los números y N  y y N 
exceden los límites admitidos si N es bastante grande. Esto puede causar la interrupción de
1
cálculos. Aunque dicha interrupción no ocurra y y N 
y
y N  se hallan exactamente, hay otro
2
problema grave. Supongamos que al calcular 1- se produce únicamente un error pequeño .
192
Entonces, en lugar de la solución exacta yn calculada según (3.7.9), obtenemos la solución
2
aproximada yn   yn donde  yn    yn  . Cuando n ~ N, el error  yn es proporcional a 5N  .
Por eso, si N es grande, entonces el error  yN es mucho mayor que el valor y N de la solución
exacta acotada que no depende de N ( y N es igual a  ). Podemos ver que el método de disparo
genera errores grandes por su inestabilidad. ■
Ejemplo 3.7.2 (Kress, 1998). Demostramos ahora que el método de disparo, al aplicarlo
para resolver un problema de contorno lineal es inestable. En efecto, el problema de contorno
y  y 110 y  0 , y(0)  y(10)  1
(3.7.14)
tiene la solución única
y ( x) 
110
e

1
(e110  1) e10 x  (1  e100 ) e11x
100
e

Por otra parte, la solución única del problema de valor inicial
y  y 110 y  0 ,
y(0)  1 y y(0)  s
(3.7.15)
asociado con las condiciones iniciales y(0)  1 y y(0)  s , es dado por
y( x, s) 
11  s 10 x 10  s 11x
e

e
21
21
Si aplicaremos el método de disparo (es decir, usamos la solución del problema (3.7.15)) para
obtener la solución de problema (3.7.14), el parámetro s hay que seleccionar de tal manera que
y(10, s)  1 , es decir,
11  s 100 10  s 110
e 
e 1
21
21
Se deduce de aquí que la inclinación inicial exacta s es
193
s  10  21
e 110  e 210
 10
1  e 210
Por lo tanto, si los cálculos se realizan con exactitud de diez números decimales, entonces la mejor


s a la solución exacta s pertenece al segmento  10,  10  10 9 . Además,
aproximación ~
y(10, 10)  e100  0 y
y (10, 10  109 ) 
21  109 100 109 110
e

e  2.8 1037
21
21
Así, el método de disparo es inestable, ya que variaciones pequeñas en s causan variaciones
enormes en el valor y(10, s) de la solución. ■
Ejercicios:
1. Demuestre que la solución general del problema
   p  q  r(x) ,  (a)  0 ,  (b)  0
con coeficientes constantes p y q tiene la forma
  C11  C22  
donde 1 y  2 son dos soluciones fundamentales (linealmente independentes) del problema
homogeneo ( r( x)  0 ),  es una solución particular, y C1 y C2 son constandes arbitrarias.
2. Escribe un programa computacional basado en el uso el método de deferencias finitas para el
problema del ejercicio 1.
3. Usando el método de factorización, resuelve el problema del ejercicio 1 con p  0 , q  1 ,
a  0 , b  1 y r ( x)  e x .
4. Usando el método de disparo, resuelve el problema del ejercicio 1 con p  0 , q  1 , a  0 ,
b  1 y r ( x)  e x . Compare la solución con la del ejercicio 3.
d  x   0 1  x 

obtenida por
d t  y  110 1  y 
el método de disparo con la exacta. [Indirecta: use la solución general del problema:
 x(t ) 
10t  1 
11t  1 
 y (t )  C1e  10   C2 e 11 donde Ci son arbitrarios].




 
5. Compare la solución particular númerica del sistema
194
3.8. Método de Thomas en el caso de condiciones periódicas
En el proceso de discretización de un problema elíptico de segundo grado unidimensional con las
condiciones de contorno periódicas, a menudo obtenemos un sistema de ecuaciones algebraicas
lineales
ai yi 1  bi yi  ci yi 1  fi ,
i  1, 2,3..., N ,
(3.8.1)
con las condiciones de contorno
y0  yN , yN 1  y1
(3.8.2)
donde y1 , y2 ,..., yN son incógnitas, y ai, bi, ci, fi son parámetros conocidos. Los problemas de
esta forma también se obtienen cuando se aplica el método de separación “componente-porcomponente” para resolver los problemas multidimensionales (véase, por ejemplo, Marchuk y
Skiba, 1976, 1992). Se puede escribir el sistema (3.8.1), (3.8.2) de la forma vectorial:
Ay  f
donde y   y1 ,
(3.8.3)
, yN  es el vector incógnito (la solución), f   f1 ,
T
 b1
a
 2
A 

 0
 c N
c1
 b2

0
0
0
c2

a N 1
0
0
0

 bN 1
aN
, f N  es un vector dado, y
a1 
0 
 

c N 1 
 b N 
La matriz A es de dimensión N y se diferencia de la matriz tridiagonal
195
T
(3.8.4)
 b1
a
 2
B

 0
 0
c1
 b2

0
0
0
c2

a N 1
0
0
0

 bN 1
aN
0 
0 
 

c N 1 
 b N 
(3.8.5)
sólo por dos elementos situados en la esquina derecha superior y en la izquierda inferior. Por lo
tanto, no se puede usar el método de Thomas en este caso.
En este apartado, presentamos una modificación del método de Thomas que permite
resolver el sistema lineal con la matriz (3.8.4) sin usar un método iterativo.


Definición 3.8.1. Para dos vectores columnas u y v no nulos de n componentes, el

producto u v T es una matriz de dimensión n del rango 1 con los elementos u i v j . ■
Sean

u  (1,0,  ,0, c N ) T
y
vT  ( 1 , 0 ,
,a10 , dos) vectores que tienen sólo las
primeras y las últimas componentes distintas de cero. Se puede presentar la matriz A como

A  C  uv T
(3.8.6)
C  B  diag  1,0, ,0,a1c N 
(3.8.7)
donde
Si la matriz C es no singular, entonces según la fórmula de Sherman-Morrison (Golub y Ortega,
1992; Stoer y Burirsch, 1993),
C  uv 
T 1

 C 1   1C 1u v T C 1
(3.8.8)

para cada matriz u v T de dimensión n del rango 1, donde


 1  1  v T C 1u
196
(3.8.9)
Entonces la solución del sistema (3.8.3), es decir, del sistema
(C  u v T ) y  f ,
(3.8.10)
tiene, debido a (3.8.8), la forma siguiente:

y  C  u vT

1
f  C 1 f   1 (C 1u ) v T (C 1 f )  x   1 (v T x ) z
(3.8.11)
donde
x  C 1 f , z  C 1u
(3.8.12)
y, según (3.8.9),
 
 1  1  v T z
(3.8.13)
Debido a (3.8.7) y (3.8.5), la matriz C es tridiagonal y, por lo tanto, se puede resolver ambos
sistemas
Cx  f , Cz u
(3.8.14)
por el método de factorización descrito en § 31. Luego, usando la fórmula (3.8.13) calculamos
 1 , y finalmente hallamos la solución requerida y del sistema original (3.8.3) por medio de la
ecuación (3.8.11):
y  x   1 (v T x ) z
(3.8.15)
Observación 3.8.1. Los sistemas (3.8.14) tienen la misma matriz y, por lo tanto, se puede
resolver ambos sistemas simultáneamente (por ejemplo, usando procesadores paralelos). ■
197
Observación 3.8.2.
El algoritmo descrito aquí es un poco más económico que la
eliminación de Gauss aplicada a la matriz original A.
Ejercicios:
1. Verifique la fórmula (3.8.6).
 
2. Sea C una matriz no singular n  n , y sean u y v dos vectores. Demuestre que
1   T
1
C  u vT 1  C 1  C1  uvTvCC1u





si v T C 1u  1 . Si v T C 1u  1 entonces la matriz C  u v T es singular [Indirecta: encuentre
 

un vector w  0 tal que (C  u v T ) w  0 ].
3. Verifique la fórmula de Sherman-Morrison-Woodbury:
C  UV 
T 1


1
 C 1  C 1U E  V T C 1U V T C 1
donde U y V son dos matrices n  m , y
UV T es la matriz del rango m. La fórmula de
Sherman-Morrison (3.8.8) es un caso particular de esta fórmula cuando m=1.
4. Sea una matriz triangular n  n
 1 0 0 
 1  1 0 

T (n, )  
 0 1  1 


    
que depende de . Encuentre tal  que la matriz T (n,  ) es singular [Indirecta: Busque la


solución periódica no nula x  ( x1 ,..., xn ) de la ecuación T (n,  ) x  0 . Suponiendo que x0  0 y
escriba la ecuación de la forma xi 1   xi  xi 1  0 para cada i  1,2,..., n , y use la
representación xi  sen(i ) y las fórmulas trigonométricas para sen(   ) . La respuesta:
T (n,  ) es singular cuando   2 cos  con la particularidad de que sen(n  1)  0 ].
xn 1  0 ,
5. Sean A, B, C y D matrices n  n , donde A no es singular. Demuestre que
 A B
  det A det( D  CA1 B) .
det
C D
198
3.9. Método de cuadrados mínimos
 
En esta sección consideremos el problema Ax  b cuando A es una matriz rectangular m  n con m
filas y n columnas, m  n . Aqui hay dos opciones diferentes dependiente del rango de la matriz:
rk( A)  n o rk( A)  n .
Definición 3.9.1. Considerando las filas y columnas de A como vectores, designamos por
row ( A) y col ( A) los espacios generados por combinaciones lineales de las filas y columnas,
respectivamente. ■
Teorema 3.9.1. Sea A una matriz m  n . Entonces ker( A)   row( A)   R n .


Demostración. Sea u i la fila i-ésima de A. Según la definición de la multiplicación de una matriz por
un vector, v  ker( A) si y sólo si
del espacio
 
ui , v  0 para cada i. Tomando en cuenta que cualquier vector

row ( A) es una combinación lineal de los vectores u i , obtenemos que un vector


v  row(A)  si y sólo si v  ker( A) . ■
Corolario 3.9.1. Sea A una matriz m  n y rango n. Entonces AT A es una matriz invertible
de n  n .
Demostración.
Es suficiente mostrar que

ker( AT A)  0 .

Sea AT Au  0 . Entonces





Au  ker( AT ) . Además, Au  col( A)  row( AT ) . En efecto, u T  u1 ,..., un  y A  a1  an  .


Por eso Au   ui ai  col( A) . Como row( AT )   ker( AT ) , obtenemos que
i

Au  row( AT ) row( AT )   0
199

y, por lo tanto, Au  0 . Ya que rk( A)  n , se deduce del Teorema 2.2.5 que null( A)  0 , es decir,


ker( A)  0 y u  0 . ■

Teorema 3.9.2. Sea A una matriz de m  n y rango n. Entonces, en el espacio R n , la matriz
P  A( AT A) 1 AT
(3.9.1)
es el operador de proyección ortogonal sobre el subespacio col( A) .
Demostración.
Tenemos R n  col( A)  col( A)  . Según el Corolario 3.9.1, la matriz AT A es

invertible. Además, se deduce del Teorema 3.9.1 que col( A)  ker( AT ) . Por eso, si v  col( A) 
 



entonces Pv  A( AT A) 1 ( AT v )  A( AT A) 1 (0)  0 . Luego notemos que si ai es la i-ésima columna

de A, entonces Pai es es la i-ésima columna de PA. Pero PA  A( AT A) 1 AT A  A y, por lo tanto,
 


Pai  ai . Sea u un vector del subespacio u  col( A) . Entonces


u  i  i ai
y


 
Pu  i  i Pai  i  i ai  u

 
 

Tenemos Pv  0 para cualquier vector v  col( A)  , y Pu  u para cualquier vector u  col( A) . Así
n
pues, P : R  col( A) es operador de proyección ortogonal. ■

Definición 3.9.2. Sea A una matriz de m  n . Un vector u  (u1 ,..., un )T  R n se llama
 
solución del sistema (posiblemente incompatible) Ax  b
obtenida por el método de cuadrados
mínimos (o simplemente solución de cuadrados mínimos) si
 
 
Au  b  min
A
v
b . ■
 n
2
vR
200
2
(3.9.2)


Recordemos que para qualquier vector v  R n , Av  col( A) . Esto significa que las soluciones




de cuadrados mínimos u corresponden a Au  col( A) para los cuales la distancia entre b y Au es



mínima. Esto ocurre cada vez cuando Au es la proyección ortogonal Projcol( A) b del vector b sobre
el subespacio col( A) . Así, la búsqueda de las soluciones de cuadrados mínimos de la ecuación


 
Ax  b es lo mismo que la búsqueda de las soluciones de la ecuacíon Ax  Projcol( A) b .
Teorema 3.9.3. Sea A una matriz de m  n y rango n. Entonces la solución de cuadrados

mínimos u  R n es única y satisface al sistema



Au  Pb  A( AT A) 1 AT b ,
(3.9.3)
es decir, tiene la forma


u  ( AT A) 1 AT b .
(3.9.4)


Demostración. Notemos que u  R n y Au  col( A) . Claro que la distancia (3.9.2) será mínima



cuando Au es la proyección ortogonal Pb del vector b sobre el espacio col( A) . Ya que rk( A)  n ,
la proyección P : R n  col( A) se define por (3.9.1) y, por lo tanto, una solución cuadrados mínimos
satisface al sistema (3.9.3). Además, bajo la condición rk( A)  n , el sistema (3.9.3) tiene una solución


única u  ( AT A) 1 AT b . ■
Ecuaciones normales. Surge la pregunta: ¿Qué pasa si rk( A)  n , es decir, la matriz A en el
problema de cuadrados mínimos no tiene rango completo n como se reqiere por el teorema 3.9.3?
Esto ocurre, por ejemplo, cuando en el proceso de repitir un experimento muchas veces con las
mismas condiciones de entrada obtenemos diferentes resultados. La afirmación siguiente da un
201
sistema compatible alternativo cuyas soluciones son las soluciones de cuadrados mínimos al sistema
original.
Teorema 3.9.4. Sea A una matriz de m  n . Las soluciones cuadrados mínimos del sistema
 
lineal Ax  b son las mismas que las soluciones del sistema lineal


AT Ax  AT b
(3.9.5)
 

Demostración.  ) Sea u  R n una solución cuadrados mínimos del sistema Ax  b . Entonces


Au  Projcol( A) b y, según la definición de la proyección ortogonal,


b  Projcol( A) b  col( A) 


Pero el Teorema 3.9.1 muestra que col( A)   ker( AT ) y, por lo tanto, b  Au  ker( AT ) . El último




hecho demuestra que AT (b  Au )  0 , o bien, AT Au  AT b . Por lo tanto, todas las soluciones


 
cuadrados mínimos del sistema Ax  b son soluciones del sistema AT Ax  AT b .
)



Al contrario, sea u  R n una solución del sistema AT Au  AT b . Entonces
 
Au  b  ker( AT )  col( A) 




 

Ya que Au  col( A) y b  Au  ( Au  b ) , por la definición obtenemos que Projcol( A) b  Au . El

 
Teorema 3.9.3 muestra que u es una solución cuadrados mínimos del sistema Ax  b . ■
Ejemplo 3.9.1 (Meyer, 2000). Determine la línea g (s)  p  rs que mejor se ajuste a los datos
s
1
2
3
4
g(s)
23
27
30
34
en el sentido de los mínimos cuadrados. Entonces
202
1
1
A
1

1
1
2 
,
3

4
 23 
 27 
b 
 30 
 
 34 
 p
y x 
r 


y, según el Teorema 3.9.4, el vector x es la solución del sistema AT Ax  AT b :
 4 10   p  114 
10 30   r   303

  

La solución es p  19.5 y r  3.6 , es decir, g (s)  19.5  3.6s . Definiendo el error   Ax  b se
puede calcular la suma de los cuadrados de los errores:
4

i 1
2
i
  T   ( Ax  b )T ( Ax  b )  0.2 . ■
Observación 3.9.1. La computación y la realización de la factorización LU de la matriz


AT A para resolver el problema AT Ax  AT b generalmente no son recomendables. Primero, no es
T
eficiente y, segundo, la computación de la matriz A A puede resultar en la pérdida de información
T
significativa, ya que el número de condición de la matriz A A es mayor que el de la matriz A (véase
(2.4.21)). El enfoque QR no sufre de cualquiera de estas objeciones. Supongamos que A  QR es la
T
T
T
T
T
factorización QR de la matriz A. Como A A  (QR) QR  R (Q Q) R  R R y AT  RT QT , la
ecuación (3.9.5) se reduce a
Rx  QT b
(3.9.6)
El sistema (3.9.6) con una matriz triangular superior se resuelve eficientemente por la sustitución
regresiva y, por lo tanto, la solución cuadrados mínimos es





u  ( AT A) 1 AT b  ( RT R) 1 (QR)T b  R 1 ( RT ) 1 RT QT b  R 1QT b .
203
Es preciso notar que el enfoque QR no hace ninguna diferencia, si el sistema es consistente (tiene una
solución) o no. ■
Transformaciones de Householder y el problema de cuadrados mínimos. El problema de
cuadrados mínimos (3.9.2) se puede resolver por medio de las transformaciones de Householder
 
(3.5.1). Supongamos que la matriz A  A( 0) y el vector b  b ( 0) se transforman mediante una suseción
de las transformaciones de Householder H i :


A(i )  H i A(i 1) , b (i )  H i b (i1)
(3.9.7)
Ya que m  n , la matriz final A(n ) tiene la forma
A
(n)
r11  r1n 
R
   , donde R      


0
 0  rnn 
(3.9.8)
 
es una matriz triangular superior n  n . Presentamos el vector h  b (n ) de la manera similar:



  h1 
h     , h1  R n , h2  R mn .
h2 
(3.9.9)


La matriz P  H n H n1  H1 es una matriz unitaria, además, A( n )  H A y h  Hb . Por eso,






b  Ax 2  H (b  Ax ) 2  b ( n )  A( n ) x .
2
(3.9.10)


Tomando en cuenta (3.9.8) y (3.9.9) obtenemos que el vector b ( n)  A( n) x tiene la estructura


 (n)



h
(n)
1  Rx
b A x   .
 h2 


Así, la norma b  Ax
2
se minimiza cuando


h1  R x
204
(3.9.11)


La matriz R tiene una matriz inversa R 1 si y solo si las columnas a1 ,,an de la matriz A son


linealmente independientes. La ecuación Ay  0 para y  0 es equivalente a la ecuación HAy  0 y,



por lo tanto, a la ecuación R y  0 . Si asumimos que las columnas a1 ,,an de la matriz A son


linealmente independientes, entonces el sistema triangular h1  R x tiene una única solución


 

x  R 1h1 . El vector x también es la solución cuadrados mínimos del problema dado Ax  b .
Notemos que hay muchas soluciones si las columnas de la matriz A (y de R) son linealmente
dependiente. El residuo es



b  Ax  h2
2
2
.■
(3.9.12)
Ejercicios:
1. Demuestre que im( A) y ker( A) son espacios lineales.
2. Sea A una matriz de n  n tal que A2  0 . Demuestre que im( A)  ker( A) y rk( A)  n / 2 .
3. Encuentre el proyector P  A( AT A) 1 AT para la matriz
1  1
A  2 3  .
1 0 
4. Encuentre la solución cuadrados mínimos del sistema
1 1
51
0 1  x   17 

  y  
1 1   53
1 1  12

 
[Indirecta: use la factorización QR 0 1   0
1 1  1
 2
205
0
 2
 1 
 0
0  

2

 1  .]
5. Sea A una matriz de m  n y rango n. Demuestre que P  A( AT A) 1 AT es simétrica, además,
P 2  P , es decir, la matriz P es el proyector.
6. Sea P una matriz de proyección sobre el espacio R n . Demuestre que E  P también es la
proyección.
7. (Laub, 2005). Encuentre todas las soluciones del problema de cuadrados mínimos
 
 
Au  b  min
 n Av  b
2
vR
2
cuando
1 1
A

1 1
206
y
1 
b   .
2
3.10. Problemas al capítulo 3
1. Una matriz se llama la matriz banda si aij  0 para i  j  p . Demuestre que la
factorización A  LU conserva la estructura de banda de las matrices, es decir, si
aij  0 para i  j  p , entonces lij  0 para i  j  p y u ij  0 para j  i  p .
2. Supongamos que la factorización LU se calcula por el método de eliminación de
Gauss sin elegir un elemento líder para una matriz real de diagonal dominante por
filas. Demuestre que en este caso, el coeficiente de crecimiento de elementos no
supera 2:

max uij
i, j
max aij
 2.
i, j
3. Supongamos que la factorización LU se calcula por el método de eliminación de
Gauss sin elegir un elemento líder para una matriz simétrica y definida positiva.
Demuestre que en este caso,

max uij
i, j
max aij
 1.
i, j
4. A veces, la factorización de Cholesky se presenta como A  BB T donde B es una
matriz triangular inferior con todos los elementos positivos en su diagonal principal
(Ciarlet, 1995). Las fórmulas de la factorización A  BB T son
i 1
bii  aii   bik2
k 1
Luego
207
para i  1,..., n .
j 1
bij 
aij   bik b jk
para i  j  1,..., n .
k 1
b jj
Usando estas fórmulas demuestre que la factorización de Cholesky conserva la
estructura de banda de las matrices, es decir, si aij  0 para i  j  p , entonces
bij  0 para i  j  p .
 
5. La solución del problema Ax  b está relacionada estrechamente con la búsqueda de

la matriz inversa A 1 (en efecto, formalmente x  A1b ). Existe un algoritmo para
calcular A 1 (Faddeev y Faddeeva, 1963) que usa la representación de las matrices en
la forma de bloques:
S
A
C

Demuestre que K  S  BD 1C
B
D 

1
K
y A 1  
M
L
.
N 
, M  D1CK ,

N  D  CS 1 B
L  S 1 BN . Así, la búsqueda de la matriz inversa A 1 se reduce a

1
,
cuatro
problemas con matrices de dimensión más pequeña.
6. Encuentre A 1 por el método del ejercicio 2 para la matriz simétrica
S
A
C
B
D 
donde
1.00 0.42 
0.54 0.66 
, B
S

,
0.42 1.00 
0.32 0.44 
0.54 0.32 
C
,
0.66 0.44 
[Resultado:
208
y
1.00 0.22 
D
.
0.22 1.00 
A 1
 2.50758
 0.12305

  1.01148

  1.37834
 0.12305
 1.01148
1.33221
 0.26142
 0.26142
1.53183
 0.44745
0.44560
 1.37834 
 0.44745 
.
0.44560 

2.00855 
Notemos que la inversa de una matriz simétrica también es simétrica, y por lo tanto,
M  LT ].
7. Demuestre que si A es una matriz hermitiana tridiagonal, entonces todas las matrices
Ak de la transformación QR son también matrices hermitianas tridiagonales.
8. Aplique el algoritmo QR para encontrar todos los eigenvalores de la matriz simétrica
1.00
0.42
A
0.54

0.66
0.42 0.54 0.66 
1.00 0.32 0.44 
0.32 1.00 0.22 

0.44 0.22 1.00 
[Resultado: el polinomio característico es
4  43  4.7522  2.111856   0.28615248
y eigenvalores (con la precisión de ocho dígitos en la mantisa son
1, 2,3, 4  2.32274880 , 0.79670669 , 0.63828380 , 0.24226071].
9. Sea A  QR  {aij } la factorización QR de una matriz cuadrada de orden n. Demuestre
que no debe temer que en el proceso de la factorización, los elementos crecerán, ya
que
max rij  n max aij
i, j
i, j
donde rij son elementos de la matriz R .
10. Para cada matriz simétrica
209
1 1
A
;
1 1
1 0 1
A  0 1 1 ;
1 1 2
1 1 1
A  1 1 1 .
1 1 1
encuentre una matriz ortogonal P tal que PT AP es diagonal.
 

11. Sea u1 , u2 ,..., un  una base ortogonal del espacio real R n . Demuestre la identidad de
Parceval:
2 n  
v   v , ui
2
i 1
A
12. Sea una matriz A   1
0
A3 
que tiene la forma de bloques. Demuestre que
A2 
det( A  E)  det( A1  E) det( A2  E) , es decir, los eigenvalores de A resultan de
la unión de los eigenvalores de las matrices A1 y A2 .
13. Demuestre que la matriz
1 2 0
A  1 3 1
0 2 4
puede ser factorizada como
1 0 0 1 2 0
A  1 1 0 0 1 1 .
0 2 1 0 0 2
14. Sea L una matriz triangular inferior y sea U una matriz triangular superior. Además,
lij  0 para i  j
y
u ij  0 para i  j . Demuestre que en general todos los
elementos de la matriz LU son no nulos.
210
15. Encuentre la descomposición PA=LU para las matrices siguientes:
2
6
5 
 3
0 1 0 


0 1 
0 0 1 ; A   24  12 41  39  .
A
;
A




 27 18  62 54 
1 4 
1 1 0


14
15  47 
 9
16. Sea A  aij  una matriz n  n . Usando la factorización QR demuestre la desigualdad
de Hadamard
n
n
det A   aij .
2
2
i 1 j 1

 



 

17. Sea B  [a1  ai1b ai1  an ] la matriz obtenida de una matriz A  [a1  ai1 ai ai1  an ]


mediante el cambio de la columna i-ésima ai por un vector b . Determine usando la
fórmula de Sherman-Morrison condiciones que garantizan la existencia de la matriz
inversa B 1 y demuestre que B 1  FA1 donde es una matriz de Frobenius, es decir,
la matriz que se difiere de la matriz identidad por una sola columna.
18. Sea A la matriz obtenida de una matriz A mediante el cambio de un solo elemento
aij por aij   . ¿Para que  existe A1 ?
19. Sea
A
G T
B
B
,
C 
G una matriz real y definida positiva de dimensión n , donde A es una matriz m  m .
Demuestre
que
C  BT A1B
es
definida
211
positiva
[Indirecta:
Divide

x

  x1 


conformemente como x     y determine x1 para un vector fijo x2 tal que
 x2 
  

x T Gx  x2T (C  BT A1B) x2 ].
20. Supongamos que el algoritmo QR para una matriz cuadrada A converge hacia una
matriz triangular superior. Como hallar los eigenvalores de A [Indirecta: Hay que
resolver el sistema triangular con la parte derecha nula].
21. Sea A una matriz definida positiva. Demuestre que ( A1 / 2 ) 1  ( A1 )1 / 2 .
22. Resuelve los sistemas siguientes
x1  2 x2  x3  x4  1
x1  2 x2  x3  x4  1 ,
x1  2 x2  x3  5 x4  5
2 x1  3 x2  x3  5 x4  0
3 x1  x2  2 x3  7 x4  0
4 x1  x2  3 x3  6 x4  0
x1  2 x2  4 x3  7 x4  0
23. Sea V  U U  un espacio vectorial (véase la definición 1.2.4). Así, x , y  0

  

si v  U y w U  . Cada u  V tiene una descomposición única u  v  w .
Demuestre que P es el proyector ortogonal sobre U si y sólo si P 2  P  PT .
24. Sea P y Q proyectores ortogonales y P  Q  E . Demuestre que la matriz
P  Q es ortogonal.
25. Encuentre los eigenvalores de una matriz de Givens y una matriz de
Householder.
26. Sea A una matriz simétrica y definida positiva. Demuestre que aii  0 para
todos los i.
212
27. Demuestre que una matriz cuadrada real A de orden n es simétrica si y sólo si A
tiene n eigenvectores ortogonales.
28. Sea A  S  iK una matriz hermitiana, donde S es simétrica y K es
antisimétrica. Sean u  x  iy y  eigenvector y eigenvalor de A . Demuestre
que
S
K

K   x 
x
   .



S   y
 y
29. Demuestre que la matriz hermitiana H  E  2ww* es unitaria si y sólo si
w*w  1.
30. Sea A una matriz cuadrada real y no singular, y sea B   A para   1 .
 
Demuestre que las soluciones de Ax  b y ( A  B ) y  b satisfacen la
desigualdad
x  y   x / (1   )
[Notemos la ausencia del número de
condición  ( A) ].
31. Demuestre que  ( A)  max ( A) / min ( A) .
32. Sea A  S *S definida positiva. Encuentre la relación entre  ( A) y  (S ) .
33. Sean A una matriz dada 2  2 , y X una matriz incógnita 2  2 . Demuestre que
la ecuación AX  XA  E no tiene solución.
34. Demuestre que la ecuación AX  XA  E no tiene solución y en el caso general
cuando las matrices A y X del ejercicio 33 son n  n .
213
35. Encuentre la solución general de la ecuación 2 i   i1  5i .
36. Halle una solución particular de la ecuación
2 i   i1  2i
[Indirecta: Busque la solución en la forma  i  C i 2i ].
37. Sean ui y vi dos soluciones particulares arbitrarias de la ecuación discreta
homogenea
aii1  bii  cii1  0 .
Demuestre que el determinante
ui
ui1
vi
vi1
 ui vi1  vi ui1
es igual a cero para cada i , o es distinto de cero para todos los i .
38. Demuestre que la solución general de la ecuación discreta homogénea
ai i  bi i1  0
con los coeficientes variables ai  0 , bi  0 , se puede escribir de la forma  i   ui
donde ui es una solución particular (arbitraria, pero no nula) de esta ecuación, y  es
una constante.
214
Capítulo 4. Métodos iterativos para sistemas lineales
El término "método iterativo" se refiere a una amplia gama de técnicas que utilizan aproximaciones
sucesivas para obtener soluciones más precisas para un sistema lineal en cada paso. Técnicas
 
iterativas rara vez se utilizan para la solución de un sistema lineal Ax  b si la matriz A tiene una
forma especial (por ejemplo tridiagonal, triangular, simétrica, etcétera) o tiene orden pequeño,
puesto que el tiempo requerido para alcanzar la suficiente precisión en un proceso iterativo es
superior al necesario para las técnicas directas, tales como la factorización de Thomas, la
eliminación de Cholesky, etcétera. Sin embargo, para sistemas grandes con un alto porcentaje de
elementos nulos de la matriz A, las técnicas iterativas son eficientes en términos tanto de
almacenamiento de ordenador y el cálculo. Los sistemas de este tipo surgen con frecuencia en la
solución numérica de ecuaciones diferenciales parciales.
 
Cada método iterativo genera una sucesión de soluciones aproximadas x  k  empezando de
 
un vector inicial x(0) . Para hacer iteraciones es conveniente reescribir el problema Ax  b en la




 
forma equivalente x  Bx  d y luego usar la fórmula x k   Bx k 1  d . Ya que el problema es
lineal, existen sólo dos opciones: las iteraciones
x   
k
convergen hacia la solución exacta x o
divergen, además, es preciso notar que la convergencia depende sólo de las propiedades de la
matriz B y no depende de la selección del vector inicial x(0) . En este capítulo consideramos sólo los
métodos iterativos básicos: el método de Jacobi, el método de Gauss-Seidel, el método de sobrerelajaciones sucesivas, el método de Richardson, y el método de direcciones conjugadas. La
evaluación de cada método iterativo se enfoca invariablemente sobre el problema de la rapidez de
215
convergencia de las iteraciones y sobre el problema de la realización del método. El objetivo
principal de este capítulo es analizar varios problemas que surgen en las aplicaciones de dichos
métodos incluyendo errores de iteración, convergencia de la solución numérica (aproximada) hacia
la solución exacta, optimización de un método iterativo con fin de acelerar su convergencia. Este
análisis ayudará elegir un método apropiado para resolver un problema particular de álgebra lineal.
Sobre este tema se recomiendan los trabajos de Kunz (1957), Faddeev y Faddeeva (1963), van
Kempen (1966), Young, 1971, Forsythe et al. (1977), Marchuk (1982), Rutishauser (1990), Golub y
Ortega (1992), Stoer y Bulirsch (1993), Ciarlet (1995), Demmel (1997), Kress (1998), Myron y
Isaacson (1998). El capítulo se termina por varios problemas presentados en el apartado 4.6.
4.1. Convergencia de las iteraciones
Presentamos la matriz A en la forma A  M  N donde la matriz M no es singular (es decir, su
 
inversa M 1 existe) y rescribimos el sistema original Ax  b de la forma equivalente

 
x  Bx  d
(4.1.1)
donde la matriz B  M 1N y vector d  M 1b . La forma (4.1.1) es conveniente para considerar el
método de iteraciones sucesivas



x k   Bx k 1  d , k  1,2,3,...
(4.1.2)

donde para empezar los cálculos se elige un vector x (0) inicial. Este vector se considera como la
aproximación inicial de la solución exacta

 
x*  Bx*  d del problema (4.1.1), y las iteraciones

x k  se llaman aproximaciones sucesivas de la solución exacta. La pregunta interesante es: ¿
216

 
Cuándo las iteraciones (4.1.2) convergen hacia la solución exacta x*  Bx*  d ? Exponemos el
teorema que proporciona una condición suficiente para la convergencia del método iterativo.
Teorema 4.1.1. Si B  1 por lo menos en una norma matricial, entonces el sistema (4.1.1)


tiene una sólo solución x* , y las iteraciones x (k ) definidas por la fórmula (4.1.2) convergen hacia la


solución exacta x* para cualquier vector inicial x (0) con la velocidad equivalente a la de una
progresión geométrica con la razón B .
Demostración. La solución exacta satisface la ecuación

 
x*  Bx*  d
(4.1.3)
Usando la desigualdad triangular para una norma vectorial, obtenemos





x*  Bx*  d  B x*  d ,
es decir,

x* 

d
1 B
(4.1.4)


De la última desigualdad se deduce la unicidad de la solución del sistema homogéneo x  Bx y,

por tanto, la existencia y unicidad de la solución x* del sistema (4.1.1) para cualquier término

independiente b . Ahora analicemos la convergencia del método. Sea



e k   x k   x*
(4.1.5)
el error de k-ésima iteración (aproximación). Restando la ecuación (4.1.3) de la ecuación (4.1.2),
hallamos
217


e k   Be k 1
(4.1.6)



y, consiguientemente, e k   B k e 0 , donde B k es la k-ésima potencia de la matriz B, y e 0 es el
error inicial. Entonces,


e k   B e k 1
y


e  k   B k e 0   B
k

e 0 
(4.1.7)



Debido a la condición B  1 y a la estimación (4.1.7), cuando k aumenta, el error e k   x k   x*

tiende a cero ( e k   0 ) linealmente coma una progresión geométrica con la razón B . Teorema
ha quedado demostrado. ■
Observación 4.1.1. Se deduce directamente de (4.1.7) que mientras menor sea la norma B
de la matriz, más rápida es la convergencia. Consideremos la situación cuando B es menor que
uno, pero cerca a uno; entonces, la convergencia es muy lenta, y el número de iteraciones




necesarias para disminuir la norma e k  del error e k   x k   x* depende significativamente del


error inicial e 0 . En este caso, es deseable “adivinar” bien el vector inicial x (0) . Sin embargo la
elección de dicho vector no tiene importancia si la norma B es pequeña y la convergencia es
rápida. ■

Observación 4.1.2. Sea ei(k ) la componente i-ésima del error e k  de la iteración k-ésima.

Como ei( k )  e ( k ) para cada i , todas los componentes ei(k ) tienden a cero con la misma velocidad:
ei( k )  B
k

e ( 0) . ■
218
Observación 4.1.3. Recordemos que en un espacio vectorial, dos normas arbitrarias 

q
p
y
son equivalentes (véase (1.2.22)), es decir,
C x p x q  K x
(4.1.8)
p
para cualquier vector x del espacio y, en particular,


C e (k )  e (k )
p
q

 K e (k )
Así, de la convergencia de las iteraciones en la norma 
p
(4.1.9)
p
se deduce su convergencia en la norma
 q , y viceversa. Entonces hay que encontrar sólo una norma matricial apropiada en el sentido de
que B  1 . ■
La elección de una norma apropiada de la matriz B requiere una experiencia, como se
deduce del ejemplo siguiente.
Ejemplo 4.1.1. Sea
 3 / 5 3 / 5
B
 ,
 2 / 5 1/ 5
la matriz del proceso iterativo (4.1.2). Calculemos la 1-norma y la 2-norma de la matriz. Tenemos
1/ 2
2
6
B 1  max  bij   1 , y
1i  2
5
j 1
B
F
 2 2
2
   bij 
 i1 j 1


23
 1.
5
Entonces, se puede usar el teorema 4.1.1 con la norma de Frobenius (o con la 2-norma, ya que
B2 B
F
 1 ), mientras que la 1-norma es inútil. Por el contrario, para otra matriz
219
 4 / 5 1 / 10
B
 ,
 1 / 5 3 / 5 
la 1-norma es buena y la norma de Frobenius es inútil, ya que
1/ 2
2
9
B 1  max  bij   1 ,
1i  2
10
j 1
y
B
F
 2 2
2
   bij 
 i1 j 1


21
1
20
Así, en el análisis de convergencia del método iterativo hay que hallar una norma apropiada. ■
Estimación del error de las iteraciones. Ahora derivamos unas estimaciones muy útiles en
la práctica que permiten estimar el error de k-ésima aproximación a través de la cercanía de las dos


últimos iteraciones x k  y x k 1 . Según (4.1.6), tenemos
 
 
x*  x k   B( x*  x k 1 )
(4.1.10)

Restando de las ambas partes de (4.1.10) el vector x k 1 , obtenemos
 


 
x*  x k 1  x k   x k 1  B( x*  x k 1 )
y, por lo tanto,
 


 


 
x*  x k 1  x k   x k 1  B( x*  x k 1 )  x k   x k 1  B ( x*  x k 1 ) ,
o bien,
 
x*  x k 1 
1  k   k 1
x x
1 B
Además, en virtud de (4.1.10) tenemos
220
(4.1.11)
 
 
x*  x k   B x*  x k 1
(4.1.12)
De las desigualdades (4.1.11) y (4.1.12), obtenemos finalmente la estimación básica
 
x*  x  k  
B
1 B


x  k   x  k 1
(4.1.13)
que permite evaluar el error de k-ésima aproximación a través de la diferencia entre las dos últimas
aproximaciones.
Lema 4.1.1. Si el radio espectral  ( B)  1 entonces ( E  B)1 existe y
( E  B)1  E  B  B 2 

 Bj .
j 0
Demostración. Si  es eigenvalor del problema espectral Bx   x entonces 1   es eigenvalor
del problema espectral (E  B) x  (1  ) x . Pero    ( B )  1 y   1 no es eigenvalor de B y, por
lo tanto,   0 no es eigenvalor de E  B , es decir existe la matriz inversa ( E  B)1 . Sea
Sk  E  B  B 2 
 B k . Entonces
( E  B) Sk  ( E  B  B 2 
 B k 1 )  E  B k 1
 Bk )  (B  B2 
La condición  ( B)  1 implica limk  Bk  0 y, por lo tanto, limk  ( E  B) Sk  E . Así,
( E  B)1  limk  Sk  E  B  B 2 

 Bj . ■
j 0
La siguiente afirmación ofrece una condición necesaria y suficiente (es decir, un criterio)
para la convergencia del método iterativo.
221

Teorema 4.1.2. Supongamos que el sistema (4.1.1) tiene una sólo solución x* . Entonces las


aproximaciones sucesivas (4.1.2) convergen hacia la solución x* para cualquier vector inicial x (0)
si y sólo si todos los eigenvalores de la matriz B están dentro de un disco del radio unitario, es
decir, si el radio espectral de B satisface la desigualdad  ( B)  1.
Demostración. Primero supongamos que  ( B)  1 . Entonces,
x  k   Bx  k 1  d  B( Bx  k 2  d )  d
 B 2 x  k  2   ( B  E )d 
 B k x  0  ( B k 1 
 B  E )d
Debido a Lema 4.1.1, limk  B k x (0)  0 y
 

lim k  x  k   lim k  B k x  0    Bi  d  ( E  B) 1 d
 i 0 
es decir, x  k  converge a x  ( E  B) 1 d y x  Bx  d .
Para probarlo contrario, vamos a demostrar que para cualquier u , tenemos lim k  B k u  0 ,
lo que es equivalente a  ( B)  1 . Sea u un vector arbitrario, y x sea la única solución de la
ecuación x  Bx  d . Sean x (0)  x  u , x  k   Bx  k 1  d y x  k  converge a x . Además,
x  x  k   ( Bx  d )  ( Bx  k 1  d )  B( x  x  k 1 )
y, por lo tanto,
x  x  k   B( x  x  k 1 )  B 2 ( x  x  k 2 ) 
 B k ( x  x  0 )  B k u
k
Así pues lim k  B k u  lim k  x  x    0 para cualquier u y, por tanto,  ( B)  1 . ■
222
Sin embargo, en general, no es fácil estimar el radio espectral de la matriz B, y por tanto,
utilizar el teorema 4.1.2. No obstante, ya sabemos un método iterativo (véase § 5) para calcular
 ( B)  max i ( B) . Además, ahora demostremos que el método iterativo para resolver el sistema
i
 
Ax  b siempre converge para cada matriz A diagonal dominante.
 
Ejemplo 4.1.2. Sea Ax  b un sistema de las ecuaciones lineales algebraicas donde A es
una matriz diagonal dominante, es decir,
max  aij / aii  1
i
Presentemos la matriz
(4.1.14)
j i
A  D  H , donde la matriz
A del sistema de la forma
D  diag a11, a22 ,...,ann  es diagonal. Demostramos que el método iterativo (4.1.2) converge hacia
 
la solución única de la ecuación Ax  b (4.1.1) para cualquier vector inicial x 0 .

 
 
En efecto, el sistema original ( D  H ) x  b se transforma a la forma x  B x  d donde


B  D 1 H , y d  D 1b . Usando la norma matricial
B

 max bij
i
y la condición (4.1.14),
j i
obtenemos
B

 max bij  max
i
i
j i
j i
aij
aii
1
(4.1.15)
y, por lo tanto, según el teorema 4.1.1, las iteraciones (4.1.2) convergen. ■
Además, notemos que la rapidez de convergencia aumenta junto con la dominación diagonal
por la disminución de la norma B  .
223
Ejercicios:


1. Demuestre que el comportamiento asintótico del vector de error e k   B k e 0 no es peor que
 ( B) k donde  (B) es radio espectral de la matriz B [Indirecta: use la norma euclidiana para
los vectores e k  y e 0 , y la norma espectral para la matriz B k ].
2. Demuestre que mientras menor sea el radio espectral  (B) de la matriz B, más rápida es la
convergencia. [Indirecta: Use Observación 4.1.1].
3  

3. Sea A    1
  2
1
3
2
2 
 2  , donde   0 es un número pequeño, y sea B la matriz B en
3   
el método iterativo (4.1.2). Los eigenvalores de la matriz B0 son 0,  i,  i, y por lo tanto el
método iterativo diverge un mínimo. Demuestre que el método iterativo converge si   0
[Indirecta: Use el criterio de Gershgorin (teorema 2.8.2) para estimar los eigenvalores de la
matriz B ].
4. Demuestre que las iteraciones sucesivas convergen para una matriz si y sólo si ellas convergen
para su traspuesta.
5. Sea  (A) el radio espectral de una matriz A. Demuestre que  ( A)  1 si y sólo si lím Ak  0 .
k 
6. Demuestre que los procesos iterativos
x k 1  ( E   AB) x k   f
y
convergen o divergen simultáneamente.
224
x k 1  ( E   BA) x k   f
4.2. Método de Jacobi
Consideremos ahora el método de iteraciones simples, o el método de Jacobi. Sea
 
Ax  b
(4.2.1)
un sistema de ecuaciones lineales donde todos los elementos diagonales de la matriz A difieren de
cero: aii  0 ( i  1,..., n) . Si dividimos la i-ésima ecuación del sistema (4.2.1) entre
aii i  1,..., n  , y después trasladamos todas las incógnitas salvo x i a la derecha, entonces
llegaremos a un sistema equivalente

 
x  Bx  d
(4.2.2)
donde
di 
bi
,
aii
 aij / aii , j  i
B  bij , bij  
, j i
 0
 
(4.2.3)
En el método de Jacobi las iteraciones se realizan por medio de la fórmula
n
xi( k )

b x
( k 1)
ij j
 di
j 1
donde xi0  son arbitrarias ( i  1,..., n; k  1,2,... ).
Por primera vez el método de Jacobi apareció en el Teorema 4.1.3. De hecho, dicho
método se puede presentar en términos de las matrices L, D y U definidas por
0 
a
0
L   21
 


an1 an 2
 0
 0
,
 

 0
0 a12
0 0
U 
 

0 0
225
a1n 
 a 2 n 
 a n1,n 


0 

(4.2.4)
D  diag  a11 , a 22 ,, a nn 
(4.2.5)
A  L  D U
(4.2.6)
Es evidente que
El mètodo de Jacobi es el representante típico de una familia grande de los métodos
iterativos de la forma



M x k   N x k 1  b ,
(4.2.7)
o



x k   Bx k 1  d ,
donde A  M  N , M es no singular, es decir, existe la matriz inversa M
1
. En el método de
Jacobi,
M D ,
N  L  U 
(4.2.8)
y, por lo tanto,
B  M 1N  D1( L  U ) ,


d  D 1b .
(4.2.9)
La pregunta interesante es: ¿Cuándo convergen las iteraciones (4.2.7) hacia la solución exacta


x  A1b ?

Teorema 4.2.1. Supongamos que b es un vector dado de dimensión n, y A  M  N es


una matriz no singular. Si M tampoco es singular, y el radio espectral  M 1 N de la matriz

M 1 N satisface la desigualdad  M 1 N   1, entonces las iteraciones x (k ) definidas por la



fórmula (4.2.7) convergen hacia la solución exacta x  A1b para cualquier vector inicial x (0) .
226


1
Demostración. Debido a que  M N  B 2 , la afirmación se deduce directamente del
Teorema 4.1.1. ■



Denotando el error de la k-ésima iteración por e k   x k   x y usando la ecuación

 
Mx  Nx  b , obtenemos




M x k   x   N x k 1  x  .
Por lo tanto,


k 


e k   M 1 Ne k 1  M 1 N e 0 
y

k 

e k   M 1 N e 0    M 1 N
2
2
2

k

e 0 
2
en la norma euclidiana.
Observación 4.2.1. Los Teoremas 4.1.1 y 4.2.1 representan resultados teóricos básicos
para los métodos iterativos (4.2.7). Notemos que, en general, es difícil aplicarlos para obtener
inmediatamente una conclusión sobre la convergencia. En efecto, hay que encontrar una norma
apropiada en la cual B  1 . También el radio espectral de la matriz iterativa es normalmente
desconocido. Sin embargo, hay clases particulares de matrices para las cuales es bastante fácil
comprobar las condiciones de convergencia. ■
La siguiente afirmación generaliza el resultado del Ejemplo 4.1.2.
Teorema 4.2.2. Supongamos que la matriz A satisface a una de las condiciones:
n
r  max
i
a
j 1
j i
227
aij
ii
1
,
(4.2.10)
n
aij
i 1
i j
a jj
r1  max 
j

 n
rF  
 i 1
 i j

n

aij
1/ 2
2


aii 


j 1
j i
 1,
(4.2.11)
1
.
(4.2.12)
Entonces el método de Jacobi



x k   D1L  U x k 1  D1b
(4.2.13)



converge hacia la solución exacta x  A1b para cualquier vector inicial x (0) .

 
Demostración. El sistema (4.2.1) tiene a la forma x  B x  d donde B se define por (4.2.9).
Tomando en cuenta que
B

 r ,
B 1  r1 , y
B
F
 rF ,
obtenemos que las iteraciones convergen según el Teorema 4.2.1, ademas, (4.1.13) estima la
rapidez de convergencia:
 
x*  x k 
donde




es una de las normas


,
B
1 B 

1
o


x k   x k 1

F

,
(4.2.14)
, respectivamente. Así, la rapidez de
convergencia aumenta con el grado de dominancia de la diagonal principal. ■
Notemos que las condiciones suficientes de convergencia (4.2.10)-(4.2.12) no son
equivalentes. Las condiciones (4.2.10) y (4.2.11) significan que
n
a
ij
j 1
j i
 aii
para cada i  1,2,..., n ,
228
(4.2.15)
y
n
a
ij
 a jj
i 1
i j
para cada j  1,2,..., n .
(4.2.16)
En (4.2.15), los elementos de la matriz se suman en cada fila, mientras que en (4.2.16), ellos se
suman en cada columna. Así, en términos generales, el método de Jacobi converge para una
matriz estrictamente diagonal dominante.
Estimación del número de iteraciones. El error de la k-ésima iteración del método



x ( k 1)  Bx ( k )  d
(4.2.17)




x k   x *  B k x 0   x * 
(4.2.18)
se estima como
Supongamos que la matriz B de dimensión n tiene n eigenvectores linealmente independientes.



Usando la base de los eigenvectores u i del problema espectral Bui  i ui , se puede escribir


x ( 0)  x * 
n

 u
i i
(4.2.19)
n



x k   x *   ki i ui
(4.2.20)
i 1
y, por lo tanto, presentar el error de la forma
i 1


Así, para reducir la amplitud  i en la i-ésima componente del error inicial x (0)  x * por el factor
10  m es necesario hacer k iteraciones, donde k se estima como
i  10 m , o
k
229
k
m
 lg i
(4.2.21)
Asintóticamente (para k grande), en la suma (4.2.20) el término con el eigenvalor máximo según
módulo es dominante y, por lo tanto, este término se usa para las estimaciones asintóticas. ■
A  aij  se llama reducible si existen dos
Definición 4.2.1. Una matriz n  n
subconjuntos no vacios G y F del conjunto de número 1,2,..., n tal que
GF 0 ,
G  F  1,2,..., n
y
aij  0 , i  G ,
j F .
De lo contrario, la matriz se llama irreducible. ■
Una matriz reducible A, después de reordenar sus filas y columnas, se puede dividir en
una matriz en bloques con un bloque no diagonal nulo:
A
~
A  PT AP   11
0
A21 
,
A22 
donde P es una matriz de permutación. En este caso, la solución del sistema (4.2.1) se reduce a la
solución del sistema
~
~
A~
x b , o
 A11
0



A21   y   w
   ,
A22   z   f 
es decir, a dos sistemas más pequeñas con las matrices A11 y A22 :

 
 
A22 z  f y A11 y   A21z  w .
 
Teorema 4.2.3. Supongamos que la matriz A  aij es irreducible y su diagonal principal
es débilmente dominante:
n
a
ij
j 1
j i
 aii
para cada i  1,2,..., n ,
230
(4.2.22)
además la desigualdad (4.2.22) es estricta por lo menos para una fila de la matriz. Entonces el



método de Jacobi converge hacia la solución unica x  A1b para cualquier vector inicial x (0) .
Demostración. En efecto, en este caso, B
por lo tanto,  ( B)  B


 1 para la matriz de Jacobi B   D1( L  U ) y,
 1 para el radio espectral de B. Supongamos ahora que existe un
eigenvalue  de B tal que

  1 . Supongamos que x


 1 para el eigenvector asociado.

Entonces, se obtiene de la ecuación x  Bx la desigualdad
 xi 
n
a
aij
j 1
j i



Sea G  i : xi  1 . Ya que x
tenemos

n
xj 
a
j 1
j i
ii
aij
ii
1 ,
i  1,2,..., n
(4.2.23)
 1 , entonces el conjunto G no es vacio. Para un i de G
 xi  1 y, por lo tanto, la igualdad tiene lugar en (4.2.23), es decir,
n
a
j 1
j i
aij
ii
1,
i G .
Ya que la diagonal principal de la matriz A es débilmente dominante, se deduce de aquí que el
conjunto complementario
F  1,2,..., n \ G
tampoco es vacio. Ya que A es irreducible, existen números i0  G
ai0 j0  0 . Usando la desigualdad
x j0  1 obtenemos la contradicción
231
y
j0  F tales que
1  xi0   xi0 
n
ai0 j
a
j 1
j i
n
xj 
i0 i0
ai0 j
a
j 1
j i
1
i0i0
Por lo tanto,  ( B)  1 . El teorema queda demostrado. ■
Ejercicios:
1. Aplique el método de Jacobi al sistema
5 x1
 2 x3  1
 4 x1  8 x2  2 x3  18
5 x2  9 x3  37
y estime el número de iteraciones k necesario para aproximar la solución exacta con la
precisión x  xk   10 4 .
2. Verifique que el método de Jacobi converge para el sistema
x1  2 x2  2 x3  1
x1  x2  x3  3
2 x1  2 x2  x3  5
[Solución: x1  x2  x3  1 (Ames, 1992)].
2
 1 2
3. Demuestre que para la matriz A    1
1  1 el método de Jacobi converge.

 2  2
1
 2 1  1
4. Demuestre que para la matriz A   2 2  2 , el método de Jacobi diverge.


 1 1
2 
5. Demuestre que la matriz
0  1  1
2
0
2  1  1

A
 1  1 2
0


2
 1  1 0
es irreducible y el método de Jacobi diverge.
6. Demuestre que la matriz
232
 2  1 0  1
 1 2  1 0 

A
 0 0 2  1


 1 0  1 2 
es irreducible y no singular.
7. Demuestre que el método de Jacobi converge para una matriz A si y sólo si el converge para la
matriz traspuesta AT .
8. Demuestre que el método de Jacobi, en general, no converge para las matrices semidefinidas
positivas [Indirecta: construye un contraejemplo usando Corolario 4.3.2 de la sección
siguiente].
9. Supongamos que
 1 a 
A

 b 1 
Sea B la matriz del método de Jacobi. Demuestre que  ( B)  ab y, por lo tanto, el
fortalecimiento de la posición dominante en la diagonal principal (por ejemplo, una
disminución en a (o/y en b) causa una más rápida convergencia del método de Jacobi.
Entonces, con cambios multidireccionales (por ejemplo, cuando el valor de a aumenta pero el
de b crece) la rapidez de convergencia depende del valor ab (Varga, 1962).
10. Demuestre que las iteraciones de Jacobi se puede presentar de la forma x 
k
donde r ( k )  b  Ax   .
233
k 1
 x    Hr ( k )
k
4.3. Método de Gauss-Seidel
Consideremos ahora otro método iterativo que a veces converge más rápido que el de Jacobi. Se
llama el método de Gauss-Seidel (se also Nekrasov, 1982). Suponemos de nuevo que todos los
elementos diagonales de la matriz A difieren de cero ( aii  0 , i  1,..., n ) y escribimos el sistema
de ecuaciones lineales
 
Ax  b
(4.3.1)

 
x  Bx  d ,
(4.3.2)
en la forma (4.2.2):
usando la presentación (4.2.4) y (4.2.5) de la matriz A:
A  L  D U
(4.3.3)
A diferencia del método de Jacobi, ahora tomamos A  M  N donde
M DL ,
N  U
(4.3.4)
Como resultado, las iteraciones de Gauss-Seidel aceptan la forma vectorial



M x k   N x k 1  b ,
(4.3.5)



x k   Bx k 1  d ,
(4.3.6)
o
donde
B  M 1N  ( D  L)1U ,


d  ( D  L)1b .
(4.3.7)
Para las computaciones actuales se usa la forma (4.3.5) con la matriz triangular inferior M, ya que
 k 
la solución x se encuentra fácilmente por la sustitución directa.
234
Así, las iteraciones en el método de Gauss-Seidel se realizan por medio de la fórmula
i 1
xi( k ) 

n
bij x (jk ) 
j 1
b x
( k 1)
ij j
 di
(4.3.8)
j  i 1
donde xi0  son arbitrarias ( i  1,..., n; k  1,2,... ). A diferencia de las iteraciones de Jacobi, para
obtener i-ésimo componente de la k-ésima aproximación en el método de Gauss-Seidel se utilizan
inmediatamente todos los componentes x jk  ya obtenidos (con j  i ). Esto es muy conveniente
para cálculos computacionales, ya que los valores nuevos pueden ser almacenados en los lugares
ocupados por los valores viejos, lo que reduce los requerimientos de almacenaje.
Estudiamos ahora la convergencia de las iteraciones (4.3.5) hacia la solución exacta


x  A1b . Es evidente que las Teoremas 4.1.1 y 4.2.1 son validos de nuevo con la particularidad
de que B se define por (4.3.7). Las condiciones de convergencia de los métodos de Jacobi y de
Gauss-Seidel no coinciden, pero se cruzan. En algunos casos, el método de Gauss-Seidel
proporciona una convergencia más rápida (Marchuk, 1982; Volkov, 1990; Golub y Ortega, 1992;
Ciarlet, 1995).
Teorema 4.3.1. Supongamos que una matriz A satisface al criterio de Sassenfeld:
p  max pi  1 ,
(4.3.9)
1i  n
donde
n
p1 

j 2
i 1
a1 j
a11
;
pi 

j 1
aij
aii
n
pj 

j  i 1
aij
aii ,
i  2,..., n .
(4.3.10)
Entonces el método de Gauss-Seidel converge hacia la solución única de la ecuación (4.3.1) para

cualquier vector inicial x 0 .
235
Demostración.
Una demostración se puede encontrar en Skiba (2001). Damos ahora otra
demostración del teorema (Kress, 1998). Consideremos la ecuación


M u  N w,
(4.3.11)


1
o bien, u  M N w . Usando (4.3.4) presentamos (4.3.11) en la forma escalar:
i 1
ui  

j 1
aij
aii
n
uj 

aij
aii
j  i 1
wj ,

Suponiendo que w   1 obtenemos por inducción que
i  1,..., n
ui  pi , donde

(4.3.10). Tomando en cuenta las condiciones (4.3.9) llegamos al resultado u
M 1N

 p 1
(4.3.12)
p i se definen por

 p . Entonces
(4.3.13)
y, según el Teorema 4.1.1, el método de Gauss-Seidel converge hacia la solución única de la
ecuación (4.3.1) para cualquier vector inicial x 0 . ■
Corolario 4.3.1. Sea A una matriz estrictamente diagonal dominante. Entonces el método
de Gauss-Seidel converge hacia la solución única de la ecuación (4.3.1) para cualquier vector

inicial x 0 . ■
La última afirmación se puede demostrar independiente del Teorema 4.3.1. En efecto, la
matriz de iteraciones en el método de Gauss-Seidel es B  ( D  L)1U y sus eigenvalores se
hallan de la ecuación
det[ B   E ]  det[( D  L) 1U   E ]  det[( D  L) 1 ]det[ A ]  0 .
236
donde A  U   D   E . Tenemos det[ A ]  0 . Además, si A  L  D  U es una matriz de
diagonal estrictamente dominante, entonces para   1 la matriz A también es diagonal
estrictamente dominante y, por lo tanto, es no singular, es decir, det[ A ]  0 . Así   1 , y el
método de Gauss-Seidel converge.
Ejemplo 4.3.1. La diagonal principal de la matriz tridiagonal
 2 1

 1 2  1





1 2 1
A

      

 1 2  1


 1 2 

no es estrictamente dominante, es decir, las condiciones (4.2.15) no se cumlen para A. Sin
embargo, ella satisface al criterio de Sassenfeld. En efecto, r  1 , es decir, no se cumple
(4.2.10). De otro lado, tenemos
p1 
1
;
2
pi 
1
1
pi 1  , i  2,..., n 1 ;
2
2
pn 
1
pn 1 .
2
Se deduce de aquí por inducción que
pi  1
1
2
i
, i  1,..., n  1 ;
pn 
1 1

.
2 2n
Por lo tanto,
p  1
1
2
n 1
1
y, según el Teorema 4.3.1, el método de Gauss-Seidel converge para la matriz A. Notemos que
cuando n es grande, el número p será cerca de uno y, por consiguiente, la velocidad de
237
convergencia será muy lenta. Se indica en la siguiente sección como se puede accelerar la
convergencia. ■
Teorema 4.3.2. Sea A una matriz simétrica y definida positiva. Entonces las iteraciones
de Gauss-Seidel convergen hacia la solución única de la ecuación (4.3.1) para cualquier vector
inicial x 0 .
Demostración. Ya que A es simétrica, tenemos U  LT y, por tanto, (4.3.3) acepta la forma
A  L  D  LT , donde L es una matriz triangular inferior con los elementos nulos en su diagonal
principal. Demostramos que todos los eigenvalores de la matriz G  M S1 N S  ( D  L) 1 LT
están estrictamente dentro del círculo unitario. Ya que la matriz D es definida positiva,
introducimos otra matriz:


G1  D1 / 2GD1 / 2   D1 / 2 ( D  L) 1 LT D 1 / 2   D1 / 2 ( D  L) 1 D1 / 2 D 1 / 2 LT D 1 / 2

  D 1/ 2 ( D  L) D 1/ 2

1
LT1  ( E  L1 ) 1 LT1

(4.3.14)
donde L1  D 1 / 2 L D 1 / 2 . Las matrices G y G1 tienen los mismos eigenvalores. En efecto, si


G1 x  x


entonces G( D 1 / 2 x )   ( D 1 / 2 x ) . Por lo tanto es suficiente demostrar que
(4.3.15)
 (G1 )  1.

 
Supongamos que el eigenvector x en (4.3.15) es unitario, es decir, x * x  1 . Debido a (4.3.14) y
(4.3.15) obtenemos


 ( E  L1 ) 1 LT1 x  x
o bien,


 LT1 x   ( E  L1 ) x
238
Entonces
 
   
 
 x * LT1 x   ( x * Ex  x * L1 x )   (1  x * L1 x )
Debido a que L1 tiene elementos reales, tenemos LT1  L1 , y si
*
(4.3.16)
 
x * L1 x  a  ib , entonces
 
x * LT1 x  a  ib . Sustituyendo estos valores en la ecuación (4.3.16) obtenemos
 
2
a2  b2
1  a  ib
2

a2  b2
(1  2a)  a 2  b 2
(4.3.17)
Se deduce de aquí que   1 si 1+2a>0. Demostremos ahora la última desigualdad. Con este
fin notemos que
positiva, es decir,
la matriz
D 1 / 2 A D 1 / 2  D 1 / 2 ( L  D  LT ) D 1 / 2  E  L1  LT1 es definida
   
0  1  x * L1 x  x * LT1 x  1  (a  ib)  (a  ib)  1  2a . Por lo tanto,   1 .
Según el Teorema 4.1.1, el Teorema 4.3.2 queda demostrado. ■
El Teorema 4.3.2 se usa frecuentemente en los problemas elípticos donde a menudo las
matrices son simétricas y definidas positivas. La afirmación del Teorema 4.3.2 también sigue del
teorema de Householder-John.
Teorema 4.3.3 (de Householder-John). Si A y B son matrices reales tales que tanto A
como A  B  BT son simétricas y definidas positivas. Entonces el radio espectral de la matriz
H  ( A  B)1 B es estrictamente menor que uno:  (H )  1.
Demostración. Consideremos problema espectral Hu  u
Como A es definida positiva,   1 . Por lo tanto,
u * Bu 

 1
Tenemos
239
u * Au
y, por tanto, Bu  ( A  B)u .
0  u ( A  B  B )u  (1 
*
T



1 
2
) u Au 
u * Au
2
 1  1
 1
*
ya que B es una matriz real. Ahora   1 implica   1  0 , y recordando que u * Au  0 , vemos
que 1    0 . Por lo tanto | λ | <1 o  (H )  1. ■
2
Es fácil demostrar ahora que Teorema 4.3.2 es un corolario del Teorema de HouseholderJohn. En efecto, A  L  D  U es simétrica y, por lo tanto, A  L  D  LT . Como A es definida
positiva
entonces
D
también
es
definida
positiva.
Tomando
B  LT
obtenemos
T
A  B  BT  A  L  LT  D y, por lo tanto, H  ( A  B)1 B  ( D  L)1 L
 ( D  L)1 U es
la matriz de iteraciones de Gauss-Seidel. ■
Corolario 4.3.2.
Si A y 2D  A son simétricas y definidas positivas entonces las
iteraciones de Jacobi convergen.
En efecto, tomando B  A  D obtenemos A  B  BT  2 D  A y, por lo tanto,
H  ( A  B)1 B   D 1 ( L  LT ) es la matriz de iteraciones de Jacobi. ■
La afirmación que se formula abajo sin demostración, proporciona condiciones bajo las
cuales los métodos de Jacobi y de Gauss-Seidel convergen o divergen simultáneamente.
Teorema 4.3.5 (Stein-Rosenberg).
1
Sean BJ   D ( L  U ) y BGS  ( D  L) 1U
matrices de iteración de los métodos de Jacobi y de Gauss-Seidel con los radios espectrales
 ( BJ ) y  ( BGS ) . Supongamos que todos los elementos de la matriz BJ   D 1 ( L  U ) no
son negativos (véase (4.2.4), (4.25)). Entonces
sea  ( BGS )   ( BJ )  0
sea
o
240
 ( BGS )   ( BJ )  1 ,
sea  ( BGS )   ( BJ )  1
sea
 ( BGS )   ( BJ )  1 ,
es decir, ambos métodos convergen o divergen simultaneamente. ■
Ejercicios:
3 2 1 
1. Consideremos la matriz simétrica y definida positiva A  2 3 2 (Iserles, 1998). Sus


1 2 3
eigenvalores son 2 y 12 (7  33 )  0 . Demuestre que el método de Gauss-Seidel para la
matriz A converge, y el método de Jacobi diverge [Indirecta: demuestre que  ( BGS )  1 , y
 ( BJ )  16 (1  33 )  1 ].
2. Demuestre que el método de Gauss-Seidel converge para el sistema
5 x1  3x2  4 x3  12
3 x1  6 x2  4 x3  13
4 x1  4 x2  5 x3  13
mientras el método de Jacobi diverge. [Solución: x1  x2  x3  1 (Ames, 1992)].
3. El siguiente ejercicio de Collatz (1966) muestra lo contrario. Verifique que el método de
Jacobi converge para el sistema
x1  2 x2  2 x3  1
x1  x2  x3  3
2 x1  2 x2  x3  5
(véase ejercicio 2 de la sección 4.2), mientras que el método de Gauss-Seidel diverge
[Solución: x1  x2  x3  1 ].
4. Demuestre que para la matriz
2
 1 2

A   1
1  1 ,
 2  2
1
el método de Jacobi converge(véase ejercicio 3 de la sección 4.2), mientras que el de GaussSeidel diverge.
5. Demuestre que para la matriz
 2 1  1
A   2 2  2
 1 1
2 
241
el método de Gauss-Seidel converge, mientras que el de Jacobi diverge (Kress, 1998).
6. Demuestre que la matriz A del ejemplo 4.3.1 es irreducible y su diagonal principal es
débilmente dominante implicando la convergence de las iteraciones de Jacobi.
2 1
3

7. Consideremos la matriz A   2 3 2 . Demuestre que el método de Jacobi para la matriz


  1  2 3
A diverge marginalmente, mientras que el de Gauss-Seidel converge (Iserles, 1998).
[Indirecta: el espectro de la matriz de iteración BJ es 0,  i  y el espectro de la matriz BGS

es 0,
1
54

( 23  97  0,1 ].
8. Sea
1   
A   1  
  1 
y 1  2  2 (Kress, 1998). Demuestre que método de Gauss-Seidel converge y el método de
Jacobi diverge.
9. Sea A  L  D  U una matriz simétrica, U  LT . Iteraciones simétricas de Gauss-Seidel se
introducen por medio de la siguiente fórmula:
x  k   ( D  LT ) 1 L ( D  L) 1 LT x  k 1  d
T 1
1 T
La matriz iterativa en este caso es BSGS  ( D  L ) L ( D  L) L . Se obtiene como el
resultado de la combinación de las iteraciones de Gauss-Seidel con las matrices
M 1 N  ( D  L)1U y M 1 N  ( D  U )1 L . Demuestre que si A es simétrica y
definida positiva entonces BSGS es también simétrica y definida positiva.
242
4.4. Métodos de relajación
Se deduce de los Teoremas 4.1.1 y 4.2.1 y de la estimación (4.1.13) que el radio espectral de la
matriz iterativo B (véase (4.2.9) y (4.3.7)) puede ser considerado como una medida de la tasa de
convergencia de iteraciones (4.1.2). Por lo tanto, una manera de acelerar la convergencia de la
iteración es reducir el radio espectral de la matriz B.
El método de Jacobi con relajación. Supongamos que x  k  es una aproximación a la
solución x del sistema lineal Ax  b . El vector residual r  k 1  b  Ax  k 1 se puede considerar
como una medida de la cercanía de x  k  a la solución exacta x .
Dado que L  U   D  A , el método de Jacobi
x  k    D 1 ( L  U ) x  k 1  D 1b
se puede escribir como
x  k   x  k 1  D 1r  k 1
(4.4.1)
La idea básica de los métodos de relajación es multiplicar el término residual
r
k 1
 b  Ax 
k 1
por un factor de peso. En ciertos casos, tal modificación simple puede acelerar
considerablemente la taza de convergencia del método (Forsythe et al., 1977; Marchuk, 1982;
Stoer y Bulirsch, 1993; Morton y Mayers, 1994; Ciarlet, 1995; Iserles, 1998; Kress, 1998).
Definición 4.4.1. El método
x  k   x  k 1   D 1r  k 1  x  k 1   D 1 (b  Ax  k 1 )
o en componentes
243
(4.4.2)
xi( k )  xi( k 1) 
 
bi 
aii 


aij x (jk 1)  , i  1,..., n; k  1,2,...

j 1
n

(4.4.3)
es conocido como el método de Jacobi con relajación. El peso   0 se llama el parámetro de
relajación. ■
Evidentemente, el método de Jacobi corresponde al caso   1 . Notemos que si iteraciones
con relajación (4.4.2) convergen, entonces ellas convergen hacia la solución de la ecuación
 
original Ax  b .
Teorema 4.4.1.
1
Supongamos que la matriz de Jacobi B  D ( L  U ) tiene
eigenvalores reales y  ( B)  1 . Entonces el radio espectral de la matriz de iteración
B  E   D 1 A  E   D 1 ( D  L  U ) 
 (1   ) E   D 1 ( L  U )  (1   ) E   BJ
(4.4.4)
en el método de Jacobi con relajación se hace mínimo para el parámetro de relajación óptimo
 opt 
2
2  max  min
(4.4.5)
y tiene valor
 ( E  opt D 1 A) 
donde
max  min
,
2  max  min
(4.4.6)
 m a x y  min son eigenvalores máximo y mínimo de B, respectivamente. En el caso
cuando  min   max , la convergencia del método (4.4.2) con   opt es más rápido que la del
método de Jacobi (4.4.1).
244


Demostración. Para   0 la ecuación Bw  w es equivalente a



B w  (1   ) E  B w  1     w
Ya que el eigenvalor  de la matriz B corresponde al eigenvalor 1     de la matriz B , los
eigenvalores de B son reales, con el eigenvalor mínimo igual a 1     min y eigenvalor
máximo igual a 1     max . Evidentamente que el radio espectral  ( B ) se hace mínimo si
min ( B )  max ( B ) :
1  opt  opt min  1  opt  opt max . De aquí se deduce tanto el
valor óptimo (4.4.5) del parámetro  como el radio espectral (4.4.6). El teorema queda
demostrado. ■
El método de Gauss-Seidel con relajación. Si aplicamos la matriz D  L a la fórmula
de Gauss-Seidel
x  k    ( D  L) 1 Ux  k 1  ( D  L) 1 b
(véase (4.3.6)-(4.3.7)), obtenemos
( D  L) x  k    Ux  k 1  b
o
x  k    D 1Ux  k 1  D 1L x  k   D 1b
Ya que
 D 1Ux  k 1  x  k 1  D 1 ( D  U ) x  k 1 , el método de Gauss-Seidel se puede escribir
como





x k   x k 1  D 1[b  Lx k   ( D  U ) x k 1 ]
Definición 4.4.2. El método
245
(4.4.7)





x k   x k 1   D 1[b  Lx k   ( D  U ) x k 1 ] ,
(4.4.8)
o en componentes
(k )
i
x
( k 1)
i
x


i 1
bi   a x
aii 
j 1
(k )
ij j

  aij x(jk 1)  , i  1,..., n; k  1,2,...
j i

n
(4.4.9)
es conocido como el método de Gauss-Seidel con relajación, o el método de sobrerrelajación
sucesiva (el método de SOR (successive overrelaxations). El parámetro  se llama factor de
relajación. El método de Gauss-Seidel corresponde al caso   1 . ■
La ecuación



( D  L) x ( k )  [(1  ω)D U ) ]x ( k 1)   b
(4.4.10)

con la matriz triangular inferior se usa para hallar x (k ) . De (4.4.10) obtemenos que la matriz de
iteración del método de SOR es
B( ) ( D  L) 1[(1  ω)D U ) ]
(4.4.11)
A diferencia de la matriz (4.4.4) en el método de Jacobi con relajación, la matriz (4.4.11) ya
depende del parámetro de relajación  de una manera no lineal. Esto hace el análisis de
convergencia del método de SOR más complicado. La siguiente afirmación dice que el parámetro
óptimo  opt hay que buscar en el segmento 0    2 .
Teorema 4.4.2 (Kahan). El método del SOR diverge fuera del intervalo 0    2 .
Demostración. Tomando en cuenta que L y U son triangulares tenemos
detD  L  1 det D 1 ,
det1   D  U   det1   D
(4.4.12)
y, por consiguiente,
det B( )  det D 1 det1   D  (1   ) n .
246
(4.4.13)
Si la multiplicidad geométrica de cada eigenvalor i ( B( )) de la matriz B() es uno, entonces
det B( )  1 ( B( )) 2 ( B( ))  n ( B( )) .
(4.4.14)
Comparando (4.4.13) con (4.4.14) obtenemos que
1    max i ( B( ))
(4.4.15)
1in
y, según el Teorema 4.1.1, el método de SOR (4.4.10) converge si max i ( B( ))  1 . Entonces,
1in
1    1 es la condición necesaria para la convergencia del método y, por tanto, el método del
SOR diverge fuera del intervalo 0    2 . ■
En general, la condición 0    2 no garantiza la convergencia del método de SOR. Sin
embargo, para algunas clases de matrices el método de SOR converge para cualquier parámetro
de relajación  del intervalo 0    2 .
 
Teorema 4.4.3 (Ostrowski). Si la matriz A del sistema Ax  b es hermitiana y definida

positiva, entonces el método de SOR converge hacia la solución única x para cualquier  del

intervalo 0    2 y cualquier vector inicial x 0 .

Demostración. Sea  un eigenvalor de B() con eigenvector u , es decir,


[(1 ω)D U ) ]u   (D  L) u .
Usando las relaciones
2[(1 ω)D U ) ]  (2   )D   A   (U  L)
y
2[D  L) ]  (2   )D   A   (U  L)
obtenemos


[(2   )D   A   (U  L) ] u   [(2   )D   A   (U  L) ] u .
247

Tomando el producto escalar euclidiano con u nos lleva a

(2   )d   a  i r
,
(2   )d   a  i r
donde
 
 
 
a  Au , u , d  Du , u , r  i (U  L)u , u .
La matriz A es hermitiana y definida positiva, por lo tanto, a  0 , d  0 y r es real. Para
cualquier  del intervalo 0    2 tenemos
(2   )d   a  (2   )d   a ,
es decir,   1 y la convergencia del método de SOR en el intervalo 0    2 se deduce del
Teorema 4.1.1. ■
En la práctica, en general, no es fácil elegir un valor óptimo del parámetro  para
acelerar la convergencia del proceso iterativo. Normalmente  opt
se encuentra sólo
aproximadamente probando varios valores de  y observando el efecto sobre la velosidad de
convergencia. Sin embargo, para algunas clases de matrices existen resultados exactos sobre el
parámetro óptimo  opt para las iteraciones.
Definición 4.4.3. Una matriz A  L  D  U con la diagonal principal D (véase (4.2.4)(4.2.6)) se llama coherentamente ordenada (consistently ordered) si los eigenvalores de la matriz
C ( )  D 1L 
1

D 1U
no dependen de  , donde  es un número complejo no nulo. ■
248
(4.4.16)
Ejemplo 4.4.1. Demostramos ahora que cualquier matriz tridiagonal n  n con elementos
diagonales no nulos es coherentamente ordenada. Presentamos la como A  L  D  U .
Introduciendo la matriz diagonal
S ( )  diag(1, , 2 ,, n1 )
obtenemos
S ( ) C (1) S ( ) 1  C ( ) ,
es decir, todas las matrices C( ) son semejantes y, por tanto, tienen los mismos eigenvalores. ■
Ejemplo 4.4.2 (Stoer y Bulirsch, 1993). Sea
 D1
A
21
A



A12




AN , N 1



AN 1, N 

DN 
una matriz tridiagonal en bloques con matrices diagonales no singulares Di ( i  1,..., N ).
Entonces las matrices
 0

 1 D11 A12
 1

D2 A21




C ( ) 



 1 DN11 AN 1, N 


DN1 AN , N 1
0


obedece la relación
S ( ) C (1) S ( ) 1  C ( )
con
 E1



E2

,
S ( ) 





 N 1 EN 

249
donde Ei son matrices identidades. Así, la matriz A es coherentamente ordenada.
Notemos que cualquier matriz tridiagonal en bloques tambien es coherentamente
ordenada. ■
Teorema 4.4.4 (Young, 1971).
Supongamos que A es una matriz coherentamente
ordenada, y todos los eigenvalores de la matriz de Jacobi B   D 1 ( L  U ) son reales con el
radio espectral   [ D 1 ( L  U )]  1 . Entonces el método de SOR converge para todos los
0    2 . El radio espectral de la matriz de iteración en el método de SOR (4.4.11) es mínimo
para
opt 
2
(4.4.17)
1  1  2
y tiene valor
[ B( opt )] 
1  1  2
1  1  2
.
(4.4.18)
Demostración. Debido a que ( E  D 1L) no es singular, se deduce de la ecuación
( E  D 1L) [ E  B(ω) ]   ( E  D 1L)  D 1[(1   ) D  ωU ]


1
(     1) E      D 1L 
D 1R 





que   0 es un eigenvalor de la matriz B() si y sólo si

   1

es un eigenvalor de la matriz
250
(4.4.19)
  D 1L 
1

D 1U .
Ya que A es coherentamente ordenada, se deduce de aquí que   0 es un eigenvalor de B() si
y sólo si  es un eigenvalor de la matriz B   D 1 ( L  U ) . Resolviendo la ecuación cuadrada
    1    ,
obtenemos
 
 2 2
 

1
 2
4

2

 .


Poniendo   1 en la Definición 4.4.3 obtenemos que si  es un eigenvalor de  D 1 ( L  U ) ,
entonces   también es un eigenvalor de la matriz  D 1 ( L  U ) . Ya que estamos interesando
sólo en el radio espectral de B() nos limitamos sólo por considerar
 
 2 2



1
 2
4

2

 .


Debido a que   1 , la ecuación cuadrada
 22  4  4  (   0 )(  1 )  0
tiene dos soluciones reales  0  2  1 , y sólo uno de ellas pertenece al intervalo (0,2) , a saber,
0 
2(1  1  2 )

2

2
1  1  2
1
Si 0     0 ( ) entonces  22  4  4  (   0 )(  1 )  0 y
251
(4.4.20)
 
 22
 ( )  

1
 2
4

Si
 0 ( )    2




2
,
0     0 ( )
(4.4.21)
entonces  22  4  4  (   0 )(  1 )  0 y los eigenvalores  son
complejos con
 ( )    1 ,
 0 ( )    2
(4.4.22)
Entonces

2 2
      1  
[ B( )]   2
4

 1

2

 , 0     0 ( ) ,


,  0 ()    2 .
(4.4.22)
Notemos que  ( ) crece monótonamente con  en el intervalo 0     0 ( ) , mientras que
en el intervalo  0 ( )    2 ,  ( ) no depende de  . Tambien notemos que para la función
f ( ) 

2

 2 2
4
1
f (0)  1 y
f ( ) 

2  2

 0.
2 2  2 2  4  4
La última desigualdad se deduce de
2 (4  4   2 2 )  4  42   2 4  (2  2 ) 2  0 .
Entonces el radio espectral (4.4.22) decrece monótonamente para 0     0 y crece
monótonamente para  0    2 (véase Fig. 4.4.1). Ya que [B(0)]  [B(2)]  1 , obtenemos
que [B()]  1 para cualquier   (0,2) y el valor mínimo [ B( 0 ()]   0 ()  1 del radio
espectral [ B( )] se alcanza para    0 () . ■
252
Fig. 4.4.1. El radio espectral para el método de SOR.
Corolario 4.4.1. Bajo las condiciones del Teorema 4.4.4, el método de Gauss-Seidel
converge dos veces más rápido que el de Jacobi.
Demostración. De (4.4.19) se deduce que   2 para   1 , es decir, tenemos
[ B(1)]   2 [ D 1 ( L  U )]
para los radios espectrales [B(1)] y [ D 1 ( L  U )] de las matrices de iteración de GaussSeidel y de Jacobi, respectivamente. Ahora la afirmación se deduce de (4.1.7). ■
Ejemplo 4.4.3. Consideremos la matriz tridiagonal n  n A del ejemplo 4.3.1. Usando
la fórmula
1
 j (k  1) 1
 j (k  1)
j
 jk
,
sen
 sen
 cos
sen
2
n 1
2
n 1
n 1
n 1
se puede demostrar que la matriz de Jacobi
253
0 1

1 0 1





1
0
1
1
 D 1 ( L  U )  

2      

1 0 1


1 0 

para A tiene eigenvalores
 j  cos
j
n 1
, ( j  1,..., n )

y eigenvectores asociados u j con componentes
u j ,k  sen
 jk
n 1
, ( j  1,..., n ; k  1,..., n ).
Por lo tanto, el radio espectral de la matriz de Jacobi es
  [ D 1 ( L  U )]  cos

n 1
1
2
2(n  1) 2
y, según el Teorema 4.4.4,
 opt 
2
1  sen

n 1
y
 [ B ( opt )] 
1  sen

n  1  1  2 .

n 1
1  sen
n 1
En particular, si n=44 (Golub y Ortega, 1992), entonces   0.9976 ,
 opt  1.87 , y
[ B(1)]  2  0.995 ,
[ B( opt )]   opt  1  0.87 . Ya que  [ B ( opt )]  30 , el método de SOR para la
254
matriz A converge quince veces más rápido que el de Gauss-Seidel y treinta veces más rápido que
el de Jacobi. Y si n=30 (Kress, 1998), entonces   0.9949 , [ B(1)]  2  0.9898 ,
[ B( opt )]   opt  1  0.816 y [ B( opt )]  40 , es decir, el método de SOR converge cuarenta
veces más rápido que el de Jacobi. ■
Ejercicios:
1. Demuestre que
1  1 0
A  1 1 0
1 1 1
es coherentamente ordenada.
2. Demuestre que los métodos de relajación convergen para la matriz
 3  1 0 0 0  1
 1 3  1 0  1 0 


 0 1 3 1 0 0 
A
.
 0 0 1 3 1 0 
 0  1 0  1 3  1


 1 0 0 0  1 3 
 
3. Sea A una matriz hermitiana del sistema Ax  b , y sea 0   min     max su intervalo
espectral. Encuentre la condición para  ( A)   max /  min (el número de condición de A) que




garantiza la convergencia y estabilidad del método x k 1  x k    k ( Ax ( k )  b ) para la
elección arbitraria del parámetro  j  1 /  j ,  min   j   max , j=1,2,3,…, n , n es arbitrario.
4. Sea A una matriz simétrica y definida positiva, y sea B una matriz diagonal y definida



positiva. Analice la convergencia del proceso iterativo x k 1  x k   B 1 ( Ax ( k )  b) .
[Indirecta: el método iterativo es equivalente al método de Jacobi con la matriz E  B1 A ].
5. Compare la convergencia de los tres métodos (de Jacobi, Gauss-Seidel y SOR con   1.8 )
para el sistema del Ames (1992)
4 x1  x2
 1
x1  6 x2  2 x3  0 .
2 x2  4 x3  0
255
4.5. Métodos de minimización
Cada matriz definida positiva A determina un A-producto escalar y una A-norma en el espacio
vectorial real:
 
x, y
A
 
 Ax , y
,

x
A
 
 Ax , x
(4.5.1)
 
 
donde x , y  y * x es producto escalar euclidiano. En otras palabras, A determina una métrica
que satisface a todos los axiomas de la métrica euclidiana. Por ejemplo, para el A-producto
escalar tenemos:
(1)
 
x, x
A
 
(2)  x , y
 0 , además,
A
(3)
  
x  y, z
(4)
 
x, y
A
 
  x, y
A
 
 x, z
 
 y, x
A
A
 
x, x
A

 0 si y solo si x  0
;
 

y
,z A;
A
.


La A-métrica (A-distancia) entre dos vectores x y y se introduce como
 


 A ( x, y)  x  y
A
  
 x  y, x  y
1/ 2
A
(4.5.2)
Algunos métodos iterativos para resolver el sistema
 
Ax  b
(4.5.3)
se pueden derivar usando los métodos de minimización. Sea A una matriz simétrica y definida
positiva. En este caso, la función cuadrática (funcional)




q ( x )  Ax , x  2 b , x  x , x


2
b
,x
A
(4.5.4)
 

alcanza su mínimo en el punto x  x* , donde x* es la solución exacta del sistema (4.5.3)
(Kantorovich, 1945, 1947; Ames, 1992). En efecto,
256
 
x*  x
2
A

   

 


 A( x*  x ), x*  x  Ax , x  2 b , x  Ax* , x*  q ( x )  x*


y, por lo tanto, q(x ) alcanza su valor mínimo  x*
2
A
2
A


 
  x* , Ax*   A1b ,b   b
2
A1
cuando

 
x  x*  A1b es la solución. Ya que la función (4.5.4) y la A-norma del error en la solución
 
x*  x
A
estan relacionadas mediante la fórmula
x*  x
 
la minimización del error x*  x
A
2
A
 q( x )  x*
2
A
,
(4.5.5)

es equivalente a la minimización de q(x ) .
Varios procesos iterativos basados en los métodos de minimización se puede escribir de la
forma



x k 1  x k    k p ( k )
(4.5.6)


donde p (k ) es un vector de dirección. Si el vector p (k ) está dado, entonces se puede elegir  k


con el objetivo de minimizar la función (4.5.4) a lo largo de la línea x  k    k p (k ) , es decir,




q( x k    k p ( k ) )  min q( x k    p ( k ) )

(4.5.7)




Para x k  y p (k ) fijos, q ( x  k    p (k ) ) es la función cuadrática de  . Usando el término residual
(el error de aproximación)



r ( k )  b  Ax ( k )
(4.5.8)
obtenemos
 




 


q( x ( k 1) )  q ( x ( k )   k p ( k ) )  Ax ( k )   k Ap ( k ) , x ( k )   k p ( k )  2 b , x ( k )   k p ( k )
 
 
 
 


 Ax ( k ) , x ( k )  2 b , x ( k )  2 k Ax ( k ) , p ( k )   k2 Ap ( k ) , p ( k )  2 k b , p ( k )

 
 
 q( x ( k ) )  2 k p ( k ) ,r ( k )   k2 Ap ( k ) , p ( k )
257
  2
p(k ) , r (k )
 (k )
 
 q( x )   ( k )  ( k )  Ap ( k ) , p ( k )
Ap , p
 

p(k ) , r (k )
 k   ( k )  ( k )
Ap , p

2

 .


Entonces q( x ( k 1) ) alcanza su valor mínimo
 
p(k ) , r (k )
 k 1
 k 
q( x )  q( x )   ( k )  ( k )
p ,p
2
(4.5.9)
A
cuando
 
 
p(k ) , r (k )
p(k ) , r (k )
 k    (k )  (k )    (k )  (k )
Ap , p
p ,p
(4.5.10)
A
Debido a (4.5.5) y (4.5.9) se obtiene
x*  x
 k 1
2
A
 x*  x
k 
2
A

p(k ) , r (k )
p(k ) , p(k )
2
.
(4.5.11)
A


Por lo tanto, si p (k ) no es ortogonal al vector residual r (k ) entonces
 
p ( k ) , r ( k )  0 , y la

convergencia de las iteraciones es monótona, es decir, cada aproximación siguiente x k  es más

cerca a la solución exacta x* .

Hay varias maneras para elegir el vector p (k ) . Consideraremos aquí sólo tres opciones.
Método del gradiente. Una de las opciones es calcular la dirección de descenso más


rápido de q(x ) en el punto x k  . Es la dirección




gradq( x ) x x k   2( Ax ( k )  b )  2r ( k ) ,

donde r (k ) es el error de la k-ésima aproximación calculada mediante (4.5.8) (Fig.4.5.1).


Al elegir p ( k )  rk en (4.5.6), obtenemos el método del gradiente, o el método de
descenso más pronunciado (rápido):
258




x k 1  x k    k (b  Ax ( k ) )
(4.5.12)
Fig.4.5.1. El método del gradiente.
donde, según las fórmulas (4.5.10) y (4.5.9),
 
r (k ) , r (k )
 k    (k )  (k )
r ,r
(4.5.13)
A
y
 
r (k ) , r (k )
 k 1
 k 
q( x )  q( x )   ( k )  ( k )
r ,r
2
A

es el valor mínimo de q( x ( k 1) ) . Debido a (4.5.11), se obtiene
 
x*  x k 1
2
A
 
 x*  x k 
259
 
r (k ) , r (k )
  (k )  (k )
A
r ,r
2
2
.
A
(4.5.14)
Entonces la convergencia es siempre monótona. Se deduce de las fórmulas (4.5.6), (4.5.8) y
(4.5.13) que los términos residuales de dos iteraciones consecutivas son ortogonales:



 
 
 
r ( k 1) , r ( k )  r ( k )   k Ar ( k ) , r ( k )  r ( k ) , r ( k )   k Ar ( k ) , r ( k )  0 .
 

Sin embargo, la sucesión de los vectores r (k ) ( k  0,1, 2, ... ) no es linealmente independiente.
El método del gradiente está estrechamente relacionado con el de Jacobi. Su velocidad de

convergencia normalmente es lenta. Las aproximaciones x k  convergen hacia la solución exacta
con la velocidad lineal (es decir, como una progreción geométrica) (Kantorovich, 1947; Faddeev



y Faddeeva, 1963). En efecto, según (4.5.12), el error e k   x k   x* satisface


e k 1  ( E   k A)e k  .
Si  i son eigenvalores de A entonces i  1   k i son eigenvalores de G  E   k A . La
convergencia tiene lugar si el radio espectral de G satisface la condición  (G)  1 , es decir,  k
tiene que pertenecer al intervalo 0   k  2 / max i . Y si deseamos acelerar la convergencia
i
entonces hay que elegir  k tal que
max 1   k i  min .
i
Por ejemplo, a  i  b para todos los i ( 0  a  b   ). El valor máximo de 1   k  i se alcanza
en los puntos extremos: i  a o i  b . La mejor elección es cuando
max  1   k a , 1   k b
es mínimo, es decir, cuando 1   k a  (1   k b) , o  k 
1   k i  1   k a 

2
. Con este valor tenemos
ab
ba
ba



y, por consiguiente, se deduce de la ecuación para los errores e k   x k   x* que
260

e k 1
donde    ( A)  b / a  max i / min i
i
i
2
A
 1 


  1 
2k

e k 
2
A
,
(4.5.15)
es el número de condición de la matriz A. Ya que a
menudo   1 entonces el factor ( 1) / (  1) es muy cerca a uno, y la convergencia es lenta.
Ames (1992) destaca que el método del gradiente y el de SOR reqieren aproximadamente el
mismo número de iteraciones. Sin embargo, el método de SOR se recomenda en lugar del
método del gradiente, ya que es más simple y reqiere menos almacenamiento. ■

Método simple. Se puede usar una estrategia muy simple cuando p (k ) se elige como uno
 n
de los vectores unitarios básicos ei i 1 :
k 1

 T 
ek  0,...,0,1,0,...,0 , ( k  1, ,n )


(4.5.16)
con una sola componente no nula (igual a uno) en la k-ésima posición. Por ejemplo, si


p ( k )  ek 1 ,
k  0 ,1, ,n-1 ,
(4.5.17)
y  k se elige mediante la fórmula (4.5.10), entonces n pasos según (4.5.6) son equivalentes a una
iteración del método de Gauss-Seidel. ■
Antes de considerar el tercer método (de gradiente conjugado) describimos el método de
A-ortogonalización que representa una generalización del método de ortogonalización de GramSchmidt.
 n
A-ortogonalización. Sea A una matriz definida positiva, y sea ui i1 un sistema de
funciones linealmente independientes. Entonces se puede construir un sistema A-ortogonal
vi in0 :
261
 
vi , v j
A
 
 Avi , v j  0 ,
i j
(4.5.18)
 
k
Ponemos primero v1  u1 . Suponiendo que el sistema ortogonal vi i 1 ya está construido, el

siguiente vector ortogonal vk 1 se busca de la forma
k



vk 1  uk 1   akivi .
(4.5.19)
i 1
 k
En virtud de que los vectores vi i1 son A-ortogonales, obtenemos que
 
 
uk 1 , vi A
uk 1 , vi
aki   

 2
vi , vi A
vi A
A
( i  1,2,..., k ).
(4.5.20)
 n
 n
A veces, en lugar de vi i1 es conveniente construir una base A-ortonormal wi i 1 . Con
  

este fin, despues de hallar cada vector vi se calcula el vector wi  vi / vi


tanto, aki  u k 1 , wi
A
A

con wi
A
 1 y, por lo
.■
Método del gradiente conjugado. El método del gradiente conjugado es un método
eficaz para sistemas simétricos definidos positivos (Bakhvalov, 1973). En el proceso de realizar

la k-ésima iteración con este método, el vector de dirección p (k ) se elige de tal manera que es A-

ortogonal a todos los vectores anteriores p ( j ) :


p (k ) , p ( j )
A


 p ( k ) , Ap ( j )  0 ,
j  0,1, 2,..., k 1
(4.5.21)

Los vectores p (k ) tal definidos se llaman vectores conjugados (con respecto a A). Los vectores

conjugados p (k ) se puede construir mediante A-ortogonalización (4.5.18)-(4.5.20) del sistema

ortogonal de los vectores unitarios básicos (4.5.16). Notemos que los vectores conjugados p (k )
forman una base A-ortogonal en el espacio vectorial. Por lo tanto, si  k se eligen por (4.5.10)

entonces las iteraciones (4.5.6) convergen hacia la solución exacta x* en n pasos como máximo,
262
donde n es la dimensión de la matriz A. Esta propiedad del método de direcciones conjugadas es
de gran importancia teórica, ya que demuestra que los dos grupos de métodos, los exactos y los
iterativos, usados para resolver un sistema de ecuaciones lineales algebraicas se crusan, es decir,
no son totalmente distintos. Sin embargo, del punto de vista práctico, esta propiedad es poco útil,
ya que los errores de redondeo no permiten obtener la solución exacta. Además, si la dimensión n
de la matriz es grande, entonces a veces es necesario hacer muchas iteraciones ( k  n ) y, por lo
tanto, otros métodos iterativos pueden ser más económicos, ya que convergen más rápido
(después de un número más pequeño de iteraciones).
Las iteraciones del método del gradiente conjugado convergen bastante rápido cuando la
matriz A es cerca de la matriz identidad en el sentido de que la matriz A  E tiene rango pequeño
(véase Definición 2.2.10).
Teorema 4.5.1. Sea A  E  B es una matriz cuadrada, simétrica y definida positiva. Si
rk (B)  r entonces las iteraciones del método del gradiente conjugado convergen por no más de
r pasos.
Demostración. Denotamos por S k  span{b , Ab , A2b ,..., Ak 1b} el conjunto de todas las
combinaciones lineales finitas de los vectores b , Ab , A2b ,..., Ak 1b . Entonces se deducede la
igualdad rk (A - E)  r que dim ( Sk )  r para todos k. Dado que span{ p (1) , p (2) , ..., p ( k ) }  Sk y
vectores p(i ) son linealmente independientes, las iteraciones no pueden durar más de r pasos. ■
La velocidad de convergencia de todos los métodos iterativos que hemos presentado y,
en particular, del método del gradiente conjugado, dependen del número de condición  ( A) de la
matriz A. Con objeto de reducir este número, se puede utilizar la técnica de precondicionamiento.
Sea Q una matriz cuya inversa Q1 exista y sea fácil de calcular, entonces
263
Ax  b  Q 1 AQ 1Qx  Q 1b
y x se puede determinar resolviendo los siguientes problemas
By  Q 1b , Qx  y
donde B  Q1 AQ1 y Q se debe elegir de tal forma que  ( B)
 ( A) .
Ejercicios:


1. Sea Aui  i ui el problema espectral para una matriz simétrica n  n A. Supongamos que
 n 



todos sus eigenvalores son diferentes: i
j . Sea x   ai ui donde ai  0 para cada i.
i 1
  

Demuestre que el sistema x, Ax, A2 x,, An1 x es linealmente independiente.
 

2. Usando la base ortogonal p0 , p1 ,, pn del ejercicio 2, encuentre la solución del problema
 
Ax  b .
3. Demuestre que la función cuadrática (4.5.4) se puede escribir como



 
 



q( x  p)  p* Ap 2  2 p* (b  Ax )  x * (2b  Ax )
 
 
Minimice este función de  para x  x k  y p  p k  con el fin de obtener (4.5.10).
4. Considere el método simple (4.5.17) y elige  k por la fórmula (4.5.10), k  1,2,..., n 1 .
Demuestre que n pasos según (4.5.6) son equivalentes a una iteración del método de GaussSeidel.
5. Demuestre que en el método del gradiente las aproximaciones se encuentran por

minimización unidimensional del funcional q(x ) en la dirección del gradiente:







q( x k 1 )  min q( x k    r ( k ) ) con r ( k )  q( x ( k ) )  b  Ax ( k ) .

6. Sea A una matriz simétrica y definida positiva. Demuestre que la única solución del sistema
 
Ax  b es el único mínimo de la función (4.5.4).
7. Supongamos que todos los elementos de la diagonal principal de A son iguales a uno.
Demuestre que si  k  1 entonces el método del gradiente (4.5.12) es el método de Jacobi.
264
4.6. Algoritmos LR y QR
En sección 2.5, describimos un método iterativo (el método de las potencias) que permite
encontrar el eigenvalor de módulo máximo (eigenvalor dominante) y el eigenvector
correspondiente. En esta sección nos ocuparemos de dos métodos iterativos, conocidos como
algoritmos LR y QR . El primero, desarrollado por Rutishauser (1958) conduce una matriz
arbitraria no singular a una matriz triangular con la ayuda de transformaciones no unitarias. La
creación de este método es la contribución más significativa a la solución del problema de
valores propios, hecha después de la aparición de los ordenadores automáticos. El algoritmo QR
desarrollado por Kublanovskaya (1961) and Francis (1961/1962) está estrechamente asociado
con el algoritmo LR , sino que se basa en el uso de transformaciones unitarias (Householder,
1964; Stewart, 2001). En muchos sentidos, es el más eficaz de los métodos conocidos para la
resolución del problema algebraico general de valores propios.
Algoritmo LR. El algoritmo de Rutishauser se basa en la factorización LU de una matriz
no singular A :
A  LR
(4.6.1)
donde L es la matriz unitriangular inferior, y en lugar de U se usa la matriz triangular superior
R . Consideramos la matriz semejante L1 AL . Se obtiene
L1 AL  L1 ( LR) L  RL
(4.6.2)
Por lo tanto, si factorizamos A en el producto de dos matrices triangulares, y luego
multiplicamos los factores en el orden inverso, obtenemos una matriz similar a la matriz original
265
A . En el algoritmo LR ,
este proceso se repite infinitamente. Al denotar A1  A , dicho
algoritmo se define por las ecuaciones
Ak 1  Lk 1Rk 1 , Rk 1Lk 1  Ak
(4.6.3)
Obviamente, Ak es semejante a Ak 1 y, por la inducción es semejante a la matriz A1  A , es
decir, las matrices Ak y A1  A tienen los mismos eigenvalores.
Derivamos algunas relaciones entre las iteraciones consecutivas. Se deduce de (4.6.3) que
Ak  Lk11 Ak 1Lk 1
(4.6.4)
y la aplicación repetitiva de esta fórmula nos da
Ak  Lk11Lk12
L21L11 A1 L1L2
Lk 1
(4.6.5)
o
L1L2
La matriz Tk  L1L2
Lk 1 Ak  A1L1L2
Lk 1
(4.6.6)
Lk es unitriangular inferior, mientras que la matriz U k  Rk Rk 1
R1 es
triangular superior. Usando (4.6.5) obtenemos
TkU k  L1L2
Lk 1 ( Lk Rk ) Rk 1
 A1L1L2
R2 R1  L1L2
Lk 1Rk 1
Lk 1 Ak Rk 1
R2 R1  AT
1 k 1U k 1
R2 R1
(4.6.7)
Re-uso de este resultado conduce a
TkU k  A1k
(4.6.8)
es decir, TkU k es la factorización de la matriz A1k  Ak en el producto de dos matrices
triangulares.
266
Teorema 4.6.1 (Rutishauser). Bajo ciertas condiciones,
1
0 
2
Lk  E y Rk  Ak  
0 0

0 0
X
0





n 
cuando k  
(4.6.9)
La demostración se puede encontrar en Wilkinson (1965).
Así, el teorema garantiza la convergencia del proceso iterativo a una matriz triangular
superior cuyos elementos diagonales son eigenvalores de la matriz A .
Ahora podemos tratar de evaluar el valor del algoritmo LR como un método práctico. A
primera vista, no es muy prometedor por las siguientes razones:
1) Hay matrices que no tienen la factorización triangular a pesar de que el problema de
eigenvalores para dichas matrices está bien condicionado. Para tales matrices, el algoritmo LR
no puede aplicarse sin algunas modificaciones. Además, hay una clase mucho más amplia de
matrices, para las cuales la descomposición LR es numéricamente inestable. La inestabilidad
numérica puede surgir en cada etapa del proceso iterativo y dar lugar a una pérdida significativa
de precisión de los eigenvalores calculados.
2)
2
3
La
cantidad
de
cálculos
es
muy
grande.
Cada
iteración
requiere
n 3 de multiplicaciones.
3) La convergencia de los elementos subdiagonales a cero depende de la relación i 1 / i y
puede ser muy lenta si los eigenvalores no están bien separados.
La estabilidad numérica de la factorización LR se puede mejorar mediante la
introducción, en su caso, las permutaciones.
267
Algoritmo QR. En este algoritmo se usa la descomposición de una matriz A  A1 en el
producto de una matriz unitaria Q y una matriz triangular superior R (Kublanovskaya,1961;
Francis, 1961/1962; Kuttler, 2012). El algoritmo se define por las ecuaciones siguientes:
Ak  Qk Rk , Rk  Qk* Ak , y
Ak 1  Rk Qk  Qk* Ak Qk
(4.6.10)
es decir,
Ak 1  Qk* Ak Qk
(4.6.11)
y, por lo tanto, en cada etapa las matrices Ak 1 y Ak son unitariamente semejantes.
Si la matriz Ak es no singular, entonces esta factorización es esencialmente única, y sin
duda es única, si tomamos los elementos diagonales de Rk reales y positivos. Si Ak es una matriz
real, entonces Qk y Rk son reales. Esta factorización QR tiene la ventaja de que la reducción al
cero de un menor líder de la matriz Ak no causa violación del algoritmo, como lo fue en el
algoritmo LR .
Las iteraciones sucesivas del algoritmo QR satisfacen las relaciones similares a las
relaciones derivadas para el algoritmo LR . Tenemos
Ak 1  Qk* Ak Qk  Qk*Qk*1 Ak 1Qk 1Qk  Qk*
Q2*Q1* A1Q1Q2
Qk
(4.6.12)
lo que implica
Q1Q2
Qk Ak 1  AQ
1 1Q2
Qk
(4.6.13)
y, por lo tanto, todos Ak son unitariamente semejantes a A1  A . Introduciendo
Pk  Q1Q2
Qk
y
268
U k  Rk Rk 1
R1
(4.6.14)
y usando (4.6.13) se obtiene
PU
k k  Q1
Qk 1 (Qk Rk ) Rk 1
 AQ
1 1
Qk 1Rk 1
R1  Q1
Qk 1 Ak Rk 1
R1
(4.6.15)
R1  A1Pk 1U k 1
Por lo tanto,
PkU k  A1k
(4.6.16)
La fórmula (4.6.16) representa una factorización de la matriz PkU k  Ak . La factorización es
única si los elementos diagonales de la matriz triangular superior son positivos, y así será para
U k si esto es cierto para todas las matrices Rk .
Observación 4.6.1. En realidad, en lugar de la matriz original A es mejor aplicar el
algoritmo QR a una matriz que es unitariamente semejante a la matriz dada A y que está en la
forma Hessenberg superior. La matriz de Hessenberg es una matriz "casi" triangular. Para ser
más exactos, una matriz superior de Hessenberg H  {hij } tiene todos ceros por debajo de la
primera subdiagonal: hij  0 si i  j  2 . La razón por la que debe usar una matriz que es
superior de Hessenberg y unitariamente semejante a la matriz original A en el algoritmo QR es
que el algoritmo mantiene la forma superior de Hessenberg. Estos resultados se contienen en los
siguientes dos lemas demostrados en Wilkinson (1965). Y ustmos buscando matrices en bloques
triangulares superiores, esto forzará el tamaño de los bloques de ser no mayor de 2  2 que son
fáciles de manejar usando la fórmula cuadrática. ■
Lema 4.6.1. Cada matriz cuadrada A de orden n es unitariamente semejante a la matriz
de Hessenberg superior.
269
Lema 4.6.2. Sean  Ak  la secuencia de iteraciones del algoritmo QR y la matriz original
A  A1 es no singular. Entonces Ak 1 es superior de Hessenberg si Ak es superior de Hessenberg.
Matrices simétricas. Ambos algoritmos LR y QR se puede aplicar a las matrices
simétricas. Obviamente, el algoritmo QR conserva la simetría de las matrices, ya que
A2  Q1* A1Q1  A2*
si
A1  A1*
(4.6.17)
Sin embargo, generalmente esto no es cierto para el algoritmo LR . No es bueno, ya que la
simetría considerablemente ahorra los cálculos.
En el caso cuando la matriz A1  A es simétrica y definida positiva, se puede modificar el
algoritmo LR usando la factorización de Cholesky (véase la sección 3.1). Se obtiene
A1  L1 LT1 , LT1 L1  A2  L11 A1 L1  LT1 A1 ( L11 )T
(4.6.18)
Obviamente, la matriz A2  LT1 L1 es simétrica y definida positiva, como es semejante a A1  A .
Por lo tanto, se puede continuar el proceso y demostrar que
Ak  Lk11
L11 A1 L1
Lk 1  LTk 1
LT1 A1 ( L11 )T
( Lk11 )T
(4.6.19)
y
L1 L2
Lk LTk
LT1  A1k
(4.6.20)
o
( L1 L2
Lk )( L1 L2
Lk )T  A1k
(4.6.21)
Notemos que en este caso, la cantidad de cálculos se reduce a la mitad, y además, la factorización
de Cholesky garantiza la estabilidad alta de los cálculos y no requiere permutaciones. También
270
hay que señalar que la cantidad de cálculos es demasiado grande para las matrices simétricas
arbitrarias, pero este volumen es considerablemente menor para una matriz de banda simétrica
cuando
aij  0 si i  j  m
(4.6.22)
Ejercicios:
1. Dé un ejemplo de una matriz, para la cual el algoritmo QR diverge.
2. Demuestre que si L 2  M
2
donde 
E
L
2
es la norma espectral, entonces
0
E

E2 M
0
E
2
3. Sea A una matriz no singular que permite la factorización LR donde L es unitriangular
inferior ( lii  1 ). Demuestre que L y R se definen de manera única.
4. Sea A una matriz tridiagonal no singular que permite la factorización LR donde L es
unitriangular inferior ( lii  1 ). Demuestre que
0
0
 
1
 

 1





.
 y R
L 








0
0
 
 1 
2  
5. Calcule un paso del algoritmo QR con la matriz A  
.
 1 
6. Sea A  {aij } una matriz hermitiana. Demuestre que para cada elemento diagonal aii existe un
eigenvalor  ( A) de la matriz A tal que
 ( A)  aii 
271
a
j i
ij
2
.
7. Demuestre que la ecuación x4  4x3  8x2  8x  4  0 es la ecuación característica de la matriz
superior de Hessenberg
 4 8 8 4 
1 0 0 0 

A
0 1 0 0 


0 0 1 0 
Aplique el algoritmo QR para encontrar los eigenvalores de A .
272
4.7. Problemas al capítulo 4
1. Sea A una matriz simétrica. Consideremos un proceso iterativo no estacionario de la
forma




x k 1  x k    k ( Ax ( k )  b ) ,


donde  k  0 depende del número de la iteración. Entonces e k   qk ( A)e 0  donde
k
qk ( A)   ( E   i A) es un polinomio. Encuentre las raíces del polinomio algebraico
i 1
qk (t ) . Minimice el error del proceso iterativo eligiendo qk (t ) en la forma de los
polinomios de Chébyshev (véase la sección 5.6).
2. Demuestre que qk ( A) 2  max qk (t ) , donde qk (t ) es el polinomio del problema 1, y
t
el máximo se busca sobre todos los t del intervalo espectral de la matriz simétrica A:
1  t  n (Ciarlet, 1995).
3. Sea A una matriz antihermitiana de orden 2: A   A . Demuestre que los dos
eigenvalores de la matriz asociada con el método de Jacobi J  E  D1 A son puros
imaginarios, or reales.
4. Demuestre que los métodos de Jacobi, de Gauss-Seidel y de SOR convergen para la
matriz
273
 3  1 0 0 0  1
 1 3  1 0  1 0 


 0 1 3 1 0 0 
A
.
 0 0 1 3 1 0 
 0  1 0  1 3  1


 1 0 0 0  1 3 
5. Construya un contraejemplo para demostrar que en general el método de Jacobi no
converge para las matrices definidas positivas.
6. Considere la matriz
1   
A   1   .
  1 
Demuestre que si 1  2  2 , entonces el método de Jacobi diverge para la matriz A,
mientras que el método de Gauss-Seidel converge.
7. Sean A y M
dos matrices simétricas y definidas positivas. Demuestre que todos
los eigenvalores del matriz AM 1 tambien son positivos.
8. (Allaire y Kaber, 2008). Demuestre que si la matriz A es tridiagonal, hermitiana y
definida positiva, entonces los procesos de Jacobi y Gauss-Seidel convergen a la
 
solución exacta del sistema Ax  b .
9. Sea A  M  N es una matriz hermitiana y definida positiva. Demuestre que la matriz
M *  N es hermitiana [Indirecta: M *  N  A*  ( N *  N ) ].
274
10. (Allaire y Kaber, 2008). Sea A  M  N es una matriz hermitiana y definida
positiva. Demuestre que si la matriz hermitiana M *  N es definida positiva, entonces
 ( M 1 N )  1 [Indirecta: Define la norma vectorial x
M 1 N  1 en la norma matricial  subordinada a 
11. Sea A  L  D  U , donde U

A

A
Ax , x y demuestre que
].
 1 y  es un parámetro pequeño (Golub y Ortega,
1992). Encuentre la frontera superior del radio espectral de la matriz (L  D) 1U de
las iteraciones de Gauss-Seidel.
12. Presentando la matriz A como A  P  N donde P es una matriz no singular, es

 
posible considerar el proceso iterativo Pxk 1  Nxk  b para hallar la solución del
 
problema Ax  b . Demuestre que es válida la siguiente afirmación (Iserles, 1998): Si
las matrices A y P  P T  A son simétricas y definidas positivas, entonces dicho
proceso iterativo converge.
13. Sea A  L  D  LT una matriz simétrica y definida positiva, donde D es la matriz
diagonal de los elementos diagonales de A , y L es la matriz estrictamente triangular
que coincide con la parte correspondiente de la matriz A. Supongamos que  es un



eigenvalor y x es el eigenvector correspondiente del problema espectral Gx  x
para la matriz iterativa G  M S1 N S  ( D  L) 1 LT del método de Gauss-Seidel,
además, el eigenvector está normalizado por
 
x * LT x
   *  .
1 x Lx
275
 
x * Dx  1 . Demuestre que
14. Demuestre que la matriz de iteración en el método de Gauss-Seidel tiene eigenvalor
nulo.
15. Consideremos la matriz
3 2 1
A    1 3  2 .
 2 2 3 
Demuestre que tanto el método de Jacobi como el de Gauss-Seidel convergen para la
matriz A [Indirecta: el espectro de la matriz de iteración BJ es el mismo: 0,  i  y el

espectro de la matriz BGS es 0,
1
54

(31  1393 , es decir su radio espectral es mayor
que uno].
  

16. Sea A una matriz simétrica n  n . Supongamos que los vectores x, Ax, A2 x,, An1 x
 

linealmente independiente, y los vectores p1 , p2 ,, pn1 se obtienen de ellos por

medio de la ortogonalización de Gram-Schmidt. Demuestre que los vectores pi se
determinan por las fórmulas




pi1  Api  i pi   i pi1 , i  1,2,..., n  2 ;


p0  x ,



p1  Ap0   0 p0 ,
donde
 
Api , pi
i    
pi , pi
,
i  0,2,..., n  2 ;
y
 
 
 
Api , pi 1
pi , Api 1
pi , pi
 i         
,
pi 1 , pi1
pi 1 , pi 1
pi 1 , pi1
276
i  1,2,..., n  2 .
17. Sea A una matriz hermitiana del sistema (4.5.3), y sea 0   min     max su
intervalo espectral. Encuentre la condición para  ( A)   max /  min (el número de
condición de A ) que garantiza la convergencia y estabilidad del método




x k 1  x k    k ( Ax ( k )  b )
para la elección arbitraria del parámetro  j  1 /  j ,  min   j   max ,
j=1,2,3,…, n,
n es arbitrario.
18. Sea A una matriz simétrica y definida positiva, y sea B una matriz diagonal y
definida
positiva.
Analice
la
convergencia
del
proceso
iterativo



x k 1  x k   B 1 ( Ax ( k )  b) . [Indirecta: el método iterativo es equivalente al
método de Jacobi con la matriz E  B1 A ].
19. Demuestre que el método del gradiente (4.5.12) converge para cualquier matriz
definida positiva A si los parametros  k son bastante pequeños.
20. Compare la forma del método de relajación
( k 1)
wxx
 w(yyk 1)  aw ( k ){ w( k 1)  (1   ) w( k ) }
para la ecuación u xx  u yy  au
`2
con la obtenida por la aplicación del método de
Newton.
21. Demuestre que el método de Jacobi diverge para la matriz
277
 2 0 1 1
 0 2 1 1

A
 1 1 2 0 


 1 1 0 2 
22. Encuentre dos matrices A y B para las cuales  ( A  B)   ( A)   ( B) . Dicha
desigualdad significa que  ( A) no puede ser una norma matricial.
23. Demuestre que el proceso iterativo x ( k 1)  Bx ( k )  d con la matriz
 12
B   10
10
0
1
9


k
converge, es decir, lim k  B  0 .
24. Demuestre que una matriz B tiene el radio espectral  ( B)  1 si y sólo si
lim k  B k  0 (es decir, si y sólo si las iteraciones x ( k 1)  Bx ( k )  d convergen).
25. Demuestre que la matriz de iteración del método de Gauss-Seidel tiene eigenvalor
cero.
26. Construye un contraejemplo para demostrar que en general el método de Jacobi no
converge para matrices definidas positivas.
27. Sea A una matriz semejante a B. Demuestre que
a) det A  det B ;
b) i ( A)  i ( B) ;
c) A es no singular si y sólo si B es no singular;
278
d) A n es semejante a B n ;
e) si A es no singular entonces A1 es semejante a B 1 .
28. Sea A una matriz hermitiana con los elementos diagonales positivos. Demuestre que
el método de Gauss-Seidel para dicha matriz converge si y sólo si A es definida
positiva.
29. Demuestre que si  ( B)  1 entonces existe x (0) y d tales que las iteraciones
x ( k 1)  Bx ( k )  d divergen).
30. Sea A una matriz hermitiana. Demuestre que el método de Jacobi converge si las
matrices A y 2D  A son definidas positivas.
279
Capítulo 5. Eficiencia de los cálculos
Una característica importante de un método numérico es su eficiencia. Es la capacidad de lograr la
solución de un problema, con la menor cantidad de recursos posibles. Entonces, la eficiencia nos
obliga a identificar el trabajo y los desperdicios, a fin de disminuir o eliminar los desperdicios que
tienen implícitos costos. En otras palabras, entre dos métodos que producen el mismo resultado, es
preferible el más económico, es decir, el que requiere menos operaciones aritméticas para su
realización, que permite alcanzar los objetivos dentro del marco de tiempo establecido de antemano.
En este capítulo consideremos algunos momentos que determinan la calidad de un algoritmo
numérico y su eficiencia.
5.1. Importancia de la estabilidad de los cálculos
Una vez que un algoritmo numérico se formula adecuadamente, deseamos conocer las condiciones
exactas en las que el algoritmo da la solución del problema en cuestión. El practicante de la técnica de
cálculo es frecuentemente inclinado a juzgar el desempeño de un algoritmo de una manera puramente
pragmática: El algoritmo ha sido probado en un cierto número de ejemplos, y ha funcionado de
manera satisfactoria en el 95 por ciento de todos los casos.
Pero los matemáticos pueden hacer preguntas sobre el rendimiento del algoritmo. Uno podría
querer saber, por ejemplo, la rapidez de ejecución del algoritmo. O uno puede desear saber algo sobre
280
el tamaño del error, si el algoritmo se implementa con pequeños errores (errores iniciales, errores de
contorno, errores en el forzamiento del problema, errores de redondeo, etc.). Esta última pregunta está
relacionada con la estabilidad numérica del algoritmo. Ordenadores digitales electrónicos modernos
trabajan con un número limitado de posiciones decimales. Y el número de operaciones aritméticas que
puede ser realizado por unidad de tiempo (por ejemplo, por un segundo), sin embargo, es de millones
de veces más grande. Aunque los errores de redondeo individuales son aún pequeños, su efecto
acumulativo puede, en vista de la gran cantidad de operaciones aritméticas realizadas, crecer muy
rápidamente e invalidar completamente el resultado final. Con el fin de ser sonido, un algoritmo debe
permanecer inmune a la acumulación de errores de redondeo. Esta inmunidad se denomina
estabilidad numérica.
Es preciso notar que la solución numérica obtenida mediante un algoritmo inestable siempre
es inútil, ya que la contribución de los errores en el valor de la solución numérica puede ser tan grande
que dicha solución será muy distinta de la solución exacta desconocida. Por ello, es muy importante
usar sólo los algoritmos estables.
Con los Ejemplos 1.1.2 y Ejemplo 3.7.2 ya mostramos que una fórmula puede ser perfecta
para los cálculos exactas, pero es inestable y, por lo tanto, completamente inútil si los cálculos se
implementan con errores de redondeo (usando una computadora). O, por ejemplo, el método de
bisección es insensible a errores en el cálculo de los valores f ( xi ) si el signo de f ( xi ) se determina
correctamente. Sin embargo, ya el primer error en el signo f ( xi ) es fatal, porque conduce a la
elección errónea del siguiente intervalo.
Diferentes tipos de estabilidad. Sea B  {x  R n : x   } una bola con el radio  y el
centro x  0 . Consideremos una ecuación discreta
281
xn1  f (n, xn ), xn 0  x0
Definición 5.1.1. La solución x  0 de la ecuación ya mencionada se llama
a) estable si para un   0 dado, existe  ( , n0)  0 tal que para cualquier x0  B la solución
xn  B ;
b) asintóticamente estable si la solución es estable y atractiva, es decir, si existe  (n0)  0 tal
que lim xn  0 cuando n   para x0  B ;
c) global asintóticamente estable si la solución es asintóticamente estable para cualquier punto
inicial x0 ;
d) exponencialmente estable si existe   0 , a  0 y 0    1 tal que xn  a x0  n  n 0 cuando
x0  B .
Consideraremos ahora más ejemplos.
Ejemplo 5.1.1. Sea
yn 1  ayn ,
Por lo tanto,
y0  b
yn 1  a yn , y los errores  yn se propagan según la ecuación
 yn 1  a  yn
es decir, la solución yn es estable si a  1 , es asintóticamente estable si a  1 , y es inestable si
a  1. ■
Ejemplo 5.1.2. Sea
yn1  3yn  2 yn1
282
(5.1.1)
una fórmula recurrente. Notemos que si y0  y1  1 entonces, según (5.1.1), yn  1 para cada
n  1 . Aceptamos dichos valores como la solución exacta. Ahora introducimos errores
y 0 ,  1   ,
y
y1,  1  2
(5.1.2)
en dos valores iniciales, y repetimos cálculos usando la fórmula (5.1.1). La solución perturbada que
obtenemos tiene la forma
y n ,  1  2 n  .
(5.1.3)
En efecto, cálculos directos nos dan
y 2 ,  3 y 1,  2 y 0,  3(1  2 )  2(1   )  1  2 2  ,
y 3,  3 y 2 ,  2 y 1,  3(1  2 2  )  2(1  2 )  1  2 3  ,
Fig.5.1.1. Comportamiento de las dos soluciones: la exacta y la perturbada.
283
etcétera. Supongamos que   10 3 , lo que significa que los errores iniciales (5.1.2) son bastante
pequeños. Sin embargo, según (5.1.3), el error aumenta muy rápido y después de diez pasos supera el
valor de la solución exacta: y 10,  1  2 10  10 3  1  1.024
yn  1
(Fig.5.1.1). Claro que la solución
de la ecuación (5.1.1) es exponencialmente inestable, y es totalmente inútil usar dicha
ecuación para n  8 si los datos iniciales (5.1.2) contienen errores más grandes que   10 3 . ■
Ejemplo 5.1.3. Desarrollamos ahora un método numérico para calcular la integral
1
I n   x ne x 1dx , n  1, 2,3,...
0
Aplicando la integración por partes obtenemos
1
1
I1   xe x 1dx  xe x 1   e x 1dx 
1
0
0
1
0
I 2   x e dx  x e
2 x 1 1
2 x 1
0
1
e
1
 2 xe x 1dx  1  2I1
0
0
……………………….
1
I n   x e dx  x e
n x 1
n x 1 1
0
1
 n  x n1e x 1dx  1  nI n1
0
0
Usando las fórmulas de recurrencia, calculamos
I1  0.367879, I 2  0.263242, I3  0.207274
I 4  0.170904, I5  0.145480, I 6  0.127120
I 7  0.110160, I8  0.118720, I9  0.0684800
284
(5.1.4)
Sin embargo, el valor de la integral I 9 no puede ser negativo, porque la función x9e x1 es no negativa
en todo el intervalo  0,1 . Investigamos la fuente del error. Se puede ver que el error de redondeo en
I1 es aproximadamente solamente 4.4 107 . Sin embargo en cada etapa de cálculos este error se
multiplica por los números 2,  3, ...,  9 , cuyos módulos son más grandes que uno, lo que da, como
resultado, el factor 9! y finalmente nos lleva a un absurdo. ■
Ejercicios:
1. Sea


u n1  u n

evolucionario

A

u n1  (1   )u n
2
 0 una familia de los esquemas ( 0    1 ) para el problema
du
 Au
dt
con una matriz antisimétrica A. Demuestre que la norma de la solución u
2
 u, u
1/2
se conserva
sólo para el esquema de Crank-Nicolson (   ).
1
2
2. En un dominio espacial periódico aproximamos la ecuación de Burgers



0
t
x
por una ecuación semi-discreta
 j
   j 1
  j j 1
 0.
t
2 x
Demuestre que la norma
1/ 2


 2     2 dD 
D

de la solución exacta se conserva con tiempo, mientras que la norma
1/ 2


     2j 
 j

de la solución aproximada crece sin límites (la ecuación semi-discreta es inestable).
3. Consideremos la forma canónica de los esquemas homogéneos de un solo paso (Samarskii, 1971):
285
B
y n 1  y n

 Ay n  0
donde A y B son dos matrices, además B es definida positiva y A es simétrica y definida positiva.

 
Demuestre que si B  0.5 A entonces el esquema es estable en la norma y A  Ay, y :


yn  y0 .
A
A
4. Demuestre que si adicionalmente a las condiciones del ejercicio 3, la matriz B también es
simétrica, entonces el esquema
B

es estable también en la norma y B 
5. Sea


y n1  y n

y n 1  y n

 
By, y :
 Ay n  0

yn
B

 y0 .
B



 A  y n1  (1   ) y n  0 un esquema donde   0 es el peso, A  A * , y




A  0 . Demuestre que si   0.5 , entonces el esquema es estable: y n  y 0 .
2
 
6. Sea Ay  d Ay, y . Demuestre que si  


estable : y n  y 0 .
286
1 1
 , entonces el esquema del ejercicio 5 es
2 d
5.2. Estabilidad de la solución de un problema
La importancia de la estabilidad de un algoritmo numérico también se determina por el
teorema de equivalencia de Lax (Marchuk, 1982; Golub y Ortega, 1992). Supongamos que hay que un
problema continuo lineal se aproxima por un problema discreto. Entonces, según el teorema de Lax,
la solución del problema discreto converge a la solución del problema continuo solo si el algoritmo
numérico, que se usa para hallar la solución del problema discreto, es estable. En el caso de un
problema no lineal, la aproximación y estabilidad también son necesarias, pero no siempre son
suficientes para la convergencia. Para un estudio más detallado se recomiendan los trabajos de
Forsythe y Wasow (1960), Godunov y Ryabeñkii (1964), Richtmyer y Morton (1967), Yanenko
(1971), Marchuk (1982), Golub y Ortega (1992), Skiba (1993, 2001, 2005, 2015), Durran (1999).
Ejemplo 5.2.1. Hallamos la solución  ( x, t ) del problema de Cauchy para la ecuación de
transporte


u
0
t
x
(5.2.1)
L   ( x,0)  g ( x)
(5.2.2)
A 
en la banda    x   , 0  t  T , donde u = Const,
y g(x)
es dos veces continuamente
diferenciable en todo el eje x, además,
2
sup
g ( x)  G  
2
 x  x
La solución exacta del problema (5.2.1), (5.2.2) es
287
(5.2.3)
 ( x, t )  g ( x  ut)
y, por lo tanto,  ( x, t )  Const a lo largo de cada línea característica x  ut  Const . Además,
debido a (5.2.3), la solución es acotada.
Aproximación. Introducimos las mallas regulares en el espacio y tiempo con tamaños h y τ,
respectivamente: xi  ih ; t n  n ; n  0,1,2,..., N +1; T  ( N  1) . Denotemos como  in   ( xi , t n )
el valor de la solución numérica en el nodo xi , tn  de la malla obtenida con el esquema de Godunov
(Godunov y Ryabeñkii, 1964):
A  
h ,
n
i

 in1   in
 n   in1
u i
0

h
( Lh )i   i0  g i
(5.2.4)
(5.2.5)
Entonces, la condición inicial (5.2.2) se aproxima exactamente. Sin embargo, expandiendo  in 1 y
 in1 en las series de Taylor en vecindad del punto  xi , t n  , obtenemos que el esquema (5.2.4) tiene el
primer grado de aproximación respecto a h y  :
Ah, ( ) h,  Ah,  h,  Ah, ( ) h,  M 1 (h   )
(5.2.6)
donde f  max sup f i n , y la solución exacta ( ) h , es la función de malla definida en los nodos
n
i
 xi , t n  .
Estabilidad. Examinemos ahora la estabilidad del esquema de Godunov. Suponiendo que un
error  in en la parte derecha de (5.2.4) causa cierto error  in en la solución numérica  in , llegamos a
la ecuación para los errores:
288


 in1  1 
u  n u n
0
n
 i   i 1   i ,  i  0 .
h
h
(5.2.7)
o
 in1  1 
Si
u
h
u
h
 in 
 1 (la condición de Courant), entonces 1 
u
h
u
h

 in1    in .
u
h
1 y
sup  in1  sup  in   
i
(5.2.8)
(5.2.9)
i
donde   sup  in . Se deduce de (5.2.9) que la estabilidad el esquema de Godunov es condicional,
i
es decir, solo si
u
h
1:
   ( N  1)   T 
(5.2.10)
Convergencia. Entonces, según el teorema de Lax,
( ) h,    T M 1 (h   ) .
(5.2.11)
es decir, la solución numérica converge hacia la solución exacta del problema de Cauchy con el orden
O(  h) respecto de h y  .
Es conveniente dar una interpretación geométrica de la relación entre la condición de Courant
y la convergencia del esquema explícito de Godunov. Supongamos que u  1 y T  1 , entonces la
solución exacta  ( x, t )  g ( x  t ) es invariable a lo largo de la característica x  t  Const y, en
289
particular,  (0,1)   (1,0)  g (1) . En este caso, la condición de Courant es
r

h
 1 , y el
esquema (5.2.4), (5.2.5) se convierte en
 in1  1  r  in  r in1 ,  i0  g i .
(5.2.12)
Ya que ( N  1)  1 , entonces  0N 1 aproxima el valor exacto  (0,1) en el punto C (Fig.5.2.1).
Fig. 5.2.1. Dominios de influencia para  0N 1 dependiente de la condición de Courant.
La situación más favorable es cuando r  1 , ya que en este caso, el esquema (5.2.12) aproxima el
problema diferencial exactamente y, según el método de las características,  0N 1 depende sólo del
valor g (1) en el punto x  1 :  0N 1  g (1) (el punto B en Fig. 5.2.1). Si r  1 , entonces, de
1
acuerdo con (5.2.12), el dominio de influencia para el valor  0N 1 es todo el segmento AO  ( ,0)
r
290
del eje x que incluye el punto x  1 (Fig. 5.2.1). Al contrario, cuando r  1 , el dominio de la
1
influencia para el valor  0N 1 es el segmento DO  ( ,0) que no incluye el punto x  1 .
r
Supongamos ahora que la función inicial g(x) se cambia un poco y suavemente en una vecindad
pequeña U del punto x  1 , situada fuera del segmento
DO, entonces,
la solución exacta
 (0,1)  g (1) también se modifica. Por otra parte, la solución numérica  0N 1 refleja dicho cambio
en g(x) en la vecindad U si r  1 (ya que el punto x  1 pertenece al dominio de influencia AO), y
no lo siente si r  1 (ya que el punto x  1 no pertenece al dominio de influencia BO). La misma
situación se representa cuando h y  tienden al cero conservando el valor r 

h
. Por eso, en el caso
cuando r  1 , no hay ni estabilidad, ni convergencia.
A continuación se comparan los resultados de los dos ejemplos (Ejemplos 5.2.2 y 5.2.3) para
demostrar que la estabilidad de la solución de un problema continua puede empeorarse en el proceso
de su discretización.
Ejemplo 5.2.2 (problema continuo). Sea
d
y ( x )  y ( x )  g ( x ) ,
dx
y ( 0)  a
(5.2.13)
el problema original con la solución y ( x ) , y
d
y ( x )  y ( x )  g ( x ) , y ( 0)  a  
dx
(5.2.14)
un problema perturbado por un error  >0 introducido en el punto x=0, que tiene la solución y ( x) .
Evidentemente, el problema para errores
z ( x)  y ( x)  y( x) tiene la forma
291
d
z ( x )  z ( x ) , z ( 0)   .
dx
(5.2.15)
La solución del problema (5.2.15) es
z ( x )   expx .
(5.2.16)
z  ( x )   expRe   x .
(5.2.17)
y, por lo tanto,
Es evidente que el comportamiento del error  depende del parámetro  :
1) Si Re   0 , entonces la solución y ( x ) es estable asintóticamente, ya que z  ( x )  0
cuando x   , es decir, el error  introducido en el punto x=0 tiende al cero cuando x aumenta.
2) Si Re   0 , entonces la solución y ( x ) es inestable, ya que z  ( x )   cuando x   ,
y por lo tanto, el error  aumenta sin límites junto con x.
3) Si Re   0 , entonces la solución y ( x ) es estable, ya que z  ( x )   para cada x.
Así, la solución y ( x ) del problema (5.2.13) es estable respecto al error  si Re   0 . ■
Ahora vamos a ver cómo se cambian las condiciones de estabilidad de la solución al
discretizar el problema (5.2.13).
Ejemplo 5.2.3 (problema discreto). Aproximemos tanto el problema continuo original (5.2.13)
como el perturbado (5.2.14) por medio del esquema de Euler:
yn1  yn  h( yn  gn ) , y0  a ,
y n 1,  y n,  h( y n,  g n ),
292
y 0,  a   .
(5.2.18)
(5.2.19)
Entonces el problema discreto para errores z n ,  y n ,  y n tiene la forma
z n 1,  1  h z n, ,
z 0,   ,
(5.2.20)
o, de otra manera, en los cálculos, el error inicial se propaga como
z n,  1  h  z 0,  1  h   ,
n
n
n0 .
(5.2.21)
Por lo tanto,
z n ,  1  h
n

z 0,  (1  hRe  ) 2  h 2 (Im  ) 2

n/2
,
n0
(5.2.22)
es decir, la solución y n del problema discreto es estable respecto al error  sólo si
(1  h Re  ) 2  h 2 (Im  ) 2  1.
(5.2.23)
Es importante notar que, a diferencia del problema continuo (5.2.13), la solución numérica y n es
inestable no sólo cuando Re   0 , sino también cuando Re   0 . Además, si Re   0 , en virtud
de (5.2.23), la solución y n es estable sólo para h bastante pequeño:
h
2 Re 

2
.
(5.2.24)
En particular, si   Re   0 , entonces se deduce de (5.2.24) que h  2 /  , y por consiguiente, h
disminuye cuando
 crece. Así, el esquema de Euler es condicionalmente estable (es decir, es
estable sólo bajo cierta condición). ■
293
Ejercicios:
1. Considere la solución de la ecuación
n
An  
0


du
 Au
dt
donde
 1 
A
 . Demuestre que
0  
nn1 
 ( n  1,2,... ).
n 
2. Analice la estabilidad del esquema





u n1  u n1
u n1  u n

 (1   )
 Au n  0
2

cuando   0 y   1.
3. Demuestre la inestabilidad del esquema





u n1  u n1
u n1  u n

 (1   )
 Au n  0
2

cuando   4 .
4. Demuestre la estabilidad del esquema
un1  2un  un1  n1
 u  (1  xn2 )un  1  xn , n  1,2,..., N 1,
2
h
u0  2 , u N  1 , 0  xn  nh  1 , Nh  1 .
5. Considere el esquema de Lax-Wendroff
1
1
 nj1   (1   )  nj1  (1   2 )  nj   (1   )  nj1
2
2
para la ecuación de transporte


u
0
t
x
donde   u

h
. Demuestre que el factor de amplificación  (k ) en el análisis espectral del
esquema es
 (k )  1  i sen kh  2 2 sen2 12 kh
y, por lo tanto, el esquema es estable si se cumple la condición de Courant:   1 [Indirecta: use
la fórmula  (k )  1  4 2 (1   2 ) sen4 12 kh ].
2
294
5.3. Piense bien!
Una característica importante de un método numérico es su eficiencia. Es la capacidad de
lograr la solución de un problema, con la menor cantidad de recursos posibles. Entonces, la eficiencia
nos obliga a identificar el trabajo y los desperdicios, a fin de disminuir o eliminar los desperdicios que
tienen implícitos costos. En otras palabras, entre dos métodos que producen el mismo resultado, es
preferible el más económico, es decir, el que requiere menos operaciones aritméticas para su
realización, que permite alcanzar los objetivos dentro del marco de tiempo establecido de antemano.
Por ejemplo, es fácil calcular 9882 si usar la fórmula
a 2  a 2  b2  b2  (a  b)(a  b)  b2
En efecto, 9882  (988  12)(988  12)  122  1000  976  144  976144 .
U otro problema: sin calcular las raíces, determinar que número es más grande,
mejor método es el siguiente:
 5
5
10
 52  25 ,
 2
10
 25  32 . Por lo tanto,
5
5 o
2 ? El
2  5 5.
La eficiencia de cálculos está estrechamente ligada a nuestra capacidad de pensar de manera
no convencional. Vamos a ilustrar esto con algunos ejemplos.
Ejemplo 5.2.1. (Esquema de Horner). El método de Horner para la evaluación de polinomios
es ampliamente conocido debido a su eficiencia, y en términos generales consiste en lo siguiente:
Evaluar el polinomio algebraico
Pn ( x)  an x n  an1 x n1  an2 x n2  ...  a1 x  a0
de tal forma que el número de multiplicaciones efectuadas sea n, donde n es el grado del polinomio.
Puede checarse fácilmente que si el polinomio anterior es evaluado en la forma como aparece,
el número de multiplicaciones requeridas está dado por
295
n(n  1)
k

2
k 1
n
n2
2
Para reducir el número de multiplicaciones, lo que Horner propone es factorizar Pn ( x ) tantas veces
como sea posible, según el siguiente esquema:
Pn ( x)  an x  an1x  an2 x    a2 x  a1x  a0
(5.2.1)
De acuerdo con la fórmula (5.2.1), el cálculo del valor de Pn (z ) en un punto x=z se reduce al
siguiente algoritmo:
cn  a n
cn1  an1  zcn
cn2  an2  zcn1

c1  a1  zc2
c0  a0  zc1  Pn ( z )
(5.2.2)
Así, Pn (z ) se calcula por medio de un ciclo:
input ( z, a0 , a1 , a2 ,
, a n ); cn  an ; i  n, n 1, n  2,...,1 { ci1  ai1  zci }; Pn ( z )  c0 .
El método de determinación del valor polinomio con arreglo a las fórmulas (5.2.2) se llama el
esquema de Horner. En conclusión debemos decir que a pesar de que el esquema de Horner es muy
cómodo, en el caso cuando los coeficientes a i son muy grandes, los cálculos según el esquema (5.2.2)
a veces pueden producir pérdidas considerables de la exactitud debido a la sustracción de grandes
números redondeados. ■
Ejemplo 5.2.2. Al expandir la función x2 en una serie de Fourier en el intervalo [ ,  ]
obtenemos
x2
2
3
(1)n
cos nx
2
n 1 n

 4
296
Si ponemos en esta expansión x   entonces calcularemos la suma de la serie
1
2
n 

 1.6449

6
n 1
n 1 n  n


2
(5.2.3)
Es bien conocido que la serie (5.2.3) converge lentamente. Suponemos ahora que su suma exacta
 2 / 6 está desconocida y en nuestras manos hay sólo una calculadora de escritorio. Notemos que el
método directo de sumar uno tras otro los términos de la serie no es tan efectivo (económico), ya que
es necesario sumar unos 10,000 términos para alcanzar la misma exactitud. Esto requiere hacer 30,000
operaciones, es decir, gastar 50 horas de trabajo continuo si hacer 10 operaciones por minuto.
Intentamos ahora a resolver este problema de otra manera. Es fácil calcular la suma de los
nueve primeros términos de la serie (1,5398), lo que ya nos da una buena aproximación al valor
exacto (porque la serie converge). Gastamos sólo 4 minutos para obtener este resultado usando la

calculadora de escritorio. Comparamos ahora la suma
n
2
de los restos términos de la serie con la
n 10

integral
x
2
dx . Con este fin, aproximemos la integral por medio de la fórmula de los trapecios:
10

x
2
dx 
10
1 2
1
1
(10  112 )  (112  122 )  (122  132 ) 
2
2
2

1
1
1
 102  102   n 2  102
2
2
2
n 10
(5.2.4)
Por lo tanto,

n
n 10
2

1
  x 1   102  0.1050
10
2
(5.2.5)
y finalmente,

9

n 1
n 1
n 10
 n2   n2   n2  1.5398  0.1050  1.6448
297
(5.2.6)
Así, obtenemos rápidamente muy buen resultado. Así, si los cálculos se realizan mediante una
calculadora de escritorio, la diferencia entre estos dos métodos es enorme. ■
Ejemplo 5.2.3. Suponemos que los términos a k y bk de dos series


 an
b
y
n 1
n
n 1
asintóticamente tienen un comportamiento similar, es decir,
an
1
n b
n
lim
Entonces,



n 1
n 1
n 1
 an   bn   (an  bn )
(5.2.7)

La fórmula (5.2.7) es muy útil para calcular la suma de la serie
 an si la suma de
n 1

que la última serie
 (an  bn ) converge mucho más rápido que la serie original
n 1

b
n
n 1
es dada, ya

a
n 1
n
.
Por ejemplo, hay que calcular la suma de la serie


 a  n
n 1
n
4

1
n 1
1/ 2

Consideremos como la serie
b
n 1
n
la serie (5.2.3) cuya suma ya está conocida:


2
n 1
n 1
6
 bn   n2 
Luego, usando (5.2.7), se calcula fácilmente la suma de la serie (5.2.8):
298
(5.2.8)

a
n 1
n

2
6


   n4  1
n 1
1/ 2

 n2  1.64493  0.30119  1.34374
(5.2.9)
En efecto, la suma de los primeros cinco términos de la última serie en (5.2.9) ya es suficiente para
obtener el valor exacto hasta cuatro decimales. Notemos que es necesario sumar por lo menos 20,000
términos an (hacer unos 140,000 operaciones) con el fin de alcanzar la misma exactitud. En el caso si
los cálculos se realizan mediante una calculadora de escritorio, la diferencia entre estos dos métodos
es enorme. ■
Ejemplo 5.2.4. Usando una calculadora de escritorio calcule la suma
Sn 
1
1
1



1  5 5  9 9 13

1
(4n  3)(4n  1)
(5.2.10)
para n  1010 . Evidentemente, es un absurdo sumar uno tras otro los 1010 términos de la suma
(5.2.10). Presentamos los términos de dicha suma de otra manera:
1
1
1
  (1  ) ,
1 5 4
5
1
1 1 1
 (  ) ,
59 4 5 9
1
1 1 1
 (  ) ,
9 13 4 9 13
………………..
1
1
1
1
 (

)
(4n  3)(4n  1) 4 4n  3 4n  1
Por lo tanto,
1
1
n
Sn   (1 
)
4
4n  1 4n  1
299
(5.2.11)
y en particular, S1010 
1010
.■
4 1010  1
Ejemplo 5.2.5. Usando una calculadora de escritorio calcule la suma
Sn  11! 2  2! 3  3!
 n  n!
(5.2.12)
para n  100 . De nuevo, es un montón de trabajo si empezamos de sumar todos los términos de la
suma (5.2.12) uno tras otro. Por otra parte notemos que
Sn  11! 2  2! 3  3!
 n  n!
 (2 1) 1! (3 1)  2! (4 1)  3!
 (2!1!)  (3! 2!)  (4! 3!) 
 [(n 1) 1]  n!
 [(n 1)! n!]  (n 1)!1
Por lo tanto, el resultado final S100  (101)! 1 es fácil calcular usando la calculadora de escritorio. ■
Ejemplo 5.2.6. Calcule la suma
Sn 
1
1
1



1 2
2 3
3 4

1
n 1  n
para n  10000 . Hay que pensar en un método eficiente de sumar. Notemos que
1
n  n 1

 n  n 1
n  1  n ( n  n  1)( n  n  1)
y, por lo tanto,
Sn 
1
1
1



1 2
2 3
3 4
 ( 2  1)  ( 3  2)  ( 4  3) 

1
n 1  n
 ( n  n  1)  n  1 .
Así, el resultado final se obtiene sin ninguna calculadora: S10000  100  1  99 . ■
300
(5.2.13)
Ejemplo 5.2.7. Es otro ejemplo cuando un pensamiento bueno permite obtener resultado sin
usar una calculadora o un ordenador. Hay que calcular la suma a2006  a2006 si a2  a 1  0 .
Como a  0 , entonces se puede dividir la ecuación a2  a 1  0 entre a . Se obtiene
a  a1  1 . Notemos que a3  1  (a  1)(a 2  a  1)  0 , es decir, a3  1 . Por lo tanto,
a 2006  a 2006  (a3 )668 a 2  (a3 )668 a 2  a 2  a 2  a 1 (a3  a 1 )
 a 1 (1  a 1 )  a 1 (a)  1 . ■
Ejemplo 5.2.8. Determine la parte entera  S  de la suma
S  1
1 1
 
22 32

1
20092
(5.2.14)
Tenemos
1  S  1
1 1
 
22 32

1
1
1
 1


2
2009
1 2 2  3
1
1 1
 1  (1  )  (  ) 
2
2 3
(

1
2008  2009
1
1
2008

) 1
2008 2009
2009
Por lo tanto,  S   1 .
Ejercicios:
N
1
1
.
 1
N 1
n 1 n(n  1)
1. Demuestre que S N  
N
2. Demuestre que S N   a n 
n 0
a N 1  1
[Indirecta: Usar la formula S N  a N 1  1  aS N ].
a 1
N
3. Demuestre que S N   n2n  ( N  1)2 N 1  2 [Indirecta: Usar la formula
n 0
S N  ( N  1)2 N 1  2S N  2(2 N 1  1) ].
301
4. Calcule las sumas de las series siguientes:



(1) n 1
1
1
,
,
S1  
S

S



2
3
2
2
2
n
n 1
n 1 (2n  1)
n 1 (2 n)

2
n 1
6
[Indirecta: Ya sabemos que S   n 2 
S3 
. Demuestre que
1
1
S ; S  S1  2S3 ; S1  S ; 2S2  S  S1 ].
4
2
302
5.4. Importancia de los métodos geométricos
Es innegable que el pensamiento geométrico, desarrollado por la geometría, tiene un claro
paralelismo en otras áreas temáticas y la investigación puede servir como una analogía con
éxito en la obtención de resultados útiles, conclusiones, principios y consideraciones de los
diversos campos del conocimiento. La propia geometría como ciencia tiene una historia de
mil años. Como una dirección científica, implica el estudio de las conexiones lógicas entre
conceptos, donde el papel central se da al uso de la intuición visual, es decir, la geometría
se basa en las representaciones espaciales.
En matemáticas, una demostración o bien una prueba es un argumento deductivo
para asegurar la verdad de una proposición matemática. En la argumentación se pueden
usar otras afirmaciones previamente establecidas, tales como teoremas o bien las
afirmaciones iniciales o axiomas. En principio una demostración se puede rastrear hasta
afirmaciones generalmente aceptadas, conocidas como axiomas.
Las representaciones geométricas-visuales son de particular importancia en el
proceso de solución de problemas matemáticos. No hay duda de que la forma geométrica
del pensamiento es de alto grado de abstracción, y por lo tanto se trata de una colección de
pensamiento espacial, proporcionando operación espacial con las imágenes, y el
pensamiento lógico, que permite el establecimiento de relaciones adecuadas entre las
imágenes.
A pesar de no ser una demostración formal, una demostración visual de una
declaración particular es a veces llamada una “demostración sin palabras”. En general, las
demostraciones sin palabras son imágenes o diagramas que ayudan al observador ver por
qué la declaración puede ser cierta, y proporcionar pistas visuales para estimular el
303
pensamiento matemático. En algunos casos, una prueba sin brillo se puede complementar
con un análogo geométrico tan simple y hermoso que la verdad de una declaración es casi
evidente a primera vista. El objetivo de la sección es mostrar cómo se pueden emplear
algunas técnicas de visualización para producir imágenes que ayudan a los estudiantes a
comprender las ideas matemáticas, pruebas y argumentos. Consideraremos varios ejemplos.
Ejemplo 5.4.1 (Teorema de Pitágoras). La Figura 5.4.1 es un ejemplo de la histórica
demostración visual del Teorema de Pitágoras en el caso del triángulo de lados con medidas
(a, b, c) :
a2  b2  c2
(5.4.1)
Fig. 5.4.1 (autor desconocido). Teorema de Pitágoras: a2  b2  c2 .
Los siguientes seis ejemplos fueron reproducidos de Nelsen (1993, 2000).
Ejemplo 5.4.2 (Suma de una progresión geométrica). La Figura 5.4.2 es otro
ejemplo que demuestra la suma
S
1 1 1
  
4 42 43
304

1
 ...
4n
(5.4.2)
de la progresión geométrica es S  13 .
En efecto, supongamos que el área del triángulo equilátero es uno y luego dividimos
lo en cuatro triángulos equiláteros iguales. El área del triángulo central (blanco) es
1
4
.
Luego vamos a repetir sin fin el mismo procedimiento con el triángulo superior. Cada
término de la progresión coincide con el área del triángulo correspondiente. Al sumar las
áreas de los triángulos blancos obtenemos S  13 (Fig.5.4.2).
Fig.5.4.2 (Rick Mabry). Cálculo de la suma de la progresión geométrica
(5.4.2) usando el triángulo equilátero con el área igual a uno.
Ejemplo 5.4.3 (Suma de cualquier progresión geométrica). En general, usando las
relaciones entre los lados de triángulos semejantes es fácil demostrar que la suma de una
progresión geométrica
S  1 r  r 2  r3 
 r n  ...
es 1/ (1  r ) . En efecto (véase Fig. 5.4.3),
1 r  r2  r3 
1
 r n  ...
305

1
1 r
(5.4.3)
Fig.5.4.3 (Benjamin G. Klein & Irl C. Bivens). Suma de una
progresión geométrica usando triángulos semejantes.
Ejemplo 5.4.4 (Desigualdad de las medias aritmética y geométrica). Sean a  0 y
b  0 . La desigualdad
ab
 ab
2
se demuestra sin palabras.
Fig.5.4.4 (Charles D. Gallant). Desigualdad de
las medias aritmética y geométrica.
306
(5.4.4)
En otra demostración geométrica, basta construir un triángulo rectángulo cuya
hipotenusa sea (a  b) / 2 y un cateto sea (a  b) / 2 . Entonces, por el teorema de Pitágoras,
el otro cateto será
ab .
Ejemplo 5.4.5 (Las fórmulas de la tangente del ángulo mitad). Las formulas
tan

2

sin 
1  cos 

1  cos 
sin 
(5.4.5)
se deducen directamente de la figura 5.4.5.
Fig.5.4.5 (R.J. Walker). Las fórmulas de la tangente del ángulo mitad.
Ejemplo 5.4.6 (La distancia entre un punto y una línea).
La distancia d entre un punto (a, b) y una línea se obtiene de dos triángulos
rectángulos (Fig.5.4.6):
d ma  c  b

1
1  m2
307
(5.4.6)
Fig.5.4.6 (R.L. Eisenman). La distancia entre un punto y una línea.
Ejemplo 5.4.7 (Las fórmulas de doble ángulo). Los triángulos ACD y ABC
son semejantes. Por lo tanto, CD / AC  BC / AB , es decir, sin 2 / 2cos   2sin  / 2 ,
y sin 2  2sin  cos  (Fig.5.4.7). Por otra parte, AD / AC  AC / AB , es decir,
(1  cos 2 ) / 2cos  2cos  / 2 , y cos2  2cos 2  1 cos 2  sin 2  .
Fig.5.4.7 (Roger B. Nelsen). Las fórmulas de doble ángulo.
308
Ejemplo 5.4.8 (Teorema de Napoleón). Si sobre cada lado de un triángulo arbitrario
se construyen respectivos triángulos equiláteros, tanto hacia el exterior (Fig. 5.4.5) como
hacia el interior del triángulo, entonces los centros de dichos triángulos forman un triángulo
equilátero NMP.
Es preciso notar que los círculos circunscritos a los triángulos equiláteros pasan por
un mismo punto F , la línea NP es mediatriz del ángulo ANF, la línea NM es mediatriz del
ángulo FNC, el ángulo ANC es 120° y, por lo tanto, el ángulo PNM es 60° (Fig.5.4.5). De
la misma manera se demuestra que los otros dos ángulos del triángulo NMP también son
iguales a 60°.
Fig.5.4.8 (Mario Dalcìn, 2005). Teorema de Napoleón.
309
Referencias
Allaire, G., y S.M. Kaber, Numerical Linear Algebra. Nueva York, Springer, 2008.
Ames, W.F., Numerical Methods for Partial Differential Equations. Boston, Academic
Press, 1992.
Bakhvalov, N.S., Numerical Methods. Vol. 1, Moscú, Nauka, 1973 (en ruso).
Bellman, R., Introduction to Matrix Analysis. Nueva York, McGrow-Hill, 1960.
Bhatia, R., Matrix Analysis. Nueva York, Springer, 1997.
Burden, R.L., y J.D. Faires, Numerical Analysis. Boston, Brooks/Cole, 2011.
Businger, P., y G.H. Golub, Linear Least Squares Solutions by Householder
Transformations. Numer. Math., 7, 269-276, 1965.
Cayley, A., The Collected Mathematical Papers of Arthur Cayley, I (1841–1853),
Cambridge University Press, pp. 332–336, 1889.
Chapra, S.C. y R.P. Canale, Métodos Numéricos Para Ingenieros. México, McGraw Hill,
2002.
Ciarlet, P.G., Introduction to Numerical Linear Algebra and Optimisation. Cambridge,
Cambridge University Press, 1995.
Collatz, L.O., The Numerical Treatment of Differential Equations. Berlin, Springer-Verlag,
1966.
Cramer, G., Introduction à l’Analyse des Lignes Courbes Algébriques. Geneva: Europeana.
pp. 656–659, 1750.
Dalcìn, M., El Teorema de Napoleòn. Instituto de Profesores Artigas. Uruguay, 2005
(archivo 2121-6240-1-PB.pdf online).
310
Demmel, J.W., Applied Numerical Linear Algebra. Berkeley, University of California,
SIAM, 1997.
Durran, D.R., Numerical Method for Wave Equations in Geophysical Fluid Dynamics.
Nueva York, Springer, 1999.
Faddeev, D.K., y V.N. Faddeeva, Computational Methods of Linear Algebra. San
Francisco, H.W. Freeman, 1963.
Forsythe, G.E., y C.B. Moler, Computer Solution of Linear Algebraic Systems. PrenticeHall, Englewood Cliffs, N.J., 1967.
Forsythe, G.E., y W.R. Wasow, Finite Difference Methods for Partial Differential
Equations. Nueva York, J. Wiley, 1960.
Forsythe, G.E., M.A. Malcolm, y C.B. Moler, Computer Methods for Mathematical
Computations. Prentice-Hall, Englewood Cliffs, N.J., 1977.
Fox, L., An Introduction to Numerical Linear Algebra. Londres, Oxford University Press,
1964.
Francis, J.F.G., The QR Transformation. A Unitary Analogue to the LR Transformation. I.
Computer J., 4, 265-271, 1961/62. The QR Transformation. II, ibid., 332-345,
1961/62.
Gantmacher, F.R., Theory of Matrices. Vol. 1-2, Paris, Dunod, 1966.
Givens, J.W., Numerical Computations of the characteristic values of a real symmetric
matrix. Oak Ridge National Laboratory Report ORNL-1574, 1954.
Godunov, S.K., y V.S. Ryabeñkii, The Theory of Difference Schemes – An Introduction.
Fizmatgiz, Moscow, 1962 (en ruso); Amsterdam, North Holland, 1964.
311
Golub, G., Numerical Methods for Solving Linear Least Squares Problems. Numer. Math.,
7, 206-216, 1965.
Golub, G., y W.Kahan, Calculating the Singular Values and Pseudoinverse of a Matrix.
SIAM J. Numer. Anal., Ser. B, 2, 205-224, 1965.
Golub, G., y C.F. Van Loan, Matrix Computations. Oxford, North Oxford Academic, 1986.
Golub, G.H., y J.M. Ortega, Scientific Computing and Differential Equations. Introduction
to Numerical Methods. Boston, Academic Press, 1992.
Hamilton, A.G., Linear Algebra. Cambridge, Cambridge University Press, 1989.
Higham, N.J., Accuracy and Stability of Numerical Algorithms. Philadelphia, SIAM, 2002.
Horn, R.A. y Ch.R. Johnson, Matrix Analysis. Cambridge, Cambridge University Press,
1999.
Householder, A.S., The Theory of Matrices in Numerical Analysis. Nueva York, Blaisdell,
1964.
Iserles, A., A First Course in the Numerical Analysis of Differential Equations. Cambridge,
Cambridge University Press, 1998.
Jacob, B., Linear Functions and Matrix Theory. Nueva York, Springer-Verlag, 1995.
Kantorovich, L.V., On an Effective Method for the Solution of Extremal Problems for
Quadratic Functionals. Doklady AN SSSR, 48 (7), 455-460, 1945.
Kantorovich, L.V., On the Method of Steepest Descent. Doklady AN SSSR, 56 (3), 233-236,
1947.
Kress, R., Numerical Analysis. Springer-Verlag, Nueva York, 1998.
312
Kublanovskaya, V.N., On Some Algorithms for the Solution of the Complete Eigenvalue
Problem. Ž. Vyčisl. Mat. i Mat. Fiz. (J. Comput. Math. Math. Physics), 1, 555-570,
1961.
Kunz, K.S., Numerical Analysis. Nueva York, McGraw-Hill Book Co., 1957.
Kuttler, K., Elementary Linear Algebra. Kenneth Kuttler & Ventus Publishing ApS,
Bookboon.com, 2012.
Lancaster, P., Theory of Matrices. Nueva York, Academic Press, 1969.
Lancaster, P., y M. Tismenetsky, Theory of Matrices, with Applications. Nueva York,
Academic Press, 1985.
Laub A.J., Matrix Analysis for Scientists & Engineers. Philadelphia, SIAM, 2005.
Lawson, C., y R. Hanson, Solving Least Squares Problems. N.J., Prentice-Hall, Englewood
Cliffs, 1974.
Marchuk, G.I., Methods of Numerical Mathematics. Berlin, Springer-Verlag, 1982.
Marchuk, G.I., y Yu.N. Skiba, Numerical Calculation of the Conjugate Problem for a
Model of the Thermal Interaction of the Atmosphere with the Oceans and Continents.
Izvestiya, Atmospheric and Oceanic Physics, 12 (5): 279-284, 1976.
Marchuk, G.I., y Yu.N. Skiba, Role of the Adjoint Equation Solution in Estimating the
Mean Temperature Anomalies. Atmósfera, 5 (3): 119-133, 1992.
Maubach J.M., Numerical Methods in Scientific Computing. University of Pittsburgh, 2005.
Meyer, C.D., Matrix Analysis and Applied Algebra, Philadelphia, PA, SIAM, 2000.
Morton, K.W., y D.F. Mayers, Numerical Solution of Partial Differential Equations.
Cambridge, Cambridge University Press, 1994.
313
Myron, B.A. III, y E.L. Isaacson, Numerical Analysis for Applied Science. Nueva York,
Wiley-Interscience, 1998.
Nekrasov, P.A., Sobre la solución de un sistema de ecuaciones lineales con un número
grande de los incógnitos mediante aproximaciones. Suplemento al Vol. LXIX,
Zapiski Akad. Nauk (Boletin de la Academia de Ciencias), 5, 1-18, 1892.
Nelsen, R.B., Proofs Without Words: Exercises in Visual Thinking. The Mathematical
Association of America, 1993.
Nelsen, R.B., Proofs Without Words II: More Exercises in Visual Thinking. The
Mathematical Association of America, 2000.
Ortega, J.M, Matrix Theory. A Second Course. Nueva York, Plenum Press, 1987.
Ortega, J.M, y W.G. Poole, Jr., An Introduction to Numerical Methods for Differential
Equations. Pitman Publishing Inc., 1981.
Parlett, B.N., The Symmetric Eigenvalue Problem. N.J., Prentice-Hall, Englewood Cliffs,
1980.
Richtmyer, R.D., y K.W. Morton, Difference Methods for Initial Value Problems. Nueva
York, Wiley, 1967.
Roberts, S., y J. Shipman, Two-Point Boundary Value Problems: Shooting Methods. Nueva
York, American Elsevier, 1972.
Rutishauser, H., Solutions of Eigenvalue Problems with the LR-transformations. Nat. Bur.
Standards Appl. Math. Ser., 49, 47-81, 1958.
Rutishauser, H., Lectures on Numerical mathematics. Boston, Birkhäuser, 1990.
Samarskii, A.A., Introduction to the Theory of Difference Schemes. Moscú, Nauka, 1971
(en ruso).
314
Skiba, Yu.N., Balanced and Absolutely Stable Implicit Schemes for the Main and Adjoint
Pollutant Transport Equations in Limited Area. Revista Internacional de
Contaminación Ambiental, 9 (2), 39-51, 1993.
Skiba, Yu.N., A non-iterative implicit algorithm for the solution of advection-diffusion
equation on a sphere. International Journal for Numerical Methods in Fluids, 78 (5),
257-282, 2015.
Skiba, Yu.N., Spectral Approximation in the Numerical Stability Study of Nondivergent
Viscous Flows on a Sphere. Numerical Methods for Partial Differential Equations, 14
(2), 143-157, 1998.
Skiba, Yu.N., y J. Adem, On the Linear Stability Study of Zonal Incompressible Flows on a
Sphere. Numerical Methods for Partial Differential Equations, 14 (5), 649-665, 1998.
Skiba, Yu.N., Introducción a los Métodos Numéricos. México, Dirección General de
Publicaciones y Fomento Editorial, La Universidad Nacional Autónoma de México,
2001.
Skiba, Yu.N., Métodos y Esquemas Numéricos. Un Análisis Computacional. México,
Dirección General de Publicaciones y Fomento Editorial, La Universidad Nacional
Autónoma de México, 2005.
Smith, G. D., Numerical Solution of Partial Differential Equations, Clarendon Press,
Oxford, 1978.
Stewart, G.W., Matrix Algorithms. Volume II: Eigensystems. Philadelphia, SIAM, 2001.
Stewart, G.W., y Ji-guang Sun. Matrix Perturbation Theory. Nueva York, Academic Press,
1990.
315
Stoer, J. y Bulirsch, R., Introduction to Numerical Analysis. Springer-Verlag, Nueva York,
1993.
Taylor, J.R., An Introduction to Error Analysis. University Science Books, Mill Valley,
California, 1982.
Thomas, L.H., Elliptic Problems in Linear Differential Equations over a Network. Watson
Sci. Comput. Lab Report, Columbia University, New York, 1949.
Tyrtyshnikov, E.E., Methods of Numerical Analysis. Moscow, Institute of Numerical
Mathematics, Russian Academy of Sciences, 2006 (en ruso).
Varga, R.S., Matrix Iterative Analysis. Prentice-Hall, Englewod Cliffs, New Jersey, 1962.
Voevodin, V.V. y Yu.A. Kuznetzov. Matrices and Calculations. Moscú, Nauka, 1984.
Volkov, E.A., Métodos Numéricos, Moscú, Mir, 1990.
Watkins, D.S., The Matrix Eigenvalue Problem. GR and Krylov Subspace Methods.
Washington, Washington State University, SIAM, 2007.
Wilkinson, J.H., The Algebraic Eigenvalue Problem. Londres y Nueva York, Oxford
University Press (Clarendon), 1965.
Winter, D.J., Matrix Algebra. Nueva York, Maxwell Macmillan International, 1992.
Yanenko, N.N., The Method of Fractional Steps. Nauka, Novosibirsk, 1967 (en ruso);
Berlin, Springer-Verlag, 1971.
Young, D., Iterative Solution of Large Linear Systems. Nueva York, Academic Press, 1971.
316
ÍNDICE ANALÍTICO
de transporte, 287
normal, 85
Eficiencia de los cálculos, 280
Eigenespacio, 53
Eigenvalor, 34
Eigenvector, 34
Elemento pivote (rector), 147
Error
absoluto, 94
de iteración, 217, 220
de redondeo, 10
en los datos iniciales, 10
relativo, 11, 94
Esferas en varias métricas, 25
Espacio
col ( A) , 199
de Banach, 28
de dimensión finita, 17
euclidiano, 17
im( A) , 35
ker( A) , 35
lineal, 16
row(A) , 199
unitario, 17
Espectro de una matriz, 49
Esquema
de Crank-Nicolson, 285
de Euler, 292
de Godunov, 288
de Horner, 295
de Lax-Wendroff, 293
Estabilidad,
asintótica de una solución, 282, 292
condicional, 289
del método de Thomas, 186
de un algoritmo, 12
de un esquema, 288
de una solución, 282, 291, 293
exponencial, 282
numérica, 281
Estimación (número de iteraciones), 229
Extención de Laplace, 32
Algoritmo
LR, 265
numérico, 9
QR, 268
Aproximación
de un problema, 11, 288
Base,
ortogonal, 19
ortonormal, 20
A-ortogonal, 261
Carrera directa (inversa), 149, 185, 186
Celda de Jordan, 54, 123
Círculos de Gershgorin, 126
Condición
de Courant, 289
periódica, 195
Convergencia
de la solución aproximada, 12, 289
de un proceso iterativo, 217, 221,
226, 228, 238, 250, 263
Criterio
de convergencia de iteraciones, 221
de Sassenfeld, 235
de Sylvester, 142
Delta de Kronecker, 20
Desigualdad
de Hölder, 23
de las medias aritmética y
geométrica, 306
de Schwarz, 20
de Wielandt-Hoffman, 121
de Minkowski, 71
triangular, 22, 59
Determinante
de una matriz, 31, 32
de Gram, 19
Distancia (métrica), 23
Ecuación
de Burgers, 285
317
Factorización
defectuosa, 54
definida positiva, 37, 41
de Gram, 19
de Hessenberg, 159, 269
de Hilbert, 97
de Jacobi, 119
densa, 81
de rotación de plano, 170
de Toeplitz, 120
diagonal, 39
dominante, 68
debilmente dominante, 230
diagonalizable, 51
dispersa, 81
escalar, 39
estrictamente regular, 139
estrictamente triangular superior, 46
hermitiana, 40
idempotente, 42
identidad (unidad), 30
inversa, 33, 142
invertible, 33, 35, 68
irreducible, 83, 230
jacobiana, 180
mal condicionada, 95
no defectuosa, 30
no singular, 33
normal, 45
nula, 30
ortogonal, 40
particionada, 136
p-banda, 82
pentadiagonal, 82
permutación, 83
reducible, 83, 230
semejante, 43, 51
semidefinida positiva, 41
simétrica, 40
simple, 54
traspuesta, 31
tridiagonal de Toepliz, 187
triangular superior, 37, 39
triangular inferior, 37, 39
tridiagonal, 82
unitaria, 23, 40
unitariamente semejante, 43
unitriangular, 139
de Cholesky, 142, 156
de un problema tripuntual con
condiciones periódicas, 195
de una matriz tridiagonal, 144, 145
LDLT y LDL* , 144
LU, 138
PA=LU , 153
QR , 161
QR de una matriz rectangular, 163
QR (Gram-Schmidt), 163
QR (Givens), 169
QR (Householder), 177
Forma
cuadrática, 56
canónica de Jordan, 49
definida positiva, 56
semidefinida positiva, 56
Fórmula
Sherman-Morrison, 196
Sherman-Morrison-Woodbury, 198
Fórmulas
de doble ángulo, 308
de la tangente del ángulo mitad, 307
Igualdad del paralelogramo, 72
Interpretación geométrica de la relación
entre la estabilidad y convergencia,
289
Lema de Kellogg, 67
Límites espectrales de una matriz
simétrica, 117
Línea característica, 288
Matriz
adjunta, 31
antisimétrica, 40
antihermitiana, 40
banda, 82, 207
bien condicionada, 95
coherentemente ordenada, 248
conjugada, 31
consistente, 59
318
Método
de Cramer, 137
de cuadrados mínimos, 199
de disparo,
problema lineal, 190, 193
problema no lineal, 189
de eliminación de Gauss, 147
de Gauss-Seidel, 234
con relajación (SOR), 245
de iteraciones sucesivas, 216
de Jacobi, 225
con relajación, 243
de las potencias, 111
de minimización, 256
de Thomas, 183
del gradiente, 258
del gradiente conjugado, 262
simple, 261
Métrica, 23
Multiplicidad
algebraica, 34, 53
geométrica, 53
Parámetro de relajación óptimo, 244
Polinomio
característico, 34, 51
de Legendre, 168
diagonal, 56
Problema
Cauchy, 287
espectral, 49
particular, 80
generalizado, 79
Proceso de deflación, 115
Producto escalar (interno), 17
Proyección ortogonal, 22
Proyector
ortogonal, 22, 200
ortogonal elemental, 43
Norma
de energía, 62
de Frobenius, 59
de Hilbert-Schmidt, 59
de Hölder (p-norma), 22
equivalencia, 25, 65
espectral, 60
euclidiana (vectorial), 22
matricial, 59
máxima por las columnas, 64
máxima por las filas, 63
p-norma de una matriz, 60
subordinada, 60
vectorial, 22
Nulidad de una matriz, 35
Número
de condición, 91, 94, 104, 106
singular de una matriz, 107
Serie
de Fourier, 296
numèrica, 297, 298, 302, 304, 305
Sistema
bien condicionado, 92
mal condicionado, 92
ortonormal, 20
sobredeterminado, 78
Subespacio, 22
complemento ortogonal, 22
Suma de una serie finita, 299-301
Sustitución regresiva, 149
Radio espectral, 60
Rango de una matriz, 35
Reducción de Householder, 181
Residuo, 43
Rotaciones de Givens, 169
Teorema
Bolzano-Weierstrass, 26
Brauer, 130
Gershgorin, 124
Hirsch, 128
Householder-John, 239
Kahan, 246
Lax, 287
LU , 140
Napoleòn, 309
Ortogonalización
A-ortogonalización, 261
de Gram-Schmidt, 20
Óvalos de Cassini, 130
319
Ostrowsky, 247
Pitágoras, 304
Rutishauser, 267
Schur, 127
Schur y Toeplitz, 44
Stein-Rosenberg, 240
Wielandt-Hoffman, 121
Young, 250
Término residual, 91
Transformación
de Givens, 170
de Householder, 176, 204
de Cayley, 175
Traza de una matriz, 35, 59
Valores singulares de una matriz, 86
Vector
Adjunto, 18
complejo conjugado, 18
linealmente independientes, 18
modulo, 17
norma, 22
ortogonales, 19
ortonormales, 20
traspuesto, 17
Vectores conjugados, 262
320
SIGNOS CONVENCIONALES

x - vector columna

x T - vector traspuesta (vector fila)

x T - vector adjunto


x - modulo de x
(A) - autovalor de A
 ( A)  max i - radio espectral de A
1i  n
im( A) - imagen de A

x

- norma de x
ker( A) - espacio nulo de A

x

- p-norma (de Hölder) de x
rk( A) - rango de A
p
 
x, y
max - elemento máximo del conjunto M
 
- producto escalar de x y y
xM
 

 ( x, y) - métrica (distancia) entre x y y
sup - límite superior exacto de M
 - operador de Laplace


S ( y 0 , r ) - esfera con centro y 0 y radio r
M  N - unión de dos conjuntos M y N
xM
M
N - intersección de dos conjuntos
MyN
AT - matriz traspuesta
x  M - inclusión de un elemento x al
conjunto M
A* - matriz adjunta
A 1 - matriz inversa
L2a ,b  - espacio de funciones f (x) que
tienen la integral acotada
diag{ a1 , a2 ,..., an } - matriz diagonal

E=diag{ 1,1,...,1 } - matriz identidad
a
A - norma de la matriz A
A
A
F
p
b
2
f ( x) dx
f ( x ), g ( x )
- producto escalar de dos
funciones f (x) y g (x)
- norma de Frobenius de A
lim xk - límite de los elementos xk
- p-norma de A
k 
 (A) - número de condición de A
 i  im0
- conjunto de m+1 elementos  i
tr A - traza de A

det A - determinante de A
321
View publication stats
m
i 1
ai - suma de m elementos a i
Descargar