Subido por Pedro Flores

Apuntes de Álgebra Lineal II

Anuncio
Apuntes de
Álgebra lineal
Febrero 2008
Índice de materias
0. Notaciones y preliminares
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
5
5
9
13
1. Matrices y sistemas de ecuaciones lineales .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
.
.
.
en
.
.
.
.
.
las
.
.
. .
. .
. .
filas
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
16
26
33
41
42
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
55
58
60
66
71
80
85
88
91
.
.
.
.
.
.
.
.
.
.
.
.
.
.
93
Aplicaciones lineales
. . . . . . . . .
Núcleo y subespacio imagen de una aplicación lineal
Fórmula de las dimensiones
. . . . . . .
Isomorfismos de espacios vectoriales . . . . .
Espacios de aplicaciones lineales . . . . . .
Algunos tipos especiales de endomorfismos . . .
Matriz de una aplicación lineal respecto de bases .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
93
102
106
110
115
121
124
.
.
.
.
.
.
.
.
.
.
.
.
.
137
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
137
140
143
149
157
162
163
172
De conjuntos
De aplicaciones
Más notaciones
Cuerpos . .
Anillos
. .
Grupos . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Matrices
. . . . . . . . . .
Álgebra de matrices
. . . . . . .
Tipos especiales de matrices . . . . .
Matrices escalonadas y operaciones elementales
Sistemas de ecuaciones lineales
. . . .
El método de eliminación de Gauss . . .
2. Espacios vectoriales
.
.
.
.
.
.
.
Espacios vectoriales
. . . . . . . . .
Subespacios vectoriales
. . . . . . . .
Intersección y suma de subespacios . . . . .
Combinaciones lineales de vectores . . . . .
Dependencia lineal e independencia lineal de vectores
Bases y dimensión . . . . . . . . . .
Coordenadas
. . . . . . . . . . .
Dimensión de los subespacios . . . . . . .
Suma directa de subespacios . . . . . . .
Subespacios suplementarios
. . . . . . .
3. Aplicaciones lineales
.
.
4. Rangos y determinantes .
.
.
.
.
.
.
.
.
.
.
.
.
.
Rangos . . . . . . . . . . . . .
Cálculo del rango de una matriz . . . . . .
Propiedades del rango de una matriz
. . . .
Los diferentes rangos como rangos de matrices . .
Interludio: Permutaciones . . . . . . . .
Determinantes . . . . . . . . . . .
Propiedades de los determinantes
. . . . .
Para calcular el determinante de una matriz cuadrada
5. Sistemas de ecuaciones lineales
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
181
Sistemas de ecuaciones lineales
. . .
Estructura del conjunto de las soluciones
Subespacios afines de un espacio vectorial
Fórmula de la solución general
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
181
185
188
192
iv
Ecuaciones de los subespacios vectoriales
6. Diagonalización
.
.
.
.
.
.
.
Semejanza de matrices . . . . . .
Vectores propios y valores propios
. .
Interludio: Polinomios . . . . . .
Polinomio caracterı́stico
. . . . .
Endomorfismos diagonalizables
. . .
Diagonalización de matrices por semejanza
7. Espacios vectoriales euclı́deos
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
198
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
207
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
211
215
221
225
228
234
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
237
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
237
241
246
250
256
259
262
266
269
Productos escalares
. . . . . . . . .
Norma, distancia y ángulos
. . . . . . .
Vectores y conjuntos ortogonales . . . . . .
Bases ortogonales y bases ortonormales . . . .
Subespacios ortogonales y proyecciones ortogonales
Matriz de un producto escalar respecto de una base
Aplicaciones y matrices ortogonales . . . . .
Aplicaciones ortogonales de Rn , n = 1, 2, 3 . . .
Endomorfismos simétricos y matrices reales simétricas
0. Notaciones y preliminares
De conjuntos
a∈A
a es un elemento del conjunto A , o también, a pertenece al conjunto A .
a∈
/A
a no es un elemento del conjunto A , o también, a no pertenece al conjunto
A.
A⊆B
el conjunto A es un subconjunto del conjunto B , esto es, todo elemento del
conjunto A es elemento del conjunto B .
A=B
los conjuntos A y B son iguales: A y B son conjuntos que tienen los mismos
elementos, es decir, todo elemento del conjunto A es elemento del conjunto B
y viceversa, todo elemento del conjunto B es elemento del conjunto A ; con
sı́mbolos, A ⊆ B y B ⊆ A .
A⊂B
el conjunto A es un subconjunto propio del conjunto B : A es un subconjunto
de B y distinto de B , con sı́mbolos, A ⊆ B y A 6= B . También se indica
por A B .
P(A)
el conjunto de los subconjuntos del conjunto A : P(A) = {B | B ⊆ A} .
∅
el conjunto vacı́o, el conjunto que no tiene ningún elemento. El conjunto vacı́o
es un subconjunto de todo conjunto A : ∅ ⊆ A para todo conjunto A .
{a}
el conjunto que tiene a a como único elemento. No confundir a con {a} : por
ejemplo, ∅ no tiene elementos y {∅} tiene un elemento. El conjunto {0, 1}
tiene dos elementos y el conjunto {{0, 1}} tiene un elemento.
{a, b}
el par (no ordenado) de a y b : el conjunto que tiene como elementos sólo a a
y b . Par “no ordenado” de a y b porque {a, b} = {b, a} .
{a1 , a2 , . . . , an }
el conjunto cuyos elementos son exactamente a1 , a2 , . . . , an .
{x ∈ A | P (x)}
el conjunto cuyos elementos son los elementos del conjunto A que cumplen la
propiedad P .
A∪B
el conjunto unión de los conjuntos A y B : los elementos de A ∪ B son los
elementos de A más los elementos de B :
A ∪ B := {x | x ∈ A o x ∈ B} .
A∩B
el conjunto intersección de los conjuntos A y B : los elementos de A ∩ B son
los elementos que tienen en común A y B :
A ∩ B := {x | x ∈ A y x ∈ B} .
A y B son disjuntos
los conjuntos A y B no tienen ningún elemento en común, o con otras
palabras, la intersección de A y B es el conjunto vacı́o; o, en sı́mbolos,
A∩B = ∅.
A1 ∪ A2 ∪ . . . ∪ An
el conjunto unión de los conjuntos A1 , A2 , . . . , An .
A1 ∩ A2 ∩ . . . ∩ An
el conjunto intersección de los conjuntos A1 , A2 , . . . , An .
Si C ⊆ P(A),
S
C
el conjunto unión del conjunto C : sus elementos son los elementos de A que
pertenecen a alguno de los elementos de C :
2
Álgebra lineal
S
Si C ⊆ P(A) y C 6= ∅,
T
C = {a ∈ A | existe B ∈ C tal que a ∈ B} .
C
el conjunto intersección del conjunto C : sus elementos son los elementos de A
que pertenecen a todos los elementos de C , es decir, son los elementos comunes
a todos los elementos
T de C :
C = {a ∈ A | para todo B ∈ C a ∈ B} .
ArB
el conjunto diferencia de A y B : los elementos de A r B son los elementos
de A que no pertenecen a B :
A r B = {x | x ∈ A y x ∈
/ B} .
• Si B es un subconjunto de A , el conjunto A r B se llama conjunto complementario de B en A .
(a, b)
el par ordenado de a y b , cuya propiedad fundamental es que dos pares ordenados (a, b) y (a0 , b0 ) son iguales si y sólo si a = a0 y b = b0 ; a es la
primera componente del par ordenado (a, b) y b es la segunda componente del
par ordenado (a, b) .
A×B
el producto cartesiano de los conjuntos A y B : los elementos de A × B son
todos los pares ordenados (a, b) cuya primera componente a es un elemento
de A y cuya segunda componente b es un elemento de B :
A × B = {(a, b) | a ∈ A y b ∈ B}.
A2
A×A.
(a1 , a2 , . . . , an )
la n -upla ordenada de a1 , a2 , . . . , an , cuya propiedad fundamental es que dos
n -uplas ordenadas (a1 , a2 , . . . , an ) y (b1 , b2 , . . . , bn ) son iguales si y sólo si
a1 = b1 , a2 = b2 , . . . , an = bn .
En la n -upla ordenada (a1 , a2 , . . . , an ) , la primera componente es a1 , a2 es
la segunda componente, . . . , y an es la componente n -ésima.
Si n = 2 , se tienen los pares ordenados de más arriba. Si n = 3 , se habla de
ternas ordenadas; si n = 4 , de cuaternas o cuádruplas ordenadas, etc.
A1 × A2 × · · · × An
el producto cartesiano de los conjuntos A1 , A2 , . . . , An , esto es, el conjunto
de las n -uplas ordenadas (a1 , a2 , . . . , an ) tales que a1 pertenece a A1 , a2
pertenece a A2 , . . . , y an pertenece a An .
An
(n
A × · · · ×A .
De aplicaciones
f : A −−→ B
f es una aplicación del conjunto A en el conjunto B ; A es el dominio o
conjunto de partida y B es el conjunto de llegada de f , también llamado a
veces codominio de f .
si a ∈ A,
f (a)
el valor que la aplicación f : A → B toma en el elemento a de A , o también, la
imagen del elemento a de A por la aplicación f . También se pone a 7→ f (a)
para indicar que el elemento a del dominio de la aplicación, se transforma por
f en f (a) .
si C ⊆ A,
f [C]
el conjunto imagen del subconjunto C de A por la aplicación f : A −−→ B ,
esto es, el conjunto de los valores que f toma en los elementos de C :
f [C] = {f (c) | c ∈ C} .
im f
f [A] , el conjunto imagen de A por la aplicación f : A −−→ B , es decir, el
3
Notaciones y preliminares
conjunto de los valores que f toma en los elementos de A :
im f = f [A] = {f (a) | a ∈ A} = {b ∈ B | existe a ∈ A tal que b = f (a)} .
f −1 [D]
el conjunto imagen inversa de D por f , esto es, el conjunto de los elementos
a de A cuyas imágenes f (a) por f pertenecen a D :
f −1 [D] = {a ∈ A | f (a) ∈ D}.
f =g
las aplicaciones f : A −−→ B y g : C −−→ D son iguales: esto quiere decir
que f y g tienen el mismo dominio, A = C , y toman los mismos valores en
los elementos del dominio, f (a) = g(a) para todo a ∈ A = C .
f :AB
f es una aplicación inyectiva o uno-a-uno de A en B : para cualesquiera
elementos a y a0 de A , si a 6= a0 , entonces f (a) 6= f (a0 ) , o de manera
equivalente, para cualesquiera elementos a y a0 de A , si a y a0 tienen la
misma imagen por f , f (a) = f (a0 ) , entonces a y a0 son iguales, o con otras
palabras, no hay en A dos elementos distintos en los que f tome el mismo
valor.
f :AB
f es una aplicación suprayectiva o sobreyectiva de A sobre B : cada elemento
de B es imagen por f de algún elemento de A , esto es, para cada elemento
b de B hay al menos un elemento a en A tal que b = f (a) , o lo que es
equivalente, la imagen im f = f [A] del conjunto de partida A es el conjunto
B.
f :A
B
f es una aplicación biyectiva de A sobre B : f es una aplicación inyectiva y
sobreyectiva de A sobre B , o con otras palabras, para cada elemento b de B
hay un elemento a y sólo uno en A tal que b = f (a) .
idA
la aplicación identidad del conjunto A , esto es, la aplicación de A en A que
en cada elemento a de A toma como valor idA (a) el propio a .
si D ⊆ B,
• La aplicación idA : A A es una aplicación biyectiva de A sobre A .
si C ⊆ A,
f C
la restricción de la aplicación f al subconjunto C de A , esto es, f C :
C −−→ B y para cada c de C , (f C)(c) = f (c) . También se suele indicar
por f | C .
g◦f
la aplicación composición de la aplicación f : A −−→ B con la aplicación
g : B −−→ C : es la aplicación de dominio A y conjunto de llegada C tal
que para cada a de A ,
(g ◦ f )(a) = g(f (a)) .
• Para que la composición g ◦ f de dos aplicaciones f y g tenga sentido,
la imagen im f de f tiene que ser un subconjunto del dominio de g . En
particular, si A = B = C , entonces f, g : A −−→ A , la composición g ◦ f tiene
sentido y es una aplicación de A en A .
• Si f : A −−→ B , entonces idB ◦f = f y f ◦ idA = f .
• Si f : A → B, g : B → C y h : C → D , entonces h ◦ (g ◦ f ) = (h ◦ g) ◦ f y
se dice que la composición de aplicaciones es asociativa (ver demostración más
abajo).
• La composición de aplicaciones no es conmutativa: no es cierto que si f :
A → A y g : A → A entonces g ◦ f = f ◦ g (ver ejemplo más abajo).
si f : A B,
f −1
la aplicación inversa de la aplicación biyectiva f : A B : es la aplicación de
B en A que en cada elemento b de B toma como valor el único elemento a
de A tal que f (a) = b . Que para cada b de B hay al menos un elemento a en
4
Álgebra lineal
A con esa propiedad está garantizado por el hecho de que f es sobreyectiva, y
que sólo hay un elemento a en A ası́, se debe a que f es inyectiva. Por tanto
f (a) = b equivale a f −1 (b) = a .
• Se tiene
f −1 ◦ f = idA y f ◦ f −1 = idB .
• La aplicación inversa f −1 : B A de f también es biyectiva.
f : A → B es invertible
hay una aplicación g : B → A tal que g ◦ f = idA
h : B −−→ A tal que f ◦ h = idB .
y hay una aplicación
• La existencia de g lleva a que f es inyectiva; la existencia de h a que f es
sobreyectiva, y la conjunción a que f es una aplicación biyectiva de A sobre
B y g = h = f −1 , la aplicación inversa de f (ver demostraciones más abajo).
Por tanto una aplicación f : A → B es invertible si y sólo si es biyectiva.
A
B
el conjunto de las aplicaciones del conjunto A en el conjunto B .
Hasta aquı́ las notaciones que se refieren a aplicaciones. Pero antes de continuar con más notaciones,
demostramos varias propiedades de las aplicaciones, que se han anunciado más arriba.
Proposición. La composición de aplicaciones es asociativa, es decir, si f : A → B, g : B → C y
h : C → D , entonces
h ◦ (g ◦ f ) = (h ◦ g) ◦ f.
Demostración. Las dos aplicaciones h ◦ (g ◦ f ) y (h ◦ g) ◦ f tienen el mismo dominio, el conjunto A y
el mismo conjunto de llegada, el conjunto D . Además toman el mismo valor en cada elemento a del
conjunto de partida: para cada a ∈ A ,
(h ◦ (g ◦ f ))(a) = h((g ◦ f )(a)) = h(g(f (a))) = (h ◦ g)(f (a)) = ((h ◦ g) ◦ f )(a),
luego las dos aplicaciones son iguales: h ◦ (g ◦ f ) = (h ◦ g) ◦ f .
La composición de aplicaciones no es conmutativa: por ejemplo, si f : N → N es la aplicación
definida por f (n) = n + 2 para cada n ∈ N y g : N → N es la aplicación definida por g(n) = n2 para
cada n ∈ N , entonces
(g ◦ f )(n) = g(f (n)) = g(n + 2) = (n + 2)2
y
(f ◦ g)(n) = f (g(n)) = f (n2 ) = n2 + 2
y hay al menos un número natural (de hecho, cualquiera) en el que las dos aplicaciones no toman el
mismo valor: (g ◦ f )(1) = 9 6= 3 = (f ◦ g)(1) .
Proposición. Sea f : A −−→ B una aplicación de A en B .
(a) Si hay una aplicación g : B −−→ A tal que g ◦ f = idA , entonces f es inyectiva;
(b) si hay una aplicación h : B −−→ A tal que f ◦ h = idB , entonces f es sobreyectiva, y
(c) en las hipótesis de (a) y (b), la aplicación f es biyectiva y g = h = f −1 , la aplicación inversa
de f .
Demostración. (a) Sean a, a0 elementos de A tales que f (a) = f (a0 ) . Entonces
a = idA (a) = (g ◦ f )(a) = g(f (a)) = g(f (a0 )) = (g ◦ f )(a0 ) = idA (a0 ) = a0
y a = a0 , luego f es inyectiva.
(b) Sea b un elemento de B . Entonces b = idB (b) = (f ◦ h)(b) = f (h(b)), y se tiene que b es el
valor de f en el elemento h(b) de A , y f es sobreyectiva.
(c) En las hipótesis de (a) y (b), f es inyectiva y sobreyectiva, luego biyectiva y está definida su
aplicación inversa f −1 : B A . Se tiene
5
Notaciones y preliminares
g = g ◦ idB = g ◦ (f ◦ h) = (g ◦ f ) ◦ h = idA ◦h = h.
Además g = h = f −1 porque son aplicaciones de B en A y
g = (g ◦ idB ) = (g ◦ (f ◦ f −1 )) = ((g ◦ f ) ◦ f −1 ) = idA ◦f −1 = f −1 .
También se pueden demostrar los enunciados recı́procos de los enunciados (a) y (b) si A y B son
conjuntos distintos del conjunto vacı́o.
Más notaciones
N
el conjunto de los números naturales
Z
el conjunto de los números enteros
Q
el conjunto de los números racionales: números de la forma
enteros sin factores comunes y con q > 0 ;
R
el conjunto de los números reales;
C
el conjunto de los números complejos;
Rn
0, 1, 2, 3, . . .
. . . , −3, −2, −1, 0, 1, 2, 3, . . .
p
q
, donde p y q son números
el conjunto de las n -uplas ordenadas (x1 , x2 , . . . , xn ) de números reales. Para los primeros
valores de n > 1 :
• R1 se identifica con R , la recta real o recta numérica.
• R2 , el conjunto de los pares ordenados (a, b) de números reales, llamado a veces plano
cartesiano.
• R3 , el conjunto de las ternas ordenadas (x, y, z) de números reales. se llama a veces el
espacio cartesiano.
Z/nZ
el conjunto de las clases de restos de los enteros módulo n > 1 : 0, 1, 2, . . . , n − 1 .
Cuerpos
Un cuerpo es una terna ordenada (K, +, ·) en la que K , el conjunto base, es un conjunto distinto del
conjunto vacı́o, y + y · son dos operaciones binarias sobre el conjunto K , de modo que se cumplen
varias propiedades que se especifican más abajo.
Una operación binaria sobre un conjunto A asocia a cualesquiera dos (por eso de binaria) elementos
a y b de A un elemento de A , el resultado de realizar la operación con a y b . También se dice que una
operación binaria sobre A es una ley de composición interna del conjunto A , porque el elemento que
la operación asocia a cualesquiera dos elementos a y b del conjunto es un elemento del propio conjunto
A.
Por ejemplo, la adición +N de números naturales es la operación binaria sobre el conjunto N de
los números naturales que a dos números naturales cualesquiera n y m asocia su suma n +N m . La
multiplicación ·Z de números enteros es la operación binaria sobre el conjunto Z de los números enteros
que a dos números enteros cualesquiera p y q asocia su producto p ·Z q . Del mismo modo, la adición
+Z de números enteros, la adición +Q de números racionales, la adición +R de números reales, la
adición +C de números complejos, la multiplicación ·N de números naturales, la multiplicación ·Q de
números racionales, la multiplicación ·R de números reales y la multiplicación ·C de números complejos
son operaciones binarias sobre los conjuntos Z , Q , R , C , N , Q , R y C , respectivamente.
6
Álgebra lineal
Una forma precisa y rigurosa de considerar las operaciones binarias sobre un conjunto A consiste
en definir una operación binaria sobre A como una aplicación del producto cartesiano A × A = A2 en el
conjunto A : la imagen por la aplicación del par ordenado (a, b) es el resultado de efectuar la operación
con a y b .
Por ejemplo, la adición +N de números naturales es la aplicación +N : N × N −−→ N tal que para
cada (n, m) ∈ N × N
+N (n, m) = n +N m .
Un cuerpo es una terna ordenada (K, +, ·) en la que K es un conjunto distinto del conjunto vacı́o y
+ y · son dos operaciones binarias sobre el conjunto K , llamadas suma y producto, respectivamente,
es decir, dos aplicaciones
+ : K × K −−→ K
· : K × K −−→ K
(a, b) 7−→ a + b
(a, b) 7−→ a · b
que a cada par ordenado (a, b) de K × K asocian un elemento a + b de K , llamado “suma de a más
b ” y un elemento a · b de K , llamado “producto de a por b ”, de modo que se cumplen las condiciones
siguientes:
(1) de la suma:
(i) (a + b) + c = a + (b + c) para cualesquiera a, b, c ∈ K ,
(ii) a + b = b + a para cualesquiera a, b ∈ K ,
(iii) hay un elemento 0 en K tal que a + 0 = a para todo a ∈ K ,
(iv) para cada a ∈ K hay un elemento −a en K tal que a + (−a) = 0 ;
(2) del producto:
(i) (a · b) · c = a · (b · c) para cualesquiera a, b, c ∈ K ,
(ii) a · b = b · a para cualesquiera a, b ∈ K ,
(iii) hay un elemento 1 en K , distinto de 0 , tal que a · 1 = a para todo a ∈ K ,
(iv) para cada a ∈ K distinto de 0 hay un elemento a−1 en K tal que a · a−1 = 1 ;
(3) de las dos operaciones:
a · (b + c) = (a · b) + (a · c) , para cualesquiera a, b, c ∈ K .
Las propiedades (i) son las propiedades asociativas, las (ii) las conmutativas, (1)(iii) es la existencia
de elemento neutro o cero o nulo y (2)(iii) la existencia de elemento unidad o uno, (1)(iv) la existencia de
elemento opuesto de cada elemento, (2)(iv) la existencia de elemento inverso de cada elemento distinto
del cero, y (3) es la propiedad distributiva de la suma respecto del producto.
En la proposición siguiente se da una colección de propiedades que tienen todos los cuerpos y que
son consecuencias inmediatas de las condiciones de la definición. En la demostración de varios apartados
se utiliza la conmutatividad de las operaciones.
Proposición. En cada cuerpo (K, +, ·) se cumplen las propiedades siguientes, donde a, a0 , b son elementos cualesquiera de K :
(a) hay un solo elemento neutro o cero o nulo 0 ;
(b) hay un solo elemento unidad o uno 1 ;
(c) 0 6= 1 , y cada cuerpo tiene al menos dos elementos distintos;
(d) cada elemento a tiene un solo elemento opuesto −a ;
(e) −(−a) = a y −(a + b) = (−a) + (−b) ;
(f) cada elemento a distinto de 0 tiene un solo inverso a−1 ;
(g) (a−1 )−1 = a y (a · b)−1 = a−1 · b−1 ;
(h) si a + b = a0 + b , entonces a = a0 ;
(i) a · 0 = 0 · a = 0 ;
(j) si a · b = 0 , entonces a = 0 o b = 0 ;
(k) −(a · b) = a · (−b) = (−a) · b y (−a) · (−b) = a · b , y
(l) si a · b = a0 · b y b 6= 0 , entonces a = a0 .
7
Notaciones y preliminares
Demostración. (a) Si hubiese dos elementos neutros 0 y 00 en K , tendrı́amos que para cada a ∈ K ,
a + 0 = a y a + 00 = a . En particular para a = 0 en la segunda igualdad, se tiene 0 + 00 = 0 . Por la
conmutatividad de la suma, 00 + 0 = 0 + 00 = 0 . Pero 00 + 0 = 00 por la primera igualdad con a = 00 ,
luego 0 = 00 .
(b) Si hubiese dos elementos identidad 1 y 10 en K , tendrı́amos que para cada a ∈ K , a · 1 = a
y a · 10 = a . En particular para a = 1 en la segunda igualdad, se tiene 1 · 10 = 1 . Por la conmutatividad
del producto, 10 · 1 = 1 · 10 = 1 . Pero 10 · 1 = 10 , por la primera igualdad con a = 10 , luego 1 = 10 .
(c) Es parte de la condición (2)(iii) de la definición.
(d) Si −a y a0 son dos elementos opuestos de a , entonces
a0 = a0 + 0 = a0 + (a + (−a)) = (a0 + a) + (−a) = (a + a0 ) + (−a) = 0 + (−a) = −a,
y a0 = −a .
(e) Como a + (−a) = (−a) + a = 0 , el elemento opuesto −(−a) de −a es a . Y
((−a) + (−b)) + (a + b) = ((−b) + (−a)) + (a + b) = (−b) + ((−a) + a) + b = (−b) + 0 + b = (−b) + b = 0,
de donde el opuesto −(a + b) de (a + b) es (−a) + (−b) .
(f) Si a−1 y a0 son dos elementos inversos de un mismo elemento a que es distinto de 0 , entonces
a−1 = a−1 · 1 = a−1 · (a · a0 ) = (a−1 · a) · a0 = (a · a−1 ) · a0 = 1 · a0 = a0 ,
y a−1 = a0 .
(g) Como a · a−1 = a−1 · a = 1 , el inverso (a−1 )−1 de a−1 es a . Y
(a−1 · b−1 ) · (a · b) = (b−1 · a−1 ) · (a · b) = b−1 · (a−1 · a) · b = b−1 · 1 · b = b−1 · b = 1,
de donde el inverso de a · b es a−1 · b−1 .
(h) Si a + b = a0 + b , entonces (a + b) + (−b) = (a0 + b) + (−b) , luego a + 0 = a0 + 0 , y a = a0 .
(i) a · 0 + 0 = a · 0 = a · (0 + 0) = a · 0 + a · 0 , luego a · 0 = 0 por (h).
(j) Si a · b = 0 y a 6= 0 , a tiene inverso a−1 y a−1 · (a · b) = a−1 · 0 , de donde
b = 1 · b = (a−1 · a) · b = a−1 · (a · b) = a−1 · 0 = 0,
y b = 0.
(k) Se tiene
a · b + a · (−b) = a · (b + (−b)) = a · 0 = 0
y
a · b + (−a) · b = b · a + b · (−a) = b · (a + (−a)) = b · 0 = 0
con lo que a · (−b) y (−a) · b son opuestos de a · b , ası́ que coinciden y son el opuesto −(a · b) de a · b .
Y como
(−a) · b + (−a) · (−b) = (−a) · (b + (−b)) = (−a) · 0 = 0,
resulta que (−a) · (−b) es el opuesto de (−a) · b , que es el opuesto de a · b , luego (−a) · (−b) = a · b .
(l) Como b 6= 0 , tiene inverso b−1 , y de a · b = a0 · b se obtiene (a · b) · b−1 = (a0 · b) · b−1 , esto es,
a · 1 = a0 · 1 y a = a0 .
En cada cuerpo K está definida la resta de dos elementos a y b cualesquiera:
a − b := a + (−b).
8
Álgebra lineal
Y también está definido el cociente o división de dos elementos a y b con a cualquiera y b 6= 0 : es
a
:= a · b−1 .
b
Ası́ que se puede decir que en cada cuerpo los elementos se pueden sumar, restar, multiplicar y dividir
(esto último, salvo por 0).
Es más frecuente escribir ab que a · b . Ası́, por ejemplo, la propiedad asociativa de la multiplicación
se expresa por a(bc) = (ab)c . Si no hay posibilidad de confusión respecto de las operaciones + y · del
cuerpo (K, +, ·) , abreviamos la terna (K, +, ·) por simplemente K , y hablamos del cuerpo K .
Ejemplos. (1) El cuerpo Q de los números racionales: el conjunto base es el conjunto Q de los números
racionales y las operaciones son la suma +Q y el producto ·Q usuales de números racionales.
(2) El cuerpo R de los números reales: el conjunto base es el conjunto R de los números reales y
las operaciones son la suma +R y el producto ·R usuales de números reales.
(3) El cuerpo C de los números complejos. El conjunto base es el conjunto C de los números
complejos. ¿Qué es un número complejo?
Hay varias formas de presentar los números complejos. Una de las más comunes consiste en definir
un número complejo como un par ordenado (a, b) de números reales, es decir, como un elemento de
R × R = R2 y poner C = R2 = {(a, b) | a, b ∈ R} .
La suma de dos números complejos z = (a, b) y z 0 = (c, d) se hace componente a componente
z +C z 0 = (a, b) +C (c, d) = (a + c, b + d),
que es un número complejo, y el producto es
z ·C z 0 = (a, b) ·C (c, d) = (ac − bd, ad + bc),
que también es un número complejo. No hay dificultad seria en demostrar que el conjunto C = R2 junto
con estas dos operaciones cumple las condiciones de la definición de cuerpo, es decir, la terna ordenada
(C, +C , ·C ) es un cuerpo: el elemento neutro 0C es el número complejo (0, 0) , el opuesto −z de z = (a, b)
es (−a, −b) , el elemento unidad 1C es (1, 0) y el inverso z −1 del número complejo z = (a, b) no nulo
es
−b
a
−1
−1
,
.
z = (a, b) =
a2 + b2 a2 + b2
(Como (a, b) 6= (0, 0) , es a 6= 0 o b 6= 0 o los dos, y a2 + b2 es un número real distinto de cero, de
hecho, positivo.)
El número real a no es igual al número complejo (a, 0) , pero cada número real a determina
el número complejo (a, 0) , cada número complejo de la forma (a, 0) determina el número real a , la
primera componente del par, y si a y b son números reales distintos, los números complejos (a, 0) y
(b, 0) también son distintos. Con otras palabras, la aplicación de R en C definida por: a 7−→ (a, 0) ,
para cada a ∈ R , es una aplicación inyectiva, y su imagen es {(a, 0) | a ∈ R} ⊆ C . Esta aplicación no
es más que una identificación entre el conjunto R y el subconjunto {(a, 0) ∈ C | a ∈ R} de C . Además,
al número real a + b , la suma en R de a y b le corresponde el número complejo (a + b, 0) , suma en
C de los números complejos (a, 0) y (b, 0) , y lo mismo para el producto, porque
(a, 0) +C (b, 0) = (a + b, 0)
y
(a, 0) ·C (b, 0) = (ab, 0)
para cualesquiera números reales a, b , y la suma (respectivamente, el producto) de dos “números reales”
(a, 0) y (b, 0) en C es el “número real” (a + b, 0) (resp. (ab, 0) ).
El número complejo (0, 1) se llama la unidad imaginaria, y se indica por i . Su cuadrado
i2 = (0, 1)2 = (0, 1) ·C (0, 1) = (−1, 0)
que hemos identificado con el número real − 1,
y ası́ se escribe i2 = −1 .
Para cada número complejo (a, b) se tiene
(a, b) = (a, 0) +C (0, b) = (a, 0) +C (b, 0) ·C (0, 1) = (a, 0) +C (b, 0) ·C i
9
Notaciones y preliminares
y esta igualdad y la identificación de cada número real a con el número complejo (a, 0) lleva a asociar
con cada número complejo (a, b) la expresión a + bi . Es evidente que si (a, b) 6= (c, d) la expresión a + bi
es distinta de la expresión c + di . Esto proporciona otra de las formas comunes de presentar los números
complejos: consiste en definir un número complejo como una expresión de la forma a + bi , en la que a
y b son números reales. Entonces C = {a + bi | a, b ∈ R} .
Bajo esta nueva presentación, la suma de dos números complejos z = a + bi y z 0 = c + di es
z +C z 0 = (a + bi) +C (c + di) = (a + b) + (c + d)i,
que es un número complejo, ya que a + b y c + d son números reales. Y el producto es
z ·C z 0 = (a + bi) ·C (c + di) = (ac − bd) + (ad + bc)i,
que también es un número complejo, porque ac − bd y ad + bc son números reales. Se demuestra que este
nuevo conjunto C con las dos operaciones binarias ası́ definidas cumple las condiciones de la definición
de cuerpo, y se tiene otra presentación del cuerpo de los números complejos. El elemento neutro 0C es
0 + 0i , el opuesto de a + bi es (−a) + (−b)i , el elemento identidad 1C es 1 + 0i y el inverso del número
complejo a + bi no nulo es
b
a
− 2
i
(a + bi)−1 = 2
2
a +b
a + b2
(como a + bi es distinto de 0C , se tiene que a2 + b2 es un número real no nulo).
En esta presentación de los números complejos, cada número real a se identifica con el número
complejo a + 0i , y el conjunto R de los números reales se identifica con {a + 0i | a ∈ R} .
Como de costumbre, escribimos 0 no 0 + 0i , i , no 0 + 1i , a no a + 0i , bi o ib no 0 + bi , etc.
Para cada número complejo z = (a, b) = a + bi , el número real a se llama parte real de z y el
número real b se llama parte imaginaria de z . Las notaciones son a = <(z) y b = =(z) . La parte real
y la parte imaginaria de cada número complejo son números reales. Los números reales son los números
complejos cuya parte imaginaria es nula.
El número complejo (a, −b) = a − bi se llama número complejo conjugado de z = (a, b) = a + bi y
se representa por z . Para cualesquiera números complejos z, z 0 se tiene
z + z0 = z + z0
y
z · z0 = z · z0,
en palabras, el conjugado de una suma de números complejos es igual a la suma de los conjugados de
los números complejos, y el conjugado de un producto de números complejos es igual al producto de los
conjugados de los números complejos.
Un número complejo z es un número real si y sólo si z coincide con su conjugado z .
(4) El cuerpo Z/pZ de los restos de división de los números enteros por p (o de las clases de restos
módulo p ), donde p es un número primo: Ver más abajo.
Anillos
El conjunto Z de los números enteros con las operaciones aritméticas usuales +Z y ·Z de números
enteros cumple casi todas las condiciones de la definición de cuerpo: en concreto, todas salvo la (2)(iv),
la existencia de elemento inverso de cada número entero no nulo: por ejemplo, no hay ningún número
entero p tal que 2 · p = 1 : en primer lugar, si lo hubiera, p serı́a positivo. Y serı́a < 1 , porque
0 = 2 · 0 < 1 < 2 · 1 = 2 , pero no hay ningún número entero entre 0 y 1 .
El conjunto de los polinomios R[X] en una indeterminada X con coeficientes reales con las operaciones usuales de suma + y producto · de polinomios cumple también todas las condiciones de la
definición de cuerpo salvo la existencia de elemento inverso de cada polinomio no nulo: por ejemplo, no
hay ningún polinomio en R[X] que multiplicado por el polinomio X + 1 dé como resultado el polinomio
1 : porque el grado del producto de dos polinomios no nulos es la suma de los grados de los dos polinomios y
si p(X)·(X +1) = 1 , debe ser grado(p(X))+grado(X +1) = grado(1) = 0 , de donde grado(p(X)) = −1 ,
imposible.
10
Álgebra lineal
Cada terna (R, +, ·) en la que R es un conjunto no vacı́o, y + y · son dos operaciones binarias
sobre R que cumplen las condiciones
(1) de la suma:
(i) (a + b) + c = a + (b + c) para cualesquiera a, b, c ∈ R ,
(ii) a + b = b + a para cualesquiera a, b ∈ R ,
(iii) hay un elemento 0 en R tal que a + 0 = a para todo a ∈ R ,
(iv) para cada a ∈ R hay un elemento −a en R tal que a + (−a) = 0 ;
(2) del producto:
(i) (a · b) · c = a · (b · c) para cualesquiera a, b, c ∈ R , y
(3) de las dos operaciones:
a · (b + c) = (a · b) + (a · c)
y
(a + b) · c = (a · c) + (b · c)
para cualesquiera a, b, c ∈ R ,
se llama anillo.
Si un anillo (R, +, ·) cumple la propiedad conmutativa del producto
a · b = b · a para cualesquiera a, b ∈ R ,
se dice que es un anillo conmutativo.
Si un anillo (R, +, ·) tiene elemento unidad respecto del producto:
hay un elemento 1 en R , distinto de 0 , tal que a · 1 = 1 · a = a para todo a ∈ R ,
se dice que es un anillo con unidad.
A un anillo conmutativo con unidad sólo le falta una condición para ser un cuerpo: que cada elemento
no nulo tenga inverso.
Pregunta: ¿Cuáles de las propiedades (a)-(l) de los cuerpos que se enunciaron en la proposición de
más arriba se cumplen en los anillos? ¿En los anillos conmutativos? ¿En los anillos conmutativos con
unidad?
En cada anillo R está definida la resta de dos elementos a y b cualesquiera:
a − b := a + (−b).
En general no está definido el cociente o división de dos elementos a y b con a cualquiera y b 6= 0 ,
porque el elemento b no tiene necesariamente elemento inverso. Ası́ que se puede decir que en cada anillo
los elementos se pueden sumar, restar y multiplicar.
Como más arriba con los cuerpos, es más frecuente escribir ab que a · b o que a ·R b . Si no hay
posibilidad de confusión respecto de las operaciones + y · del anillo (R, +, ·) , abreviamos la terna
(R, +, ·) por simplemente R , y hablamos del anillo R .
Ejemplos. (1) Todo cuerpo es un anillo conmutativo con unidad.
(2) El anillo Z de los números enteros es un anillo conmutativo con unidad: El conjunto base es el
conjunto Z de los números enteros y las operaciones son las operaciones aritméticas usuales +Z y ·Z
de números enteros.
(3) El anillo K[X] de los polinomios en una indeterminada X con coeficientes en un cuerpo K es
un anillo conmutativo con unidad. En particular, R[X] , C[X] y Q[X] son anillos conmutativos con
unidad.
(4) Para cada número natural n > 1 , el anillo Z/nZ de los restos de la división de los enteros por
n (o, como también se dice, de las clases de restos módulo n ): El conjunto base Z/nZ es el conjunto
de los restos de la división de los números enteros por n , esto es, {0, 1, 2, . . . , n − 1} , un conjunto finito
con n elementos. Recordemos que para cualesquiera números enteros a y n , si n > 0 , entonces hay
dos números enteros q y r , únicos, tales que a = n · q + r y 0 6 r < n . El entero q es el cociente y
el entero r es el resto de la división de a (dividendo) por n (divisor). Los restos posibles de dividir los
números enteros por n son 0, 1, 2, . . . , n − 1 .
La suma + de dos elementos a y b de Z/nZ es
11
Notaciones y preliminares
a + b := el resto de la división de a +Z b por n ,
y el producto
a · b := el resto de la división de a ·Z b por n .
Para p = 2 se tiene Z/2Z = {0, 1} . Las tablas de la suma +Z/2Z y el producto ·Z/2Z son:
+
0
1
·
0
1
0
1
0
1
1
0
0
1
0
0
0
1
Obsérvese que en Z/2Z , se tiene 1 + 1 = 0 .
Para n = 3 se tiene el conjunto de tres elementos Z/3Z = {0, 1, 2} y la suma +Z/3Z y el producto
·Z/3Z tienen las tablas siguientes:
+
0
1
2
·
0
1
2
0
1
2
0
1
2
1
2
0
2
0
1
0
1
2
0
0
0
0
1
2
0
2
1
En Z/3Z se tiene 1 + 1 6= 0 y 1 + 1 + 1 = 0 . Obsérvese que no hay elementos no nulos cuyo producto
sea 0 .
Para n = 4 , es Z/4Z = {0, 1, 2, 3} y las operaciones tienen las tablas
+
0
1
2
3
·
0
1
2
3
0
1
2
3
0
1
2
3
1
2
3
0
2
3
0
1
3
0
1
2
0
1
2
3
0
0
0
0
0
1
2
3
0
2
0
2
0
3
2
1
Aquı́ 1 + 1 = 2 6= 0,
1 + 1 + 1 = 3 6= 0, y 1 + 1 + 1 + 1 = 0 6= 0 . Obsérvese que 2 · 2 = 0 .
Para p = 5 , es Z/5Z = {0, 1, 2, 3, 4} y las tablas de las operaciones son
+
0
1
2
3
4
·
0
1
2
3
4
0
1
2
3
4
0
1
2
3
4
1
2
3
4
0
2
3
4
0
1
3
4
0
1
2
4
0
1
2
3
0
1
2
3
4
0
0
0
0
0
0
1
2
3
4
0
2
4
1
3
0
3
1
4
2
0
4
3
2
1
Aquı́ 1 + 1 = 2 6= 0, 1 + 1 + 1 = 3 6= 0, 1 + 1 + 1 + 1 = 4 6= 0
que no hay elementos no nulos cuyo producto sea 0 .
y
1 + 1 + 1 + 1 + 1 = 0 . Obsérvese
Para n = 6 , es Z/6Z = {0, 1, 2, 3, 4, 5} y las tablas de las operaciones son
+
0
1
2
3
4
5
·
0
1
2
3
4
5
0
1
2
3
4
5
0
1
2
3
4
5
1
2
3
4
5
0
2
3
4
5
0
1
3
4
5
0
1
2
4
0
0
1
2
3
5
1
1
2
3
4
0
1
2
3
4
5
0
0
0
0
0
0
0
1
2
3
4
5
0
2
4
0
2
4
0
3
0
3
0
3
0
4
2
0
4
2
0
5
4
3
2
1
Aquı́ 1 + 1 = 2 6= 0, 1 + 1 + 1 = 3 6= 0, 1 + 1 + 1 + 1 = 4 6= 0,
1 + 1 + 1 + 1 + 1 + 1 = 0 . Obsérvese que
2·3 = 3·4 = 0.
1 + 1 + 1 + 1 + 1 6= 0
y
12
Álgebra lineal
Para n = 7 , se tiene Z/7Z = {0, 1, 2, 3, 4, 5, 6} y la suma y el producto vienen dadas por las tablas
siguientes:
+
0
1
2
3
4
5
6
·
0
1
2
3
4
5
6
0
1
2
3
4
5
6
0
1
2
3
4
5
6
1
2
3
4
5
6
0
2
3
4
5
6
0
1
3
4
5
6
0
1
2
4
5
6
0
1
2
3
5
6
0
1
2
3
4
6
0
1
2
3
4
5
0
1
2
3
4
5
6
0
0
0
0
0
0
0
0
1
2
3
4
5
6
0
2
4
6
1
3
5
0
3
6
2
5
1
4
0
4
1
5
2
6
3
0
5
3
1
6
4
2
0
6
5
4
3
2
1
Obsérvese que no hay elementos no nulos cuyo producto sea 0 .
A la hora de comprobar que se cumplen las condiciones de la definición de anillo conmutativo con
unidad para la terna (Z/nZ, +Z/nZ , ·Z/nZ ) , con n > 1 , no se presenta ninguna dificultad importante.
Sabemos que en cada cuerpo, si el producto a · b de dos elementos a y b del cuerpo es igual a cero,
entonces al menos uno de los dos elementos es igual a cero. Esto también se cumple en el anillo Z de los
enteros: si a y b son números enteros tales que a ·Z b = 0 , entonces a y b no pueden ser los dos > 0 ,
porque el producto de dos enteros positivos es positivo, tampoco pueden ser los dos negativos, porque el
producto de dos enteros negativos es positivo, y tampoco puede ser uno negativo y otro negativo, porque
su producto es negativo. En todos estos casos, el producto es distinto de cero.
El producto de dos polinomios de K[X] no puede ser cero sin que uno de ellos sea igual a cero.
Pero hay anillos Z/nZ en los que hay elementos no nulos cuyo producto es igual a cero: por ejemplo,
en Z/4Z se tiene 2 · 2 es el resto de la división de 2 ·Z 2 = 4 por 4 , esto es, 0 , y en Z/6Z , se tiene
2·3 = 0.
Cuando en un anillo R hay elementos a y b distintos de cero tales que su producto a · b = 0 , se
dice que a y b son divisores de cero. Por ejemplo, 2 y 4 son divisores de cero en Z/8Z . Y 3 y 5 lo
son en Z/15Z .
Si un anillo conmutativo con unidad no tiene divisores de cero, se dice que el anillo es un dominio
de integridad. Por ejemplo, los cuerpos no tienen divisores de cero, ası́ como tampoco el anillo Z de los
enteros y los anillos de polinomios K[X] con coeficientes en un cuerpo K .
Es muy sencillo saber para qué números naturales n > 1 , el anillo Z/nZ tiene divisores de cero:
Si n > 1 es un número compuesto, n es producto de dos números naturales a y b distintos de 1
y del propio n y con 1 < a, b < n . Luego a y b son restos de división de números enteros por n y
elementos de Z/nZ . Y a ·Z/nZ b = 0 , luego a y b son divisores de cero en Z/nZ .
Por otra parte, si n es un número primo y en el anillo Z/nZ hay divisores de cero, es que 0 = a·Z/nZ b
para dos elementos a y b de Z/nZ . Luego el producto a ·Z b de los números enteros da de resto cero
al ser dividido por n , es decir a ·Z b = k ·Z n para un cierto entero k . Como n es primo, o bien a o
bien b es un múltiplo de n , y al menos uno de los dos a o b tiene que ser 0 .
Proposición. Para cada n > 1 , el anillo Z/nZ tiene divisores de cero si y sólo si n no es un número
primo.
Como en los cuerpos no hay divisores de cero, los posibles cuerpos entre los anillos Z/nZ hay que
buscarlos entre los Z/nZ con n > 1 primo. Resulta, como consecuencia del resultado siguiente, que
todos estos son cuerpos:
Proposición. Si (R, +R , ·R ) es un anillo conmutativo con unidad sin divisores de cero y con un número
finito de elementos, entonces todo elemento de R distinto de cero tiene inverso y (R, +R , ·R ) es un
cuerpo.
Demostración. Sea a un elemento de R distinto de 0 . Si R tiene n elementos, el conjunto R r {0}
tiene n − 1 elementos. Para demostrar que a tiene inverso, tenemos que demostrar que hay un elemento
b en R tal que a · b = 1 . Para esto, mostraremos que la aplicación del conjunto finito R r {0} en sı́
mismo definida por
x 7−→ a ·R x
es sobreyectiva: tiene que haber un elemento b en R r {0} cuya
13
Notaciones y preliminares
imagen por esa aplicación es el 1 , y a ·R b = 1 . Para demostrar que la aplicación es sobreyectiva nos
basta demostrar que es inyectiva, porque es una aplicación de un conjunto finito en sı́ mismo. Sean x e
y dos elementos de R r {0} tales que a ·R x = a ·R y . Entonces a ·R (x − y) = 0 y como el anillo no
tiene divisores de cero, a = 0 o x − y = 0 . La primera posibilidad no se da porque a se tomó distinto
de cero. Queda x − y = 0 y x = y , luego la aplicación es inyectiva.
Por tanto, si p > 1 es un número primo, el anillo Z/pZ de los restos de división de los números
enteros por p (o de las clases de restos módulo p ), es un cuerpo.
Por ejemplo, para p = 2 , es Z/2Z = {0, 1} un cuerpo con dos elementos, el cuerpo con el mı́nimo
número de elementos. Y Z/3Z, Z/5Z y Z/7Z son también cuerpos. Pero Z/4Z y Z/6Z no son
cuerpos. Obsérvense las tablas del producto que se dieron más arriba para ver las diferencias.
Grupos
Un grupo es un par ordenado (G, ?) en el que G , el conjunto base, es un conjunto no vacı́o y ? es una
operación binaria sobre G ,
? : G × G −−→ G
(a, b) 7−→ a ? b
de modo que se cumplen las tres condiciones siguientes:
(i) (a ? b) ? c = a ? (b ? c) para cualesquiera a, b, c ∈ G ,
(ii) hay un elemento e en G , tal que a ? e = e ? a = a para todo a ∈ G , y
(iii) para cada a ∈ G hay un elemento a0 en G tal que a ? a0 = a0 ? a = e .
La notación más frecuente para la operación de un grupo es, si no hay posibilidad de confusión,
la notación multiplicativa, a · b (o ab ) en lugar de a ? b . En términos multiplicativos, la propiedad
(i) es la propiedad asociativa de la operación, la propiedad (ii) es la existencia de elemento unidad,
y la propiedad (iii) es la existencia de elemento inverso de cada elemento. Las demostraciones de las
propiedades siguientes son parecidas a las de las propiedades análogas que se dieron para cuerpos, sólo
que en el caso de cuerpos se hizo uso de la conmutatividad, que aquı́ no se tiene.
Proposición. En cada grupo (G, ·) se cumplen
(a) Sólo hay un elemento unidad: hay un solo elemento e en G tal que a · e = e · a = a para todo
a ∈ G . Este elemento e se indica por 1 y se llama elemento unidad o uno del grupo;
(b) para cada elemento a de G sólo hay un elemento a0 en G tal que a · a0 = a0 · a = 1 . Este
elemento a0 se llama elemento inverso del elemento a y se denota por a−1 ;
(c) para cualesquiera a, b ∈ G , (a−1 )−1 = a
y
(a · b)−1 = b−1 · a−1 , y
(d) para cualesquiera elementos a, x, x0 de G ,
si
a · x = a · x0
entonces x = x0 y
si
x · a = x0 · a ,
entonces x = x0 .
Por ejemplo, para cada cuerpo (K, +K , ·K ) se tiene que (K, +K ) es un grupo porque las propiedades
de la suma en la definición de cuerpo incluyen las tres condiciones anteriores. Este grupo se llama grupo
aditivo del cuerpo K . Tiene de hecho una propiedad más respecto de la suma y es la propiedad conmutativa, pero esta propiedad no se incluye en la definición de grupo a secas. El grupo aditivo de los
racionales es (Q, +) , el grupo aditivo de los reales es (R, +) y el de los complejos es (C, +) .
También (K r {0}, ·Kr{0} ) es un grupo porque las propiedades del producto en la definición de
cuerpo incluyen las tres condiciones anteriores. Este grupo se llama grupo multiplicativo del cuerpo K .
También tiene la propiedad conmutativa, como el grupo aditivo del cuerpo. El grupo multiplicativo de
los racionales es (Q r {0}, ·) , el de los reales es (R r {0}, ·) y el de los complejos es (C r {0}, ·) .
Más general: Si (R, +R , ·R ) es un anillo, entonces (R, +R ) es un grupo, llamado grupo aditivo del
anillo R . También tiene la propiedad conmutativa. El grupo aditivo de los números enteros es (Z, +) .
14
Álgebra lineal
Un grupo (G, ?) se dice que es conmutativo o abeliano si la operación ? es conmutativa, esto es,
a ? b = b ? a para cualesquiera a, b ∈ G .
En grupos conmutativos y si no hay posibilidad de confusión, la notación más frecuente para la
operación del grupo es la aditiva + en lugar de la multiplicativa · . Entonces el elemento unidad de la
notación multiplicativa pasa a llamarse elemento neutro o cero, con la notación 0 , y el elemento inverso
a−1 de a en la notación multiplicativa, pasa a llamarse elemento opuesto de a , con la notación −a .
Todos los ejemplos anteriores de grupo son grupos conmutativos. Más abajo veremos ejemplos de
grupos no conmutativos.
El conjunto N de los números naturales con la suma +N usual no es un grupo: tiene la propiedad
asociativa, para el cero 0 se tiene n + 0 = 0 + n = n para todo n ∈ N , pero no es cierto que para cada
número natural n exista un número natural m tal que n + m = 0 . Por ejemplo, para n = 2 , no hay
ningún número natural k tal que 2 + k = 0 .
Tampoco el conjunto Z de los números enteros con el producto usual ·Z es un grupo: tiene la
propiedad asociativa, para el uno 1 se tiene a · 1 = 1 · a = a para todo a ∈ Z , pero no es cierto que
para cada número entero a 6= 0 exista un número entero b tal que a · b = 1 . Por ejemplo, para a = 2 ,
no hay ningún número entero b tal que 2 · b = 1 .
Del mismo modo, el conjunto N con el producto usual ·N no es un grupo, porque no todo elemento
distinto de cero tiene inverso.
1. Matrices y sistemas de ecuaciones lineales
Matrices
Sea K un cuerpo. En Álgebra lineal, los ejemplos más importantes de cuerpo son el cuerpo R de los
números reales y el cuerpo C de los números complejos y, para simplificar, en un primer curso se suele
suponer, desde el principio, que K es R o C . Pero también tienen interés, en varias aplicaciones y en
cursos avanzados, otros cuerpos como el cuerpo Q de los números racionales o los cuerpos Z/pZ de los
números enteros módulo p , con p un número primo.
Sean m y n dos números naturales > 1 . Una matriz de tamaño m por n (o m × n ) de elementos
de K , o con coeficientes en K , es una tabla rectangular de m · n elementos de K dispuestos en m filas
y n columnas en la forma

a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1j
a2j
..
.
···
···
..
.
ai1
..
.
ai2
..
.
aij
..
.
am1
am2
···
..
.
···
···
..
.
···









amj
a1n
a2n
..
.






ain 

.. 
. 
amn
La notación aij con dos subı́ndices para los elementos de la matriz indica que aij es el elemento del
cruce de la fila i -ésima y la columna j -ésima de la matriz: el primer subı́ndice de aij , i , es el número
de la fila y el segundo subı́ndice, j , el número de la columna.
La notación (aij )m×n (o (aij ) si no hace falta especificar el tamaño) es una abreviatura para la
matriz de tamaño m × n que tiene al elemento aij en la posición (i, j) de la tabla que es la matriz.
Sea Mm×n (K) el conjunto de las matrices de tamaño m por n de elementos de K .
Una matriz real (respectivamente compleja) es una matriz cuyos elementos aij son números reales
(resp. complejos), o, de otro modo, una matriz de Mm×n (R) (resp. Mm×n (C) ) para ciertos m, n > 1 .
Las matrices de tamaño n por n , esto es, las matrices que tienen el mismo número de filas que de
columnas, se dice que son matrices cuadradas y que tienen orden n . Mn (K) es el conjunto de matrices
cuadradas de orden n de elementos de K .
Las matrices cuadradas (a11 ) de orden 1 se identifican con el único elemento a11 que tienen, y el
propio conjunto M1 (K) de matrices cuadradas de orden 1 se identifica con el cuerpo K .
Por ejemplo,

−3
 8 


 5 
C=

 9 


1
0

A = (1
2
7
4
−1 ) ,
B=
1
2
−1
π2
0
−2
−1 32
−1 0
0
0
,
son matrices reales de tamaños 1 × 5, 2 × 6 y 6 × 1 , respectivamente. También son matrices complejas.
Las matrices




1 2 3 4
2 + 3i
1
1−i
π
π
cos 4 − sen 4
 5 6 7 8 
D=
y
F =
,
E= 2
4 − 3i π −1 

sen π4
cos π4
9 10 11 12
1
0
0
13 14 15 16
son matrices cuadradas de órdenes 2, 3 y 4 , respectivamente. Las matrices D y F son matrices reales
y también son matrices complejas. La matriz E es compleja y no es real.
16
Álgebra lineal
¿Cuándo dos matrices son iguales?
Dos matrices A = (aij )m×n y B = (bij )p×q de elementos de un mismo cuerpo K son iguales, en
sı́mbolos: A = B , si
(1) tienen el mismo tamaño, esto es, tienen el mismo número de filas y el mismo número de columnas: m = p y n = q , y
(2) el elemento aij de la fila i -ésima y columna j -ésima de A coincide con el elemento bij
de la fila i -ésima y columna j -ésima de B , esto es, para todo i = 1, . . . , m y todo j =
1, . . . , n aij = bij .
Por tanto, una matriz queda completamente determinada cuando se conoce su tamaño y para cada
una de las posiciones de la tabla que es la matriz, el elemento que la ocupa.
Álgebra de matrices
Las operaciones algebraicas básicas con matrices son tres: la suma de matrices, el producto de escalares
por matrices, y el producto de matrices.
Adición de matrices
Sean A = (aij ) y B = (bij ) dos matrices de Mm×n (K) . La matriz suma de las matrices A y B es la
matriz C = (cij ) de tamaño m × n en la que
cij = aij + bij
esto es,

a11 a12
 a21 a22
 .
..
 ..
.
am1 am2
···
···
..
.
···
para todo i = 1, . . . , m
 
b11
a1n
a2n   b21
+ .
.. 
.   ..
bm1
amn
y todo j = 1, . . . , n ,
b12
b22
..
.
···
···
..
.


a11 + b11
b1n
b2n 
 a21 + b21
= 
.. 
..

. 
.
bm2
···
bmn
am1 + bm1
a12 + b12
a22 + b22
..
.
···
···
..
.
am2 + bm2
···

a1n + b1n
a2n + b2n 
.
..

.
amn + bmn
Escribimos C = A + B = (aij ) + (bij ) = (aij + bij ) .
Observemos que sólo se suman matrices del mismo tamaño.
Por ejemplo, en M2×3 (R) ,
1 0
1 2
−1
0
+
2
0
−1
1
−1
3
=
3
1
−1
3
−2
3
y en M2 (C) ,
2+i 0
3
4i
+
5 − 6i
−1 − i
7+i
2 + 2i
=
7 − 5i
2−i
7+i
2 + 6i
.
Propiedades de la adición de matrices
Sean A = (aij ), B = (bij ) y C = (cij ) tres matrices cualesquiera de tamaño m × n de elementos de
K.
• (1) A + (B + C) = (A + B) + C (propiedad asociativa).
Las dos matrices A + (B + C) = (aij + (bij + cij )) y (A + B) + C = ((aij + bij ) + cij ) tienen el
mismo tamaño m × n y
aij + (bij + cij ) = (aij + bij ) + cij
para todo i = 1, . . . , m y j = 1, . . . , n , por la propiedad asociativa de la adición del cuerpo K . Por
tanto, A + (B + C) = (A + B) + C .
Esta propiedad nos permite “prescindir de los paréntesis” y escribir A+B+C en lugar de A+(B+C)
o de (A + B) + C . Y también A + B + C + D en lugar de A + (B + (C + D)) o de ((A + B) + C) + D
o de (A + B) + (C + D) , etc.
17
Matrices y sistemas de ecuaciones lineales
• (2) A + B = B + A (propiedad conmutativa).
Las dos matrices A + B = (aij + bij ) y B + A = (bij + aij ) son matrices de tamaño m × n y además
aij + bij = bij + aij para todo i = 1, . . . , m y j = 1, . . . , n , por la propiedad conmutativa de la adición
en el cuerpo K , luego A + B y B + A son iguales.
• (3) Hay una matriz M de tamaño m × n , única, tal que para toda matriz A de tamaño m × n ,
se tiene A + M = A (existencia de elemento neutro o cero).
Sea M la matriz de tamaño m × n que tiene todos sus elementos mij iguales a cero: mij = 0 para
todo i = 1, . . . , m y todo j = 1, . . . , n . Entonces
A + M = (aij + mij ) = (aij + 0) = (aij ) = A.
Para demostrar la unicidad de esta matriz M , supongamos que M 0 = (m0ij ) es una matriz de tamaño
m × n tal que A + M 0 = A para toda matriz A de Mm×n (K). En particular tenemos M + M 0 = M
y M 0 + M = M 0 , luego M = M + M 0 = M 0 + M = M 0 y M es única.
Esta matriz única M de tamaño m × n se llama matriz cero o matriz nula de tamaño m × n y
pondremos M = 0 o M = 0m×n si es necesario especificar el tamaño m × n .
• (4) Para cada matriz A de tamaño m × n hay una matriz B , única, de tamaño m × n tal que
A + B = 0m×n (existencia de elemento opuesto de cada elemento).
Sea B = (bij ) la matriz de tamaño m × n tal que bij = −aij para todo i = 1, . . . , m y todo
j = 1, . . . , n . Entonces
A + B = (aij + bij ) = (aij + (−aij )) = (0)m×n = 0m×n .
Para demostrar la unicidad de esta matriz B , supongamos que B 0 = (b0ij ) es una matriz m × n tal que
A + B 0 = 0m×n . Entonces
B 0 = B 0 + 0m×n
= B 0 + (A + B)
= (B 0 + A) + B
= 0m×n + B
= B.
0
Luego B = B y B es única, para la matriz dada A . Esta matriz B se llama matriz opuesta de la
matriz A y se indica por −A .
La resta o sustracción de matrices de Mm×n (K) se define por
A − B := A + (−B)
para cualesquiera A, B ∈ Mm×n (K) .
Como la adición de matrices tiene las cuatro propiedades (1)–(4) anteriores, resulta que el conjunto
de matrices Mm×n (K) con la adición + definida más arriba, o como también se dice, la estructura
(Mm×n (K), +) , es un grupo conmutativo.
Producto por escalares
En Álgebra lineal los elementos del cuerpo K con el que se trabaja se llaman escalares, y el propio cuerpo
K se llama el cuerpo de los escalares.
Dada una matriz A de Mm×n (K) y dado un elemento λ de K , la matriz producto del escalar λ
por la matriz A es la matriz de tamaño m × n cuyo elemento de la fila i -ésima y columna j -ésima es
λaij para cada i = 1, . . . , m y cada j = 1, . . . , n , esto es, λA = (λaij )m×n :
18
Álgebra lineal
a11
 a21
λA = λ 
 ...
a12
a22
..
.
···
···
..
.
am1
am2
···

Por ejemplo, en M2×3 (R) ,
2 1
2
0 −1
0
3
=


λa11
a1n
a2n 
 λa21
= 
.. 
 ...
. 
λam1
amn
2·2
2·1
2 · 0 2 · (−1)
2·0
2·3
λa12
λa22
..
.
···
···
..
.

λa1n
λa2n 
.
.. 
. 
λam2
···
λamn
=
4
0
2
−2
3+i
3 + 3i
0
6
y en M2 (C) ,
(1 + i)
2−i 0
3
4i
=
(1 + i)(2 − i)
(1 + i)0
(1 + i)3
(1 + i)(4i)
=
0
−4 + 4i
.
La expresión Aλ en la que A es una matriz y λ un escalar, no está definida.
Propiedades del producto por escalares
Sean A y B dos matrices cualesquiera de Mm×n (K) y sean λ y µ dos elementos cualesquiera de K .
• (1) λ(A + B) = λA + λB .
En efecto,
λ(A + B) = (λ(aij + bij ))
= (λaij + λbij )
por la propiedad distributiva en K
= (λaij ) + (λbij )
= λ(aij ) + λ(bij )
= λA + λB.
• (2) (λ + µ)A = λA + µA .
Tenemos por un lado (λ + µ)A = ((λ + µ)aij ), y por otro, λA + µA = (λaij + µaij ) , y sabemos que
(λ + µ)aij = λaij + µaij por la propiedad distributiva en el cuerpo K .
• (3) λ(µA) = (λµ)A .
Tenemos λ(µA) = (λ(µaij )) y (λµ)A = ((λµ)aij ) y sabemos que λ(µaij ) = (λµ)aij , por la
propiedad asociativa de la multiplicación en el cuerpo K .
• (4) 1A = A .
Se tiene 1A = (1aij ) y 1aij = aij por ser 1 el elemento unidad del cuerpo K .
Con lo que llevamos hasta este punto y como diremos más adelante, tenemos que el conjunto
Mm×n (K) con la adición y el producto por escalares de K ası́ definidos es un espacio vectorial sobre el cuerpo K .
Además,
• (5) 0A = 0m×n .
Aquı́ 0A = (0aij )m×n = (0)m×n = 0m×n .
• (6) (−1)A = −A .
Simplemente, (−1)A = ((−1)aij )m×n = (−aij )m×n = −A .
I Para cada número natural n y cada matriz A de Mm×n (K) , definimos nA por medio de la
siguiente definición recursiva:
(
0A = 0m×n
(n + 1)A = nA + A.
19
Matrices y sistemas de ecuaciones lineales
(n
De otro modo, nA = A + · · · + A . Por ejemplo, 1A = A , como en la propiedad (4), 2A = A + A, y
3A = A + A + A .
Producto de matrices
El producto de una matriz A de tamaño 1 × n por una matriz B de tamaño n × 1 de elementos de K
se define de la forma siguiente:
 
b1
n
X
 b2 
 = a1 b1 + a2 b2 + · · · + an bn =
AB = ( a1 a2 · · · an ) 
ai bi .
.
 .. 
i=1
bn
Sean A = (aij )m×n una matriz de tamaño m × n y B = (bij )n×p una matriz de tamaño n × p
de elementos de K : el número de columnas de A es igual al número de filas de B . Se llama matriz
producto de las matrices A y B a la matriz C = (cij )m×p de tamaño m × p cuyo elemento cij es el
producto de la fila i -ésima de la matriz A por la columna j -ésima de B :
b
1j
cij = ( ai1
ai2
...

n
X
 b2j 

ain ) 
=
a
b
+
a
b
+
·
·
·
+
a
b
=
aik bkj
i1 1j
i2 2j
in nj
 .. 
.
k=1
bnj
para cada i = 1, . . . , m y j = 1, . . . , p.
Si C es la matriz producto de A y B , escribimos C = AB o, si es necesario, C = A · B . Para que
se puedan multiplicar dos matrices, el número de columnas del primer factor debe ser igual al número de
filas del segundo factor. Las matrices cuadradas del mismo orden n siempre se pueden multiplicar y su
producto es una matriz cuadrada de orden n , es decir, en el conjunto Mn (K) está definido el producto
de matrices.
Por ejemplo,

1
2 1 0 
7
0 −1 3
0

−1
9

−6 =
−7
2
−8
12

y
1
7
0

−1 2
−6 
0
2
1
−1
0
3

2
2
=  14 13
0 −2

−3
−18  .
6
Propiedades del producto de matrices
• (1) Si A ∈ Mm×n (K), B ∈ Mn×p (K) y C ∈ Mp×q (K) , entonces A(BC) = (AB)C
(propiedad asociativa).
En primer lugar, A(BC) y (AB)C son matrices de tamaño m × q . Si A(BC) = (dij )m×q y
(AB)C = (d0ij )m×q , tenemos que demostrar que dij = d0ij para cada i = 1, . . . , m y j = 1, . . . , q .
La matriz BC es de tamaño n × q y la matriz AB es de tamaño m × p . Sean BC = (eij )n×q y
AB = (e0ij )m×p . Se tiene

dij = ( ai1
···
con

e1j
n
X


ain )  ...  = ai1 e1j + · · · + ain enj =
aik ekj
k=1
enj

eij = ( bi1
···

c1j
p
X


bip )  ...  = bi1 c1j + · · · + bip cpj =
bih chj .
cpj
h=1
20
Álgebra lineal
Luego
dij = ai1 e1j + · · · + ain enj
!
p
X
= ai1
b1h chj + · · · + ain
h=1
=
n
X
k=1
=
!
bnh chj
h=1
p
X
aik
p
X
!
.
bkh chj
h=1
p
n X
X
aik bkh chj
k=1 h=1
Y por otra parte

d0ij = ( e0i1
···

c1j
p
X


e0ip )  ...  = e0i1 c1j + · · · + e0ip cpj =
e0ih chj
h=1
cpj
con

e0ij = ( ai1
···

b1j
n
X


aik bkj .
ain )  ...  = ai1 b1j + · · · + ain bnj =
k=1
bnj
Luego
d0ij = e0i1 c1j + · · · + e0ip cpj
!
n
X
=
aik bk1 c1j + · · · +
k=1
=
=
!
aik bkp
cpj
k=1
p
n
X
X
h=1
n
X
!
aik bkh
chj
k=1
p X
n
X
aik bkh chj
h=1 k=1
=
p
n X
X
aik bkh chj
k=1 h=1
= dij .
Si A, B y C son matrices como en (1), por la propiedad asociativa del producto podemos “prescindir
de los paréntesis” y escribir ABC en lugar tanto de A(BC) como de (AB)C . Y también ABCD en
lugar de A(B(CD)) o de ((AB)C)D , o de (AB)(CD) , etc.
• (2) Para cada n > 1 hay una matriz cuadrada M ∈ Mn (K) , única, tal que para cada matriz
cuadrada A ∈ Mn (K) ,
AM = M A = A.
Sea M = (mij )n la matriz en la que mij = 1 si i = j , y mij = 0 si i 6= j , o con la notación más
frecuente, M = (δij )n , donde δij es el sı́mbolo o delta de Kronecker: para i, j = 1, . . . , n ,
δij =
1
0
si i = j,
si i =
6 j.
21
Matrices y sistemas de ecuaciones lineales
(Por ejemplo, δ23 = 0, δ55 = 1 y δ14 = 0 .) Si A = (aij )n y AM = (bij )n , entonces
δ
bij = ( ai1

 δ2j 

ain ) 
 ..  = ( ai1
.
δnj
···
ai2
1j
ai2
···
 
0
 .. 
.
 
0
 
ain )  1 
 
0
.
 .. 
0
= ai1 0 + ai2 0 + · · · + aij−1 0 + aij 1 + aij+1 0 + · · · + ain 0
= aij .
Luego AM = A . De manera análoga se demuestra que M A = A .
Supongamos ahora que M 0 es otra matriz cuadrada de orden n tal que AM 0 = M 0 A = A para
cada A ∈ Mn (K) . Entonces para A = M , M M 0 = M 0 M = M . Tomando A = M 0 en la igualdad
AM = M A = A , tenemos M 0 M = M M 0 = M 0 , ası́ que M = M 0 y M es única: M es el elemento
identidad o unidad del producto de matrices de orden n y se llama matriz identidad de orden n :
M = In = (δij )n . Para los primeros n > 1 :
I1 = (1),
I2 =
1
0
0
1

,
1
I3 =  0
0
0
1
0

0
0,
1
1
0
I4 = 
0
0

0
1
0
0
0
0
1
0

0
0
,
0
1
1
0

I5 =  0

0
0

0
1
0
0
0
0
0
1
0
0
0
0
0
1
0

0
0

0.

0
1
El producto de matrices no es conmutativo: basta con el ejemplo anterior de producto de matrices
en el que las matrices AB y BA no tienen el mismo tamaño, o el ejemplo siguiente con matrices de
orden 2 :
2 1
1 −3
3 −4
1 −3
2 1
5 1
=
y
=
.
−1 0
1 2
−1 3
1 2
−1 0
0 1
Si A y B son matrices cuadradas de orden n , se dice que A y B conmutan si AB = BA . Por ejemplo,
la matriz identidad In y la matriz nula 0n de orden n conmutan con cada matriz de orden n . ¿Qué
matrices de orden n conmutan con todas las matrices de orden n ? ¿Hay alguna más aparte de In y
0n ?
• (3) (i) Si A ∈ Mm×n (K) y B, C ∈ Mn×p (K) , entonces
A(B + C) = AB + AC.
Supongamos que A = (aij )m×n , B = (bij )n×p y C = (cij )n×p . Si A(B + C) = (dij )m×p ,

dij = ( ai1
···

b1j + c1j


..
ain ) 

.
bnj + cnj
= ai1 (b1j + c1j ) + · · · + ain (bnj + cnj )
=
n
X
aik (bkj + ckj )
k=1
=
n
X
k=1
(aik bkj + aik ckj )
22
Álgebra lineal
Si AB + AC = (d0ij )m×p ,

d0ij = ( ai1
···

b1j


ain )  ...  + ( ai1
bnj

···

c1j


ain )  ... 
cnj
= (ai1 b1j + · · · + ain bnj ) + (ai1 c1j + · · · + ain cnj )
=
n
X
aik bkj +
k=1
=
n
X
n
X
aik ckj
k=1
(aik bkj + aik ckj )
k=1
= dij .
Por tanto, A(B + C) = AB + AC.
(ii) Si A, B ∈ Mm×n (K) y C ∈ Mn×p (K) , entonces
(A + B)C = AC + BC.
La demostración es muy parecida a la que acabamos de dar. Para matrices de Mn (K) las propiedades
(3)(i) y (3)(ii) constituyen las propiedades distributivas.
Con las propiedades que ya vimos de la adición y con las que acabamos de demostrar de la multiplicación de matrices de orden n , tenemos que el conjunto Mn (K) de matrices cuadradas con la adición
+ y el producto · de matrices que hemos definido, o como también se dice, la estructura (Mn (K), +, ·) ,
es un anillo con unidad. No es un anillo conmutativo porque el producto de matrices no es conmutativo.
Las relaciones entre el producto de matrices y el producto por escalares se resumen en:
• Si A ∈ Mm×n (K), B ∈ Mn×p (K) y λ ∈ K , entonces
λ(AB) = (λA)B = A(λB).
Si AB = (cij )m×p , entonces λ(AB) = (λcij )m×p , y para cada i = 1, . . . , m y j = 1, . . . , n ,






b1j
b1j
λb1j






λcij = λ ( ai1 · · · ain )  ...  = ( λai1 · · · λain )  ...  = ( ai1 · · · ain )  ...  .
bnj
bnj
λbnj
Dos observaciones más:
I (1) Hay matrices A y B de orden n > 1 no nulas tales que su producto es la matriz cero 0n :
por ejemplo,
1 0
0 0
0 0
=
,
0 0
1 1
0 0
ası́ que el anillo con unidad (Mn (K), +, ·) tiene lo que se llaman “divisores de cero”, esto es, elementos
distintos de cero cuyo producto es cero. Esto también ocurre en anillos como, por ejemplo, Z/4Z, en el
que 2 · 2 = 0, y Z/6Z , en el que 2 · 3 = 3 · 4 = 0 .
También hay matrices A no nulas de orden n > 1 cuyo cuadrado A2 es la matriz nula 0n . (¿Algún
ejemplo con matrices reales de orden 2 ?)
I (2) Hay matrices de orden n > 2 que tienen un montón de “raı́ces cuadradas”: por ejemplo, para
cada λ ∈ K no nulo,
2 0 λ−1
0 λ−1
0 λ−1
1 0
=
=
.
0 1
λ
0
λ
0
λ
0
(¿Más ejemplos de matrices reales de orden 2 cuyo cuadrado es I2 ?)
23
Matrices y sistemas de ecuaciones lineales
I Para cada matriz cuadrada A de orden n y cada número natural k definimos la matriz Ak
por medio de la siguiente definición recursiva:
( 0
A
= In
Ak+1 = Ak · A.
(k
De otro modo, Ak = A · · · A . Ası́, A1 = A, A2 = AA y A3 = A2 A = AAA.
Varias de las propiedades de la exponenciación de números naturales se cumplen para matrices: Para
cada matriz cuadrada A y cualesquiera números naturales k y h , se cumplen
Ak · Ah = Ak+h
y
(Ak )h = Ak·h .
Pero el hecho de que el producto de matrices no sea conmutativo hace que, en general,
(A · B)k 6= Ak · B k
ya que
(k
(k
(k
(A · B)k = (A · B) · · · (A · B) 6= (A · · · A) · (B · · · B) = Ak · B k .
Con todo lo que llevamos, si A es una matriz cuadrada de orden n , tienen sentido expresiones
‘polinomiales’ o ‘polinómicas’ en A , del tipo
ak Ak + ak−1 Ak−1 + · · · + a2 A2 + a1 A + a0 A0 ,
donde a0 , . . . , ak son elementos de K . Por ejemplo, 7A3 − 2A2 − 3A + In y A2004 − In .
Matrices invertibles
Se dice que una matriz cuadrada A ∈ Mn (K) de orden n es invertible si hay una matriz cuadrada
M ∈ Mn (K) tal que
AM = M A = In .
Por ejemplo, la matriz identidad In es invertible, porque In In = In . La matriz cero 0n no es invertible,
porque A · 0n = 0n para toda matriz A de Mn (K) .
Pero también hay matrices A distintas de la matriz 0n para las que no hay ninguna matriz M tal
que AM = In : por ejemplo,
1 0
a b
1 0
a b
a b
A=
:
si M =
,
AM =
=
0 0
c d
0 0
c d
0 0
que es distinta de I2 : con otras palabras, hay matrices cuadradas no nulas que no son invertibles. De
hecho, una matriz cuadrada que tenga una fila con todos los elementos iguales a cero no puede ser
invertible: al multiplicar esa matriz por otra matriz cuadrada B del mismo orden, la matriz que resulta
tiene una fila toda de ceros, y no puede ser la matriz identidad. Tampoco las matrices cuadradas con una
columna toda de ceros pueden ser invertibles.
I Si A ∈ Mn (K) es invertible, entonces hay una sola matriz M ∈ Mn (K) tal que
AM = M A = In .
Si hubiese otra matriz M 0 ∈ Mn (K) tal que
AM 0 = M 0 A = In
tendrı́amos
M 0 = In M 0
= (M A)M 0
= M (AM 0 )
= M In
= M.
24
Álgebra lineal
Esta matriz M única se dice que es la matriz inversa de la matriz A y se escribe M = A−1 . Los
términos matriz invertible y matriz que tiene inversa son sinónimos.
Se tiene A · A−1 = A−1 · A = In y, por tanto, la matriz A y su inversa A−1 conmutan.
I Si A ∈ Mn (K) es invertible y M ∈ Mn (K) es una matriz tal que AM = In , entonces también
se cumple
M A = In .
En efecto,
M A = In M A
= (A−1 A)M A
= A−1 In A
= A−1 A
= In .
De manera análoga se obtiene que
I si A ∈ Mn (K) es invertible y M ∈ Mn (K) es tal que M A = In , entonces también
AM = In .
Como veremos más adelante, es importante que sepamos responder fácilmente a las dos preguntas
siguientes referidas a una matriz cuadrada A de orden n :
(1) ¿es A invertible?, y
(2) si A es invertible, ¿cuál es la matriz inversa de A ?
Para responder a la primera pregunta la definición no sirve casi nunca. Un caso en el que sirve es el
caso en el que A es una matriz de orden 1 : A = (a) . Entonces A es invertible si y sólo si a es distinto
de 0 . La matriz inversa de A es (a−1 ) .
En el caso en el que A es una matriz de orden 2 también se puede responder a las dos preguntas,
con base en la sola definición de matriz invertible, aunque hay que hacer algunas cuentas. Si A = ac db ,
d −c
1
. Es el
entonces A es invertible si y sólo si ad − bc 6= 0 . La matriz inversa de A es ad−bc
−b a
resultado de resolver el sistema de 4 ecuaciones lineales con 4 incógnitas que se obtiene al plantear la
pregunta en la forma:
a b
x y
x y
a b
1 0
¿Para qué matrices A =
existe una matriz M =
tal que
=
?
c d
z t
z t
c d
0 1
Si el orden de A es mayor que 2 , intentar responder a las dos preguntas con base en la definición de
matriz invertible da lugar, en general, a cálculos muy largos. Para orden 3 hay que discutir un sistema
de 9 ecuaciones lineales con 9 incógnitas, y, en general, para orden n , se trata de discutir un sistema de
n2 ecuaciones lineales con n2 incógnitas.
I Si A es invertible, entonces la matriz A−1 también es invertible, porque A−1 A = AA−1 = In
y (A )
es la propia matriz A .
−1 −1
I Hay matrices invertibles A y B de orden n > 1 cuya suma no es invertible: por ejemplo,
A=
1
0
0
1
,
B=
−1
0
0
−1
y
A+B =
0
0
0
0
.
I Si A es una matriz invertible de orden n y λ es un escalar no nulo, entonces λA también es
invertible y su inversa (λA)−1 es λ−1 A−1 , ya que
(λA)(λ−1 A−1 ) = λλ−1 AA−1 = In
y
(λ−1 A−1 )(λA) = λ−1 λA−1 A = In .
25
Matrices y sistemas de ecuaciones lineales
I Si A y B son matrices invertibles de orden n > 1 , entonces su producto AB también es
invertible: con M = B −1 A−1 ,
M (AB) = (B −1 A−1 )(AB) = B −1 (A−1 A)B
= B −1 In B
= B −1 B
= In
y
(AB)M = (AB)(B −1 A−1 ) = A(BB −1 )A−1
= AIn A−1
= AA−1
= In
y se tiene que AB es invertible y su matriz inversa (AB)−1 es la matriz B −1 A−1 .
Importante: Como el producto de matrices no es conmutativo, al hallar la matriz inversa de un producto
de matrices invertibles, hay que tener cuidado con el orden de los factores.
I Más general, si A1 , . . . , Ak con k > 1 son matrices invertibles de orden n , su producto A1 ·. . .·Ak
también es invertible y su matriz inversa es
−1
(A1 · . . . · Ak )−1 = A−1
k · . . . · A1 .
La demostración se hace por inducción en el número k de factores:
(a) Para k = 1 , no hay nada que demostrar.
(b) Sea k > 1 y supongamos que se cumple para k factores. Sean A1 , . . . , Ak , Ak+1 matrices
invertibles de orden n . Entonces la matriz A1 · . . . · Ak también es invertible, por la hipótesis
de inducción, y la matriz A1 · . . . · Ak · Ak+1 = (A1 · . . . · Ak ) · Ak+1 , producto de dos matrices
−1
invertibles de orden n es invertible. Además la matriz M = A−1
= A−1
k+1 · (A1 · . . . · Ak )
k+1 ·
−1
−1
Ak · . . . · A1 cumple M · (A1 · . . . · Ak · Ak+1 ) = In y es, por tanto, la matriz inversa de
A1 · . . . · Ak · Ak+1 .
En particular,
I Si A es una matriz invertible, para todo k > 1 , la matriz Ak es invertible y
(Ak )−1 = (A−1 )k .
Para cada matriz invertible A de orden n y cada k > 1 , definimos
A−k := A−1 · .(k. . ·A−1 = (A−1 )k .
Ası́, A−2 = (A−1 )2 = (A−1 )(A−1 ) . Ahora, si A es una matriz invertible de orden n , expresiones
como 4A3 − A2 + 5A − In − A−1 + 2A−2 + A−3 o A−2004 + 3In tienen perfecto sentido.
Con las propiedades anteriores tenemos que el conjunto
{A ∈ Mn (K) | A es invertible}
con la operación producto de matrices es un grupo no conmutativo: es un conjunto cerrado respecto del
producto de matrices, porque el producto de dos matrices invertibles es una matriz invertible, el producto
de matrices es asociativo, la matriz identidad In es invertible y cada matriz invertible tiene inversa. Este
grupo se llama grupo Lineal General de orden n con coeficientes en K y se indica por GLn (K) o también
por GL(n, K) .
Por ejemplo, con la caracterización que hemos
dadomás arriba de las matrices invertibles de orden
a b
2 , GL(2, R) es el conjunto de matrices reales
de orden 2, tales que ad − bc 6= 0 .
c d
26
Álgebra lineal
Tipos especiales de matrices
Matrices diagonales
Si A = (aij )n es una matriz cuadrada de orden n , se llama diagonal principal de A a la n -upla
(a11 , a22 , . . . , ann ) formada por los elementos aii , i = 1, . . . , n .
Los elementos aij con i, j = 1, . . . , n e i > j son los elementos que están por debajo de la diagonal
principal de la matriz, y los aij con i < j son los que están por encima de la diagonal principal.
Una matriz cuadrada A = (aij )n de orden n es una matriz diagonal si todos los elementos que no
están en la diagonal principal son nulos, esto es, aij = 0 para cualesquiera i, j = 1, . . . , n con i 6= j :
a11
 0

 0
 .
 ..

0
0
a22
0
..
.
0
0
a33
..
.
···
···
···
..
.
0
0
0
..
.
0
0
···
ann



.


Una notación frecuente para una matriz diagonal A de orden n como la anterior es
diag(a11 , a22 , . . . , ann ).
La matriz identidad In es una matriz diagonal para cada n > 1 : es In = diag(1, 1, . . . , 1) , ası́ como
también lo es la matriz cero 0n = diag(0, 0, . . . , 0) .
I La suma de matrices diagonales del mismo orden con elementos en un cuerpo K es una matriz
diagonal:
diag(a1 , a2 , . . . , an ) + diag(b1 , b2 , . . . , bn ) = diag(a1 + b1 , a2 + b2 , . . . , an + bn ).
I El producto de un escalar por una matriz diagonal es una matriz diagonal:
λ diag(a1 , a2 , . . . , an ) = diag(λa1 , λa2 , . . . , λan ).
Con esto tenemos, como diremos más adelante, que el conjunto de matrices diagonales de orden n
con elementos en K es un subespacio vectorial de Mn (K) .
I El producto de dos matrices diagonales del mismo orden también es diagonal:


 

a11 0 · · ·
0
b11 0 · · · 0
a11 b11
0
···
0
0   0 b22 · · · 0   0
a22 b22 · · ·
0 
 0 a22 · · ·
 .
= .

 .
..
.. 
.
.
.
..
..
.
.
 ..





..
..
..
..
..
..
..
.
.
.
.
0
0 · · · ann
0
0 · · · bnn
0
0
· · · ann bnn
y es evidente que las matrices diagonales del mismo orden conmutan.
Tenemos ası́ que el conjunto de matrices diagonales de orden n con la suma y el producto es un
anillo conmutativo con unidad.
I Una matriz diagonal de orden n es invertible si todos los elementos aii , i = 1, . . . , n de la
diagonal principal son distintos de cero:
a11
 0
 .
 ..

0
0
a22
..
.
···
···
..
.
0
···
  a−1
0
11
0  0
 .
.. 
.   ..
ann
0
0
a−1
22
..
.
0
···
···
..
.
0
0
..
.
···
a−1
nn


 = In .

¿Cuál es el resultado de multiplicar una matriz por una matriz diagonal? Si se multiplica por la
izquierda:
27
Matrices y sistemas de ecuaciones lineales
a1
 0
 .
 ..
0
a2
..
.
···
···
..
.
0
0
···


b11
0
0   b21
 .
.. 
.   ..
bm1
am
b12
b22
..
.
···
···
..
.
bm2
···


a1 b11
b1n
b2n 
 a2 b21
= 
.. 
 ...
. 
am bm1
bmn
a1 b12
a2 b22
..
.
···
···
..
.
am bm2
···

a1 b1n
a2 b2n 

..

.
am bmn
y el resultado es que para cada i = 1, . . . , m la fila i -ésima de la matriz queda multiplicada por ai . Si
se multiplica por la derecha:

 


a1 b11 a2 b12 · · · an b1n
a1 0 · · · 0
b11 b12 · · · b1n
 b21 b22 · · · b2n   0 a2 · · · 0   a1 b21 a2 b22 · · · an b2n 
 .
 .
..
.. 
.. . .
. = .
..
.. 
..
..
 ..
.
. ..   ..
.
.
. 
.
.
.   ..
a1 bm1 a2 bm2 · · · an bmn
0 0 · · · an
bm1 bm2 · · · bmn
y el resultado es que para cada j = 1, . . . , n , la columna j -ésima de la matriz queda multiplicada por
aj . En particular, se obtiene que las matrices diagonales de orden n no conmutan con todas las matrices
cuadradas de orden n .
Matrices escalares
Una matriz diagonal en la que todos los elementos de la diagonal principal son iguales se llama matriz
escalar:


λ 0 ··· 0
0 λ ··· 0

diag(λ, λ, . . . , λ) = 
 ... ... . . . ... 
0 0 ··· λ
y es una matriz de la forma λIn para un escalar λ . La matriz identidad In y la matriz nula 0n de
orden n son matrices escalares.
El resultado de multiplicar una matriz escalar λIn por una matriz A es el mismo que el de multiplicar el escalar λ por la matriz A :
λIn · A = λ(In A) = λA,
uno de los aspectos del hecho de que las matrices escalares “funcionan” como los propios escalares.
I La suma de dos matrices escalares del mismo orden es una matriz escalar:
λIn + µIn = (λ + µ)In ,
y el producto de un escalar por una matriz escalar es una matriz escalar:
µ(λIn ) = (µλ)In .
Por tener estas dos propiedades, como diremos más adelante, las matrices escalares de orden n de
elementos de K forman un subespacio vectorial del espacio vectorial Mn (K) .
I Las matrices escalares de orden n conmutan con todas las matrices cuadradas de orden n :
(λIn ) · A = λ(In · A) = λA = (λA) · In = A · (λIn ).
Matrices triangulares
Una matriz cuadrada A = (aij )n de orden n es una matriz triangular superior si los elementos que
están por debajo de la diagonal principal de A son nulos, esto es, aij = 0 para todo i, j = 1, . . . , n con
i>j:


a11 a12 a13 · · · a1n
 0 a22 a23 · · · a2n 


0
0 a33 · · · a3n  .
A=
 .
..
..
.. 
..
 ..
.
.
.
. 
0
0
0
···
ann
28
Álgebra lineal
Toda matriz diagonal es una matriz triangular superior. En particular, In y 0n son matrices triangulares
superiores. También


3 1 0
2 1
 0 1 −1 
y
0 −1
0 0 0
son matrices triangulares superiores.
I La suma de dos matrices triangulares superiores del mismo orden es también una matriz triangular
superior:
si aij = bij = 0 para todo i, j = 1, . . . , n con i > j , entonces aij + bij = 0 + 0 = 0 para i > j .
I El producto de un escalar por una matriz triangular superior es una matriz triangular superior:
si aij = 0 para todo i, j = 1, . . . , n con i > j , entonces λaij = λ0 = 0 para i > j .
Con estas dos propiedades, como diremos más adelante, las matrices triangulares superiores de orden
n forman un subespacio vectorial de Mn (K) .
I El producto de dos matrices triangulares superiores de orden n , ¿es una matriz triangular
superior?
Si A = (aij )n y B = (bij )n son triangulares superiores y C = (cij )n es su producto AB , ¿es cierto
que los elementos de C que están debajo de la diagonal principal son nulos? De otra forma, ¿es cij = 0
si i > j ?


b1j
j−1
n
n
X
X
X


aik bkj .
aik bkj =
aik bkj + aij bjj +
cij = ( ai1 · · · ain )  ...  =
k=j+1
k=1
k=1
bnj
Supongamos que P
i > j . Como A es triangular superior, aik = 0 para cada k = 1, . . . , j − 1 , luego el
j−1
primer sumando
k=1 aik bkj es igual a cero.
Pn Como B es triangular superior, bkj = 0 para cada k = j + 1, . . . , n , luego el tercer sumando
k=j+1 aik bkj también es cero. Y queda
cij = 0 + aij bjj + 0 = aij bjj .
Al ser i > j, aij = 0 , luego cij = 0 y tenemos que C = AB es triangular superior.
Como el producto de matrices tiene la propiedad asociativa y como la matriz identidad de orden n
es triangular superior, se tiene que el conjunto de matrices triangulares superiores de orden n con las
operaciones de suma y producto de matrices es un anillo (no conmutativo) con unidad.
Una matriz cuadrada de orden n > 1 es triangular superior estricta si todos los elementos que
están en la diagonal principal o debajo de la diagonal principal son nulos, esto es, aij = 0 para todo
i, j = 1, . . . , n con i > j :


0 a12 a13 · · · a1n
 0 0 a23 · · · a2n 


0 0
0 · · · a3n  .
A=
.
..
..
.. 
..
 ..
.
.
.
. 
0 0
0 ··· 0
La matriz nula 0n es triangular superior estricta y es la única matriz diagonal que es triangular superior
estricta. La matriz identidad In no es triangular superior estricta, como tampoco lo son las dos matrices
triangulares superiores de más arriba. Las matrices


0 2 −1
0 −3
 0 0 −4 
y
0 0
0 0 0
son triangulares superiores estrictas.
Las tres propiedades señaladas más arriba de las matrices triangulares superiores también se cumplen
para matrices triangulares superiores estrictas.
29
Matrices y sistemas de ecuaciones lineales
Una matriz cuadrada de orden n > 1 es
están por encima de la diagonal principal son
i<j:

a11
 a21

a
A=
 31
 ...
am1
triangular inferior si todos los elementos de la matriz que
nulos, esto es, aij = 0 para todo i, j = 1, . . . , n tales que
0
a22
a32
..
.
0
0
a33
..
.
···
···
···
..
.
0
0
0
..
.
am2
am3
···
amn
La matriz nula 0n y la matriz identidad In son triangulares
diagonales. Las matrices

−1
1
0
 1
y
−2 −2
3






inferiores, como lo son todas las matrices
0
2
−4

0
0
5
son matrices triangulares inferiores.
I Como con las matrices triangulares superiores, la suma de matrices triangulares inferiores y
el producto por escalares de matrices triangulares inferiores es una matriz triangular inferior, y, como
diremos más adelante, el conjunto de matrices triangulares inferiores de orden n es un subespacio vectorial
de Mn (K) .
I También el producto de matrices triangulares inferiores es una matriz triangular inferior. Esto
se puede demostrar de una forma muy parecida a la del caso de matrices triangulares superiores que se
demostró más arriba. Y el conjunto de matrices triangulares inferiores de orden n > 1 con las operaciones
de suma y producto de matrices es un anillo (no conmutativo) con unidad.
Una matriz cuadrada de orden n > 1 es triangular inferior estricta si todos los elementos de la
matriz que están en la diagonal principal o encima de la diagonal principal son nulos, esto es, aij = 0
para todo i, j = 1, . . . , n con i 6 j :


0
0
0
··· 0
0
0
··· 0
 a21


0
··· 0
 a31 a32
 .
..
..
.
..
 ..
. .. 
.
.
am1 am2 am3 · · · 0
La matriz nula 0n es triangular inferior estricta, es la única matriz diagonal que es triangular inferior
estricta. La matriz identidad In no es triangular inferior estricta, como tampoco lo son las dos matrices
triangulares inferiores de más arriba. Las matrices


0
0 0
0 0
 2
y
0 0
−3 0
−1 −4 0
son triangulares inferiores estrictas.
Las tres propiedades señaladas más arriba de las matrices triangulares inferiores también se cumplen
para matrices triangulares inferiores estrictas.
Una matriz cuadrada se dice que es triangular si es triangular superior o triangular inferior.
I Una matriz cuadrada es diagonal si y sólo si es triangular superior y triangular inferior.
Traspuesta de una matriz
Si A = (aij )m×n es una matriz de tamaño m × n , la matriz traspuesta de la matriz A es la matriz
de tamaño n × m cuyas n filas son las n columnas de la matriz A en el mismo orden, o con otras
palabras, es la matriz (bij )n×m de tamaño n × m cuyo elemento bij es igual al elemento aji de A
para cada i = 1, . . . , n y j = 1, . . . , m .
La matriz traspuesta de la matriz A se indica por At .
Por ejemplo,
30
Álgebra lineal

2
si A =  7
0

−1
−4  ,
1
At =
2
−1
7
−4
0
1

,
y si
B = (1
−1
2),

1
B t =  −1  .
2
La matriz traspuesta de una matriz diagonal es la propia matriz diagonal. Ası́, 0tn = 0n y Itn = In .
¿Cuál es la matriz traspuesta de una suma de matrices? ¿Y de un producto? ¿Es invertible la
traspuesta de una matriz invertible?
I Para cada matriz A ,
(At )t = A.
Prácticamente, nada que demostrar.
I Si A y B son matrices de tamaño m × n , entonces
(A + B)t = At + B t
y para cada escalar λ ,
(λA)t = λAt .
Las demostraciones de estas dos igualdades de matrices son muy fáciles.
I Si A es una matriz de tamaño m × n y B es una matriz de tamaño n × p , de elementos del
mismo cuerpo, entonces
(AB)t = B t At .
Las dos matrices (AB)t y B t At tienen el mismo tamaño p × m . Si AB = (cij )m×p y (AB)t =
(dij )p×m , entonces


b1i
n
n
X
X
.
dij = cji = ( aj1 · · · ajn )  ..  =
ajk bki =
bki ajk ,
k=1
k=1
bni
y si B t At = (d0ij )p×m , entonces

d0ij = ( b1i
···

aj1
n
X


bni )  ...  =
bki ajk
k=1
ajn
y se tiene dij = d0ij para cada i, j = 1, . . . , n , de donde (AB)t = B t At .
Importante: Como el producto de matrices no es conmutativo, al hallar la matriz traspuesta de un
producto de matrices hay que tener cuidado con el orden de los factores.
I Si A1 , . . . , Ak son matrices cuadradas de orden n > 1 ,
(A1 A2 · · · Ak )t = Atk · · · At2 At1 .
Se demuestra por inducción sobre el número k de factores:
(a) Para k = 1 , con un solo factor, no hay nada que demostrar.
(b) Supongamos que se cumple para k > 1 factores y lo demostramos para k + 1 factores:
(A1 · · · Ak Ak+1 )t = ((A1 · · · Ak )Ak+1 )t
= Atk+1 · (A1 · · · Ak )t
= Atk+1 · (Atk · · · At1 )
=
Atk+1 Atk
· · · At1 .
En particular,
I si A es una matriz cuadrada y k > 1 , entonces
(Ak )t = (At )k .
por la propiedad anterior
por la hipótesis de inducción
31
Matrices y sistemas de ecuaciones lineales
I Si A es una matriz de orden n invertible, entonces At también lo es y su matriz inversa es la
traspuesta de la matriz inversa de A :
(At )−1 = (A−1 )t .
En efecto,
At (A−1 )t = (A−1 A)t
= Itn
= In
y
(A−1 )t At = (AA−1 )t
= Itn
= In
luego At es invertible y (A−1 )t es su matriz inversa.
Matrices simétricas
Una matriz cuadrada A = (aij )n es una matriz simétrica si aij = aji para todo i, j = 1, . . . , n . De otro
modo, A es simétrica si coincide con su traspuesta: A = At .
Por ejemplo,
1
−1
−1
0

,
2
0
3
0
1
4

3
4 
−1
1
 −2

3
−4

y
−2
5
−6
7
3
−6
8
−9

−4
7 

−9
10
son matrices simétricas. La “simetrı́a” de una matriz simétrica es respecto de la diagonal principal. Las
matrices 0n e In y las matrices diagonales son simétricas.
I La suma de dos matrices cuadradas simétricas del mismo orden n > 1 es una matriz simétrica.
Si A y B son matrices simétricas de orden n , entonces (A + B)t = At + B t = A + B y A + B es
simétrica.
I El producto de una matriz simétrica por un escalar es una matriz simétrica.
Si A es una matriz simétrica de orden n y λ es un escalar, entonces (λA)t = λAt = λA y λA es
simétrica.
Por tanto, como diremos más adelante, las matrices simétricas de orden n forman un subespacio
vectorial del espacio vectorial Mn (K) .
Pero el producto de dos matrices simétricas del mismo orden n > 1 no es necesariamente una matriz
simétrica: por ejemplo,
2 1
1 2
4 2
=
.
1 3
2 −2
7 −4
Entonces, ¿cuándo el producto de dos matrices simétricas es una matriz simétrica?
I Si A y B son matrices simétricas del mismo orden, su producto AB es simétrica si y sólo si
A y B conmutan.
En efecto, como (AB)t = B t At = BA , se tiene que AB es simétrica si y sólo si AB = (AB)t = BA
si y sólo si A y B conmutan.
I Para cada matriz simétrica A y cada k > 1 , la matriz Ak también es simétrica.
Esto es una consecuencia inmediata de la igualdad (Ak )t = (At )k ya demostrada, y del hecho de
ser At = A .
32
Álgebra lineal
I La matriz inversa de una matriz simétrica invertible también es simétrica.
Porque de At = A y AA−1 = A−1 A = In , se tiene (A−1 )t A = At A−1 = In y (A−1 )t = A−1 .
Una matriz cuadrada A = (aij )n es una matriz antisimétrica* si aij = −aji para todo i, j =
1, . . . , n , o, con otras palabras, si A = −At .
Si A es antisimétrica, se tiene aii = −aii para todo i = 1, . . . , n , luego 2aii = aii + aii = 0 y si en
el cuerpo K, 1 + 1 6= 0 , ** aii = 0 y en la diagonal principal de A todos los elementos son cero.
La matriz nula 0n de orden n es antisimétrica: es la única matriz diagonal antisimétrica. La matriz
identidad In no es antisimétrica. Las matrices




0
1 −1 0
0
1 −2
0 −1
2 −1 
 −1 0
 −1 0
,
3 
y


1 0
1 −2 0
1
2 −3 0
0
1 −1 0
son antisimétricas.
Si A es una matriz cualquiera, la matriz A + At es simétrica:
(A + At )t = At + (At )t
= At + A
y la matriz A − At es antisimétrica:
(A − At )t = At − (At )t
= At − A
= −(A − At ).
Se tiene que (A + At ) + (A − At ) = 2A y A = 12 (A + At ) + 12 (A − At ) y ası́
(
I Cada matriz cuadrada A es suma de una matriz simétrica ( 12 (A+At ) ) y una matriz antisimétrica
− At ) ).
1
2 (A
¿Hay alguna matriz cuadrada de orden n que sea simétrica y antisimétrica? Sı́, la matriz cero 0n
de orden n . ¿Alguna más? No. ¿Por qué?
Una matriz cuadrada A es triangular superior (respectivamente, inferior) si y sólo si su traspuesta
At es triangular inferior (resp., superior).
Esta observación proporciona demostraciones simples de propiedades de matrices triangulares inferiores, si se sabe que se cumplen para matrices triangulares superiores. Por ejemplo, para demostrar que
el producto de dos matrices triangulares inferiores es una matriz triangular inferior, se pueden seguir
los pasos de la demostración que se hizo más arriba para matrices triangulares superiores. Pero ahora
podemos hacer el siguiente razonamiento: Si A y B son matrices triangulares inferiores del mismo
orden, las matrices At y B t son triangulares superiores y sabemos que B t At es triangular superior,
luego AB = ((AB)t )t = (B t At )t es triangular inferior.
* Traducción de skew-symmetric.
** Por ejemplo, en el cuerpo Z / 2Z de dos elementos 0 y 1 , se tiene 1 + 1 = 0 .
33
Matrices y sistemas de ecuaciones lineales
Matrices escalonadas y operaciones elementales en las filas
Matrices escalonadas
Una matriz
siguiente:

0 ···
 0 ···

 0 ···

 . .
 ..
..

 0 ···


 0 ···
 . .
 .
..
.
0 ···
de tamaño m × n de elementos de un cuerpo K es una matriz escalonada si es de la forma
0 a1j1
0
0
0
0
..
..
.
.
0
0
0
0
..
..
.
.
0
0
?
0
0
..
.
···
···
···
..
.
?
0
0
..
.
0
0
..
.
0
···
···
..
.
···
0
0
..
.
0
a2j2
0
..
.
?
?
0
..
.
···
···
···
..
.
?
?
0
..
.
0
0
..
.
0
0
0
..
.
0
···
···
..
.
···
0
0
..
.
0
?
a3j3
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
?
?
?
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
0
0
..
.
0
0
0
..
.
0
···
···
..
.
···
0
0
..
.
0
···
···
..
.
···
0
0
..
.
0
arjr
0
..
.
0
?
0
..
.
0
···
···
..
.
···
?
0
..
.
0
?
?














en la que los elementos a1j1 , a2j2 , . . . , arjr son distintos de cero y los señalados con ? son elementos
cualesquiera del cuerpo K .
Cuatro observaciones:
(1) Puede ser que no haya ninguna columna nula al comienzo;
(2) cada vez que se desciende en la escalera se hace de una fila a la siguiente;
(3) la longitud de cada peldaño puede ser mayor que uno, es decir, un peldaño puede abarcar más
de una columna, y
(4) las posibles filas nulas están todas al final.
Por ejemplo, las matrices siguientes son escalonadas:
1
0
2
3
,
0 1 2 3
0 0 0 4

1 0 0 0 0 1
0 0 0 0 0 0 
0 0 0 0 0 0

0
0

0
0

,
y
1
0
0
0
2
0
0
0
3
6
0
0
0
0
9
0
4
7
10
0
2
0
6
0
3
0
7
0
4
0
0
0

5
8

0
1
y las matrices siguientes no son escalonadas (¿por qué?):
1
3
2
4

,
0
0
0
1
4
0
2
5
0

3
0,
1
0
0

0
0

1
0
0
0
2
0
0
0
0
0
8
0
3
6
9
10
4
7
0
11

5
0 

0
12
1
0

0
0

y
0
0
0
8

5
0
.
0
0
Cada matriz diagonal que no tenga ningún elemento igual a cero en la diagonal principal es una matriz
escalonada. Luego la matriz identidad In es una matriz escalonada.
La definición de matriz escalonada en palabras: se dice que una matriz de tamaño m × n es una
matriz escalonada si
• hay un número natural r, 0 6 r 6 m , tal que las r primeras filas de la matriz son no nulas y
las m − r últimas filas son nulas, y
• para cada i con 1 6 i 6 r , sea ji el número de la columna de la matriz en la que está el
primer elemento no nulo de la fila i -ésima, es decir, ji = min{j | aij 6= 0} . Entonces j1 < j2 < · · · < jr
(condición de escalera).
Los elementos a1j1 , a2j2 , . . . , arjr en la matriz escalonada, que sabemos que son distintos de cero
(y son los primeros elementos no nulos de las filas correspondientes), reciben el nombre de pivotes de la
matriz escalonada.
Si para una matriz escalonada se tiene que el número r de la definición es el cero, entonces todas
las filas de la matriz son nulas y la matriz es necesariamente la matriz cero 0m×n . Las matrices nulas
0m×n son matrices escalonadas.
En el último ejemplo de matriz escalonada de más arriba, m = 4, n = 7, r = 4, j1 = 2, j2 =
4, j3 = 5, j4 = 7, a1j1 = 1, a2j2 = 6, a3j3 = 9 y a4j4 = 1 .
34
Álgebra lineal
Operaciones elementales en las filas de una matriz
Hay tres tipos de operaciones elementales en las filas de una matriz:
(I) intercambiar dos filas de la matriz;
(II) multiplicar una fila de la matriz por un escalar no nulo, y
(III) sumar a una fila de la matriz cualquier múltiplo escalar de otra fila.
Al hacer operaciones elementales en las filas de una matriz cuya fila i -ésima es Fi utilizaremos las
siguientes notaciones para indicar la operación elemental que se realiza en cada paso:
(i) Fi ↔ Fj :
intercambio de las filas i -ésima y j -ésima, con i 6= j ;
(ii) Fi → λFi :
multiplicar la fila i -ésima por el escalar no nulo λ ;
(iii) Fi → Fi + λFj :
sumar a la fila i -ésima λ por la fila j -ésima, con i 6= j .
Teorema. Por medio de operaciones elementales en las filas, cada matriz se puede transformar en una
matriz escalonada.
Demostración. Sea A una matriz de Mm×n (K) . Si A
la definición con r = 0 .
Supongamos que A es una matriz no nula:

a11 a12
 a21 a22
A=
..
 ...
.
am1
am2
es la matriz cero 0m×n , A es escalonada según
···
···
..
.

a1n
a2n 
.. 
. 
···
amn
Al menos uno de los elementos de A es distinto de cero y, por tanto, A tiene al menos una columna no
nula. Sea j1 el menor de los ı́ndices de las columnas de A tales que la columna j1 -ésima de A es no
nula:
j1 = min{j | hay un i con aij 6= 0}.
Si el elemento a1j1 es distinto de cero, lo tomamos como pivote. Si el elemento a1j1 es cero, buscamos un
elemento no nulo en la columna j1 -ésima de A : sea ai1 j1 un elemento no nulo de la columna j1 -ésima
de A . Por medio de una operación elemental del tipo (I) en las filas de la matriz A intercambiamos la
primera fila y la fila i1 -ésima de la matriz A y obtenemos una matriz B = (bij ) de Mm×n (K) :
0 ··· 0 b
b
··· b 
0
B=
 ..
.
0
···
..
.
···
1j1
1j1 +1
0
..
.
b2j1
..
.
b2j1 +1
..
.
0
bmj1
bmj1 +1
1n
···
..
.
···
b2n 
.. 

.
bmn
en la que el elemento b1j1 es no nulo porque es ai1 j1 .
Ahora por medio de operaciones elementales del tipo (III) en las filas de la matriz B se obtiene una
matriz C = (cij ) en la que todos los elementos de la columna j1 -ésima por debajo del elemento b1j1
b2j
son nulos: ası́, a la segunda fila de B se le suma la primera fila multiplicada por − 1 ; a la tercera fila
b1j1
b3j1
de B se le suma la primera fila multiplicada por −
, etc. La matriz resultante C tiene la forma
b1j1


0 · · · 0 b1j1
b1j1 +1 · · ·
b1n
 0 ··· 0
0
c2j1 +1 · · ·
c2n 


C= . .
.
.
.
.. 
..
. . ..
..
..
 ..
.
. 
0 ··· 0
0
cmj1 +1
···
cmn
y hemos obtenido el primer escalón.
Ahora dejamos la primera fila de la matriz C como está y pasamos a considerar la matriz de tamaño
(m − 1) × (n − j1 ) :
c
c2j1 +2 · · · c2n 
2j1 +1
 c3j1 +1 c3j1 +2 · · · c3n 
C0 = 
..
.. 
..
 ..

.
.
.
.
cmj1 +1 cmj1 +2 · · · cmn
35
Matrices y sistemas de ecuaciones lineales
a la que aplicamos el procedimiento que hemos aplicado a la matriz A . La matriz de tamaño (m −
1) × (n − j1 ) que se obtiene reemplaza a la submatriz C 0 de la matriz C y el resultado es una matriz
D = (dij ) de tamaño m × n de la forma


0 · · · 0 b1j1 · · · b1j2 −1
b1j2
b1j2 +1 · · ·
b1n
 0 ··· 0
0
···
0
d2j2 d2j2 +1 · · ·
d2n 

D=
 .. . .
..
..
..
..
..
.. 
..
..
. .
.
.
.
.
.
.
.
.
0 ··· 0
0
···
0
dmj2 dmj2 +1 · · · dmn
que tiene un escalón más que la matriz C .
Ahora dejamos las dos primeras filas de la matriz D como están y consideramos la matriz de tamaño
(m − 2) × (n − j2 ) . . . . . .
Después de aplicar como mucho m veces el procedimiento que hemos aplicado a la matriz A y a
las matrices resultantes, llegamos a una matriz escalonada.
Observemos que en la demostración sólo hemos utilizado operaciones elementales de los tipos (I) y
(III): no hemos utilizado ninguna operación elemental del tipo (II).
Ejemplos. (a) Sea A la matriz
0
0

0
0

Tenemos

0
0

0
0
1
0
0
0

0
0

0
0
0
0
1
1
0
4
−1
1
−1
4
0
2
1 7
0 5
1 2
8 −5

1 2 0 3
0 5 6 0

1 7 0 8
9 2 0 1

0 8
6 0 

0 3
0 −7
0
0
1
1
0
4
−1
1

1 2 0 3
0 5 6 0
.
1 7 0 8
9 2 0 1
−1
4
0
1
0 1
0 0

0 0
0 1

F1 ↔ F3
0
0

0
0

1
F4 → F4 − F2
2

0 1 -1 1
0 0 4 0

0 0 0 1
0 0 0 0
7
5
2
− 47
2

1 7 0 8
0 5 6 0

1 2 0 3
9 2 0 1
−1
4
0
0
1
0
0
0
1
7
0
5
1
2
8 − 15
2

0
6
0
−3
F4 → F4 − F1

8
0 

3
−7
F4 → F4 − 8F3
0 8
6 0 

0 3 
-3 -31
que es una matriz escalonada.
En general, una matriz se puede transformar en más de una matriz escalonada:
(b) Por ejemplo, si en la matriz del ejemplo anterior en lugar de intercambiar las filas primera y
tercera en la primera operación, intercambiamos las filas primera y cuarta, resulta:




0 0 0 1 2 0 3
0 1 1 9 2 0 1
0 0 4 0 5 6 0
0 0 4 0 5 6 0

 F1 ↔ F4 
 F3 → F3 − F1
0 1 −1 1 7 0 8
0 1 −1 1 7 0 8
0 1 1 9 2 0 1
0 0 0 1 2 0 3
0 1
0 0

0 0
0 0

1
4
−2
0
9
0
−8
1

2 0 1
5 6 0

5 0 7
2 0 3
0 1 1
0 0 4

0 0 0
0 0 0
9
0
−8
1


1
F3 → F3 + F2
2

0 1 1 9
0 0 4 0

 0 0 0 -8
0 0 0 0
2
5
15
2
47
16
0
6
3
3
8
1
0 

7 
31
8
2
5
15
2
2

0 1
6 0

3 7
0 3
1
F4 → F4 + F3
8
36
Álgebra lineal
que es una matriz escalonada distinta de la obtenida anteriormente. Se observa que las dos matrices
escalonadas obtenidas a partir de la misma matriz A tienen el mismo número de filas no nulas, el mismo
número r de la definición de matriz escalonada: 4.
Matrices escalonadas reducidas
Una matriz de tamaño m × n es

0 ··· 0 1 ? ···
 0 ··· 0 0 0 ···

 0 ··· 0 0 0 ···

 . .
 ..
. . ... ... ... . . .

 0 ··· 0 0 0 ···


 0 ··· 0 0 0 ···
 . .
 .
. . ... ... ... . . .
.
0 ··· 0 0 0 ···
una matriz escalonada reducida si es de la forma siguiente:
?
0
0
..
.
0
1
0
..
.
?
?
0
..
.
···
···
···
..
.
?
?
0
..
.
0
0
1
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
0
0
0
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
0
0
..
.
0
0
0
..
.
0
0
0
..
.
0
···
···
..
.
···
0
0
..
.
0
0
0
..
.
0
0
0
..
.
0
···
···
..
.
···
0
0
..
.
0
···
···
..
.
···
0
0
..
.
0
1
0
..
.
0
?
0
..
.
0
···
···
..
.
···
?
0
..
.
0














esto es,
(i) es una matriz escalonada en la que
(ii) los pivotes son todos iguales a 1 y
(iii) los elementos restantes de las columnas en las que están los pivotes son cero.
Con otras palabras: una matriz de tamaño m × n es una matriz escalonada reducida
matriz escalonada en la que los pivotes a1j1 , a2j2 , . . . , arjr son todos iguales a 1 y además
si es una
(1) aij1 = 0 para cada i = 2, . . . , m (los elementos de la columna j1 -ésima son todos nulos salvo
el pivote a1j1 de esa columna, que es uno),
(2) aij2 = 0 para todo i = 1, 3, . . . , m , (los elementos de la columna j2 -ésima son todos nulos
salvo el pivote a2j2 de esa columna, que es uno),
...
(r) aijr = 0 para todo i = 1, . . . , r − 1, r + 1, . . . , m (los elementos de la columna jr -ésima son
todos nulos salvo el pivote arjr de esa columna, que es uno).
Por ejemplo, la matriz identidad In es

0
0

0
0
una matriz escalonada reducida. La matriz

1 2 0 0 3 4
0 0 1 0 5 6

0 0 0 1 7 8
0 0 0 0 0 0
también es una matriz escalonada reducida. Las matrices escalonadas reducidas de tamaño 2 × 3 son de
una de las formas siguientes:
0 0 0
1 a b
0 1 a
0 0 1
1 0 a
1 a 0
0 1 0
,
,
,
,
,
y
,
0 0 0
0 0 0
0 0 0
0 0 0
0 1 b
0 0 1
0 0 1
donde a y b son elementos cualesquiera de K .
Las matrices escalonadas siguientes no son reducidas (¿por qué?):




0 1 0 1
1 −2 0 −3
0 0 1 0
 0 0 −1 0  .
y
0 0 0 1
0 0
0
0
Teorema. Por medio de operaciones elementales en las filas, cada matriz se puede transformar en una
matriz escalonada reducida.
Demostración. Sea A una matriz de tamaño m × n . Por medio de operaciones elementales en las filas
la matriz A se transforma en una matriz escalonada B . Multiplicando cada fila no nula de B por el
inverso del pivote de esa fila se obtiene una matriz escalonada C en la que cada pivote es igual a 1.
37
Matrices y sistemas de ecuaciones lineales
Por medio de operaciones elementales de tipo (III) se consigue anular cada uno de los elementos de las
columnas en las que están los pivotes, salvo los propios pivotes, que son iguales a 1, y queda una matriz
D que es escalonada reducida.
Observemos que para transformar una matriz en una matriz escalonada reducida entran en juego las
operaciones elementales de los tres tipos.
Ejemplo. Transformamos la matriz A del ejemplo anterior en una matriz escalonada reducida. Partimos
de la primera matriz escalonada obtenida y aplicamos el método explicado en la demostración anterior:




0 1 −1 1
7
0
8
0 1 −1 1
7
0
8
5
3
1
0 
5
6
0 
0 0 1 0
0 0 4 0
4
2
 F2 → F2 


0 0 0 1
2
0
3
0 0 0 1
2
0
3
4
47
47
0 0 0 0 − 2 −3 −31
0 0 0 0 − 2 −3 −31


0 1 −1 1 7 0
8
2
0 
 0 0 1 0 54 32
F4 → − F4 

0 0 0 1 2 0
3
47
62
6
0 0 0 0 1 47
47
y ya tenemos los cuatro pivotes iguales a 1 . Ahora se trata de hacer iguales a cero todos los elementos
de las columnas en las que están los pivotes, salvo los propios pivotes:




0 1 −1 1 7
0
8
0 1 −1 1 7 0
8
3
5
0 
0 0 1 0 4
0 
2
 0 0 1 0 54 32
 F2 → F2 − 5 F4

 F3 → F3 − 2F4 
12
17 

0 0 0 1 0 − 47 47
0 0 0 1 2 0
3
4
62
6
6
62
0 0 0 0 1 47
0 0 0 0 1
47
47
−1
1
0
1
0
0
0
0
1
63
47
− 12
47
6
47
1
−1
0
0
− 30
47
− 75
47
1
0
0
0
0
1 0
0 1
63
47
− 12
47
6
47

− 155
94 
17 

47
0

0
1 7
0 0
0 0


0 0
0 0
0
8

− 155
94 

17 
1 −1
1
0
42
− 47
− 58
47
0


0
0
1
0
0
0
0
1
0

− 155
94 
17 

47
0
0
0
0
1
63
47
− 12
47
6
47
0
1
0

0 1
0 0

0 0

F1 → F1 −7F4
47
62
47
47
0


F1 → F1 + F2
62
47
0

F1 → F1 −F3
62
47
33
47
63
47
− 12
47
6
47
0
0 0 1 0 0


0 0 0 1 0
0 0 0 0 1
− 305
94


− 155
94 
17 

47
62
47
que es una matriz escalonada reducida.
Matrices elementales
Se llama matriz elemental de orden n a cada matriz de orden n que resulta al aplicar a la matriz
identidad In de orden n una operación elemental en las filas.
Ejemplos. Cada una de las matrices siguientes es elemental (¿cuál es la operación elemental aplicada en
cada ejemplo?):

 1 0 0 0 1 0 0 0 1 0 0 0
0 1 0
1 0
0 1
1 0
0 0 0 1 0 1 0 0 0 1 5 0
,
,
, 1 0 0, 
, 
, 
.
4 1
1 0
0 7
0 0 1 0
0 0 2 0
0 0 1 0
0 0 1
0 1 0 0
0 0 0 1
0 0 0 1
Las matrices elementales de orden 2 tienen una de las formas siguientes:
1 a
1 0
0 1
c 0
,
,
,
y
0 1
a 1
1 0
0 1
1
0
donde a y c son elementos cualesquiera de K con c 6= 0 .
Utilizaremos la siguiente notación para las matrices elementales de orden n :
0
c
,
38
Álgebra lineal
Fijn
es la matriz que se obtiene intercambiando las filas i -ésima y j -ésima de In :

1

..





n
Fij = 




.
···
..
.
···
0
..
.
1










1
..
.
0
..
.
1
los elementos de la diagonal principal que no están mostrados son iguales a 1 y el resto de
los elementos de la matriz que no están indicados son iguales a cero. Los dos unos fuera de la
diagonal principal están en las posiciones (i, j) y (j, i) ;
Fin (λ)
es la matriz que se obtiene al multiplicar la fila i -ésima de In por el escalar no nulo λ :






Fin (λ) = 





1
..
.










1
λ
1
..
.
1
los elementos de la diagonal principal que no se muestran son iguales a 1 , el único λ de la
diagonal principal está en el lugar (i, i) , y todos los elementos que no están en la diagonal
principal son iguales a cero, y
Fijn (λ)
es la matriz que se obtiene sumando a la fila i -ésima
el escalar λ :

1
..

.


1 ···


..
n
Fij (λ) = 
.




de In la fila j -ésima multiplicada por











λ
..
.
1
..
.
1
los elementos de la diagonal principal que no se muestran son iguales a 1 y todos los que están
fuera de la diagonal principal salvo el que se muestra en el lugar (i, j) , que es λ , son iguales
a cero.
2
2
3
4
Con esta notación, las matrices elementales del ejemplo son F21
(4), F12
, F22 (7), F12
, F24
, F34 (2) y
respectivamente.
4
F23
(5),
Podemos expresar las matrices elementales de orden n en términos de matrices ‘más sencillas’ de
orden n :
Para cada i, j = 1, . . . , n sea Enij la matriz de orden n que tiene todos sus elementos iguales a cero
salvo el elemento de la fila i -ésima y columna j -ésima que es igual a 1 :
0
 ...

0

 ..
.

0
.
.
.
0

···
..
.
···
..
.
0
..
.
···
..
.
···
0
..
.
0
..
.
0
···
..
.
···
..
.
···
..
.
···
0
..
.
1
..
.
0
..
.
0
···
..
.
···
..
.
···
..
.
···

0
.. 
.
0

.. 
.
.

0
.. 

.
0
39
Matrices y sistemas de ecuaciones lineales
Entonces
Fijn = In − Enii − Enjj + Enij + Enji ,
Fin (λ) = In − Enii + λEnii ,
Fijn (λ) = In + λEnij .
2
En el ejemplo anterior, F21
(4) = I2 + 4E221 .
Proposición. Las matrices elementales son invertibles, sus inversas son también matrices elementales y
son
(Fijn )−1 = Fijn
(Fin (λ))−1 = Fin (λ−1 )
(Fijn (λ))−1 = Fijn (−λ).
Demostración. La demostración consiste en comprobar que efectivamente ası́ es: para el primer tipo de
matrices elementales, se trata de comprobar que
 


1
1
..
..
 


.
.
 






0 ··· 1
0 ··· 1
 


.
.
.
.




.. . . . ..
.. . . . ..
Fijn · Fijn = 
·
 = In .
 


 


1
·
·
·
0
1
·
·
·
0




..
..




.
.
1
1
Para las matrices elementales del segundo tipo,

1
..

.


1


λ
Fin (λ) · Fin (λ−1 ) = 

1


..

.
 

1
 
 
 
 
 
·
 
 
 
 
..
.





 = In .




1
λ−1
1
..
.
1
1
También Fin (λ−1 ) · Fin (λ) = In porque las matrices son diagonales y conmutan.
Para las matrices elementales del tercer tipo,

1
..

.


1 ··· λ

.

..
n
n
Fij (λ) · Fij (−λ) = 
. ..


1

..

.
 1
 
 
 
 
 
·
 
 
 
 
1

..
.
1
···
..
.





 = In .




−λ
..
.
1
..
.
1
Y también Fijn (−λ) · Fijn (λ) = In .
Dos consecuencias de esta proposición:
• Las matrices elementales pertenecen al grupo lineal general GL( n, K ) de orden n sobre K , y
• las matrices inversas de las matrices elementales son matrices elementales del mismo tipo.
El resultado de realizar una operación elemental en las filas de una matriz dada es el mismo que
el resultado de multiplicar una cierta matriz elemental por la matriz dada, y, en concreto, esta matriz
elemental es la que resulta de aplicar a la matriz identidad esa misma operación elemental en las filas:
40
Álgebra lineal
Teorema. Sea A una matriz de Mm×n (K) . Se tiene:
(i) La matriz que resulta de intercambiar las filas i -ésima y j -ésima de la matriz A es la misma
que la matriz producto Fijm · A ;
(ii) la matriz que resulta de multiplicar la fila i -ésima de la matriz A por un escalar λ 6= 0 de K
es la misma que la matriz producto Fim (λ) · A , y
(iii) la matriz que resulta de sumar a la fila i -ésima de la matriz A la fila j -ésima multiplicada
por un escalar λ de K es la misma que la matriz producto Fijm (λ) · A .
Demostración. Sea A = (aij )m×n . (i) El producto Fijm · A



a11 · · · a1j · · ·
1

.
..
..
..
..

  ..
.
.
.
.

 

  ai1 · · · aij · · ·
0
·
·
·
1

 
.. . .
.
  ..

..
..
..

· .
. ..
.
.
.
.

 

  aj1 · · · ajj · · ·
1
·
·
·
0

 
..

  .
..
..
..
.
 ..
.
.
.
1
a
··· a
···
m1
mj
es
 
a1n
..  

. 
 

ain 
 
..  = 

. 
 

ajn  


.. 


.
a11
..
.
amn
am1
aj1
..
.
ai1
..
.
···
..
.
···
..
.
a1j
..
.
···
..
.
···
aii
..
.
ajj
..
.
amj
···
..
.
···
..
.
···
..
.
···

a1n
.. 
. 

ajn 

.. 
. 

ain 

.. 
. 
amn
matriz que resulta al intercambiar en la matriz A las filas i -ésima y j -ésima. esto es, A Fi ↔ Fj .
(ii) El producto Fim (λ) · A es


1

..


.
 

 

1
 

 

λ
·

 

1
 



..


.
1
a1j
..
.
ai1
..
.
···
..
.
···
..
.
aij
..
.
···
..
.
···
..
.
am1
···
amj
···
a11
..
.
 
a1n
a11
..   ..

. 
  .

ain  = 
 λai1
 .
.. 

 ..
.
am1
amn
···
..
.
···
..
.
λaij
..
.
···
..
.
···
..
.
···
amj
···
a1j
..
.

a1n
.. 
. 

λain 

.. 
. 
amn
matriz que resulta al multiplicar la fila i -ésima de la matriz A por el escalar λ 6= 0 , esto es, A Fi → λFi .
(iii) El producto Fijm (λ) · A es











1
..
.
1
···
..
.
λ
..
.
1
..
.

a11
 ..
  .
 
  ai1
 
  ..
· .
 
  aj1
 
  .
 ..
1
am1

···
..
.
···
..
.
a1j
..
.
···
..
.
···
ajj
..
.
aij
..
.
amj
···
..
.
···
..
.
···
..
.
···
 
a1n
a11
..  
..

. 
.
 
 ai1 + λaj1
ain 
 
..  = 
..

. 
.
 

ajn 
a
j1
 

.. 
..


.
.
amn
am1
···
..
.
···
..
.
···
..
.
···
a1j
..
.
aij + λajj
..
.
ajj
..
.
amj
···
..
.
···
..
.
···
..
.
···
a1n
..
.




ain + λajn 


..

.


ajn


..

.
amn
matriz que resulta al sumar a la fila i -ésima de la matriz A la fila j -ésima multiplicada por el escalar
λ , esto es, A Fi → Fi + λFj .
Corolario. Para cada matriz A hay un número finito E1 , E2 , . . . , Ek de matrices elementales tal que
la matriz E1 · E2 · · · Ek · A es una matriz escalonada.
Para cada matriz A hay un número finito E1 , E2 , . . . , Eh de matrices elementales tal que la matriz
E1 · E2 · · · Eh · A es una matriz escalonada reducida.
Demostración. Sólo hay que tener en cuenta que cada matriz se puede transformar en una matriz escalonada por medio de un número finito de operaciones elementales en las filas, y que cada operación elemental
equivale a multiplicar una matriz elemental por la matriz sobre la que se realiza la operación elemental.
Ası́ como de una matriz se puede llegar, por medio de operaciones elementales en las filas, a varias
matrices escalonadas distintas, se demuestra que a partir de una matriz se llega, por medio de operaciones
elementales en las filas, a una matriz escalonada reducida, y solamente a una:
41
Matrices y sistemas de ecuaciones lineales
Teorema. Para cada matriz A de Mm×n (K) hay una matriz escalonada reducida, y sólo una, B , tal
que B resulta de aplicar a A un número finito de operaciones elementales en las filas.
No demostraremos este teorema, porque no lo vamos a utilizar directamente y porque la demostración
es un poco larga. *
Sistemas de ecuaciones lineales
Sea K un cuerpo. Sean X1 , . . . , Xn n indeterminadas o incógnitas. Una ecuación lineal en las indeterminadas X1 , . . . , Xn con coeficientes en K es una igualdad de la forma
a1 X1 + a2 X2 + · · · + an Xn = b
(∗)
donde a1 , a2 , . . . , an y b son elementos de K . Si b = 0 , la ecuación lineal
a1 X1 + a2 X2 + · · · + an Xn = 0
(∗)0
se dice que es homogénea y es la ecuación lineal homogénea asociada a la ecuación (∗) .
Una solución de la ecuación lineal (∗) es una n -upla (x1 , . . . , xn ) de elementos de K tal que
a1 x1 + a2 x2 + · · · + an xn = b.
Un sistema de ecuaciones lineales en las incógnitas X1 , . . . , Xn es un sistema de la forma

a11 X1 + a12 X2 + · · · + a1n Xn = b1




 a21 X1 + a22 X2 + · · · + a2n Xn = b2
(∗∗)
..


.



am1 X1 + am2 X2 + · · · +amn Xn = bm
formado por m > 1 ecuaciones lineales en las indeterminadas X1 , . . . , Xn . Una solución del sistema
(∗∗) es una n -upla (x1 , . . . , xn ) ∈ Kn que es solución de cada una de las m ecuaciones lineales del
sistema (∗∗) .
Un sistema homogéneo de ecuaciones lineales en las incógnitas X1 , . . . , Xn es un sistema de ecuaciones lineales homogéneas en las mismas incógnitas. Cada sistema de ecuaciones lineales tiene asociado un
sistema homogéneo: el sistema formado por las ecuaciones lineales homogéneas asociadas a las ecuaciones
del sistema. El sistema homogéneo (∗∗)0 asociado al sistema (∗∗) anterior es el sistema

a X + a12 X2 + · · · + a1n Xn = 0

 11 1


 a21 X1 + a22 X2 + · · · + a2n Xn = 0
(∗∗)0
..


.



am1 X1 + am2 X2 + · · · +amn Xn = 0.
Todo sistema homogéneo tiene al menos una solución: la solución trivial : (0, . . . , 0) .
El sistema (∗∗) también se puede expresar en la forma matricial


 

a11 a12 · · · a1n
X1
b1
 a21 a22 · · · a2n   X2   b2 
 .
 . = . 
..
.. 
..
 ..
.
.   ..   .. 
.
am1 am2 · · · amn
Xn
bm
* Se pueden dar opiniones muy diferentes del interés de este resultado. Por ejemplo:
‘It can be shown that the row [reduced] echelon matrix obtained from a given matrix A by row reduction is unique (. . .).
However this is not a very important point, so we omit the proof.’
Y otra:
‘One of the fundamental theorems of linear algebra states that the row-reduced echelon form of a given m × n matrix is
unique.’
42
Álgebra lineal
aun cuando las Xi son letras, indeterminadas, y no elementos de K . La matriz


a11 a12 · · · a1n
 a21 a22 · · · a2n 
A=
..
.. 
..
 ...
.
.
. 
am1 am2 · · · amn
es la matriz de los coeficientes del sistema (∗∗) : es una matriz

a11 a12 · · · a1n
 a21 a22 · · · a2n
 .
..
..
..
 ..
.
.
.
am1
am2
···
amn
m × n . La matriz de tamaño m × (n + 1)

b1
b2 
.. 
. 
bm
es la matriz ampliada del sistema (∗∗) . A veces se indica por (A b) y también (A | b) . Cada sistema
de m ecuaciones lineales en n incógnitas tiene su matriz ampliada de tamaño m × (n + 1) y para cada
matriz de ese tamaño hay un sistema de m ecuaciones lineales en n incógnitas del que es la matriz
ampliada.
Con estas notaciones, el sistema (∗∗) de ecuaciones lineales también se expresa por
A · X = b.
Indicaremos con Sol(A, b) el conjunto de soluciones del sistema de ecuaciones lineales que tiene como
matriz ampliada la matriz (A | b) :
Sol(A, b) = {(x1 , . . . , xn ) ∈ Kn | (x1 , . . . , xn ) es solución del sistema (∗∗)}.
El sistema (∗∗) es compatible si tiene al menos una solución, o con otras palabras, si el conjunto Sol(A, b)
es distinto del conjunto vacı́o. Si no tiene solución, se dice que es incompatible. En este caso, Sol(A, b) =
∅.
Todo sistema homogéneo de ecuaciones lineales es compatible.
El primer problema que plantea un sistema de ecuaciones lineales es determinar si el sistema es
compatible. En el caso de que tenga solución, el segundo problema consiste en hallar todas las soluciones
del sistema.
El método de eliminación de Gauss
El método de eliminación de Gauss para sistemas de ecuaciones lineales resuelve los dos problemas
anteriores y lo hace de manera eficiente, al menos cuando el número m de ecuaciones y el número n de
incógnitas no son grandes.
El método consiste en la ‘eliminación’ sucesiva de incógnitas por medio de las operaciones elementales
en las ecuaciones del sistema. Las operaciones elementales en las ecuaciones son de tres tipos:
(I) intercambiar dos ecuaciones del sistema;
(II) multiplicar una ecuación del sistema por un escalar no nulo; y
(III) sumar a una ecuación del sistema cualquier múltiplo escalar de otra ecuación del sistema.
Dos sistemas de ecuaciones lineales en las mismas incógnitas son equivalentes si tienen los mismos
conjuntos de soluciones. Como se verá a continuación, al realizar operaciones elementales en las ecuaciones
de un sistema de ecuaciones lineales se obtienen sistemas equivalentes de ecuaciones, ası́ que el objetivo
es obtener un sistema equivalente al sistema de partida para el que sea muy sencillo tanto determinar si
el sistema es compatible como su conjunto de soluciones.
Teorema. El conjunto de soluciones de un sistema de ecuaciones lineales es el mismo que el conjunto
de soluciones de cada sistema de ecuaciones lineales que resulta de aplicar al sistema original un número
finito de operaciones elementales en las ecuaciones.
43
Matrices y sistemas de ecuaciones lineales
Dicho de otra forma, si (A | b) es la matriz ampliada de un sistema de ecuaciones lineales y
(A0 | b0 ) es la matriz ampliada de un sistema de ecuaciones lineales que es el resultado de aplicar
operaciones elementales en las ecuaciones del sistema original, entonces
Sol(A, b) = Sol(A0 , b0 ),
esto es, los dos sistemas son equivalentes.
Demostración. Basta con demostrar que el conjunto de soluciones no cambia al realizar una operación
elemental de cada uno de los tres tipos.
Es claro que el conjunto de soluciones no cambia si se intercambian dos de las ecuaciones del sistema.
Si una de las ecuaciones del sistema se multiplica por un escalar no nulo, sus soluciones son las
mismas que las de la ecuación de partida, y por tanto, tampoco cambia el conjunto de soluciones del
sistema.
Supongamos que a la ecuación i -ésima ai1 X1 + ai2 X2 + · · · + ain Xn = bi le sumamos λaj1 X1 +
λaj2 X2 + · · · + λajn Xn = λbj , que es la ecuación j -ésima multiplicada por el escalar λ . Obtenemos la
ecuación
(ai1 + λaj1 )X1 + (ai2 + λaj2 )X2 + · · · + (ain + λajn )Xn = (bi + λbj ).
Toda solución de las ecuaciones i -ésima y j -ésima lo es también de la ecuación anterior.
Por otra parte, sea (x1 , . . . , xn ) una solución de la ecuación anterior y de la j -ésima. También es
solución de la ecuación que resulta de multiplicar λ por la j -ésima ecuación. Luego
(ai1 + λaj1 )x1 + (ai2 + λaj2 )x2 + · · · + (ain + λajn )xn = (bi + λbj )
λaj1 x1 + λaj2 x2 + · · · + λajn xn = λbj .
Restando la segunda de la primera igualdad, se obtiene
ai1 x1 + ai2 x2 + · · · + ain xn = bi ,
es decir, (x1 , . . . , xn ) también es solución de la i -ésima ecuación.
Ejemplo. Resolvemos el siguiente sistema

X+ Y



 X+ Y
 X − 2Y



4X + Y
+ 3Z − T = 0
+ Z + T= 1
+ Z − T= 1
+ 8Z − T = 0
por el método de eliminación de Gauss. En primer lugar, podemos eliminar la incógnita X en las tres
últimas ecuaciones: restando la primera de la segunda, restando la primera de la tercera y restando de la
cuarta la ecuación que resulta al mutiplicar la primera ecuación por 4 :

X + Y + 3Z − T = 0




− 2Z + 2T = 1
 − 3Y − 2Z
=1



− 3Y − 4Z + 3T = 0
Intercambiamos las ecuaciones segunda y tercera:

X + Y + 3Z − T = 0



 − 3Y − 2Z
=1

− 2Z + 2T = 1



− 3Y − 4Z + 3T = 0
Eliminamos la incógnita Y en la cuarta ecuación restando la segunda de la cuarta:

X + Y + 3Z − T = 0



 − 3Y − 2Z
=1

− 2Z + 2T = 1



− 2Z + 3T = −1
44
Álgebra lineal
Eliminamos la incógnita Z de la cuarta ecuación restando la tercera ecuación de la cuarta:

X + Y + 3Z − T = 0



 − 3Y − 2Z
=1

−
2Z
+
2T
=1



T = −2
Este último sistema es equivalente al sistema original, es decir, los dos sistemas tienen el mismo conjunto
de soluciones. Pero hallar las soluciones del último sistema es muy fácil: de la última ecuación, T = −2 .
Ahora sustituimos este valor de T en la tercera ecuación: −2Z + 2(−2) = 1 , y resulta −2Z = 5 y
Z = − 25 .
Sustituimos los valores de Z y T obtenidos en la segunda ecuación: −3Y − 2(− 52 ) = 1 , de donde
Y = 43 .
Finalmente sustituimos los valores obtenidos de Y, Z y T en la primera ecuación: X + 43 + 3(− 52 ) −
5
(− 2 ) = 0 , de donde X = 11
3 .
Por tanto el sistema dado tiene solución, y sólo tiene una, es un sistema compatible determinado con
4
5
la solución única ( 11
3 , 3 , − 2 , −2) .
Es mucho más cómodo trabajar con la matriz ampliada del sistema que con el propio sistema. Hacer
operaciones elementales en las ecuaciones de un sistema se traduce en hacer las operaciones elementales
correspondientes en las filas de la matriz ampliada:
(I) Intercambiar las ecuaciones i -ésima y j -ésima del sistema corresponde a intercambiar las filas
i -ésima y j -ésima de la matriz ampliada;
(II) multiplicar la i -ésima ecuación del sistema por un escalar no nulo corresponde a multiplicar la
fila i -ésima de la matriz ampliada por el mismo escalar no nulo, y
(III) sumar a la i -ésima ecuación del sistema la ecuación j -ésima multiplicada por un escalar corresponde a sumar a la fila i -ésima de la matriz ampliada la fila j -ésima multiplicada por el mismo
escalar.
Y también se observa que cuando la matriz de los coeficientes tiene forma escalonada es muy fácil
dar las soluciones. Y aún es más fácil si tiene forma escalonada reducida. Ası́ que lo que hacemos es partir
de la matriz ampliada (A | b) del sistema y aplicar operaciones elementales en las filas para llegar a una
matriz (A0 | b0 ) en la que la matriz A0 tiene forma escalonada:


0 · · · 0 a01j1 ? · · · ?
?
? ··· ?
?
? ··· ? ··· ?
?
? ··· ?
b01
0
0
 0 ··· 0
0
0 · · · 0 a2j2 ? · · · ?
?
? ··· ? ··· ?
?
? ··· ?
b2 


0
 0 ··· 0
b03 
0
0
·
·
·
0
0
0
·
·
·
0
a
?
·
·
·
?
·
·
·
?
?
?
·
·
·
?
3j3


 . .
.. 
..
.. . .
..
..
.. . .
..
..
.. . .
.. . .
..
..
.. . .
..
. . ...
 ..
. 
. .
. .
. .
. .
. .
.
.
.
.
.
.
.
.


0
 0 ··· 0
b0r 
0
0 ··· 0
0
0 ··· 0
0
0 · · · 0 · · · 0 arjr ? · · · ?


0
 0 ··· 0
0
0 ··· 0
0
0 ··· 0
0
0 ··· 0 ··· 0
0
0 · · · 0 br+1 


 . .
.. 
..
.. . .
..
..
.. . .
..
..
.. . .
.. . .
..
..
.. . .
..
 ..
. . ...
. 
. .
. .
. .
. .
. .
.
.
.
.
.
.
.
.
0 ··· 0
0
0
···
0
0
0
···
0
0
0
···
0
···
0
0
0
···
0
b0m
Con esta matriz es inmediato saber si el sistema tiene solución:
Teorema. El sistema (∗∗) de matriz ampliada (A | b) es compatible si y sólo si b0r+1 = · · · = b0m = 0 .
Demostración. ⇒ ) Si el sistema es compatible, tiene al menos una solución (x1 , . . . , xn ) , y esta n -upla
también es solución del sistema de matriz ampliada (A0 | b0 ) , porque son sistemas equivalentes. Las
últimas m − r ecuaciones de este sistema son
0X1 + · · · + 0Xn = b0i
para cada i = r + 1, . . . , m
y como (x1 , . . . , xn ) es una solución,
0x1 + · · · + 0xn = b0i
luego b0i = 0 , para cada i = r + 1, . . . , m .
para cada i = r + 1, . . . , m
45
Matrices y sistemas de ecuaciones lineales
⇐ ) Supongamos que b0i = 0 , para cada i = r + 1, . . . , m . Nos quedamos con las r primeras
ecuaciones del sistema, porque las m − r últimas son nulas y no aportan nada al sistema. Dejamos en
cada miembro de la izquierda los términos que tienen las incógnitas Xj1 , . . . , Xjr y pasamos al miembro
de la derecha los restantes, y obtenemos
a01j1 Xj1 + a01j2 Xj2 + · · · + a01jr Xjr = b01 − (a01jr+1 Xjr+1 + · · · + a01jn Xjn )
a02j2 Xj2 + · · · + a02jr Xjr = b02 − (a01jr+1 Xjr+1 + · · · + a02jn Xjn )
..
.
a0rjr Xjr = b0r − (a0rjr+1 Xjr+1 + · · · + a0rjn Xjn ).
Para cualesquiera valores λ1 , . . . , λn−r de K que se den a estas n − r incógnitas Xjr+1 , . . . , Xjn , se
tienen valores determinados xj1 , . . . , xjr de las Xj1 , Xj2 , . . . , Xjr : Si a Xjr+1 le damos el valor λ1 , . . . ,
y a Xjn le damos el valor λn−r , de la última de las ecuaciones anteriores obtenemos
a0rjr Xjr = b0r − (a0rjr+1 λ1 + · · · + a0rjn λn )
de donde
Xjr =
1
(b0 − (a0rjr+1 λ1 + · · · + a0rjn λn )).
a0rjr r
El escalar xjr que resulta se da como valor a Xjr en la penúltima de las ecuaciones anteriores
a0r−1,jr−1 Xjr−1 + a0r−1,jr xjr = b0r−1 − (a0r−1,jr+1 λjr+1 + · · · + a0r−1,jn λjn )
lo que da
Xjr−1 =
1
(br−1 − (a0r−1,jr xjr + a0r−1,jr+1 λjr+1 + · · · + a0r−1,jn λjn )).
a0r−1,jr−1
El escalar xjr−1 que resulta se da como valor a Xjr−2 en la antepenúltima de las ecuaciones anteriores . . . . . . y ası́ se continúa hasta llegar a la primera ecuación y obtener xj1 . Ahora los n escalares
xj1 , . . . , xjr , λjr+1 , . . . , λjn tomados en el orden adecuado forman una n -upla que es una solución del
sistema, y el sistema es compatible.
La demostración que acabamos de dar sugiere una forma de describir el conjunto de soluciones de un
sistema compatible: para cada valor que se dé a las n − r incógnitas ‘libres’ Xjr+1 , . . . , Xjn se obtiene
una solución del sistema y cada solución del sistema lleva un valor asignado a esas n − r incógnitas.
Se dice entonces que esas incógnitas funcionan como parámetros y el conjunto de soluciones Sol(A, b)
del sistema viene descrito como el conjunto imagen de una aplicación Φ : Kn−r −−→ Kn que a cada
(n − r) -upla (λjr+1 , . . . , λjn ) de elementos de K le hace corresponder la n -upla obtenida según el
procedimiento explicado en la demostración anterior y que es una solución del sistema, por tanto un
elemento de Sol(A, b) . La aplicación Φ se dice que es una parametrización del conjunto Sol(A, b) de
soluciones del sistema, es una aplicación inyectiva, su imagen es el conjunto Sol(A, b) y se dice que el
conjunto de las soluciones está parametrizado en función de n − r parámetros.
Podemos seguir aplicando más operaciones elementales: Si en lugar de detenernos una vez que hemos
obtenido la matriz A0 en forma escalonada, continuamos y llegamos a una matriz A00 en forma escalonada
reducida y una matriz ampliada


0 ··· 0 1 ? ··· ? 0 ? ··· ? 0 ? ··· ? ··· ? 0 ? ··· ?
b001
 0 ··· 0 0 0 ··· 0 1 ? ··· ? 0 ? ··· ? ··· ? 0 ? ··· ?
b002 


 0 ··· 0 0 0 ··· 0 0 0 ··· 0 1 ? ··· ? ··· ? 0 ? ··· ?
b003 


 .. . .
.. 
.. .. .. . .
.. .. .. . .
.. .. .. . .
.. . .
.. .. .. . .
..

. . . .
. . . .
. . . .
. .
. . . .
. .
. 
.
.
(A00 | b00 ) = 
 0 ··· 0 0 0 ··· 0 0 0 ··· 0 0 0 ··· 0 ··· 0 1 ? ··· ?
b00r 


 0 · · · 0 0 0 · · · 0 0 0 · · · 0 0 0 · · · 0 · · · 0 0 0 · · · 0 b00r+1 


 . .
.. 
. . ... ... ... . . . ... ... ... . . . ... ... ... . . . ... . . . ... ... ... . . . ...
 ..
. 
00
bm
0 ··· 0 0 0 ··· 0 0 0 ··· 0 0 0 ··· 0 ··· 0 0 0 ··· 0
entonces nos encontramos con que parte del trabajo que hemos hecho antes ya lo tenemos realizado.
Cuando por medio de operaciones elementales en las filas se llega a la matriz escalonada reducida a
partir de la matriz ampliada del sistema, se dice, a veces, que se ha utilizado el método de eliminación de
46
Álgebra lineal
Gauss–Jordan, para distinguirlo del método de eliminación de Gauss, a secas, que sólo llega a una matriz
escalonada, no necesariamente reducida.
Si el sistema tiene solución (lo que equivale a que b00r+1 = · · · = b00m = 0 ), podemos despejar
directamente las r incógnitas Xj1 , . . . , Xjr en función de las n − r restantes Xjr+1 , . . . , Xjn :

Xj1 = b001 − (a001jr+1 Xjr+1 + · · · + a001jn Xjn )






 Xj2 = b002 − (a001jr+1 Xjr+1 + · · · + a002jn Xjn )







..
.
Xjr = b00r − (a00rjr+1 Xjr+1 + · · · + a00rjn Xjn ).
y con esto tenemos prácticamente ya una parametrización del conjunto Sol(A, b) de soluciones en función
de los n − r parámetros λ1 , . . . , λn−r .
Ejemplos. Cuando el número n de incógnitas es pequeño, n = 2, 3, 4, 5, . . . , en lugar de utilizar las letras
X1 , X2 , . . . es más frecuente utilizar las letras X, Y, Z, T, U, . . . .
(1) Para resolver el sistema de ecuaciones lineales

−6X+6Y +2Z − 2T



 −9X+8Y +3Z − 2T

−3X+2Y +Z



−15X+14Y +5Z − 4T
=2
=3
=1
=5
por el método de eliminación de Gauss, formamos la matriz

−6 6 2 −2
 −9 8 3 −2

−3 2 1 0
−15 14 5 −4
ampliada del sistema

2
3

1
5
y aplicamos operaciones elementales

−6
6 2
8 3
 −9

−3
2 1
−15 14 5

2 1 0 1
8 3 −2 3 
 −−→
6 2 −2 2
14 5 −4 5
−3
 0
−−→ 
0
0

en las filas:


−3
−2 2
−2 3 
 −9
 −−→ 
−6
0 1
−15
−4 5


2 1 0 1
−3
2 0 −2 0 
 0
 −−→ 
2 0 −2 0
0
4 0 −4 0
0

2 1 0 1
2 0 −2 0 

0 0 0 0
0 0 0 0
que tiene la matriz de los coeficientes en forma escalonada. Con las notaciones anteriores tenemos r = 2
y b03 = b04 = 0 , luego el sistema es compatible. El sistema
(
−3X+2Y +Z
=1
2Y
− 2T = 0
es un sistema equivalente y su conjunto de soluciones depende de 4 − 2 = 2 parámetros: de la segunda
ecuación tenemos Y = T y entonces de la primera X = − 31 + 31 Z + 23 T , con lo que el conjunto de
soluciones está formado por los (x, y, z, t) de K4 tales que

2
1 1

x = − + λ + µ


3 3
3



y=
µ



z=
λ




t=
µ
47
Matrices y sistemas de ecuaciones lineales
con λ, µ elementos cualesquiera de K . Otra forma de dar una parametrización de este conjunto de
soluciones es por medio de la aplicación Φ : K2 −−→ K4 definida por
1 1
2
(λ, µ) 7−→ − + λ + µ, µ, λ, µ ,
3 3
3
para cada (λ, µ) de K2 . El conjunto de soluciones es
n 1 1
2
− + λ + µ, µ, λ, µ
3 3
3
o
λ, µ ∈ K .
(2) La matriz ampliada del sistema

X+2Y +3Z + 3T



X+2Y
+ 3T

X
+Z + T



X+Y +Z + 2T
=3
=1
=3
=1
es
1
1

1
1
2
2
0
1

Con operaciones elementales en


1 2 3 3 3
1 2 0 3 1
 −−→

1 0 1 1 3
1 1 1 2 1
1
0
−−→ 
0
0

las filas

1 2
0 0

0 −2
0 −1
2
−1
0
0
3
−2
2
−3
3
0
1
1
3
3
−3 0
−2 −2
−2 −1
3
−1
0
0
3
3
1
2

3
1
.
3
1


1
3
−2 
0
 −−→ 
0
0
0
−2


3
1
−2 
0
 −−→ 
4
0
−2
0
2
−1
0
0
2
−1
−2
0
3
−2
2
0
3
−2
−2
−3
3
−1
0
0
3
−1
−2
0

3
−2 
 −−→
0
−2

3
−2 

4
4
y la matriz de los coeficientes de esta última matriz ampliada tiene forma escalonada con r = 3 , pero
b04 = 4 6= 0 y el sistema no tiene solución.
(3) Consideramos ahora el sistema

X − 3Y − Z−10 T



 X + Y +Z

2X
−4 T



X+ Y
+T
=α
=5
=7
=4
que depende de un parámetro α . ¿Para qué valores de α tiene solución el sistema?
La matriz ampliada del sistema es

1
1

2
1
Entonces
−3
1
0
1
−1
1
0
0
−10
0
−4
1


1 −3 −1 −10 α
1 −3
1
1
1
0
5


0 4

 −−→ 
2 0
0
−4 7
0 6
1 1
0
1
4
0 4



1 −3 −1 −10
α
1
2
10 5 − α 
0 4
0
−−→ 
 −−→ 
0 0 −1
1
− α+1
0
2
0 0 −1
1
−1
0


α
5
.
7
4
−1
2
2
1
−3
4
0
0

−10
α
10
5−α 
 −−→
16 7 − 2α
11
4−α
−1
2
−1
0
−10
10
1
0

α
5−α 
.
− α+1
2
α+1
2 −1
48
Álgebra lineal
En este caso r = 3 y para que el sistema tenga solución es necesario y suficiente que b04 =
esto es α = 1 .
Para α = 1 , la matriz anterior queda

1 −3
0 4

0 0
0 0
−1
2
−1
0

−10 1
10
4 

1
−1
0
0
y el conjunto de soluciones del sistema depende de 4 − 3 = 1 parámetro:

X − 3Y − Z = 1 + 10T


4Y + 2Z = 4 − 10T


−Z = −1 − T
y con T como parámetro λ , las soluciones del sistema son los (x, y, z, t) de K4 tales que

7

x = + 2λ



2




1
y = − 3λ
2




z =1+ λ




t=
λ
para cada λ en K .
α+1
2
−1 = 0,
2. Espacios vectoriales
Espacios vectoriales
Sea K un cuerpo. Recordemos que los escalares son los elementos del cuerpo K con el que se trabaja. Como variables sobre los escalares utilizaremos, al menos al principio, las letras griegas minúsculas
λ, µ, ν, ρ, . . . , si es necesario con subı́ndices λ1 , λ2 , . . . o con acentos λ0 , λ00 , . . . .
Un espacio vectorial sobre K , o, como también se dice, un K -espacio vectorial, viene dado por
• un conjunto no vacı́o V , cuyos elementos se llaman vectores;
• una operación binaria + : V × V −→ V en V , la adición de vectores, tal que (V , +) es un
grupo conmutativo, esto es, se cumplen las cuatro propiedades siguientes:
(1) Propiedad asociativa: u + (v + w) = (u + v) + w , para cualesquiera u, v, w ∈ V ;
(2) propiedad conmutativa: u + v = v + u , para cualesquiera u, v ∈ V ;
(3) existencia de elemento neutro o existencia de vector cero: hay un elemento 0 en V tal que
v + 0 = v , para todo v ∈ V , y
(4) existencia de vector opuesto de cada vector: para cada v ∈ V hay un elemento w ∈ V tal
que v + w = 0 ,
y
• una ley de composición externa K × V −→ V , el producto por escalares, que a cada escalar
λ ∈ K y cada vector v ∈ V asocia el vector producto de λ por v , en sı́mbolos, λv , de modo que se
cumplen las cuatro propiedades siguientes:
(5) λ(v + w) = λv + λw
(6) (λ +K µ)v = λv + µv
(7) λ(µv) = (λ ·K µ)v
(8) 1v = v
para cualesquiera v, w ∈ V y λ ∈ K;
para cualesquiera v ∈ V y λ, µ ∈ K;
para cualesquiera v ∈ V y λ, µ ∈ K,
y
para todo v ∈ V .
Si V es un espacio vectorial sobre K , como se ve en la definición que acabamos de dar, como
variables sobre los vectores de V utilizaremos las letras minúsculas en negrita u, v, w, . . . , con subı́ndices
v1 , v2 , . . . o con acentos v 0 , v 00 , . . . si es necesario.
Tres son los datos a especificar para obtener un espacio vectorial sobre K , tal como aparece en la
definición: primero, un conjunto no vacı́o V , el conjunto base, que es el conjunto de los vectores del
espacio vectorial; segundo, una aplicación + como en la definición, que es la operación de adición de
vectores del espacio y, finalmente, la aplicación de K × V en V que es la operación del producto por
escalares. Si se cumplen las ocho propiedades de la definición, se dirá que en el conjunto V se ha definido
una estructura de espacio vectorial sobre K .
Sólo con dar el conjunto base no queda determinado el espacio vectorial: porque sobre un mismo
conjunto no vacı́o es posible que se pueda definir más de una estructura de espacio vectorial, no sólo sobre
cuerpos distintos, sino también sobre el mismo cuerpo.
Salvo que se trabaje con varios espacios vectoriales a la vez y sea necesario distinguir, por ejemplo,
las correspondientes operaciones de adición, escribiremos + en lugar de +V . Esto mismo lo aplicaremos
a las operaciones del cuerpo K .
Los espacios vectoriales reales son los espacios vectoriales sobre el cuerpo R de los números reales.
Un espacio vectorial sobre un cuerpo K es un espacio vectorial complejo si el cuerpo K es el cuerpo de
los números complejos.
Consecuencias inmediatas
De las ocho condiciones de la definición se obtienen varias consecuencias inmediatas que hay que señalar:
I (1) Sólo hay un vector 0 en V tal que v + 0 = v para todo v ∈ V .
50
Álgebra lineal
Supongamos que existen 0, 00 ∈ V tales que v + 0 = v y v + 00 = v para todo v ∈ V , y veamos
que 0 = 00 . De la primera igualdad para v = 00 , tenemos 00 + 0 = 00 = 0 + 00 por la conmutatividad
de la adición de vectores, y de la segunda igualdad con v = 0, 0 + 00 = 0 = 00 + 0 , otra vez por la
conmutatividad. Por tanto, 0 = 00 .
El único vector de V que es vector cero de V se dice que es el vector cero o vector nulo de V , y
se indica por 0 o, si es necesario, por 0V .
I (2) Para cada vector v ∈ V hay un solo vector opuesto w ∈ V tal que v + w = 0 .
Sea v un vector de V y supongamos que w1 y w2 son vectores de V tales que v + w1 = 0 y
v + w2 = 0 . Veamos que w1 = w2 . Se tiene
w1 = 0 + w1
= (v + w2 ) + w1
= v + (w2 + w1 )
= v + (w1 + w2 )
= (v + w1 ) + w2
= 0 + w2
= w2 .
Dado un vector v de V , el único vector opuesto w de v se dice que es el vector opuesto de v , y
se representa por −v .
I (3) Para cualesquiera vectores u, v ∈ V hay un vector w, y sólo uno, tal que u + w = v.
En efecto, si tomamos w = v + (−u) ,
u + w = u + (v + (−u))
= u + ((−u) + v)
= (u + (−u)) + v
=0+v
= v.
La unicidad es inmediata.
El vector w es el vector resta de v y u , v menos u :
w = v − u = v + (−u) .
I (4) Para cualesquiera vectores u, v, w ∈ V , si u + v = u + w , entonces v = w .
Si u + v = u + w , entonces (−u) + u + v = (−u) + u + w , luego (−u + u) + v = (−u + u) + w ,
de donde 0 + v = 0 + w y v = w .
I (5) Para todo λ ∈ K,
λ 0 = 0.
Se tiene
λ0 = λ(0 + 0)
= λ0 + λ0 y entonces
(−λ0) + λ0 = (−λ0) + λ0 + λ0 con lo que
0 = λ0.
I (6) Para todo v ∈ V ,
0 v = 0.
Resulta
0v = (0 + 0)v
= 0v + 0v.
I (7) Para todo λ ∈ K y todo v ∈ V , si λv = 0 entonces λ = 0 o v = 0.
51
Espacios vectoriales
Supongamos λv = 0. Si λ = 0 , hemos acabado. Si λ 6= 0 , entonces existe su inverso λ−1 y se
tiene, por un lado, λ−1 · (λv) = λ−1 0 = 0 y, por otro, (λ−1 · λ)v = 1v = v , luego v = 0 .
I (8) Para todo λ ∈ K y cualesquiera u, v ∈ V , si λ 6= 0 y λu = λv entonces u = v .
Si λu = λv ,
0 = λu − λv
= λu + (−λv)
= λ(u + (−v))
y como λ 6= 0 , por (7), es u + (−v) = 0 , de donde u − v = 0 y u = v .
I (9) Para todo v ∈ V y cualesquiera λ, µ ∈ K , si v 6= 0 y λv = µv entonces λ = µ .
Si λv = µv, λv − µv = 0 , luego λv + (−µv) = (λ + (−µ))v = 0 y como v 6= 0, por (7) es
λ + (−µ) = 0 = λ − µ y λ = µ.
I (10) Para todo λ ∈ K y todo v ∈ V ,
(−λ)v = λ(−v) = −λv.
Por una parte, λv + (−λ)v = (λ + (−λ))v = 0v = 0 , luego (−λ)v es el vector opuesto de λv y
(−λ)v = −λv . Por otra parte, λv + λ(−v) = λ(v + (−v)) = λ0 = 0 y λ(−v) es también el vector
opuesto de λv : λ(−v) = −λv .
Ejemplos. (1) (a) En el plano de la geometrı́a euclidea elemental elegimos un punto O . Consideramos
−→
el conjunto de los vectores OA del plano, esto es, los segmentos orientados con origen o primer extremo
−→
el punto O y con final o segundo extremo un punto A del plano. Cada vector OA del plano tiene (una
vez se ha tomado una unidad de longitud) su longitud, o módulo, que es la longitud del segmento OA ,
su dirección, la recta que pasa por los extremos O y A del vector, y su sentido, el que va del origen O
al extremo final A , una noción bien definida en la geometrı́a euclı́dea elemental.
−→
−−→
−→ −−→
Para vectores OA y OB del conjunto anterior se define su suma OA + OB de la manera siguiente:
−→ −−→
• si los puntos O, A y B no están alineados, entonces el vector suma OA + OB es el vector
−−→
OC , donde C es el cuarto vértice del paralelogramo cuyos otros tres vértices son O, A y B ,
y C es el vértice opuesto a O (regla del paralelogramo), y
−→ −−→
−−→
• si los puntos O, A y B están alineados, el vector suma OA + OB es el vector OC , donde
C es el extremo final del vector de origen B con la misma longitud, la misma dirección y el
−→
mismo sentido que el vector OA .
La suma de vectores del plano de origen O tiene las cuatro propiedades (1)-(4). Para demostrar, por
ejemplo, la propiedad asociativa hay que distinguir casos, según que los extremos de los vectores estén
alineados o no estén alineados, y hay que utilizar algunos resultados muy sencillos de geometrı́a plana
−−→
−→
elemental. El vector nulo 0 es el vector OO de origen y final el punto O , y el vector opuesto −OA de
−−→0
−→
un vector OA es el vector OA , con A0 el punto simétrico del punto A respecto de O en la recta que
pasa por O y A .
También se define la operación de multiplicar un vector del conjunto por un número real: el producto
−→
−→ −−→
del número real λ por el vector OA es el vector λOA = OC donde C es el punto de la recta que pasa
−−→
−→
−−→
por O y A (por tanto OC y OA tienen la misma dirección) tal que la longitud del vector OC es
−→
−→
la del vector OA multiplicada por |λ| y el sentido es el mismo o el opuesto del de OA según λ sea
positivo o negativo.
Se comprueba que con estas operaciones se cumplen las propiedades (5)-(8). También aquı́ hay que
distinguir casos y recordar algunos resultados muy simples de geometrı́a plana. Pero, en cualquier caso,
las demostraciones son sencillas.
Ası́ se tiene el espacio vectorial real de los vectores del plano que tienen como origen el mismo punto
O.
(b) En el espacio de la geometrı́a euclidea elemental elegimos un punto O , como antes en el plano.
−→
El conjunto de los vectores OA del espacio con origen en el punto O , con la suma de vectores y el
producto por números reales definidos de la misma forma que en el caso del plano, es un espacio vectorial
real.
52
Álgebra lineal
(2) (a) El conjunto de los vectores libres del plano de la geometrı́a euclı́dea elemental con las operaciones ‘naturales’ de suma y producto por escalares es un espacio vectorial real. Recordemos que un
vector libre es el conjunto de vectores (no necesariamente con el mismo origen) del plano equivalentes o
−−→
−→
−→
equipolentes a un vector dado OA . Recordemos también que dos vectores OA y O0 A0 del plano son
equivalentes (también se dice equipolentes) si tienen la misma dirección (la recta que pasa por O y A y
la recta que pasa por O0 y A0 son coincidentes o paralelas), la misma longitud y el mismo sentido. Si
−−→
−→
los puntos O, A, O0 y A0 no están alineados, los vectores OA y O0 A0 son equivalentes si y sólo si el
−−→ −→ −−→
cuadrilátero OO0 A0 A es un paralelogramo, o de modo equivalente, si OA0 = OA + OO0 .
(b) El conjunto de los vectores libres del espacio de la geometrı́a euclı́dea elemental con las operaciones
naturales de suma y producto por escalares es un espacio vectorial real.
(3) Los ejemplos más importantes de espacios vectoriales sobre un cuerpo K son los espacios Kn ,
cuyos vectores son las n -uplas ordenadas (x1 , . . . , xn ) de elementos de K :
Kn = {(x1 , . . . , xn ) | x1 , . . . , xn ∈ K}
con la adición definida por
(x1 , . . . , xn ) + (y1 , . . . , yn ) := (x1 + y1 , . . . , xn + yn )
para cualesquiera (x1 , . . . , xn ), (y1 , . . . , yn ) ∈ Kn , y el producto por escalares definido por
λ(x1 , . . . , xn ) := (λx1 , . . . , λxn )
para cada λ ∈ K y cada (x1 , . . . , xn ) ∈ Kn . Es fácil comprobar que se cumplen las ocho condiciones de
la definición de espacio vectorial. Por ejemplo, la propiedad (5):
λ((x1 , . . . , xn ) + (y1 , . . . , yn )) = λ(x1 + y1 , . . . , xn + yn )
= (λ(x1 + y1 ), . . . , λ(xn + yn ))
= (λx1 + λy1 , . . . , λxn + λyn )
= (λx1 , . . . , λxn ) + (λy1 , . . . , λyn )
= λ(x1 , . . . , xn ) + λ(y1 , . . . , yn ),
y la propiedad (7)
λ(µ(x1 , . . . , xn )) = λ(µx1 , . . . , µxn )
= (λµx1 , . . . , λµxn )
= ((λµ)x1 , . . . , (λµ)xn )
= (λµ)(x1 , . . . , xn ).
n
El vector cero o vector nulo 0 de K es la n -upla (0, . . . , 0) que tiene todas sus componentes iguales
a cero. El vector opuesto del vector (x1 , . . . , xn ) es el vector (−x1 , . . . , −xn ) .
Para n = 1 , es K1 = K y cada cuerpo K es un espacio vectorial sobre sı́ mismo.
Para K = R y n > 1 pequeño se tienen los espacios vectoriales reales más usuales, como R2 ,
el espacio vectorial de los pares ordenados de números reales, R3 , el espacio vectorial de las ternas
ordenadas de números reales, y R4 .
Con K = C y n > 1 pequeño, resultan los espacios vectoriales complejos más frecuentes, como C1 ,
que es el propio C , C2 y C3 .
(4) Los conjuntos Cn también admiten una estructura ‘natural’ de espacio vectorial sobre el cuerpo
R de los números reales: La suma es la misma que la suma del espacio vectorial complejo Cn :
(x1 , . . . , xn ) + (y1 , . . . , yn ) := (x1 + y1 , . . . , xn + yn ).
El producto por escalares reales se define por: para cada λ ∈ R y cada (x1 , . . . , xn ) ∈ Cn ,
λ(x1 , . . . , xn ) := (λx1 , . . . , λxn ).
Los productos λxi son los productos usuales del número real λ (que también es complejo) por el número
complejo xi . No hay ninguna dificultad en demostrar que Cn con esas dos operaciones es un espacio
53
Espacios vectoriales
vectorial sobre R : como la adición es la misma que en el espacio vectorial complejo Cn no hay nada que
demostrar. Y las propiedades del producto por escalares también se cumplen, porque se cumplen para
los escalares complejos a + bi , entre los que están los escalares reales a .
En particular, para n = 1 , se tiene, por un lado, C1 = C como espacio vectorial complejo, y también
como espacio vectorial real. Son dos espacios vectoriales distintos.
Salvo que se diga otra cosa, cuando se considera el espacio vectorial Cn se entiende el espacio
vectorial Cn sobre el cuerpo C , los escalares son números complejos.
(5) Para cada m, n > 1 consideramos el conjunto Mm×n (K) de las matrices de tamaño m × n de
elementos de K con la adición de matrices y el producto por escalares definidos en el capı́tulo anterior:
(aij ) + (bij ) := (aij + bij )
λ(aij ) := (λaij )
para cualesquiera matrices (aij ) y (bij ) de Mm×n (K) y cada escalar λ de K . Con las propiedades
de estas operaciones que ya conocemos, se tiene un espacio vectorial sobre K , en el que los vectores son
las matrices de tamaño m × n de elementos de K . El vector cero o nulo de este espacio vectorial es la
matriz cero 0m×n de tamaño m × n .
Tanto el espacio vectorial M1×n (K) de las matrices de tamaño 1 × n ,
( a1
a2
···
an )
llamadas también n -vectores fila, como el espacio vectorial Mm×1 (K) de las matrices de tamaño m×1 ,


a1
 a2 
 . 
 .. 
am
llamadas también m -vectores columna, se identifican de manera natural con el espacio vectorial Kn y
con Km , respectivamente. En particular, el espacio vectorial M1×1 (K) de las matrices de orden 1 se
identifica con el cuerpo K : la matriz (a) con el escalar a .
(6) Sea K[X] el conjunto de los polinomios p(X) = an X n + an−1 X n−1 + · · · + a1 X + a0 en
una indeterminada X con coeficientes a0 , a1 , . . . , an en un cuerpo K . Este conjunto K[X] con las
operaciones naturales de suma de polinomios
(an X n + an−1 X n−1 + · · · + a1 X + a0 ) + (bm X m + bm−1 X m−1 + · · · + b1 X + b0 ) :=
:= an X n + an−1 X n−1 + · · · + (am + bm )X m + · · · + (a1 + b1 )X + (a0 + b0 )
si m 6 n , y producto de elementos de K por polinomios
λ(an X n + an−1 X n−1 + · · · + a1 X + a0 ) := (λan )X n + (λan−1 )X n−1 + · · · + (λa1 )X + λa0
es un espacio vectorial sobre el cuerpo K , en el que los vectores son los polinomios p(X) en una
indeterminada X con coeficientes en K . Las demostraciones de las propiedades de las operaciones son
fáciles, por ejemplo, la propiedad (6):
(λ + µ)(an X n + · · · + a1 X + a0 ) = ((λ + µ)an )X n + · · · + ((λ + µ)a1 )X + (λ + µ)a0
= (λan + µan )X n + · · · + (λa1 + µa1 )X + (λa0 + µa0 )
= ((λan )X n + · · · + (λa1 )X + (λa0 )) + ((µan )X n + · · · + (µa1 )X + (µa0 ))
= λ(an X n + · · · + a1 X + a0 ) + µ(an X n + · · · + a1 X + a0 ).
El vector cero es el polinomio cero 0 , al que a veces no se le asigna grado, otras veces se dice que tiene
grado −∞ , y hay veces en las que se le asigna el grado −1 .
Con K = R tenemos el espacio vectorial real R[X] de los polinomios p(X) en una indeterminada
X con coeficientes en R . Si K = C , tenemos el espacio vectorial complejo C[X] de los polinomios p(X)
en la indeterminada X con coeficientes en C .
54
Álgebra lineal
(7) Sea I un conjunto no vacı́o cualquiera y sea K un cuerpo. Sea V el conjunto de las aplicaciones
de I en K . (La notación de teorı́a de conjuntos para ese conjunto es I K .) La adición se define por:
Para f, g ∈ V , la suma f + g de f y g es la aplicación f + g : I −→ K tal que
(f + g)(x) = f (x) + g(x)
para todo x ∈ I.
La aplicación f + g pertenece a V . El producto por escalares se define por: Si λ ∈ K y f ∈ V , la
aplicación producto λf de λ por f es la aplicación λf : I −→ K tal que
para todo x ∈ I.
(λf )(x) = λf (x)
La aplicación λf pertenece a V . Es una comprobación, un poco larga, que con estas dos operaciones,
V es un espacio vectorial sobre K . Por ejemplo, la propiedad (5): las aplicaciones λ(f + g) y λf + λg
son la misma aplicación porque las dos son aplicaciones de I en K , y en cada elemento x de I toman
el mismo valor:
(λ(f + g))(x) = λ((f + g)(x))
= λ(f (x) + g(x))
= λf (x) + λg(x)
= (λf + λg)(x).
En este espacio vectorial V los vectores son las aplicaciones de I en K . El vector cero 0 de este espacio
vectorial es la aplicación I −−→ K que en todos los elementos de I toma el valor 0 , esto es, la aplicación
constante cero: para cada x ∈ I, x 7→ 0 .
Un caso particular de este ejemplo con I = K = R , es el espacio vectorial real
f : R −−→ R reales de variable real.
R
R de las funciones
(8) Un caso particular importante del espacio anterior es el caso en el que I es el conjunto de los
números naturales N : los vectores del espacio V son las aplicaciones de N en K , es decir, las sucesiones
de elementos de K . Si f ∈ V y f (n) = an para cada n ∈ N , la sucesión f se suele indicar también
por (an )n∈N . La sucesión suma de las sucesiones (an )n∈N y (bn )n∈N es la sucesión
(an )n∈N + (bn )n∈N := (an + bn )n∈N .
El producto del escalar λ por la sucesión (an )n∈N viene definido por
λ(an )n∈N := (λan )n∈N .
Ası́ se tiene el espacio vectorial de las sucesiones de elementos de K . El vector cero aquı́ es la sucesión
que tiene todos sus términos iguales a cero: 0 = (an )n∈N tal que an = 0 para todo n ∈ N .
(9) Sea I un intervalo abierto de la recta real, esto es, I = (a, b) , o I = (−∞, b) , o I = (a, ∞) , o
I = (−∞, ∞) = R , con a, b ∈ R tales que a < b . El conjunto C(I, R) de las funciones reales continuas
definidas en el intervalo abierto I , con las operaciones naturales, a saber: si f, g ∈ C(I, R) la función
f + g : I −→ R está definida por
(f + g)(x) = f (x) + g(x)
para todo x ∈ I,
y si f ∈ C(I, R) y λ ∈ R , entonces la función λf : I −→ R está definida por
(λf )(x) = λf (x)
para todo x ∈ I,
es un espacio vectorial real cuyos vectores son las funciones continuas de I en R . (Es preciso comprobar
primero que las funciones f + g y λf ası́ definidas, son continuas en I .) El vector cero de este espacio
vectorial es la función constante cero de I en R , que es continua en I .
Más ejemplos surgirán del apartado siguiente, en el que veremos que muchos subconjuntos de un
espacio vectorial también son espacios vectoriales.
55
Espacios vectoriales
Subespacios vectoriales
Sea V un espacio vectorial sobre un cuerpo K y sea W un subconjunto no vacı́o de V que tiene las
dos propiedades siguientes:
(i) para cualesquiera w, w0 ∈ W , w + w0 ∈ W , y
(ii) para cada w ∈ W y cada λ ∈ K, λw ∈ W .
La propiedad (i) expresa que el conjunto W es cerrado respecto de la operación suma de vectores de
V : la suma de dos vectores cualesquiera de W también pertenece a W ; y la propiedad (ii) expresa que
W también es cerrado respecto del producto de escalares de K por vectores de V . Tenemos entonces el
conjunto no vacı́o W , la operación de suma de vectores de W y la operación de producto de escalares
por vectores de W . Tiene perfecto sentido preguntar si el conjunto W con esas dos operaciones, que
son las del espacio V pero sólo con elementos de W , es un espacio vectorial sobre K , es decir, si cumple
las ocho condiciones de la definición de espacio vectorial.
Las propiedades asociativa y conmutativa de la suma se cumplen para vectores de W , porque son
vectores de V y esas propiedades se cumplen para vectores de V . Por la misma razón se cumplen las
propiedades (5)–(8) en las que interviene el producto por escalares. Quedan por comprobar la existencia
de vector cero en W y de vector opuesto de cada vector de W . Sea w un vector cualquiera de W : lo
hay porque W no es el conjunto vacı́o. Como W es cerrado respecto del producto por escalares, para
el escalar cero 0 , se tiene que 0w pertenece a W . Este vector 0w no es otro que el vector cero 0 de
V , y pertenece a W y 0 + v = v , para todo v de W . Por la misma propiedad (ii), para cada w de
W , el vector (−1)w = −w tiene que pertenecer a W , es decir, el vector opuesto de cada vector de W
pertenece a W .
Ası́ hemos comprobado que W con las operaciones de suma y producto por escalares del espacio V
pero restringidas a vectores de W es un espacio vectorial sobre K . Los subconjuntos no vacı́os de un
espacio vectorial V que con las operaciones restringidas a sus vectores son ellos mismos espacios vectoriales sobre el mismo cuerpo se llaman subespacios vectoriales del espacio vectorial V . Como acabamos
de demostrar, para que un subconjunto no vacı́o de V sea un subespacio vectorial de V es suficiente
que tenga las propiedades (i) y (ii). También es necesario que cumpla esas dos propiedades, para que la
suma y el producto por escalares sean operaciones como tales.
Estas consideraciones nos permiten definir: Un subconjunto no vacı́o W de un espacio vectorial
V sobre K es un subespacio vectorial (o subespacio, a secas, si no hay confusión) de V si cumple las
propiedades (i) y (ii) enunciadas más arriba.
Las condiciones (i) y (ii) equivalen a la siguiente condición única, que frecuentemente viene mejor
para comprobar que un subconjunto no vacı́o de un espacio vectorial es un subespacio:
(iii) para cualesquiera w, w0 ∈ W y λ, λ0 ∈ K,
λw + λ0 w0 ∈ W .
En efecto, si W cumple (i) y (ii) y w, w0 ∈ W y λ, λ0 ∈ K , entonces λw y λ0 w0 pertenecen a W
por la condición (ii). Y por la condición (i), su suma λw + λ0 w0 también pertenece a W , luego (iii).
Si W cumple (iii) y w, w0 ∈ W , con λ = λ0 = 1 , tenemos por (iii) que λw + λ0 w0 = 1w + 1w0 =
w + w0 pertenece a W y se cumple la condición (i). Y si w ∈ W y λ ∈ K , entonces por (iii) tenemos
que λw + 0w = λw + 0 = λw pertenece a W y se cumple la condición (ii).
Consecuencias inmediatas
I El vector 0 pertenece a todo subespacio vectorial de V .
Como W es no vacı́o, tiene al menos un elemento w , y por la condición (ii) para λ = 0,
0w = 0 tiene que pertenecer a W .
λw =
I El vector opuesto de cada vector del subespacio W también pertenece a W .
Para w ∈ W , por la condición (ii) para λ = −1 se tiene (−1)w = −(1w) = −w pertenece a W .
I Para cada n > 1 , para cualesquiera vectores v1 , . . . , vn de W y cualesquiera escalares
λ1 , . . . , λn de K se tiene que el vector λ1 v1 + · · · + λn vn también pertenece a W .
La demostración se hace por inducción en el número n > 1 de vectores:
(a) Para n = 1 , es consecuencia de la condición (ii) de la definición de subespacio.
56
Álgebra lineal
(b) Sea n > 1 . Supongamos que se cumple para cualesquiera n vectores y escalares y comprobemos
que se cumple para cualesquiera n + 1 vectores y escalares: si v1 , . . . , vn , vn+1 son n + 1 vectores de
W y λ1 , . . . , λn , λn+1 son escalares,
λ1 v1 + · · · + λn vn + λn+1 vn+1 = (λ1 v1 + · · · + λn vn ) + λn+1 vn+1
y pertenece a W por la condición (i) de la definición, ya que λ1 v1 + · · · + λn vn está en W por la
hipótesis de inducción y λn+1 vn+1 también está, por la condición (ii).
Frecuentemente, para comprobar que un conjunto no vacı́o con una operación binaria y un producto
por escalares es un espacio vectorial sobre el cuerpo de escalares, lo que se hace es demostrar que es un
subespacio de un espacio vectorial en el que está incluı́do. En lugar de tener que comprobar todas las
condiciones de la definición de espacio vectorial, sólo hay que hacerlo con las (i) y (ii) de la definición de
subespacio.
Por poner un ejemplo de lo anterior, el espacio vectorial C(I, R) del ejemplo (9) de más arriba es
un subespacio del espacio I R del ejemplo (7): sólo hay que demostrar que la suma de dos funciones de
C(I, R) pertenece a C(I, R) , es decir, la suma de dos funciones reales continuas en el intervalo I es una
función real continua en I , y que el producto de un número real por una función real continua en I
también es una función real continua en I , dos propiedades básicas de las funciones reales continuas.
Ejemplos. (1) Dos ejemplos inmediatos de subespacio vectorial de un espacio vectorial V son el propio
espacio V , también llamado subespacio impropio, y el subconjunto de V que tiene como único elemento
al vector cero 0 : {0} , también llamado subespacio cero de V . Un subespacio vectorial de V es propio
si es un subconjunto propio de V , esto es, si es distinto de V .
(2) Cada vector v de un espacio vectorial V determina un subespacio vectorial de V , a saber,
el conjunto de los vectores de la forma λv , donde λ recorre K . Este subespacio se dice que es el
subespacio vectorial generado por v , y se indica por L[v ] . Los vectores de la forma λv se llaman
múltiplos escalares del vector v o vectores proporcionales al vector v , ası́ que el subespacio generado
por v tiene como elementos a los vectores que son múltiplos escalares de v . Es muy fácil demostrar que
L[v ] es un subespacio vectorial de V : es no vacı́o, porque v = 1v ∈ L[v ] y cumple la propiedad (iii):
si λv y λ0 v están en L[v ] y µ, µ0 ∈ K , entonces µ(λv) + µ0 (λ0 v) = (µλ + µ0 λ0 )v pertenece a L[v ] .
Y es inmediato demostrar que el subespacio L[0] generado por el vector 0 es el subespacio {0}.
Por ejemplo, en R4 , con v = (1, 2, 0, −1) , se tiene
L[v ] = L[(1, 2, 0, −1) ] = {(λ, 2λ, 0, −λ) | λ ∈ R}.
En Mn (K) , con v = In , la matriz identidad de orden n ,
L[v ] = L[In ] = {λIn | λ ∈ K} = {A ∈ Mn (K) | A es una matriz escalar }.
(3) El conjunto de las soluciones de un sistema homogéneo de m ecuaciones lineales en n incógnitas
X1 , . . . , Xn y con coeficientes en un cuerpo K

a11 X1 +a12 X2 +· · · + a1n Xn = 0




 a21 X1 +a22 X2 +· · · + a2n Xn = 0
..


.



am1 X1 +am2 X2 +· · · + amn Xn = 0
es un subespacio vectorial de Kn , porque es distinto del conjunto vacı́o, ya que el sistema tiene por lo
menos la solución trivial (0, . . . , 0) , la suma (x1 , . . . , xn ) + (y1 , . . . , yn ) de dos soluciones (x1 , . . . , xn ) e
(y1 , . . . , yn ) cualesquiera del sistema también es solución del sistema: para cada i = 1, . . . , m ,
ai1 (x1 + y1 ) + · · · + ain (xn + yn ) = (ai1 x1 + · · · + ain xn ) + (ai1 y1 + · · · + ain yn ) = 0 + 0 = 0
y el producto λ(x1 , . . . , xn ) de un escalar λ cualquiera por cada solución (x1 , . . . , xn ) del sistema
también es una solución: para cada i = 1, . . . , m ,
(ai1 (λx1 ) + · · · + ain (λxn )) = λ(ai1 x1 + · · · + ain xn ) = λ0 = 0.
Por ejemplo,
57
Espacios vectoriales
{(x, y, z) ∈ R3 | 2x + 3y − z = x + y = 0}
y
{(x, y) ∈ C2 | (1 + i)x − 2y = 0}
son subespacios vectoriales de R3 y C2 , respectivamente.
(4) Del capı́tulo anterior con la terminologı́a de éste: El conjunto de las matrices triangulares superiores (respectivamente, inferiores) de orden n de elementos de un cuerpo K es un subespacio vectorial
del espacio Mn (K) : porque la suma de dos matrices triangulares superiores (resp., inferiores) de orden
n de elementos de un cuerpo K , es una matriz triangular superior (resp., inferior), y el producto de
un escalar por una matriz triangular superior (resp., inferior) es una matriz triangular superior (resp.,
inferior).
También el conjunto de las matrices simétricas (resp., antisimétricas) de orden n de elementos de
un cuerpo K es un subespacio vectorial del espacio vectorial Mn (K) : porque la suma de dos matrices
simétricas (resp., antisimétricas) de orden n de elementos de K es una matriz simétrica (resp., antisimétrica), y el producto de un escalar por una matriz simétrica (resp., antisimétrica) es una matriz
simétrica (resp., antisimétrica).
Análogamente, también son subespacios el conjunto de matrices diagonales de Mn (K) , y el conjunto
de matrices escalares del mismo espacio vectorial.
(5) Para cada n > 1 sea
K6n [X] = {p(X) ∈ K[X] | p(X) tiene grado 6 n} ∪ {0}
el conjunto de los polinomios p(X) en la indeterminada X con coeficientes en K y de grado menor o
igual que n , junto con el polinomio cero. Como la suma de dos polinomios de grado 6 n con coeficientes
en K es un polinomio de grado 6 n , y como al multiplicar un polinomio de grado 6 n por un elemento
no nulo de K el polinomio resultante también tiene grado 6 n , el conjunto K6n [X] es un subespacio
vectorial de K[X] .
(6) Sea C 1 (I, R) el conjunto de las funciones reales derivables en un intervalo abierto I y con
derivada continua en I . Es un subespacio del espacio C(I, R) de las funciones reales continuas, porque
la suma de dos funciones reales con derivada continua en I también tiene derivada continua en I , y
el producto de un número real por una función real con derivada continua en I también tiene derivada
continua en I . También es un subespacio del espacio vectorial I R de las funciones reales de dominio I .
Lo mismo pasa con el conjunto C 2 (I, R) de las funciones reales con derivada segunda continua en el
intervalo abierto I , . . . , con el conjunto C n (I, R) de las funciones reales con derivada n -ésima continua
en el intervalo abierto I , . . . , y con el conjunto C ∞ (I, R) de las funciones reales infinitamente derivables
en el intervalo abierto I .
(7) Sea N K el espacio vectorial de las sucesiones (xn )n∈N de elementos de K . Sea a un elemento
de K . Entonces
(xn )n∈N ∈ N K | xn+1 = axn para todo n ∈ N
es un subespacio de N K . Primero, el conjunto no es vacı́o, porque, por ejemplo, la sucesión constante cero
pertenece al conjunto. Si xn+1 = axn e yn+1 = ayn para todo n > 0 , entonces xn+1 +yn+1 = a(xn +yn )
y λxn+1 = aλxn para todo n > 0 , luego la suma de dos sucesiones del conjunto pertenece al conjunto,
y el producto de cada escalar λ por una sucesión del conjunto también está en el conjunto.
Sean a y b elementos de K . Entonces
(xn )n∈N ∈ N K | xn+2 = axn + bxn+1 para todo n ∈ N
es un subespacio de
N
K . La demostración es muy parecida a la anterior.
En general, si a1 , . . . , ak son elementos de K , entonces
(xn )n∈N ∈ N K | xn+k = ak xn + ak−1 xn+1 + · · · + a1 xn+(k−1)
es un subespacio de
N
K.
para todo n ∈ N
58
Álgebra lineal
Intersección y suma de subespacios vectoriales
Sea V un espacio vectorial sobre un cuerpo K . Sean W y U dos subespacios de V . El conjunto
unión de W y U
W ∪ U = {v ∈ V | v ∈ W o v ∈ U }
no es, en general, subespacio de V :
Por ejemplo, en el espacio vectorial K2 , consideramos los subespacios
W = {(x, 0) | x ∈ K} = {(x, y) ∈ K2 | y = 0}
y
U = {(0, y) | y ∈ K} = {(x, y) ∈ K2 | x = 0}.
Los vectores (1, 0) y (0, 1) pertenecen al conjunto unión W ∪ U , pero su suma (1, 0) + (0, 1) = (1, 1)
no pertenece a W ∪ U , con lo que este subconjunto de K2 no cumple la propiedad (i) de la definición
de subespacio vectorial.
Subespacio intersección de subespacios
Sean W1 y W2 subespacios vectoriales de V . Entonces el conjunto intersección
W1 ∩ W2 = {v ∈ V | v ∈ W1 y v ∈ W2 }
de los conjuntos W1 y W2 es también un subespacio vectorial de V :
En primer lugar, el conjunto W1 ∩ W2 es no vacı́o, porque el vector cero 0 pertenece a los dos
subespacios. Sean u, v ∈ W1 ∩ W2 y sean λ, µ ∈ K . Como u, v ∈ W1 y W1 es subespacio vectorial
de V , el vector λu + µv pertenece a W1 . Como u, v ∈ W2 y W2 es subespacio vectorial de V , el
vector λu + µv pertenece a W2 . Luego λu + µv pertenece a W1 ∩ W2 y se cumple la condición (3)
de la definición de subespacio vectorial.
Ejemplos. (a) El subespacio intersección en Mn (K) del subespacio de las matrices triangulares superiores
con el subespacio de las matrices triangulares inferiores es el subespacio de las matrices diagonales.
(b) El subespacio intersección en Mn (K) del subespacio de las matrices simétricas con el subespacio
de matrices antisimétricas es el subespacio cero, porque la única matriz que es simétrica y antisimétrica
es la matriz nula.
(c) El subespacio intersección en R[X] del subespacio de los polinomios reales pares (los polinomios
p(X) de R[X] tales que p(x) = p(−x) para todo x ∈ R , como, por ejemplo, los polinomios X 2 y
X 4 − 2X 2 + 1 ) con el subespacio de los polinomios reales impares (los polinomios p(X) de R[X] tales
que p(x) = −p(−x) para todo x ∈ R , como, por ejemplo, los polinomios X y 2X 3 − 7X ) es el
subespacio cero, porque el único polinomio real que es par e impar es el polinomio cero.
(d) El subespacio intersección de dos subespacios de Kn que son los conjuntos de soluciones de dos
sistemas homogéneos de ecuaciones lineales en n incógnitas es el conjunto de las soluciones del sistema
homogéneo formado por las ecuaciones de los dos sistemas dados.
(e) El subespacio intersección L[w] ∩ L[u] de dos subespacios L[w] y L[u] de V es el conjunto
de vectores v de V que pertenecen a los dos subespacios: por un lado, v = λw , para un λ ∈ K , y
por otro, v = µu , para un µ ∈ K . Luego v = λw = µu . Si w y u son proporcionales, entonces
L[w] ∩ L[u] = L[w] = L[u]. Si w y u no son proporcionales, entonces la igualdad λw = µu sólo se
cumple si son el vector nulo y, por tanto, L[w] ∩ L[u] es el subespacio cero {0} .
No hay ninguna peculiaridad en tomar la intersección de dos subespacios vectoriales: se puede tomar
cualquier número finito de subespacios vectoriales.
Un razonamiento similar al del caso de dos subespacios que hemos hecho más arriba, permite demostrar que si W1 , . . . , Wn son subespacios vectoriales de un espacio vectorial V , entonces el conjunto
intersección
W1 ∩ · · · ∩ Wn = {v ∈ V | v ∈ W1 , . . . , v ∈ Wn }
= {v ∈ V | v ∈ Wi
=
n
\
i=1
Wi
para todo i = 1, . . . , n}
59
Espacios vectoriales
de los conjuntos W1 , . . . , Wn es también un subespacio vectorial de V : se llama subespacio vectorial
intersección de los subespacios W1 , . . . , Wn y se indica por W1 ∩ · · · ∩ Wn .
AúnTmás general: sea W un conjunto no vacı́o de subespacios vectoriales de un espacio vectorial
V . Sea
W el conjunto intersección de W , es decir,
\
W = {v ∈ V | v ∈ W para todo W de W } ,
en palabras, el conjunto de los vectores de V que pertenecen a todos los subespacios del conjunto W .
T
Entonces el conjunto W es un subespacio vectorial de V , llamado subespacio intersección de W .
Si W tiene n subespacios vectoriales, W = {W1 , . . . , Wn }, estamos en el caso finito de más arriba.
Por las propiedades
de la relación de inclusión ⊆ entre los subconjuntos de un conjunto, se tiene
T
que el subespacio
W es el mayor subespacio de V que está incluido en todos los subespacios de W ,
esto es,
T
(1)
W ⊆ W , para cada subespacio W del conjunto W , y
T
(2) si U es un subespacio de V tal que U ⊆ W para todo W de W , entonces U ⊆ W .
Subespacio suma de subespacios
Dados W1 y W2 subespacios vectoriales de V , consideremos el conjunto de los vectores de V que son
de la forma
(un vector de W1 ) + (un vector de W2 )
esto es, de la forma w1 +w2 , donde w1 es un vector de W1 y w2 pertenece a W2 , es decir, el conjunto
{v ∈ V | existen w1 ∈ W1 y w2 ∈ W2 tales que v = w1 + w2 }.
Este conjunto es un subespacio vectorial de V : Es un conjunto no vacı́o, porque el vector cero es
uno de sus elementos, al ser 0 = 0 + 0 .
Si w1 , w10 ∈ W1 y w2 , w20 ∈ W2 ,
(w1 + w2 ) + (w10 + w20 ) = (w1 + w10 ) + (w2 + w20 )
pertenece a W1 + W2 ;
y si λ ∈ K ,
λ(w1 + w2 ) = λw1 + λw2
pertenece a W1 + W2
con lo que resulta ser subespacio vectorial de V : se llama subespacio vectorial suma de los subespacios
vectoriales W1 y W2 , y se indica por W1 + W2 .
Observemos que el conjunto unión W1 ∪ W2 es un subconjunto del subespacio suma W1 + W2 : en
efecto, si w1 ∈ W1 , como w1 = (w1 + 0) y 0 ∈ W2 , se tiene W1 ⊆ W1 + W2 . Análogamente se tiene
W2 ⊆ W1 + W2 . Por consiguiente, W1 ∪ W2 ⊆ W1 + W2 .
Además, todo subespacio de V que incluye a W1 y W2 también incluye al subespacio suma
W1 + W2 , esto es, si U es un subespacio de V tal que W1 ⊆ U y W2 ⊆ U , entonces W1 + W2 ⊆ U :
en efecto, si w ∈ W1 + W2 , entonces w = w1 + w2 para un w1 ∈ W1 y un w2 de W2 . Estos dos
vectores también pertenecen a U , porque todos los vectores de W1 y los de W2 están en U . Y como
U es un subespacio, w = w1 + w2 pertenece a U .
Ası́ se tiene que el subespacio suma W1 + W2 es el menor (en el sentido de la relación de inclusión
⊆ ) subespacio de V que incluye a los subespacios W1 y W2 .
Ejemplos. (a) El subespacio suma en Mn (K) del subespacio de las matrices triangulares superiores y
el subespacio de las matrices triangulares inferiores es el espacio entero Mn (K) , porque toda matriz de
orden n es suma de una matriz triangular superior y una matriz triangular inferior:






a11 a12 · · · a1n
a11 a12 · · · a1n
0
0 ··· 0
0 ··· 0
 a21 a22 · · · a2n 
 0 a22 · · · a2n 
 a21
 .
= 
+ 
..
.. 
..
..
.. 
..
..
. .
..
..
..
 ..




.
.
. .. 
.
.
.
.
.
.
.
an1
an2
···
ann
0
0
···
ann
an1
an2
···
0
60
Álgebra lineal
(b) El subespacio suma en Mn (K) del subespacio de las matrices simétricas y el subespacio de
matrices antisimétricas es otra vez el espacio entero Mn (K) , porque, como ya sabemos, para cada
matriz A de orden n , la matriz 12 (A + At ) es simétrica y la matriz 12 (A − At ) es antisimétrica, y
A =
1
2 (A
+ At ) +
1
2 (A
− At ).
(c) El subespacio suma en R[X] del subespacio de los polinomios reales pares con el subespacio
de los polinomios reales impares es el espacio entero R[X] , porque para cada polinomio real p(X) , el
polinomio 12 (p(X) + p(−X)) es par y el polinomio 12 (p(X) − p(−X)) es impar, y
p(X) =
1
2 (p(X)
+ p(−X)) +
1
2 (p(X)
− p(−X)).
(d) El subespacio suma L[w] + L[u] de dos subespacios L[w] y L[u] de V es el conjunto de
vectores v de V de la forma λw + µu , con λ, µ ∈ K . Si w y u son proporcionales, entonces
L[w] + L[u] = L[w] = L[u].
La definición de suma de dos subespacios vectoriales también se extiende sin dificultad al caso de
n > 1 subespacios vectoriales de un espacio vectorial: si W1 , . . . , Wn son subespacios vectoriales de V ,
se tiene que el conjunto de los vectores v de V que son de la forma
(un vector de W1 ) + (un vector de W2 ) + · · · + (un vector de Wn )
esto es, son suma de n vectores wi con wi ∈ Wi , para cada i = 1, . . . , n , es decir, el conjunto
{v ∈ V | existen w1 ∈ W1 , . . . , wn ∈ Wn tales que v = w1 + · · · + wn }
es un subespacio vectorial de V : se llama subespacio vectorial suma de W1 , . . . , Wn , y se indica por
W1 + · · · + Wn .
Obsérvese que W1 + · · · + Wn + Wn+1 = (W1 + · · · + Wn ) + Wn+1 .
Como para el caso de dos subespacios se demuestra que el subespacio suma W1 + · · · + Wn
• incluye a los subespacios W1 , . . . , Wn , es decir, (W1 ∪ · · · ∪ Wn ) ⊆ W1 + · · · + Wn , y
• es el menor (en el sentido de ⊆ ) subespacio de V que incluye a los subespacios W1 , . . . , Wn ,
esto es, para cada subespacio U de V , si los subespacios W1 , . . . , Wn están incluidos en U , entonces
también el subespacio suma W1 + · · · + Wn está incluido en U .
Ejemplo. Si w1 , . . . , wn son vectores de V , el subespacio suma L[w1 ]+· · ·+L[wn ] de los n subespacios
generados por los n vectores es el conjunto de los vectores de la forma
(un vector de L[w1 ] ) + · · · + (un vector de L[wn ] )
luego de la forma
λ1 w1 + · · · + λn wn
con λ1 , . . . , λn escalares.
Combinaciones lineales de vectores
Sea V un espacio vectorial sobre K y sean v1 , . . . , vn vectores de V . Se dice que un vector v de V
es combinación lineal de los vectores v1 , . . . , vn si existen escalares λ1 , . . . , λn ∈ K tales que
v = λ1 v1 + · · · + λn vn .
Sea L[v1 , . . . , vn ] el conjunto de los vectores de V que son combinación lineal de los vectores
v1 , . . . , vn .
El vector cero 0 siempre es combinación lineal de cualesquiera vectores v1 , . . . , vn de V , porque
0v1 + · · · + 0vn = 0 , luego 0 pertenece a L[v1 , . . . , vn ] . La combinación lineal 0v1 + · · · + 0vn , que es
el vector cero 0 , es la combinación lineal trivial de los vectores v1 , . . . , vn .
Para un solo vector v de V , se tiene que L[v ] es el conjunto de los vectores que son combinación
lineal del solo vector v , esto es, el conjunto {λv | λ ∈ K} de los vectores proporcionales al (o múltiplos
escalares del) vector v , y es el subespacio generado por el vector v . En el caso particular en el que
v = 0 , se tiene que L[0] = {0} .
61
Espacios vectoriales
Si v y w son vectores de V , entonces L[v, w ] es el conjunto de los vectores de la forma λv + µw ,
donde λ, µ ∈ K . Este conjunto coincide con el subespacio suma L[v] + L[w] de los ejemplos del apartado
anterior.
Si v1 , . . . , vn son vectores de V , entonces L[v1 , . . . , vn ] es el conjunto de los vectores de la forma
λ1 v1 + · · · + λn vn , donde λ1 , . . . , λn pertenecen a K . En términos de suma de subespacios, se tiene:
L[v1 , . . . , vn ] = L[v1 ] + · · · + L[vn ].
En efecto, si v es combinación lineal de v1 , . . . , vn , existen escalares λ1 , . . . , λn tales que v =
λ1 v1 + · · · + λn vn . Para cada i = 1, . . . , n el vector λi vi pertenece a L[vi ] , luego la suma λ1 v1 + · · · +
λn vn , que es v , pertenece al subespacio suma L[v1 ] + · · · + L[vn ] .
Si ahora v es un vector de L[v1 ] + · · · + L[vn ] , existen vectores w1 ∈ L[v1 ], . . . , wn ∈ L[vn ]
tales que v = w1 + · · · + wn . Y para cada i = 1, . . . , n , existe λi ∈ K tal que wi = λi vi . Luego
v = w1 + · · · + wn = λ1 v1 + · · · + λn vn , y v es combinación lineal de v1 , . . . , vn .
Ejemplos. (a) En K2 , cada vector (x, y) es combinación lineal de los vectores (1, 0) y (0, 1) porque
(x, y) = (x, 0) + (0, y) = x(1, 0) + y(0, 1).
Por tanto, L[(1, 0), (0, 1)] = K2 .
En K3 , cada vector (x, y, z) es combinación lineal de los vectores (1, 0, 0), (0, 1, 0) y (0, 0, 1) porque
(x, y, z) = (x, 0, 0) + (0, y, 0) + (0, 0, z) = x(1, 0, 0) + y(0, 1, 0) + z(0, 0, 1).
Por tanto, L[(1, 0, 0), (0, 1, 0), (0, 0, 1)] = K3 .
En general, en el espacio vectorial Kn cada vector (x1 , x2 , . . . , xn ) es combinación lineal de los
vectores e1 = (1, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0), . . . , en = (0, 0, . . . , 0, 1) puesto que
(x1 , x2 , . . . , xn ) = (x1 , 0, . . . , 0) + (0, x2 , 0, . . . , 0) + · · · + (0, . . . , 0, xn )
= x1 (1, 0, . . . , 0) + x2 (0, 1, 0, . . . , 0) + · · · + xn (0, . . . , 0, 1)
= x1 e1 + x2 e2 + · · · + xn en .
Por tanto, L[e1 , e2 , . . . , en ] = L[(1, 0, . . . , 0), (0, 1, 0, . . . , 0), . . . , (0, 0, . . . , 0, 1)] = Kn .
(b) En K62 [X] , cada polinomio p(X) es combinación lineal de los monomios X 2 , X y 1 , porque
p(X) = a2 X 2 + a1 X + a0 · 1, con a0 , a1 , a2 ∈ K .
En K63 [X] , cada polinomio p(X) es combinación lineal de los monomios X 3 , X 2 , X y 1 , porque
p(X) = a3 X 3 + a2 X 2 + a1 X + a0 · 1, con a0 , a1 , a2 , a3 ∈ K .
En general, en K6n [X] , cada polinomio p(X) es combinación lineal de los monomios X n , . . . , X, 1
porque p(X) = an X n + · · · + a1 X + a0 · 1 para ciertos elementos an , . . . , a1 , a0 de K .
(c) En el espacio vectorial M2×3 (K) , cada matriz A =
las matrices
porque
a11 a12
a21 a22
1
0
0
0
a13
a23
0
0
0
,
0
= a11
1
0
1
0
0
0
0
0
0
,
0
0
0
0
0
+ a12
1
0
0
0
0
,
1
1
0
+a21
0
0
0
0
a11
a21
0
0
a12
a22
0
,
0
a13
a23
0
1
0
0
es combinación lineal de
0
,
0
0 0 1
+
0 0 0
0
0 0
+ a22
0
0 1
0
0
0
1
0
0
+ a13
0
1
0
0
0
0
+ a23
0
0
0
1
.
62
Álgebra lineal
En general, en el espacio vectorial Mm×n (K) cada matriz es combinación lineal de las m·n matrices
Em×n
, i = 1, . . . , m, j = 1, . . . , n , siendo Em×n
la matriz de tamaño m×n que tiene todos sus elementos
ij
ij
iguales a cero, salvo el que ocupa el lugar (i, j) que es 1 :


0 ··· 0 ··· 0 ··· 0
 ... . . . ... . . . ... . . . ... 


0 ··· 0 ··· 1 ··· 0


. ..
. ..
.
 .. . .
.
. ..
. ..
. ..  .


0 ··· 0 ··· 0 ··· 0
. .

.
. . ... . . . ... . . . ... 
.
0
···
0
···
0
···
0
(d) En el espacio vectorial R3 ,
¿es el vector (1, 0, 1) combinación lineal de los vectores (1, −3, 2), (−2, 1, −1) y (1, 2, −1) ?
Con la definición de combinación lineal, la pregunta anterior se convierte en la pregunta: ¿Existen
λ, µ y ν ∈ R tales que
(1, 0, 1) = λ(1, −3, 2) + µ(−2, 1, −1) + ν(1, 2, −1)
= (λ − 2µ + ν, −3λ + µ + 2ν, 2λ − µ − ν)?
A su vez, la última pregunta se reformula como: ¿Tiene solución el sistema


 λ−2µ+ ν= 1
−3λ+ µ+2ν= 0


2λ− µ− ν= 1
en λ, µ y ν ?
Utilizando, por ejemplo, el método de eliminación de Gauss, se obtiene que el sistema es incompatible,
y por tanto, el vector dado no es combinación lineal de los tres vectores dados.
(e) En el espacio vectorial R62 [X] ,
¿es el polinomio X 2 + X + 1 combinación lineal de los polinomios 2X 2 + 1, X − 1 y X 2 − 1 ?
Con la definición de combinación lineal, ¿existen números reales λ, µ y ν tales que
X 2 + X + 1 = λ(2X 2 + 1) + µ(X − 1) + ν(X 2 − 1)
= (2λ + ν)X 2 + µX + (λ − µ − ν)?
¿Tiene solución el sistema


2λ


+ ν= 1
µ
=1
λ − µ − ν= 1
en λ, µ y ν ?
Se comprueba que (1, 1, −1) es la única solución del sistema y, por tanto,
X 2 + X + 1 = 1(2X 2 + 1) + 1(X − 1) + (−1)(X 2 − 1).
(f) En el espacio vectorial M2 (R) ,
1 −1
2
¿es la matriz
combinación lineal de las matrices
2 0
−1
0
1
,
¿Existen λ, µ y ν ∈ R tales que
1 −1
2 0
3 1
0
=λ
+µ
+ν
2 0
−1 1
−2 0
1
2λ + 3µ
µ+ν
=
?
−λ − 2µ + ν λ + ν
1
1
3
−2
1
0
y
0
1
1
1
?
63
Espacios vectoriales
¿Tiene solución el sistema

2λ + 3µ
=1




µ + ν= −1
−λ − 2µ + ν = 2



λ
+ν =0
en λ, µ y ν ?
Con muy pocas cuentas se obtiene que el sistema es incompatible y, por tanto, la matriz dada no es
combinación lineal de las otras tres matrices.
(g) En el espacio vectorial real C , todo vector, esto es, todo número complejo z , es combinación
lineal de los vectores 1 e i , porque z = a · 1 + b · i , para unos escalares reales a y b .
En el espacio vectorial real C2 , todo vector (x, y) es combinación lineal de los vectores (1, 0), (0, 1), (i, 0)
y (0, i) , porque
(x, y) = a(1, 0) + c(0, 1) + b(i, 0) + d(0, i) = (a + bi, c + di)
para unos escalares reales a, b, c y d .
Recordemos del ejemplo (a), que en el espacio vectorial complejo C2 , todo vector (x, y) es combinación lineal de los vectores (1, 0) y (0, 1) , porque (x, y) = x(1, 0) + y(0, 1) , con x, y escalares de
C.
El problema de si un sistema de ecuaciones lineales es compatible se formula en términos de combinaciones lineales: El sistema de ecuaciones lineales

a X + a12 X2 + · · · + a1n Xn = b1

 11 1


 a21 X1 + a22 X2 + · · · + a2n Xn = b2
..


.



am1 X1 + am2 X2 + · · · +amn Xn = bm
es compatible si y sólo si


a11
 a21 



existen x1 , x2 , . . . , xn ∈ K tales que x1 
 ...  + x2 

am1
si y sólo si en el espacio vectorial Mm×1 (K) de los


b1
 b2 
 .  es combinación lineal de
 .. 
bm


a12
a22 

+ · · · + xn 
.. 


.

a1n
a2n 
=
.. 
. 
am2
amn
m -vectores columna,



 
a12
a11
 a21   a22 

 . , . ,...,

 ..   .. 
am1
am2

b1
 b2 
 . 
 .. 

bm

a1n
a2n 
.. 
. 
amn
m
si y sólo si en el espacio vectorial K ,
(b1 , b2 , . . . , bm ) es combinación lineal de (a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn ) .
Por consiguiente, tiene mucho interés obtener criterios eficientes para decidir si un vector concreto
es combinación lineal de unos vectores dados.
Una propiedad muy sencilla, que se utiliza frecuentemente sin detenerse a mencionarla:
Proposición. Si un vector v es combinación lineal de los vectores v1 , . . . , vn y cada uno de los vectores
vi , i = 1, . . . , n es combinación lineal de los vectores w1 , . . . , wm , entonces v es también combinación
lineal de w1 , . . . , wm .
En sı́mbolos, si v ∈ L[v1 , . . . , vn ] y vi ∈ L[w1 , . . . , wm ] , para cada i = 1, . . . , n , entonces
v ∈ L[w1 , . . . , wm ] .
Demostración. En primer lugar, v = λ1 v1 + · · · + λn vn para unos escalares concretos λ1 , · · · , λn de K .
En segundo lugar, para cada i = 1, . . . , n , hay escalares µi1 , . . . , µim en K , tales que vi = µi1 w1 +
· · · + µim wm . Con todo esto,
v = λ1 v1 + · · · + λn vn
= λ1 (µ11 w1 + · · · + µ1m wm ) + · · · + λn (µn1 w1 + · · · + µnm wm )
= (λ1 µ11 + · · · + λn µn1 )w1 + · · · + (λ1 µ1m + · · · + λn µnm )wm
64
Álgebra lineal
y se tiene v como combinación lineal de w1 , . . . , wm .
Los conjuntos que resultan al coleccionar todos los vectores que son combinación lineal de unos
vectores dados no son subconjuntos cualesquiera del espacio vectorial: son subespacios vectoriales del
espacio, y, por tanto, son, a su vez, espacios vectoriales.
Proposición. Si v1 , . . . , vn son vectores de un espacio vectorial V , entonces el conjunto L[v1 , . . . , vn ]
(1) es un subespacio vectorial de V ,
(2) contiene los vectores v1 , . . . , vn , y
(3) es el menor (en el sentido de la relación de inclusión) subespacio vectorial de V al que
pertenecen los vectores v1 , . . . , vn .
Demostración. (1) Como el vector cero es combinación lineal de los vectores v1 , . . . , vn , sabemos que el
conjunto L[v1 , . . . , vn ] es no vacı́o.
Sean w y w0 vectores de L[v1 , . . . , vn ] y sean µ y ν escalares. Hay escalares λ1 , . . . , λn , λ01 , . . . , λ0n
tales que w = λ1 v1 + · · · + λn vn y w0 = λ01 v1 + · · · + λ0n vn . Entonces
µw + νw0 = µ(λ1 v1 + · · · + λn vn ) + ν(λ01 v1 + · · · + λ0n vn )
= (µλ1 + νλ01 )v1 + · · · + (µλn + νλ0n )vn
y µw + νw0 es combinación lineal de los vectores v1 , . . . , vn . Por tanto, L[v1 , . . . , vn ] es un subespacio
vectorial de V .
(2) Además, los vectores v1 , . . . , vn pertenecen a L[v1 , . . . , vn ] , porque para cada i = 1, . . . , n ,
vi = 0v1 + · · · + 0vi−1 + 1vi + 0vi+1 + · · · + 0vn ,
y vi es combinación lineal de v1 , . . . , vn .
(3) Sea W un subespacio de V al que pertenecen los vectores v1 , . . . , vn . Entonces para
cualesquiera escalares λ1 , . . . , λn se tiene que λ1 v1 , . . . , λn vn pertenecen a W y el vector suma
λ1 v1 + · · · + λn vn también pertenece a W . Esto implica que toda combinación lineal de los vectores
v1 , . . . , vn pertenece a W , y el subespacio L[v1 , . . . , vn ] está incluido en W .
Ası́ los vectores v1 , . . . , vn pertenecen al subespacio vectorial L[v1 , . . . , vn ] y cada subespacio vectorial de V del que sean elementos los vectores v1 , . . . , vn contiene al subespacio L[v1 , . . . , vn ] . Por
lo tanto, el subespacio vectorial L[v1 , . . . , vn ] es el menor (en el sentido de la inclusión ⊆ ) subespacio
vectorial de V al que pertenecen los vectores v1 , . . . , vn .
Un subespacio de V que cumple las condiciones (2) y (3) de la proposición anterior se dice que está
generado por los vectores v1 , . . . , vn . También se dice que {v1 , . . . , vn } es un conjunto de generadores
o conjunto generador del subespacio. La proposición nos dice que el subespacio generado por v1 , . . . , vn
es L[v1 , . . . , vn ] , el subespacio de los vectores que son combinación lineal de v1 , . . . , vn .
Ejemplos. De los ejemplos anteriores se tienen:
(a) El conjunto {(1, 0), (0, 1)} es un conjunto generador de K2 y el conjunto {(1, 0, 0), (0, 1, 0), (0, 0, 1)}
lo es de K3 .
En general {e1 , e2 , . . . , en } es un conjunto de generadores del espacio Kn .
(b) El conjunto {1, X, X 2 , . . . , X n } es un conjunto generador del espacio K6n [X] .
(c) El conjunto {Em×n
| i = 1, . . . , m, j = 1, . . . , n} es un conjunto generador del espacio
ij
Mm×n (K).
Una de las formas más frecuentes de especificar un subespacio vectorial consiste en dar un conjunto
de vectores que generan el subespacio.
Algo más general, no sólo con un conjunto finito {v1 , . . . , vn } de vectores, sino con un conjunto no vacı́o
cualquiera S de vectores:
65
Espacios vectoriales
Sea V un espacio vectorial sobre un cuerpo K y sea S un conjunto no vacı́o (finito o infinito)
de vectores de V . Sea L[S ] el conjunto de los vectores de V que son combinación lineal (finita) de
vectores de S ,
esto es,
un vector v de V pertenece a L[S] si existen vectores v1 , . . . , vk en S y escalares λ1 , . . . , λk en
K tales que v = λ1 v1 + · · · + λk vk :
L[S] = {v ∈ V | existen v1 , . . . , vk ∈ S y λ1 , . . . , λk ∈ K tales que v = λ1 v1 + · · · + λk vk }.
Obsérvese que las combinaciones lineales de vectores son sumas de un número finito de vectores. No
hay aquı́ tal cosa como ‘combinaciones lineales infinitas’.
Los dos primeros resultados son las generalizaciones de los dos primeros resultados demostrados en
el caso de un conjunto finito de vectores. La demostración del primero es muy fácil y no la damos.
Proposición. Si S y T son conjuntos no vacı́os de vectores de un espacio vectorial V y v es un
vector de V tal que v es combinación lineal de los vectores de S , y los vectores de S son combinación
lineal de los vectores de T , entonces v es también combinación lineal de los vectores de T .
En sı́mbolos:
si v ∈ L[S] y S ⊆ L[T ] , entonces v ∈ L[T ] .
Proposición. Para cada subconjunto no vacı́o S de V , el conjunto L[S]
(1) es un subespacio vectorial de V ,
(2) incluye a S , y
(3) es el menor (en el sentido de la relación de inclusión) subespacio vectorial de V que incluye
al conjunto S .
Demostración. (2) S ⊆ L[S] , ya que cada vector de S está en L[S] : w = 1w .
(1) En primer lugar, L[S] es no vacı́o, por (2) y porque S es no vacı́o.
Supongamos que w y w0 son vectores de L[S] y λ y λ0 son escalares de K . Como w ∈ L[S] ,
tenemos que w = λ1 w1 + · · · + λk wk para ciertos vectores w1 , . . . , wk de S y escalares λ1 , . . . , λk . Y
como w0 ∈ L[S] , también w0 = λ01 w10 + · · · + λ0h wh0 para ciertos vectores w10 , . . . , wh0 de S y escalares
λ01 , . . . , λ0k . Entonces
λw + λ0 w0 = λ(λ1 w1 + · · · + λk wk ) + λ0 (λ01 w10 + · · · + λ0h wh0 )
= λλ1 w1 + · · · + λλk wk + λ0 λ01 w10 + · · · + λ0 λ0h wh0
y λw + λ0 w0 pertenece a L[S] , luego L[S] es un subespacio vectorial de V .
(3) Sea W un subespacio vectorial de V que contiene a S y demostremos que también contiene a
L[S] . Sea v un vector de L[S] . Tenemos v = λ1 w1 + · · · + λk wk para ciertos vectores w1 , . . . , wk de
S y escalares λ1 , . . . , λk . Como w1 , . . . , wk pertenecen a S y S ⊆ W , pertenecen también a W y
como W es un subespacio vectorial de V , cada combinación lineal de vectores de W pertenece a W ,
luego la combinación lineal λ1 w1 + · · · + λk wk , que es el vector v , pertenece a W , y L[S] ⊆ W . Dado un conjunto no vacı́o S de vectores de V , se dice que el subespacio vectorial L[S] está
generado por el conjunto S , o que S genera el subespacio vectorial L[S] , o que S un conjunto de
generadores o conjunto generador de L[S] .
Si W es un subespacio vectorial de V , se dice que un conjunto S de vectores de V es un sistema
(o conjunto) de generadores de W si L[S] = W , o, lo que es lo mismo, si cada vector de W es una
combinación lineal de un número finito de vectores de S , o con otras palabras, W es el menor (en el
sentido de la relación de inclusión) subespacio vectorial de V que incluye el conjunto S .
Ejemplo. En el espacio vectorial K[X] de los polinomios en la indeterminada X con coeficientes en K ,
el conjunto S = {1, X, X 2 , X 3 , . . . , X n , . . .} genera el espacio entero, porque cada polinomio de K[X] es
combinación lineal de un número finito de vectores de S . Por tanto, L[S] = K[X].
66
Álgebra lineal
Dependencia lineal e independencia lineal de vectores
Sea V un espacio vectorial sobre un cuerpo K . Frecuentemente, la primera pregunta que se plantea
cuando se tienen k > 2 vectores v1 , . . . , vk de V , es la siguiente:
¿alguno de los vectores v1 , . . . , vk es combinación lineal de los demás?
Con los medios que tenemos en este momento, responder a esa pregunta puede llevar a que tengamos
que comprobar para un buen número de los k vectores dados, si el vector tomado es combinación lineal
de los k − 1 restantes. En el caso de que ninguno de los vectores sea combinación lineal de los demás,
¿tendremos que hacer k comprobaciones, una por cada vector?
Supongamos que el vector vi es combinación lineal de los restantes v1 , . . . , vi−1 , vi+1 , . . . , vk . Entonces
vi = λ1 v1 + · · · + λi−1 vi−1 + λi+1 vi+1 + · · · + λk vk
para unos escalares λ1 , . . . , λi−1 , λi+1 , . . . , λk de K . Pasando vi al segundo miembro,
0 = λ1 v1 + · · · + λi−1 vi−1 + (−1)vi + λi+1 vi+1 + · · · + λk vk
y se tiene el vector nulo 0 como combinación lineal, distinta de la combinación lineal trivial, de los
vectores v1 , . . . , vk , porque el escalar que multiplica a vi es −1 , distinto de cero.
El recı́proco también se cumple: si el vector cero 0 se puede poner como combinación lineal distinta
de la trivial de los vectores v1 , . . . , vk , entonces alguno de estos k vectores es combinación lineal de los
restantes:
Supongamos que hay escalares λ1 , . . . , λk en K tales que λ1 v1 + · · · + λk vk = 0 y al menos uno
de los λ1 , . . . , λk es distinto de cero. Supongamos que es λi 6= 0 . Entonces existe λ−1
= λ1i y como
i
λi vi = −λ1 v1 − . . . − λi−1 vi−1 − λi+1 vi+1 − . . . − λk vk
tenemos
vi = λ−1
i (−λ1 v1 − . . . − λi−1 vi−1 − λi+1 vi+1 − . . . − λk vk )
λ1
λi−1
λi+1
λk
v1 − . . . −
vi−1 −
vi+1 − . . . −
vk
λi
λi
λi
λi
y se tiene el vector vi como combinación lineal de los restantes v1 , . . . , vi−1 , vi+1 , . . . , vk .
=−
Ası́ hemos demostrado
Proposición. Dados k > 2 vectores v1 , . . . , vk de V , los dos enunciados siguientes son equivalentes:
(i) Al menos uno de los vectores v1 , . . . , vk es combinación lineal de los vectores restantes;
(ii) el vector cero 0 se puede poner como combinación lineal, distinta de la combinación lineal trivial,
de los vectores v1 , . . . , vk .
Y la primera pregunta que se hizo más arriba se reformula como
¿es el vector cero 0 expresable como combinación lineal no trivial de los vectores v1 , . . . , vk ?
De este modo, hemos pasado de tener que hacer posiblemente un buen número de comprobaciones
a hacer sólo una:
¿existen escalares λ1 , . . . , λk en K no todos iguales a cero, tales que 0 = λ1 v1 + · · · + λk vk ?
Se dice que los vectores v1 , . . . , vk son linealmente dependientes (o que el conjunto {v1 , . . . , vk } es
linealmente dependiente) si el vector cero 0 se puede obtener como combinación lineal de los vectores
v1 , . . . , vk en una forma distinta de la combinación lineal trivial,
o, lo que es equivalente,
si existen escalares λ1 , . . . , λk en K no todos iguales a cero, tales que λ1 v1 + · · · + λk vk = 0 .
Se dice que los vectores v1 , . . . , vk son linealmente independientes (o que el conjunto {v1 , . . . , vk }
es linealmente independiente) si no son linealmente dependientes,
es decir,
si sólo hay una forma de obtener el vector cero 0 como combinación lineal de los vectores v1 , . . . , vk :
con la combinación lineal trivial,
67
Espacios vectoriales
o, de otra forma,
si no hay escalares λ1 , . . . , λk ∈ K no todos iguales a cero, tales que λ1 v1 + · · · + λk vk = 0 ,
o, aún de otro modo,
si para cualesquiera escalares λ1 , . . . , λk ∈ K , si λ1 v1 +· · ·+λk vk = 0 , entonces λ1 = . . . = λk = 0 .
Un solo vector v de V es linealmente independiente si y sólo si v es distinto del vector cero 0 :
esto es ası́ porque, como ya sabemos, si λv = 0 entonces λ = 0 o v = 0 .
Sean v1 y v2 dos vectores de V . Si son linealmente dependientes, existen escalares λ1 y λ2 en
1
K tales que λ1 v1 + λ2 v2 = 0 y λ1 6= 0 o λ2 6= 0 . Supongamos que λ1 6= 0 . Entonces existe λ−1
1 = λ1
y v1 = − λλ12 v2 y tenemos que v1 es un múltiplo escalar del vector v2 , o, como también decimos, v1 y
v2 son proporcionales.
Supongamos ahora que v1 y v2 son proporcionales, es decir, existe un escalar λ ∈ K tal que
v1 = λv2 . Entonces 1v1 + (−λ)v2 = 0 y tenemos el vector cero 0 como combinación lineal no trivial
de v1 y v2 , luego v1 y v2 son linealmente dependientes. En resumen:
Dos vectores son linealmente dependientes si y sólo si son proporcionales.
Ejemplos. (a) En el espacio vectorial K2 , los vectores (1, 0) y (0, 1) son linealmente independientes,
porque no son proporcionales: no hay ningún λ en K tal que (1, 0) = λ(0, 1) = (0, λ) .
En el espacio vectorial K3 , los vectores (1, 0, 0), (0, 1, 0) y (0, 0, 1) son linealmente independientes,
porque si λ, µ y ν son escalares tales que (0, 0, 0) = λ(1, 0, 0) + µ(0, 1, 0) + ν(0, 0, 1) , entonces
(0, 0, 0) = λ(1, 0, 0) + µ(0, 1, 0) + ν(0, 0, 1)
= (λ, 0, 0) + (0, µ, 0) + (0, 0, ν)
= (λ, µ, ν)
y λ = µ = ν = 0.
En general, en el espacio vectorial Kn , los vectores e1 = (1, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0), . . . , en =
(0, . . . , 0, 1) son linealmente independientes, porque si λ1 , λ2 , . . . , λn son escalares tales que (0, 0, . . . , 0) =
λ1 (1, 0, . . . , 0) + λ2 (0, 1, 0, . . . , 0) + · · · + λn (0, . . . , 0, 1) entonces
(0, 0, . . . , 0) = λ1 (1, 0, . . . , 0) + λ2 (0, 1, 0, . . . , 0) + · · · + λn (0, . . . , 0, 1)
= (λ1 , 0, . . . , 0) + (0, λ2 , 0, . . . , 0) + · · · + (0, . . . , 0, λn )
= (λ1 , λ2 , . . . , λn )
y λ1 = λ2 = · · · = λn = 0.
(b) En el espacio vectorial R4 los vectores (2, −1, 0, 3) y (−4, 2, 0, −6) son linealmente dependientes,
porque son proporcionales: (−4, 2, 0, −6) = (−2)(2, −1, 0, 3) .
En el espacio vectorial complejo C4 los vectores (1 + i, 2i, 0, 2 − i) y (2i, −2 + 2i, 0, 3 + i) son
proporcionales, porque (2i, −2 + 2i, 0, 3 + i) = (1 + i)(1 + i, 2i, 0, 2 − i) , luego linealmente dependientes.
(c) En el espacio vectorial K6n [X] los polinomios X n , . . . , X, 1 son linealmente independientes,
porque si λn , . . . , λ1 , λ0 son escalares tales que 0 = λn X n + · · · + λ1 X + λ0 1 , entonces λn = · · · = λ1 =
λ0 = 0 .
(d) En el espacio vectorial M2 (K) las matrices
1 0
0 1
0
,
,
0 0
0 0
1
0
0
y
0
0
0
1
son linealmente independientes, porque si λ, µ, ν y ρ son escalares tales que
0 0
1 0
0 1
0 0
0
02 =
=λ
+ µ
+ ν
+ ρ
0 0
0 0
0 0
1 0
0
0
1
68
entonces
Álgebra lineal
0
0
0
0
0
0 1
0 0
0
+ µ
+ ν
+ ρ
0
0 0
1 0
0
λ 0
0 µ
0 0
0 0
=
+
+
+
0 0
0 0
ν 0
0 ρ
λ µ
=
ν ρ
=λ
1
0
0
1
y λ = µ = ν = ρ = 0.
(e) Los vectores (1, 3, −4, 2), (2, 2, −4, 0), (1, −3, 2, −4) y (−1, 0, 1, 0) del espacio vectorial R4 , ¿son
linealmente independientes?
Sean λ, µ, ν y ρ números reales tales que (0, 0, 0, 0) = λ(1, 3, −4, 2)+µ(2, 2, −4, 0)+ν(1, −3, 2, −4)+
ρ(−1, 0, 1, 0). Entonces
(0, 0, 0, 0) = λ(1, 3, −4, 2) + µ(2, 2, −4, 0) + ν(1, −3, 2, −4) + ρ(−1, 0, 1, 0)
= (λ, 3λ, −4λ, 2λ) + (2µ, 2µ, −4µ, 0) + (ν, −3ν, 2ν, −4ν) + (−ρ, 0, ρ, 0)
= (λ + 2µ + ν − ρ, 3λ + 2µ − 3ν, −4λ − 4µ + 2ν + ρ, 2λ − 4ν).
Los cuatro vectores dados son linealmente independientes si y sólo si el sistema homogéneo

λ + 2µ + ν − ρ = 0



 3λ +2µ −3ν
=0

−4λ −4µ +2ν +ρ = 0



2λ
−4ν
=0
tiene solamente la solución trivial λ = µ = ν = ρ = 0 .
Si se resuelve el sistema, por ejemplo, por el método de eliminación de Gauss, se obtiene que el
conjunto de soluciones está formado por los (x, y, z, t) de R4 de la forma

λ = 2s






 µ = −3s
2



ν=
s




ρ=0
con s ∈ R . El sistema tiene más soluciones que la solución trivial y los cuatro vectores dados son
linealmente dependientes.
Con s = 2; se obtiene la solución λ = 4, µ = −3, ν = 2 y ρ = 0 , y resulta
(0, 0, 0, 0) = 4(1, 3, −4, 2) + (−3)(2, 2, −4, 0) + 2(1, −3, 2, −4) + 0(−1, 0, 1, 0).
De esta igualdad se deduce que el primer vector (1, 3, −4, 2) es combinación lineal de los restantes,
de hecho, del segundo y del tercero: (1, 3, −4, 2) = 43 (2, 2, −4, 0) − 12 (1, −3, 2, −4) ; el segundo vector
(2, 2, −4, 0) es combinación lineal del primero y del tercero, y el tercer vector es combinación lineal del
primero y del segundo.
(f) En el espacio vectorial complejo C1 = C , los vectores 1 e i son linealmente dependientes,
porque son proporcionales: 1 = (−i) · i y también i = i · 1 .
En el espacio vectorial real C , los vectores 1 e i son linealmente independientes, porque no son
proporcionales: no hay ningún escalar λ en R tal que i = λ · 1 .
El problema de si un sistema homogéneo de ecuaciones lineales tiene sólo la solución trivial
(0, 0, . . . , 0) (es compatible determinado) se formula en términos de dependencia/independencia lineal:
El sistema homogéneo de ecuaciones lineales

a11 X1 + a12 X2 + · · · + a1n Xn = 0




 a21 X1 + a22 X2 + · · · + a2n Xn = 0
..


.



am1 X1 + am2 X2 + · · · +amn Xn = 0
69
Espacios vectoriales
es compatible determinado si y sólo si


a11
 a21 



para cualesquiera x1 , x2 , . . . , xn ∈ K tales que x1 
 ...  + x2 

am1


a12
a22 

+ · · · + xn 
.. 


.
am2
 

a1n
0
a2n 
0

= 
.. 
 ... 
. 
0
amn
se tiene que x1 = x2 = · · · = xn = 0 ,
si y sólo si en el espacio vectorial Mm×1 (K) de los m -vectores columna,




 
a1n
a12
a11
 a2n 
 a21   a22 



 
los m -vectores columna 
 ...  ,  ...  , . . . ,  ...  son linealmente independientes
am1
si y sólo si en el espacio vectorial Km ,
am2
amn
los vectores (a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn ) son linealmente independientes.
Por consiguiente, será interesante disponer de criterios eficientes para saber si un conjunto finito de
vectores es linealmente independiente.
La última proposición con la nueva terminologı́a:
Proposición. Los k > 2 vectores v1 , . . . , vk de V son linealmente dependientes si y sólo si al menos
uno de los vectores v1 , . . . , vk es combinación lineal de los vectores restantes.
Una consecuencia inmediata de esta proposición es que
I el vector cero 0 no puede ser ninguno de los vectores de un conjunto linealmente independiente.
Con otras palabras, cada conjunto de vectores que tiene como elemento al vector nulo 0 es linealmente
dependiente.
I Si v1 , . . . , vn son vectores linealmente independientes, entonces para todo m con 1 6 m 6 n ,
cualesquiera m vectores vi1 , . . . , vim de entre los vectores v1 , . . . , vm son también linealmente independientes:
En efecto, si λ1 , . . . , λm son escalares tales que λ1 vi1 + · · · + λm vim = 0 , entonces también
λ1 vi1 + · · · + λm vim + 0vim+1 + · · · + 0vin = 0,
donde vim+1 , . . . , vin son los n − m vectores restantes. Como los vectores v1 , . . . , vn son linealmente
independientes, tienen que ser λ1 = . . . = λm = 0 y vi1 , . . . , vim son linealmente independientes.
I Y si v1 , . . . , vn son linealmente dependientes, entonces para cualesquiera k > 0 vectores
w1 , . . . , wk , se tiene que v1 , . . . , vn , w1 , . . . , wk son también linealmente dependientes:
En efecto, si λ1 v1 + · · · + λn vn = 0 es una combinación lineal no trivial, también
λ1 v1 + · · · + λn vn + 0w1 + · · · + 0wk = 0
es no trivial y los vectores v1 , . . . , vn , w1 , . . . , wk son linealmente dependientes.
La siguiente proposición se utiliza con frecuencia: podemos seguir añadiendo vectores a un conjunto
linealmente independiente y seguir con conjuntos linealmente independientes, siempre que los vectores
que añadamos no sean combinación lineal de los que ya tenemos.
Proposición. Sean v1 , . . . , vn vectores linealmente independientes de V . Sea v un vector de V que no
es combinación lineal de los vectores v1 , . . . , vn , en sı́mbolos, v ∈
/ L[v1 , . . . , vn ] . Entonces v1 , . . . , vn , v
son también linealmente independientes.
Demostración. Sean λ1 , . . . , λn , λ escalares de K tales que λ1 v1 + · · · + λn vn + λv = 0 . Si λ 6= 0 ,
existe λ−1 = λ1 y como λv = −λ1 v1 − . . . − λn vn tenemos v = − λλ1 v1 − . . . − λλn vn y v es combinación
lineal de v1 , . . . , vn , contra la hipótesis. Luego debe ser λ = 0 . Entonces 0 = λ1 v1 + · · · + λn vn + 0v =
λ1 v1 + · · · + λn vn y como los vectores v1 , . . . , vn son linealmente independientes, λ1 = . . . = λn = 0 .
En total, λ1 = . . . = λn = λ = 0 , que es lo que tenı́amos que demostrar.
70
Álgebra lineal
Más general, no sólo con un conjunto finito {v1 , . . . , vn } , sino con un conjunto no vacı́o cualquiera S
de vectores:
Sea V un espacio vectorial sobre un cuerpo K . Sea S un subconjunto (finito o infinito) no vacı́o
de V . Se dice que el conjunto S es linealmente independiente (o libre) si todo subconjunto finito no
vacı́o de S es linealmente independiente.
Se dice que S es linealmente dependiente si S no es linealmente independiente, es decir, si hay
un subconjunto finito no vacı́o de S que es linealmente dependiente, o, con otras palabras, si existen
v1 , . . . , vn vectores de S tales que v1 , . . . , vn son linealmente dependientes.
Proposición. Sea S un subconjunto con al menos dos vectores, de un espacio vectorial V . Entonces
S es linealmente dependiente si y sólo si al menos un vector de S es combinación lineal (finita) de los
restantes vectores de S , esto es, existe v ∈ S tal que v ∈ L[S r {v}] .
Demostración. ⇒ ) Supongamos que S es linealmente dependiente. Por la definición existen vectores
v1 , . . . , vn en S que son linealmente dependientes, es decir, para unos escalares λ1 , . . . , λn ∈ K no todos
iguales a cero, se tiene λ1 v1 + · · · + λn vn = 0 . Supongamos que λi 6= 0 . Existe λ−1
= λ1i y despejando
i
vi resulta
vi = − λλ1i v1 − · · · −
λi−1
λi vi−1
−
λi+1
λi vi+1
− ··· −
λn
λi vn
y de esta forma el vector vi es combinación lineal de los vectores v1 , . . . , vi−1 , vi+1 , . . . , vn de S y vi
pertenece a L[S r {vi }].
⇐ ) Sea v un vector de S tal que v ∈ L[S r {v}] . Existen vectores v1 , . . . , vk en S r {v} y
escalares µ1 , . . . , µk en K tales que v = µ1 v1 + · · · + µk vk . Entonces µ1 v1 + · · · + µk vk + (−1)v = 0 :
el vector cero 0 como combinación lineal distinta de la trivial de los vectores v1 , . . . , vk , v , que son
vectores de S , luego S es linealmente dependiente.
I El vector cero 0 no puede ser un elemento de un conjunto linealmente independiente.
Como en el caso finito de más arriba,
I todo subconjunto no vacı́o de un conjunto linealmente independiente es linealmente independiente,
en sı́mbolos: si S es linealmente independiente y S 0 ⊆ S con S 0 6= ∅ , entonces S 0 es linealmente
independiente, y
I todo conjunto que tenga un subconjunto no vacı́o linealmente dependiente es también linealmente
dependiente, en sı́mbolos: si S es linealmente dependiente y S ⊆ S 0 , entonces S 0 es linealmente dependiente.
Proposición. Sea S un conjunto no vacı́o linealmente independiente de vectores de V . Sea v un vector
de V que no es combinación lineal (finita) de vectores de S , en sı́mbolos, v ∈
/ L[S] . Entonces S ∪ {v}
también es linealmente independiente.
Demostración. Veamos que todo subconjunto finito no vacı́o de S ∪ {v} es linealmente independiente.
Sea S0 un subconjunto no vacı́o de S ∪ {v} . Si S0 es un subconjunto de S , esto es, si v no pertenece
a S0 , entonces S0 es linealmente independiente, porque S lo es.
Supongamos que v está en S0 y es S0 = {w1 , . . . , wk , v} con w1 , . . . , wk vectores de S . Sean
µ1 , . . . , µk , µ escalares de K tales que µ1 w1 + · · · + µk wk + µv = 0 . Queremos demostrar que µ1 =
. . . = µk = µ = 0 .
Si µ 6= 0 , existe µ−1 = µ1 y v = − µµ1 w1 −· · ·− µµk wk , y tenemos que v pertenece a L[w1 , . . . , wk ] ,
que es un subespacio vectorial contenido en L[S] , luego v ∈ L[S] , y esto va contra la hipótesis. Ası́ que
debe ser µ = 0 y
µ1 w1 + · · · + µk wk + 0v = µ1 w1 + · · · + µk wk = 0,
con {w1 , . . . , wk } subconjunto finito del conjunto linealmente independiente S , luego {w1 , . . . , wk } es
linealmente independiente y µ1 = . . . = µk = µ = 0 , como querı́amos demostrar.
71
Espacios vectoriales
Bases y dimensión
Se dice que un conjunto no vacı́o S de vectores de un espacio vectorial V es un sistema de generadores
o un conjunto generador de V , o que genera V , si todo vector de V es combinación lineal de vectores
de S , es decir, si para cada vector v de V existen vectores v1 , . . . , vn en S y escalares λ1 , . . . , λn en
K tales que v = λ1 v1 + · · · + λn vn , lo que con las notaciones anteriores se expresa por L[S ] = V .
Un conjunto no vacı́o S de vectores de V es una base del espacio vectorial V si
(1) S es un sistema de generadores de V , y
(2) S es linealmente independiente.
Si S es una base de V , también se dice que los vectores de S forman una base de V .
Ejemplos. (a) En el espacio vectorial K2 , el conjunto {(1, 0), (0, 1)} es una base, porque es un conjunto
linealmente independiente y genera K2 .
En el espacio vectorial K3 , el conjunto {(1, 0, 0), (0, 1, 0), (0, 0, 1)} es una base, porque genera K3
y sus tres vectores son linealmente independientes.
En general, en el espacio vectorial Kn , los n vectores
e1 = (1, 0, . . . , 0),
e2 = (0, 1, 0, . . . , 0), . . . , ei = (0, . . . , 0, 1, 0, . . . , 0), . . . , en = (0, . . . , 0, 1)
son n vectores linealmente independientes y generan el espacio vectorial Kn . Por tanto, forman una
base de Kn , que recibe el nombre de base estándar de Kn y que indicaremos por Be , o si es necesario,
por Bne .
Las dos bases anteriores son la base estándar de K2 y la base estándar de K3 .
Señalemos que sólo diremos que tienen base estándar los espacios vectoriales Kn .
(b) Los n + 1 monomios 1, X, X 2 , . . . , X n de K[X] forman una base del espacio vectorial K6n [X]
de los polinomios de grado 6 n con coeficientes en K : son linealmente independientes y todo polinomio
de K6n [X] es combinación lineal de ellos.
(c) Las m · n matrices Em×n
, i = 1, . . . , m, j = 1, . . . , n de Mm×n (K) son linealmente indepenij
dientes y generan el espacio vectorial, por lo que forman una base de Mm×n (K) . Por ejemplo
1 0 0
0 1 0
0 0 1
0 0 0
0 0 0
0 0 0
,
,
,
,
,
0 0 0
0 0 0
0 0 0
1 0 0
0 1 0
0 0 1
es una base de M2×3 (K) .
(d) El conjunto {1, i} es una base del espacio vectorial real C , porque genera el espacio y los dos
vectores son linealmente independientes en ese espacio vectorial.
El conjunto {(1, 0), (0, 1), (i, 0), (0, i)} es una base del espacio vectorial real C2 . Recordemos del
ejemplo (a), que {(1, 0), (0, 1)} es una base del espacio vectorial complejo C2 .
(e) El conjunto infinito {1, X, X 2 , . . . , X n , . . .} es una base del espacio vectorial K[X] : Cada polinomio de K[X] es combinación lineal de un número finito de monomios del conjunto, y cada subconjunto
finito no vacı́o es linealmente independiente.
Una de las razones fundamentales del interés de las bases:
Proposición. Sea S un conjunto no vacı́o de vectores de un espacio vectorial V . Los enunciados
siguientes son equivalentes:
(a) S es una base de V , y
(b) cada vector de V se expresa de una sola forma como combinación lineal de vectores de S .
Demostración. (a) ⇒ (b) Sea S una base de V . Por ser S sistema de generadores de V , cada vector
de V es combinación lineal de vectores de S . Tenemos que demostrar que para cada vector v de V
sólo hay una forma de expresar v como combinación lineal de vectores de S .
Sea v un vector de V que se expresa de dos formas como combinación lineal de vectores de S , es
decir, existen v1 , . . . , vk ∈ S y λ1 , . . . , λk ∈ K tales que v = λ1 v1 + · · · + λk vk y existen u1 , . . . , uh ∈ S
y µ1 , . . . , µh ∈ K tales que v = µ1 u1 + · · · + µh uh . Supongamos que hay exactamente l vectores
72
Álgebra lineal
entre los v1 , . . . , vk que coinciden con l vectores de los u1 , . . . , uh . Sin perder la generalidad, podemos
suponer que son los l primeros vectores, es decir, v1 = u1 , . . . , vl = ul . Entonces
λ1 v1 + · · · + λl vl + λl+1 vl+1 + · · · + λk vk = µ1 v1 + · · · + µl vl + µl+1 ul+1 + · · · + µh uh
y sumando vectores cero si es necesario
λ1 v1 + · · · + λl vl + λl+1 vl+1 + · · · + λk vk + 0ul+1 + · · · + 0uh =
= µ1 v1 + · · · + µl vl + µl+1 ul+1 + · · · + µh uh + 0vl+1 + · · · 0vk .
Entonces
(λ1 − µ1 )v1 + · · · + (λk − µk )vk + (λk+1 − 0)vk+1 + · · · + (λk − 0)vk + (0 − µk+1 )uk+1 + · · · + (0 − µh )uh = 0
y es el vector cero 0 como combinación lineal de los vectores v1 , . . . , vl , vl+1 , . . . , vk , ul+1 , . . . , uh de S ,
que es base de V y, por tanto, linealmente independiente. Luego
λ1 − µ1 = . . . = λl − µl = λl+1 − 0 = . . . = λk − 0 = . . . = 0 − µl+1 = . . . = 0 − µh = 0,
de donde
λ1 = µ1 , . . . , λl = µl ,
λl+1 = . . . = λk = µl+1 = . . . = µh = 0
y queda
v = λ1 v1 + · · · + λl vl + 0vl+1 + · · · + 0vk
= µ1 v1 + · · · + µl vl + 0ul+1 + · · · + 0uh
con λi = µi para cada i = 1, . . . , l , y las dos formas de expresar v como combinación lineal de vectores
de S coinciden.
(b) ⇒ (a) Hay que demostrar que S es un sistema de generadores de V y linealmente independiente. Que S es un sistema de generadores es evidente, porque por la hipótesis todo vector de V es
combinación lineal de vectores de S .
Veamos que cada subconjunto finito no vacı́o {v1 , . . . , vn } de S es linealmente independiente.
Sean λ1 , . . . , λn escalares tales que λ1 v1 + · · · + λn vn = 0 . También tenemos el vector cero como
combinación lineal de v1 , . . . , vn de la manera trivial: 0v1 + · · · + 0vn = 0 , ası́ que 0 está expresado
de dos formas como combinación lineal de vectores de S . Por la hipótesis las dos formas coinciden y por
tanto λ1 = 0, . . . , λn = 0 , que es lo querı́amos demostrar.
Ejemplo. En el espacio vectorial R3 , los tres vectores (1, 1, 0), (1, 0, 1) y (0, 1, 1) forman una base,
porque para cada vector (a, b, c) de R3 , si λ, µ y ν son números reales tales que
(a, b, c) = λ(1, 1, 0) + µ(1, 0, 1) + ν(0, 1, 1)
= (λ, λ, 0) + (µ, 0, µ) + (0, ν, ν)
= (λ + µ, λ + ν, µ + ν)
entonces λ, µ y ν son solución del sistema


λ+µ = a
λ +ν = b


µ+ν = c
y este sistema tiene solución única:
λ = 21 (a + b − c),
µ = 12 (a − b + c),
ν = 21 (−a + b + c),
y cada vector (a, b, c) se expresa de una sola forma como combinación lineal de los tres vectores dados:
(a, b, c) = 21 (a + b − c)(1, 1, 0) + 12 (a − b + c)(1, 0, 1) + 21 (−a + b + c)(0, 1, 1).
Se dice que un espacio vectorial V sobre un cuerpo K es finitamente generado o de tipo finito si V
tiene un sistema de generadores que es un conjunto finito: hay un número finito v1 , . . . , vh de vectores
de V tales que V = L[v1 , . . . , vh ].
Ejemplos. Los espacios vectoriales Kn , K6n [X] y Mm×n (K) , para cualesquiera m, n > 1 , son de
tipo finito: de cada uno de estos espacios se ha dado más arriba un conjunto finito de generadores.
Espacios vectoriales
73
El espacio vectorial {0} no tiene ningún subconjunto no vacı́o linealmente independiente, porque
el único subconjunto no vacı́o que tiene es {0} , que no es linealmente independiente, al ser el vector 0
uno de sus elementos. Por tanto, el espacio vectorial {0} no tiene ninguna base.
Teorema. (Teorema de la base, primera parte) Sea V un espacio vectorial finitamente generado y
distinto de {0} sobre un cuerpo K . Entonces hay un subconjunto finito de V que es base de V .
Se dan a continuación dos demostraciones de este teorema. La primera demostración es “desde
arriba”: se parte de un conjunto finito de generadores del espacio y se van quitando vectores ‘que sobran’,
en el sentido de que son combinación lineal de los vectores que nos van quedando.
La segunda demostración es “desde abajo”: se parte de un vector no nulo de un conjunto generador
finito y se van añadiendo vectores del conjunto que no son combinación lineal de los vectores que ya
hemos añadido.
Primera demostración. Sea S = {v1 , . . . , vn } un subconjunto finito de V que es sistema de generadores
de V .
Si S es linealmente independiente, S es una base de V y hemos terminado.
Si S no es linealmente independiente, es linealmente dependiente y hay un vector vi en S que es
combinación lineal de los restantes : v1 , . . . , vi−1 , vi+1 , . . . , vn . Tenemos L[v1 , . . . , vi−1 , vi+1 , . . . , vn ] =
L[v1 , . . . , vn ] = L[S] = V y el conjunto de n − 1 vectores {v1 , . . . , vi−1 , vi+1 , . . . , vn } = S r {vi } es
sistema de generadores de V .
Si S r {vi } es linealmente independiente, es una base de V , y hemos acabado.
Si no es linealmente independiente, es linealmente dependiente y hay un vector vj en S r {vi } que
es combinación lineal de los restantes S r {vi , vj } . Se tiene L[S r {vi , vj }] = L[S r {vi }] = L[S] = V
y S r {vi , vj } es sistema de generadores de V .
Si S r {vi , vj } es linealmente independiente, es una base de V .
Si no es linealmente independiente, es linealmente dependiente y . . .
Aplicando este proceso un número finito suficiente de veces (que en el peor de los casos serán n − 1
veces: entonces nos quedarı́a un conjunto con un solo vector no nulo porque V 6= {0} ) llegamos a un
subconjunto de S (luego finito) que genera V y es linealmente independiente, es decir, a una base de
V .
Segunda demostración. Sea S un conjunto finito de vectores que generan V . Como V no es el espacio
vectorial {0} , alguno de los vectores de S es distinto del vector nulo 0 : supongamos que v1 6= 0 . El
conjunto {v1 } es linealmente independiente. Tomamos otro vector v de S . Si v es proporcional al
vector v1 , entonces {v1 , v} es linealmente dependiente. Si v no es proporcional a v1 , entonces {v1 , v}
es linealmente independiente. En tanto sea posible, seguimos eligiendo vectores v2 , . . . , vk en S de modo
que {v1 , v2 , . . . , vk } sea linealmente independiente. Al ser S un conjunto finito, se llega a un conjunto
{v1 , v2 , . . . , vk } ⊆ S linealmente independiente tal que al añadir a este conjunto cualquiera de los vectores
restantes de S , el conjunto que resulta ya no es linealmente independiente. Entonces {v1 , v2 , . . . , vk }
es una base de V . Sólo hace falta demostrar que L[v1 , v2 , . . . , vk ] = V . Como L[S] = V , basta con
demostrar que S ⊆ L[v1 , v2 , . . . , vk ]. Sea v un vector de S . Si v no es ninguno de los vectores vi
entonces {v1 , v2 , . . . , vk } ∪ {v} es linealmente dependiente, luego v tiene que ser combinación lineal de
v1 , v2 , . . . , vk .
Una consecuencia de las demostraciones que acabamos de hacer y que conviene sacar a la luz:
Corolario. En cada espacio vectorial V de tipo finito y distinto de {0} sobre un cuerpo K , cada
sistema de generadores de V incluye una base de V .
Ejemplos. (a) El conjunto {(2, 0, −1), (1, −3, 2), (2, −6, 4), (−1, 1, 0), (−3, 1, 0)} genera el espacio vectorial R3 . Con el método explicado en la última demostración, hallamos una base de R3 incluida en ese
conjunto.
Tomamos un vector cualquiera no nulo del conjunto: por ejemplo, el primero: (2, 0, −1) . Este vector
es linealmente independiente porque es no nulo. Los vectores (2, 0, −1) y (1, −3, 2) son linealmente
independientes, porque no son proporcionales. El tercer vector del conjunto, (2, −6, 4) es combinación
lineal de los dos vectores (2, 0, −1) y (1, −3, 2) , es proporcional al segundo: (2, −6, 4) = 2(1, −3, 2) ,
y nos quedamos con los dos primeros. El cuarto vector, (−1, 1, 0) , ¿es combinación lineal de los dos
74
Álgebra lineal
primeros? ¿Existen λ y µ reales tales que (−1, 1, 0) = λ(2, 0, −1) + µ(1, −3, 2) ? Es fácil ver que el
sistema de tres ecuaciones lineales en las incógnitas λ y µ ,


 2λ + µ = −1
− 3µ = 1


−λ + 2µ = 0
no tiene solución, luego (−1, 1, 0) ∈
/ L[(2, 0, −1), (1, −3, 2)] y los tres vectores (2, 0, −1), (1, −3, 2), (−1, 1, 0)
son linealmente independientes.
¿Es el último vector (−3, 1, 0) combinación lineal de los tres vectores (2, 0, −1), (1, −3, 2), (−1, 1, 0) ?
¿Existen λ, µ y ν reales tales que (−3, 1, 0) = λ(2, 0, −1) + µ(1, −3, 2) + ν(−1, 1, 0) ? Esta pregunta
equivale a la compatibilidad de un sistema de tres ecuaciones lineales en las incógnitas λ, µ y ν . Es fácil
comprobar que (−3, 1, 0) = (−2)(2, 0, −1) + (−1)(1, −3, 2) + (−2)(−1, 1, 0) .
Por tanto, {(2, 0, −1), (1, −3, 2), (−1, 1, 0)} es una base de R3 incluida en el conjunto generador
de partida.
También {(2, −6, 4), (−1, 1, 0), (−3, 1, 0)} es otra base de R3 incluida en el conjunto generador de
partida.
(b) Sea W el subespacio de R63 [X] generado por los vectores
X 3 + X 2 − X,
2X 3 − X + 1,
3X 2 + 2X − 1 y X 2 − X − 1.
Hallamos una base de W cuyos elementos están entre esos cuatro vectores. Como no son proporcionales,
los dos primeros vectores X 3 + X 2 − X y 2X 3 − X + 1 son linealmente independientes. ¿Es el tercer
vector 3X 2 + 2X − 1 combinación lineal de los dos primeros?
¿Existen λ, µ ∈ R tales que
3X 2 + 2X − 1 = λ(X 3 + X 2 − X) + µ(2X 3 − X + 1)
= (λ + 2µ)X 3 + λX 2 − (λ + µ)X + µ ?
¿Tiene solución el sistema

λ+2µ= 0



 λ
=3

−λ−
µ=
2



µ= −1
en λ y µ ? El sistema no es compatible y, por tanto, el tercer vector no es combinación lineal de los dos
primeros, y los tres vectores son linealmente independientes. ¿Es el cuarto vector X 2 −X −1 combinación
lineal de los tres primeros? ¿Existen λ, µ, ν ∈ R tales que
X 2 − X − 1 = λ(X 3 + X 2 − X) + µ(2X 3 − X + 1) + ν(3X 2 + 2X − 1)
= (λ + 2µ)X 3 + (λ + 3ν)X 2 + (−λ − µ + 2ν)X + µ − ν?
¿Tiene solución el sistema

λ + 2µ
=0



 λ+
3ν = 1

−λ − µ + 2ν= −1



µ − ν= −1
en λ, µ, ν ? Otra vez es fácil comprobar que el sistema es incompatible y, por tanto, el cuarto vector no es
combinación lineal de los tres primeros, los cuatro vectores dados son linealmente independientes y como
generan W , forman una base de W .
En este ejemplo hemos seguido la segunda demostración. Con la primera demostración, hubiésemos
comenzado ‘desde arriba’, y preguntado si los cuatro vectores dados son linealmente independientes, con
lo que al responder a esa sola pregunta, hubiésemos obtenido la base buscada.
(c) Sea W el subespacio de M2 (R) generado por los cuatro vectores
2 −1
1 2
0 −5
3 0
,
,
y
.
3 −2
5 −1
−7 0
1 −3
75
Espacios vectoriales
Hallamos una base de W siguiendo la primera demostración: ¿Son linealmente independientes esos
cuatro vectores? Sean λ, µ, ν y ρ números reales tales que
0
0
0
0
= λ
=
2
3
−1
−2
+ µ
2λ + µ + 3ρ
3λ + 5µ − 7ν + ρ
1
5
2
−1
+ ν
−λ + 2µ − 5ν
−2λ − µ − 3ρ
0
−7
−5
0
+ ρ
3
1
0
−3
.
Los cuatro vectores dados de M2 (R) son linealmente independientes si y sólo si el sistema lineal homogéneo

2 λ+ µ
+3ρ= 0



 −λ+2µ−5ν
=0

3 λ+5µ−7ν+ ρ= 0



−2 λ− µ
−3ρ= 0
sólo tiene la solución trivial. Resolviendo el sistema se obtiene que las soluciones (λ, µ, ν, ρ) son

λ = −s




 µ = 2s

ν=s




ρ=0
para cada s en R . El sistema tiene soluciones distintas de la trivial, luego los vectores son linealmente
dependientes. Como ρ = 0 siempre, los tres primeros vectores son linealmente dependientes: por ejemplo,
con s = 1 ,
2 −1
1 2
0 −5
0 0
(−1)
+ 2
+ 1
=
.
3 −2
5 −1
−7 0
0 0
Los dos primeros vectores no son proporcionales, luego son linealmente independientes. El tercer vector
es combinación lineal de los dos primeros, como se deduce de la igualdad anterior, luego lo quitamos, y el
cuarto vector no es combinación lineal de los tres primeros, y tampoco de los dos primeros. Por tanto, una
base del subespacio W generado por los cuatro vectores dados está formada por los vectores primero,
segundo y cuarto:
2 −1
1 2
3 0
,
,
.
3 −2
5 −1
1 −3
Otra base incluida en el conjunto generador dado está formada por los vectores primero, tercero y cuarto.
Y los vectores segundo, tercero y cuarto forman una tercera base de W .
Para demostrar la segunda parte del teorema de la base, el hecho de que todas las bases de un espacio
vectorial de tipo finito tienen el mismo número de elementos, nos basamos en el importante resultado
siguiente:
Proposición. Sea V un espacio vectorial de tipo finito y distinto de {0} sobre un cuerpo K . El número
de elementos de cada sistema de generadores de V es mayor o igual que el número de vectores de cada
conjunto linealmente independiente de vectores de V .
Con otras palabras: Si S = {v1 , . . . , vn } es un conjunto finito de generadores de V y T =
{w1 , . . . , wp } es un conjunto linealmente independiente y finito de vectores de V , entonces p 6 n.
Demostración. Tenemos que V = L[S] = L[v1 , . . . , vn ] y el vector w1 pertenece a V , luego existen
escalares λ1 , . . . , λn tales que w1 = λ1 v1 + · · · + λn vn . El vector w1 no es el vector cero 0 porque
w1 pertenece a un conjunto linealmente independiente, luego al menos uno de los escalares λ1 , . . . , λn
1
es distinto de cero. Supongamos que es λ1 6= 0 . Existe λ−1
1 = λ1 y despejando v1 tenemos
v1 =
1
1
λ2
λn
(w1 − λ2 v2 − · · · − λn vn ) =
w1 − v 2 − . . . −
vn
λ1
λ1
λ1
λ1
y es v1 un vector de L[w1 , v2 , . . . , vn ] .
76
Álgebra lineal
Pero L[w1 , v2 , . . . , vn ] = V : En efecto, sea u un vector de V . Como el conjunto S genera el
espacio V , existen escalares µ1 , . . . , µn en K tales que
u = µ1 v1 + · · · + µn vn
λ2
λn
1
w1 − v2 − . . . −
vn + µ2 u2 + · · · + µn vn
= µ1
λ1
λ1
λ1
µ1
µ1 λ2
µ1 λn
=
w1 + µ2 −
v2 + · · · µn −
vn
λ1
λ1
λ1
y u está en L[w1 , v2 , . . . , vn ] .
El vector w2 también está en V = L[w1 , v2 , . . . , vn ] , luego para ciertos escalares ν1 , . . . , νn de
K se tiene w2 = ν1 w1 + ν2 v2 + · · · + νn vn . El vector w2 es no nulo porque pertenece a un conjunto
linealmente independiente, ası́ que los escalares ν1 , . . . νn no pueden ser todos nulos y tiene que haber
algún νj no nulo para un j, 2 6 j 6 n : si el único νj no nulo fuese ν1 , tendrı́amos w2 = ν1 w1 , y
los vectores w1 y w2 serı́an proporcionales, luego linealmente dependientes, contra la hipótesis de que
T es linealmente independiente. Sin perder la generalidad de la argumentación, podemos suponer que es
ν2 distinto de cero. Existe ν2−1 = ν12 y despejando v2 obtenemos
v2 =
1
ν1
ν3
νn
w2 − w1 − v3 − · · · −
vn ,
ν2
ν2
ν1
ν2
de donde v2 pertenece a L[w1 , w2 , v3 , . . . , vn ] . Pero este subespacio vectorial L[w1 , w2 , v3 , . . . , vn ] es
el espacio V , y la demostración es similar a la que hemos dado más arriba de L[w1 , v2 , . . . , vn ] = V .
Repitiendo este proceso p veces llegarı́amos al conjunto {w1 , . . . , wp , vp+1 , . . . , vn } cuando n > p ,
o al conjunto {w1 , . . . , wp } cuando n = p .
No puede ser n < p : si fuese ası́ el proceso anterior sólo se podrı́a hacer n veces y habrı́amos
llegado a obtener el conjunto {w1 , . . . , wn } , sistema de generadores de V y, por ejemplo, wn+1 ∈
V = L[w1 , . . . , wn ] = L[w1 , . . . , wn , wn+2 , . . . , wp ] , de donde wn+1 es un vector de T que es combinación lineal de los vectores de T r {wn+1 } , contra la hipótesis de que T es un conjunto linealmente
independiente.
Ası́ que p 6 n , como querı́amos demostrar.
De la demostración que acabamos de dar se deduce el enunciado siguiente, que es una de las formas
del resultado conocido como teorema del cambio (o del intercambio, o del reemplazamiento) de Steinitz: 1
Corolario. Si V , S y T son como en el enunciado de la proposición, hay n − p vectores vi1 , . . . , vin−p
en el sistema de generadores S tales que
T ∪ {vi1 , . . . , vin−p } = {w1 , . . . , wp , vi1 , . . . , vin−p }
es un sistema de generadores de V .
Con otras palabras, se pueden reemplazar p vectores (¡no p vectores cualesquiera!) del conjunto de
generadores por los p vectores del conjunto linealmente independiente y se sigue teniendo un conjunto
generador del espacio.
Teorema. (Teorema de la base, segunda parte) Sea V un espacio vectorial de tipo finito distinto de
{0} sobre K . Entonces todas las bases de V tienen el mismo número de elementos.
Demostración. Sea S = {v1 , . . . , vn } un conjunto finito de generadores de V . Por la demostración de
la primera parte del teorema de la base, hay una base B de V que es un subconjunto de S . Y como
B es un subconjunto de S , B es una base finita.
Sea B0 una base de V . Veamos que B y B0 tienen el mismo número de elementos.
Como B0 es base de V , B0 es linealmente independiente y todo subconjunto no vacı́o de B0 es
linealmente independiente. Por el teorema anterior, todo subconjunto de B0 tiene a lo más el número de
elementos que tiene B , porque B0 es linealmente independiente. Luego el número de elementos de B0
es menor o igual que el número de elementos de B . Cambiando los papeles de B y B0 en el argumento
1
Traducción del alemán Steinitz Austauschsatz y del inglés Steinitz’s exchange theorem.
77
Espacios vectoriales
anterior, se tiene que el número de elementos de B es menor o igual que el número de elementos de B0 .
Por tanto, B y B0 tienen el mismo número de elementos.
Sea V un espacio vectorial de tipo finito y distinto de {0} sobre un cuerpo K . Se llama dimensión
de V al número de elementos (que es un número natural > 1 ) que tiene una base cualquiera de V . La
dimensión de V se indica por dim V .
Aunque el espacio vectorial {0} no tiene bases (no tiene ningún subconjunto no vacı́o linealmente
independiente), diremos que su dimensión es cero: dim{0} = 0 .
Ejemplos (1) dim Kn = n , para cada n > 1 , porque Be = {e1 , e2 , . . . , en } es una base de Kn con n
elementos.
(2) Para cada n > 0, dim K6n [X] = n + 1 , porque {1, X, X 2 , . . . , X n } es una base del espacio con
n + 1 vectores.
(3) Para cualesquiera m, n > 1, dim Mm×n (K) = m · n , porque {Em×n
|i = 1, . . . , m, j = 1, . . . , n}
ij
2
es una base del espacio con m · n elementos. Y dim Mn (K) = n .
(4) La dimensión de C como espacio vectorial sobre R es 2 , porque, como ya sabemos, {1, i} es
una base. La dimensión de C2 como espacio vectorial sobre R es 4 , porque {(1, 0), (0, 1), (i, 0), (0, i)}
es una base de ese espacio. Recordemos del ejemplo (a) que la dimensión de C (respectivamente, C2 )
como espacio vectorial sobre C es 1 (resp., 2 ), porque {1} (resp., {(1, 0), (0, 1)} ) es una base de ese
espacio.
En general, la dimensión del espacio vectorial real Cn es 2n , mientras que en el ejemplo (a) vimos
que la dimensión del espacio vectorial complejo Cn es n .
(5) Hay espacios vectoriales que no son de dimensión finita, porque no tienen ningún conjunto finito
de generadores. Por ejemplo, ningún conjunto finito de polinomios de K[X] genera el espacio vectorial
K[X] . Si {p1 (X), p2 (X), . . . , pk (X)} es un conjunto finito de polinomios de K[X] y n > 1 es el máximo
de los grados de los polinomios del conjunto, el grado de cada polinomio que sea combinación lineal de
esos polinomios es a lo más n . Esto es ası́ porque el producto de un escalar no nulo por un polinomio
tiene el mismo grado que el polinomio, y la suma de dos polinomios tiene grado menor o igual que el
mayor de los grados de los dos polinomios. Por tanto, ningún polinomio de grado > n es combinación
lineal de los polinomios del conjunto, y L[p1 (X), p2 (X), . . . , pk (X)] es un subconjunto propio de K[X] .
Ası́ que el espacio vectorial K[X] no tiene ningún sistema de generadores que sea finito, y no es de tipo
finito: no es un espacio vectorial de dimensión finita.
Tampoco son espacios vectoriales de dimensión finita el espacio vectorial real N R de las sucesiones
(an )n∈N de números reales (se demuestra más abajo), el espacio R R de las funciones reales de variable
real, el espacio C(I, R) de las funciones reales continuas en un intervalo abierto I de la recta real, y el
espacio C 1 (I, R) de las funciones reales derivables y con derivada continua en un intervalo abierto I .
Consecuencias
(1) Si {v1 , . . . , vn } es un sistema de generadores de un espacio vectorial V de dimensión finita, entonces
n > dim V .
De otro modo, dim V es el número mı́nimo de elementos que puede tener un conjunto que genera el
espacio V .
Demostración. Por la demostración de la primera parte del teorema de la base, {v1 , . . . , vn } tiene un
subconjunto que es base de V . El número de elementos de ese subconjunto es la dimensión de V , luego
es 6 n .
(2) Si {w1 , . . . , wp } es un conjunto linealmente independiente de vectores de un espacio vectorial
V de dimensión finita, entonces
p 6 dim V .
Con otras palabras, dim V es el número máximo de elementos que puede tener un conjunto linealmente
independiente de vectores de V .
Demostración. Toda base de V es un sistema de generadores de V y basta aplicar el penúltimo teorema.
78
Álgebra lineal
(3) Si {v1 , . . . , vn } es un sistema de generadores de V y la dimensión de V es n , entonces
{v1 , . . . , vn } es una base de V .
Demostración. Si {v1 , . . . , vn } no es linealmente independiente, alguno de los vectores vi es combinación
lineal de los restantes. Tendrı́amos entonces que {v1 , . . . , vi−1 , vi+1 , . . . , vn } es un sistema de generadores
de V con n − 1 vectores: menos elementos que la dimensión de V , y esto no puede ser por (1).
(4) Si {w1 , . . . , wn } es un conjunto linealmente independiente de vectores de V y la dimensión de
V es n , entonces {w1 , . . . , wn } es una base de V .
Demostración. Si {w1 , . . . , wn } no es sistema de generadores de V , hay al menos un vector w en V
que no es combinación lineal de los vectores w1 , . . . , wn . Por tanto, {w1 , . . . , wn , w} es un conjunto
linealmente independiente con n + 1 vectores en V , cuya dimensión es n : esto no es posible por (2).
Ejemplos. (a) Las consecuencias (3) y (4) anteriores muestran que en un espacio vectorial de dimensión
n > 1 , para demostrar que un conjunto de n vectores es una base sólo hace falta o demostrar que el
conjunto es linealmente independiente, o demostrar que el conjunto genera el espacio.
Por ejemplo, en K2 los vectores (1, 2) y (3, 4) forman una base, porque son dos vectores de K2
que no son proporcionales. En K3 los vectores (1, 1, 1), (1, 1, 0) y (1, 0, 0) forman una base porque son
tres vectores en K3 que generan el espacio.
(b) El espacio vectorial real N R de las sucesiones (an )n∈N de números reales no tiene dimensión
finita. Esto se concluye del hecho de que tiene un conjunto linealmente independiente infinito de vectores,
y si fuese de dimensión finita, pongamos que n , ningún conjunto linealmente independiente de vectores
puede tener más de n elementos. Para cada k > 0 , sea ek la sucesión de números reales que tiene todos
sus términos iguales a cero, salvo el término k -ésimo, que es igual a 1 :
1 si i = k,
ek : N −−→ R
definida por
ek (i) =
0 si i 6= k.
Sea S el conjunto {ek | k ∈ N} . El conjunto S es un conjunto infinito linealmente independiente,
porque cada subconjunto finito de S es linealmente independiente.
El subespacio L[S] está formado por las sucesiones (xn )n∈N de números reales que a partir de
un cierto ı́ndice tienen todos sus términos iguales a cero, esto es, hay un k > 0 tal que para todo
n > k, xn = 0.
Como consecuencia de la demostración de la primera parte del teorema de la base, obtuvimos que
cada conjunto de generadores de un espacio vectorial de tipo finito incluye una base del espacio. Vamos
a demostrar ahora que todo conjunto linealmente independiente está incluido en una base. En realidad
este resultado está casi contenido en el teorema del cambio de Steinitz, pero es muy útil y es conveniente
enunciarlo aparte:
Teorema. (Teorema de la base incompleta) Sea V un espacio vectorial de dimensión finita n > 1 sobre
un cuerpo K . Entonces cada conjunto linealmente independiente de vectores de V se puede extender a
una base del espacio:
Sea {u1 , . . . , up } un conjunto linealmente independiente de vectores de V . Entonces existen n − p
vectores up+1 , . . . , un en V tales que {u1 , . . . , up } ∪ {up+1 , . . . , un } es una base de V .
De hecho, si B = {w1 , . . . , wn } es una base cualquiera de V , hay n − p vectores wi1 , . . . , win−p
en la base B tales que
{u1 , . . . , up } ∪ {wi1 , . . . , win−p }
es una base de V .
Primera demostración. Damos dos demostraciones. La primera es una aplicación directa de teorema del
cambio de Steinitz. Los vectores w1 , . . . , wn de la base generan el espacio vectorial V . Y para los vectores
linealmente independientes v1 , . . . , vp , sabemos, por el teorema del cambio de Steinitz, que p 6 n y que
hay n − p vectores wi1 , . . . , win−p entre los vectores w1 , . . . , wn tales que v1 , . . . , vp , wi1 , . . . , win−p
generan V . Al ser n vectores que generan un espacio vectorial de dimensión n , forman una base del
espacio, y tenemos completado el conjunto linealmente independiente de partida hasta formar una base
del espacio.
79
Espacios vectoriales
Segunda demostración. Sabemos que p 6 n . Si p = n , u1 , . . . , up son p = n vectores linealmente
independientes de un espacio vectorial de dimensión n , luego forman una base del espacio vectorial y no
hay vectores que añadir.
Supongamos que p < n . Entonces L[u1 , . . . , up ] es un subespacio vectorial propio de V , esto es,
distinto de V , en sı́mbolos, L[u1 , . . . , up ] V . Por otro lado, L[B] = L[w1 , . . . , wn ] = V , y no puede
ser que B ⊆ L[u1 , . . . , up ] (porque si fuese ası́ , V = L[B] ⊆ L[u1 , . . . , up ] ). Por tanto, hay al menos
un vector wi en la base B tal que wi ∈
/ L[u1 , . . . , up ] . Entonces {u1 , . . . , up } ∪ {wi } es linealmente
independiente. Se tienen p + 1 vectores linealmente independientes en V y sabemos que p + 1 6 n .
Si p + 1 = n , u1 , . . . , up , wi son p + 1 = n vectores linealmente independientes en un espacio
vectorial de dimensión n , luego forman una base del espacio.
Si p + 1 < n , entonces L[u1 , . . . , up , wi ]
V = L[w1 , . . . , wn ] y existe un vector wj en la
base B tal que wj ∈
/ L[u1 , . . . , up , wi ] . Entonces el conjunto {u1 , . . . , up } ∪ {wi , wj } es linealmente
independiente y se tienen p + 2 vectores linealmente independientes en V . Sabemos que p + 2 6 n .
Si p + 2 = n , entonces . . . . . .
Este proceso se realiza exactamente n − p veces hasta que se obtiene un conjunto {u1 , . . . , up } ∪
{wi1 , . . . , win−p } linealmente independiente con n vectores en V , luego una base de V : resultado de
añadir a los p vectores linealmente independientes de partida n − p vectores de la base B .
Ejemplos. (a) Para el vector no nulo (3, 4) de K2 hay infinitos vectores (x, y) en K2 tales que (3, 4)
y (x, y) forman una base del espacio. Por ejemplo, cada uno de los vectores de la base estándar:
{(3, 4), (1, 0)} y {(3, 4), (0, 1)} son bases de K2 que incluyen el conjunto linealmente independiente
{(3, 4)} .
(b) Más arriba hemos demostrado que los vectores (2, 2, −4, 0), (1, −3, 2, −4) y (−1, 0, 1, 0) son linealmente independientes en R4 . Para obtener una base de R4 que contenga a esos tres vectores sólo
necesitamos un cuarto vector que no sea combinación lineal de esos tres vectores. Sabemos que hay al
menos uno que cumple esa condición entre los cuatro vectores de la base estándar de R4 . Por ejemplo,
el primer vector (1, 0, 0, 0) de la base estándar cumple esa condición, y
{(2, 2, −4, 0), (1, −3, 2, −4), (−1, 0, 1, 0)} ∪ {(1, 0, 0, 0)}
es una base de R4 que incluye el conjunto linealmente independiente formado por los tres vectores de
partida. De hecho, en este caso, cualquier vector de la base estándar cumple la condición que se pide.
(c) También hemos visto más arriba que los vectores
2 −1
1 2
3
,
y
3 −2
5 −1
1
0
−3
son linealmente independientes en M2 (R) . Como este espacio tiene dimensión 4, hay al menos un vector
entre los vectores de la base
1 0
0 1
0 0
0 0
,
,
,
0 0
0 0
1 0
0 1
que no es combinación lineal de los tres vectores, y por tanto, forma con ellos una base del espacio. Por
ejemplo, el primero de los vectores de la base sirve, y por tanto
2 −1
1 2
3 0
1 0
,
,
,
3 −2
5 −1
1 −3
0 0
es una base del espacio a la que pertenecen los tres vectores linealmente independientes de partida.
(d) Hallemos una base de R62 [X] que contenga a los polinomios X + 1 y X − 1 , que no son
proporcionales. El espacio tiene dimensión 3 , y por tanto, necesitamos un tercer vector que no sea
combinación lineal de esos dos vectores. Lo hay entre los tres vectores de la base {1, X, X 2 } . El vector
X 2 no es combinación lineal de los dos polinomios dados, y {X + 1, X − 1} ∪ {X 2 } es un conjunto de
tres vectores linealmente independientes en un espacio de dimensión 3, luego es una base del espacio, e
incluye los dos vectores dados.
El vector X de la base {1, X, X 2 } no sirve, porque es combinación lineal de los dos vectores dados:
X = 21 (X + 1) + 21 (X − 1) . Tampoco sirve el primer vector 1 , porque también es combinación lineal de
los dos vectores dados: 1 = 12 (X + 1) − 12 (X − 1).
80
Álgebra lineal
Coordenadas
Sea V un espacio vectorial de dimensión finita n > 1 sobre K y sea B = {v1 , . . . , vn } una base de
V . Por la caracterización de las bases de un espacio vectorial que se dio inmediatamente después de la
definición, cada vector v de V se expresa de manera única como combinación lineal de los vectores
de B , esto es, existen escalares λ1 , . . . , λn ∈ K únicos tales que v = λ1 v1 + · · · + λn vn . Los escalares
λ1 , . . . , λn son las coordenadas del vector v respecto de la base B .
Si λ1 , . . . , λn son las coordenadas de un vector v respecto de una base B = {v1 , . . . , vn } de V
entonces v = λ1 v1 + · · · + λn vn y ésta es la única forma de expresar el vector v como combinación
lineal de los vectores de la base B .
Se debe señalar que cuando se da una base B = {v1 , . . . , vn } de un espacio vectorial V , aunque la
notación empleada no lo muestre, la base lleva implı́cita una ordenación de los vectores de la base. Por
ejemplo, como conjuntos, los conjuntos {v1 , v2 , v3 , . . . , vn } y {v2 , v1 , v3 , . . . , vn } son iguales, porque
tienen los mismos elementos, pero como bases no lo son: si la n -upla de las coordenadas de un vector
v respecto de la primera base es (λ1 , λ2 , λ3 , . . . , λn ) , la n -upla de las coordenadas del mismo vector v
respecto de la segunda base es (λ2 , λ1 , λ3 , . . . , λn ) , que no es la misma que la primera.
Se entiende entonces que si se da una base B = {v1 , . . . , vn } de un espacio vectorial V , como ya
hemos hecho varias veces, podemos decir que v1 es el primer vector de la base, v2 es el segundo vector
de la base, . . . , y vn es el último vector de la base.
Ejemplos. (a) Las coordenadas del vector (x1 , . . . , xn ) de Kn respecto de la base estándar Be =
{e1 , . . . , en } son, precisamente, x1 , . . . , xn , las componentes del propio vector, porque
(x1 , . . . , xn ) = x1 e1 + · · · + xn en = x1 (1, 0, . . . , 0) + · · · + xn (0, . . . , 0, 1),
y la n -upla de sus coordenadas es (x1 , . . . , xn ) , que coincide con el propio vector.
(b) Las coordenadas del vector an X n + · · · + a1 X + a0 del espacio K6n [X] respecto de la base
{1, X, X 2 , . . . , X n } son a0 , a1 , . . . , an .
m×n
(c) En el espacio vectorial Mm×n (K) y respecto de la base B = {Eij
| i = 1, . . . , m, j = 1, . . . , n} ,
las coordenadas de la matriz A = (aij )m×n son a11 , . . . , a1n , a21 , . . . , a2n , . . . , am1 , . . . , amn . Por ejemplo,
en M2 (R) las coordenadas de la matriz A = (aij )2 respecto de la base {E11 , E12 , E21 , E22 } son
a11 , a12 , a21 , a22 porque
a11 a12
1 0
0 1
0 0
0 0
A=
= a11
+ a12
+ a21
+ a22
.
a21 a22
0 0
0 0
1 0
0 1
(d) En R3 , respecto de la base {(1, 0, 0), (0, 0, 1), (0, 1, 0)} las coordenadas del vector (x, y, z) son
x, z, y y la terna ordenada de sus coordenadas es (x, z, y) porque
(x, y, z) = x(1, 0, 0) + z(0, 0, 1) + y(0, 1, 0),
terna ordenada que no coincide con el propio vector (x, y, z) .
En R63 [X] las coordenadas del vector X 3 − 2X 2 + X − 3 respecto de la base {X 3 , X 2 , X, 1} son
1, −2, 1, 3 ; y respecto de la base {1, X, X 2 , X 3 } son −3, 1, −2, 1, porque
X 3 − 2X 2 + X − 3 = 1X 3 + (−2)X 2 + 1X + (−3)1
= (−3)1 + 1X + (−2)X 2 + 1X 3 .
(e) Más arriba hemos demostrado que los vectores (1, 1, 0), (1, 0, 1) y (0, 1, 1) forman una base de
R3 . Respecto de esa base las coordenadas del primer vector (1, 0, 0) de la base estándar son 21 , 12 , − 12 .
Las del segundo vector (0, 1, 0) son 21 , − 21 , 12 . Las del tercer vector (0, 0, 1) son − 12 , 12 , 12 . Y las del
vector (x, y, z) son 12 (x + y − z), 12 (x − y + z), 21 (−x + y + z), porque como se demostró más arriba
(x, y, z) =
1
2 (x
+ y − z)(1, 1, 0) +
1
2 (x
− y + z)(1, 0, 1) +
1
2 (−x
+ y + z)(0, 1, 1).
Cambio de base
Sea B = {v1 , . . . , vn } una base de V . Cada vector v de V tiene sus coordenadas λ1 , . . . , λn respecto
de la base B :
v = λ1 v1 + · · · + λn vn .
81
Espacios vectoriales
Sea B0 = {v10 , . . . , vn0 } otra base de V . Cada vector v de V tiene sus coordenadas λ01 , . . . , λ0n respecto
de la nueva base B0 :
v = λ01 v10 + · · · + λ0n vn0 .
Si se conocen las coordenadas de un vector respecto de una base, y se considera una nueva base (‘se
hace un cambio de base’), ¿cómo obtener las coordenadas del vector respecto de la nueva base? ¿Qué
datos necesitamos conocer para expresar las nuevas coordenadas en función de las primeras?
Necesitamos conocer las coordenadas de los vectores v1 , . . . , vn de la base de partida B respecto
de la nueva base B0 . Pongamos que son:

v1 = a11 v10 + a21 v20 + · · · + an1 vn0





 v2 = a12 v10 + a22 v20 + · · · + an2 vn0






..
.
vn = a1n v10 + a2n v20 + · · · + ann vn0 .
Entonces
v = λ1 v1 + · · · + λn vn
= λ1 (a11 v10 + a21 v20 + · · · + an1 vn0 ) + · · · + λn (a1n v10 + a2n v20 + · · · + ann vn0 )
= (λ1 a11 + · · · + λn a1n )v10 + (λ1 a21 + · · · + λn a2n )v20 + · · · + (λ1 an1 + · · · + λn ann )vn0
= λ01 v10 + · · · + λ0n vn0
y por la unicidad de las coordenadas de un vector respecto de una base, tienen que ser
 0
λ1 = λ1 a11 + λ2 a12 + · · · + λn a1n





 λ02 = λ1 a21 + λ2 a22 + · · · + λn a2n






..
.
λ0n = λ1 an1 + λ2 an2 + · · · + λn ann
que son las ecuaciones que dan las coordenadas λ01 , . . . , λ0n del vector v respecto de la nueva base B0
en función de las coordenadas λ1 , . . . , λn de v respecto de la base B , y se dice que son las ecuaciones
del cambio de base de la base B a la base B0 . Expresadas en forma de producto de matrices son
 λ0 

 
a11 a12 · · · a1n
λ1
1
0
 λ2 
 a21 a22 · · · a2n   λ2 
 . .
 .  =  .
..
.. 
..
 . 
 ..
.
.
.   .. 
.
λ0n
an1
an2
···
a1nn
λn
La matriz cuadrada de orden n de la expresión matricial se llama matriz del cambio de base o matriz
de paso de la base B a la base B0 , y se indica por M (B, B0 ). Observemos que en la matriz M (B, B0 )
del cambio de base
• la primera columna es el n -vector columna de las coordenadas del primer vector v1 de la base B
respecto de la base B0 ,
• la segunda columna es el n -vector columna de las coordenadas del segundo vector v2 de la base
B respecto de la base B0 ,
..
.
• la columna n -ésima es el n -vector columna de las coordenadas del n -ésimo vector vn de la base
B respecto de la base B0 .
Ejemplos. (a) Para cada base B de V , la matriz M (B, B) de cambio de base de la base B a sı́ misma
es la matriz identidad In de orden n .
(b) En el espacio vectorial Kn , si
B = {(a11 , a12 , . . . , a1n ), (a21 , a22 , . . . , a2n ), . . . , (an1 , an2 , . . . , ann )}
82
Álgebra lineal
es una base del espacio, la matriz de cambio de base de la base B a la base estándar Be es muy fácil de
hallar: la primera columna de esta matriz es el n -vector columna de las coordenadas del primer vector
(a11 , a12 , . . . , a1n ) de B respecto de la base estándar, la segunda columna es el n -vector columna de las
coordenadas del segundo vector (a21 , a22 , . . . , a2n ) de B respecto de la base estándar, . . . , y la última
columna es el n -vector columna de las coordenadas del último vector (an1 , an2 , . . . , ann ) de B respecto
de la base estándar, ası́ que


a11 a21 · · · an1
 a12 a22 · · · an2 
.
M (B, Be ) = 
..
.. 
..
 ...
.
.
. 
a1n
a2n
···
ann
3
Por ejemplo, en R , para la base B = {(1, 2, 0), (−1, 3, 1), (0, −1, 1)} , la matriz M (B, Be ) de paso de
la base B a la base estándar Be es


1 −1 0
M (B, Be ) =  2 3 −1  .
0 1
1
El vector (x, y, z) de R3 que respecto de la base B tiene las coordenadas 1, 1, −1 tiene las coordenadas
0, 6, 0 respecto de la base estándar Be porque
  
 

0
1
1 −1 0
 2 3 −1  ·  1  =  6 
0
−1
0 1
1
y es, por tanto, el vector (0, 6, 0) .
(c) Con las mismas bases del ejemplo anterior, si queremos hallar la matriz M (Be , B) de paso de
la base estándar Be a la base B necesitamos conocer las coordenadas de cada uno de los vectores de la
base estándar respecto de la base B . Se tiene
(1, 0, 0) = 32 (1, 2, 0) − 31 (−1, 3, 1) + 31 (0, −1, 1),
(0, 1, 0) = 16 (1, 2, 0) + 61 (−1, 3, 1) − 61 (0, −1, 1),
(0, 0, 1) = 16 (1, 2, 0) + 61 (−1, 3, 1) + 65 (0, −1, 1).
Luego la matriz buscada M (Be , B) es

M (Be , B) =
2
3
 1
 −3
1
3
1
6
1
6
− 16
1
6
1
6
5
6


4
 1
−2
=
6
2
1
1
−1

1
1.
5
Y el vector (0, 6, 0) cuyas coordenadas respecto de la base estándar son 0, 6, 0 tiene las coordenadas
1, 1, −1 respecto de la base B porque

  


4
1 1
0
1
1
−2 1 1  ·  6  =  1  .
6
2 −1 5
0
−1
(d) Sabemos, de ejemplos anteriores, que B = {X + 1, X − 1, X 2 } es una base del espacio vectorial
R62 [X] . También es una base B0 = {1, X, X 2 } . Como
1 = 12 (X + 1) − 21 (X − 1) + 0X 2 ,
X = 12 (X + 1) + 12 (X − 1) + 0X 2 ,
X 2 = 0(X + 1) + 0(X − 1) + 1X 2 ,
la matriz M (B0 , B) de cambio de la base B0 a la base B es
 1

1
0
2
2


M (B0 , B) =  − 12 12 0  .
0
0 1
Y como
83
Espacios vectoriales
X + 1 = 1 · 1 + 1 · X + 0 · X 2,
X − 1 = (−1) · 1 + 1 · X + 0 · X 2 ,
X 2 = 0 · 1 + 0 · X + 1 · X 2,
la matriz M (B, B0 ) de cambio de la base B a la base B0 es


1 −1 0
M (B, B0 ) =  1 1 0  .
0 0 1
El polinomio X 2 + 2X − 1, cuyas coordenadas respecto de la base B0 son −1, 2, 1, tiene las coordenadas
1
3
1 3
2
2
2 , 2 , 1 respecto de la base B , y es X + 2X − 1 = 2 (X + 1) + 2 (X − 1) + 1X , porque
1
 1
 

1
0
−1
2
2
2
 1 1

 
 − 2 2 0  ·  2  =  32  .
1
0
0 1
1
(e) Sabemos, por ejemplos anteriores que
2 −1
1
B =
,
3 −2
5
2
−1
3
,
1
es una base del espacio vectorial real M2 (R) . También
1 0
0 1
0
B0 =
,
,
0 0
0 0
1
0
−3
0
0
es una base del mismo espacio. La matriz M (B, B0 ) de cambio

2
1
3
0
 −1 2
0
M (B, B ) = 
3
5
1
−2 −1 −3
1
,
0
0
,
0
0
1
0
0
de base de la base B a la base B0 es

1
0
.
0
0
Sea ahora B00 = {v100 , . . . , vn00 } una tercera base de V . Tenemos tres matrices de cambio de base:
• M (B, B0 ) = (aij )n , matriz de cambio de la base B a la base B0 ;
• M (B0 , B00 ) = (bij )n , matriz de cambio de la base B0 a la base B00 , y
• M (B, B00 ) = (cij )n , matriz de cambio de la base B a la base B00 .
¿Qué relación entre estas tres matrices de orden n ?
Para cada j = 1, . . . , n , como la columna j -ésima de la matriz M (B, B00 ) = (cij )n es el n -vector
columna de las coordenadas de vj respecto de la base B00 , se tiene, por un lado,
vj = c1j v100 + c2j v200 + · · · + cnj vn00 ,
y por otro, como la columna j -ésima de la matriz M (B, B0 ) = (aij )n es el n -vector columna de las
coordenadas de vj respecto de la base B0 ,
vj = a1j v10 + a2j v20 + · · · + anj vn0
y la columna j -ésima de la matriz M (B0 , B00 ) = (bij )n es el n -vector columna de las coordenadas de
vj0 respecto de la base B00 ,
vj0 = b1j v100 + b2j v200 + · · · + bnj vn00
resulta
vj = a1j v10 + · · · + anj vn0
= a1j (b11 v100 + · · · + bn1 vn00 ) + · · · + anj (b1n v100 + · · · + bnn vn00 )
= (a1j b11 + · · · + anj b1n )v100 + · · · + (a1j bn1 + · · · + anj bnn )vn00
= (b11 a1j + · · · + b1n anj )v100 + · · · + (bn1 a1j + · · · + bnn anj )vn00
= c1j v100 + · · · + cnj vn00
84
Álgebra lineal
y se obtiene que para cada i, j = 1, . . . , n ,
cij = bi1 a1j + bi2 a2j + · · · + bin anj ,
esto es, el elemento cij de la matriz M (B, B00 ) es el producto del i -ésimo n -vector fila de la matriz
M (B0 , B00 ) = (bij )n por el j -ésimo n -vector columna de la matriz M (B, B0 ) = (aij )n :
a 
1j
cij = ( bi1
bi2
···
 a2j 

bin ) 
 .. 
.
anj
para cada i, j = 1, . . . , n,
y
c11
 c21
 .
 ..
c12
c22
..
.
···
···
..
.
cn1
cn2
···



b11
c1n
c2n 
 b21
= 
.. 
 ...
. 
bn1
c1nn
b12
b22
..
.
···
···
..
.
bn2
···

a11
b1n
b2n   a21
 .
.. 
.   ..
an1
b1nn
a12
a22
..
.
···
···
..
.

a1n
a2n 
.
.. 
. 
an2
···
a1nn
Esto quiere decir que hemos demostrado la siguiente
Proposición. Si B, B0 y B00 son bases de un espacio vectorial de dimensión n > 1 , entonces
M (B, B00 ) = M (B0 , B00 ) · M (B, B0 ).
Importante: Como el producto de matrices no es conmutativo, hay que tener presente el orden de los
factores en cada producto, en particular en el producto anterior.
La proposición anterior tiene la siguiente consecuencia importante:
Corolario. Toda matriz de cambio de base es invertible:
de dimensión n > 1, entonces
Si B y B0 son bases de un espacio vectorial
(i) la matriz M (B, B0 ) de cambio de la base B a la base B0 es invertible, y
(ii) su inversa M (B, B0 )−1 es la matriz M (B0 , B) de cambio de la base B0 a la base B .
Demostración. Veamos que M (B, B0 ) · M (B0 , B) = In y que también M (B0 , B) · M (B, B0 ) = In .
Aplicamos la proposición anterior con B00 = B , y obtenemos
M (B0 , B) · M (B, B0 ) = M (B, B) = In .
Y con B0 en el papel de B y B00 , y B en el papel de B0 ,
M (B, B0 ) · M (B0 , B) = M (B0 , B0 ) = In ,
como querı́amos demostrar.
Con la notación de más arriba, si la expresión matricial del
 λ0 

a11 a12 · · · a1n
1
 λ02 
 a21 a22 · · · a2n
 .  =  .
..
..
..
 . 
 ..
.
.
.
.
λ0n
an1
an2
entonces la del cambio de la base B0 a la base
 

λ1
a11
 λ2 
 a21
 .  =  .
 .. 
 ..
B es
λn
an1
···
0
cambio de la base B a la base B es
 
λ1
  λ2 
 . 
  .. 
a1nn
λn
a12
a22
..
.
···
···
..
.
−1  λ0 
a1n
1
a2n   λ02 
 . .
.. 
.   .. 
an2
···
a1nn
λ0n
Ejemplos. (a) Con las matrices M (B, Be ) y M (Be , B) de los ejemplos (b) y (c) anteriores, se tiene


  2
1
1
1 −1 0
3
6
6

1
1 
M (B, Be ) · M (Be , B) =  2 3 −1  ·  − 13
6
6  = I3 .
1
0 1
1
−1 5
3
6
6
85
Espacios vectoriales
Con las matrices M (B, B0 ) y M (B0 , B) del ejemplo (d) anterior, se tiene


  1
1
0
1 −1 0
2
2


M (B, B0 ) · M (B0 , B) =  1 1 0  ·  − 12 21 0  = I3 .
0 0 1
0
0 1
Con la matriz M (B, B0 ) del ejemplo (e) anterior, se tiene que la
base B0 a la base B es

2
1
3
−1
2
0

M (B0 , B) = M (B, B0 )−1 = 
3
5
1
−2 −1 −3
matriz M (B0 , B) de paso de la
−1
1
0
 .
0
0
Pero, ¿cómo hallar esa matriz inversa? Una solución consiste en hallar la matriz M (B0 , B) de cambio
de B0 a B según la definición, esto es, hallar las coordenadas de los cuatro vectores de la base B0
respecto de la base B . Los cuádruplas ordenadas obtenidas se ponen ordenadamente como columnas de
una matriz de orden 4 , que es la matriz buscada. Esto lleva a tener que resolver cuatro sistemas de 4
ecuaciones lineales con 4 incógnitas cada uno. Más adelante explicaremos dos métodos más para hallar
la matriz inversa de una matriz invertible.
Dimensión de los subespacios
Como espacios vectoriales que son, cada subespacio de un espacio vectorial tiene su dimensión. La siguiente
proposición muestra cuáles son las dimensiones posibles, si el espacio tiene dimensión finita.
Proposición. Sea V un espacio vectorial de dimensión finita n > 1 sobre K y sea W un subespacio
vectorial de V . Entonces
(1) W también es de dimensión finita y dim W 6 dim V , y
(2) dim W = dim V
si y sólo si W = V .
Demostración. (1) Si W es el subespacio {0} , entonces dim W = 0 . Si W 6= {0} , existe un vector
w1 en W distinto del vector 0 . Si L[w1 ] = W , entonces dim W = 1 . Si L[w1 ] es un subespacio
vectorial propio de W , existe un vector w2 en W tal que w2 ∈
/ L[w1 ] . Entonces {w1 , w2 } es un
conjunto linealmente independiente de vectores de W . Si L[w1 , w2 ] = W , tenemos dim W = 2 . Si
L[w1 , w2 ] es un subespacio propio de W , existe un vector w3 en W tal que w3 ∈
/ L[w1 , w2 ] y el
conjunto {w1 , w2 , w3 } es linealmente independiente.
Este proceso se puede hacer a lo más n veces, porque vamos obteniendo conjuntos linealmente
independientes {w1 } ⊂ {w1 , w2 } ⊂ {w1 , w2 , w3 } ⊂ . . . de vectores de un espacio vectorial de dimensión
n . Y en cualquier caso llegamos a un conjunto finito {w1 , . . . , wp } linealmente independiente de vectores
de W que generan W , es decir, a una base de W y dim W = p 6 n .
(2) ⇐ ) Inmediato, porque si W = V , dim W = dim V .
⇒ ) Supongamos que dim W = dim V . En W hay n vectores linealmente independientes que
generan W . Estos son n vectores linealmente independientes en V , espacio vectorial de dimensión n ,
luego forman una base de V , generan V y tiene que ser W = V .
Ejemplos. (a) El subespacio W = {(x, y, z, t) ∈ R4 | 2x + y − z + t = 0} tiene dimensión 3, porque podemos dar tres vectores linealmente independientes en W : por ejemplo (1, 0, 2, 0), (0, 1, 1, 0), (0, 0, 1, 1).
No tiene dimensión 4 , porque no es el espacio entero R4 , ya que, por ejemplo, el vector (1, 0, 0, 0) no
pertenece al subespacio.
(b) El subespacio W de las matrices simétricas reales de orden 2 tiene dimensión 3 , porque las
matrices
1 0
0 0
0 1
,
,
0 0
0 1
1 0
86
Álgebra lineal
son simétricas y linealmente independientes. El subespacio W no tiene dimensión cuatro, porque hay
matrices de orden 2 que no son simétricas.
(c) El subespacio W de R63 [X] formado por los polinomios reales p(X) de grado 6 3 que tienen
a 1 como raı́z, es decir, p(1) = 0 , tiene dimensión 3 , porque los polinomios X − 1 , X 2 − 1 y X 3 − 1
son tres polinomios linealmente independientes que se anulan en 1 . No tiene dimensión 4 , porque hay
polinomios reales de grado 6 3 que no se anulan en 1 .
Los subespacios vectoriales de dimensión 1 se llaman rectas vectoriales del espacio, y los de dimensión
2, planos vectoriales. Los subespacios de dimensión n − 1 de un espacio vectorial de dimensión n > 1 se
llaman hiperplanos vectoriales.
Ejemplos. Con la proposición anterior podemos hacer ‘catálogos’ de los subespacios de los espacios vectoriales familiares:
(a) El espacio vectorial K , que tiene dimensión 1 , sólo tiene dos subespacios: el único subespacio
de dimensión cero: {0}, y el único de dimensión 1 : el espacio entero K .
(b) Un subespacio del espacio vectorial K2 , que tiene dimensión 2 , tiene dimensión 0 (sólo hay
uno: el subespacio cero {(0, 0)} ), o 1 (y es una recta vectorial que pasa por (0, 0) ) o 2 (sólo hay uno:
el subespacio impropio, K2 ). Y no hay más posibilidades.
(c) Los subespacios del espacio vectorial K3 , que tiene dimensión 3 , tienen dimensiones 0 (sólo
uno: el subespacio cero {(0, 0, 0)} ), 1 (las rectas vectoriales que pasan por (0, 0, 0) ), 2 (los planos
vectoriales que pasan por (0, 0, 0) ) y 3 (sólo uno: el espacio entero, K3 ). Y no hay más tipos.
(d) Los subespacios del espacio vectorial K4 , que tiene dimensión 4 , tienen dimensiones 0 (sólo
uno: el subespacio cero {(0, 0, 0, 0)} ), 1 (las rectas vectoriales que pasan por (0, 0, 0, 0) ), 2 (los planos
vectoriales que pasan por (0, 0, 0, 0) ), 3 (los hiperplanos vectoriales que pasan por (0, 0, 0, 0) ) y 4 (sólo
uno: el espacio entero, K4 ). Y no hay más tipos.
De la proposición anterior y del teorema de la base incompleta se deduce:
Corolario. Si W 6= {0} es un subespacio de un espacio vectorial V de dimensión finita > 1 , entonces
todas las bases de W son finitas, y cada una de ellas se puede extender a una base de V .
La proposición anterior se puede utilizar para demostrar que un espacio vectorial concreto no es de
dimensión finita, bien porque tiene un subespacio que no es de tipo finito, porque ningún conjunto finito
de vectores genera el subespacio.
Teorema. (Fórmula de Grassmann de las dimensiones) Sea V un espacio vectorial de dimensión finita
n > 1 sobre K . Sean W y U subespacios de V . Entonces los subespacios W + U y W ∩ U también
son de dimensión finita y
dim(W + U ) = dim W + dim U − dim(W ∩ U ).
Demostración. En primer lugar, los subespacios W + U y W ∩ U tienen dimensión finita, porque son
subespacios vectoriales de un espacio vectorial de dimensión finita.
La demostración de la fórmula es algo larga, pero la idea es sencilla: se parte de una base de W ∩ U ,
si no es el subespacio cero. Esa base se extiende a una base de W y también a una base de U . Entonces
la unión de estas dos bases es una base de W + U . Si la intersección es el subespacio cero, se toma
una base en W y otra en U , y se trata de demostrar que la unión de estas dos bases es una base del
subespacio suma W + U . Ası́ que distinguimos dos casos.
Caso 1:
W ∩ U no es el subespacio cero {0} .
Sea {u1 , . . . , uk } una base de W ∩ U . Como W ∩ U es un subespacio vectorial de W , existen
vectores uk+1 , . . . , ur ∈ W tales que el conjunto {u1 , . . . , uk } ∪ {uk+1 , . . . , ur } es una base de W . Y
como W ∩ U también es un subespacio vectorial de U , existen vectores vk+1 , . . . , vs ∈ U tales que el
conjunto {u1 , . . . , uk } ∪ {vk+1 , . . . , vs } es una base de U . Sea S el conjunto unión de estas dos bases:
S = {u1 , . . . , uk } ∪ {uk+1 , . . . , ur } ∪ {vk+1 , . . . , vs } = {u1 , . . . , uk , uk+1 , . . . , ur , vk+1 , . . . , vs }.
Si demostramos que S es una base de W + U , como S tiene r + (s − k) elementos, dim(W + U ) =
r + (s − k) = dim W + (dim U − dim(W ∩ U )) y obtenemos la igualdad buscada.
87
Espacios vectoriales
Veamos que S es una base de W + U . Primero, S genera W + U : Sea v un vector de W + U .
Sean w ∈ W y u ∈ U tales que v = w + u . Como w está en W , w es combinación lineal de
los vectores u1 , . . . , uk , uk+1 , . . . , ur , porque éstos forman una base de W , y como u es combinación
lineal de los vectores u1 , . . . , uk , vk+1 , . . . , vs , porque éstos forman una base de U . Por tanto, w + u ,
que es el vector v , es combinación lineal de los vectores u1 , . . . , uk , uk+1 , . . . , ur , vk+1 , . . . , vs , esto es,
v ∈ L[S] y W + U = L[S] .
S es un conjunto linealmente independiente: Sean λ1 , . . . , λk , λk+1 , . . . , λr , µk+1 , . . . , µs escalares
de K tales que
λ1 u1 + · · · + λk uk + λk+1 uk+1 + · · · + λr ur + µk+1 vk+1 + · · · + µs vs = 0.
Tenemos
λ1 u1 + · · · + λk uk + λk+1 uk+1 + · · · + λr ur = −µk+1 vk+1 − · · · − µs vs
y el vector del primer miembro pertenece a W y el vector del segundo miembro pertenece a U , y son
iguales, luego ese vector pertenece a la intersección W ∩ U , donde tenemos la base {u1 , . . . , uk } . Por
tanto el vector −µk+1 vk+1 − · · · − µs vs de W ∩ U es combinación lineal de u1 , . . . , uk , es decir, existen
escalares ν1 , . . . , νk ∈ K tales que
−µk+1 vk+1 − · · · − µs vs = ν1 u1 + · · · + νk uk
de donde
ν1 u1 + · · · + νk uk + +µk+1 vk+1 + · · · + µs vs = 0
con {u1 , . . . , uk , vk+1 , . . . , vs } base (luego linealmente independiente) de U , luego
ν1 = . . . = νk = µk+1 = . . . = µs = 0.
Por tanto
λ1 u1 + · · · + λk uk + λk+1 uk+1 + · · · + λr ur = 0
con {u1 , . . . , uk , uk+1 , . . . , ur } base (luego linealmente independiente) de W . Tienen que ser
λ1 = . . . = λk = λk+1 = . . . = λr = 0
y, por consiguiente, S es un conjunto linealmente independiente.
Caso 2:
W ∩ U es el subespacio cero {0} .
Si W = {0} , entonces W + U = U y si U = {0}, W + U = W y no hay nada que demostrar.
Supongamos que ni W ni U son el subespacio {0} . Sea {u1 , . . . , ur } una base de W y sea
{v1 , . . . , vs } una base de U . Veamos que el conjunto unión S = {u1 , . . . , ur } ∪ {v1 , . . . , vs } es una base
de W + U .
En primer lugar, S genera W + U : Sea v un vector de W + U . Sean w ∈ W y u ∈ U
tales que v = w + u . El vector w es combinación lineal de los vectores u1 , . . . , ur y el vector u es
combinación lineal de los vectores v1 , . . . , vs , luego el vector v es combinación lineal de los vectores
u1 , . . . , ur , v1 , . . . , vs que pertenecen a S y, por tanto, L[S] = W + U .
Veamos que S es linealmente independiente. Sean λ1 , . . . , λr , µ1 , . . . , µs escalares tales que
λ1 u1 + · · · + λr ur + µ1 v1 + · · · + µs vs = 0.
Tenemos
λ1 u1 + · · · + λr ur = −µ1 v1 − · · · − µs vs .
El vector del primer miembro pertenece a W1 , el del segundo miembro pertenece a U y son el mismo
vector, luego pertenece a W ∩ U que es el subespacio {0} , ası́ que el vector es el vector cero y tenemos
λ1 u1 + · · · + λr ur = 0
y
µ1 v1 + · · · + µs vs = 0.
Como los vectores u1 , . . . , ur son linealmente independientes y como también lo son los vectores
v1 , . . . , vs , resulta λ1 = · · · = λr = µ1 = · · · = µs = 0 , como querı́amos demostrar.
Entonces W + U tiene una base con r + s vectores y su dimensión es, por tanto, r + s :
dim(W + U ) = dim W + dim U = dim W + dim U − dim(W ∩ U ).
88
Álgebra lineal
Ejemplos. La fórmula de Grassmann permite determinar las ‘posiciones relativas’ de dos subespacios de
un espacio vectorial de dimensión finita. Dejamos aparte los casos de los subespacios cero {0} e impropio.
(a) En K2 , si tenemos dos subespacios de dimensión 1 , o son iguales o su intersección es el subespacio
cero {0} y su suma es el espacio entero K2 .
(b) En K3 ,
• dos rectas vectoriales, es decir, dos subespacios de dimensión 1, o son iguales (e iguales a su
intersección y a su suma) o su intersección es el subespacio cero y su suma es un plano vectorial;
• una recta vectorial y un plano vectorial, o la recta está contenida en el plano (y su intersección
es la recta, y su suma es el plano) o la recta no está incluida en el plano ( y su intersección es
el subespacio cero {0} y su suma es el espacio entero K3 ;
• dos planos vectoriales, o son iguales (y por tanto iguales a su intersección y a su suma) o no lo
son, y en este caso, su intersección es una recta vectorial y su suma es el espacio entero.
Suma directa de subespacios
Suma directa de dos subespacios
Se dice que el subespacio suma W + U de dos subespacios vectoriales W y U de V es suma directa
de W y U si el subespacio intersección W ∩ U es el subespacio {0} , o con otras palabras, si el único
vector que W y U tienen en común es el vector 0 .
La notación para expresar que el subespacio suma W + U de W y U es suma directa es W ⊕ U .
Ejemplos. (a) Si u y v son dos vectores linealmente independientes de un espacio vectorial V , entonces
la suma L[u] + L[v] es directa: al no ser proporcionales, el único vector que es proporcional a u y
proporcional a v es el vector nulo 0 , luego el subespacio intersección de las dos rectas vectoriales es el
subespacio cero {0} .
(b) La única matriz cuadrada de orden n > 1 que es simétrica y antisimétrica es la matriz nula 0n .
Por tanto el subespacio suma
{A ∈ Mn (K) | A es simétrica} + {A ∈ Mn (K) | A es antisimétrica}
es suma directa. Sabemos también que el subespacio suma es el espacio entero Mn (K) , porque cada
matriz de orden n es suma de una matriz simétrica y una matriz antisimétrica.
(c) El único polinomio de R[X] que es par e impar es el polinomio nulo, ası́ que el subespacio suma
{p(X) ∈ R[X] | p(X) es par} + {p(X) ∈ R[X] | p(X) es impar}
es suma directa. También aquı́ el subespacio suma es el espacio entero R[X] .
(d) El subespacio suma
{A ∈ Mn (K) | A es triangular superior} + {A ∈ Mn (K) | A es triangular inferior}
no es suma directa, porque el subespacio intersección de los dos subespacios es el subespacio de las
matrices diagonales de orden n , y no el subespacio cero {0}.
(e) El subespacio suma
{A ∈ Mn (K) | A es triangular superior} + {A ∈ Mn (K) | A es triangular inferior estricta}
es suma directa, porque sólo hay una matriz de orden n que sea triangular superior y triangular inferior
estricta, la matriz cero 0n .
La siguiente proposición da varias caracterizaciones sencillas, alguna consecuencia de la fórmula de
Grassmann, de cuándo un subespacio suma de otros dos subespacios es suma directa:
89
Espacios vectoriales
Proposición. Sean W y U dos subespacios vectoriales de un espacio vectorial V de dimensión finita
n > 1 sobre K . Los enunciados siguientes son equivalentes:
(a) el subespacio suma W + U es suma directa de W y U ;
(b) dim(W + U ) = dim W + dim U ;
(c) si B es una base de W y B0 es una base de U , entonces B ∪ B0 es una base de W + U , y
(d) cada vector de W + U se expresa de una sola forma como suma de
(un vector de W ) + (un vector de U ).
Demostración. (a) ⇒ (b) Si W + U es suma directa, W ∩ U tiene dimensión cero, porque es el
subespacio {0} , y por la fórmula de Grassmann de las dimensiones:
dim(W + U ) = dim W + dim U − dim(W ∩ U ) = dim W + dim U − 0 = dim W + dim U .
(b) ⇒ (c) Sean B y B0 bases de W y U , respectivamente. En primer lugar, el conjunto B ∪ B0
genera el subespacio suma W + U : porque cada vector de W + U es suma de un vector de W y
un vector de U , luego de un vector que es combinación lineal de los vectores de B y un vector que
es combinación lineal de los vectores de B0 , y el vector suma es combinación lineal de los vectores de
B ∪ B0 .
Como B ∪ B0 genera W + U , hay una base de este subespacio suma incluida en B ∪ B0 . Si esa
base no es el conjunto unión B ∪ B0 , es un subconjunto propio y su número de elementos, esto es, la
dimensión de W + U , es estrictamente menor que dim W + dim U , lo que va contra la hipótesis (b).
(c) ⇒ (d) Supongamos que hay un vector v en W + U que se expresa de dos formas como suma
de un vector de W y un vector de U :
v = w + u = w0 + u0 con w, w0 ∈ W
y u, u0 ∈ U .
Entonces w − w0 = u0 − u es un vector de W y de U . Si este vector w − w0 no es el vector cero 0 ,
hay una base B de W de la que es un elemento, y hay una base B0 de U a la que pertenece el vector
−(w − w0 ) = u − u0 . Por (c), el conjunto unión B ∪ B0 es una base de W + U . Pero no lo es, porque
no es un conjunto linealmente independiente, al tener entre sus elementos a los vectores proporcionales
w − w0 y −(w − w0 ) = u − u0 .
(d) ⇒ (a) Sea v un vector de W ∩ U . Hay que demostrar que v = 0 . Tenemos v = 0 + v
expresado como suma de un vector de W y otro de U , y también v = v + 0 como suma de un vector
de W y otro de U . Por la unicidad de la expresión y v + 0 = 0 + v , se tiene 0 = v , como querı́amos
demostrar.
Ejemplos. (a) En K2 el subespacio suma de dos rectas vectoriales distintas es suma directa. Lo mismo
ocurre en Kn , con n > 3 . El subespacio suma es un plano vectorial.
(b) En K3 el subespacio suma de un plano vectorial y una recta vectorial que no está incluida en el
plano es suma directa. El subespacio suma tiene dimensión 3 y es el espacio entero.
(c) En K3 no hay dos planos vectoriales cuya suma sea directa, porque el subespacio intersección
tiene por lo menos dimensión 1 , ya que el subespacio suma tiene, como mucho, la dimensión del espacio,
3.
(d) En K4 no hay ningún plano e hiperplano vectoriales cuya suma sea directa, porque la dimensión
de su intersección es, al menos 1, ya que la dimensión de la suma está acotada por la dimensión del
espacio, 4. Pero sı́ hay pares de planos vectoriales que sólo tienen en común el vector cero, por ejemplo,
L[(1, 0, 0, 0), (0, 1, 0, 0)] y L[(0, 0, 1, 0), (0, 0, 0, 1)].
Suma directa de n > 2 subespacios
La extensión de la definición de suma directa de dos subespacios a suma directa de n > 2 subespacios
no es tan inmediata como en los casos de la intersección y de la suma:
Sean W1 , . . . , Wn subespacios vectoriales de V . Se dice que el subespacio W1 + · · · + Wn es suma
directa de W1 , . . . , Wn si para cada i = 1, . . . , n ,
Wi ∩ (W1 + · · · + Wi−1 + Wi+1 + · · · + Wn ) = {0}.
Para n = 2 , la definición coincide con la que se ha dado más arriba.
90
Álgebra lineal
Para n = 3 , el subespacio suma W1 + W2 + W3 de tres subespacios vectoriales es suma directa si
se cumplen las tres condiciones
W1 ∩ (W2 + W3 ) = {0},
W2 ∩ (W1 + W3 ) = {0}
y
W3 ∩ (W1 + W2 ) = {0}.
Obsérvese que estas tres condiciones no equivalen a W1 ∩ W2 ∩ W3 = {0}.
Por ejemplo, en R3 , los subespacios
W1 = L[(1, 0, 0)],
W2 = L[(0, 1, 0)]
y
W3 = L[(1, 1, 0)]
son tales que W1 ∩ W2 ∩ W3 = {(0, 0, 0)} pero W3 ∩ (W1 + W2 ) = W3 .
La notación para expresar que el subespacio suma W1 + · · · + Wn de los subespacios W1 , . . . , Wn
es suma directa, es W1 ⊕ · · · ⊕ Wn .
La proposición siguiente es la forma general de las caracterizaciones de suma directa de dos subespacios al caso de n subespacios:
Proposición. Sean W1 , . . . , Wn subespacios de un espacio vectorial V de dimensión finita n > 1 sobre
K . Los enunciados siguientes son equivalentes:
(a) el subespacio suma W1 + · · · + Wn es suma directa de W1 , . . . , Wn ;
(b) dim(W1 + · · · + Wn ) = dim W1 + · · · + dim Wn ;
(c) si B1 , . . . , Bn son bases de los subespacios W1 , . . . , Wn , respectivamente, entonces el conjunto
unión B1 ∪ . . . ∪ Bn es una base de W1 + · · · + Wn , y
(d) cada vector v de W1 + · · · + Wn se expresa de manera única como suma de
(un vector de W1 ) + (un vector de W2 ) + . . . + (un vector de Wn ).
Demostración. (a) ⇒ (b) Por inducción en el número n > 1 de subespacios.
(1) Para n = 1 , no hay nada que demostrar: es dim W1 = dim W1 .
(2) Sea n > 1 y supongamos que se cumple para n subespacios de V . Demostramos que se cumple
para n + 1 : Sean W1 , . . . , Wn , Wn+1 subespacios de V tales que el subespacio suma W1 + · · · + Wn +
Wn+1 es suma directa de W1 , . . . , Wn , Wn+1 . Como W1 +· · ·+Wn +Wn+1 = (W1 +· · ·+Wn )+Wn+1 ,
por la fórmula de Grassmann
dim(W1 + · · · + Wn + Wn+1 ) = dim((W1 + · · · + Wn ) + Wn+1 )
= dim(W1 + · · · + Wn ) + dim(Wn+1 ) − dim((W1 + · · · + Wn ) ∩ Wn+1 )
= dim(W1 + · · · + Wn ) + dim(Wn+1 ) − 0
= dim W1 + · · · + dim Wn + dim Wn+1
por la hipótesis
por la hipótesis de inducción,
como querı́amos demostrar.
(b) ⇒ (c) Tenemos que demostrar que el conjunto unión B1 ∪. . .∪Bn es una base de W1 +· · ·+Wn .
Sabemos que ese conjunto unión es un conjunto de generadores del subespacio suma W1 + · · · + Wn . Por
tanto, hay una base del subespacio suma incluida en ese conjunto unión. Esa base tiene que ser todo el
conjunto unión B1 ∪ . . . ∪ Bn , porque si fuese un subconjunto propio, la dimensión del subespacio suma,
que es el número de elementos de esa base, serı́a estrictamente menor que la suma de las dimensiones de
los subespacios, contra la hipótesis.
(c) ⇒ (d) Supongamos que v = w1 + · · · + wn = w10 + · · · + wn0 , con wi , wi0 ∈ Wi para cada
i = 1, . . . , n . Queremos demostrar que wi = wi0 para cada i = 1, . . . , n . Si hay un i = 1, . . . , n tal
que wi 6= wi0 , entonces el vector wi − wi0 es un vector no nulo de Wi , y hay una base Bi de
Wi a la que pertenece ese vector. Tomamos ahora bases B1 , . . . , Bi−1 , Bi+1 , . . . , Bn de los subespacios
W1 , . . . , Wi−1 , Wi+1 , . . . , Wn , respectivamente. Como
0
0
wi − wi0 = (w10 − w1 ) + · · · + (wi−1
− wi−1 ) + (wi+1
− wi+1 ) + · · · + (wn0 − wn )
con wj0 −wj ∈ Wj , para cada j = 1, . . . , i−1, i+1, . . . , n , el vector wi −wi0 es combinación lineal de los
vectores del conjunto B1 ∪ · · · ∪ Bi−1 ∪ Bi+1 ∪ · · · ∪ Bn , y entonces en el conjunto unión B1 ∪ . . . ∪ Bn de
las n bases hay un vector, wi −wi0 , que es combinación lineal de los demás, el conjunto no es linealmente
91
Espacios vectoriales
independiente, y no es base del subespacio suma. Ası́ que debe ser wi = wi0 , para cada i = 1, . . . , n , y
se tiene (d).
(d) ⇒ (a) En la hipótesis de la unicidad de la expresión, tenemos que demostrar que
Wi ∩ (W1 + · · · + Wi−1 + Wi+1 + · · · + Wn ) = {0}
para cada i = 1, . . . , n. Sea wi un vector de esa intersección. Como wi pertenece al subespacio suma,
existen vectores wj ∈ Wj para cada j = 1, . . . , i − 1, i + 1, . . . , n tales que
wi = w1 + · · · + wi−1 + wi+1 + · · · + wn ,
luego
0 = w1 + · · · + wi−1 − wi + wi+1 + · · · + wn .
Por otra parte también podemos expresar el vector cero 0 como 0 = 0 + . . . 0 + 0 + 0 + . . . + 0 y
0 ∈ Wi para todo i = 1, . . . , n , luego por la unicidad de la expresión, debe ser wi = 0 , que es lo que
buscábamos.
Una propiedad de las bases de un espacio vectorial de dimensión finita en términos de sumas directas:
Sea B = {v1 , . . . , vn } una base de V . Entonces
V = L[B] = L[v1 , . . . , vn ] = L[v1 ] ⊕ · · · ⊕ L[vn ].
Es bien fácil de demostrar con la caracterización (b):
(n
dim V = dim L[B] = dim L[v1 , . . . , vn ] = n = dim L[v1 ] + · · · + dim L[vn ] = 1+ · · · +1.
Ejemplos. (a) En K3 ,
K3 = L[(1, 0, 0)] ⊕ L[(0, 1, 0)] ⊕ L[(0, 0, 1)].
Y en general, en Kn ,
Kn = L[(1, 0, . . . , 0)] ⊕ L[(0, 1, 0, . . . , 0)] ⊕ · · · ⊕ L[(0, · · · , 0, 1)].
(b) El subespacio suma
{A ∈ Mn (K) | A es triangular superior estricta}
+ {A ∈ Mn (K) | A es diagonal}
+ {A ∈ Mn (K) | A es triangular inferior estricta}
es suma directa.
Subespacios suplementarios
Sea V un espacio vectorial sobre un cuerpo K y sean W y U subespacios de V . Se dice que W y
U son subespacios suplementarios, o que uno es un subespacio suplementario del otro, si se cumplen dos
condiciones:
(i) el subespacio suma W + U es el espacio V , V = W + U , y
(ii) el subespacio intersección es el subespacio cero, W ∩ U = {0} , esto es, la suma es directa,
o, con muchas menos palabras, si el espacio V es suma directa de los subespacios W y U , en sı́mbolos,
V =W ⊕U .
Cuando V = W ⊕ U , sabemos que cada vector de V se expresa como suma de
(un vector de W ) + (un vector de U ),
y de una sola forma, esto es, si v es un vector de V y w, w0 ∈ W , u, u0 ∈ U son tales que
w + u = w0 + u0 , entonces w = w0 y u = u0 .
Ejemplos. (a) En K2 las rectas vectoriales L[(1, 0)] y L[(0, 1)] son subespacios suplementarios.
v =
92
Álgebra lineal
(b) En el espacio vectorial Mn (K) el subespacio de las matrices simétricas y el subespacio de las
matrices antisimétricas son suplementarios.
(c) En el espacio vectorial Mn (K) el subespacio de las matrices triangulares superiores y el subespacio de las matrices triangulares inferiores estrictas son suplementarios.
(d) En ele espacio vectorial K[X] el subespacio de los polinomios pares y el subespacio de los
polinomios impares son suplementarios.
De las caracterizaciones de la suma directa de dos subespacios que se han demostrado más arriba se
deduce el siguiente
Corolario. Sea V un espacio vectorial de dimensión finita n > 1 sobre K. Sean W y U dos
subespacios de V . Los enunciados siguientes son equivalentes:
(a) V = W ⊕ U , esto es, W y U son suplementarios;
(b) V = W + U
y dim V = dim W + dim U , y
(c) W ∩ U = {0} y dim V = dim W + dim U .
Ejemplos. (a) En un espacio vectorial de dimensión 2, un subespacio suplementario de una recta vectorial
dada es cualquier recta vectorial distinta de la recta vectorial dada.
(b) En un espacio vectorial de dimensión 3, un subespacio suplementario de un plano vectorial dado es
cualquier recta vectorial que no está incluida en el plano vectorial dado. Y recı́procamente, un subespacio
suplementario de una recta vectorial dada es cualquier plano vectorial que no incluya a la recta dada.
No hay dos rectas vectoriales que sean subespacios suplementarios, y tampoco hay dos planos vectoriales
que sean subespacios suplementarios.
(c) En un espacio vectorial de dimensión 4 , un subespacio suplementario de un hiperplano vectorial
dado es cualquier recta vectorial que no esté incluida en el hiperplano dado. Un subespacio suplementario
de un plano vectorial es cualquier plano vectorial que sólo tenga en común con el plano dado el vector
nulo. No hay dos rectas vectoriales suplementarias. No hay dos hiperplanos vectoriales suplementarios.
Un subespacio W de un espacio vectorial V , ¿tiene siempre un subespacio suplementario?
Proposición. Sea V un espacio vectorial de dimensión finita n > 1 sobre K y sea W un subespacio
de V . Hay un subespacio vectorial U de V que es suplementario de W .
Demostración. Si W es el subespacio {0} , entonces V es suplementario de W .
Si W 6= {0} , sea {w1 , . . . , wr } una base de W . Por el teorema de la base incompleta, existen
n − r vectores wr+1 , . . . , wn en V tales que {w1 , . . . , wr } ∪ {wr+1 , . . . , wn } es una base de V . Sea
U = L[wr+1 , . . . , wn ] . Entonces {wr+1 , . . . , wn } es base de U , W + U = V y W ∩ U = {0} , es decir,
el subespacio U es suplementario de W .
Obsérvese que esta demostración proporciona un método para hallar un subespacio suplementario
de un subespacio dado de un espacio vectorial de dimensión finita.
Ejemplos. (a) Sea W = {(x, y, z, t) ∈ R4 | x + 2y − z + t = 0} . El subespacio W tiene dimensión 3 ,
porque, por ejemplo, B = {(2, −1, 0, 0), (1, 0, 1, 0), (1, 0, 0, −1)} es una base de W : son tres vectores
linealmente independientes en W . Por el teorema de la base incompleta, hay al menos un vector en la
base estándar de R4 que junto con los tres de B forma una base de R4 . Se comprueba que un vector
que cumple esta condición es el vector (1, 0, 0, 0) . Entonces la recta vectorial U = L[(1, 0, 0, 0)] es un
subespacio suplementario de W . También la recta vectorial L[(0, 0, 0, 1)] es un subespacio suplementario
de W .
(b) Sea W = {p(X) ∈ R63 [X] | p(1) = 0} el subespacio de los polinomios reales de grado 6 3 para
los que 1 es una raı́z. El subespacio W tiene dimensión 3 , porque {X 3 −1, X 2 −1, X −1} es un conjunto
linealmente independiente de tres vectores de W . Por el teorema de la base incompleta, hay un vector
en la base {1, X, X 2 , X 3 } que con los tres vectores anteriores forma una base de R63 [X] . Un vector
que tiene esa propiedad es el vector 1 , luego por la demostración de la proposición, L[1] , el subespacio
de los polinomios constantes, es un subespacio suplementario de W . Otro subespacio suplementario de
W es L[X] . Y como el vector X 2 también tiene la propiedad anterior, la recta vectorial L[X 2 ] es otro
subespacio suplementario de W . Y también lo es L[X 3 ] .
De la misma demostración de la última proposición se deduce que, en general, para un subespacio
de un espacio vectorial de dimensión finita hay muchos subespacios suplementarios.
3. Aplicaciones lineales
Aplicaciones lineales
Sean V y V 0 espacios vectoriales sobre el mismo cuerpo K . En cada uno de estos espacios vectoriales
tenemos la correspondiente suma de vectores y el correspondiente producto de escalares por vectores.
Teniendo esto en cuenta, debe resultar natural que en Álgebra lineal, de todas las aplicaciones de V en
V 0 , las que tienen mayor interés, sean las aplicaciones que “respetan” las dos operaciones, la suma de
vectores y el producto por escalares, en el sentido siguiente:
• Si el vector u de V es el vector v + w suma de los vectores v y w , entonces la imagen
f (u) = f (v + w) de u por f es el vector f (v) + f (w) , suma de las imágenes de los vectores v y w , y
• si el vector u de V es el vector λv producto del escalar λ por el vector v , entonces la imagen
f (u) = f (λv) de u por f es el vector λf (v) , producto del escalar λ por la imagen f (v) de v por
f.
Las aplicaciones que “respetan” las dos operaciones en el sentido anterior se llaman aplicaciones
lineales y la definición es:
Sea f : V −−→ V 0 una aplicación de V en V 0 . Se dice que f es una aplicación lineal de V en
V 0 si
(1) f (v + u) = f (v) + f (u)
para cualesquiera v, u ∈ V , y
(2) f (λv) = λf (v)
para todo v ∈ V y todo λ ∈ K .
Las aplicaciones lineales de V en V 0 también se llaman homomorfismos de V en V 0 .
La conjunción de las condiciones (1) y (2) equivale a la siguiente condición, que a veces viene mejor
a la hora de comprobar que una aplicación entre espacios vectoriales es lineal:
para cualesquiera v, u ∈ V y λ, µ ∈ K .
(3) f (λv + µu) = λf (v) + µf (u)
En efecto, las condiciones (1) y (2) implican (3):
f (λv + µu) = f (λv) + f (µu)
por (1)
= λf (v) + µf (u)
por (2).
Y la condición (3) implica (1) y (2):
f (v + u) = f (1v + 1u)
= 1f (v) + 1f (u)
= f (v) + f (u),
f (λv) = f (λv + 0v)
por (3)
luego (1).
= λf (v) + 0f (v)
= λf (v),
por (3)
luego (2).
Consecuencias inmediatas
De las condiciones de la definición de aplicación lineal se obtienen varias consecuencias inmediatas, que
es importante señalar:
Sea f : V −−→ V 0 una aplicación lineal de V en V 0 . Entonces
I (a) f (0V ) = 0V0 , en palabras, la imagen del vector nulo de V por f es el vector cero de V 0 :
f (0V ) = f (0V + 0V ) = f (0V ) + f (0V ),
luego f (0V ) = 0V0 .
Por tanto, una aplicación de V en V 0 que en el vector nulo de V no tenga como valor el vector
nulo de V 0 no puede ser lineal.
I (b) Para cada vector v ∈ V ,
f (−v) = −f (v),
vector es el opuesto de la imagen del vector:
en palabras: la imagen del opuesto de un
f (−v) = f ((−1)v) = (−1)f (v) = −f (v).
94
Álgebra lineal
I (c) Para todo n > 1 , para cualesquiera v1 , . . . , vn ∈ V y λ1 , . . . , λn ∈ K ,
f (λ1 v1 + · · · + λn vn ) = λ1 f (v1 ) + · · · + λn f (vn ).
La demostración es por inducción sobre n > 1 :
(i) Para n = 1 , se tiene f (λ1 v1 ) = λ1 f (v1 ) , porque f es lineal.
(ii) Sea n un número natural > 1 , y supongamos que se cumple para cualesquiera n vectores y n
escalares. Veamos que se cumple para cualesquiera n+1 vectores y n+1 escalares: sean v1 , . . . , vn+1 ∈ V
y λ1 , . . . , λn+1 ∈ K . Tenemos
f (λ1 v1 + · · · + λn vn + λn+1 vn+1 ) = f ((λ1 v1 + · · · + λn vn ) + λn+1 vn+1 )
= f (λ1 v1 + · · · + λn vn ) + f (λn+1 vn+1 )
por (b)
= λ1 f (v1 ) + · · · + λn f (vn ) + λn+1 f (vn+1 ),
el último paso por la hipótesis de inducción.
Ejemplos.
(1) La aplicación f : V −−→ V 0 que en cada vector v de V toma como valor el vector cero 0 de
V , esto es, f (v) = 0V0 , para todo v ∈ V , es lineal: para cualesquiera v, u ∈ V y λ, µ ∈ K,
0
f (λv + µu) = 0 = 0 + 0 = λ0 + µ0 = λf (v) + µf (u).
Esta aplicación se llama aplicación lineal constante cero de V en V 0 .
(2) La aplicación identidad idV : V −−→ V definida por: idV (v) = v , para cada v ∈ V , es una
aplicación lineal de V en V : para cualesquiera v, u ∈ V y λ, µ ∈ K,
idV (λv + µu) = λv + µu = λidV (v) + µidV (u).
Esta aplicación es la aplicación lineal identidad de V .
(3) Para cada a ∈ R , la aplicación f : R −−→ R definida por f (x) = ax , para cada x ∈ R , es
lineal. Más general,
(4) Si λ es un escalar, la aplicación f : V −−→ V definida por: f (v) = λv , para cada v ∈ V , es
una aplicación lineal: para cualesquiera v, w ∈ V y µ ∈ K,
f (v + w) = λ(v + w) = λv + λw = f (v) + f (w),
y
f (µv) = λ(µv) = (λµ)v = µ(λv) = µf (v).
Si λ = 0 , la aplicación f es la aplicación lineal constante cero de V en V del ejemplo (1). Si λ = 1, f
es la aplicación lineal identidad idV del espacio V del ejemplo (2). Si λ 6= 0, esta aplicación lineal f
recibe el nombre de homotecia vectorial de V de razón λ . La aplicación identidad de V es la homotecia
vectorial de razón 1 .
(5) Sean a1 , a2 , . . . , an elementos de K . La aplicación f : Kn −−→ K definida por
f (x1 , x2 , . . . , xn ) = a1 x1 + a2 x2 + · · · + an xn
para cada (x1 , x2 , . . . , xn ) ∈ Kn , es una aplicación lineal de Kn en K . En efecto, si (x1 , x2 , . . . , xn ) e
(y1 , y2 , . . . , yn ) ∈ Kn y λ, µ ∈ K , entonces
f (λ(x1 , x2 , . . . , xn ) + µ(y1 , y2 , . . . , yn )) = f (λx1 + µy1 , λx2 + µy2 , . . . , λxn + µyn )
= a1 (λx1 + µy1 ) + a2 (λx2 + µy2 ) + · · · + an (λxn + µyn )
= λ(a1 x1 + a2 x2 + · · · + an xn ) + µ(a1 y1 + a2 y2 + · · · + an yn )
= λf (x1 , x2 , . . . , xn ) + µf (y1 , y2 , . . . , yn ).
Ası́, por ejemplo, la aplicación f : R3 −−→ R definida por
f (x, y, z) = 2x − y + 3z
para cada (x, y, z) ∈ R3 ,
es una aplicación lineal. Y la aplicación g : C2 −−→ C dada por
g(x, y) = (2 − i)x + iy
para cada (x, y) ∈ C2 ,
95
Aplicaciones lineales
es lineal.
(6) La aplicación f : K3 −−→ K2 definida por
para cada (x, y, z) ∈ K3
f (x, y, z) = (2x − y + z, x + 5z),
es una aplicación lineal. También lo es la aplicación g : K2 −−→ K3 dada por
g(x, y) = (x, x − y, x + y), para cada (x, y) ∈ K2 .
Y también lo es la aplicación f : K5 −−→ K4 definida por
f (x, y, z, t, u) = (3x − 2y + z − t − u, 2x + 2y + 5z − 3t + 7u, x − y − z + 2t + 8u, −x + y − z + t + u),
para cada (x, y, z, t, u) ∈ K5 . En general:
(7) La aplicación f : Kn −−→ Km definida por:
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
para cada (x1 , . . . , xn ) de Kn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
es un aplicación lineal de Kn en Km . En esa expresión, a11 , . . . , a1n , a21 , . . . , a2n , . . . . . . , am1 , . . . , amn
son m·n elementos dados de K , por ejemplo, los elementos de una matriz dada A = (aij ) de Mm×n (K).
(8) Sea A = (aij )m×n una matriz de
definida por:
 
  
x1
x1
a11 a12
 x2 
 x2   a21 a22
 .  7−→ A ·  .  =  .
..
 .. 
 ..   ..
.
am1 am2
xn
xn
Mm×n (K) . La aplicación fA : Mn×1 (K) −−→ Mm×1 (K)
···
···
..
.
···
  

a1n
x1
a11 x1 + a12 x2 + · · · + a1n xn
a2n   x2   a21 x1 + a22 x2 + · · · + a2n xn 
 . =

.. 
..

.   ..  
.
amn
xn
am1 x1 + am2 x2 + · · · + amn xn
es una aplicación lineal del espacio Mn×1 (K) de n -vectores columna en el espacio Mm×1 (K) de m vectores columna de elementos de K .
(9) Sea a un elemento de K . La aplicación f : K[X] −−→ K definida por:
f (p(X)) = p(a) ,
para cada p(X) ∈ K[X],
es una aplicación lineal de K[X] en K . Esta aplicación lineal se llama aplicación evaluación en a.
(10) Sean a1 , a2 , . . . , an elementos de K . La aplicación f : K[X] −−→ Kn definida por
f (p(X)) = (p(a1 ), p(a2 ), . . . , p(an ))
para cada p(X) ∈ K[X],
es una aplicación lineal de K[X] en Kn y se llama aplicación evaluación en a1 , a2 , . . . , an .
(11) La aplicación derivada D : K[X] −−→ K[X] , que transforma cada polinomio
p(X) = an X n + an−1 X n−1 + · · · + a2 X 2 + a1 X + a0
de K[X] en el polinomio derivado
D(p(X)) = p0 (X) = nan X n−1 + (n − 1)an−1 X n−2 + · · · + 2a2 X + a1
de p(X) , es una aplicación lineal de K[X] en sı́ mismo.
(12) La aplicación de Mm×n (K) en Mn×m (K) , que en cada matriz A de tamaño m × n toma
como valor la matriz traspuesta At de la matriz A , es una aplicación lineal, porque, como ya sabemos,
para cualesquiera matrices A y B de tamaño m × n y escalar λ,
(A + B)t = At + B t
y
(λA)t = λAt .
(13) Sea C 1 (I, R) el espacio vectorial real de las funciones reales con derivada continua en un intervalo
abierto I de la recta real, y sea C(I, R) el espacio vectorial real de las funciones reales continuas en I .
La aplicación D : C 1 (I, R) −−→ C(I, R) definida por
D(f ) = f 0
la función derivada de f,
para cada f ∈ C 1 (I, R),
es una aplicación lineal de C 1 (I, R) en C(I, R). (Recuérdese: la derivada de una suma de funciones
derivables es la suma de las derivadas, y la derivada del producto de un número real por una función
derivable es el número real por la derivada de la función.)
(14) Sea C([a, b], R) el espacio vectorial real de las funciones reales continuas en un intervalo cerrado
[a, b]. La aplicación I : C([a, b], R) −−→ R definida por
96
Álgebra lineal
Z
I(f ) =
a
f
la integral de f en [a, b],
para cada f ∈ C([a, b], R)
b
es una aplicación lineal de C([a, b], R en R . (Recuérdese: la integral de una suma de funciones integrables
es la suma de las integrales, y la integral del producto de un número real por una función integrable es
el número real por la integral de la función.)
(15) Sea V el espacio vectorial de los vectores del plano de la geometrı́a elemental con origen en un
−→
punto O . El giro o rotación en V de centro O y ángulo α que transforma cada vector OA no nulo
−−→0
−→
del espacio en el vector OA con la misma longitud y el mismo sentido que OA , y tal que el ángulo
^AOA0 que forman las semirrectas OA y OA0 es igual al ángulo α , (tomado en el sentido contrario
a las agujas del reloj, si α es positivo, y en el sentido de las agujas del reloj, si α es negativo) es una
aplicación lineal de V en sı́ mismo.
(16) Sea W una recta vectorial del espacio V del ejemplo anterior. La aplicación de V en V
definida por
−−→
−→
−→
OA 7−→ el vector simétrico OA0 del vector OA respecto de la recta W
es una aplicación lineal de V en sı́ mismo. (El punto A0 es el punto determinado por la condición de
que la recta W es la mediatriz del segmento AA0 .)
(17) Sea V el espacio vectorial de los vectores del espacio de la geometrı́a elemental con origen en
un punto O . Sea W un plano vectorial de V . La aplicación de V en V definida por
−−→
−→
−→
OA 7−→ el vector proyección ortogonal OA0 del vector OA sobre el plano W
es una aplicación lineal de V en sı́ mismo. (El punto A0 es el punto de corte del plano W con la recta
que pasa por A y es perpendicular a W . )
Primeras propiedades
Las aplicaciones lineales conservan la dependencia lineal de vectores:
Proposición. Sea f : V −−→ V 0 una aplicación lineal. Sean v1 , . . . , vk vectores linealmente dependientes de V . Entonces los vectores f (v1 ), . . . , f (vk ) de V 0 también son linealmente dependientes.
Cuidado: Si v1 , . . . , vk son vectores linealmente independientes de V , los vectores f (v1 ), . . . , f (vk ) no
son necesariamente linealmente independientes.
Por ejemplo, con la aplicación lineal f : R2 −−→ R2 definida por
f (x, y) = (x − 2y, −2x + 4y) para cada (x, y) ∈ R2 ,
los vectores linealmente independientes (1, 0), (0, 1) del dominio se transforman en f (1, 0) = (1, −2) y
f (0, 1) = (−2, 4), que son proporcionales y linealmente dependientes.
O, por poner otro ejemplo, si para uno de los vectores vi se tiene f (vi ) = 0 , entonces entre los
vectores f (v1 ), . . . , f (vk ) se encuentra el vector 0 , que es combinación lineal de los restantes, y los
vectores f (v1 ), . . . , f (vk ) no pueden ser linealmente independientes: los vectores (1, 0) y (2, 1) son
linealmente independientes y por la misma aplicación lineal f, f (1, 0) = (1, −2) y f (2, 1) = (0, 0).
Demostración. Como v1 , . . . , vk son linealmente dependientes, existen escalares λ1 , . . . , λk en K , no
todos iguales a cero, tales que λ1 v1 + · · · + λk vk = 0V . Entonces
λ1 f (v1 ) + · · · + λk f (vk ) = f (λ1 v1 + · · · + λk vk ) = f (0V ) = 0V0 ,
y se tiene el vector cero de V 0 como combinación lineal no trivial de los vectores f (v1 ), . . . , f (vk ) , luego
éstos son linealmente dependientes.
Por una aplicación lineal, los subespacios del espacio de partida se transforman en subespacios del
espacio de llegada:
Proposición. Sea f : V −−→ V 0 una aplicación lineal. Sea U un subespacio de V . Entonces
f [U ] = {f (v) | v ∈ U },
la imagen de U por f , es un subespacio de V 0 (llamado subespacio imagen de U por f ).
97
Aplicaciones lineales
Demostración. El vector nulo de V 0 pertenece a f [U ] , y este conjunto es no vacı́o, porque f (0V ) = 0V0 .
Sean w y w0 vectores de f [U ] y sean λ, µ escalares de K . Existen vectores v y v 0 en U tales que
f (v) = w y f (v 0 ) = w0 . Entonces
λw + µw0 = λf (v) + µf (v 0 ) = f (λv + µv 0 )
y el vector λv + µv 0 está en U , por ser U subespacio, luego el vector λw + µw0 pertenece a f [U ] . Las aplicaciones lineales transforman conjuntos generadores de subespacios en conjuntos generadores
de los subespacios imagen:
Proposición. Sea f : V −−→ V 0 una aplicación lineal. Sean v1 , . . . , vk vectores de V que generan un
subespacio U . Entonces los vectores f (v1 ), . . . , f (vk ) generan el subespacio imagen f [U ] .
Demostración. Sea w un vector de f [U ] . Hay al menos un vector u en U tal que w = f (u). Como
los vectores v1 , . . . , vk generan U , hay escalares λ1 , . . . , λk en K tales que u = λ1 v1 + · · · + λk vk .
Entonces
w = f (u) = f (λ1 v1 + · · · + λk vk ) = λ1 f (v1 ) + · · · + λk f (vk )
y w es combinación lineal de f (v1 ), . . . , f (vk ) .
En particular, si B = {v1 , v2 , . . . , vk } es una base de U entonces
f [U ] = L[f (v1 ), f (v2 ), . . . , f (vk )]
y {f (v1 ), f (v2 ), . . . , f (vk )} es un conjunto de generadores (no necesariamente una base) del subespacio
imagen f [U ] . Ası́ que si U tiene dimensión finita, dim f [U ] 6 dim U .
La proposición siguiente muestra que para cada subespacio U 0 del espacio de llegada, el conjunto de
los vectores v del espacio de partida cuya imagen f (v) pertenece a U 0 es un subespacio del dominio.
Proposición. Sea f : V −−→ V 0 una aplicación lineal. Sea U 0 un subespacio de V 0 . Entonces
f −1 [U 0 ] = {v ∈ V | f (v) ∈ U 0 },
es un subespacio de V (llamado subespacio imagen inversa de U 0 por f ).
Demostración. El vector nulo de V pertenece a f −1 [U 0 ] , y este conjunto es no vacı́o, porque f (0V ) =
0V0 y el vector 0V0 pertenece a U 0 . Sean v, v 0 vectores de f −1 [U 0 ] y sean λ, µ escalares de K . El
vector λv + µv 0 también pertenece a f −1 [U 0 ] , porque f (λv + µv 0 ) = λf (v) + µf (v 0 ) pertenece a U 0 ,
por ser U 0 subespacio de V 0 .
La notación f −1 [U 0 ] para indicar el subespacio imagen inversa del subespacio U 0 por la aplicación
lineal f utiliza el sı́mbolo f −1 , que es el sı́mbolo de la aplicación inversa de la aplicación f. La aplicación
inversa f −1 existe si f es biyectiva. Podrı́a parecer entonces que el subespacio imagen inversa f −1 [U 0 ]
sólo está definido si f es biyectiva, pero no es ası́, está definido para cada aplicación lineal f , biyectiva
o no, de V en V 0 , como el conjunto de los vectores v de V que tienen su imagen f (v) por f en el
subespacio U 0 .
La propiedad siguiente nos dice que si dos aplicaciones lineales toman los mismos valores en los
vectores de un sistema generador del espacio de partida, entonces las dos aplicaciones lineales toman los
mismos valores en todos los vectores del espacio y, por tanto, son iguales.
Proposición. Sean f y g dos aplicaciones lineales de V en V 0 . Sea S un conjunto de generadores
de V . Si las aplicaciones f y g coinciden en S , esto es, si f (v) = g(v) para cada vector v de S ,
entonces f y g son la misma aplicación: f = g .
Demostración. Recordemos que dos aplicaciones f y g son iguales si tienen el mismo dominio y si en
cada elemento del dominio toman el mismo valor. En nuestro caso, como el dominio de f y el dominio
de g son el mismo, el espacio vectorial V , sólo queda demostrar que para cada vector v de V , se tiene
f (v) = g(v).
Sea v ∈ V . Como S es un sistema de generadores de V , el vector v es una combinación lineal
(finita) de vectores de S , esto es, existen vectores v1 , . . . , vk en S y escalares λ1 , . . . , λk en K tales
98
Álgebra lineal
que v = λ1 v1 + · · · + λk vk . Entonces
f (v) = f (λ1 v1 + · · · + λk vk )
= λ1 f (v1 ) + · · · + λk f (vk )
porque f es lineal
= λ1 g(v1 ) + · · · + λk g(vk )
porque f y g coinciden en S
= g(λ1 v1 + · · · + λk vk )
porque g es lineal
= g(v).
El recı́proco de la proposición anterior es evidente: si f y g toman los mismos valores en los vectores
de V , en particular toman los mismos valores en los vectores de cada sistema S de generadores de V .
La proposición siguiente expresa una de las propiedades más importantes de las aplicaciones lineales:
si se conoce una base del espacio de partida y los valores que la aplicación lineal toma en los vectores
de esa base, se conocen los valores que toma en todos los vectores del espacio, y la aplicación lineal está
completamente determinada.
Proposición. Sean V y V 0 espacios vectoriales sobre el mismo cuerpo K tales que dim V = n > 1.
Sea B = {v1 , . . . , vn } una base de V y sean w1 , . . . , wn vectores cualesquiera de V 0 . Entonces existe
una aplicación lineal f : V −−→ V 0 , y sólo una, tal que f (v1 ) = w1 , . . . , f (vn ) = wn .
Demostración. Para demostrar la existencia de la aplicación lineal f , tengamos en cuenta que si v ∈ V
y λ1 , . . . , λn son las coordenadas de v respecto de la base B , entonces una aplicación lineal f como
la que buscamos debe cumplir
f (v) = f (λ1 v1 + · · · + λn vn )
porque v = λ1 v1 + · · · + λn vn
= λ1 f (v1 ) + · · · + λn f (vn )
= λ1 w1 + · · · + λn wn
porque f ha de ser lineal
porque f (v1 ) = w1 , . . . , f (vn ) = wn .
Esto nos lleva a definir la aplicación f : V −−→ V 0 por: para cada vector v de V , si λ1 , . . . , λn son
las coordenadas de v respecto de la base B , entonces f (v) = λ1 w1 + · · · + λn wn .
Tenemos que demostrar que la aplicación f ası́ definida es lineal: Sean v y v 0 vectores de V , y sean
µ y µ0 escalares de K . Sean λ1 , . . . , λn (respectivamente, λ01 , . . . , λ0n ) las coordenadas de v (resp.,
v 0 ) respecto de B . Las coordenadas del vector µv + µ0 v 0 respecto de B son µλ1 + µ0 λ01 , . . . , µλn + µ0 λ0n
puesto que
µv + µ0 v 0 = (µλ1 + µ0 λ01 )v1 + · · · + (µλn + µ0 λ0n )vn .
Y
f (µv + µ0 v 0 ) = (µλ1 + µ0 λ01 )w1 + · · · + (µλn + µ0 λ0n )wn
= µ(λ1 w1 + · · · + λn wn ) + µ0 (λ01 w1 + · · · + λ0n wn )
= µf (v) + µ0 f (v 0 ).
Como las coordenadas del vector vi respecto de la base B = {v1 , . . . , vi , . . . , vn } son 0, . . . , 0, 1, 0, . . . , 0
(el único 1 está en la i -ésima posición), se tiene
f (vi ) = f (0v1 + · · · + 0vi−1 + 1vi + 0vi+1 + · · · + 0vn )
= 0w1 + · · · + 0wi−1 + 1wi + 0wi+1 + · · · + 0wn
= 1wi
= wi
para cada i = 1, . . . , n . Por tanto la aplicación f ası́ definida cumple las condiciones del enunciado.
Además, sólo hay una aplicación que cumple esas condiciones: sea g : V −−→ V 0 una aplicación
lineal tal que g(vi ) = wi , para cada i = 1, . . . , n , y veamos que g = f . Por un lado, f y g tienen
el mismo dominio, el espacio vectorial V . Por otro, f y g son aplicaciones lineales que toman los
mismos valores en los vectores de una base de V , luego en los vectores de un conjunto de generadores
de V , y, por la proposición anterior, f y g tienen que tomar los mismos valores en los vectores que son
99
Aplicaciones lineales
combinación lineal de los vectores de ese conjunto de generadores de V , es decir, en todos los vectores
de V , luego f = g .
Como consecuencia de esta proposición tenemos que una aplicación lineal entre dos espacios vectoriales está determinada completa y unı́vocamente por una base del espacio de partida y las imágenes de
los vectores de esa base:
Sea f : V → W una aplicación lineal y sea B = {v1 , . . . , vn } una base de V . Para cada i =
1, . . . , n , sea f (vi ) = wi . Por la proposición anterior, f es la única aplicación lineal de V en W que
transforma vi en wi . Con estos datos podemos determinar la imagen f (v) de cada vector v de V
por f : si λ1 , . . . , λn son las coordenadas de v respecto de B , entonces v = λ1 v1 + · · · + λn vn y
f (v) = λ1 f (v1 ) + · · · + λn f (vn ) = λ1 w1 + · · · + λn wn
y f queda completamente determinada.
Ejemplos.
(a) Los vectores (1, 0, 0), (0, 1, 0) y (0, 0, 1) forman la base estándar Be de K3 y hay exactamente una aplicación lineal f : K3 −−→ K3 que cumple f (1, 0, 0) = (1, 2, −1), f (0, 1, 0) = (−1, 1, 3) y
f (0, 0, 1) = (1, −1, 1). ¿Cuál es esta aplicación lineal? ¿Cuál es el valor f (x, y, z) que toma f en cada
vector (x, y, z) de K3 ?
Las coordenadas del vector (x, y, z) de K3 respecto de la base estándar son x, y, z , y como
(x, y, z) = x(1, 0, 0) + y(0, 1, 0) + z(0, 0, 1), se tiene para cada (x, y, z) ∈ K3 ,
f (x, y, z) = f (x(1, 0, 0) + y(0, 1, 0) + z(0, 0, 1))
= xf (1, 0, 0) + yf (0, 1, 0) + zf (0, 0, 1)
porque f es lineal
= x(1, 2, −1) + y(−1, 1, 3) + z(1, −1, 1)
= (x − y + z, 2x + y − z, −x + 3y + z).
(b) Los vectores (1, 2, 0), (1, 1, 1) y (1, 0, 1) forman una base B de K3 y por la última proposición
hay exactamente una aplicación lineal f : K3 −−→ K4 que cumple
f (1, 2, 0) = (5, −1, −5, 2)
f (1, 1, 1) = (2, 1, 0, 3)
y
f (1, 0, 1) = (0, 2, 2, 3).
¿Cuál es esta aplicación lineal? ¿Cuál es el valor f (x, y, z) que toma f en cada vector (x, y, z) de K3 ?
Podemos seguir el método expuesto en la demostración anterior y hallar las coordenadas de cada
vector (x, y, z) de K3 respecto de la base dada: para cada (x, y, z) ∈ K3 se trata de hallar los únicos
escalares λ, µ y ν tales que
(x, y, z) = λ(1, 2, 0) + µ(1, 1, 1) + ν(1, 0, 1)
= (λ + µ + ν, 2λ + µ, µ + ν)
lo que lleva a tener que hallar los únicos λ, µ y ν que son solución del sistema


 λ + µ + ν= x
2λ + µ
=y


µ + ν= z
y, con unas pocas cuentas, el resultado es

λ = x−z


µ = −2x + y + 2z


ν = 2x − y − z.
100
Álgebra lineal
[Observación: las coordenadas del vector (x, y, z) respecto de la base B de partida se pueden obtener
también como el producto de la matriz de cambio de base M (Be , B) de la base estándar a la base B
por el vector columna de las coordenadas de (x, y, z) respecto de la base estándar:
 

−1  
 
x
x
1 1 1
x
M (Be , B)  y  = M (B, Be )−1  y  =  2 1 0   y 
z
z
0 1 1
z
y queda hallar esa matriz inversa.]
Con estos datos, para cada (x, y, z) ∈ K3 ,
(x, y, z) = (x − z)(1, 2, 0) + (−2x + y + 2z)(1, 1, 1) + (2x − y − z)(1, 0, 1)
y
f (x, y, z) = f ((x − z)(1, 2, 0) + (−2x + y + 2z)(1, 1, 1) + (2x − y − z)(1, 0, 1))
= (x − z)f (1, 2, 0) + (−2x + y + 2z)f (1, 1, 1) + (2x − y − z)f (1, 0, 1)
porque f es lineal
= (x − z)(5, −1, −5, 2) + (−2x + y + 2z)(2, 1, 0, 3) + (2x − y − z)(0, 2, 2, 3)
= (x + 2y − z, x − y + z, −x − 2y + 3z, 2x + z).
Y se comprueba que esta aplicación lineal f : K3 −−→ K4 cumple los valores asignados en los tres vectores
de la base.
También podemos seguir un segundo método para hallar f (x, y, z) para cada (x, y, z) ∈ K3 : Como
f (x, y, z) = f (x(1, 0, 0) + y(0, 1, 0) + z(0, 0, 1)) = xf (1, 0, 0) + yf (0, 1, 0) + zf (0, 0, 1)
nos basta con hallar los valores f (1, 0, 0), f (0, 1, 0) y f (0, 0, 1). Para esto hallamos las coordenadas de
los tres vectores de la base estándar de K3 respecto de la base dada. El resultado es
(1, 0, 0) = 1(1, 2, 0) + (−2)(1, 1, 1) + 2(1, 0, 1)
(0, 1, 0) = 0(1, 2, 0) + 1(1, 1, 1) + (−1)(1, 0, 1)
(0, 0, 1) = (−1)(1, 2, 0) + 2(1, 1, 1) + (−1)(1, 0, 1)
[Observación: las coordenadas de los vectores de la base estándar respecto de la base B de partida son
los vectores columna de la matriz de cambio de base M (Be , B), que es la matriz inversa de la matriz
M (B, Be ). ]
Entonces
f (1, 0, 0) = f (1(1, 2, 0) + (−2)(1, 1, 1) + 2(1, 0, 1))
= 1f (1, 2, 0) + (−2)f (1, 1, 1) + 2f (1, 0, 1)
= 1(5, −1, −5, 2) + (−2)(2, 1, 0, 3) + 2(0, 2, 2, 3)
= (1, 1, −1, 2).
Del mismo modo se obtienen f (0, 1, 0) = (2, −1, −2, 0) y f (0, 0, 1) = (−1, 1, 3, 1). Entonces
f (x, y, z) = f (x(1, 0, 0) + y(0, 1, 0) + z(0, 0, 1))
= xf (1, 0, 0) + yf (0, 1, 0) + zf (0, 0, 1)
= x(1, 1, −1, 2) + y(2, −1, −2, 0) + z(−1, 1, 3, 1)
= (x + 2y − z, x − y + z, −x − 2y + 3z, 2x + z).
(c) No hay ninguna aplicación lineal f : K3 −−→ K3 tal que
f (1, 1, 1) = (1, 2, 3)
f (1, 1, 0) = (0, 3, 2)
f (1, 0, 0) = (1, 2, −1)
f (0, 1, 1) = (0, 0, 1).
y
101
Aplicaciones lineales
Los tres primeros vectores (1, 1, 1), (1, 1, 0) y (1, 0, 0) forman una base de K3 y por la proposición
anterior hay una aplicación lineal f : K3 −−→ K3 , y sólo una, que en los tres vectores de esa base toma
los valores dados. ¿Qué valor toma esta aplicación lineal en el vector (0, 1, 1) ? ¿Es (0, 0, 1) ?
Con uno cualquiera de los dos métodos de los ejemplos anteriores se llega a que f es la aplicación
definida por
f (x, y, z) = (x − y + z, 2x + y − z, −x + 3y + z),
para cada (x, y, z) ∈ K3 .
Y entonces f (0, 1, 1) = (0, 0, 4), que no es (0, 0, 1).
Composición de aplicaciones lineales
Si f : V −−→ W y g : W −−→ U son aplicaciones, podemos considerar la aplicación que resulta al
componer f con g , f compuesta con g , en sı́mbolos, g ◦ f , cuyo dominio es V , el mismo que el
dominio de f , y que en cada elemento v de V , toma el valor (g ◦ f )(v) = g(f (v)) :
f
g
V
−−−−−→
v
−−−−−→ f (v) −−−−−→
W
−−−−−→
U
g(f (v))
Se tiene
Proposición. Si f : V −−→ W y g : W −−→ U son aplicaciones lineales, entonces su composición
g ◦ f : V −−→ U es una aplicación lineal.
Demostración. Si v y w son vectores de V y λ y µ son escalares de K , entonces
(g ◦ f )(λv + µw) = g(f (λv + µw))
= g(λf (v) + µf (w))
= λg(f (v)) + µg(f (w))
porque f es lineal
porque g es lineal
= λ(g ◦ f )(v) + µ(g ◦ f )(w).
Ejemplos.
(a) La composición g ◦ f de las aplicaciones lineales f : R2 −−→ R2 con g : R2 −−→ R3 definidas
por
f (x, y) = (2x + y, x − y)
y
g(x, y) = (3x − 3y, 7x, x + 2y) ,
para cada (x, y) ∈ R2 ,
es la aplicación lineal g ◦ f : R2 −−→ R3 definida por
(g ◦ f )(x, y) = g(f (x, y))
= g(2x + y, x − y)
= (3(2x + y) − 3(x − y), 7(2x + y), 2x + y + 2(x − y))
= (3x + 6y, 14x + 7y, 4x − y)
para cada (x, y) ∈ R2 .
(b) La composición de las homotecias vectoriales fλ y fµ de un espacio vectorial V de razones
respectivas λ y µ es la homotecia vectorial fλµ de razón λµ, porque para cada vector v de V ,
(fµ ◦ fλ )(v) = fµ (fλ (v)) = fµ (λv) = µ(λv) = (µλ)v = fµλ (v).
(c) La composición de los giros de centro O y ángulos α y β en el espacio vectorial de los vectores
del plano de la geometrı́a elemental con origen en O es el giro de ángulo α + β con centro en O .
(d) Si s es la simetrı́a ortogonal respecto de una recta vectorial W en el espacio de los vectores del
plano de la geometrı́a elemental, entonces la aplicación compuesta s ◦ s = s2 de s consigo misma es la
aplicación identidad.
102
Álgebra lineal
(e) Si p es la proyección ortogonal sobre un plano vectorial W en el espacio vectorial de los vectores
del espacio de la geometrı́a elemental, entonces la aplicación compuesta p ◦ p = p2 de p consigo misma
es la propia proyección p.
(e) La composición D ◦ D de la aplicación lineal derivada de K[X] en K[X] es la aplicación lineal
derivada segunda, porque para cada polinomio p(X) de K[X] , se tiene
(D ◦ D)(p(X)) = D(D(p(X)) = D(p0 (X)) = p00 (X).
(f) Sea f : Mn (K) −−→ Mn (K) la aplicación lineal definida por A 7−→ f (A) = At , que en cada
matriz A de orden n toma como valor la matriz traspuesta At de A. Entonces la aplicación compuesta
f ◦ f = f 2 de f consigo misma es la aplicación identidad, porque
f 2 (A) = (f ◦ f )(A) = f (f (A)) = f (At ) = (At )t = A.
para cada matriz A ∈ Mn (A).
Núcleo y subespacio imagen de una aplicación lineal
Cada aplicación lineal f : V −−→ W determina dos subespacios, uno del espacio vectorial V de partida
y el otro del espacio vectorial W de llegada. Como veremos, varias de las propiedades de las aplicaciones
lineales se expresan en términos de propiedades de estos subespacios.
Núcleo de una aplicación lineal
Sea f : V −−→ W una aplicación lineal. Consideramos el conjunto de los vectores v de V que se
transforman por f en el vector cero de W , en sı́mbolos, {v ∈ V | f (v) = 0} .
Este subconjunto de V es no vacı́o, porque el vector cero 0 de V es uno de sus elementos, ya que
f (0V ) = 0W , porque f es lineal.
Además, si v y w son vectores del subconjunto, y λ y µ son escalares de K , entonces la combinación lineal λv + µw también pertenece al subconjunto, porque
f (λv + µw) = λf (v) + µf (w) = λ0 + µ0 = 0.
De otro modo: Obsérvese que
{v ∈ V | f (v) = 0} = {v ∈ V | f (v) ∈ {0}} = f −1 [{0}]
y es el subespacio imagen inversa del subespacio cero {0} de W .
Por tanto, es un subespacio vectorial de V . Recibe el nombre de núcleo de la aplicación lineal f, y
se indica por ker f .
Ejemplos.
(1) El núcleo de la aplicación lineal constante cero de V en W es el espacio V de partida.
(2) El núcleo de la aplicación lineal identidad idV de V es el subespacio cero {0} .
(3) Para cada escalar λ 6= 0, el núcleo de la homotecia vectorial de V de razón λ es también {0} .
(4) Si f : R2 −−→ R3 es la aplicación lineal definida por
f (x, y) = (2x + y, 3x + 4y, −x + 5y)
para cada (x, y) ∈ R2 ,
entonces el núcleo de f es {(x, y) ∈ R2 | f (x, y) = (0, 0, 0)} , esto es, el conjunto de las soluciones
(x, y) ∈ R2 del sistema de tres ecuaciones lineales homogéneas en las incógnitas X e Y :


 2X + Y = 0
3X + 4Y = 0


−X + 5Y = 0
103
Aplicaciones lineales
el conjunto Sol(A, 0) de las soluciones del sistema lineal homogéneo cuya matriz de los coeficientes es la
matriz


2 1
A =  3 4.
−1 5
Fácilmente se comprueba que este sistema homogéneo sólo tiene la solución trivial (0, 0) y el núcleo de
f es el subespacio cero {(0, 0)}.
Más general,
(5) El núcleo de la aplicación lineal f : Kn −−→ Km definida por
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
para cada (x1 , . . . , xn ) de Kn , es el conjunto
{(x1 , . . . , xn ) ∈ Kn | f (x1 , . . . , xn ) = (0, . . . , 0)},
que es el conjunto de las soluciones (x1 , . . . , xn ) ∈ Kn del sistema de m ecuaciones lineales homogéneas
en las incógnitas X1 , . . . , Xn :

a X + a12 X2 + · · ·+a1n Xn = 0

 11 1


 a21 X1 + a22 X2 + · · ·+a2n Xn = 0
..


.



am1 X1 + am2 X2 + · · ·+amn Xn = 0
es decir, el conjunto Sol(A | 0) de las soluciones del sistema lineal homogéneo cuya matriz de los
coeficientes es la matriz


a11 a12 · · · a1n
 a21 a22 · · · a2n 
.
A=
..
.. 
..
 ...
.
.
. 
am1
am2
···
amn
Con esto, el problema de la discusión de los sistemas de ecuaciones lineales homogéneas es un caso
especial del problema de la determinación del núcleo de una aplicación lineal:
Dado un sistema de m ecuaciones lineales homogéneas en n incógnitas cuya matriz de los coeficientes es una matriz A = (aij ) de Mm×n (K) , el conjunto Sol(A, 0) de las soluciones del sistema es el
núcleo ker f ⊆ Kn de la aplicación lineal f : Kn −−→ Km definida por
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
para cada (x1 , . . . , xn ) ∈ Kn .
(6) El núcleo de la aplicación derivada de K[X] en K[X] es el conjunto de los polinomios constantes
p(X) = a , para cada a ∈ K, que son los polinomios cuyo polinomio derivado es nulo.
(7) El núcleo de la aplicación derivada de C 1 (I, R) en C(I, R) es el conjunto de las funciones
constantes del intervalo abierto I en R, porque las funciones que tienen derivada nula son las funciones
constantes.
(8) El núcleo de la aplicación evaluación en a de K[X] en K es el conjunto de los polinomios que
se anulan en a, esto es, que tienen a a como raı́z.
(9) El núcleo de la aplicación evaluación en a1 , . . . , an de K[X] en Kn es el conjunto de los
polinomios que se anulan en a1 , . . . , an esto es, que tienen a a1 , . . . , an como raices.
(10) Como la única matriz de orden n que tiene como traspuesta la matriz nula 0n de orden n es
la propia matriz nula, el núcleo de la aplicación lineal A 7→ At de Mn (K) en sı́ mismo es el subespacio
cero {0n }.
−−→
(11) El núcleo del giro de centro el punto O y ángulo α no nulo es el subespacio cero {OO }.
(12) El núcleo de la simetrı́a vectorial ortogonal respecto de la recta vectorial W es también el
−−→
subespacio cero {OO }.
104
Álgebra lineal
(13) El núcleo de la proyección ortogonal sobre el plano vectorial W es la recta vectorial ortogonal
al plano W en O.
Subespacio imagen de una aplicación lineal
Sea f : V −−→ W una aplicación lineal. Consideramos el conjunto de los vectores f (v) de W , donde
v recorre V , esto es,
{f (v) | v ∈ V } = {w ∈ W | existe v ∈ V tal que w = f (v)}.
Es un subconjunto no vacı́o de W , porque al menos el vector 0 de W es elemento suyo, ya que
f (0V ) = 0W .
Además, si w y w0 pertenecen a ese subconjunto, por la definición, existen v y v 0 en V tales que
f (v) = w y f (v 0 ) = w0 , y w + w0 = f (v) + f (v 0 ) = f (v + v 0 ) , de donde w + w0 también pertenece al
subconjunto.
Y si w es un vector de W que pertenece al subconjunto, y λ es un escalar cualquiera de K , el
vector λw también está en el subconjunto, ya que si v es un vector de V tal que f (v) = w , entonces
λw = λf (v) = f (λv) .
De otro modo: Este conjunto no es otro que f [V ], el subespacio imagen del subespacio impropio V
de V .
Por tanto, el subconjunto es un subespacio de W . Recibe el nombre de subespacio imagen de la
aplicación lineal f , y se representa por im f .
Ejemplos.
(1) El subespacio imagen de la aplicación lineal constante cero de V en W es {0W } .
(2) El subespacio imagen de la aplicación lineal identidad idV de V es el propio V .
(3) Para cada λ 6= 0, el subespacio imagen de la homotecia vectorial de V de razón λ es V .
(4) Si f : R2 −−→ R3 es la aplicación lineal definida por
f (x, y) = (2x + y, 3x + 4y, −x + 5y)
para cada (x, y) ∈ R2 ,
entonces el subespacio imagen de f es
{(a, b, c) ∈ R3 | existe (x, y) ∈ R2 tal que f (x, y) = (a, b, c)},
que es el conjunto de los vectores (a, b, c) ∈ R3 para los que el sistema de tres ecuaciones lineales en las
incógnitas X e Y :

 2X + Y = a

3X + 4Y = b


−X + 5Y = c
es compatible, es decir, el conjunto de los vectores (a, b, c) ∈ R3 para los que el sistema de tres ecuaciones
lineales en las incógnitas X e Y cuya matriz ampliada es


2 1 a
 3 4 b
−1 5 c
es compatible. Con unas pocas cuentas se obtiene que para que el sistema tenga solución es necesario y
suficiente que 19a − 11b − 5c = 0, y, por tanto,
im f = {(a, b, c) ∈ R3 | 19a − 11b + 5c = 0}.
Más general,
(5) El subespacio imagen de la aplicación lineal f : Kn −−→ Km definida por:
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
n
para cada (x1 , . . . , xn ) de K , es el conjunto
{(b1 , . . . , bm ) ∈ Km | existe (x1 , . . . , xn ) ∈ Kn tal que f (x1 , . . . , xn ) = (b1 , . . . , bm )},
105
Aplicaciones lineales
que es el conjunto de los vectores (b1 , . . . , bm ) ∈ Km para los que el sistema de m ecuaciones lineales en
las incógnitas X1 , . . . , Xn

a11 X1 + a12 X2 + · · ·+a1n Xn = b1




 a21 X1 + a22 X2 + · · ·+a2n Xn = b2
..


.



am1 X1 + am2 X2 + · · ·+amn Xn = bm
es compatible, es decir, el conjunto de los vectores (b1 , b2 , . . . , bm ) ∈ Km para los que el sistema de n
ecuaciones lineales en las incógnitas X1 , . . . , Xn cuya matriz ampliada es
a11
 a21
 .
 ..
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.

b1
b2 
.. 
. 
am1
am2
···
amn
bm

(∗)
es compatible.
Con esto el problema de la compatibilidad de un sistema de ecuaciones lineales se presenta como un
caso especial del problema de la determinación de los vectores del subespacio imagen de una aplicación
lineal:
Dado un sistema de m ecuaciones lineales con coeficientes en K y en n incógnitas cuya matriz
ampliada es la matriz (*) anterior, el sistema es compatible si y sólo si el vector (b1 , b2 , . . . , bm ) ∈ Km
pertenece al subespacio imagen de la aplicación lineal f : Km −−→ Kn definida por
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
para cada (x1 , . . . , xn ) ∈ Kn .
(6) El subespacio imagen de la aplicación derivada de K[X] en K[X] es también el espacio K[X] .
(7) El subespacio imagen de la aplicación derivada de C 1 (I, R) en C(I, R) es el espacio C(I, R).
(8) El subespacio imagen de la aplicación evaluación en a de K[X] en K es K.
(9) El subespacio imagen de la aplicación evaluación en a1 , . . . , an de K[X] en Kn es el espacio
n
K .
(10) El subespacio imagen de la aplicación lineal A 7→ At que transforma cada matriz de orden n
de elementos de K en su matriz traspuesta, es el espacio entero Mn (K).
(11) El subespacio imagen del giro de centro el punto O y ángulo α no nulo es el espacio entero
de los vectores del plano con origen en el punto O.
(12) El subespacio imagen de la simetrı́a ortogonal respecto de la recta vectorial W es también el
espacio entero de los vectores del plano con origen en O.
(13) El subespacio imagen de la proyección ortogonal sobre el plano vectorial W es el plano vectorial
W.
De las primeras propiedades de las aplicaciones lineales sabemos que cada sistema generador de un
subespacio del dominio de una aplicación lineal se transforma por la aplicación en un sistema generador
del subespacio imagen del subespacio. En particular, si el subespacio del dominio V de la aplicación es
el propio dominio V , para cada base B = {v1 , v2 , . . . , vn } de V , el conjunto {f (v1 ), f (v2 ), . . . , f (vn )}
es un conjunto generador del subespacio imagen im f de f, e
im f = L[f (v1 ), f (v2 ), . . . , f (vn )].
Por ejemplo, para la aplicación lineal del ejemplo (4) de más arriba, como {(1, 0), (0, 1)} es una base
de R2 , que es el dominio de f, el subespacio imagen im f de f es
im f = L[f (1, 0), f (0, 1)] = L[(2, 3, −1), (1, 4, 5)].
106
Álgebra lineal
Para la aplicación lineal f : Kn −−→ Km del ejemplo (5), con Be = {e1 , e2 , . . . , en } la base estándar
de Kn , el subespacio imagen im f de f está generado por f (e1 ), f (e2 ), . . . , f (en ), y estos vectores son
f (e1 ) = f (1, 0, . . . , 0) = (a11 , a21 , . . . , am1 )
f (e2 ) = f (0, 1, . . . , 0) = (a12 , a22 , . . . , am2 )
..
.
f (en ) = f (0, . . . , 0, 1) = (a1n , a2n , . . . , amn ),
y el subespacio imagen de f es
im f = L[(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn )].
Fórmula de las dimensiones
Hay una fórmula muy importante y muy sencilla, que relaciona las dimensiones del espacio de partida,
del núcleo y de la imagen de cada aplicación lineal entre espacios vectoriales de dimensión finita:
Teorema. (Fórmula de las dimensiones) Sea f : V −−→ W una aplicación lineal de V en W , con V
de dimensión finita n > 1 . Entonces los subespacios vectoriales ker f e im f son también de dimensión
finita y
dim V = dim ker f + dim im f.
Demostración. Supongamos, como primer caso, que el núcleo de f no es el subespacio vectorial cero
{0} . Sea {v1 , . . . , vk } una base de ker f . Por el teorema de la base incompleta, existen n − k vectores
vk+1 , . . . , vn en V tales que {v1 , . . . , vk } ∪ {vk+1 , . . . , vn } es una base de V . Demostraremos que el
conjunto {f (vk+1 ), . . . , f (vn )} es una base de im f.
Primero demostramos que es un conjunto de generadores de im f . Sea w un vector de im f . Existe
un vector v en V tal que w = f (v) . Como {v1 , . . . , vk , vk+1 , . . . , vn } es una base de V , existen
escalares λ1 , . . . , λk , λk+1 , . . . , λn en K tales que v = λ1 v1 + · · · + λk vk + λk+1 vk+1 + · · · + λn vn .
Entonces
w = f (v)
= f (λ1 v1 + · · · + λk vk + λk+1 vk+1 + · · · + λn vn )
= λ1 f (v1 ) + · · · + λk f (vk ) + λk+1 f (vk+1 ) + · · · + λn f (vn )
= 0 + · · · + 0 + λk+1 f (vk+1 ) + · · · + λn f (vn )
porque v1 , . . . , vk ∈ ker f
= λk+1 f (vk+1 ) + · · · + λn f (vn )
y w es combinación lineal de los vectores f (vk+1 ), . . . , f (vn ) .
Ahora veamos que f (vk+1 ), . . . , f (vn ) son linealmente independientes: Sean λk+1 , . . . , λn escalares
tales que λk+1 f (vk+1 ) + · · · + λn f (vn ) = 0. Tenemos que demostrar que λk+1 = · · · = λn = 0 . Como
0 = λk+1 f (vk+1 ) + · · · + λn f (vn ) = f (λk+1 vk+1 + · · · + λn vn ),
se tiene que el vector λk+1 vk+1 + · · · + λn vn pertenece al núcleo de f , y al ser {v1 , . . . , vk } una base
de ker f , existen escalares λ1 , . . . , λk en K tales que
λk+1 vk+1 + · · · + λn vn = λ1 v1 + · · · + λk vk ,
esto es,
λ1 v1 + · · · + λk vk − λk+1 vk+1 − · · · − λn vn = 0.
Tenemos el vector cero 0 de V como combinación lineal de los vectores de una base de V , luego de
vectores linealmente independientes y, por consiguiente, λ1 = · · · = λk = λk+1 = · · · = λn = 0.
107
Aplicaciones lineales
De todo esto resulta que dim im f = n − k = dim V − dim ker f.
El segundo caso se presenta cuando el núcleo de f es el subespacio vectorial cero {0} de V ,
que no tiene base y su dimensión es cero. Sea {v1 , . . . , vn } una base de V y consideremos el conjunto
{f (v1 ), . . . , f (vn )} . Se trata de demostrar que este conjunto es una base de im f .
Sea w un vector de im f . Existe un vector v en V tal que w = f (v) y existen escalares λ1 , . . . , λn
en K tales que v = λ1 v1 + · · · + λn vn . Por tanto,
w = f (v) = f (λ1 v1 + · · · + λn vn ) = λ1 f (v1 ) + · · · + λn f (vn ),
y el vector w es combinación lineal de los vectores del conjunto {f (v1 ), . . . , f (vn )} , con lo que este
conjunto genera im f .
Veamos que los vectores f (v1 ), . . . , f (vn ) son linealmente independientes. Sean λ1 , . . . , λn elementos
de K tales que λ1 f (v1 ) + · · · + λn f (vn ) = 0 . Como λ1 f (v1 ) + · · · + λn f (vn ) = f (λ1 v1 + · · · + λn vn ) ,
tenemos que el vector λ1 v1 + · · · + λn vn pertenece al núcleo de f , que es el subespacio cero {0} .
Por tanto, λ1 v1 + · · · + λn vn = 0 y como los vectores v1 , . . . , vn son linealmente independientes,
λ1 = · · · = λn = 0 , lo que querı́amos demostrar.
Por consiguiente, el conjunto {f (v1 ), . . . , f (vn )} es una base de im f y dim im f = n = n − 0 =
dim V − dim ker f.
Ası́ pues, como la dimensión del espacio de partida V es fija, no podemos tener, por ejemplo, una
aplicación lineal de dominio V con núcleo e imagen ‘grandes’ los dos, porque si el núcleo es ‘grande’, la
imagen es ‘pequeña’, y al revés: si la dimensión del espacio de partida es n y la dimensión del subespacio
imagen es ‘grande’, por ejemplo, n − 1 , la dimensión del núcleo es 1, y si la dimensión del núcleo es
‘grande’, por ejemplo, n − 2, entonces la dimensión del subespacio imagen es ‘pequeña’, 2.
Aplicaciones lineales inyectivas
En la demostración del último teorema, en concreto en la demostración del segundo caso, se muestra una
consecuencia que tiene interés:
si el núcleo de f es el subespacio {0} , entonces para cada base B de V , la imagen f [B]
de B es una base de im f .
De hecho, también se obtiene:
si el núcleo de f es el subespacio {0} , entonces para cada conjunto linealmente independiente {v1 , . . . , vk } de vectores de V , el conjunto {f (v1 ), . . . , f (vk )} es un conjunto linealmente independiente de vectores de W .
Ası́ pues, las aplicaciones lineales cuyo núcleo es el subespacio {0} conservan la independencia lineal
de vectores, algo que sabemos que no hacen las aplicaciones lineales en general.
Recordemos la definición de un tipo especial de aplicación que se dio en los preliminares.
Sea f : A −−→ B una aplicación de un conjunto A en un conjunto B . Se dice que f es inyectiva
o uno a uno , si no hay dos elementos distintos de A en los que f tome el mismo valor,
o, de otro modo,
si siempre que f (a) = f (a0 ) con a, a0 ∈ A , es a = a0 ,
o, con otras palabras,
si para cada elemento b de f [A] hay un elemento y sólo uno a en A tal que f (a) = b .
Si f : A −−→ B es inyectiva, lo indicamos por f : A B .
Para saber si una aplicación lineal es inyectiva, sólo hace falta conocer los vectores en los que la
aplicación toma el valor cero 0W , es decir, el núcleo de la aplicación lineal:
Proposición. Sean V y W espacios vectoriales sobre el mismo cuerpo K . Sea f : V −−→ W una
aplicación lineal. Los enunciados siguientes son equivalentes:
(i) f es inyectiva,
(ii) el núcleo de f es el subespacio vectorial cero {0} .
108
Álgebra lineal
Demostración. (i) ⇒ (ii): Supongamos que f es inyectiva. Sea v un vector que pertenece a ker f , esto
es, f (v) = 0W . Como f es lineal, f (0V ) = 0W . Luego f (v) = f (0V ) , y como f es inyectiva, se tiene
v = 0V .
(ii) ⇒ (i): Supongamos que ker f = {0V } y que v y v 0 son vectores de V tales que f (v) = f (v 0 ) .
Entonces 0W = f (v) − f (v 0 ) = f (v − v 0 ) , de donde v − v 0 es un vector del núcleo de f y tiene que ser
el vector cero 0V . Luego v = v 0 .
Las aplicaciones lineales inyectivas de un espacio vectorial V en un espacio W también se llaman
monomorfismos de V en W .
Ejemplos.
(1) Con esta caracterización es inmediato determinar cuáles de las aplicaciones lineales de los ejemplos que se dieron para ilustrar la definición de núcleo son inyectivas: la aplicación identidad idV , las
homotecias vectoriales de razón λ 6= 0, la aplicación lineal f del ejemplo (4), la aplicación A 7→ At de
Mn (K) en sı́ mismo, los giros de centro O y ángulo no nulo, y las simetrı́as ortogonales respecto de
rectas vectoriales, son todas aplicaciones lineales inyectivas.
(2) La aplicación lineal f : Kn −−→ Km definida por
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
para cada (x1 , . . . , xn ) de Kn , es inyectiva si y sólo si el sistema de m ecuaciones lineales homogéneas
en las incógnitas X1 , . . . , Xn :

a11 X1 + a12 X2 + · · ·+a1n Xn = 0




 a21 X1 + a22 X2 + · · ·+a2n Xn = 0
..


.



am1 X1 + am2 X2 + · · ·+amn Xn = 0
tiene sólo la solución trivial (0, 0, . . . , 0).
La observación que hicimos después de la demostración de la fórmula de las dimensiones se puede
enunciar ahora del siguiente modo:
Si f es una aplicación lineal inyectiva, entonces para cada base B de V , la imagen f [B]
de B es una base de im f .
Y también:
Si f es una aplicación lineal inyectiva, entonces la imagen de cada conjunto linealmente
independiente de vectores de V es un conjunto linealmente independiente de vectores de
W.
Con otras palabras, las aplicaciones lineales inyectivas conservan la independencia lineal de vectores.
Sea f : V W una aplicación lineal inyectiva. Por la fórmula de las dimensiones,
dim V = dim ker f + dim im f = 0 + dim im f,
luego
dim V = dim im f 6 dim W .
En particular, no hay ninguna aplicación lineal inyectiva de un espacio vectorial de dimensión finita en
otro de dimensión estrictamente menor. Por ejemplo, no hay ninguna aplicación lineal inyectiva de K3
en K2 .
Corolario. Si f : V −−→ W es una aplicación lineal y V tiene dimensión finita n > 1 , entonces f
es inyectiva si y sólo si dim V = dim im f .
Aplicaciones lineales sobreyectivas
Otro tipo de aplicación ya definido en los preliminares: Sea f : A −−→ B una aplicación de un
conjunto A en un conjunto B . Se dice que f es sobreyectiva o suprayectiva o exhaustiva o que f es
una aplicación de A sobre B si cada elemento de B es el valor que f toma en algún elemento de A,
109
Aplicaciones lineales
es decir,
para cada b ∈ B hay un elemento a de A tal que f (a) = b,
o, de otro modo,
si f [A] = B .
Si f es sobreyectiva, lo indicamos por f : A B .
Entonces una aplicación lineal f : V −−→ W es sobreyectiva si el subespacio imagen im f es todo
el espacio de llegada:
im f = f [V ] = W .
Las aplicaciones lineales sobreyectivas de un espacio vectorial V sobre un espacio W también se
llaman epimorfismos de V sobre W .
Ejemplos.
(1) Es inmediato determinar cuáles de las aplicaciones lineales de los ejemplos que se dieron para
ilustrar la definición de subespacio imagen son sobreyectivas: la aplicación identidad idV , las homotecias
vectoriales de razón λ 6= 0, la aplicación derivada en K[X], la aplicación evaluación en a de K[X] en
K, la aplicación evaluación en a1 , . . . , an de K[X] en Kn , la aplicación A 7→ At de Mn (K) en sı́
mismo, los giros de centro O y ángulo no nulo, y las simetrı́as ortogonales respecto de rectas vectoriales,
son todas aplicaciones lineales sobreyectivas.
(2) La aplicación lineal f : K4 −−→ K3 definida por
para cada (x, y, z, t) ∈ K4
f (x, y, z, t) = (2x + y − z + t, x + y + z − t, −x − 3y + 2z + 2t),
es sobreyectiva, porque para cada (x0 , y 0 , z 0 ) ∈ K3 existe (x, y, z, t) ∈ K4 tal que f (x, y, z, t) = (x0 , y 0 , z 0 ),
es decir,

0

 2x + y − z + t = x
x + y + z − t = y0


−x − 3y + 2z + 2t = z 0
como se puede comprobar resolviendo el sistema.
(3) La aplicación lineal f : Kn −−→ Km definida por
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
para cada (x1 , . . . , xn ) de Kn , es sobreyectiva si y sólo si para cada (b1 , b2 , . . . , bm ) ∈ Km , existe
(x1 , x2 , . . . , xn ) ∈ Kn tal que
(b1 , b2 , . . . , bm ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
es decir,
para cada (b1 , b2 , . . . , bm ) ∈ Km , el sistema de m ecuaciones lineales en las incógnitas X1 , . . . , Xn :

a11 X1 + a12 X2 + · · ·+a1n Xn = b1




 a21 X1 + a22 X2 + · · ·+a2n Xn = b2
..


.



am1 X1 + am2 X2 + · · ·+amn Xn = bm
es compatible.
Si f : V W es una aplicación lineal sobreyectiva,
dim V = dim ker f + dim im f = dim ker f + dim W ,
de donde dim V > dim W . En particular, no hay ninguna aplicación lineal sobreyectiva de un espacio
vectorial de dimensión finita en otro de dimensión finita estrictamente mayor. Por ejemplo, no hay ninguna
aplicación lineal sobreyectiva de K2 sobre K3 . Y la aplicación lineal f : R2 −−→ R3 del ejemplo (4) de
los ejemplos de subespacio imagen no puede ser sobreyectiva.
Corolario. Si f : V −−→ W es una aplicación lineal y V tiene dimensión finita n > 1 , entonces f
es sobreyectiva si y sólo si dim W = dim im f .
110
Álgebra lineal
Ejemplo.
Con este corolario, para la aplicación lineal f del ejemplo (3) anterior, se tiene que f es sobreyectiva
si y sólo si
dim im f = dim L[f (1, 0, . . . , 0), f (0, 1, 0, . . . , 0), . . . , f (0, . . . , 0, 1)]
= dim L[(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn )]
= m.
Isomorfismos de espacios vectoriales
Otra definición que se dio en los preliminares:
Sea f : A −−→ B una aplicación de un conjunto A en un conjunto B . Se dice que f es una
aplicación biyectiva de A sobre B si es inyectiva y sobreyectiva. Si f es biyectiva, lo indicamos por
f :A
B.
Si f : V W es una aplicación lineal biyectiva, es inyectiva y sobreyectiva, y juntando lo que
acabamos de decir por separado para aplicaciones lineales inyectivas y aplicaciones lineales sobreyectivas,
podemos hacer la observación siguiente:
Si f : V W es una aplicación lineal biyectiva, V tiene dimensión finita n > 1 y B =
{v1 , . . . , vn } es una base cualquiera de V , entonces su imagen f [B] = {f (v1 ), . . . , f (vn )}
es una base de W , y, en particular, W tiene la misma dimensión que V .
Si f : V W es una aplicación biyectiva, f tiene aplicación inversa f −1 : W −−→ V , definida
por:
para cada w ∈ W ,
w 7−→ f −1 (w) es el único vector v de V tal que f (v) = w .
La aplicación inversa f −1 también es biyectiva y f ◦ f −1 = idW y f −1 ◦ f = idV .
Proposición. Sea f : V W una aplicación lineal biyectiva de V sobre W . Entonces la aplicación
inversa f −1 : W −−→ V de f es lineal.
Demostración. Sean w y w0 vectores de W y sean λ y λ0 elementos de K . Tenemos que demostrar
que
f −1 (λw + λ0 w0 ) = λf −1 (w) + λ0 f −1 (w0 ).
Como f es biyectiva existen vectores v y v 0 en V únicos tales que f (v) = w y f (v 0 ) = w0 , o, de
otro modo, f −1 (w) = v y f −1 (w0 ) = v 0 . Entonces
f −1 (λw + λ0 w0 ) = f −1 (λf (v) + λ0 f (v 0 ))
= f −1 (f (λv + λ0 v 0 ))
= (f −1 ◦ f )(λv + λ0 v 0 )
= idV (λv + λ0 v 0 )
= λv + λ0 v 0
= λf −1 (w) + λ0 f −1 (w0 ),
como tenı́amos que demostrar.
Otra forma de llegar a las aplicaciones lineales biyectivas:
Una aplicación lineal f : V −−→ W es invertible si hay una aplicación lineal g : W −−→ V tal que
g ◦ f = idV y f ◦ g = idW .
De los preliminares sabemos que si f es una aplicación de un conjunto A en un conjunto B, hay
una aplicación g : B −−→ A tal que g ◦ f = idA y f ◦ g = idB si y sólo si f es una aplicación biyectiva
de A sobre B.
111
Aplicaciones lineales
Se tiene entonces que una aplicación lineal f : V −−→ W es biyectiva si y sólo si f es invertible.
Se llama isomorfismo de dos espacios vectoriales V y W sobre el mismo cuerpo K a cada aplicación
biyectiva f : V W que es lineal y tal que su aplicación inversa f −1 : W −−→ V también es lineal.
Por la proposición anterior, la condición de que f −1 sea lineal es redundante, porque es consecuencia
del hecho de que f es lineal y biyectiva, y podemos decir que un isomorfismo de dos espacios vectoriales
V y W sobre el mismo cuerpo K es una aplicación lineal y biyectiva de V sobre W .
Se dice que dos espacios vectoriales V y W sobre el mismo cuerpo K son isomorfos si hay un
isomorfismo de V sobre W , esto es, una aplicación lineal biyectiva de V sobre W . Si V y W son
isomorfos, lo indicaremos por V ∼
=W.
Ejemplos.
(1) La aplicación identidad idV de un espacio vectorial V sobre K es lineal y biyectiva, luego es
un isomorfismo de V sobre V .
(2) Dos espacios vectoriales V y W sobre el mismo cuerpo K y de dimensiones respectivas m y
n tales que m 6= n, no son isomorfos: porque si m > n, no hay ninguna aplicación lineal inyectiva de V
en W , y si m < n, no hay ninguna aplicación lineal sobreyectiva de V sobre W , luego, en cualquier
caso, no hay ninguna aplicación lineal biyectiva de V sobre W .
Por ejemplo, entre los espacios vectoriales K3 , M2 (K), K64 [X] no hay dos que sean isomorfos.
Un caso particular: para cada n > 1, excepto el espacio Kn , no hay ningún espacio vectorial Km
que sea isomorfo al espacio vectorial Kn .
(3) Para cualesquiera m, n > 1, los espacios vectoriales Mm×n (K) y Mn×m (K) son isomorfos: la
aplicación de trasposición definida por A 7→ At , para cada matriz A ∈ Mm×n (K), es lineal y biyectiva,
luego un isomorfismo entre los dos espacios vectoriales. El isomorfismo inverso de este isomorfismo es
también la aplicación de trasposición.
(4) Para cada n > 1, los espacios vectoriales Kn de las n -uplas ordenadas, Mn×1 (K) de los n vectores columna y M1×n (K) de los n -vectores fila de elementos de K son isomorfos: las aplicaciones
f : Kn −−→ M1×n (K) y g : Kn −−→ Mn×1 (K) definidas por
 
x1
 x2 

f (x1 , x2 , . . . , xn ) = ( x1 x2 · · · xn )
y
g(x1 , x2 , . . . , xn ) = 
 ... 
xn
n
para cada (x1 , x2 , . . . , xn ) ∈ K , son, como se comprueba sin dificultad, lineales y biyectivas, luego
isomorfismos.
Más general,
(5) Para cualesquiera m, n > 1, el espacio vectorial Mm×n (K) de las matrices de tamaño m × n
de elementos de K y el espacio vectorial Km·n de las m · n -uplas ordenadas de elementos de K son
isomorfos, porque la aplicación
f : Mm×n (K) −−→ Km·n , definida por


a11 a12 · · · a1n
 a21 a22 · · · a2n 
A = 
7−→ (a11 , a12 , . . . , a1n , a21 , a22 , . . . , a2n , . . . , am1 , am2 , . . . , amn )
..
.. 
..
 ...
.
.
. 
am1
am2
···
amn
para cada matriz A de Mm×n (K) , es, como se comprueba fácilmente, lineal y biyectiva.
Por ejemplo, para m = 2 y n = 3 , se tiene que la aplicación de M2×3 (K) en K6 definida por
a11 a12 a13
A=
7−→ (a11 , a12 , a13 , a21 , a22 , a23 )
a21 a22 a23
para cada matriz A = (aij )2×3 de elementos de K, es un isomorfismo entre los dos espacios vectoriales.
(6) Para cada n > 1 , la aplicación f : K6n [X] −−→ Kn+1 definida por
p(X) = an X n + an−1 X n−1 + · · · + a2 X 2 + a1 X + a0
7−→
(an , an−1 , . . . , a2 , a1 , a0 )
para cada polinomio p(X) de grado 6 n con coeficientes en K, es lineal y biyectiva, como se puede
comprobar fácilmente, y es un isomorfismo entre los dos espacios vectoriales.
112
Álgebra lineal
La relación “ser isomorfos” entre los espacios vectoriales sobre un mismo cuerpo K tiene todas las
propiedades de una relación de equivalencia:
• Cada espacio vectorial V es isomorfo a sı́ mismo, V ∼
= V , porque la aplicación identidad
idV : V V es lineal y biyectiva.
• Si V es isomorfo a W y f es un isomorfismo de V sobre W , entonces la aplicación inversa
f −1 de f es biyectiva y lineal de W sobre V , luego f −1 es un isomorfismo de W sobre
V , y tenemos que W es isomorfo a V .
• Si V es isomorfo a W y W es isomorfo a U , entonces V es isomorfo a U : si f : V W
y g:W U son sendos isomorfismos, la aplicación compuesta g ◦ f : V −−→ U es lineal y
biyectiva, luego es un isomorfismo de V sobre U .
Un poco más abajo damos un criterio sencillo para saber cuándo dos espacios vectoriales de dimensión
finita sobre el mismo cuerpo son isomorfos. Por ahora ya sabemos que una condición necesaria para que
dos espacios vectoriales de dimensión finita sobre un mismo cuerpo sean isomorfos es que tengan la misma
dimensión.
Antes, una consecuencia muy útil de la fórmula de las dimensiones:
Proposición. Sean V y W espacios vectoriales sobre un cuerpo K y de la misma dimensión finita
n > 1 . Sea f : V −−→ W una aplicación lineal. Los enunciados siguientes son equivalentes:
(1) f es biyectiva (y, por tanto, un isomorfismo);
(2) f es inyectiva; y
(3) f es sobreyectiva.
Demostración. (1) ⇒ (2): Si f es isomorfismo, f es biyectiva, luego inyectiva.
(2) ⇒ (3): Si f es inyectiva, ker f = {0}, dim ker f = 0 , y de la fórmula de las dimensiones se
obtiene que dim V = dim im f . Pero im f es un subespacio vectorial de W de la misma dimensión,
luego W = im f y f es sobreyectiva.
(3) ⇒ (1): Como f es sobreyectiva, sólo queda demostrar que es inyectiva. Tenemos que im f =
W por ser sobreyectiva, luego dim im f = dim W y por la fórmula de las dimensiones, resulta que
dim ker f = 0 , de donde ker f = {0} , y f es inyectiva.
Proposición. Sea V un espacio vectorial de dimensión finita n > 1 sobre K . Entonces V es isomorfo
al espacio vectorial Kn .
Demostración. Sea B = {v1 , . . . , vn } una base de V . Sea CoordB : V −−→ Kn la aplicación definida
por: para cada v de V ,
CoordB (v) = la n -upla ordenada (λ1 , . . . , λn ) ∈ Kn de las coordenadas de v respecto de B .
La aplicación está bien definida, porque como B es base de V , para cada v ∈ V , existen λ1 , . . . , λn
únicos en K tales que v = λ1 v1 + · · · + λn vn . Demostraremos que esta aplicación CoordB es un
isomorfismo de V sobre Kn . En primer lugar, CoordB es lineal:
Si v y w son vectores de V y v = λ1 v1 + · · · + λn vn y w = µ1 v1 + · · · µn vn , entonces
CoordB (v + w) = CoordB ((λ1 v1 + · · · + λn vn ) + (µ1 v1 + · · · + µn vn ))
= CoordB ((λ1 + µ1 )v1 + · · · + (λn + µn )vn )
= (λ1 + µ1 , . . . , λn + µn )
= (λ1 , . . . , λn ) + (µ1 , . . . , µn )
= CoordB (v) + CoordB (w).
Si v es un vector de V tal que v = λ1 v1 + · · · + λn vn y λ es un escalar, entonces
CoordB (λv) = CoordB (λ(λ1 v1 + · · · + λn vn ))
= CoordB (λλ1 v1 + · · · + λλn vn )
= (λλ1 , . . . , λλn )
= λ(λ1 , . . . , λn )
= λCoordB (v).
Aplicaciones lineales
113
La aplicación CoordB es inyectiva, porque su núcleo ker(CoordB ) es el subespacio cero {0}, puesto
que sólo hay un vector en V cuya n -upla de coordenadas sea (0, 0, . . . , 0), a saber, el vector nulo 0.
Por la proposición anterior, como CoordB es una aplicación lineal e inyectiva entre dos espacios
vectoriales de la misma dimensión n > 1, también es biyectiva y un isomorfismo de V sobre Kn . Dada una base B de V , el isomorfismo CoordB “identifica” los espacios vectoriales V y Kn , cada
vector v de V con la n -upla ordenada de las coordenadas de v respecto de la base B, y esto se utiliza
casi constantemente cuando se quieren determinar propiedades de vectores, subconjuntos y subespacios
del espacio V : en lugar de hacer, por ejemplo, los cálculos que se precisen con los vectores de V , se
hacen los cálculos en los espacios Kn con las n -uplas ordenadas de las coordenadas de esos vectores
respecto de la base B .
Hagamos notar que el isomorfismo entre V y Kn que acabamos de dar es un isomorfismo que
depende de la base B tomada al comienzo de la demostración. Si tomásemos otra base B0 distinta de
la base B , el resultado serı́a un isomorfismo de V sobre Kn distinto del isomorfismo obtenido por
medio de la base B . Bases distintas dan lugar a isomorfismos distintos. Cuando esto ocurre se tiene
que el isomorfismo depende de la(s) base(s) tomada(s), y se dice que los isomorfismos entre los espacios
vectoriales V y Kn no son canónicos. Los isomorfismos canónicos de espacios vectoriales no hacen
referencia a bases de los espacios.
Ahora podemos dar un criterio sencillo para saber cuándo dos espacios vectoriales de dimensión
finita sobre el mismo cuerpo son isomorfos:
Proposición. Sean V y W espacios vectoriales de dimensión finita sobre el mismo cuerpo K . Entonces
V y W son isomorfos si y sólo si V y W tienen la misma dimensión.
Demostración. ⇒ ) Supongamos que V y W son isomorfos y que f : V W es un isomorfismo de
V sobre W . Entonces ker f tiene dimensión 0, y por la fórmula de las dimensiones, dim V = dim im f .
Pero im f = W , porque f es sobreyectiva, luego dim V = dim W .
⇐ ) Supongamos que dim V = dim W = n > 1 . Sabemos que V ∼
= Kn y W ∼
= Kn . Si
n
n
−1
n
f : V −−→ K y g : W −−→ K son sendos isomorfismos, como g
: K −−→ W también es un
isomorfismo, tenemos que g −1 ◦ f : V −−→ W es un isomorfismo de V sobre W .
Ejemplos.
(1) Todos los espacios vectoriales sobre K de dimensión 1 son isomorfos a K ; todos los espacios
vectoriales sobre K de dimensión 2 son isomorfos a K2 , todos los espacios vectoriales sobre K de
dimensión 3 son isomorfos a K3 , . . . , todos los espacios vectoriales sobre K de dimensión n son
isomorfos a Kn , y podemos decir que, salvo isomorfismo, para cada n > 1 , sólo hay un espacio vectorial
sobre K de dimensión n , a saber, Kn .
Ası́, por ejemplo, para cada espacio vectorial V sobre K, cada recta vectorial de V es isomorfa a
K1 , cada plano vectorial es isomorfo a K2 y, en general, cada subespacio de dimensión k > 1 de V es
isomorfo a Kk .
Y como ya sabemos de más arriba, M2×3 (K) ∼
= K6 , y K64 [X] ∼
= K5 .
(2) Con K = C : todos los espacios vectoriales sobre C de dimensión 1 son isomorfos a C ; todos
los espacios vectoriales sobre C de dimensión 2 son isomorfos a C2 , todos los espacios vectoriales sobre
C de dimensión 3 son isomorfos a C3 , . . . , todos los espacios vectoriales sobre C de dimensión n son
isomorfos a Cn , y podemos decir que, salvo isomorfismo, para cada n > 1 , sólo hay un espacio vectorial
sobre C de dimensión n , a saber, Cn .
Por ejemplo, M3×5 (C) ∼
= C15 y si C se considera como espacio vectorial sobre R , C ∼
= R2 , porque
la dimensión de C como espacio vectorial real es 2 .
Observación.
¿Por qué estudiar de forma abstracta los espacios vectoriales de dimensión finita sobre un cuerpo K
si cada uno de ellos es isomorfo a un Kn ? ¿Por qué estudiar de forma abstracta los espacios vectoriales
reales de dimensión n > 1 si todos ellos son isomorfos a Rn ?
¿Por qué no limitarse a los espacios vectoriales Kn en lugar de estudiar los espacios vectoriales en
general?
Falta razonar
y explicar
esto
114
Álgebra lineal
Si dos espacios vectoriales son isomorfos . . .
Si dos espacios vectoriales V y W sobre el mismo cuerpo K son isomorfos y f : V W es un
isomorfismo de V sobre W , la aplicación f “identifica” el espacio V con el espacio W : cada una
de las propiedades ‘lineales’ (las propiedades que se estudian en Álgebra lineal) que puedan tener unos
vectores v1 , . . . , vk , un subconjunto S y un subespacio U del espacio de partida V , la tienen también
los correspondientes vectores imagen f (v1 ), . . . , f (vk ) , el subconjunto f [S] y el subespacio imagen f [U ]
del espacio de llegada W . Y como f −1 también es un isomorfismo de W sobre V , eso mismo se puede
decir cambiando V con W , y f con f −1 .
Ası́, cualquier relación ‘lineal’ que se da entre los vectores v1 , . . . , vk , se da entre los vectores
f (v1 ), . . . , f (vk ) . Por ejemplo,
v3 no es combinación lineal de v1 y v4
si y sólo si
f (v3 ) no es combinación lineal de f (v1 ) y f (v4 ) .
Y
v1 , v2 y v7 son linealmente independientes
si y sólo si
f (v1 ), f (v2 ) y f (v7 ) son linealmente independientes.
También, cualquier propiedad ‘lineal’ que pueda tener un subespacio U de V la tiene el subespacio
imagen f [U ] . Por ejemplo,
dim U = k
si y sólo si
dim f [U ] = k .
Una pequeña lista de propiedades ‘lineales’ que se transfieren por un isomorfismo del espacio de
partida al espacio de llegada:
(1) v1 , . . . , vk son linealmente dependientes
si y sólo si
f (v1 ), . . . , f (vk ) son linealmente dependientes;
(2) v1 , . . . , vk son linealmente independientes
si y sólo si
f (v1 ), . . . , f (vk ) son linealmente independientes;
(3) v1 , . . . , vk generan V
si y sólo si
f (v1 ), . . . , f (vk ) generan W ;
(4) {v1 , . . . , vn } es una base de V
si y sólo si
{f (v1 ), . . . , f (vn )} es una base de W ;
(5) S es linealmente dependiente
si y sólo si
f [S] es linealmente dependiente;
(6) S es linealmente independiente
si y sólo si
f [S] es linealmente independiente;
(7) S genera un subespacio U
si y sólo si
f [S] genera el subespacio imagen f [U ] ;
(8) S es una base de V
si y sólo si
f [S] es una base de W ;
(9) dim L[S] = k
si y sólo si
dim L[f [S]] = k ;
(10) dim U = k
si y sólo si
dim f [U ] = k.
En varias de las implicaciones de estas propiedades no es necesario que f sea isomorfismo, basta que sea
aplicación lineal: por ejemplo, en las implicaciones ⇒ de (1) y (5), como vimos al principio.
Especialmente útil en este sentido es el isomorfismo CoordB entre V y Kn determinado por una
base B del espacio. Toda relación lineal que se da entre vectores v1 , . . . , vk de V se da entre las n uplas de las coordenadas de esos vectores respecto de la base B , y recı́procamente, de manera que los
‘cálculos’ se pueden hacer con las n -uplas de las coordenadas, esto es, con vectores de Kn .
Ejemplos.
(a) En el espacio vectorial K4 se tienen cuatro vectores v1 , v2 , v3 , v4 de los que se conocen las
cuadrúplas (2, 1, 1, 2), (1, 0, 0, 3), (−1, 1, −1, −1) y (2, 2, −2, 1) de sus coordenadas respecto de una base
B . Como la aplicación lineal CoordB es un isomorfismo de K4 sobre K4 , los vectores v1 , v2 , v3 , v4 son
linealmente independientes si y sólo si los vectores (2, 1, 1, 2), (1, 0, 0, 3), (−1, 1, −1, −1) y (2, 2, −2, 1)
de K4 son linealmente independientes.
Y la dimensión del subespacio de K4 generado por los cuatro vectores es la misma que la dimensión
del subespacio de K4 generado por los vectores (2, 1, 1, 2), (1, 0, 0, 3), (−1, 1, −1, −1) y (2, 2, −2, 1).
(b) En el espacio vectorial K63 [X] se consideran los vectores
2X 3 + X 2 + X + 2, X 3 + 3, −X 3 + X 2 − X − 1 y 2X 3 + 2X 2 − 2X + 1,
cuyas cuádrupas de coordenadas respecto de la base B = {X 3 , X 2 , X, 1} son
(2, 1, 1, 2), (1, 0, 0, 3), (−1, 1, −1, −1) y (2, 2, −2, 1),
115
Aplicaciones lineales
respectivamente. Como la aplicación lineal CoordB es un isomorfismo de K63 [X] sobre K4 , los cuatro
vectores dados de K63 [X] son linealmente independientes si y sólo si los vectores (2, 1, 1, 2), (1, 0, 0, 3) ,
(−1, 1, −1, −1) y (2, 2, −2, 1) de K4 son linealmente independientes.
Y la dimensión del subespacio de K63 [X] generado por los cuatro vectores dados es la misma que
la dimensión del subespacio de K4 generado por (2, 1, 1, 2), (1, 0, 0, 3), (−1, 1, −1, −1) y (2, 2, −2, 1).
(c) En el espacio vectorial M2 (K) se consideran los vectores
2 1
1 0
−1 1
2
,
,
,
1 2
0 3
−1 −1
−2
2
1
.
Las cuádruplas de las coordenadas de estos cuatro vectores respecto de la base
1 0
0 1
0 0
0 0
B=
,
,
,
0 0
0 0
1 0
0 1
son (2, 1, 1, 2), (1, 0, 0, 3), (−1, 1, −1, −1) y (2, 2, −2, 1), respectivamente. Como la aplicación lineal
CoordB es un isomorfismo de M2 (K) sobre K4 , los cuatro vectores dados de M2 (K) son linealmente
independientes si y sólo si los cuatro vectores (2, 1, 1, 2), (1, 0, 0, 3) , (−1, 1, −1, −1) y (2, 2, −2, 1) de
K4 son linealmente independientes.
Y la dimensión del subespacio de M2 (K) generado por los cuatro vectores dados es la misma que
la dimensión del subespacio de K4 generado por los vectores (2, 1, 1, 2), (1, 0, 0, 3), (−1, 1, −1, −1) y
(2, 2, −2, 1).
Por un isomorfismo de espacios vectoriales la imagen de cada base del espacio de partida es una base
del espacio de llegada. Y, curiosamente, si una aplicación lineal transforma una sola base del espacio de
partida en una base del espacio de llegada, entonces la aplicación es un isomorfismo de espacios vectoriales,
y transforma todas las bases del espacio de partida en bases del espacio de llegada:
Proposición. Sea f : V −−→ W una aplicación lineal. Sea B = {v1 , . . . , vn } una base de V tal que
{f (v1 ), . . . , f (vn )} es una base de W . Entonces f es un isomorfismo de V sobre W .
Demostración. De la hipótesis se deduce que V y W tienen la misma dimensión n . Luego para demostrar que f es biyectiva basta con demostrar que f es inyectiva. Sea v un vector de ker f . Respecto
de la base B , v = λ1 v1 + · · · + λn vn para ciertos escalares λ1 , . . . , λn de K , y
0 = f (v) = f (λ1 v1 + · · · + λn vn ) = λ1 f (v1 ) + · · · + λn f (vn ).
Como los vectores f (v1 ), . . . , f (vn ) son linealmente independientes, λ1 = . . . = λn = 0 , v es el vector
cero 0 , ker f = {0} y f es inyectiva.
Espacios de aplicaciones lineales
Sean V y W espacios vectoriales sobre el mismo cuerpo K . Sea L(V , W ) el conjunto de las aplicaciones
lineales de V en W :
L(V , W ) = {f | f es una aplicación lineal de V en W }.
También se utiliza la notación Hom(V , W ) en lugar de L(V , W ) . Si es necesario especificar el cuerpo
K se escribe LK (V , W ) y HomK (V , W ) .
Éste es un conjunto no vacı́o, porque la aplicación constante cero de V en W es una aplicación
lineal de V en W .
En este conjunto se definen de manera completamente natural la suma de aplicaciones lineales de V
en W , y el producto de un escalar de K por una aplicación lineal de V en W :
• Si f y g son aplicaciones de V en W , se llama aplicación suma de f y g a la aplicación de
V en W definida por: v 7→ f (v) + g(v) , para cada v ∈ V . La aplicación suma de f y g se indica
por f + g , y ası́ (f + g)(v) = f (v) + g(v) para cada v ∈ V .
116
Álgebra lineal
• Si f es una aplicación de V en W y λ es un escalar de K , se llama aplicación producto del
escalar λ por f a la aplicación de V en W definida por: v 7→ λf (v) , para cada v ∈ V . Esta nueva
aplicación se representa por λf , y es (λf )(v) = λf (v) para cada v ∈ V .
El resultado siguiente dice que la aplicación suma de dos aplicaciones lineales f, g : V −−→ W es
también lineal, y que la aplicación producto de un escalar λ por una aplicación lineal f también es
lineal.
Proposición. Si f, g son aplicaciones lineales de V en W , entonces
(a) la aplicación suma f + g : V −−→ W es lineal, y
(b) para cada λ ∈ K , la aplicación producto de λ por f , λf : V → W , también es lineal.
Demostración. (a) Si v y w son vectores de V y λ y µ son escalares de K , entonces
(f + g)(λv + µw) = f (λv + µw) + g(λv + µw)
por la definición de f + g
= λf (v) + µf (w) + λg(v) + µg(w)
porque f y g son lineales
= λ(f (v) + g(v)) + µ(f (w) + g(w))
= λ(f + g)(v) + µ(f + g)(w).
Por tanto, f + g es una aplicación lineal.
(b) Si v y w son vectores de V y µ y ν son escalares de K , entonces
(λf )(µv + νw) = λ(f (µv + νw))
por la definición de λf
= λ(µf (v) + νf (w))
porque f es lineal
= µλf (v) + νλf (w)
= µ((λf )(v)) + ν((λf )(w)).
Por tanto, λf es una aplicación lineal.
El conjunto L(V , W ) es, por tanto, cerrado respecto de la adición de aplicaciones lineales y respecto
del producto por escalares de K . Es más:
Proposición. El conjunto L(V , W ) con la adición y el producto por escalares de K , es un espacio
vectorial sobre K .
Demostración. Hay que demostrar las ocho propiedades de la definición de espacio vectorial. Antes de
comenzar recordemos que dos aplicaciones f y g son iguales si y sólo si f y g tienen el mismo dominio
y en cada elemento a de ese dominio toman el mismo valor: f (a) = g(a) .
Sean f, g y h aplicaciones lineales cualesquiera de V en W y sean λ y µ elementos de K .
(1) f + (g + h) = (f + g) + h (propiedad asociativa de la adición).
El dominio de las dos aplicaciones f + (g + h) y (f + g) + h es el mismo: el espacio vectorial V .
Sea ahora v un vector cualquiera de V . Entonces
(f + (g + h))(v) = f (v) + (g + h)(v)
= f (v) + (g(v) + h(v))
= (f (v) + g(v)) + h(v)
= (f + g)(v) + h(v)
= ((f + g) + h)(v),
luego f + (g + h) = (f + g) + h .
(2) f + g = g + f (propiedad conmutativa de la adición).
Las dos aplicaciones f + g y g + f tienen el mismo dominio, V , y para cada v ∈ V ,
(f + g)(v) = f (v) + g(v)
= g(v) + f (v)
= (g + f )(v),
117
Aplicaciones lineales
luego f + g = g + f .
(3) Hay una aplicación lineal h : V −−→ W tal que para cada f ∈ L(V , W ) se tiene f + h = f
(existencia del elemento cero).
En efecto, sea h : V −−→ W la aplicación lineal constante cero, es decir, para cada v ∈ V , h(v) = 0 .
Entonces para cada v ∈ V ,
(f + h)(v) = f (v) + h(v)
= f (v) + 0
= f (v),
y f +h=f .
(4) Para cada f ∈ L(V , W ) existe g ∈ L(V , W ) tal que f + g es la aplicación lineal constante
cero (existencia del elemento opuesto de cada elemento).
Dada f , sea g : V −−→ W la aplicación definida por g(v) = −f (v) para cada v ∈ V . Es un
ejercicio muy sencillo demostrar que la aplicación g es lineal. Además
(f + g)(v) = f (v) + g(v)
= f (v) + (−f (v))
= 0,
y f + g es la aplicación lineal constante cero de V en W .
De lo que llevamos hasta ahora tenemos que la estructura (L(V , W ), +) es un grupo conmutativo.
Pasamos a las propiedades del producto por escalares:
(5) λ(f + g) = λf + λg .
Son dos aplicaciones cuyo dominio es V y para cada v ∈ V ,
(λ(f + g))(v) = λ(f (v) + g(v))
= λf (v) + λg(v)
= (λf + λg)(v),
y las dos aplicaciones son iguales.
(6) (λ + µ)f = λf + µf .
Para cada v ∈ V tenemos
((λ + µ)f )(v) = (λ + µ)f (v)
= λf (v) + µf (v)
= (λf + µf )(v),
y como las dos aplicaciones tienen a V como dominio de definición, son iguales.
(7) λ(µf ) = (λµ)f .
Para cada v ∈ V tenemos
(λ(µf ))(v) = λ((µf )(v)
= λ(µf (v))
= (λµ)f (v)
= ((λµ)f )(v),
y como también tienen el mismo dominio, V , las dos aplicaciones coinciden.
(8) 1f = f .
Para cada v ∈ V se tiene
(1f )(v) = 1f (v)
= f (v),
y como tienen el mismo dominio, V , 1f y f son la misma aplicación.
118
Álgebra lineal
Tenemos un espacio vectorial sobre K . La pregunta natural inmediata es: ¿Cuál es la dimensión del
espacio vectorial L(V , W ) ?
Proposición. Si V y W son espacios vectoriales de dimensiones n y m > 1 , sobre el mismo cuerpo
K , entonces el espacio vectorial L(V , W ) de las aplicaciones lineales de V en W también es de
dimensión finita y
dim L(V , W ) = dim V · dim W = n · m.
Demostración. Damos un conjunto de n · m aplicaciones lineales de V en W , esto es, vectores del
espacio vectorial L(V , W ) , que es una base del espacio.
Sea B = {v1 , . . . , vn } una base de V , y sea B0 = {w1 , . . . , wm } una base de W . Sabemos que
cada aplicación lineal de V en W está determinada por los valores que toma en los vectores de una
base del espacio V de partida, por ejemplo, de la base B . Para cada i = 1, . . . , n y cada j = 1, . . . , m ,
sea fij la única aplicación lineal de V en W que en el vector vi de la base B de V tiene como valor
el vector wj de la base B0 de W , y en los restantes vectores v1 , . . . , vi−1 , vi+1 , . . . , vn toma como
valor el vector cero 0 de W , es decir,
wj si k = i,
fij (vk ) =
0
si k 6= i.
Ası́, f11 es la aplicación lineal de V en W que cumple
f11 (v1 ) = w1
y
f11 (vk ) = 0
para cada k = 2, . . . , n,
y, por ejemplo, f23 es la aplicación lineal de V en W que cumple
f23 (v2 ) = w3
y
f23 (vk ) = 0
para cada k = 1, 3, 4 . . . , n.
Se tiene ası́ un conjunto {fij | i = 1, . . . , n; j = 1, . . . , m} de n · m aplicaciones lineales de V en
W , vectores del espacio vectorial L(V , W ) . Demostramos que ese conjunto es una base de ese espacio
vectorial.
Primero, es un conjunto linealmente independiente. Sean λij , i = 1, . . . , n; j = 1, . . . , m escalares
de K tales que la aplicación lineal (el vector de L(V , W ) )
(λ11 f11 + · · · + λ1m f1m ) + (λ21 f21 + · · · + λ2m f2m ) + · · · · · · + (λn1 fn1 + · · · + λnm fnm )
es la aplicación lineal constante cero (el vector cero del espacio vectorial L(V , W ) ). Tenemos que demostrar que los escalares λij son todos nulos.
La aplicación lineal anterior toma en el vector v1 el valor
λ11 f11 (v1 )+· · ·+λ1m f1m (v1 ) + (λ21 f21 (v1 )+· · ·+λ2m f2m (v1 ) +· · · · · ·+ (λn1 fn1 (v1 )+· · ·+λnm fnm (v1 ) ,
que es
(λ11 w1 + · · · + λ1m wm ) + (0 + · · · + 0) + · · · · · · + (0 + · · · + 0) = λ11 w1 + · · · + λ1m wm .
Por otra parte, este vector debe ser igual al valor que la aplicación lineal constante cero toma en el vector
v1 , que es el vector cero 0 , luego
λ11 w1 + · · · + λ1m wm = 0,
y esto implica que λ11 = · · · = λ1m = 0 , porque los vectores w1 , . . . , wm son linealmente independientes.
Del mismo modo, en el vector vi toma el valor
(λ11 f11 (vi ) + · · · + λ1m f1m (vi )) + · · · · · · + λn1 fn1 (vi ) + · · · + λnm fnm (vi ) = 0
que es
0 + · · · · · · + 0 + (λi1 w1 + · · · + λim wm ) + 0 + · · · · · · + 0 = 0,
y esto implica que λi1 = . . . = λim = 0 , porque los vectores w1 , . . . , wm son linealmente independientes.
Por tanto, todos los escalares λij son iguales a cero, y los vectores fij son linealmente independientes.
119
Aplicaciones lineales
Queda demostrar que generan el espacio vectorial L(V , W ) . Sea f una aplicación lineal de V en
W . Los vectores f (v1 ), . . . , f (vn ) , los valores que f toma en los vectores de la base B , pertenecen a
W , y tienen sus coordenadas respecto de la base B0 de W . Supongamos que las coordenadas del vector
f (vi ) respecto de la base B0 son ai1 , ai2 , . . . , aim , para cada i = 1, . . . , n . Entonces la aplicación lineal
f es la misma que la aplicación lineal
(a11 f11 + · · · + a1m f1m ) + (a21 f21 + · · · + a2m f2m ) + · · · · · · + (an1 fn1 + · · · + anm fnm ),
porque toman el mismo valor en cada uno de los vectores de la base B : el valor que toma esta última
aplicación lineal en v1 es
a11 f11 (v1 ) + a12 f12 (v1 ) + · · · + a1m f1m (v1 ) + 0 + · · · · · · + 0 = a11 w1 + a12 w2 + · · · + a1m wm ,
que es precisamente f (v1 ) . Del mismo modo se demuestra para los demás vectores v2 , . . . , vn de la base
B , y se tiene f como combinación lineal de los vectores fij , i = 1, . . . , n, j = 1, . . . , m.
En total: {fij | i = 1, . . . , n, j = 1, . . . , m} es una base de L(V , W ) , con n · m elementos, y
dim L(V , W ) = n · m , como querı́amos demostrar.
Ejemplo.
Damos una base del espacio vectorial L(K2 , K3 ), que tiene dimensión 2·3 = 6. Seguimos la demostración
anterior con las bases estándares {(1, 0), (0, 1)} y {(1, 0, 0), (0, 1, 0), (0, 0, 1)} de K2 y K3 , respectivamente. Las seis aplicaciones lineales fij : K2 −−→ K3 con i = 1, 2 y j = 1, 2, 3 son:
f11 (x, y) = (x, 0, 0),
f12 (x, y) = (0, x, 0),
f13 (x, y) = (0, 0, x),
f21 (x, y) = (y, 0, 0),
f22 (x, y) = (0, y, 0),
f23 (x, y) = (0, 0, y),
para cada (x, y) ∈ K2 .
Respecto de la base obtenida de L(K2 , K3 ) las coordenadas de la aplicación lineal f : K2 −−→ K3
definida por f (x, y) = (2x − y, 7y, 4x) para cada (x, y) ∈ K2 son 2, 0,4,-1,7,0:
f = 2f11 + 0f12 + 4f13 + (−1)f21 + 7f22 + 0f23 ,
porque para cada (x, y) ∈ K2 ,
f (x, y) = (2x − y, 7y, 4x)
= 2(x, 0, 0) + 0(0, x, 0) + 4(0, 0, x) + (−1)(y, 0, 0) + 7(0, y, 0) + 0(0, 0, y)
= 2f11 (x, y) + 0f12 (xy) + 4f13 (x, y) + (−1)f21 (x, y) + 7f22 (x, y) + 0f23 (x, y)
= (2f11 + 0f12 + 4f13 + (−1)f21 + 7f22 + 0f23 )(x, y),
y la sextúpla ordenada de las coordenadas es (2, 0, 4, −1, 7, 0) que pertenece a K6 .
Espacio de los endomorfismos de un espacio vectorial
Pasamos ahora a considerar el caso especial del espacio vectorial de las aplicaciones lineales de un espacio
V en sı́ mismo, es decir, L(V , V ) , y que indicamos por L(V ) . Las aplicaciones lineales de un espacio
vectorial en sı́ mismo son los endomorfismos u operadores lineales del espacio vectorial:
L(V ) = L(V , V ) = {f | f es un endomorfismo de V }.
También se suele emplear la notación End(V ) en lugar de L(V ) , y si es necesario especificar el cuerpo
K , se escribe LK (V ) y EndK (V ) .
Como caso particular del teorema anterior,
Corolario. Si V es un espacio vectorial de dimensión n > 1 sobre K , entonces L(V ) es un espacio
vectorial de dimensión n2 sobre K .
Además de la adición y del producto por escalares de K , en el conjunto L(V ) está definida siempre
la operación natural de composición de aplicaciones, porque sabemos que si f y g son aplicaciones
lineales de V en V , entonces la composición de f con g , g ◦ f , también es un endomorfismo de V .
La operación de composición ◦ de endomorfismos tiene las propiedades siguientes:
120
Álgebra lineal
Sean f, g y h endomorfismos cualesquiera de V y λ es un escalar de K .
I (1) (h ◦ g) ◦ f = h ◦ (g ◦ f ) (propiedad asociativa de la composición).
Esto se cumple para cualesquiera aplicaciones de V en V , no sólo para las aplicaciones lineales:
((h ◦ g) ◦ f )(v) = (h ◦ g)(f (v))
= h(g(f (v)))
= h((g ◦ f )(v))
= (h ◦ (g ◦ f ))(v),
y como su dominio es V , son iguales.
I (2) La aplicación identidad idV es un endomorfismo de V y para cada endomorfismo f de V ,
se tiene idV ◦ f = f ◦ idV = f (existencia de elemento unidad).
Es evidente que idV es un endomorfismo de V . Para cada v ∈ V ,
(idV ◦ f )(v) = idV (f (v))
= f (v)
= f (idV (v))
= (f ◦ idV )(v),
y se tienen las dos igualdades.
Las propiedades en las que intervienen la composición y la suma de endomorfismos son las dos
siguientes:
I (3) (h ◦ (f + g)) = (h ◦ f ) + (h ◦ g) (propiedad distributiva).
Tenemos para cada v ∈ V ,
(h ◦ (f + g))(v) = h((f + g)(v))
= h(f (v) + g(v))
= h(f (v)) + h(g(v))
= (h ◦ f )(v) + (h ◦ g)(v)
= (h ◦ f + h ◦ g)(v),
y como su dominio es V , son iguales.
I (4) (h + g) ◦ f = h ◦ f + g ◦ f (propiedad distributiva).
La demostración es similar a la de la propiedad distributiva anterior.
La propiedad en la que intervienen la composición y el producto por escalares:
I (5) λ(g ◦ f ) = (λg) ◦ f = g ◦ (λf ) .
En efecto, para cada v ∈ V ,
(λ(g ◦ f ))(v) = λ((g ◦ f )(v))
= λ(g(f (v))
= (λg)(f (v))
= ((λg) ◦ f )(v)
= λ(g(f (v)))
= g(λf (v))
= (g ◦ (λf ))(v),
y al tener las tres aplicaciones el mismo dominio, V , son la misma aplicación.
Como la estructura (L(V ), +) es un grupo conmutativo y como la composición tiene las propiedades
(1), (2), (3) y (4) anteriores, tenemos que la estructura (L(V ), +, ◦) es un anillo con unidad.
121
Aplicaciones lineales
En general, no es conmutativo:
Por ejemplo, si V = R2 y f y g son los endomorfismos de R2 definidos por
f (x, y) = (x + y, −y)
y
g(x, y) = (2x, y) ,
para cada (x, y) ∈ R2 ,
entonces g ◦ f es el endomorfismo
(x, y) 7−→ (g ◦ f )(x, y) = g(f (x, y)) = g(x + y, −y) = (2x + 2y, −y)
y f ◦ g es el endomorfismo
(x, y) 7−→ (f ◦ g)(x, y) = f (g(x, y)) = f (2x, y) = (2x + y, −y)
y tenemos g ◦ f 6= f ◦ g , porque, por ejemplo, (g ◦ f )(1, 1) = (4, −1) y (f ◦ g)(1, 1) = (3, −1).
Hay un caso en el que el anillo (L(V ), +, ◦) es conmutativo: esto ocurre cuando V tiene dimensión
1, porque, como se demuestra más abajo, los endomorfismos de un espacio de dimensión 1 son, además
del endomorfismo constante cero, las homotecias vectoriales del espacio.
Se dice que dos endomorfismos f y g de un espacio vectorial V conmutan si g ◦ f = f ◦ g .
La aplicación identidad idV conmuta con cualquier endomorfismo de V .
Como veremos un poco más abajo, las homotecias vectoriales de un espacio V conmutan con todos
los endomorfismos del espacio.
Una pregunta natural es la siguiente: ¿Qué endomorfismos de un espacio vectorial V conmutan con
todos los endomorfismos de V ? ¿Hay alguno más aparte de las homotecias vectoriales del espacio?
Se dice que un endomorfismo f de V es invertible si existe un endomorfismo g de V tal que
g ◦ f = f ◦ g = idV .
Si f es un endomorfismo invertible de V , entonces la aplicación g : V −−→ V tal que g ◦ f =
f ◦ g = idV tiene que ser la aplicación inversa f −1 de la aplicación f y, por tanto, f tiene aplicación
inversa, ası́ que f tiene que ser una aplicación biyectiva de V sobre V . Sabemos que si f es una
aplicación lineal biyectiva de V sobre V , f −1 también es una aplicación lineal biyectiva de V sobre
V , y por tanto, f es un isomorfismo del espacio vectorial V en V .
Las aplicaciones lineales biyectivas o isomorfismos de un espacio vectorial sobre el mismo espacio
vectorial se llaman automorfismos del espacio vectorial. Luego los endomorfismos invertibles de un espacio
vectorial V son los automorfismos de V .
El endomorfismo identidad idV es un automorfismo del espacio vectorial V .
Sea GL(V ) el conjunto de los automorfismos del espacio vectorial V . Con las propiedades que ya
hemos demostrado de la operación ◦ de composición
(1) f ◦ (g ◦ h) = (f ◦ g) ◦ h, (propiedad asociativa);
(2) f ◦ idV = idV ◦ f, para todo f ∈ GL(V ) (existencia de elemento unidad), y
(3) para cada f ∈ GL(V ), f −1 también pertenece a GL(V ) y f ◦ f −1 = f −1 ◦ f = idV (existencia
de elemento inverso de cada elemento)
tenemos que la estructura (GL(V ), ◦) es un grupo no conmutativo: recibe el nombre de grupo Lineal
General del espacio vectorial V .
Algunos tipos especiales de endomorfismos
Entre los endomorfismos de un espacio vectorial V , tienen interés las homotecias, las proyecciones y las
simetrı́as vectoriales del espacio.
(1) Homotecias vectoriales
Sea V un espacio vectorial sobre un cuerpo K . Sea λ un escalar no nulo. Se llama homotecia vectorial
de V de razón λ a la aplicación lineal fλ : V −−→ V que en cada vector v de V toma el valor
fλ (v) = λv .
122
Álgebra lineal
En palabras, una homotecia vectorial de razón λ multiplica cada vector del espacio por el escalar
λ , y la imagen de cada vector v es su vector proporcional λv . De otro modo, fλ es la aplicación λ idV
producto del escalar λ por la aplicación identidad idV de V .
Las homotecias vectoriales son los endomorfismos más sencillos.
Ya sabemos que cada homotecia vectorial fλ es una aplicación lineal de V en V , luego es un
endomorfismo de V . Además cada homotecia vectorial de V es una aplicación biyectiva de V sobre
V : es inyectiva porque si fλ (v) = λv = 0 entonces v = 0 ya que λ 6= 0 , y es sobreyectiva porque si w
es un vector de V , fλ ( λ1 w) = w , y w es la imagen de λ1 w . Por tanto, las homotecias vectoriales de
V son automorfismos de V y pertenecen a GL(V ) .
La composición de dos homotecias vectoriales de V es una homotecia vectorial de V : La composición fµ ◦ fλ es la homotecia vectorial fµ·λ de razón µ · λ , como se comprueba fácilmente. La
aplicación identidad idV de V es la homotecia vectorial f1 . Además el endomorfismo inverso de la
homotecia vectorial fλ es la homotecia vectorial f λ1 .
Por consiguiente, el conjunto de las homotecias vectoriales de V es un subgrupo del grupo lineal
general GL(V ) de V .
Las homotecias vectoriales de V conmutan con todos los endomorfismos V : Para cada endomorfismo f : V −−→ V y cada homotecia vectorial fλ de V se tiene que fλ ◦ f = f ◦ fλ , porque para
cada v ∈ V ,
(fλ ◦ f )(v) = fλ (f (v)) = λf (v) = f (λv) = f (fλ (v)) = (f ◦ fλ )(v).
Podemos demostrar que en el caso particular de un espacio vectorial V de dimensión 1 , los endomorfismos de V son, además de la aplicación lineal constante cero, las homotecias vectoriales de
V :
Sea f un endomorfismo de V distinto del endomorfismo cero. Sea B = {v0 } una base de V .
Entonces f (v0 ) = λv0 para un cierto escalar λ . Para otro vector w de V , como w = µv0 para un
escalar µ , se tiene f (w) = f (µv0 ) = µf (v0 ) = µλv0 = λµv0 = λw.
Proposición. Si V es un espacio vectorial de dimensión 1 sobre K , entonces los endomorfismos de
V que no sean el endomorfismo cero son las homotecias vectoriales de V .
(2) Proyecciones vectoriales
Sea V un espacio vectorial sobre K . Sean W y U dos subespacios suplementarios de V : V = W ⊕ U .
Sabemos que para cada vector v de V existen vectores w en W y u en U únicos tales que v = w+u .
La aplicación p : V −−→ V definida por: para cada v ∈ V ,
p(v) = w ,
donde v = w + u , con w ∈ W y u ∈ U , únicos,
se llama proyección vectorial de V sobre el subespacio W en la dirección de U o paralela a U .
Es fácil demostrar que p es un endomorfismo de V : Sean v y v 0 dos vectores de V y sean λ y
µ dos escalares de K . Existen vectores w y w0 en W , y u y u0 en U , únicos, tales que v = w + u
y v 0 = w0 + u0 . Entonces
p(λv + µv 0 ) = p(λ(w + u) + µ(w0 + u0 ))
= p((λw + µw0 ) + (λu + µu0 ))
= λw + µw0
= λp(v) + µp(v 0 ).
El subespacio im p es el subespacio vectorial W . Los valores que toma p pertenecen todos al
subespacio W , luego im p ⊆ W . Y como para cada w ∈ W , la expresión única de w como suma de
un vector de W y otro de U es w = w + 0, se tiene, por la definición de p, p(w) = p(w + 0) = w,
luego w ∈ im p y W ⊆ im p.
Y el núcleo ker p es el subespacio vectorial U suplementario de W en V : si p(v) = 0 es porque
v = 0 + u para un vector u de U y entonces v = u pertenece a U . Por tanto ker p ⊆ U . Y también
U ⊆ ker p porque para cada u ∈ U la expresión única de u como suma de un vector de W y otro de
U es u = 0 + u, y por la definición de p, p(u) = p(0 + u) = 0, luego u ∈ ker p.
123
Aplicaciones lineales
Ası́ que tenemos V = W ⊕ U = im p ⊕ ker p .
Además, la aplicación lineal p2 = p ◦ p coincide con p , porque si p(v) = w , al ser w expresable
como suma de un vector de W y otro de U sólo en la forma w = w + 0 , resulta p(w) = w , luego
p(p(v)) = p(v).
Proposición. Sea f : V −−→ V una aplicación lineal. Los enunciados siguientes son equivalentes:
(a) f es una proyección vectorial de V sobre un subespacio W , y
(b) f ◦ f = f, y W = im f .
Demostración. (a) ⇒ (b) Es lo que acabamos de demostrar en los párrafos anteriores.
(b) ⇒ (a) En primer lugar, veamos que V = im f ⊕ ker f. Expresamos cada vector v de V en la
forma v = f (v)+(v −f (v)). El primer sumando es f (v) que pertenece a im f , y el segundo sumando es
v−f (v) que pertenece al núcleo de f, porque f (v−f (v)) = f (v)−f (f (v)) = f (v)−f (v) = 0. Por tanto,
V = im f +ker f. Además im f ∩ker f = {0}, porque si v es un vector de la intersección, por ser de im f
es de la forma f (w) para un cierto vector w de V , y al ser de ker f, 0 = f (v) = f (f (w)) = f (w) = v,
ası́ que en la intersección sólo está el vector nulo, y ker f e im f son subespacios suplementarios de V .
Por consiguiente, para cada v ∈ V , v = f (v) + (v − f (v)) es la única forma de expresar v como
suma de un vector de im f y otro vector de ker f, y el primer sumando f (v) pertenece a im f, que por
la hipótesis es W . Luego f es la proyección vectorial de V sobre W en la dirección de ker f.
Obsérvese que im f = {v ∈ V | f (v) = v}.
Ejemplos.
(1) La aplicación p : R2 −−→ R2 definida por p(x, y) = (x, 0), para cada (x, y) ∈ R2 es la proyección
vectorial de R2 sobre el subespacio W = L[(1, 0)] (‘el eje x ’) en la dirección del subespacio L[(0, 1)]
(‘el eje y ’).
(2) La aplicación p : R2 −−→ R2 definida por p(x, y) = (x, x), para cada (x, y) ∈ R2 es la proyección
vectorial de R2 sobre el subespacio W = L[(1, 1)] (‘la recta y = x ’) en la dirección del subespacio
L[(0, 1)] (‘el eje y ’).
(3) La aplicación p : R3 −−→ R3 definida por p(x, y, z) = (x, y, 0) , para cada (x, y, z) ∈ R3 , es la
proyección de R3 sobre el plano vectorial W = L[(1, 0, 0), (0, 1, 0)] (‘el plano xy ’), paralela al subespacio
suplementario U = L[(0, 0, 1)] (‘el eje z ’).
(4) La aplicación p : Mn (K) −−→ Mn (K) definida por p(A) = 12 (A + At ), para cada A ∈ Mn (K),
es la proyección vectorial del espacio Mn (K) sobre el subespacio de las matrices simétricas de orden n
paralelamente al subespacio de las matrices antisimétricas de orden n.
(3) Simetrı́as vectoriales
Sea V un espacio vectorial sobre K . Sea W un subespacio de V y sea U un subespacio suplementario
de W en V , es decir, V = W ⊕ U . Para cada vector v de V existen vectores w en W y u en U
únicos tales que v = w + u .
Se llama simetrı́a vectorial del espacio vectorial V respecto del subespacio W en la dirección de U
o paralela a U a la aplicación s : V −−→ V definida por:
para cada v ∈ V ,
s(v) = w − u
donde v = w + u , con w ∈ W y u ∈ U , únicos,
La aplicación s es un endomorfismo del espacio vectorial V : Sean v y v 0 dos vectores de V y
sean λ y µ dos escalares de K . Existen vectores w y w0 en W , y u y u0 en U , únicos, tales que
v = w + u y v 0 = w0 + u0 . Entonces
s(λv + µv 0 ) = s(λ(w + u) + µ(w0 + u0 ))
= s((λw + µw0 ) + (λu + µu0 ))
= (λw + µw0 ) − (λu + µu0 )
= λ(w − u) + µ(w0 − u0 )
= λ s(v) + µ s(v 0 ).
El subespacio imagen im s es el espacio vectorial V , porque para v 0 ∈ V tal que v 0 = w0 + u0 con
w0 ∈ W y u0 ∈ U , tomamos v = w0 + (−u0 ) y obtenemos s(v) = w0 − (−u0 ) = w0 + u0 = v 0 , con
124
Álgebra lineal
lo que v 0 pertenece a im s y s es sobreyectiva. Y como es un endomorfismo de V , si el espacio tiene
dimensión finita, s es inyectiva y biyectiva, luego automorfismo de V , y elemento de GL(V ) .
La aplicación s2 = s ◦ s es la aplicación identidad idV , porque para cada v ∈ V , si v = w + u
con w ∈ W y u ∈ U , se tiene
s2 (v) = s(s(v)) = s(w − u) = w − (−u) = w + u = v .
Ejemplos.
(1) La aplicación s : R2 −−→ R2 definida por p(x, y) = (x, −y), para cada (x, y) ∈ R2 es la simetrı́a
vectorial de R2 respecto de la recta vectorial W = L[(1, 0)] (‘el eje x ’) en la dirección del subespacio
L[(0, 1)] (‘el eje y ’).
(2) La aplicación s : R2 −−→ R2 definida por s(x, y) = (x, 2x − y), para cada (x, y) ∈ R2 es la
simetrı́a vectorial de R2 respecto de la recta vectorial W = L[(1, 1)] (‘la recta y = x ’) en la dirección
del subespacio L[(0, 1)] (‘el eje y ’).
(3) La aplicación s : R3 −−→ R3 definida por s(x, y, z) = (x, y, −z) , para cada (x, y, z) ∈ R3 , es la
simetrı́a vectorial de R3 respecto del plano vectorial W = L[(1, 0, 0), (0, 1, 0)] (‘el plano xy ’), paralela
a la recta vectorial suplementaria U = L[(0, 0, 1)] (‘el eje z ).
(4) La aplicación s : Mn (K) −−→ Mn (K) definida por s(A) = 12 (A + At ) − 12 (A − At ) = At para
cada A ∈ Mn (K), es decir, la aplicación de trasposición, es la simetrı́a vectorial del espacio Mn (K)
respecto del subespacio de las matrices simétricas de orden n paralelamente al subespacio de las matrices
antisimétricas de orden n.
Un caso extremo de simetrı́a vectorial consiste en el caso W = {0} y U = V . Entonces la simetrı́a
vectorial s de V respecto de W = {0} en la dirección de U = V está definida por s(v) = 0−v = −v ,
porque v = 0 + v . Esta simetrı́a vectorial de V es también la homotecia vectorial de V de razón −1
y se llama simetrı́a vectorial de centro 0 .
Matriz de una aplicación lineal respecto de bases
Sea f : V −−→ W una aplicación lineal de V en W , espacios vectoriales sobre el mismo cuerpo K , y
de dimensiones n y m > 1 , respectivamente.
Sea B = {v1 , . . . , vn } una base de V , y sea B0 = {w1 , . . . , wm } una base de W . Si conocemos
las coordenadas de un vector v de V respecto de la base B , ¿cómo hallar las coordenadas del vector
f (v) de W respecto de la base B0 ?
Sea v un vector de V y sean λ1 , . . . , λn las coordenadas de v respecto de la base B , es decir,
v = λ1 v1 + · · · + λn vn . El vector f (v) pertenece a W : sean µ1 , . . . , µm sus coordenadas respecto de
la base B0 de W , es decir, f (v) = µ1 w1 + · · · + µm wm . Tenemos
f (v) = µ1 w1 + · · · + µm wm
y
f (v) = f (λ1 v1 + · · · + λn vn ) = λ1 f (v1 ) + · · · + λn f (vn ),
porque f es lineal.
Los vectores f (v1 ), . . . , f (vn ) pertenecen a W , y cada uno tiene sus coordenadas respecto de la base
B0 : pongamos que son las siguientes:

f (v1 ) = a11 w1 + a21 w2 + · · · + am1 wm





 f (v2 ) = a12 w1 + a22 w2 + · · · + am2 wm






..
.
f (vn ) = a1n w1 + a2n w2 + · · · + amn wm .
125
Aplicaciones lineales
Entonces
f (v) = λ1 f (v1 ) + · · · + λn f (vn )
= λ1 (a11 w1 + a21 w2 + · · · + am1 wm ) + λ2 (a12 w1 + a22 w2 + · · · + am2 wm ) + · · ·
· · ·+ λn (a1n w1 + a2n w2 + · · · + amn wm )
= (λ1 a11 + λ2 a12 + · · · + λn a1n )w1 + (λ1 a21 + λ2 a22 + · · · + λn a2n )w2 + · · ·
· · · + (λ1 am1 + λ2 am2 + · · · + λn amn )wm
= µ1 w1 + · · · + µm wm .
Por la unicidad de las coordenadas, resultan

µ1 = a11 λ1 + a12 λ2 + · · · + a1n λn





 µ2 = a21 λ1 + a22 λ2 + · · · + a2n λn






..
.
µm = am1 λ1 + am2 λ2 + · · · + amn λn ,
que forman las ecuaciones de la aplicación lineal f respecto de las bases B de V y B0 de W : para
cada vector v de V proporcionan las coordenadas µ1 , . . . , µm del vector f (v) respecto de la base B0
en función de las coordenadas λ1 , . . . , λn de v respecto de la base B. Expresadas en forma de producto
de matrices son

 
 
µ1
a11 a12 · · · a1n
λ1
 µ2   a21 a22 · · · a2n   λ2 
 . = .
 . 
..
.. 
..
 .   ..
.
.
.   .. 
.
µm
am1
am2
···
amn
λn
La matriz del primer miembro de la igualdad es el m -vector columna formado por las coordenadas
µ1 , . . . , µm del vector f (v) de W respecto de la base B0 . La segunda matriz del segundo miembro es
el n -vector columna formado por las coordenadas λ1 , . . . , λn del vector v respecto de la base B .
Observemos que en la matriz de tamaño m por n del segundo miembro
• la primera columna es el m -vector columna de las coordenadas a11 , a21 , . . . , am1 respecto de la
base B0 del vector f (v1 ), imagen por f del primer vector v1 de la base B,
• la segunda columna es el m -vector columna de las coordenadas a12 , a22 , . . . , am2 respecto de la
base B0 del vector f (v2 ), imagen por f del segundo vector v2 de la base B,
..
.
• la columna n -ésima es el m -vector columna de las coordenadas a1n , a2n , . . . , amn respecto de la
base B0 del vector f (vn ), imagen por f del n -ésimo vector de la base B.
Esta matriz de tamaño m por n se llama matriz de la aplicación lineal f respecto de las bases B
de V y B0 de W , y la indicamos por MB,B0 (f ). Está claro que esta matriz depende de las bases B
de V y B0 de W que hayamos tomado en cada espacio vectorial: otra elección de bases en V y W
lleva a una matriz m por n distinta.
Tomando matrices traspuestas en la igualdad anterior tenemos

a11 a21
 a12 a22
( µ1 µ2 · · · µm ) = ( λ1 λ2 · · · λn ) 
..
 ...
.
a1n a2n
···
···
..
.

am1
am2 
.. 
. 
···
amn
expresión que también se utiliza, pero aquı́ utilizaremos la primera, por columnas.
Ejemplos.
(1) La matriz de la aplicación lineal constante cero de un espacio vectorial V de dimensión n > 1
en un espacio W de dimensión m > 1, respecto de dos bases cualesquiera, B de V y B0 de W , es
la matriz nula 0m×n .
126
Álgebra lineal
Y si la matriz MB,B0 (f ) de una aplicación lineal f es la matriz nula 0m×n , entonces f es la
aplicación lineal constante cero.
(2) La matriz de la aplicación identidad idV : V −−→ V de un espacio vectorial V , respecto de la
misma base B , tanto en el espacio de partida como en el de llegada, es la matriz identidad In , donde
n es la dimensión de V .
Más abajo se considera la matriz de la aplicación identidad idV de V respecto de una base B en
el espacio de partida y otra base B0 en el espacio de llegada.
(3) Sea fλ = λidV la homotecia vectorial de razón λ en un espacio vectorial V de dimensión
n > 1 . Sea B = {v1 , . . . , vn } una base de V . La matriz de fλ respecto de la base B es la matriz
escalar λIn :


λ 0 0 ··· 0
0 λ 0 ··· 0


0 0 λ ··· 0
MB,B = 
. . . .

.
 .. .. ..
. . .. 
0 0 0 ··· λ
En particular, para λ = 1 , la homotecia vectorial f1 es la identidad idV , y respecto de cada base
B de V , la matriz de f1 es la matriz identidad In , como se ha dicho en el ejemplo anterior.
(4) La matriz de la aplicación f : K3 −−→ K2 definida por
para cada (x, y, z) ∈ K3
f (x, y, z) = (2x − y + z, x + 5z),
respecto de las base estándares B3e y B2e de K3 y K2 , respectivamente, es
2
1
−1
0
1
5
porque

f (1, 0, 0) = (2, 1) = 2(1, 0) + 1(0, 1) = 2e1 + 1e2


f (0, 1, 0) = (−1, 0) = (−1)(1, 0) + 0(0, 1) = (−1)e1 + 0e2


f (0, 0, 1) = (1, 5) = 1(1, 0) + 5(0, 1) = 1e1 + 5e2 .
La matriz, respecto de las bases estándares B5e y B4e de K5 y K4 , de la aplicación g : K5 −−→ K4
definida por
f (x, y, z, t, u) = (3x − 2y + z − t − u, 2x + 2y + 5z − 3t + 7u, x − y − z + 2t + 8u, −x + y − z + t + u),
para cada (x, y, z, t, u) ∈ K5 , es
3
 2

1
−1

−2
2
−1
1
1
5
−1
−1
−1
−3
2
1

−1
7 
,
8
1
porque

f (1, 0, 0, 0, 0) = (3, 2, 1, −1) = 3e1 + 2e2 + 1e3 + (−1)e4






f (0, 1, 0, 0, 0) = (−2, 2, −1, 1) = (−2)e1 + 2e2 + (−1)e3 + 1e4


f (0, 0, 1, 0, 0) = (1, 5, −1, −1) = 1e1 + 5e2 + (−1)e3 + (−1)e4




f (0, 0, 0, 1, 0) = (−1, −3, 2, 1) = (−1)e1 + (−3)e2 + 2e3 + 1e4




f (0, 0, 0, 0, 1) = (−1, 7, 8, 1) = (−1)e1 + 7e2 + 8e3 + 1e4 .
En general:
(5) Sea f : Kn −−→ Km la aplicación lineal definida por:
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , am1 x1 + · · · + amn xn ),
127
Aplicaciones lineales
para cada (x1 , . . . , xn ) de Kn . Tomamos la base estándar Bne en Kn y la base estándar Bm
e =
{e1 , e2 , . . . , em } en Km . Entonces, como

f (1, 0, . . . , 0) = (a11 , a21 , . . . , am1 ) = a11 e1 + a21 e2 + · · · + am1 em





 f (0, 1, . . . , 0) = (a12 , a22 , . . . , am2 ) = a12 e1 + a22 e2 + · · · + am2 em






..
.
f (0, . . . , 0, 1) = (a1n , a2n , . . . , amn ) = a1n e1 + a2n e2 + · · · + amn em ,
m
la matriz de fA respecto de las bases Bne de Kn y Bm
es la matriz:
e de K
a11
 a21
 .
 ..
a12
a22
..
.
···
···
..
.

a1n
a2n 
.
.. 
. 
am1
am2
···
amn

MBne ,Bm
(f )
e
=
(6) Sea D : K6n [X] −−→ K6n [X] la aplicación lineal derivada definida por p(X) 7−→ D(p(X)) =
p0 (X), el polinomio derivado, para cada p(X) ∈ K6n [X]. Sea B la base {X n , . . . , X 2 , X, 1} de K6n [X].
Respecto de esta base B la matriz MB,B (D) es la matriz de orden n + 1
0
n

0

0
MB,B (D) = 
.
 ..

0

0
0
0
n−1
0
..
.
0
0
0
0
0
0
0
0
n−2 0
..
..
.
.
0
0
0
0
···
···
···
···
..
.
···
···
0 0
0 0
0 0
0 0
.. ..
. .
2 0
0 1

0
0

0

0
.. 
.

0
0
porque

D(X n ) =






D(X n−1 ) =




















D(X 2 ) =
nX n−1 = 0X n + nX n−1 + 0X n−2 + · · · + 0X + 0.1
(n − 1)X n−2 = 0X n + 0X n−1 + (n − 1)X n−2 + · · · + 0X + 0.1
..
.
2X = 0X n + 0X n−1 + 0X n−2 + · · · + 0X 2 + 2X + 0.1
D(X) =
1 = 0X n + 0X n−1 + 0X n−2 + · · · + 0X + 1.1
D(1) =
0 = 0X n + 0X n−1 + 0X n−2 + · · · + 0X + 0.1
El vector imagen del vector an X n +an−1 X n−1 +· · ·+a2 X 2 +a1 X+a0 de coordenadas an , an−1 , . . . , a2 , a1 , a0
respecto de la base B es el vector cuyas coordenadas respecto de B son
 a 

0
n
 an−1 
n



 an−2 
0
 . 



0
MB,B (D)  ..  = 
.


 ..
 a2 



0
a1
0
a0
0
0
n−1
0
..
.
0
0
0
0
0
0
0
0
n−2 0
..
..
.
.
0
0
0
0
···
···
···
···
..
.
···
···
 a 


0
0 0 0
n
nan


0 0 0   an−1 




 (n − 1)an−1 
0 0 0   an−2 
 . 


..

0 0 0 .  = 
.
.





.. .. ..  



. . .   a2 
3a3







2 0 0
a1
2a2
0 1 0
a0
1a1
y es el vector 0X n + nan X n−1 + (n − 1)an−1 X n−2 + · · · + 3a3 X 2 + 2a2 X + a1 , el polinomio derivado de
p(X).
(7) Sean a0 , a1 , a2 , . . . , an elementos de K. Sea f : K6n [X] −−→ Kn+1 la aplicación lineal evaluación
en a0 , a1 , . . . , an , esto es, la aplicación definida por
f (p(X)) = (p(a0 ), p(a1 ), . . . , p(an )),
para cada
p(X) ∈ K6n [X].
128
K
Álgebra lineal
Sea B la base {1, X, X 2 , . . . , X n } del espacio de partida K6n [X] y sea Bn+1
la base estándar de
e
. La matriz MB,Be (f ) de f respecto de las bases B y Be es
n+1
1
a0
a20
···
1


1
MB,Be (f ) = 

 ..
.
a1
a21
···
a2
..
.
a22
..
.
···
..
.
an0 
an1 


an2 

.. 
. 
1
an
a2n
···
ann
porque

f (1) = (1, 1, . . . , 1) = 1e1 + 1e2 + e2 + · · · + en+1





f (X) = (a0 , a1 , . . . , an ) = a0 e1 + a1 e2 + · · · + an en+1




f (X 2 ) = (a20 , a21 , . . . , a2n ) = a20 e1 + a21 e2 + · · · + a2n en+1



..


.




n
n n
f (X ) = (a0 , a1 , . . . , ann ) = an0 e1 + an1 e2 + · · · + ann en+1 .
(8) Sea f : M2 (K) −−→ M2 (K) la aplicación lineal trasposición definida por
A ∈ M2 (K). Sea
1 0
0 1
0 0
0 0
B =
,
,
,
0 0
0 0
1 0
0 1
A 7→ At , para cada
base de M2 (K). La matriz MB,B (f ) de f respecto de la base B es
1
0
MB,B (f ) = 
0
0
0
0
1
0

0
1
0
0

0
0
.
0
1
a b
La matriz A =
es el vector de coordenadas a, b, c, d respecto de la base anterior B, y las
c d
coordenadas de su imagen At respecto de la misma base son

 
1
a
b
0
MB,B (f )   = 
0
c
0
d
0
0
1
0
0
1
0
0
 
 
a
a
0
0b
c
  =  
0
c
b
d
d
1
luego la imagen es el vector de coordenadas a, c, b, d respecto de la base B, es decir, la matriz
a
b
c
d
.
(9) Sea p : V −−→ V la proyección vectorial de V sobre el subespacio vectorial W paralela al
subespacio suplementario U . Sea B0 una base de W , y sea B1 una base de U . Como V = W ⊕ U ,
la unión B = B0 ∪ B1 es base de V . Para cada vector w de W , p(w) = w , y para cada u de U ,
p(u) = 0 . Por tanto, la matriz de p respecto de la base B es


1 0 ··· 0 0 ··· 0
0 1 ··· 0 0 ··· 0
. . .

. .
. . ... ... . . . ... 
. .
 Ir
0r×(n−r)


MB,B (p) =  0 0 · · · 1 0 · · · 0  =
0(n−r)×r
0n−r


0 0 ··· 0 0 ··· 0
. . .

. . ... ... . . . ... 
 .. ..
0
0
···
0
0
···
0
donde r es la dimensión de W .
(10) Sea s : V −−→ V la simetrı́a vectorial de V respecto del subespacio vectorial W paralela al
subespacio suplementario U . Sea B0 una base de W , y sea B1 una base de U . Como V = W ⊕ U ,
129
Aplicaciones lineales
la unión B = B0 ∪ B1 es base de V . Para cada vector w de W , s(w) = w , y para cada u de U ,
s(u) = −u . Por tanto, la matriz de s respecto de la base B es


1 0 ··· 0 0 ··· 0
0 1 ··· 0 0 ··· 0 
. . .
..
.. 
..

. .
. . ...
.
.
.  . .
Ir
0r×(n−r)


MB,B (s) =  0 0 · · · 1 0 · · · 0  =
0(n−r)×r
−In−r


 0 0 · · · 0 −1 · · · 0 

. . .
..
.. 
..
. . ...
 .. ..
.
.
.
0 0 · · · 0 0 · · · −1
donde r es la dimensión de W .
Caso particular: Matriz de cambio de base
Un caso particular de matriz de una aplicación lineal respecto de bases es el siguiente: V = W y f es la
aplicación identidad idV en el espacio vectorial V . Sean B = {v1 , . . . , vn } y B0 = {w1 , . . . , wn } dos
bases de V . Entonces f (v) = idV (v) = v para todo v de V , y la expresión matricial de f respecto
de las bases B y B0 es
 
  
µ1
λ1
a11 a12 · · · a1n
 µ2   a21 a22 · · · a2n   λ2 
 . .
 . = .
..
.. 
..
 .   ..
.
.
.   .. 
.
an1
µn
···
an2
ann
λn
La matriz del primer miembro de la igualdad es el n -vector columna de las coordenadas µ1 , . . . , µn de
f (v) = id(v) = v respecto de la base B0 , y la segunda matriz del segundo miembro es el n -vector
columna de las coordenadas λ1 , . . . , λn de v respecto de la base B : aquı́ tenemos la expresión matricial
del cambio de base en V de la base B a la base B0 . La matriz cuadrada de orden n es la matriz
MB,B0 (idV ) de la aplicación lineal identidad idV respecto de las bases B y B0 y tiene
• como primera columna el n -vector columna de las coordenadas a11 , a21 , . . . , an1 del primer vector
v1 = idV (v1 ) de la base B respecto de la base B0 ,
• como segunda columna el n -vector columna de las coordenadas a12 , a22 , . . . , an2 del segundo
vector v2 = idV (v2 ) de la base B respecto de la base B0 ,
..
.
• y como última columna el n -vector columna de las coordenadas a1n , a2n , . . . , ann del último
vector vn = idV (vn ) de la base B respecto de la base B0 ,
es la matriz M (B, B0 ) del cambio de base de la base B a la base B0 , que ya conocemos, y es
M (B, B’) = M B,B0 (idV ).
Matriz de la composición de dos aplicaciones lineales respecto de bases
Sean ahora V , W y U espacios vectoriales de dimensiones n, m y p > 1 , respectivamente, sobre el
mismo cuerpo K , y sean f : V −−→ W y g : W −−→ U aplicaciones lineales. Sean B , B0 y B00 bases
respectivas de V , W y U :
V
B
f
−−−−−→
W
B
0
g
−−−−−→
U
B00
Queremos hallar la matriz MB,B00 (g ◦ f ) de la aplicación lineal g ◦ f, composición de f con g, en
función de las matrices MB,B0 (f ) y MB0 ,B00 (g) .
Supongamos que MB,B0 (f ) es la matriz (aij )m×n de Mm×n (K) , que MB0 ,B00 (g) es la matriz
(bij )p×m de Mp×m (K) y que la matriz buscada es la matriz (cij )p×n de Mp×n (K) .
Sea v un vector de V y sean λ1 , . . . , λn sus coordenadas respecto de la base B = {v1 , . . . , vn } de
V , ası́ que v = λ1 v1 + · · · + λn vn .
130
Álgebra lineal
El vector f (v) pertenece a W . Supongamos que µ1 , . . . , µm son las coordenadas de f (v) respecto
de la base B0 = {w1 , . . . , wm } de W . Tenemos
f (v) = µ1 w1 + · · · + µm wm
= (a11 λ1 + · · · + a1n λn )w1 + · · · + (am1 λ1 + · · · + amn λn )wn .
El vector (g ◦ f )(v) = g(f (v)) pertenece a U . Sean ν1 , . . . , νp las coordenadas de (g ◦ f )(v) respecto
de la base B00 = {u1 , . . . , up } de U : (g ◦ f )(v) = ν1 u1 + · · · + νp up . Entonces
(g ◦ f )(v) = g(f (v))
= g((a11 λ1 + · · · + a1n λn )w1 + · · · + (am1 λ1 + · · · + amn λn )wn ))
= (a11 λ1 + · · · + a1n λn )g(w1 ) + · · · + (am1 λ1 + · · · + amn λn )g(wn )
= (a11 λ1 + · · · + a1n λn )(b11 u1 + · · · + bp1 up ) + · · ·
· · · + (am1 λ1 + · · · + amn λn )(b1m u1 + · · · + bpm up )
= (a11 λ1 + · · · + a1n λn )b11 + · · · + (am1 λ1 + · · · + amn λn )b1m u1 + · · ·
· · · + (a11 λ1 + · · · + a1n λn )bp1 + · · · + (am1 λ1 + · · · + amn λn )bpm um .
= ν1 u1 + · · · + νp up .
Entonces

ν1 = (a11 λ1 + · · · + a1n λn )b11 + · · · + (am1 λ1 + · · · + amn λn )b1m




..
.




νp = (a11 λ1 + · · · + a1n λn )bp1 + · · · + (am1 λ1 + · · · + amn λn )bpm ,
y, reorganizando,

ν1 = (a11 b11 + · · · + am1 b1m )λ1 + · · · + (a1n b11 + · · · + amn b1m )λn




..
.




νp = (a11 bp1 + · · · + am1 bpm )λ1 + · · · + (a1n bp1 + · · · + amn bpm )λn .
En forma matricial,
 
ν1
a11 b11 + · · · + am1 b1m
.
..
 ..  = 
.

νp
···
..
.
···
 
a1n b11 + · · · + amn b1m
λ1
..
  ... 
.
a11 bp1 + · · · + am1 bpm
a1n bp1 + · · · + amn bpm

 
b11 · · · b1m
a11 · · · a1n
λ1
.
..   ..
..   .. 
..
..
=  ..
.
.
.
.
.
.
bp1 · · · bpm
am1 · · · amn
λn

 
c11 · · · c1n
λ1
.
.
.. 
.



.
.
.
=
.
.
.
.
cp1 · · · cpn
λn
λn

de donde
c11
..

MB,B00 (g ◦ f ) =
.

cp1
···
..
.
···
 
c1n
b11
..   ..
=
.
.
cpn
bp1
···
..
.
···

b1m
..  
.
a11
..
.
bpm
am1
···
..
.
···

a1n
.. 
= MB0 ,B00 (g) · MB,B0 (f ),
.
amn
y
M B,B00 (g◦f ) = MB0 ,B00 (g) · MB,B0 (f ).
Importante: Como el producto de matrices no es conmutativo, hay que tener presente el orden de los
factores en cada producto, en particular en el producto anterior.
131
Aplicaciones lineales
Ejemplos.
(a) Sean f : K3 −−→ K4 y g : K4 −−→ K3 las aplicaciones lineales definidas por
f (x, y, z) = (2x − y + 3z, x + y + 4z, 3x − 2y + 5z, x + z),
para cada (x, y, z) ∈ K3 , y
g(x, y, z, t) = (x − y − z + t, −x + 7y + 3t, −3y + 2z − t),
para cada (x, y, z, t) ∈ K4 .
En los espacios K3 y K4 se toman las bases estándares respectivas B3e y B4e . Las matrices de las
aplicaciones lineales f y g respecto de estas dos bases son




2 −1 3
1 −1 −1 1
1 1 4
y
MB4e ,B3e (g) =  −1 7
0
3 .
MB3e ,B4e (f ) = 

3 −2 5
0 −3 2 −1
1 0 1
La matriz de la aplicación composición g ◦ f : K3 −−→ K3 respecto de la base

  2 −1
1 −1 −1 1
1 1
0
3 
MB3e ,B3e (g ◦ f ) = MB4e ,B3e (g) · MB3e ,B4e (f ) =  −1 7
3 −2
0 −3 2 −1
1 0
estándar de K3 es
 

3
−1 0 −5
4 
8
8
28 
=
5
2 −7 −3
1
y g ◦ f es la aplicación lineal de K3 en K3 definida por
para cada (x, y, z) ∈ K3 .
(g ◦ f )(x, y, z) = (−x − 5z, 8x + 8y + 28z, 2x − 7y − 3z),
(b) Sea D : K63 [X] −−→ K63 [X] la aplicación lineal derivada que en cada polinomio p(X) de
K63 [X] toma como valor D(p(X)) = p0 (X) el polinomio derivado de p(X). La matriz de D respecto
de la base B = {X 3 , X 2 , X, 1} de K63 [X] es


0 0 0 0
3 0 0 0
MB,B (D) = 
.
0 2 0 0
0 0 1 0
La aplicación composición D ◦ D de D con D es la aplicación derivada segunda, porque
(D ◦ D)(p(X)) = D(D(p(X)) = D(p0 (X)) = p00 (X), para cada p(X) ∈ K63 [X].
La matriz MB,B (D ◦ D) de D ◦ D respecto de la

0
3
MB,B (D ◦ D) = MB,B (D)MB,B (D) = 
0
0
misma base B

0
0 0 0
0 0 03

0
2 0 0
0 1 0
0
es
0
0
2
0
0
0
0
1


0
0
0
0
 = 
6
0
0
0
0
0
0
2
0
0
0
0

0
0
.
0
0
Las coordenadas respecto de la base B de la derivada segunda del polinomio p(X) = a3 X 3 + a2 X 2 +
a1 X + a0 son 0, 0, 6a3 , 2a2 , ya que a3 , a2 , a1 , a0 son las coordenadas de p(X) respecto de la misma
base y

 


0 0 0 0
a3
0
 0 0 0 0   a2 
 0 

  = 

6 0 0 0
a1
6a3
0 2 0 0
a0
2a2
y
D2 (p(X)) = D(D(p(X)) = p00 (X) = 6a3 X + 2a2 .
Consecuencias
(1) Las matrices de cambio de base son invertibles
Sea V un espacio vectorial de dimensión n > 1 sobre un cuerpo K . Sean B y B0 bases de V .
Consideramos el automorfismo identidad idV de V :
V
B
id
V
−−−−
−→
V
B0
id
V
−−−−
−→ V
B
132
Álgebra lineal
Entonces tenemos:
In = M (B, B)
= MB,B (idV )
= MB,B (idV ◦ idV )
= MB0 ,B (idV ) · MB,B0 (idV )
= M (B0 , B) · M (B, B0 ).
Por otra parte, de
id
V
−−−−
−→
V
id
V
−−−−
−→
V
0
B
V
B0
B
obtenemos
In = M (B0 , B0 )
= MB0 ,B0 (idV )
= MB0 ,B0 (idV ◦ idV )
= MB,B0 (idV ) · MB0 ,B (idV )
= M (B, B0 ) · M (B0 , B).
Por consiguiente, cada matriz M (B, B0 ) de cambio de base es invertible, y su matriz inversa es la matriz
de cambio M (B0 , B) de la segunda base a la primera:
M(B, B’) −1 = M (B0 , B).
(2) Matriz de un automorfismo respecto de una base
Sea V un espacio vectorial de dimensión n > 1 sobre un cuerpo K . Sea f un automorfismo de
V , es decir, f : V V es lineal y biyectiva. Sea B una base de V , y sea MB (f ) la matriz MB,B (f ) ,
que pertenece a Mn (K) . Como f es un automorfismo de V , f es invertible y f −1 también es un
automorfismo de V , y tenemos f −1 ◦ f = idV , luego
In = MB,B (id) = MB,B (f −1 ◦ f ) = MB,B (f −1 ) · MB,B (f ).
Y como también f ◦ f −1 = idV , tenemos
In = MB,B (id) = MB,B (f ◦ f −1 ) = MB,B (f ) · MB,B (f −1 ).
Por tanto, la matriz MB (f ) = MB,B (f ) es invertible y su inversa es la matriz MB,B (f −1 ) del automorfismo inverso f −1 respecto de la misma base:
M B,B (f )−1 = MB,B (f −1 ).
En resumen: la matriz de un automorfismo f de V respecto de una base B de V es invertible, y su
inversa es la matriz del automorfismo inverso f −1 respecto de la misma base.
(3) Sean V y W espacios vectoriales de la misma dimensión n > 1 , sobre K . Sea B = {v1 , . . . , vn }
una base de V . Sea f : V W una aplicación lineal y biyectiva de V sobre W , es decir, un
isomorfismo de V sobre W . El conjunto f [B] = {f (v1 ), . . . , f (vn )} es una base de W . Entonces las
coordenadas de f (v1 ) respecto de la base f [B] son 1, 0, . . . , 0 ; las coordenadas de f (v2 ) respecto de la
base f [B] son 0, 1, 0, . . . , 0 ; . . . , y las coordenadas de f (vn ) respecto de la base f [B] son 0, 0, . . . , 0, 1 ,
luego


1 0 ··· 0
0 1 ··· 0

MB,f [B] (f ) = 
 ... ... . . . ...  = In .
0
0
···
1
133
Aplicaciones lineales
(4) Matrices de una aplicación lineal respecto de bases diferentes
Sean V y W espacios vectoriales de dimensión finita > 1 sobre un cuerpo K y sea f : V −−→ W
una aplicación lineal de V en W . Sean B0 y B1 bases de V y W , respectivamente, y sea MB0 ,B1 (f )
la matriz de f respecto de las bases B0 y B1 . Hacemos un cambio de base en cada uno de los espacios
vectoriales: en V consideramos una nueva base B00 y en W tomamos una nueva base B01 . ¿Cuál es la
matriz MB00 ,B01 (f ) de f respecto de las nuevas bases B00 y B01 ?
id
V
−−−−
−→
V
B00
V
f
−−−−−→
B0
W
id
W
−−−−
−→
W
B01
B1
Tenemos
MB00 ,B01 (f ) = MB00 ,B01 (idW ◦ f ◦ idV )
= MB1 ,B01 (idW ) · MB0 ,B1 (f ) · MB00 ,B0 (idV )
= M (B1 , B01 ) · MB0 ,B1 (f ) · M (B00 , B0 )
= M (B1 , B01 ) · MB0 ,B1 (f ) · M (B0 , B00 )−1 .
y
M B00 ,B01 (f ) = M (B1 , B01 ) · MB0 ,B1 (f ) · M (B0 , B00 )−1 .
(5) Casos particulares
(a) En el caso particular del (4) en el que V = W , f es un endomorfismo de V y B y B0 son
dos bases de V :
id
V
−−−−
−→
V
0
B
V
f
−−−−−→
B
V
id
V
−−−−
−→
V
B0
B
se tiene, por un lado, la matriz MB (f ) de f respecto de la base B y, por otro, la matriz MB0 (f ) de
f respecto de la base B0 . Entonces
MB0 (f ) = MB0 ,B0 (f ) = M (B, B0 ) · MB (f ) · M (B, B0 )−1 ,
o también
MB0 (f ) = MB0 ,B0 (f ) = M (B0 , B)−1 · MB (f ) · M (B0 , B)
y la matriz MB0 (f ) de f respecto de la nueva base B0 es función de la matriz MB (f ) de f respecto
de la base B y la matriz M (B, B0 ) de cambio de la base B a la base B0 .
(b) En el caso en el que V = Kn y la base B es la base estándar Bne de Kn , si B0 es otra base
del espacio,
Kn
B0
id
n
K
−−−−
−→
Kn
Bne
f
−−−−−→
Kn
Bne
id
n
K
−−−−
−→
Kn
B0
y
MB0 (f ) = M (B0 , Bne )−1 · MBne (f ) · M (B0 , Bne )
La matriz M (B0 , Bne ) es muy fácil de hallar: es la matriz que tiene como columnas los vectores de la
base B0 . La parte más larga aquı́ es el cálculo de la matriz inversa de la matriz M (B0 , Bne ). Como
M (B0 , Bne )−1 = M (Bne , B0 ), también se puede intentar hallar esta matriz directamente, hallando las
coordenadas de los vectores de la base estándar respecto de la base B0 , pero esto suele ser más largo
134
Álgebra lineal
que hallar la matriz inversa, al menos si se conoce alguno de los métodos usuales para calcular la matriz
inversa de una matriz invertible.
Ejemplo.
Sea f : R3 −−→ R3 el endomorfismo definido por
f (x, y, z) = (3x + y + z, 2x + 4y + 2z, 3x + 3y + 5z),
La matriz de f respecto de la base estándar Be de K3 es


3 1 1
MBe (f ) =  2 4 2  .
3 3 5
para cada (x, y, z) ∈ R3 .
Sea B = {(1, −1, 0), (1, 0, −1), (1, 2, 3)} base de R3 . Para hallar la matriz de f respecto de la nueva
base
R3
B
id
3
R
−−−−
−→
R3
Be
f
−−−−−→
R3
Be
id
3
R
−−−−
−→
R3
B
y se tiene
MB (f ) = M (Be , B) · MBe (f ) · M (B, Be )
= M (B, Be )−1 · MBe (f )

−1 
1
1 1
3
=  −1 0 2   2
0 −1 3
3


2 −4 2
3
1
=  3 3 −3   2
6
1 1
1
3


2 0 0
= 0 2 0
0 0 8
· M (B, Be )


1 1
1
1 1
4 2   −1 0 2 
3 5
0 −1 3


1 1
1
1 1
4 2   −1 0 2 
3 5
0 −1 3
y la matriz de f respecto de la nueva base es una matriz diagonal.
Los espacios vectoriales L(V , W ) y Mm×n (K)
Sean V y W espacios vectoriales de dimensiones respectivas n y m > 1 sobre el mismo cuerpo K .
Sea B = {v1 , . . . , vn } una base de V y sea B0 = {w1 , . . . , wm } una base de W . Para cada aplicación
lineal f : V −−→ W tenemos su matriz MB,B0 (f ) respecto de las bases B y B0 , que es una matriz de
tamaño m × n . Esto define una aplicación del espacio vectorial L(V , W ) de las aplicaciones lineales de
V en W en el espacio vectorial Mm×n (K) de las matrices de tamaño m × n de elementos de K :
MatB,B0 : L(V , W ) −−→ Mm×n (K)
que en cada f ∈ L(V , W ) tiene como valor MatB,B0 (f ) = MB,B0 (f ) de Mm×n (K) .
Al ser MatB,B0 una aplicación entre espacios vectoriales sobre el mismo cuerpo K , la pregunta
inmediata es: ¿Es MatB,B0 una aplicación lineal? ¿Es inyectiva? ¿Es un isomorfismo de espacios vectoriales?
Demostramos primero que, efectivamente, MatB,B0 es una aplicación lineal :
Sean f y g aplicaciones lineales de V en W y sean λ y µ escalares. Tenemos que demostrar
que
MatB,B0 (λf + µg) = MB,B0 (λf + µg) = λMB,B0 (f ) + µMB,B0 (g) = λMatB,B0 (f ) + µMatB,B0 (g).
La columna j -ésima de la matriz MB,B0 (λf + µg) es el m -vector columna formado por las coordenadas
de la imagen (λf + µg)(vj ) del j -ésimo vector vj de la base B de V respecto de la base B0 de W :
135
Aplicaciones lineales
este m -vector columna es la suma del m -vector columna formado por las coordenadas de (λf )(vj ) y
del m -vector columna formado por las coordenadas de (µg)(vj ) respecto de B0 , y, por tanto, la suma
de λ por el m -vector columna de las coordenadas de f (vj ) y de µ por el m -vector columna de las
coordenadas de g(vj ) respecto de B0 : es decir,
MatB,B0 (λf + µg) = λ MatB,B0 (f ) + µ MatB,B0 (g)
y MatB,B0 es una aplicación lineal.
Además, la aplicación MatB,B0 es inyectiva : Si f pertenece al núcleo de MatB,B0 , es que
MatB,B0 (f ) = MB,B0 (f ) es la matriz cero 0m×n , luego f transforma todos los vectores de la base
B en vectores que tienen todas sus coordenadas nulas, por tanto, en el vector 0 , y por linealidad,
transforma todo vector de V en el vector cero, luego f es la aplicación lineal constante cero de V en
W.
Para demostrar que MatB,B0 es biyectiva podemos echar mano del hecho de que los espacios vectoriales L(V , W ) y Mm×n (K) tienen la misma dimensión m · n , y toda aplicación lineal inyectiva entre
dos espacios vectoriales de la misma dimensión finita sobre el mismo cuerpo es biyectiva y, por tanto, un
isomorfismo entre los espacios.
Pero podemos demostrar directamente que MatB,B0 es sobreyectiva : Dada una matriz A =
(aij )m×n de Mm×n (K) , definimos la aplicación lineal f : V −−→ W determinada por tomar los valores
siguientes en los elementos de la base B = {v1 , . . . , vn } de V :

f (v1 ) = a11 w1 + a21 w2 + · · · + am1 wm





 f (v2 ) = a12 w1 + a22 w2 + · · · + am2 wm






..
.
f (vn ) = a1n w1 + a2n w2 + · · · + amn wm .
Sabemos que hay una aplicación lineal f de V en W y sólo una que toma esos valores en los vectores
de la base B .
La matriz de esta aplicación lineal f respecto de las bases B y B0 tiene como columna j -ésima el
m -vector columna formado por las coordenadas de la imagen f (vj ) del j -ésimo vector vj de la base B
respecto de la base B0 , y estas coordenadas son a1j , a2j , . . . , amj , esto es, los elementos de la columna
j -ésima de la matriz A . Por tanto MatB,B0 (f ) = A y la aplicación MatB,B0 es sobreyectiva. En total,
la aplicación MatB,B0 es lineal y biyectiva, luego
Proposición. Sean V y W espacios vectoriales de dimensiones respectivas n, m > 1 sobre el mismo
cuerpo K y sean B y B0 bases de V y W , respectivamente. La aplicación lineal
MatB,B0 : L(V , W ) −−→ Mm×n (K)
f 7−→ MatB,B0 (f ) = MB,B0 (f )
que en cada aplicación lineal f : V −−→ W toma como valor la matriz MB,B0 (f ) de la aplicación
lineal respecto de las bases dadas, es un isomorfismo del espacio vectorial L(V , W ) sobre el espacio
vectorial Mm×n (K) .
Por medio de estos isomorfismos se tiene un paralelismo prácticamente total entre las relaciones
‘lineales’ que se puedan dar entre unas aplicaciones lineales de V en W (unos vectores de L(V , W ) )
y las relaciones correspondientes entre las matrices de esas aplicaciones lineales respecto de las bases
B y B0 (los vectores imagen en Mm×n (K) ). Y análogamente para subespacios de L(V , W ) y los
subespacios imagen correspondientes de Mm×n (K).
Por ejemplo, si f, g y h son aplicaciones lineales de V en W y A, B y C son las matrices
respectivas de f, g y h respecto de las bases B y B0 de V y W , respectivamente,
h=f +g
si y sólo si
C =A+B
h = λf
si y sólo si
C = λA
h = λf + µg
si y sólo si
C = λA + µB
136
Álgebra lineal
f es la aplicación lineal constante cero v 7→ 0 si y sólo si
A es la matriz nula 0m×n
y si V y W tienen la misma dimensión,
f es invertible, es decir, biyectiva
si y sólo si
A es invertible.
De este resultado también se deduce que dim L(V , W ) = dim Mm×n (K) = m·n , lo que ya sabı́amos.
Pero podı́amos haber evitado dar una de las dos demostraciones, sobre todo la que es considerablemente
más jaleosa.
Como caso particular de la proposición anterior, se obtiene
Corolario. Sea V un espacio vectorial de dimensión n > 1 sobre un cuerpo K. Sea B una base de
V . La aplicación
MatB : L(V ) −−→ Mn (K)
f
7−→
MatB (f ) = MB,B (f )
que en cada endomorfismo f de V toma como valor la matriz de f respecto de la base B , es un
isomorfismo del espacio vectorial L(V ) sobre el espacio vectorial Mn (K).
Como consecuencia se obtiene que el espacio vectorial L(V ) = End(V ) tiene dimensión n2 .
En el conjunto L(V ) también está definida la composición ◦ de endomorfismos de V . Como
sabemos ya, la operación correspondiente en Mn (K) es el producto de matrices. La aplicación MatB
también “se lleva bien” con estas dos operaciones, en el siguiente sentido: para cualesquiera f, g ∈ L(V ) ,
MatB (g ◦ f ) = MatB (g) · MatB (f ),
MatB (idV ) = In
y si f es un automorfismo de V ,
MatB (f −1 ) = MatB (f )−1 .
Y como antes, se tiene un paralelismo prácticamente total entre las propiedades ‘lineales’ que se
puedan dar entre unos endomorfismos de V y las propiedades correspondientes entre las matrices de
esos endomorfismos respecto de la base B. Y entre los subespacios de L(V ) y los subespacios imagen
correspondientes en Mn (K).
Por ejemplo, si f, g y h son endomorfismos de V tales que g es un automorfismo y A, B y C
son las matrices respectivas de f, g y h respecto de una base B, entonces
h=g◦f
si y sólo si
C =B·A
h=f ◦g
si y sólo si
C =A·B
f es la homotecia vectorial λidV
si y sólo si
A es la matriz escalar λIn
f2 = f ◦ f = f
si y sólo si
A2 = A
f 2 = f ◦ f = idV
si y sólo si
A2 = I n
f 2 = f ◦f es el endomorfismo nulo v 7→ 0
si y sólo si
A2 es la matriz nula 0n
h = 3f 3 − 2f 2 + f + idV + g −1
si y sólo si
C = 3A3 −2A2 +A+In +B −1
f 2 + 3(g ◦ h) + (g −1 ◦ f ) = 7idV
si y sólo si
A2 +3(B ·C)+(B −1 ·A) = 7In .
En pocas palabras, una vez elegidas sendas bases B y B0 en los espacios vectoriales V y W , cada
aplicación lineal f de V en W se ‘identifica’ con la matriz MB,B0 (f ) , y recı́procamente, cada matriz
A de tamaño m × n de elementos de K se ‘identifica’ con la aplicación lineal de V en W que, respecto
de las bases B y B0 , tiene como matriz la matriz A.
Estas dos ‘identificaciones’ permiten traducir todas las propiedades lineales que se dan en el espacio
vectorial L(V , W ) entre sus vectores (las aplicaciones lineales de V en W ), sus subconjuntos y sus
subespacios en las propiedades lineales correspondientes entre los vectores (las matrices de tamaño m × n
de elementos de K ), los subconjuntos y los subespacios correspondientes de Mm×n (K). Y viceversa.
4. Rangos y determinantes
Rangos
Rango de un conjunto de vectores
Sea V un espacio vectorial de dimensión finita n > 1 sobre un cuerpo K . Sean v1 , . . . , vk vectores
de V . Se llama rango del conjunto de vectores {v1 , . . . , vk } al máximo número de vectores del conjunto
que son linealmente independientes.
De otro modo: como los vectores v1 , . . . , vk generan el subespacio L[v1 , . . . , vk ] , sabemos que hay
una base del subespacio incluida en el conjunto {v1 , . . . , vk } . El número de vectores de esa base del
subespacio es la dimensión del subespacio y, también, el máximo número de vectores linealmente independientes entre los vectores de {v1 , . . . , vk } . Por consiguiente, el rango del conjunto de vectores
{v1 , . . . , vk } se puede definir también como la dimensión del subespacio L[v1 , . . . , vk ] de V generado
por los vectores v1 , . . . , vk .
La notación que utilizaremos para el rango del conjunto {v1 , . . . , vk } es rango({v1 , . . . , vk }) .
Debe ser evidente que rango({v1 , . . . , vk }) 6 k y rango({v1 , . . . , vk }) 6 dim V .
Rango de una aplicación lineal
Sean V y V 0 espacios vectoriales sobre el mismo cuerpo K . Sea f : V −−→ V 0 una aplicación lineal
de V en V 0 . Se llama rango de la aplicación lineal f a la dimensión del subespacio im f de V 0 . El
rango de la aplicación lineal f lo indicaremos por rango f .
Por la fórmula de las dimensiones sabemos que si V es de dimensión finita, rango f = dim V −
dim ker f . Por tanto, rango f 6 dim V , y como im f ⊆ V 0 , rango f 6 dim V 0 .
Si V es de dimensión n > 1 , y B = {v1 , . . . , vn } es una base de V , sabemos que los vectores
f (v1 ), . . . , f (vn ) generan el subespacio im f . Por tanto, el rango de la aplicación lineal f es el rango
del conjunto de vectores {f (v1 ), . . . , f (vn )} .
Rango(s) de una matriz
Sea





A=




a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1j
a2j
..
.
···
···
..
.
ai1
..
.
ai2
..
.
aij
..
.
am1
am2
···
..
.
···
···
..
.
···
amj
a1n
a2n
..
.






ain 

.. 
. 
amn
una matriz de tamaño m × n de elementos de K . Sean A(1) , . . . , A(i) , . . . , A(m) los m n -vectores filas
que forman las m filas de la matriz A , vistas como elementos del espacio vectorial M1×n (K) : esto es,
A(1) = ( a11
a12
···
a1j
···
a1n ) ,
A(2) = ( a21
a22
···
a2j
···
a2n ) ,

..
.
A(i) = ( ai1
y
ai2
···
aij
···
ain ) ,
..
.
A(m) = ( am1
am2
···
amj
···









A =  (i)  .
A 
 . 
 .. 
A(m)
amn )
Se llama rango por filas de la matriz A al rango del conjunto de vectores
M1×n (K) ,
o, con otras palabras,
A(1)
A(2)
..
.
A(1) , A(2) , . . . , A(m)
de
138
Álgebra lineal
al máximo número de filas de la matriz A que son linealmente independientes como vectores de
M1×n (K) ,
o, también,
a la dimensión del subespacio L A(1) , A(2) , . . . , A(m) de M1×n (K).
Sean A(1) , . . . , A(j) , . . . , A(n) los n m -vectores columnas que forman las n columnas de la matriz
A , vistas como elementos del espacio vectorial Mm×1 (K) : esto es,






a1j
a1n
a11


 a2n 
 a21 
 a2j 
 . 
 . 
 .. 
 . 
 . 
 . 
. 
 . 
 , . . . , A(n) = 
A(1) = 
 y A = ( A(1) · · · A(j) · · · A(n) ) .

 , . . . , A(j) = 
 aij 
a

 ai1 
in 




 . 
 . 
 ... 
 .. 
 .. 
amn
am1
amj
Se llama rango por columnas de la matriz A al rango del conjunto de vectores
Mm×1 (K) ,
A(1) , . . . , A(n)
de
o, con otras palabras,
al máximo número de columnas de la matriz A que son linealmente independientes como vectores
de Mm×1 (K) ,
o, también,
a la dimensión del subespacio L A(1) , A(2) , . . . , A(n) de Mm×1 (K).
Proposición. Sea A una matriz de tamaño m×n de elementos de K . El rango por filas de A coincide
con el rango por columnas de A .
Demostración. Sea f el rango por filas de A , y sea c el rango por columnas de A . Tenemos que
demostrar que f = c .
Veamos que c 6 f .
Como el rango por filas de A es f , hay f filas de A , A(i1 ) , . . . , A(if ) que, como n -vectores filas
de M1×n (K) , son linealmente independientes. Supongamos que esas f filas son las f primeras filas de
A, A(1) , . . . , A(f ) , linealmente independientes como vectores de M1×n (K) . Las m − f filas restantes
A(f +1) , . . . , A(m) son combinación lineal de las f primeras: para cada i = f + 1, . . . , m ,
h
i
A(i) ∈ L A(1) , . . . , A(f ) ,
y existen escalares λi1 , . . . , λif ∈ K tales que
A(i) = λi1 A(1) + · · · + λif A(f ) .
Ası́,
 

A(1)
A(1)
..
 ..  

.
 .  

 (f )  

(f )
A
 A
 

A =  (f +1)  =  λ
(1)
(f )  =
A
  f +1,1 A + · · · + λf +1,f A 
 .  

..
 ..  

.
(m)
A
λm1 A(1) + · · · + λmf A(f )


a11
a21
..
.
···
···
..
.
a1j
a2j
..
.
···
···
..
.
af j
λf +1,1 a1j + · · · + λf +1,f af j
..
.
···
···
..
.
λm1 a11 + · · · + λmf af 1
···
···
..
.
···
λm1 a1j + · · · + λmf af j
···





=
af 1

 λf +1,1 a11 + · · · + λf +1,f af 1


..

.
a1n
a2n
..
.






.
af n

λf +1,1 a1n + · · · + λf +1,f af n 


..

.
λm1 a1n + · · · + λmf af n
139
Rangos y determinantes
La columna j -ésima de A es

 







a1j
a1j
0
0
1

 a2j  
a2j
 0 
 1 
 0 

 

 . 
 . 
 . 

 ..  
..
 .. 




.
.

 .  
.
.
.







 

 1 







0
0
+·
·
·+a
+a
=
a
a
=
a
A(j) = 
.





2j
1j
fj
fj

 fj  

λ

λ

λ
 af +1,j   λf +1,1 a1j + · · · + λf +1,f af j 
f
+1,2
f
+1,1
f
+1,f







 






.. 
.. 
.. 

 .  
.



..

 ..  
. 
.
.
λmf
λm2
λm1
λm1 a1j + · · · + λmf af j
amj
Por tanto, para cada j = 1, . . . , n , la columna j -ésima A(j) pertenece al subespacio




 
0
0
1
 0 
 0   1 
 . 
 .   . 
 .. 
 ..   .. 



 



 0   0 
W = L 
 , . . . ,  1  ,
,

λ

 λ
 λ
 f +1,1   f +1,2 
 f +1,f 
 . 
 .   . 
 .. 
 ..   .. 
λmf
λm2
λm1
cuya dimensión es f . Por consiguiente, el subespacio L A(1) , . . . , A(n) generado por los n m -vectores
columna de A está contenido en el subespacio W , de donde
c = dim L A(1) , . . . , A(n) 6 dim W = f,
y llegamos a que el rango por columnas de A es menor o igual que el rango por filas de A .
De manera análoga, “intercambiando los papeles” de filas y columnas, rango por filas y rango por
columnas, etc., y con un razonamiento que puede comenzar más o menos ası́: como el rango por columnas
es c , hay c columnas de A, A(j1 ) , . . . , A(jc ) , que como m -vectores columnas de Mm×1 (K) son linealmente independientes. Supongamos que son las c primeras columnas de A, A(1) , . . . , A(c) , que son linealmente independientes como vectores de Mm×1 (K) . Las n − c columnas restantes A, A(c+1) , . . . , A(n) ,
son combinación lineal de las c primeras: para cada j = c + 1, . . . , n ,
A(j) ∈ L A(1) , . . . , A(c) ,
y existen escalares µj1 , . . . , µjc tales que
A(j) = µj1 A(1) + · · · + µjc A(c) .
Ası́,
A = ( A(1)
A(2)
···
A(j)
A(j+1)
···
A(n) ) = · · · · · · ,
pues bien, con un argumento paralelo al de la primera parte, se obtiene ahora que el rango por filas f
de la matriz A es menor o igual que el rango por columnas c de A : f 6 c .
Hay una forma mucho más corta de demostrar esta segunda desigualdad f 6 c : la primera desigualdad para la matriz traspuesta At de la matriz A, nos dice que
el rango por columnas de At es menor o igual que el rango por filas de At .
Pero el rango por columnas (respectivamente, por filas) de At es el rango por filas f (resp., por columnas
c ) de A, ası́ que f 6 c.
Teniendo en cuenta esta proposición, se llama rango de una matriz A de Mm×n (K) al rango por
filas, o lo que es lo mismo, al rango por columnas de A . La notación que utilizaremos para el rango de
una matriz A es rango A .
Si A es una matriz de tamaño m × n , como no puede haber más de m n -vectores fila linealmente
independientes, y no puede haber más de n m -vectores columna linealmente independientes,
rango A 6 min{m, n} .
Otra propiedad inmediata es que cada matriz y su matriz traspuesta tienen el mismo rango:
rango A = rango At ,
para cada matriz A de Mm×n (K) .
140
Álgebra lineal
Ejemplos.
Debe resultar evidente que los rangos de las matrices

2 0 1 3 1
1
2
3
4
5 6 7 8 9 10
0 0 0 0 0,
14 13 12 11 10 9 8 7 6 5
0 1 1 1 1

11
4
12
3
13
2
14
1

1
y 1
2
0
0
0
5
3
6
−2
−2
−4
son, los tres, iguales a 2 .
También debe ser claro que el rango de

1241
 134
702
la matriz
381
−987
225
273
562
−1111

−165
213 
49
es mayor o igual que 2 y menor o igual que 3. ¿Es igual a 3 ?
Cálculo del rango de una matriz
Puesto que el rango, tanto de un conjunto finito de vectores, como de una aplicación lineal, como de
una matriz, es la dimensión de un subespacio, y por tanto, de un espacio vectorial, calcular rangos es
lo mismo que calcular dimensiones de espacios vectoriales. Más adelante demostraremos que el rango de
un conjunto finito de vectores y el rango de una aplicación lineal son, en cada caso, el rango de una
cierta matriz, ası́ que el problema de calcular rangos quedará reducido al problema de calcular rangos de
matrices.
¿Cómo hallar el rango de una matriz?
Un primer método se basa en la propia definición de rango de una matriz, y consiste en hallar una
base del subespacio generado por las filas (o una base del subespacio generado por las columnas). De cada
uno de estos subespacios se tiene un conjunto de generadores, y sabemos que cada conjunto de generadores
de un espacio vectorial incluye una base del espacio. Luego, aplicando una de las demostraciones de la
primera parte del teorema de la base, basta ir quitando vectores que sean combinación lineal de los
demás, hasta quedarnos con un conjunto linealmente independiente que genere el mismo subespacio. Ese
conjunto es una base incluida en el conjunto de generadores, y el número de elementos de esa base es el
rango de la matriz. Como es de esperar, este método es muy poco eficiente.
El método que explicamos a continuación utiliza operaciones elementales en las filas de la matriz.
La proposición siguiente asegura que al efectuar operaciones elementales en las filas de una matriz, los
rangos de las matrices resultantes coinciden con el rango de la matriz de partida. El objetivo inmediato
posterior será obtener, por medio de operaciones elementales en las filas, una matriz cuyo rango sea muy
fácil de determinar.
Proposición. Si A es una matriz de Mm×n (K) y B es una matriz que resulta de aplicar a A un
número finito de operaciones elementales en las filas, entonces el rango de A es el mismo que el rango
de B .
Demostración. Demostramos que el rango no cambia cada vez que se efectúa una operación elemental en
las filas, para cada uno de los tres tipos de operaciones elementales en las filas.
(I) Supongamos que B resulta de A por una aplicación de una operación elemental de tipo (I), es
decir, B resulta de intercambiar en la matriz A la fila i -ésima con la fila j -ésima:
  (1) 
B (1)
A
.
 ..   ... 

 

 B (i)   A(j) 


 
 .   . 
B =  ..  =  ..  .
 (j)   (i) 
B  A 
 .   . 
 .   . 
.
.
A(m)
B (m)



141
Rangos y determinantes
Entonces
h
i
rango B = dim L B (1) , . . . , B (i) , . . . , B (j) , . . . , B (m)
i
h
= dim L A(1) , . . . , A(j) , . . . , A(i) , . . . , A(m)
i
h
= dim L A(1) , . . . , A(i) , . . . , A(j) , . . . , A(m)
= rango A.
(II) Supongamos que B resulta de A por una aplicación de una operación elemental de tipo (II),
es decir, B resulta de multiplicar la fila i -ésima de A por un escalar λ ∈ K, λ 6= 0 :
 (1)   (1) 
A
B
 ..   .. 
 .   . 

 

B =  B (i)  =  λA(i)  .
 .   . 
 ..   .. 
A(m)
B (m)
Entonces
i
h
rango B = dim L B (1) , . . . , B (i) , . . . , B (m)
h
i
= dim L A(1) , . . . , λA(i) , . . . , A(m)
h
i
= dim L A(1) , . . . , A(i) , . . . , A(m)
porque son el mismo subespacio,
= rango A.
(III) Supongamos que B resulta de A por una aplicación de una operación elemental de tipo (III),
es decir, B es el resultado de sumar a la fila i -ésima A(i) la fila j -ésima A(j) multiplicada por un
escalar λ ∈ K :

 (1)  
A(1)
B
.
.
..
 ..  


 

 B (i)   A(i) + λA(j) 

 

..

 .  
B =  ..  = 
.
.
 (j)  

(j)
B  

A
 .  

..
 .  

.
.
(m)
(m)
B
A
Entonces
h
i
rango B = dim L B (1) , . . . , B (i) , . . . , B (j) , . . . , B (m)
h
i
= dim L A(1) , . . . , A(i) + λA(j) , . . . , A(j) , . . . , A(m)
h
i
= dim L A(1) , . . . , A(i) , . . . , A(j) , . . . , A(m)
= rango A,
porque
h
i
h
i
L A(1) , . . . , A(i) + λA(j) , . . . , A(j) , . . . , A(m) = L A(1) , . . . , A(i) , . . . , A(j) , . . . , A(m)
ya que A(i) = (A(i) + λA(j) ) + (−λ)A(j) , y cada uno de los vectores que generan el primer subespacio
pertenece al segundo, y viceversa.
Sabemos que por medio de operaciones elementales en las filas, cada matriz se puede transformar
en una matriz escalonada, y, también, en una matriz escalonada reducida. Por la última proposición, el
rango de la matriz de partida y el rango de la matriz escalonada obtenida coinciden. ¿Cuál es el rango
de una matriz escalonada?
Proposición. Sea B una matriz escalonada de tamaño m × n de elementos de K . Sea r el número
de filas no nulas de B . Entonces rango B = r.
142
Álgebra lineal
Demostración. Sea B

0 · · · 0 b1j1
 0 ··· 0
0

 0 ··· 0
0

 .. . .
..
..
 .
. .
.

 0 ··· 0
0

 0 ··· 0
0

 . .
..
. . ...
 ..
.
0 ··· 0
0
la matriz escalonada de tamaño m × n :
?
0
0
..
.
···
···
···
..
.
?
0
0
..
.
b2j2
0
..
.
?
?
0
..
.
···
···
···
..
.
?
?
0
..
.
0
0
..
.
···
···
..
.
0
0
..
.
0
0
..
.
0
0
..
.
···
···
..
.
0
···
0
0
0
···
?
b3j3
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
?
?
?
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
0
0
..
.
0
0
..
.
0
0
..
.
···
···
..
.
0
0
..
.
···
···
..
.
0
0
..
.
brjr
0
..
.
?
0
..
.
···
···
..
.
?
0
..
.
0
0
0
···
0
···
0
0
0
···
0
?
?







.






Las primeras r filas B (1) , . . . , B (r) de B son las filas no nulas de B . Demostramos que son linealmente
independientes. Como las m−r últimas filas son nulas, r es el número máximo de filas de B linealmente
independientes, luego el rango de B es precisamente r .
Sean λ1 , λ2 , . . . , λr escalares de K tales que λ1 B (1) + λ2 B (2) + · · · + λr B (r) es el n -vector fila cero
( 0 0 · · · 0 ) . Después de desglosar esta igualdad en términos de un sistema de m ecuaciones lineales
con r incógnitas, tenemos que la ecuación j1 -ésima es
λ1 b1j1 + λ2 0 + · · · + λr 0 = 0,
de donde λ1 b1j1 = 0 , y como el pivote b1j1 es distinto de cero, precisamente porque es un pivote de una
matriz escalonada, se tiene λ1 = 0 . La ecuación j2 -ésima del sistema es
λ1 b1j2 + λ2 b2j2 + λ3 0 + · · · + λr 0 = 0,
que se simplifica a λ2 b2j2 = 0 , porque λ1 = 0 . Como b2j2 es un pivote de la matriz escalonada B , es
distinto de cero, luego λ2 = 0 . Y finalmente, la ecuación jr -ésima del sistema es
λ1 b1jr + λ2 b2jr + · · · + λr−1 br−1,jr + λr brjr = 0,
que se reduce a λr brjr = 0 , porque hemos obtenido ya que λ1 = λ2 = · · · = λr−1 = 0 . Al ser brjr un
pivote de la matriz escalonada B , es distinto de cero, luego λr = 0 .
Recapitulando, hemos llegado a que λ1 = λ2 = · · · = λr = 0 , como querı́amos demostrar.
Obsérvese que una demostración similar establece que las r columnas B(j1 ) , B(j2 ) , . . . , B(jr ) de B
son también linealmente independientes.
A partir de una matriz y por medio de aplicaciones de operaciones elementales en las filas de la
matriz, sabemos que se puede llegar a matrices escalonadas distintas. Pero, ¿se puede llegar a dos matrices
escalonadas que tengan números distintos de filas no nulas?
La respuesta es negativa:
La transformación de una matriz en una matriz escalonada por medio de operaciones elementales
en las filas da como resultado que los vectores filas no nulos de la matriz escalonada son linealmente
independientes y generan el mismo subespacio que los vectores filas de la matriz de partida, es decir, los
vectores fila no nulos forman una base del subespacio de M1×n (K) generado por los vectores fila de la
matriz original.
Visto de esta forma, y con resultados como la segunda parte del teorema de la base (en el que el
teorema del cambio o reemplazamiento de Steinitz juega un papel clave), es claro que no podemos llegar
a tener dos bases de un mismo subespacio con distinto número de elementos, y, por consiguiente, no
podemos obtener a partir de una misma matriz por medio de operaciones elementales en las filas de la
matriz, dos matrices escalonadas con distintos números de filas no nulas.
En resumen
Corolario. Para cada matriz A, el rango de A es el número de filas no nulas de cualquiera de las matrices escalonadas que se obtienen a partir de A por medio de operaciones elementales en las filas. Con esta caracterización tenemos un método para hallar el rango de una matriz, mucho mejor que
el primero que expusimos más arriba:
(1) la matriz de la que se quiere hallar el rango, se transforma en una matriz escalonada por medio
de operaciones elementales en las filas, y
143
Rangos y determinantes
(2) el rango de la matriz de partida es el número de filas no nulas de la matriz escalonada resultante.
Ejemplos.
(a) En la página 35 aplicando operaciones elementales en las filas de



0
0 0 0 1 2 0 3
0
0 0 4 0 5 6 0

llegamos a la matriz escalonada


0
0 1 −1 1 7 0 8
0 1 1 9 2 0 1
0
la matriz
1 -1 1
0 4 0
0 0 1
0 0 0
7
5
2
− 47
2

0 8
6 0 

0 3 
-3 -31
luego el rango de estas dos matrices es 4.
Más adelante daremos más métodos para determinar el rango de una matriz.
Propiedades del rango de una matriz
Ya sabemos que el rango de una matriz y el rango de la matriz traspuesta coinciden. También sabemos
que el rango de una matriz de tamaño m × n es menor o igual que min{m, n}.
¿Cómo se lleva el rango con las operaciones del álgebra de matrices? Por ejemplo, ¿hay alguna
relación entre los rangos de dos matrices del mismo tamaño y el rango de su suma? ¿Y entre el rango de
una matriz y el de una matriz proporcional?
Proposición. Para cualesquiera matrices A y B de tamaño m × n,
(a) rango(A + B) 6 rango A + rango B , y
(b) si λ es un escalar no nulo,
rango λA = rango A.
Demostración. (a) Por la definición de rango de una matriz, sabemos que
rango(A + B) = dim L (A + B)(1) , . . . , (A + B)(m) = dim L A(1) + B (1) , . . . , A(m) + B (m) .
Veamos que
L A(1) + B (1) , . . . , A(m) + B (m) ⊆ L A(1) , . . . , A(m) + L B (1) , . . . , B (m) .
Sea C ∈ M1×n (K) un n -vector fila que pertenece a L A(1) + B (1) , . . . , A(m) + B (m) . Existen escalares
λ1 , . . . , λm en K tales que
C = λ1 A(1) + B (1) + · · · + λm A(m) + B (m)
= λ1 A(1) + · · · + λm A(m) + λ1 B (1) + · · · + λm B (m)
luego C ∈ L A(1) , . . . , A(m) + L B (1) , . . . , B (m) . Con esto
h
i
rango(A + B) = dim L A(1) + B (1) , . . . , A(m) + B (m)
h
i
h
i
6 dim L A(1) , . . . , A(m) + L B (1) , . . . , B (m)
h
i
h
i
h
i
h
i
= dim L A(1) , . . . , A(m) + dim L B (1) , . . . , B (m) − dim L A(1) , . . . , A(m) ∩ L B (1) , . . . , B (m)
h
i
h
i
6 dim L A(1) , . . . , A(m) + dim L B (1) , . . . , B (m)
= rango A + rango B.
(b) Debe ser evidente que si λ es distinto de cero,
h
i
rango(λA) = dim L (λA)(1) , . . . , (λA)(m)
h
i
= dim L λA(1) , . . . , λA(m)
h
i
= dim A(1) , . . . , A(m)
= rango A.
144
Álgebra lineal
¿Qué relación hay entre los rangos de dos matrices que se pueden multiplicar y el rango de la matriz
producto?
Proposición. Si A es una matriz de tamaño m × n y B es una matriz de tamaño n × p de elementos
de K , entonces
rango(AB) 6 min{rango A, rango B}.
Demostración. Sean A = (aij )m×n , B = (bij )n×p y C = AB = (cij )m×p la matriz producto, que
pertenece a Mm×p (K). Supongamos A(i) es el i -ésimo n -vector fila de A , B (i) es el i -ésimo p vector fila de B , y C (i) es el i -ésimo p -vector fila de la matriz C . Para cada i = 1, . . . , m , se tiene
C (i) = A(i) B
b
(ci1
ci2
...
cip ) = (ai1
ai2
...
 b21
ain ) 
 ..
.
bn1
= (ai1 b11 + · · · + ain bn1
= ai1 (b11
b12
11
···
b12
b22
..
.
···
···
..
.
b2n
···
b1p 
b2p 
.. 

.
bnp
ai1 b12 + · · · + ain bn2
b1p ) + ai2 (b21
b22
···
···
ai1 b1p + · · · + ain bnp )
b2p ) + · · · + ain (bn1
bn2
···
bnp )
= ai1 B (1) + ai2 B (2) + · · · + ain B (n) ,
y C (i) es combinación lineal de los p -vectores fila B (1) , B (2) , . . . , B (n) . Por tanto,
h
i
h
i
L C (1) , . . . , C (m) ⊆ L B (1) , . . . , B (n)
y
h
i
h
i
rango(AB) = rango(C) = dim L C (1) , . . . , C (m) 6 dim L B (1) , . . . , B (n) = rango B.
Además,
rango(AB) = rango (AB)t
= rango B t At
6 rango At = rango A.
En total,
rango(AB) 6 rango A, rango B.
Por ejemplo, el rango de una matriz producto de una matriz m × 1 por una matriz 1 × p es menor
o igual que 1 , y, por tanto, es la matriz cero 0m×p o una matriz en la que todas las filas son múltiplos
escalares de cada fila no nula.
Corolario. Sea B una matriz de Mm×n (K) .
(a) Para cada matriz invertible C de Mn (K) ,
rango(BC) = rango B.
(b) Para cada matriz invertible A de Mm (K) ,
rango(AB) = rango B.
Demostración. (a) Por la proposición, rango(BC) 6 rango B . La matriz C tiene matriz inversa C −1
y
rango B = rango(BIn ) = rango(B(CC −1 )) = rango((BC)C −1 ) 6 rango(BC) ,
otra vez por la proposición. Luego se tiene la igualdad rango(BC) = rango B.
(b) Por un lado, rango(AB) 6 rango B. Por otro, la matriz A tiene matriz inversa A−1 , y
rango B = rango(Im B) = rango((A−1 A)B) = rango(A−1 (AB)) 6 rango(AB)
también por la proposición, y se tiene la igualdad rango(AB) = rango B.
145
Rangos y determinantes
Rango de una matriz invertible
Teorema. Para cada matriz cuadrada A de orden n > 1, de elementos de K, los enunciados siguientes
son equivalentes:
(a) A es invertible,
(b) el rango de A es n .
Demostración. (a) ⇒ (b) Sea A una matriz invertible de orden n . Por el corolario anterior
rango In = rango(A−1 A) = rango A,
porque A−1 también es invertible. Pero el rango de la matriz identidad In es n , porque sus
n n -vectores fila forman la base {E1 , E2 , . . . , En } de M1×n (K) , donde Ei es el n -vector fila
( 0 · · · 0 1 0 · · · 0 ) en el que todos los elementos son cero salvo el i -ésimo, que es 1 . Por
tanto, rango A = n .
(b) ⇒ (a) Supongamos que A tiene rango n . Entonces los n n -vectores fila A(1) , . . . , A(n) de A
son linealmente independientes en el espacio vectorial M1×n (K) de dimensión n , y forman una base de
M1×n (K) . Para cada i = 1, . . . , n existen escalares λi1 , λi2 , . . . , λin tales que
Ei = λi1 A(1) + λi2 A(2) + · · · + λin A(n) .
Sea B la matriz cuadrada (λij )n . Entonces
λ11
 λ21
BA = 
 ...
λ12
λ22
..
.
···
···
..
.

λ1n
a11
λ2n   a21
· .
.. 
.   ..
a12
a22
..
.
···
···
..
.
 
a1n
λ11
a2n   λ21
= .
.. 
.   ..
λ12
λ22
..
.
···
···
..
.
  (1)  

λ1n
E1
A
λ2n   A(2)   E2 
· .  =  .  = In .
.. 
.   ..   .. 
λn1
λn2
···
λnn
an2
···
ann
λn2
···
λnn

an1
λn1
A(n)
En
Y también AB = In :
Si AB = (cij )n , entonces para i, j = 1, . . . , n ,
λ
cij = ( ai1
ai2
···
1j

 λ2j 

ain ) 
 ..  = ai1 λ1j + ai2 λ2j + · · · + ain λnj .
.
λnj
Veamos el valor de esta suma:
Ei = ( 0
···
0
1
0
···
0)
= λi1 A(1) + λi2 A(2) + · · · + λin A(n)
= λi1 ( a11
a12
···
a1n ) + λi2 ( a21
= ( λi1 a11 + λi2 a21 + · · · + λin an1
= ( ci1
ci2
···
a22
···
a2n ) + · · · + λin ( an1
λi1 a12 + λi2 a22 + · · · + λin an2
···
an2
···
ann )
λi1 a1n + λi2 a2n + · · · + λin ann )
cin )
y cada una de las n últimas sumas es igual a cero, salvo la que ocupa el lugar i -ésimo, que es 1 : ası́
que para i, j = 1, . . . , n ,
1 si i = j,
cij = ai1 λ1j + ai2 λ2j + · · · + ain λnj = δij =
0 si i 6= j,
y AB = (cij )n = (δij )n = In . Luego AB = BA = In y la matriz A es invertible.
Inciso: Un método de cálculo de la matriz inversa
Sea A una matriz cuadrada de orden n > 1 e invertible. Por el teorema anterior, el rango de A es n .
Por medio de operaciones elementales en las filas, podemos transformar A en una matriz escalonada de
146
Álgebra lineal
orden n . Esta matriz escalonada tiene rango n , luego sus n filas son linealmente independientes como
n -vectores filas de M1×n (K) , y tiene la forma
 a0
∗
∗ ···
∗ 
11
0
∗ 
 0 a22 ∗ · · ·


0
0 a033 · · ·
∗ 
A0 = 
 .
..
..
.. 
..
 .

.
.
.
.
.
0
0
0
0 · · · ann
con los elementos de la diagonal a011 , a022 , . . . , a0n , los pivotes de la matriz escalonada, distintos de cero.
Podemos continuar aplicando operaciones elementales en las filas para obtener una matriz escalonada
reducida: una matriz escalonada de orden n con los pivotes iguales a 1 , y con todos los elementos de
las columnas en las que están los pivotes iguales a cero, salvo el propio pivote. Esta matriz escalonada
reducida a la que llegamos aplicando operaciones elementales en las filas a la matriz invertible de partida
es


1 0 0 ··· 0
0 1 0 ··· 0


0 0 1 ··· 0
. . . .

 .. .. ..
. . ... 
0
0
0
···
1
es decir, la matriz identidad In de orden n . Ahora, recordemos que aplicar una operación elemental en
las filas a una matriz da el mismo resultado que multiplicar por la izquierda la matriz por una matriz
elemental. Entonces
Proposición. Sea A una matriz invertible de orden n > 1 de elementos de K . Hay un número finito
E1 , E2 , . . . , Ek de matrices elementales de orden n tales que
Ek · . . . · E2 · E1 · A = In .
Con la notación de la proposición, si B es la matriz producto Ek · . . . · E2 · E1 de las matrices
elementales E1 , E2 , . . . , Ek , tenemos B · A = In , y como A es invertible, también A · B = In , de donde
resulta que B es la matriz inversa A−1 de la matriz A .
Proposición. Sea A una matriz cuadrada de orden n > 1 . Son equivalentes:
(a) A es una matriz invertible,
(b) A es un producto de matrices elementales.
Demostración. (a) ⇒ (b): Si A es invertible, sabemos que hay un número finito de matrices elementales
E1 , . . . , Ek de orden n tales que Ek · . . . · E1 · A = In . Sabemos también que cada matriz elemental es
invertible, y que la matriz inversa de cada matriz elemental es una matriz elemental. Ası́ que tenemos
A = E1−1 · E2−1 · . . . · Ek−1 · In = E1−1 · E2−1 · . . . · Ek−1
producto de inversas de matrices elementales, luego producto de matrices elementales.
(b) ⇒ (a): Si A es un producto de matrices elementales, entonces A es un producto de matrices
invertibles, y como el producto de matrices invertibles también es una matriz invertible, tenemos que A
es invertible.
Todo esto nos proporciona un método para hallar la matriz inversa de una matriz invertible. De
hecho, aplicado a una matriz cuadrada cualquiera de orden n , nos dice primero si la matriz tiene matriz
inversa, y, en caso afirmativo, nos da la matriz inversa:
Sea A una matriz de orden n . Por medio de operaciones elementales en las filas partiendo de la
matriz A , llegamos a una matriz escalonada reducida. Si esta matriz no es la matriz identidad In de
orden n , entonces A no tiene matriz inversa. Si la matriz escalonada reducida obtenida es la matriz
identidad In , entonces A tiene matriz inversa A−1 . Sean E1 , E2 , . . . , Ek las matrices elementales de
orden n que corresponden a cada una de las operaciones elementales en las filas que se han aplicado para
llegar de A a la matriz escalonada reducida In :
Ek · . . . · E2 · E1 · A = In .
147
Rangos y determinantes
Al ser A invertible,
A−1 = Ek · . . . · E2 · E1
y A−1 es el resultado de aplicar a la matriz identidad In las mismas operaciones elementales en las filas
que se han aplicado para pasar de A a la matriz escalonada reducida In .
Una forma simple de obtener A−1 consiste en poner la matriz (A | In ) de tamaño n × 2n y aplicar
a esta matriz las operaciones elementales en las filas para llegar a transformar A en la matriz escalonada
reducida In . El resultado es la matriz de tamaño n × 2n (In | A−1 ) , y la matriz de orden n que ocupa
el bloque de la derecha es la matriz inversa de la matriz A .
Ejemplos.
(1) Determinar si es invertible la matriz
1
1
A=
1
5

1
3
2
9
1
1
−1
1

1
2
.
1
6
Por medio de operaciones elementales en las filas, intentamos transformar
matriz tal que la matriz del bloque izquierdo sea escalonada reducida:



1 1 1 1 1 0
1 1 1 1 1 0 0 0
 0 2 0 1 −1 1
1 3 1 2 0 1 0 0
 −−→ 

0 1 −2 0 −1 0
1 2 −1 1 0 0 1 0
0 4 −4 1 −5 0
5 9 1 6 0 0 0 1
1
0

0
0

1
1
2
4
1
−2
0
−4
1 1
0 −1
1 −1
1 −5
0
0
1
0

1
0

0
0


0 0
1
1 0
0
 −−→ 
0 0
0
0 1
0
1
1
0
0
1
−2
4
0
1 1
0 −1
1 1
0 −2
1
1
0
0
1
−2
4
4
0
0
1
−1
0
1
−2
−2
la matriz (A | I4 ) en una

0 0
0 0
 −−→
1 0
0 1
1 1 0 0
0 −1 0 1
1 1 1 −2
1 −1 0 −4

0
0

0
1

0
0
 −−→
0
1
y todas estas matrices tienen rango 3 , en particular la matriz de partida, luego no es invertible.
(2) Determinar si tiene inversa la matriz

1
1

1
1
1
2
−1
3
1
−1
2
3

1
2
.
1
2
Por medio de operaciones elementales en las filas, intentamos transformar la
matriz tal que la matriz del bloque izquierdo sea escalonada reducida:



1 1
1 1 1 0 0 0
1 1
1 1 1 0
 1 2 −1 2 0 1 0 0 
 0 1 −2 1 −1 1

 −−→ 
1 −1 2 1 0 0 1 0
0 −2 1 0 −1 0
1 3
3 2 0 0 0 1
0 2
2 1 −1 0
1
0

0
0

1
1
0
0
1
−2
−3
3
1 1
1 −1
2 −3
1 −2


0 0 0
1 1
1 0 0
0 1
 −−→ 
2 1 0
0 0
0 1 1
0 0
y todas estas matrices tienen rango 4 , en particular la
para hallar su matriz inversa:


1 1 1
1
1
0
0
0
−1
1
0
0 
1
 0 1 −2

 −−→
0 0 1 −2/3
1
−2/3 −1/3
0
0 0 0
1
−5/3 2/3
2/3 1/3
1
−2
1
0
1
1
1
−1
−2/3 1
3
−5
matriz (A | I4 ) en una

0 0
0 0
 −−→
1 0
0 1
0
1
−2/3
2
0
0
−1/3
2

0
0

0
1
matriz de partida, y es invertible. Continuamos
1
0

0
0

1
1
0
0
1
−2
1
0
1
1
1 −1
0 −1/9
1 −5/3
0
1
−2/9
2/3
0
0
1/9
2/3

0
0 
 −−→
2/9
1/3
148
Álgebra lineal

1
0

0
0
1
1
0
0
1
−2
1
0
1
0

0
0
1
1
0
0
1
0
1
0

1
1
1 2/3
0 −1/9
1 −5/3
0 8/3
0 4/9
0 −1/9
1 −5/3
0
1/3
−2/9
2/3
−2/3
−1/9
−2/9
2/3
0
−2/3
1/9
2/3
−2/3
−4/9
1/9
2/3
1
0

0
0

0
1
0
0


0
1
−1/3 
0
 −−→ 
2/9
0
1/3
0


1
−1/3
1/9 
0
 −−→ 
0
2/9
0
1/3
0
0
1
0
0 7/3
0 4/9
0 −1/9
1 −5/3
−1/3
−1/9
−2/9
2/3
1
1
0
0
1
1
0
0
1
1
0 4/9
0 −1/9
1 −5/3
1
0
1
0
0
0
1
0
0 25/9
0 4/9
0 −1/9
1 −5/3
−1/3
−4/9
1/9
2/3
0
−1/9
−2/9
2/3
−4/9
−1/9
−2/9
2/3
0
−4/9
1/9
2/3
−7/9
−4/9
1/9
2/3

0
1/9 
 −−→
2/9
1/3

−5/9
1/9 
 −−→
2/9
1/3

−2/3
1/9 

2/9
1/3
y la matriz inversa es
7/3
 4/9

−1/9
−5/3

−1/3
−1/9
−2/9
2/3
−1/3
−4/9
1/9
2/3


−2/3
21 −3
1 4
−1
1/9 
 =

2/9
−1 −2
9
1/3
−15 6
−3
−4
1
6

−6
1 
.
2
3
Una caracterización del rango de una matriz
Sea A una matriz de tamaño m × n de elementos de K . Una submatriz de tamaño p × q de A es una
matriz que se obtiene eligiendo p de las m filas y q de las n columnas de la matriz A , y tomando
los pq elementos que están en las intersecciones de estas p filas y q columnas. Si los ı́ndices de las filas
que elegimos son i1 < i2 < · · · < ip y los ı́ndices de las columnas son j1 < j2 < · · · < jq , entonces la
submatriz de A que tomamos es la matriz

ai1 j1
 ai2 j1

 .
 ..
aip j1
ai1 j2
ai2 j2
..
.
aip j2
···
···
..
.
···

ai1 jq
ai2 jq 

..  .
. 
aip jq
Indicaremos la submatriz anterior por A(i1 i2 . . . ip | j1 j2 . . . jq ).
Por ejemplo, sea A la matriz
−1
0
4
−9
8
5
 1

A= 8

−1
1

3
−3
5
13
11
0
4
−3
24
−4
0
−10
17
6
15

2 7
21 2 

41 0  .

0 1
6 7

−1
0
4
Entonces
4
−10
A(35|2) =
, A(24|57) =
8
6
2
1
5
, A(123|123) =  1
8


3
−1
−3  y A(135|27) =  4
8
5
Proposición. El rango de cada submatriz de una matriz A es menor o igual que el rango de A .

7
0.
7
149
Rangos y determinantes
Demostración. Sea A una matriz de Mm×n (K) y sea B la submatriz A(i1 i2 . . . ip | j1 j2 . . . jq ) de A .
Consideramos la siguiente submatriz de A : C = A(i1 i2 . . . ip | 12 . . . n) de Mp×n (K) , formada por las
filas A(i1 ) , A(i2 ) , . . . , A(ip ) de A , es decir
a
i1 1
 ai2 1
C=
 ..
.
aip 1
ai1 2
ai2 2
..
.
···
···
..
.
ai1 n 
ai2 n 
.. 
.
.
aip 2
···
aip n
Es claro que el rango por filas de la matriz C es menor o igual que el rango por filas de A , y, por tanto,
rango C 6 rango A .
La submatriz C(12 . . . p | j1 j2 . . . jq ) de C , formada por las columnas C(j1 ) , C(j2 ) , . . . , C(jq ) :

ai1 j1
 ai2 j1

 .
 ..
aip j1
ai1 j2
ai2 j2
..
.
aip j2

ai1 jq
ai2 jq 

.. 
. 
aip jq
···
···
..
.
···
es precisamente la submatriz B de partida. Es claro también que el rango por columnas de esta última
submatriz, esto es, de B , es menor o igual que el rango por columnas de C , luego rango B 6 rango C .
Por tanto, rango B 6 rango A .
El teorema siguiente nos proporciona otra caracterización del rango de una matriz. Su utilidad como
método de calcular el rango de una matriz viene determinada a su vez por disponer de una caracterización
eficiente de las matrices invertibles.
Teorema. El rango de una matriz es el mayor de los órdenes de sus submatrices cuadradas invertibles.
Demostración. Sea A una matriz de tamaño m × n . Sea r el rango de A . Sea k el mayor de los
órdenes de las submatrices cuadradas invertibles de la matriz A . De los dos resultados últimos se deduce
que k 6 r . Veamos que k > r .
Como rango A = r , hay r n -vectores fila A(i1 ) , A(i2 ) , . . . , A(ir ) de A que son linealmente independientes en M1×n (K). Entonces la submatriz
a
i1 1
 ai2 1
B = A(i1 i2 . . . ir | 12 . . . n) = 
 ..
.
air 1
ai1 2
ai2 2
..
.
···
···
..
.
air 2
···
ai1 n 
ai2 n 
.. 

.
air n
de A tiene rango r , y tiene que tener r r -vectores columna B(j1 ) , B(j2 ) , . . . , B(jr ) linealmente independientes en Mr×1 (K) . La submatriz cuadrada de orden r
B(12 . . . r | j1 j2 . . . jr )
tiene rango r y, por tanto, es invertible. Pero
B(12 . . . r | j1 j2 . . . jr ) = A(i1 i2 . . . ir | j1 j2 . . . jr )
es una submatriz cuadrada de A de orden r e invertible, luego k , el máximo de los órdenes de las
submatrices cuadradas invertibles de A , es > r .
Los diferentes rangos como rangos de matrices
Rango de un conjunto de vectores
150
Álgebra lineal
Sea V un espacio vectorial de dimensión finita n > 1 sobre K , y sea S = {v1 , . . . , vp } un conjunto de
vectores de V . El rango del conjunto S es la dimensión del subespacio L[v1 , . . . , vp ] generado por los
vectores de S .
Sea B = {u1 , . . . , un } una base de V . Sea CoordB el isomorfismo del espacio vectorial V sobre
el espacio vectorial Kn definido por: para cada v de V ,
CoordB (v) = la n -upla ordenada (λ1 , . . . , λn ) ∈ Kn de las coordenadas de v respecto de B .
Supongamos que para cada i = 1, . . . , p ,
CoordB (vi ) = (ai1 , ai2 , . . . , ain ) .
n
Por medio del isomorfismo de K sobre M1×n (K) que transforma el vector (x1 , x2 , . . . , xn ) de Kn
en el n -vector fila ( x1 x2 · · · xn ) de M1×n (K) , identificamos la n -upla (ai1 , ai2 , . . . , ain ) con el
n -vector fila ( ai1 ai2 · · · ain ) . Formamos la matriz A de tamaño p×n que tiene como fila i -ésima
el n -vector fila ( ai1 ai2 · · · ain ) de las coordenadas de vi respecto de la base B :
a11
 a21
A=
 ...
a12
a22
..
.
···
···
..
.

a1n
a2n 
.
.. 
. 
ap1
ap2
···
apn

Como CoordB es un isomorfismo de V sobre Kn , el subespacio L[S] = L[v1 , . . . , vp ] se transforma
por
CoordB en el subespacio L[CoordB (v1 ), . . . , CoordB (vp )] de Kn , identificado con el subespacio
(1)
L A , . . . , A(p) de M1×n (K) , y estos subespacios tienen todos la misma dimensión. Entonces
rango S = rango{v1 , . . . , vp } = dim L[v1 , . . . , vp ]
= dim L[CoordB (v1 ), . . . , CoordB (vp )]
h
i
= dim L A(1) , . . . , A(p)
= rango A.
Ası́ que tenemos
Proposición. El rango de un conjunto {v1 , v2 , . . . , vp } de p vectores de un espacio vectorial de dimensión n es el rango de la matriz de tamaño p × n (respectivamente, n × p ) que tiene por filas (resp.,
columnas) los n -vectores fila (resp., columna) de las coordenadas de los p vectores del conjunto respecto
de una base cualquiera del espacio:
a11
 a21
rango({v1 , v2 , . . . , vp }) = rango 
 ...
a12
a22
..
.
···
···
..
.
ap1
ap2
···


a
a1n
11
a2n 
 a12
= rango 
.. 
 ..
. 
.
apn
a1n
a21
a22
..
.
···
···
..
.
ap1 
ap2 
.. 
.
.
a2n
···
apn
Con esto, el problema de hallar el rango de un conjunto finito de vectores se reduce al problema de
hallar el rango de una matriz.
Con el resultado que da la proposición siguiente no sólo podemos hallar el rango de un conjunto
finito de vectores, sino también obtener una base del subespacio generado por los vectores e incluida en
el conjunto de vectores dados.
Proposición. Sea A una matriz de Mm×n (K) y sea B la matriz escalonada reducida que resulta
al aplicar a la matriz A operaciones elementales en las filas. Sea r el rango de las matrices A y B
y sean j1 , j2 , . . . , jr los ı́ndices de las columnas de la matriz B en las que están los r pivotes de la
matriz. Entonces los r m -vectores columna A(j1 ) , A(j2 ) , . . . , A(jr ) de la matriz A forman una base del
subespacio de Mm×1 (K) generado por los n m -vectores columna de la matriz A.
Demostración. Como la matriz B es escalonada reducida de rango r, los r m -vectores columna
B(j1 ) , B(j2 ) , . . . , B(jr ) en los que están los pivotes, todos iguales a 1, son
151
Rangos y determinantes
B(j1 )
 
1
0
.
.
.
 
= 0
 
0
.
 .. 
B(j2 )
 
0
1
 
0
.
 
=  .. 
 
0
.
 .. 
......
B(jr )
 
0
0
.
.
.
 
= 1.
 
0
.
 .. 
0
0
0
Demostramos que el rango de la matriz C de tamaño m × r que tiene como columnas los r m -vectores
columna A(j1 ) , A(j2 ) , . . . , A(jr ) , es decir, de la submatriz A(1 2 . . . m | j1 j2 . . . jr ) de A, es exactamente
r = rango A.
Como la matriz B se obtiene a partir de la matriz A por medio de operaciones elementales en las
filas, hay una matriz invertible M de orden m, producto de matrices elementales de orden m, tal que
B = M · A. La columna j -ésima de la matriz B es el producto de la matriz M por la columna j -ésima
de la matriz A, esto es,
a 
b 
1j
M · A(j)
1j
 a2j 
 b2j 
 =  .  = B(j)
= M ·
.
 . 
 . 
.
.
amj
bmj
luego

a
1j1
 a2j1
M ·C = M ·
 ..
.
a1j2
a2j2
..
.
···
···
..
.
amj1
amj2
···
1 0
0 1

. .
a1jr
. .
. .
a2jr 

=
0 0
.. 


.
0 0
. .
amjr
 .. ..
0 0
···
···
..
.
···
···
..
.
···

0
0
.. 

.

1

0
.. 
.
0
y esta matriz tiene, evidentemente, rango r. Como M es invertible, r = rango M C = rango C y los
r m -vectores columna de C, que son A(j1 ) , A(j2 ) , . . . , A(jr ) , son linealmente indepedientes y forman una
base del subespacio generado por los n m -vectores columna de la matriz A que tiene rango r.
Ejemplos.
(1) Si queremos hallar el rango del conjunto
{(4, 1, 1, 0, −2), (0, 1, 4, −1, 2), (4, 3, 9, −2, 2), (1, 1, 1, 1, 1), (0, −2, −8, 2, −4)}
de vectores de R5 , esto es, la dimensión del subespacio
W = L[(4, 1, 1, 0, −2), (0, 1, 4, −1, 2), (4, 3, 9, −2, 2), (1, 1, 1, 1, 1), (0, −2, −8, 2, −4)],
formamos la matriz real 5 × 5 cuyas filas son los n -vectores fila de las coordenadas de los vectores del
conjunto respecto de la base estándar de R5


4 1
1
0 −2
4 −1 2 
0 1


9 −2 2 
4 3


1 1
1
1
1
0 −2 −8 2 −4
y hallamos su rango por medio de operaciones elementales en las filas:





4 1
1
0 −2
1 1
1
1
1
1
4 −1 2 
4 −1 2 
0 1
0 1
0





9 −2 2  −−→  0 −2 −8 2 −4  −−→  0
4 3





1 1
1
1
1
4 1
1
0 −2
0
0 −2 −8 2 −4
4 3
9 −2 2
0



1 1 1 1 1
1 1 1 1
 0 1 4 −1 2 
 0 1 4 −1



−−→  0 0 9 −7 0  −−→  0 0 9 −7



0 0 9 −7 0
0 0 0 0
0 0 0 0 0
0 0 0 0
1
1
1
4
0
0
−3 −3
−1 5

1
2

0

0
0
1
−1
0
−4
−6

1
2 

0  −−→

−6
−2
152
Álgebra lineal
y como el rango de esta matriz es 3 , el rango del conjunto dado de vectores de R5 es 3 .
Pero también obtenemos más información: por ejemplo, una base del subespacio W generado por
los vectores del conjunto dado. El subespacio de M1×n (K) generado por las filas de la matriz A es
el mismo que el subespacio generado por las filas de la matriz escalonada obtenida, y una base de este
subespacio está compuesta por los tres primeros 5 -vectores fila:
{( 1
1
1
1
1), (0
1
4 −1
2), (0
0
9 −7
0 )}
Entonces el conjunto {(1, 1, 1, 1, 1), (0, 1, 4, −1, 2), (0, 0, 9, −7, 0)} es una base de W .
También podemos, con la última proposición, hallar una base del subespacio incluida en el conjunto
generador dado. Para esto formamos la matriz A cuyas columnas son los 5 -vectores columna de las
coordenadas de los cinco vectores dados respecto de la base estándar de R5 :


4
0
4 1 0
1
3 1 −2 
 1


A= 1
4
9 1 −8  .


0 −1 −2 1 2
−2 2
2 1 −4
Por medio de operaciones elementales en las filas de A

1 1 3
0 1 2

C = 0 0 0

0 0 0
0 0 0
llegamos a la matriz escalonada

1 −2
−1 −2 

1
0 .

0
0
0
0
Podemos seguir con operaciones elementales en las filas para llegar a la matriz en forma escalonada
reducida, pero ya con esta matriz escalonada C sabemos que las columnas de la matriz escalonada
reducida B en las que están los pivotes son la primera, la segunda y la cuarta. Por la proposición
anterior, los 5 -vectores columna que ocupan las columnas primera, segunda y cuarta forman una base del
subespacio de M5×1 (K) generado por los cinco 5 -vectores columna de la matriz A. Con la identificación
entre M5×1 (K) y R5 se tiene que los vectores cuyas quı́ntuplas de coordenadas respecto de la base
estándar de R5 ocupan las columnas primera, segunda y cuarta de la matriz A , esto es, los vectores
(4, 1, 1, 0, −2), (0, 1, 4, −1, 2) y (1, 1, 1, 1, 1) forman una base del subespacio W , incluida en el conjunto
generador dado. Los otros dos vectores son, por supuesto, combinación lineal de estos tres:
(4, 3, 9, −2, 2) = 1(4, 1, 1, 0, −2) + 2(0, 1, 4, −1, 2) + 0(1, 1, 1, 1, 1)
y
(0, −2, −8, 2, −4) = 0(4, 1, 1, 0, −2) + (−2)(0, 1, 4, −1, 2) + 0(1, 1, 1, 1, 1).
(2) Hallar una base del subespacio de M2 (R) generado por las matrices
1 0
1 1
0 3
2 3
,
,
,
.
0 2
2 1
2 1
4 3
Tomamos la base
B=
1
0
0
0
0
,
0
1
0
0
,
1
0
0
0
,
0
0
1
de M2 (R) y hallamos las coordenadas de las cuatro matrices que generan el subespacio respecto de esta
base: son (1, 0, 0, 2), (1, 1, 2, 1), (0, 3, 2, 1), (2, 3, 4, 3) , respectivamente. Formamos la matriz 4 × 4 cuyas
columnas son los 4 -vectores columna identificados con las cuádruplas anteriores:


1 1 0 2
0 1 3 3
A=
.
0 2 2 4
2 1 1 3
Aplicamos operaciones elementales en las filas a la matriz A :
1
0

0
2

1
1
2
1
0
3
2
1


2
1
3
0
 −−→ 
4
0
3
0
1
1
2
−1


0 2
1 1
3 3 
0 1
 −−→ 
2 4
0 0
1 −1
0 0
0
3
−4
4


2
1
3 
0
 −−→ 
−2
0
2
0
1
1
0
0
0
3
4
0

2
3
,
2
0
153
Rangos y determinantes
que es escalonada, con las tres primeras filas no nulas y la cuarta nula. El rango de la matriz es 3 y
la dimensión del subespacio es 3. En la matriz escalonada reducida las columnas que tienen los pivotes
son las tres primeras, luego, por la proposición anterior, una base del subespacio está formada por las
matrices cuyas coordenadas respecto de la base B ocupan las columnas primera, segunda y tercera de
la matriz A, es decir,
1 0
1 1
0 3
,
,
.
0 2
2 1
2 1
Esta base está incluida en el conjunto de generadores dado del subespacio. La cuarta matriz es, por
supuesto, combinación lineal de las tres primeras:
3 1 1
1 0 3
1 1 0
2 3
+
+
.
=
4 3
2 0 2
2 2 1
2 2 1
(3) Hallar la dimensión y una base del subespacio W de R63 [X] generado por los vectores
X 3 − X 2 + 3X + 2, −2X 3 + X 2 + 1, X 3 − 3X − 3 y X 2 + 1.
Respecto de la base B = {X 3 , X 2 , X, 1} de R63 [X], los cuatro vectores anteriores tienen como
cuádruplas de coordenadas (1, −1, 3, 2), (−2, 1, 0, 1), (1, 0, −3, −3) y (0, 1, 0, 1), respectivamente. La
dimensión de W coincide con el rango de la matriz


1 −2 1 0
0 1
 −1 1
A=

3
0 −3 0
2
1 −3 1
cuyas columnas son los 4 -vectores columna de las coordenadas de los vectores del conjunto generador
respecto de la base B.
Aplicamos operaciones elementales en las filas de la matriz anterior para obtener una matriz en forma
escalonada


1 −2 1 0
 0 −1 1 1 
C=

0 0 0 6
0 0 0 0
que tiene rango 3, luego la dimensión de W es 3 . Una base está formada por los tres polinomios cuyas
cuádruplas de coordenadas son las columnas primera, segunda y cuarta (las columnas en las que están
los pivotes de C y de la matriz escalonada reducida que se obtiene a partir de A ), es decir, por los
polinomios cuyas cuádruplas de coordenadas respecto de la base B son (1, −1, 3, 2), (−2, 1, 0, 1) y
(0, 1, 0, 1), que son los polinomios
X 3 − X 2 + 3X + 2, −2X 3 + X 2 + 1 y X 2 + 1.
El tercer polinomio es combinación lineal de los otros tres:
X 3 − 3X − 3 = (−1)(X 3 − X 2 + 3X + 2) + (−1)(−2X 3 + X 2 + 1) + 0(X 2 + 1).
Rango de una aplicación lineal
Sean V y W espacios vectoriales de dimensiones n y m > 1 , respectivamente, sobre el mismo cuerpo
K . Sea f : V −−→ W una aplicación lineal. Por definición, rango f = dim im f = dim f [V ] .
Como im f ⊆ W , rango f 6 dim W = m. Y también, rango f 6 dim V = n.
Sea B = {v1 , . . . , vn } una base de V , y sea B0 = {w1 , . . . , wm } una base de W . Sabemos que
como B = {v1 , . . . , vn } es un conjunto generador de V , f [B] = {f (v1 ), . . . , f (vm )} es un conjunto de
generadores de im f .
Sea A la matriz de tamaño n × m , que tiene como fila i -ésima el m -vector fila de las coordenadas
del vector f (vi ) respecto de la base B0 , es decir, A es la matriz traspuesta de la matriz MB,B0 (f ) .
Entonces
rango f = dim im f
= dim L[f (v1 ), . . . , f (vm )]
= rango({f (v1 ), . . . , f (vm )})
= rango A
= rango(MB,B0 (f ))t
= rango MB,B0 (f ).
154
Álgebra lineal
Ası́ que tenemos
Proposición. El rango de una aplicación lineal f : V −−→ W entre espacios vectoriales de dimensión
finita es el rango de la matriz de la aplicación respecto de una base cualquiera B del espacio de partida
y una base cualquiera B0 del espacio de llegada:
rango f = rango MB,B0 (f ).
Con esto, el problema de hallar el rango de una aplicación lineal entre espacios de dimensión finita
se reduce al problema de hallar el rango de una matriz.
Ejemplos.
(a) Hallar el rango de la aplicación lineal f : R5 → R4 definida por: para cada (x, y, z, t, u) ∈ R5 ,
f (x, y, z, t, u) = (x − z + 3t − u, x + 2t − u, 2x − z + 5t − u, −z + t).
Respecto de las bases estándares de R5 y R4 ,

1
1
A=
2
0
la matriz de f es

0 −1 3 −1
0 0 2 −1 
.
0 −1 5 −1
0 −1 1 0
Aplicamos operaciones elementales en las filas a A y obtenemos:
1 0
1 0

2 0
0 0



1
−1 3 −1
0 2 −1 
0
 −−→ 
0
−1 5 −1
0
−1 1 0
−1
0
0
0
0
1
1
−1
3
−1
−1
1


1
−1
0 
0
 −−→ 
0
1
0
0
−1
0
0
0
0 3
1 −1
0 0
0 0

−1
0 
.
1
0
El rango de f es, por tanto, 3 , y la dimensión del núcleo de f es 5 − 3 = 2 .
Pero también podemos hallar una base de im f porque conocemos un conjunto generador de im f,
a saber, {f (e1 ), f (e2 ), f (e3 ), f (e4 ), f (e5 )} , donde e1 , e2 , e3 , e4 y e5 son los cinco vectores de la base
estándar de R5 . Por tanto, im f está generado por
(1, 1, 2, 0), (0, 0, 0, 0), (−1, 0, −1, −1), (3, 2, 5, 1), (−1, −1, −1, 0).
Estas cinco cuádruplas en forma de 4 -vectores columna forman la matriz A anterior, y por medio de
operaciones elementales llegamos a la matriz escalonada reducida B que se obtiene a partir de A. Los
pivotes de la matriz B están en las columnas primera, tercera y quinta, luego, como ya se hizo más arriba
con los ejemplos anteriores, resulta que los vectores primero, tercero y quinto: f (e1 ) = (1, 1, 2, 0), f (e2 ) =
(−1, 0, −1, −1) y f (e3 ) = (−1, −1, −1, 0) , forman una base de im f.
(b) Sea f : R62 [X] −−→ R2 [X] la aplicación lineal definida por:
p(X) 7−→ f (p(X)) = Xp0 (X) − 2p(X),
para cada p(X) ∈ R2 [X].
Para hallar el rango de f hallamos la matriz del endomorfismo f respecto de la base B = {1, X, X 2 }.
Al ser
f (1) = X · 0 − 2 · 1 = −2
f (X) = X · 1 − 2 · X = −X
f (X 2 ) = X · 2X − 2 · X 2 = 0
la matriz de f respecto de B es

−2
MB,B (f ) =  0
0
0
−1
0

0
0.
0
El rango de esta matriz es 2 y el rango de f es también 2. El núcleo de f tiene dimensión 3 − 2 = 1.
La matriz es escalonada, y los pivotes están en las columnas primera y segunda, luego una base de im f
está formada por los vectores cuyas ternas de coordenadas respecto de B son (−2, 0, 0) y (0, −1, 0), es
decir, los polinomios −2 y −X.
(c) Sea f : M2 (R) −−→ M2 (R) la aplicación lineal definida por:
155
Rangos y determinantes
A 7−→ f (A) = CA − AC,
para cada A ∈ M2 (R),
1 2
donde C es la matriz
. Hechas las cuentas, f es la aplicación lineal definida por
2 4
a b
−2b + 2c
−2a − 3b + 2d
a b
7−→
,
para cada matriz
de M2 (R).
c d
2a + 3c − 2d
2b − 2c
c d
Para hallar el rango de f, tomamos la base
1 0
0
B=
,
0 0
0
1
0
0
,
1
0
0
0
,
0
0
1
de M2 (R) y hallamos la matriz de f respecto de esta base. Como
1 0
0 −2
0 1
−2 −3
0 0
2
f
=
, f
=
, f
=
0 0
2 0
0 0
0
2
1 0
3
0
−2
, f
0
0
0
1
=
0
−2
2
0
,
la matriz de f respecto de la base B es
0
 −2
MB,B (f ) = 
2
0

Esta matriz

0 −2
−2
−3


2
0
0
2
−2
−3
0
2
2
0
3
−2
tiene rango 2 , porque con operaciones elementales




2
2
0
3 −2
2
0
−2
−3
0
2
0
2 

0

 −−→ 
 −−→ 
0
0 −2 2
0
3 −2
0
0
2 −2 0
−2 0

0
2 
.
−2
0
en las filas
0
−3
−2
2
3
3
2
−2


2
−2
0 
0
 −−→ 
0
0
0
0
0
−3
0
0

3 −2
3 0 

0 0
0 0
que tiene rango 2. El núcleo de f tiene dimensión 4 − 2 = 2. Como los pivotes de la matriz escalonada
anterior están en las columnas primera y segunda, las matrices que tienen como cuádruplas de coordenadas
respecto de la base B los 4 -vectores columna primero y segunda de la matriz de f respecto de B, esto
es, las matrices
0 −2
−2 −3
y
2 0
0
2
forman una base de im f.
En la siguiente proposición la equivalencia de (a) y (b) es una consecuencia del isomorfismo MatB,B0
que hay entre el espacio vectorial L(V , W ) y el espacio vectorial Mm×n (K).
Proposición. Sean V y W espacios vectoriales de la misma dimensión finita n > 1 sobre un cuerpo
K . Sean B y B0 sendas bases de V y W . Sea f : V −−→ W una aplicación lineal. Los enunciados
siguientes son equivalentes:
(a) f es biyectiva y, por tanto, un isomorfismo de V sobre W ,
(b) la matriz MB,B0 (f ) es invertible,
(c) rango MB,B0 (f ) = n, y
(d) rango f = n, .
Demostración. (a) ⇒ (b): Supongamos que f es un isomorfismo de V sobre W . Entonces f es una
aplicación lineal y biyectiva de V sobre W , es invertible y su inversa f −1 es lineal y biyectiva de W
sobre V . Como f −1 ◦ f = idV y f ◦ f −1 = idW , se tiene
In = MB,B (idV )
In = MB0 ,B0 (idW )
= MB,B (f −1 ◦ f )
= MB0 ,B0 (f ◦ f −1 )
= MB0 ,B (f −1 ) MB,B0 (f )
= MB,B0 (f ) MB0 ,B (f −1 ).
Luego para la matriz MB,B0 (f ) existe una matriz, a saber, MB0 ,B (f −1 ), tal que
MB0 ,B (f −1 ) MB,B0 (f ) = MB,B0 (f ) MB0 ,B (f −1 ) = In ,
lo que quiere decir que MB,B0 (f ) es invertible y la matriz inversa MB,B0 (f )−1 es MB0 ,B (f −1 ).
156
Álgebra lineal
(b) ⇒ (c): Sabemos que una matriz cuadrada de orden n > 1 es invertible si y sólo si su rango es
n.
(c) ⇒ (d): Por la última proposición se tiene rango f = rango MB,B0 (f ), luego rango f = n.
(d) ⇒ (a): Como rango f = dim im f = n = dim W , resulta im f = W y f es una aplicación
lineal suprayectiva entre dos espacios vectoriales de la misma dimensión n > 1, ası́ que f es biyectiva y
es un isomorfismo de V sobre W .
157
Rangos y determinantes
Interludio: Permutaciones
Para cada número natural n > 1 , sea In el conjunto de n elementos {1, 2, . . . , n} . Se llama permutación
del conjunto In , o también, permutación de los n números 1, 2, . . . , n a cada aplicación biyectiva del
conjunto In sobre sı́ mismo, esto es, una aplicación biyectiva
{1, 2, . . . , n} {1, 2, . . . , n}.
Utilizaremos las letras griegas σ, τ y ρ como variables sobre las permutaciones de 1, 2, . . . , n . La notación
usual para mostrar una permutación σ de 1, 2, . . . , n es
1
2
3
...
n
σ=
.
σ(1) σ(2) σ(3) . . . σ(n)
Sea Sn el conjunto de las permutaciones del conjunto {1, 2, . . . , n} :
Sn = {σ | σ es una permutacion de {1, 2, . . . , n} } .
Sabemos que el conjunto Sn tiene n! = n·(n−1)·. . .·2·1 elementos, esto es, el número de permutaciones
de 1, 2, . . . , n es n! .
La composición de aplicaciones es una operación binaria en el conjunto Sn :
Si σ y τ son dos permutaciones de {1, 2, . . . , n} , entonces la composición τ ◦ σ de σ y τ también
es una permutación de {1, 2, . . . , n} , ya que la composición de dos aplicaciones biyectivas de In sobre
In es una aplicación biyectiva de In sobre In :
1
2
τ ◦σ =
◦
σ(1) σ(2)
1
2
...
n
=
.
τ (σ(1)) τ (σ(2)) . . . τ (σ(n))
Por ejemplo, en S6 tenemos
1 2 3 4
2 6 5 3
1
2
τ (1) τ (2)
...
...
n
τ (n)
1
◦
6
2
3
3
2
4
1
5
4
6
5
1
◦
2
2
6
3
5
4
3
5
1
6
4
5
1
6
4
5
4
6
5
=
...
...
n
σ(n)
1
4
2
5
3
6
4
2
5
3
6
1
1
3
2
5
3
4
4
2
5
6
6
1
y
1
6
2
3
3
2
4
1
=
.
Este ejemplo muestra que la operación de composición no es conmutativa, al menos en S6 .
Además se cumplen las propiedades siguientes:
(a) propiedad asociativa: (ρ ◦ τ ) ◦ σ = ρ ◦ (τ ◦ σ) , para cualesquiera σ, τ, ρ de Sn ;
(b) existencia de elemento identidad: la aplicación identidad idIn de {1, 2, . . . , n} sobre {1, 2, . . . , n}
pertenece a Sn , y σ ◦ idIn = idIn ◦ σ = σ , para cada σ de Sn , y
(c) existencia de inverso de cada elemento: para cada permutación σ de Sn , existe τ ∈ Sn tal
que τ ◦ σ = σ ◦ τ = idIn : es τ = σ −1 , la aplicación inversa de σ , que es una permutación de
{1, 2, . . . , n} .
Como la estructura (Sn , ◦) tiene las tres propiedades (a), (b) y (c) anteriores, es un grupo: se llama
grupo simétrico de n elementos (a pesar de que Sn tiene n! elementos).
Si n > 3 , el grupo Sn no es conmutativo. Por ejemplo, en S3 tenemos
1 2 3
1 2 3
1 2 3
1 2 3
1 2
◦
=
y
◦
3 1 2
1 3 2
3 2 1
1 3 2
3 1
y entonces para cada n > 3 ,
1 2 3 4 ···
3 1 2 4 ···
n
n
1 2 3 4
◦
1 3 2 4
···
···
n
n
=
1
3
2
2
3
1
3
2
4
4
=
···
···
1
2
n
n
2
1
3
3
,
158
Álgebra lineal
y
De los grupos Sn
1 2 3 4
◦
3 1 2 4
2 3 4 ··· n
=
.
1 3 4 ··· n
1 2
1 2
sólo son conmutativos los grupos S1 = {(1)} y S2 =
,
.
1 2
2 1
···
···
1 2 3 4
1 3 2 4
n
n
···
···
n
n
1
2
Sea k un número natural 1 < k 6 n . Un ciclo de Sn de longitud k es una permutación σ de Sn
tal que hay k elementos a1 , . . . , ak en {1, . . . , n} para los que
σ(a1 ) = a2 ,
σ(a2 ) = a3 ,
σ(a3 ) = a4 , . . . , σ(ak−1 ) = ak ,
σ(ak ) = a1 ,
y
para todo b ∈ {1, . . . , n} r {a1 , . . . , ak }.
σ(b) = b,
La notación para un ciclo σ como el de la definición es ( a1 a2 a3 · · · ak ) .
1 2 3 4 5 6
Por ejemplo, en S6 , el ciclo ( 1 2 4 ) es la permutación
.
2 4 3 1 5 6
Se llama soporte del ciclo ( a1 a2 · · · ak ) de Sn al conjunto {a1 , a2 , . . . , ak } , que es un subconjunto de {1, 2, . . . , n} . El soporte del ciclo del ejemplo anterior es {1, 2, 4} .
Decimos que dos ciclos σ y σ 0 de Sn son disjuntos, si sus soportes son conjuntos disjuntos.
Dos ciclos disjuntos cualesquiera σ y τ de Sn conmutan: τ ◦ σ = σ ◦ τ . En efecto, si σ =
a2 · · · ak ) y τ = ( a01 a02 · · · a0h ) son dos ciclos disjuntos, entonces para cada b = 1, . . . , n ,

ai+1 si b = ai con 1 6 i < k,





si b = ak ,
 a1
0
τ ◦ σ(b) = τ (σ(b)) = σ ◦ τ (b) = σ(τ (b)) = ai+1 si b = a0i con 1 6 i < h,




a0
si b = a0k ,

 1
b
en los demás casos.
1 2 3 4 5 6
Por ejemplo, en S6 , ( 1 2 4 ) ◦ ( 3 5 ) =
= (3 5) ◦ (1 2 4).
2 4 5 1 3 6
( a1
Proposición. Cada permutación de Sn distinta de la permutación identidad se puede expresar de manera
única (salvo el orden de los factores) como producto de ciclos disjuntos.
Demostración. Sea σ una permutación de Sn distinta de la identidad. Sea a1 un elemento de
{1, 2, . . . , n} tal que σ(a1 ) 6= a1 . Aplicando σ obtenemos la sucesión
a1 ,
σ(a1 ),
σ(σ(a1 )) = σ 2 (a1 ),
σ 3 (a1 ),
. . . , σ i (a1 ),
...
En esta sucesión no pueden ser todos los elementos distintos, porque todos ellos son números naturales
6 n . Sea k el menor número natural tal que σ k (a1 ) es uno de los elementos que ya han aparecido en
la sucesión. Tomamos los k elementos distintos obtenidos hasta σ k−1 (a1 ) :
a1 ,
σ(a1 ),
σ 2 (a1 ),
σ 3 (a1 ),
. . . , σ k−1 (a1 ).
Entonces, σ k (a1 ) no es otro que el primer miembro de la sucesión: a1 . En efecto, si σ k (a1 ) =
σ (a1 ) para un h tal que 1 6 h 6 k − 1 , tendrı́amos σ k−1 (a1 ) = σ h−1 (a1 ) , porque σ es biyectiva.
Por tanto, para k − 1 , estrictamente menor que k , se tiene que σ k−1 (a1 ) es uno de los anteriores
a1 , σ(a1 ), . . . , σ k−2 (a1 ) , en contradicción con que k es el menor número natural con esa propiedad.
h
Hemos obtenido el ciclo de longitud k : ( a1
σ(a1 ) σ 2 (a1 ) · · ·
σ k−1 (a1 ) ) .
Supongamos que existe un elemento a2 en el conjunto {1, 2, . . . , n} r {a1 , σ(a1 ), . . . , σ k−1 (a1 )}
tal que σ(a2 ) 6= a2 . Si no hay ningún a2 ası́, es que σ(b) = b para todo b ∈ {1, 2, . . . , n} r
{a1 , σ(a1 ), . . . , σ k−1 (a1 )} , y entonces la permutación σ es el ciclo ( a1 σ(a1 ) σ 2 (a1 ) · · · σ k−1 (a1 ) ) .
Ahora formamos como antes la sucesión
a2 ,
σ(a2 ),
σ 2 (a2 ), . . . , σ i (a2 ), . . .
y llegamos a un h tal que σ h (a2 ) es uno de los elementos que ya han aparecido en la sucesión. Como
antes con a1 , el menor h tal que σ h (a2 ) es uno de a2 , σ(a2 ), . . . , σ h−1 (a2 ) , es tal que σ h (a2 ) = a2 .
Formamos el ciclo de longitud h : ( a2 σ(a2 ) σ 2 (a2 ) · · · σ h−1 (a2 ) ) .
159
Rangos y determinantes
Ahora, un a3 , si lo hay, tal que σ(a3 ) 6= a3 , y a3 es distinto de a1 , . . . , σ k−1 (a1 , a2 , . . . , σ h−1 (a2 ) ,
etc.
Al final tenemos que la permutación σ es
( a1
σ(a1 ) · · ·
σ k−1 (a1 ) ) ◦ ( a2
σ h−1 (a2 ) ) ◦ . . . ◦ ( ad
σ(a2 ) · · ·
σ(ad ) · · ·
σ m−1 (ad ) ) ,
y σ es un producto de d ciclos disjuntos.
Por ejemplo, en S8 :
1 2
8 6
y en S11 ,
1
3
2
2
3
7
4
11
3
1
4
3
5
2
6
5
7
4
8
7
5 6 7 8 9
10 8 9 1 6
10
5
11
4
= (1
8
7
3) ◦ (2
4
6
5),
= (1
3
7
9
6
8) ◦ (4
11 ) ◦ ( 5
10 ) .
Una trasposición de Sn es un ciclo de longitud 2 de Sn , es decir, es un ciclo de la forma ( ai aj ) :
una permutación que es la identidad en todos los elementos de {1, 2, . . . , n} , excepto en los elementos
ai y aj , en los que toma como valores aj y ai , respectivamente.
Proposición. Cada permutación σ de Sn se puede expresar como producto de trasposiciones.
Demostración. Cada ciclo ( a1 a2 . . . ak ) de longitud k en los que se descompone σ se puede
expresar como producto de trasposiciones:
( a1
a2
...
ak ) = ( a1
ak ) ◦ ( a1
ak−1 ) ◦ ( a1
ak−2 ) ◦ . . . ◦ ( a1
a3 ) ◦ ( a1
a2 ) .
En los ejemplos anteriores. tenemos
1 2 3 4 5 6 7 8
= (1
8 6 1 3 2 5 4 7
4
3) ◦ (2
6
3) ◦ (1
4) ◦ (1
7) ◦ (1
8
= (1
7
5)
8) ◦ (2
5) ◦ (2
6).
Proposición. La permutación identidad de Sn no se puede expresar como producto de un número impar
de trasposiciones.
Demostración. Supongamos que id = σ1 ◦ σ2 ◦ . . . ◦ σm con σ1 , σ2 , . . . , σm trasposiciones de Sn . Distinguimos dos casos:
Caso 1: Para todo j = 1, . . . , m, σj es la trasposición ( 1
aj ) , donde aj ∈ {1, . . . , n} .
Entonces, entre las trasposiciones σ1 , . . . , σj−1 , σj+1 , . . . , σm tiene que estar la trasposición ( aj 1 ) ,
que es igual a la trasposición ( 1 aj ) , es decir, la propia σj . Luego σj tiene que aparecer entre
σ1 , . . . , σj−1 , σj+1 , . . . , σm , y, por consiguiente, σj aparece en σ1 , σ2 , . . . , σm por duplicado. Como esto
ocurre para cada j = 1, . . . , m , cada σj está un número par de veces en σ1 , σ2 , . . . , σm y m tiene que
ser par.
Caso 2: Hay un j = 1, . . . , n tal que σj = ( aj
bj ) , con aj y bj distintos de 1.
Se comprueba que
σj = ( aj
bj ) = ( 1
bj ) ◦ ( 1 aj ) ◦ ( 1 bj ) ,
y se sustituye σj en el producto σ1 ◦ σ2 ◦ . . . ◦ σm por ( 1 bj ) ◦ ( 1 aj ) ◦ ( 1 bj ) . Esto lo hacemos con
todas las trasposiciones σj que sean de esa forma. El resultado final es que nos encontramos en el caso 1,
y como lo que se ha hecho es sustituir cada una de las trasposiciones sustituibles por tres trasposiciones,
la paridad no ha cambiado, luego m es par.
Teorema. Sea σ una permutación de Sn que se expresa de dos formas como composición de trasposiciones:
σ = σ1 ◦ σ2 ◦ . . . ◦ σm = τ1 ◦ τ2 ◦ . . . ◦ τn .
Entonces n y m tienen la misma paridad, esto es, o los dos son pares, o los dos son impares.
160
Álgebra lineal
Demostración. Como σ ◦ σ −1 = id , tenemos
σ ◦ σ −1 = (σ1 ◦ σ2 ◦ . . . ◦ σm ) ◦ (τ1 ◦ τ2 ◦ . . . ◦ τn )−1 = id
(σ1 ◦ σ2 ◦ . . . ◦ σm ) ◦ (τn−1 ◦ . . . ◦ τ2−1 ◦ τ1−1 ) = id
y la permutación identidad id está expresada como composición de m + n trasposiciones, porque la
permutación inversa de una trasposición es una trasposición (de hecho, es ella misma). Por la proposición
anterior, m + n es par. Luego o m y n son pares, o m y n son impares.
Se dice que una permutación σ de Sn es par (respectivamente, impar) si σ se puede poner como
composición de un número par (respectivamente, impar) de trasposiciones. Por el resultado anterior, cada
permutación de Sn es o par o impar, y no hay ninguna permutación que sea par e impar a la vez.
Se define la signatura o el signo de cada permutación σ de Sn por
+1, si σ es par,
signo(σ) = ε(σ) =
−1, si σ es impar.
De otro modo, si la permutación σ se expresa como la composición τ1 ◦ τ2 ◦ . . . ◦ τk de trasposiciones,
entonces signo(σ) = (−1)k .
Proposición. La aplicación signo : Sn −−→ {1, −1} tiene las propiedades siguientes:
(a) El signo de la permutación identidad es 1 :
signo(id) = 1 ;
(b) signo(σ ◦ τ ) = signo(σ) · signo(τ ) ;
(c) signo(σ −1 ) = signo(σ) .
aj ) de Sn se tiene id = τ ◦ τ −1 = τ ◦ τ , luego
Demostración. (a) Para cada trasposición τ = ( ai
signo(id) = (−1)2 = 1.
σ = σ1 ◦ σ2 ◦ . . . ◦ σm
(b) Supongamos que
trasposiciones. Entonces
y
τ = τ1 ◦ τ2 ◦ . . . ◦ τn , como composición de
signo(σ ◦ τ ) = signo((σ1 ◦ σ2 ◦ . . . ◦ σm ) ◦ (τ1 ◦ τ2 ◦ . . . ◦ τn ))
= signo(σ1 ◦ σ2 ◦ . . . ◦ σm ◦ τ1 ◦ τ2 ◦ . . . ◦ τn )
= signo(σ) · signo(τ ),
porque m + n es par si y sólo si m y n son los dos pares, o m y n son los dos impares.
(c) Si σ = σ1 ◦ σ2 ◦ . . . ◦ σm , como composición de trasposiciones, entonces
signo(σ −1 ) = signo((σ1 ◦ σ2 ◦ . . . ◦ σm )−1 )
−1
= signo(σm
◦ . . . ◦ σ2−1 ◦ σ1−1 )
= signo(σm ◦ . . . ◦ σ2 ◦ σ1 )
= signo(σ)
como querı́amos demostrar.
Por ejemplo, los ciclos de longitud k , como ( a1 a2 . . . ak ) tienen signo (−1)k−1 , porque
sabemos que son composición de k −1 trasposiciones: ( a1 ak )◦( a1 ak−1 )◦. . .◦( a1 a3 )◦( a1 a2 ) .
En S7 ,
1
6
2
7
3
2
4
1
5
4
6
5
7
3
= (1
6
4) ◦ (2
5
7
3) = (1
4) ◦ (1
y el signo de σ es (−1)5 = −1 , y σ es impar.
En S10 , la permutación
1
9
2
7
3
4
4
2
5
1
6
3
7
10
8 9
5 6
10
8
5) ◦ (1
6) ◦ (2
3) ◦ (2
7),
161
Rangos y determinantes
es el ciclo ( 1 9
composición de
(1
6
5) ◦ (1
3
4
2
8) ◦ (1
7
10
8
10 ) ◦ ( 1
5 ) , de longitud 10 , luego la permutación es impar: es la
7) ◦ (1
2) ◦ (1
4) ◦ (1
3) ◦ (1
6) ◦ (1
9),
10 ) ◦ ( 10
8) ◦ (8
5),
y también es la composición de
(1
9) ◦ (9
6) ◦ (6
3) ◦ (3
4) ◦ (4
2) ◦ (2
7) ◦ (7
de 9 trasposiciones.
Un método más rápido de determinar la paridad de una permutación consiste en hallar el número
sus inversiones. Se da una inversión en una permutación σ de Sn cuando se tienen dos elementos i y
j de {1, 2, . . . , n} tales que i < j y σ(i) > σ(j) . Ocurre que una permutación es par si y sólo si tiene
un número par de inversiones (y es impar si y sólo si tiene un número impar de inversiones):
Proposición. Para cada permutación σ de {1, 2, . . . , n} , si i(σ) es el número de inversiones de σ ,
entonces
signo(σ) = (−1)i(σ) .
Por ejemplo, en la anterior permutación σ de S10 una inversión es la del 1 y 2, porque σ(1) = 9
y σ(2) = 7. Para hallar el número de inversiones de σ , se consideran sucesivamente los elementos
σ(1) = 9, σ(2) = 7, . . . , σ(10) = 8. . Para cada σ(j) se halla el número de σ(i) tales que i < j y
σ(i) > σ(j) : en el ejemplo anterior: Para σ(1) = 9, 0 ; para σ(2) = 7 , hay 1 ; para σ(3) = 4 , hay
2 ; para σ(4) = 2 , hay 3 ; para σ(5) = 1, hay 4 ; para σ(6) = 3, hay 3 ; para σ(7) = 10 , no hay
ninguna inversión; para σ(8) = 5, hay 3 ; para σ(9) = 6, hay 3 , y para σ(10) = 8 , hay 2 . En total,
hay 1 + 2 + 3 + 4 + 3 + 0 + 3 + 3 + 2 = 21 , y el signo de la permutación σ es (−1)21 = −1 , y es impar.
162
Álgebra lineal
Determinantes
Sea n un número natural > 1 . A cada matriz cuadrada A de orden n de escalares de K se le asocia
un escalar, llamado determinante de la matriz A , definido de la forma siguiente:
Sea
a11
 a21
A=
 ...
a12
a22
..
.
···
···
..
.

a1n
a2n 
.. 
. 
an1
an2
···
ann

una matriz cuadrada de orden n de elementos de K . Se llama determinante de A al elemento de K
dado por
X
det A =
signo(σ)a1σ(1) a2σ(2) · · · anσ(n) .
σ∈Sn
La suma anterior tiene tantos sumandos como permutaciones tiene el conjunto {1, 2, . . . , n} , es decir, n!
sumandos. Cada uno de estos n! sumandos corresponde a una permutación σ del conjunto {1, 2, . . . , n} ,
y, dejando aparte el signo ( + o − ) de la permutación σ , cada sumando tiene n factores: el primer factor
es el elemento a1σ(1) de la primera fila y columna σ(1) -ésima de A , el segundo factor es elemento a2σ(2)
de la segunda fila y columna σ(2) -ésima de A , y el último factor es anσ(n) de la última fila y columna
σ(n) -ésima de A . Como σ es una permutación de {1, 2, . . . , n} , los n elementos σ(1), σ(2), . . . , σ(n)
son todos distintos y son todos los elementos de {1, 2, . . . , n} . Por tanto, los n! sumandos del determinante de A son, dejando aparte el signo de cada una de las n! permutaciones, todos los productos de
n factores que se pueden formar con los elementos de la matriz A , tomando uno en cada fila y uno en
cada columna.
El determinante de una matriz A como la anterior tambien se indica por
a11
a21
det A = ..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
.. .
.
an1
an2
···
ann
La expresión del determinante para matrices cuadradas de orden pequeño n = 1, 2 y 3 , es la
siguiente:
• Si n = 1 y la matriz A = (a) , entonces det A = |a| = signo
• Si n = 2 y A =
det A =
a11
a21
a11
a21
a11
• Si n = 3 y A =  a21
a31
+ signo
a12
= signo
a22

= signo
a12
a22
1
1
2
2
3
3
1
2
2
1
3
3
1
a = a.
1
, entonces
a12
a22
a32
1
1
2
2
a11 a22 + signo

a13
a23  ,
a33
a12 a21 a33 + signo
2
1
a12 a21 = a11 a22 − a12 a21 .
a11
det A = a21
a31
entonces
a11 a22 a33 + signo
1
2
1
1
2
3
3
2
1
3
2
1
3
2
a12
a22
a32
a11 a23 a32 + signo
a13 a21 a32 + signo
a13
a23 =
a33
1
2
2
3
3
1
1
3
2
2
3
1
a12 a23 a31 +
a13 a22 a31 .
= a11 a22 a33 − a11 a23 a32 + a12 a23 a31 − a12 a21 a33 + a13 a21 a32 − a13 a22 a31 .
Para recordar fácilmente la expresión anterior está la regla de Sarrus para el cálculo del determinante
de una matriz cuadrada de orden 3 (¡y sólo de orden 3 !).
163
Rangos y determinantes
• Para n = 4 , la expresión del determinante de una matriz de orden 4 tiene 4! = 24 sumandos,
y el cálculo del determinante de una matriz de orden 4 no se hace casi nunca de manera directa por la
fórmula de la definición. Para las matrices cuadradas de orden 5 , son 5! = 120 sumandos; para las de
orden 6 , son 6! = 720 sumandos.
Propiedades de los determinantes
Tres propiedades básicas
La aplicación determinante det : Mn (K) −−→ K que en cada matriz A de orden n toma como valor el
determinante det A de A, tiene tres propiedades básicas, que demostramos a continuación:
Teorema. Sea n > 1 y sea A una matriz cuadrada de orden n de elementos de K . Entonces
(1) det es lineal en cada fila: para cada i = 1, . . . , n ,
(i) si la fila i -ésima A(i) de A es la suma de dos n -vectores fila C y D , de M1×n (K) , es
decir, A(i) = C + D , entonces
 (1) 
 (1) 
 (1) 
 (1) 
A
A
A
A
 .. 
 .. 
 .. 
 .. 
 . 
 . 
 . 
 . 








det A = det  A(i)  = det  C + D  = det  C  + det  D  ,
 . 
 . 
 . 
 . 
 .. 
 .. 
 .. 
 .. 
(n)
(n)
(n)
A(n)
A
A
A
(ii) si la fila i -ésima A(i) de A es el producto de un escalar λ por un n -vector fila C de
M1×n (K) , es decir, A(i) = λC , entonces
 (1) 
 (1) 
 (1) 
A
A
A
 .. 
 .. 
 .. 
 . 
 . 
 . 






det A = det  A(i)  = det  λC  = λ det  C 
 . 
 . 
 . 
 .. 
 .. 
 .. 
(n)
(n)
A
A
A(n)
(2) det es alternada: Si la matriz B se obtiene al intercambiar dos filas de la matriz A , entonces
det B = − det A,
y
(3) det In = 1.
Demostración. (1) (i) Supongamos que los n -vectores fila C y D de M1×n (K) son
C = ( c1
···
c2
cn )
y
D = ( d1
d2
···
dn ) .
La fila i -ésima A(i) de A es
A(i) = ( ai1
y
ai2
···
ain ) = C + D = ( c1 + d1
c2 + d2
···
cn + dn ) ,
aij = cj + dj , para cada j = 1, . . . , n . Entonces
det A =
X
signo(σ)a1σ(1) a2σ(2) · · · aiσ(i) · · · anσ(n)
σ∈Sn
=
X
signo(σ)a1σ(1) a2σ(2) · · · (cσ(i) + dσ(i) ) · · · anσ(n)
σ∈Sn
=
X
signo(σ)a1σ(1) a2σ(2) · · · cσ(i) . . . anσ(n) +
σ∈Sn




= det 


X
σ∈Sn
A
(1)
..
.
C
..
.
A(n)








 + det 




A
(1)
..
.
D
..
.
A(n)







signo(σ)a1σ(1) a2σ(2) · · · dσ(i) · · · anσ(n)
.
164
Álgebra lineal
(1) (ii) Supongamos que el n -vector fila C de M1×n (K) es C = ( c1 c2 · · ·
A(i) de A es
A(i) = ( ai1 ai2 · · · ain ) = λC = ( λc1 λc2 · · · λcn )
y
cn ) . La fila i -ésima
aij = λcj , para cada j = 1, . . . , n . Entonces
X
det A =
signo(σ)a1σ(1) a2σ(2) · · · aiσ(i) · · · anσ(n)
σ∈Sn
=
X
signo(σ)a1σ(1) a2σ(2) · · · λcσ(i) · · · anσ(n)
σ∈Sn
X
=λ
signo(σ)a1σ(1) a2σ(2) · · · cσ(i) · · · anσ(n)
σ∈Sn




= λ det 


A
(1)
..
.
C
..
.
.







A(n)
(2) Sea B = (bij )n la matriz que resulta al intercambiar en la matriz A las filas i -ésima y j -ésima,
con i < j :
 (1)   (1) 
A
B
.
.
 .   ... 


 
 B (i)   A(j) 

 

 .   . 
B =  ..  =  ..  .
 (j)   (i) 
B  A 
 .   . 
 .   . 
.
.
A(n)
B (n)
Entonces
det B =
X
signo(σ)b1σ(1) · · · biσ(i) · · · bjσ(j) · · · bnσ(n)
σ∈Sn
=
X
signo(σ)a1σ(1) · · · ajσ(j) · · · aiσ(i) · · · anσ(n) .
σ∈Sn
Sea τ = ( i j ) la trasposición de {1, 2, . . . , n} que intercambia i y j . Para cada permutación σ de
Sn , las permutaciones σ y σ ◦ τ tienen paridad distinta:
signo(σ ◦ τ ) = signo(σ) · signo(τ ) = signo(σ) · (−1) = −signo(σ).
Además
{σ ◦ τ | σ ∈ Sn } = {ρ | ρ ∈ Sn } = Sn ,
porque la aplicación de Sn en Sn definida por: σ 7→ σ ◦ τ , para cada σ ∈ Sn , es sobreyectiva: en efecto,
para cada permutación ρ ∈ Sn , tomando σ = ρ ◦ τ se tiene
σ ◦ τ = (ρ ◦ τ ) ◦ τ = ρ ◦ (τ ◦ τ ) = ρ ◦ id = ρ.
Entonces
det B =
X
signo(σ)a1σ(1) · · · ajσ(j) · · · aiσ(i) · · · anσ(n)
σ∈Sn
=
X
signo(σ)a1
σ◦τ (1)
· · · ai
σ◦τ (i)
· · · aj
σ◦τ (j)
· · · an
σ∈Sn
=
X
−signo(ρ)a1ρ(1) · · · aiρ(i) · · · ajρ(j) · · · anρ(n)
ρ∈Sn
= − det A.
(3) Por la definición del determinante,
X
det In =
signo(σ)a1σ(1) a2σ(2) · · · anσ(n) .
σ∈Sn
σ◦τ (n)
165
Rangos y determinantes
En esta suma de n! sumandos, los sumandos que tengan algún factor de la forma aij , con i 6= j , son
nulos, porque aij = 0 . Sólo hay un sumando que no tiene ningún aij con i 6= j , a saber, el sumando
signo(id) · a11 · a22 · . . . · ann = (+1) · 1 · 1 · . . . · 1 = 1,
y, por consiguiente, det In = 1.
Más propiedades
Del hecho de que la aplicación determinante det : Mn (K) −−→ K cumple las tres propiedades básicas del
teorema anterior, se deducen las cinco propiedades (4)-(8) siguientes. En su demostración no se utiliza la
definición del determinante, sólo las tres propiedades anteriores.
Teorema. La aplicación determinante det : Mn (K) −−→ K tiene las propiedades siguientes: Para cada
matriz A ∈ Mn (K) ,
(4) para cada escalar λ ∈ K,
det(λA) = λn det A;
(5) si A tiene dos filas iguales, entonces det A = 0 ;
(6) si una de las filas de A es el n -vector fila nulo 01×n , entonces det A = 0;
(7) para cada λ ∈ K , si la matriz B es el resultado de sumar a la fila i -ésima A(i) de A la fila
j -ésima de A multiplicada por λ , entonces det B = det A .
(8) si A = (aij )n es una matriz triangular superior, entonces
det A = a11 · a22 · . . . · ann .
Demostración. (4) Es consecuencia de la propiedad (1)(ii), aplicada n veces:
 (1) 
 (1) 

A
A
λA(1)
(2)
(2)
 λA 
 λA 

A(2) 
 = λ · det  .  = . . . = λn · det  .  = λn · det A.
det(λA) = det 
.
 .. 
 .. 
 .. 

λA(n)
λA(n)
A(n)
(5) Supongamos que las filas i -ésima A(i) y j -ésima A(j) son iguales. Si intercambiamos estas dos
filas en A , la matriz resultante es la propia matriz A , pero el determinante de la matriz resultante es el
opuesto del determinante de A , ası́ que det A = − det A , y det A = 0 .
(6) Supongamos que la fila i -ésima A(i) de A es el n -vector fila nulo. Entonces 0 · A(i) = A(i) =
01×n , y por la propiedad (1)(ii),

 (1) 


 (1) 
A
A(1)
A
A(1)
..
.. 
 .. 
 ... 



.
 . 




 . 








det A = det  A(i)  = det  01×n  = det  0 · 01×n  = 0 · det  01×n  = 0.
 . 
 . 


 . 
.
 .. 
 .. 


 .. 
..
(n)
(n)
(n)
A
A
A
A(n)

(7) Con la notación del enunciado, y por las propiedades (1)(i)-(ii) y (4),
A(1)
..
.

 (1) 
 (1) 
A(1)
A
A


 ... 
 ... 
 ... 








 A(i) + λA(j) 
 A(i) 
 A(j) 
 A(i) 








..


 .. 
 .. 
 .. 
det B = det 
=
det
+
λ
det
=
det
+ λ · 0 = det A.






. 
. 
. 
.


 (j)
 (j)
 (j)

(j)








A


 A. 
 A. 
 A. 
..


 . 
 . 
 . 
.
.
.
.
A(n)
A(n)
A(n)
A(n)



(8) Si la matriz triangular superior A = (aij )n tiene todos los elementos aii de la diagonal principal
distintos de cero, por medio de operaciones elementales del tercer tipo, esto es, sumando a una fila un
166
Álgebra lineal
múltiplo escalar de otra fila, llegamos a la matriz diagonal diag(a11 , a22 , . . . , ann ) . Por (7), el determinante de la matriz A es el mismo que el determinante de la matriz diagonal diag(a11 , a22 , . . . , ann ) . Por
(1)(ii),
0
a22
..
.
···
···
..
.
0
0
..
.
0
0
···
ann
a11
0
det diag(a11 , a22 , . . . , ann ) = ..
.
1
0
= a11 · ..
.
0
0
a22
..
.
···
···
..
.
0
0
..
.
0
···
ann
= ...
1
0
= a11 · a22 · . . . · ann · ..
.
0
1
..
.
···
···
..
.
0
0
.. = a11 · a22 · . . . · ann · 1 = a11 · a22 · . . . · ann .
.
0
0
···
1
Supongamos ahora que alguno de los elementos de la diagonal principal de A es nulo. Sea i el mayor
de los ı́ndices de las filas tal que aii = 0 . Entonces ai+1,i+1 , . . . , ann son distintos de cero. Por medio de
operaciones elementales del tercer tipo, en este caso, sumando a la fila i -ésima, múltiplos escalares de
las filas i + 1, . . . , n -ésimas, llegamos a una matriz cuadrada que tiene la fila i -ésima igual al n -vector
fila cero 01×n . Por (7), det A es igual al determinante de esta última matriz. Por (6), este determinante
es cero. Luego det A = 0 .
Un método de cálculo del determinante
Estas ocho propiedades proporcionan un método para calcular el determinante de una matriz cuadrada:
Porque por medio de operaciones elementales en las filas de la matriz se llega a una matriz escalonada y
cuadrada, luego a una matriz triangular superior. Y, por la propiedad (8), el determinante de las matrices
triangulares superiores es el producto de los elementos de la diagonal principal.
Sea A una matriz cuadrada de orden n , de la que queremos hallar su determinante. Por medio de
operaciones elementales en las filas, partiendo de A , llegamos a una matriz escalonada B , que al ser
cuadrada, es triangular superior. Cada vez que se ha aplicado la operación elemental que consiste en el
intercambio de dos filas, ha cambiado el signo del determinante. Cada vez que a una fila se le ha sumado
un múltiplo escalar de otra fila, el determinante no cambia. Y cada vez que una fila se multiplica por un
escalar λ no nulo, el determinante se multiplica por λ .
Ejemplo.
(a) Hallar el determinante de la matriz

1
 3
A=
7
31
Tenemos
det A =
1
0
0
0
2
0
−1
−39
= (−1)
2
1
0
0
0
3
−1
−1
−38
2
−1
0
0
4
−1
−2
−78
3
−1
1
−1

2 3 4
6 8 11 
.
13 20 26
23 55 46
=
4
−2
0
−1
1
0
0
0
2
0
−1
0
3
−1
−1
1
=
1
0
0
0
2
−1
0
0
0
2
3
1
0
0
0
2
3
1

0
0

0.

2
3
(b) Hallar el determinante de la matriz
3
1

A = 0

0
0

2
3
1
0
0
4
−1
−2
0
3
−1
1
0
=
4
−2
0
−1
= 1 · (−1) · 1 · (−1) = 1.
167
Rangos y determinantes
Tenemos
det A =
=
1
0
0
0
0
3
1
0
0
0
2
3
1
0
0
3
1
0
0
0
2
3
1
0
15
0
2
3
1
0
0
0
2
3
1
0
0
0
2
3
0
2
3
1
14
0
0
2
3
0
= (−1)4
1
0
0
0
3
3
1
0
0
2
1
0
0
0
0
2
3
1
0
0
0
2
3
1
−31
=
3
1
0
0
0
2
3
1
0
0
0
2
3
1
0
0
0
2
3
0
0
0
2
3
−30
=
=
1
0
0
0
0
1
0
0
0
0
3
1
0
0
−7
3
1
0
0
0
2
3
1
0
0
2
3
1
0
−6
0
2
3
1
0
0
0
2
3
63
0 0
2 0
3 2
1 3
0 0
=
= 1 · 1 · 1 · 1 · 63 = 63.
Más propiedades de los determinantes
Teorema. Para cada matriz cuadrada A de elementos de K , la matriz A y su matriz traspuesta At
tienen el mismo determinante:
det A = det At .
Demostración. Sea A = (aij )n una matriz de orden n , y sea B = (bij )n , la matriz traspuesta At de
A : bij = aji para cualesquiera i, j = 1, . . . , n. Entonces
X
det At =
signo(σ)b1σ(1) b2σ(2) · · · bnσ(n)
σ∈Sn
X
=
signo(σ)aσ(1)1 aσ(2)2 · · · aσ(n)n .
σ∈Sn
Ahora, para cada permutación σ de Sn , si σ(i) = j , entonces i = σ −1 (j) . Por tanto, aσ(i)i = ajσ−1 (j)
y
aσ(1)1 aσ(2)2 · · · aσ(n)n = a1σ−1 (1) a2σ−1 (2) · · · anσ−1 (n) = bσ−1 (1)1 bσ−1 (2)2 · · · bσ−1 (n)n .
Además, el conjunto {σ −1 |σ ∈ Sn } es igual al conjunto Sn , porque la aplicación de Sn en Sn
que a cada σ de Sn asocia su inversa σ −1 es una aplicación biyectiva. [Como es una aplicación
de un conjunto finito en sı́ mismo, basta con demostrar que es inyectiva, lo que resulta de que cada
permutación σ de Sn tiene una y sólo una permutación inversa σ −1 .] Y sabemos que para cada
σ ∈ Sn , signo(σ) = signo(σ −1 ) . Con todo esto,
det At =
X
signo(σ)aσ(1)1 aσ(2)2 · · · aσ(n)n
σ∈Sn
=
X
signo(σ −1 )a1σ−1 (1) a2σ−1 (2) · · · anσ−1 (n)
σ∈Sn
= det A.
Con este último resultado, y como las filas de la matriz A son las columnas de la matriz At , y las
columnas de la matriz A son las filas de la matriz At , las propiedades de más arriba que se refieren a las
filas de la matriz A se cumplen también para las columnas de A . Por ejemplo, si una matriz cuadrada
A tiene dos columnas iguales, su determinante es cero: La matriz traspuesta At de A tiene dos filas
iguales, luego su determinante es cero, por (5). Y entonces det A = det At = 0.
Corolario. Sea n > 1 y sea A una matriz cuadrada de orden n de elementos de K . Entonces
(1) det es lineal en cada columna: Para cada j = 1, . . . , n ,
168
Álgebra lineal
(i) Si la columna j -ésima A(j) de A es la suma de dos n -vectores columna C 0 y D0 de
Mn×1 (K) , es decir, A(j) = C 0 + D0 , entonces
det A = det ( A(1)
= det ( A(1)
= det ( A(1)
···
A(j)
···
···
0
0
0
···
···
C +D
C
A(n) )
···
A(n) )
···
A(n) ) + det ( A(1)
D0
···
A(n) ) ;
(ii) si la columna j -ésima A(j) de A es el producto de un escalar λ por un n -vector columna
C 0 de Mn×1 , es decir, A(j) = λC 0 , entonces
det A = det ( A(1)
= det ( A(1)
···
A(j)
···
0
= λ · det ( A(1)
λC
···
C
0
···
A(n) )
···
A(n) )
···
A(n) ) ;
(2) si la matriz B es el resultado de intercambiar dos columnas de A , entonces det B = − det A ;
(3) si la matriz A tiene dos columnas iguales, entonces det A = 0;
(4) si la matriz A tiene una columna igual al n -vector columna cero 0n×1 , entonces det A = 0, y
(5) si B resulta de sumar a una columna de A otra de sus columnas multiplicada por un escalar,
entonces det B = det A.
No hay ninguna relación general entre el determinante de la suma de dos matrices y los determinantes
de las dos matrices: por ejemplo, det(I2 + (−I2 )) = det 02 = 0 y det I2 = det(−I2 ) = 1 .
¡¡No se cumple
det(A + B) = det A + det B !!
det(λA) = λn · det A.
Respecto del producto por escalares, la propiedad (4) nos dice que
Respecto del producto de matrices de orden n se tiene una propiedad importante de la aplicación
determinante: El determinante de la matriz producto de dos matrices del mismo orden es el producto de
los determinantes de las dos matrices:
Teorema. Sean A y B dos matrices de Mn (K) . Entonces
det(A · B) = det A · det B.
Demostración. Si B (1) , B (2) , . . . , B (n) son los n -vectores fila de la matriz B , entonces

  (1) 

a11 a12 · · · a1n
a11 B (1) + a12 B (2) + · · · + a1n B (n)
B
(2)
 a21 a22 · · · a2n   B 
 a21 B (1) + a22 B (2) + · · · + a2n B (n)
 .





det(A · B) = det 
·
=
det
.
.
.
..
..
 ..

..
..   .. 
.
.
an1
an2
···

=
n
X
j1 =1
 a21 B
a1j1 · det 

(1)
n
X
B (n)
an1 B (1) + an2 B (2) + · · · + ann B (n)

B (j1 )
(2)
(n)
+ a22 B + · · · + a2n B


..

.
an1 B (1) + an2 B (2) + · · · + ann B (n)

=
ann


a1j1 · a2j2 · det 


j1 ,j2 =1
B (j1 )
B (j2 )
(1)
a31 B + a32 B (2) + · · · + a3n B (n)
..
.
an1 B (1) + an2 B (2) + · · · + ann B (n)
= .........

B (j1 )
 B (j2 ) 

· det 
 ... 

=
n
X
j1 ,j2 ,...,jn =1
a1j1 · a2j2 · . . . · anjn
B (jn )










169
Rangos y determinantes
La suma anterior tiene nn sumandos. Pero un buen número de ellos son nulos: el último factor de cada
uno de los sumandos es el determinante de una matriz, cuyas filas son filas de la matriz B . Si esa matriz
tiene dos filas iguales, entonces su determinante es igual a cero. Ası́ que nos quedamos con las matrices
cuyas n filas son las n filas de la matriz B , o, de otro modo, las n filas son el resultado de una
permutación de las filas de B . Ası́ que nos quedan n! sumandos, uno por cada permutación σ de Sn ,
y para cada σ ,
 (1) 

B
B (σ(1))
 B (2) 
 B (σ(2)) 
 = signo(σ) · det  . 
det 
..
 .. 


.

por la propiedad (3).
B (n)
B (σ(n))
Por tanto

B (σ(1))
(σ(2))
X

B

a1σ(1) · a2σ(2) · . . . · anσ(n) · det 
det(A · B) =
..


.

σ∈Sn
B (σ(n))

B (1)
X
 B (2) 

a1σ(1) · a2σ(2) · . . . · anσ(n) · signo(σ) · det 
=
 ... 

σ∈Sn
B (n)

B (1)
X
 B (2) 

=
signo(σ) · a1σ(1) · a2σ(2) · . . . · anσ(n) · det 
 ... 

σ∈Sn
B (n)

B (1)
(2)
B 

= det 
 ...  ·

B (n)
!
X
signo(σ) · a1σ(1) · a2σ(2) · . . . · anσ(n)
σ∈Sn
= det(B) · det(A).
Corolario. Si A es una matriz invertible de Mn (K) , entonces
det(A−1 ) = (det A)−1 =
det A 6= 0
y
1
det A .
Demostración. Si A es una matriz invertible y A−1 es su matriz inversa, entonces A · A−1 = In , y por
el teorema anterior,
1 = det In = det(A · A−1 ) = det A · det(A−1 ),
de donde det A es distinto de cero y det(A−1 ) = (det A)−1 .
Teorema. Sea A una matriz cuadrada de orden n de elementos de K . Los enunciados siguientes son
equivalentes:
(a) det A 6= 0,
(b) rango A = n .
Demostración. (b) ⇒ (a): Si A es una matriz cuadrada de orden n que tiene rango n , entonces A es
invertible, y por el corolario anterior, su determinante es distinto de cero.
(a) ⇒ (b): Supongamos que el rango de A es estrictamente menor que n . Esto quiere decir que
las n filas de A son linealmente dependientes como n -vectores fila de M1×n (K) , y alguna de las filas
es combinación lineal de las restantes. Supongamos que la fila i -ésima A(i) es combinación lineal de las
restantes: Hay escalares λ1 , . . . , λi−1 , λi+1 , . . . , λn en K , tales que
A(i) = λ1 A(1) + · · · + λi−1 A(i−1) + λi+1 A(i+1) + · · · + λn A(n) .
170
Álgebra lineal
Como la aplicación A 7−→ det A es lineal en cada fila,

 (1)  
A(1)
A
..

 ..  
.

 .  

 (i−1)  
(i−1)
A

 
A
 (i)  
(1)
(i−1)
(i+1)
(n) 
+ λi+1 A
+ · · · + λn A 
det A = det  A
 =  λ1 A + · · · + λi−1 A

 (i+1)  
A(i+1)

 
A

 .  
.
..

 ..  
(n)
(n)
A
A
 (1) 
 (1) 
 (1) 
 (1) 
A
A
A
A
 .. 
 .. 
 .. 
 .. 
 . 
 . 
 . 
 . 
 (i−1) 
 (i−1) 
 (i−1) 
 (i−1) 

A

A

A

A


 (i+1) 
 (i−1) 
 (1) 
= λ1 det  A
 + · · · + λn det  A(n) 
 + λi+1 det  A
 + · · · + λi−1 det  A
 (i+1) 
 (i+1) 
 (i+1) 
 (i+1) 

A

A

A

A
 . 
 . 
 . 
 . 
 .. 
 .. 
 .. 
 .. 
A(n)
A(n)
A(n)
A(n)
= λ1 · 0 + · · · + λi−1 · 0 + λi+1 · 0 + · · · + λn · 0
= 0,
porque cada una de las n − 1 matrices anteriores tiene dos filas iguales y su determinante es cero. Por
lo tanto, det A = 0.
Se dice que una matriz cuadrada A de elementos de K es singular si su determinante det A es cero.
Una matriz cuadrada es no singular (o también, regular ) si no es singular, esto es, si su determinante
es distinto de cero. Entonces
Corolario. Para cada matriz cuadrada A de Mn (K) , las condiciones siguientes son equivalentes:
(a) A es una matriz no singular, esto es, det A 6= 0 ;
(b) el rango de A es n ;
(c) A es invertible;
(d) A es un producto de matrices elementales de orden n ;
(e) los n n -vectores fila de la matriz A forman una base de M1×n (K), y
(f) los n n -vectores columna de la matriz A forman una base de Mn×1 (K).
Sea A una matriz de tamaño m × n de elementos de K . Se llama menor de la matriz A al
determinante de cada submatriz cuadrada de A . El orden de un menor de A es el orden de la submatriz
cuadrada de A cuyo determinante es el menor.
Corolario. Sea A una matriz de Mm×n (K) . El rango de A coincide con el máximo de los órdenes de
sus menores no nulos.
Demostración. Sabemos que el rango de A es el máximo de los órdenes de las submatrices cuadradas invertibles de A , y que un menor de una matriz es no nulo si y sólo si la submatriz cuadrada correspondiente
es invertible.
Otro método de cálculo del rango de una matriz
El corolario anterior también se puede formular del modo siguiente:
Corolario. Para cada matriz A de Mm×n (K) y cada número natural r , los enunciados siguientes son
equivalentes:
(a) El rango de A es r ,
(b) la matriz A tiene un menor de orden r no nulo y todos los menores de orden k > r de A
son iguales a cero.
171
Rangos y determinantes
Este resultado se puede utilizar para calcular el rango de una matriz:
Supongamos que A no es la matriz cero 0m×n . Su rango es, por lo menos, 1 . Si todos los menores
de orden 2 de A son iguales a cero, entonces el rango de A es 1. Si hay un menor de orden 2 de A
no nulo, el rango de A es > 2 , y pasamos a los menores de orden 3 . Si todos los menores de A de
orden 3 son iguales a cero, entonces rango A = 3 . Si hay un menor de orden 3 de A no nulo, entonces
rango A > 3 , y pasamos a los menores de orden 4 . Etc. *
Si hay un menor no nulo de orden r y todos los menores de orden r + 1 son nulos (o si r =
min{m, n} ), entonces llegamos a la conclusión de que rango A = r. Porque si todos los menores de orden
r + 1 son nulos, esto mismo ocurre con todos los menores de orden mayor que r + 1 : si k > r + 1
es un menor no nulo de A , sus k filas son linealmente independientes como k -vectores fila, y r + 1
cualesquiera de ellas también lo son. Luego hay submatrices cuadradas de A de orden r + 1 con sus
r + 1 filas linealmente independientes, y por tanto, son de rango r + 1 , y de determinante distinto de
cero.
Seguir ese método puede ser muy largo y poco eficiente. Por ejemplo, si se ha obtenido un menor no
nulo de A de orden r y se quiere comprobar que todos los menores de orden r + 1 son nulos.
Ejemplo.
(1) Queremos calcular el rango de la matriz

−6
 −5

A =  7

2
3
El menor de orden 2
det A(12|12) =
El menor de orden 3
−6
−5
7
4 −1
2 1
2 1
−6
−5
4
2
−6
det A(123|123) = −5
7
4 8 −1
2 4 1
2 4 1
4 8 −7
2 4 −5

6
3

3.

6
3
= 8 es distinto de cero, luego rango A > 2.
4 8
2 4 = 0. El menor de orden 3
2 4
det A(123|124) =
= 72 6= 0, luego el rango de A es > 3.
Ahora se trata de hallar un menor de orden 4 no nulo. Hay 5 · 5 = 25 menores de orden 4, y
calcular los determinantes de 25 matrices de orden 4 hasta hallar uno distinto de cero es un trabajo
largo.
Pero hay una simplificación notable: El cálculo del rango de A se acorta notablemente si se tiene en
cuenta el principio de los menores aumentados u orlados, que es el contenido de la siguiente proposición.
Pero antes, la definición:
Sea A una matriz de tamaño m × n de elementos de K y sea B una submatriz cuadrada de A
de orden r. Cada una de las matrices cuadradas de orden r + 1 que resultan al añadir a B una de las
m − r filas y una de las n − r columnas de A que no son las de B se dice que se ha obtenido orlando
o aumentando la submatriz A y también que orla la submatriz B. El determinante de cada una de las
matrices de orden r + 1 que orlan una submatriz B de orden r de A se dice que es un menor orlado
o aumentado del menor det B de la matriz A.
Por ejemplo, en la matriz A del ejemplo anterior, los menores que orlan el menor
det A(123|124) =
−6
−5
7
4 −1
2 1
2 1
* Tres preguntas de combinatoria finita:
(1) En una matriz cuadrada de orden n , tomamos k filas. ¿Cuántas submatrices cuadradas de orden k de A están
contenidas en las k filas tomadas?
(2) Una matriz cuadrada de orden n , ¿cuántas submatrices cuadradas de orden k tiene?
(3) ¿Cuántas submatrices cuadradas de orden k (y, por tanto, cuántos menores de orden k ) tiene una matriz de
tamaño m × n ?
172
Álgebra lineal
son
−6
−5
7
2
4 −1
2 1
2 1
4 −7
8
4
,
4
8
−6
−5
7
2
4 −1
2 1
2 1
4 −7
6
3
,
3
6
−6
−5
7
3
4 −1
2 1
2 1
2 −5
8
4
4
4
−6
−5
7
3
y
4 −1 6
2 1 3
.
2 1 3
2 −5 3
Proposición. Sea A una matriz de Mm×n (K). Los enunciados siguientes son equivalentes:
(a) rango A = r, y
(b) la matriz A tiene un menor det B de orden r no nulo tal que todos los menores de A de
orden r + 1 que orlan el menor det B son nulos.
Demostración. (a) ⇒ (b): Supongamos que A tiene rango r. La matriz A tiene r filas que, como n vectores fila de M1×n (K), son linealmente independientes. Supongamos que las filas A(i1 ) , A(i2 ) , . . . , A(ir )
son linealmente independientes. Entonces la submatriz C = A(i1 i2 . . . ir | 1 2 . . . n) tiene rango
r . En la matriz C tiene que haber r columnas que, como r -vectores columna de Mr×1 (K), son
linealmente independientes, porque el rango por filas es igual al rango por columnas. Supongamos que
son C(j1 ) , C(j2 ) , . . . , C(jr ) . Entonces la submatriz B = A(i1 i2 . . . ir | j1 j2 . . . jr ) de A es cuadrada
de orden r, tiene rango r y su determinante es distinto de cero. Por tanto A tiene un menor de orden
r no nulo. Cualquier submatriz cuadrada de A de orden r + 1 tiene determinante nulo, y por tanto el
determinante de cualquiera de las matrices de orden r + 1 que orlan la matriz B es nulo.
(b) ⇒ (a): Por la hipótesis de det B 6= 0 , el rango de B es r y las r columnas de B son
r -vectores columna linealmente independientes. Por tanto, los m -vectores columna A(j1 ) , . . . , A(jr ) de
A que contienen a los r -vectores columna de B , son linealmente independientes y el rango de A es
> r. Tomamos ahora un m -vector columna de la matriz A distinto de los r anteriores. Este m -vector
columna tiene que ser una combinación lineal de los m -vectores columna A(j1 ) , . . . , A(jr ) : si no lo fuera,
podrı́amos formar una matriz cuadrada de orden r + 1 que orla la submatriz B, con r + 1 columnas
linealmente independientes, rango r + 1 y con su determinante distinto de cero, contra la hipótesis. Por
tanto, el máximo número de m -vectores columna de A linealmente independientes es r , y el rango de
A es r .
Ejemplos.
1
2
(1) Hallar el rango de la matriz 
0
1
es distinto de cero y los menores de orden

1
2
0
2
3
−1
0
−1 ,
−1
1
2
0

2
0 −1
3 −1 1 
 . El menor de orden 2
−1 −1 3
1 −1 2
3 que orlan a ese menor son cuatro:
2
3
−1
−1
1 ,
3
1
2
1
2
3
1
0
−1 ,
−1
y
1
2
1
2
3
1
1
2
2
= 3 − 4 = −1
3
−1
1
2
y son los cuatro nulos. Por tanto la matriz dada tiene rango 2.
(2) En el penúltimo ejemplo ocurre que los cuatro menores de orden 4 que orlan el menor no nulo
det B de orden 3 de la matriz A son nulos los cuatro, luego rango A = 3.
Para calcular el determinante de una matriz cuadrada
Sea A = (aij )n una matriz cuadrada de orden n de elementos de K . Para i, j = 1, . . . , n , sea
A(1 . . . bi . . . n | 1 . . . b
j . . . n)
la submatriz cuadrada de A de orden n − 1 que se obtiene al quitar en A la fila i -ésima A(i) y la
columna j -ésima A(j) .




1 −1 0
4
6 −2 0
3 −2 0 
 6
Por ejemplo, si A = 
1234|1b
2 3 4) =  9
1 −1  .
 , entonces A(b
9
0
1 −1
−7 0
0
−7 4
0
0
173
Rangos y determinantes
Se llama adjunto (o también cofactor ) del elemento aij de la matriz cuadrada A al escalar
Aij = (−1)i+j det A(1 . . . bi . . . n | 1 . . . b
j . . . n).
En el ejemplo anterior, el adjunto de a12 es A12 = (−1)1+2
1
6
−7
adjunto del elemento a32 es A32 = (−1)3+2
0
−2
0
6
9
−7
−2
1
0
0
−1 = (−1) · (−14) = 14, y el
0
4
0 = (−1) · (−56) = 56.
0
Proposición. (Desarrollo de un determinante por los elementos de una fila y por los elementos de una
columna.) Sea A = (aij )n una matriz cuadrada de orden n de elementos de K . Para cada i = 1, . . . , n ,
se tiene
det A = ai1 Ai1 + ai2 Ai2 + · · · + ain Ain ;
y para cada j = 1, . . . , n , se tiene
det A = a1j A1j + a2j A2j + · · · + anj Anj .
Demostración. Primero, el desarrollo por la fila i -ésima. Aplicando n veces el hecho de que el determinante es lineal en cada fila, el determinante det A de A es
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.
ai1
..
.
ai2
..
.
ain
..
.
an1
an2
···
..
.
···
= ai1
=
ann
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.
ai1
..
.
0
..
.
0
..
.
an1
an2
···
..
.
···
a1n
a2n
..
.
0
..
.
···
···
..
.
···
..
.
an2
···
ann
a11
a21
..
.
a12
a22
..
.
1
..
.
an1
0
..
.
+ ai2
+
ann
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.
0
..
.
ai2
..
.
0
..
.
an1
an2
···
..
.
···
a1n
a2n
..
.
1
..
.
···
···
..
.
···
..
.
an2
···
ann
a11
a21
..
.
a12
a22
..
.
0
..
.
an1
+ ··· +
ann
+ · · · + ain
0
..
.
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.
0
..
.
0
..
.
ain
..
.
an1
an2
···
..
.
···
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.
0
..
.
0
..
.
1
..
.
an1
an2
···
..
.
···
ann
ann
En cada una de las n matrices anteriores, por medio de i − 1 intercambios de filas adyacentes,
ponemos cada fila i -ésima como primera fila, quedando la primera fila de A como segunda fila de la
matriz resultante, la segunda fila de A como tercera fila de la matriz resultante, . . . , y la fila (i − 1) ésima de A como fila i -ésima de la matriz resultante. Al haber (i − 1) intercambios de filas, hay (i − 1)
cambios de signo, y resulta
= ai1 (−1)(i−1)
1
a11
..
.
0
a12
..
.
···
···
..
.
0
a1n
..
.
ai−1,1
..
.
ai−1,2
..
.
ai−1,n
..
.
an1
an2
···
..
.
···
+ ai2 (−1)(i−1)
0
a11
..
.
1
a12
..
.
···
···
..
.
0
a1n
..
.
ai−1,1
..
.
ai−1,2
..
.
ai−1n
..
.
an1
an2
···
..
.
···
ann
· · · + ain (−1)(i−1)
0
a11
..
.
0
a12
..
.
···
···
..
.
1
a1n
..
.
ai−1,1
..
.
ai−1,2
..
.
ai−1,n
..
.
an1
an2
···
..
.
···
ann
ann
+ ···
174
Álgebra lineal
Después, en cada una de estas n matrices, si la única columna que comienza con 1 es la columna
j -ésima, por medio de (j − 1) intercambios de columnas adyacentes, logramos una matriz en la que el
único elemento no nulo de la primera fila sea el primero, y sea 1 . Al haber (j − 1) intercambios de
columnas, hay (j − 1) cambios adicionales de signo, y resulta
= ai1 (−1)(i−1)+(1−1)
1
a11
..
.
0
a12
..
.
···
···
..
.
0
a1n
..
.
ai−1,1
..
.
ai−1,2
..
.
ai−1,n
..
.
an1
an2
···
..
.
···
+ ai2 (−1)(i−1)+(2−1)
ann
· · · + ain (−1)(i−1)+(j−1)
1
a21
..
.
0
a11
..
.
···
···
..
.
0
a1n
..
.
ai−1,2
..
.
ai−1,1
..
.
ai−1,n
..
.
an2
an1
···
..
.
···
1
a1n
..
.
0
a11
..
.
···
···
..
.
0
a1,n−1
..
.
ai−1,n
..
.
ai−1,1
..
.
ai−1,n−1
..
.
ann
an1
···
..
.
···
+ ···
ann
.
an,n−1
Ahora vamos a calcular el determinante de cada una de las n matrices anteriores. Para esto hallamos
el determinante de una matriz B = (bij )n de orden n de la forma


1
0 ··· 0
1
0 ··· 0
b22 · · · b2n
b21 b22 · · · b2n
 b21 b22 · · · b2n 
.
..
..
B=
y demostramos que det B = ..
..
.. 
..
.. = ..
.
..
..
. .
 ...
.
.
.
. 
.
.
.
bn2 · · · bnn
bn1 bn2 · · · bnn
bn1 bn2 · · · bnn
Por la definición del determinante,
det B =
X
signo(σ)b1σ(1) b2σ(2) · · · bnσ(n) .
σ∈Sn
En esa suma son nulos todos los sumandos que tienen como primer factor b1j con j = 2, . . . , n , porque
todos estos b1j son nulos. Queda
X
det B =
signo(σ)b2σ(2) · · · bnσ(n) .
σ∈Sn
Sea Tn−1 el conjunto de las permutaciones de {2, 3, . . . , n} . A cada permutación σ de Sn tal que
σ(1) = 1 , le corresponde de manera única la permutación τ de Tn−1 definida por τ (k) = σ(k) , para
cada k = 2, . . . , n . Esta correspondencia entre las permutaciones σ de Sn tales que σ(1) = 1 y las
permutaciones de Tn−1 es biyectiva. Entonces
X
det B =
signo(τ )b2τ (2) · · · bnτ (n) ,
τ ∈Tn−1
y en esa suma no hay ningún sumando que tenga factores ni de la primera fila ni de la primera columna
de la matriz B . Por tanto, todos los sumandos de la suma anterior son los sumandos del determinante
de la submatriz B(b
1 2 ... n | b
1 2 . . . n) , es decir,
det B =
b22
..
.
bn2
···
..
.
···
b2n
..
. .
bnn
Con este resultado, volvemos al cálculo del determinante de la matriz original A y obtenemos
a12
..
.
det A = ai1 (−1)(i−1)+(1−1) ai−1,2
..
.
an2
···
..
.
···
..
.
···
a1n
..
.
a11
..
.
ai−1,n + ai2 (−1)(i−1)+(2−1) ai−1,1
..
..
.
.
an1
ann
···
..
.
···
..
.
···
a1n
..
.
ai−1,n + · · ·
..
.
ann
175
Rangos y determinantes
a11
..
.
· · · + ain (−1)(i−1)+(j−1) ai−1,1
..
.
an1
y
···
..
.
···
..
.
a1,n−1
..
.
ai−1,n−1 .
..
.
···
an,n−1
det A = ai1 (−1)(i+1) det A(12 . . . bi . . . n | b
12 . . . n)+
+ ai2 (−1)(i+2) det A(12 . . . bi . . . n|1b
2 . . . n) + · · ·
· · · + ain (−1)(i+j) det A(12 . . . bi . . . n|12 . . . n
b)
= ai1 Ai1 + ai2 Ai2 + · · · + ain Ain .
Para demostrar la fórmula del desarrollo del determinante por una columna nos basamos en la
fórmula del desarrollo por filas que acabamos de demostrar, en que det A = det At y que la columna
j -ésima de A es la fila j -ésima de At : si j = 1, . . . , n ,
det A = det At = a1j A1j + a2j A2j + · · · + anj Anj .
A la hora de utilizar estos resultados para calcular el determinante de una matriz cuadrada A , lo
natural es hacer el desarrollo del determinante por la lı́nea (fila o columna) que tenga más ceros. Incluso
antes de utilizar estos resultados, se intenta transformar la matriz, por medio de la operación elemental
que consiste en sumar a una lı́nea un múltiplo escalar de otra, en una matriz con el mismo determinante
y con una lı́nea que tenga algunos ceros, para no tener que calcular n adjuntos.
Ejemplos.
3 −1 5 2
2
0 7 0
. Desarrollando por la segunda fila, que tiene dos
(1) Hallemos el determinante
−3 1 2 0
5 −4 1 2
ceros (también la cuarta columna tiene dos ceros), tenemos que el determinante es
2 · (−1)1+2 ·
−1
1
−4
5 2
2 0
1 2
−1
1
−4
3
+ 7 · (−1)2+3 · −3
5
2
0 = 2 · (−1) · 4 + 7 · (−1) · 14 = −106.
2
(2) La matriz
8
 7

 1

2
−1

10
9
−2
5
2
3
4
2
−4
6
1
1
1
−2
3

4
6 

3 

−6
9
no tiene ningún cero, pero sumando a la cuarta fila el doble de la tercera fila, se obtiene la matriz
8
 7

 1

4
−1

que tiene el mismo determinante que la
nante buscado es
10
9
(−1)4+1 · 4 ·
−2
2
10
9
−2
1
2

3 1 4
4 1 6

2 1 3

0 0 0
6 3 9
matriz de partida. Desarrollamos por la cuarta fila y el determi3 1 4
4 1 6
2 1 3
6 3 9
8
7
+ (−1)4+2 · 1 ·
1
−1
3 1 4
4 1 6
2 1 3
6 3 9
176
Álgebra lineal
Si en las dos matrices anteriores restamos a
queda
10 3
9 4
(−4) ·
−2 2
8 0
la cuarta fila tres veces la tercera, el determinante buscado
1 4
1 6
1 3
0 0
8
7
+ 1·
1
−4
3 1 4
4 1 6
2 1 3
0 0 0
y desarrollando los dos determinantes por la cuarta fila
3
(−4) · (−1)4+1 · 8 · 4
2
1
1
1
4
6
3
3
+ 1 · (−1)4+1 · (−4) 4
2
1
1
1
4
6 = 32 · (−1) + 4 · (−1) = −36.
3
Se llama matriz adjunta (o también matriz de los cofactores) de la matriz cuadrada A a la matriz
cuadrada de orden n que en la fila i -ésima y columna j -ésima tiene el adjunto (o cofactor) Aij del
elemento aij de la matriz A . Si adj A es la matriz adjunta de la matriz A , se tiene adj A = (Aij )n
de Mn (K) .
Corolario. Sea A = (aij )n una matriz cuadrada de orden n de elementos de K . Entonces
A · (adjA)t = (det A) · In .
Demostración. El producto A · (adjA)t es
a11
 a21
 .
 ..
a12
a22
..
.
···
···
..
.

a1n
A11
a2n   A21
· .
.. 
.   ..
A12
A22
..
.
···
···
..
.
an1
a2n
···
ann
An2
···

An1
t 
A1n
a11
A2n 
 a21
=
.. 
 ...
. 
Ann
an1
a12
a22
..
.
···
···
..
.

a1n
A11
a2n   A12
· .
.. 
.   ..
A21
A22
..
.
···
···
..
.

An1
An2 
,
.. 
. 
a2n
···
ann
A2n
···
Ann
A1n
y el elemento de la fila i -ésima y columna j -ésima de la matriz producto es
ai1 Aj1 + ai2 Aj2 + · · · + ain Ajn .
Veamos a qué es igual esta suma. Supongamos en primer lugar que i 6= j . En la matriz A reemplazamos
la fila j -ésima A(j) por la fila i -ésima A(i) y obtenemos la matriz


a11 a12 · · · a1j · · · a1n
 ..
..
..
.. 
..
..
 .
.
.
.
.
. 


 ai1 ai2 · · · aij · · · ain 



..
..
..  .
..
..
B =  ...

.
.
.
.
.


 ai1 ai2 · · · aij · · · ain 


 .
..
..
.. 
..
..
 ..
.
.
.
.
. 
an1 an2 · · · anj · · · ann
El determinante de esta matriz es cero, porque tiene dos filas iguales. Ahora hagamos el desarrollo del
determinante de esta matriz B por su fila j -ésima B (j) : téngase en cuenta que la fila j -ésima B (j) es
B (j) = ( bj1
bj2
···
bjj
···
bjn ) = ( ai1
ai2
···
aij
···
ain ) .
El adjunto del elemento bj1 = ai1 es precisamente el adjunto Aj1 del elemento aj1 en la matriz A . El
adjunto del elemento bj2 = ai2 es el adjunto Aj2 del elemento aj2 de la matriz A . Etc. Por lo tanto,
bj1 Bj1 + bj2 Bj2 + · · · + bjn Bjn = ai1 Aj1 + ai2 Aj2 + · · · + ain Ajn
y es el desarrollo del determinante de la matriz B por su fila j -ésima. Pero det B = 0 , y resulta
ai1 Aj1 + ai2 Aj2 + · · · + ain Ajn = 0 .
Supongamos ahora que i = j . Entonces ai1 Ai1 + ai2 Ai2 + · · · + ain Ain es el desarrollo del determinante de la matriz A por su fila i -ésima, y es, por tanto, det A .
177
Rangos y determinantes
Con todo esto resulta que el producto A · (adjA)t es la matriz diagonal


det A
0
···
0
 0
det A · · ·
0 
 .
= (det A) · In ,
..
.. 
..
 ..
.
.
. 
0
0
···
det A
como querı́amos demostrar.
Inciso: Otro método de cálculo de la matriz inversa
Como consecuencia de este corolario tenemos una fórmula para la matriz inversa de una matriz invertible,
fórmula que, a veces, es útil.
Corolario. Si A es una matriz de orden n invertible, entonces
1
(adjA)t .
det A
A−1 =
Demostración. Si A es una matriz invertible, sabemos que det A 6= 0 , y podemos multiplicar en los dos
lados de la igualdad del corolario anterior por la matriz A−1 :
A−1 · A · (adj A)t = In · (adj A)t = (adj A)t = (det A) · A−1 · In = (det A) · A−1
y ahora multiplicar también en los dos lados de esta igualdad por el escalar
1
, y queda
det A
1
1
· (adj A)t =
· det A · A−1 = A−1 ,
det A
det A
como querı́amos demostrar.
Ejemplos.
a
c
b
d
una matriz invertible de orden 2 : det A = ad − bc 6= 0 . Entonces la matriz
d −c
adjunta de la matriz A es adj A =
y la matriz inversa A−1 de A es
−b a
1
1
d −b
A−1 =
(adj A)t =
·
.
−c a
det A
ad − bc
(a) Sea A =


3 1 2
(b) Sea ahora A la matriz  1 2 1  .
1 1 1
adjunta de A es

1+1 2 1
(−1)1+2
 (−1)
1 1



2+1 1 2
adj A = 
(−1)2+2
 (−1)
1 1



1 2
(−1)3+1
(−1)3+2
2 1
Como det A = 1 , la matriz A es invertible. La matriz
1
1
1
1
(−1)
1+3
3
1
2
1
(−1)2+3
3
1
2
1
(−1)3+3

2
1 



1

3 1 
 1
=
1 1 

−3


3 1
1 2
1
1
0
1
−1

−1
−2 
5
y la matriz inversa A−1 de A es
A−1

1
1
1
 0
· (adj A)t =
=
det A
1
−1


1 −3
1
1 −1  =  0
−2 5
−1
1
1
−2

−3
−1  .
5
(3) Si se aplica este método para hallar la matriz inversa de una matriz invertible de orden 4, hay
que calcular 16 determinantes de orden 3 y un determinante de orden 4. Para matrices invertibles de
orden 5, son 25 determinantes de orden 4 y un determinante de orden 5.
178
Álgebra lineal
Sea A una matriz de Mn (K). Sea B = A(i1 . . . ik | j1 . . . jk ) una submatriz cuadrada de la matriz
A de orden k . Se llama menor complementario de B ( o del menor det B de A ) al escalar producto
de (−1)i1 +···+ik +j1 +···+jk y del determinante de la submatriz cuadrada de orden n − k de la matriz A
que resulta al quitar en A las filas A(i1 ) , . . . , A(ik ) y las columnas A(j1 ) , . . . , A(jk ) .

1
0 0 −1
3 4 7 
 2
Por ejemplo, en la matriz A = 
 , el menor complementario de la submatriz
−3 4 5 9
−4 −5 6 1
0 −1
2 4
= (−1) · (−5) = 5.
A(2 3 | 1 3) =
es
(−1)(2+3+1+3) det A(1 4 | 2 4) = (−1)
−5 1
−3 5

En el caso k = 1 , el menor complementario de B = A(i1 | j1 ) = (ai1 j1 ) , que tiene orden 1 , es el
adjunto de elemento ai1 j1 de la matriz A .
El teorema siguiente es una generalización del teorema sobre el desarrollo del determinante de una
matriz por los elementos de una fila o de una columna.
Teorema. (Laplace) Sea A una matriz cuadrada de orden n de elementos de K . Sean A(i1 ) , . . . , A(ik )
(respectivamente, A(j1 ) , . . . , A(jk ) ) k filas (resp., columnas) de la matriz A . Entonces det A es igual
a la suma de los productos de cada menor de orden k de las k filas (resp., columnas) tomadas por su
menor complementario correspondiente.
Demostración.
Ejemplos.
(1) Hallemos el determinante de la matriz
2
1

7
A=
1

9
4

−3
0
4
0
−4
0
7
3
9
−1
11
1
1
0
−1
0
1
0
9
−4
11
1
13
−1

11
0 

−5 
.
0 

2
0
Tomamos las filas segunda, cuarta y sexta. Con estas tres filas se puede formar una sola submatriz
de orden 3 de A que no tenga ninguna columna nula, a saber A(2 4 6 | 1 3 5) =
 cuadrada 
1 3 −4
 1 −1 1  . Su menor complementario es (−1)(2+4+6+1+3+5) · det A(1 3 5 | 2 4 6) = (−1) ·
4 1 −1
−3 1
11
1 3 −4
−3 1
11
4 −1 −5 . Entonces det A = 1 −1 1 · (−1) · 4 −1 −5 . = (−5) · (−1) · 3 = 15.
−4 1
2
4 1 −1
−4 1
2
(2) Ya hemos hallado más arriba el determinante de la matriz
8
 7

 1

2
−1

10
9
−2
5
2
3
4
2
−4
6
1
1
1
−2
3

4
6 

3 

−6
9
desarrollando por una fila. Pero si a la cuarta fila le sumamos el doble de la tercera y a la quinta fila le
restamos el triple de la tercera, obtenemos la matriz
8
 7

 1

4
−4

10
9
−2
1
8

3 1 4
4 1 6

2 1 3

0 0 0
0 0 0
Falta la demostración.
179
Rangos y determinantes
cuyo determinante, que es el mismo que la matriz de partida, se calcula tomando las filas cuarta y quinta.
Sólo se puede formar una submatriz de orden 2 con esas dos filas que no tenga ninguna columna nula:
8
7
1
2
−1
10
9
−2
5
2
3
4
2
−4
6
1
1
1
−2
3
4
6
3
−6
9
=
3
1
· (−1)4+5+1+2 · 4
8
2
4
−4
1
1
1
4
6
3
= 36 · 1 · (−1) = −36.
Corolario. Sea A una matriz de Mn (K) de la forma
A=
B
0
C
D
donde B y D son matrices cuadradas de órdenes k y n − k , respectivamente, C es una matriz
k × (n − k) y 0 es la matriz cero de tamaño (n − k) × k . Entonces det A = det B · det D.
Demostración. Aplicar el teorema de Laplace para las k primeras filas de la matriz A .
Finalmente, observemos que las propiedades (1), (2) y (3) de las propiedades básicas de los determinantes caracterizan unı́vocamente el determinante:
Teorema. Sea D : Mn (K) −−→ K una aplicación con las propiedades siguientes para cada matriz A de
Mn (K) :
(a) D es lineal en cada fila: para cada i = 1, . . . , n , si la fila i -ésima A(i) de A es una combinación
lineal de dos n -vectores fila C y F de M1×n : A(i) = λC + µF , con λ, µ ∈ K , entonces


A(1)
A(1)
.
..
 .. 

.



A 
 λC + µF
D(A) = D  (i)  = D 
 . 

..
 .. 

.
A(n)
A(n)




A(1)
A(1)
 .. 

 .. 
 . 

 . 





 = λD  C  + µD  F  ;
 . 

 . 
 .. 

 .. 
A(n)
A(n)


(b) D es alternada: para cada i, j = 1, . . . , n ,



A(1)
A(1)
 .. 
 .. 
 . 
 . 




 A(i) 
 A(j) 








D  ...  = −D  ...  ,




A 
A 
 (j) 
 (i) 
 . 
 . 
 .. 
 .. 
A(n)
A(n)

y
(c) D (In ) = 1.
Entonces para cada matriz A ∈ Mn (K) ,
D(A) = det A.
y D es la aplicación
det : Mn (K) −−→ K.
Demostración. Sean E1 = ( 1 0 · · · 0 ) , E2 = ( 0 1 0 · · · 0 ) , . . . , En = ( 0 0 · · · 0 1 )
,
n -vectores fila de M1×n (K) . La fila i -ésima A(i) = ( ai1 ai2 · · · ain ) de cada matriz A de
M1×n (K) es combinación lineal de esos n -vectores fila E1 , E2 , . . . , En :
A(i) = ( ai1
ai2
···
ain ) = ai1 E1 + ai2 E2 + · · · + ain En .
180
Álgebra lineal
Entonces, para cada matriz A = (aij ) de M1×n (K) , por la linealidad de D en cada fila
 
a11 E1 + a12 E2 + · · · + a1n En
A(1)
(2)
a
 A   21 E1 + a22 E2 + · · · + a2n En
 
D(A) = D 
..
 ...  = 
.

A(n)




an1 E1 + an2 E2 + · · · + ann En

Ei1
 a21 E1 + a22 E2 + · · · + a2n En 

·D
..


.

=
n
X
a1i1
i1 =1
an1 E1 + an2 E2 + · · · + ann En

=
n
X


· ai2 · D 


a1i1
i1 ,i2 =1
Ei1
Ei2
a31 E1 + a32 E2 + · · · + a3n En
..
.






an1 E1 + an2 E2 + · · · + ann En
=
......
E 
i1
n
X
=
a1ii · a2i2 · . . . · anin
i1 ,i2 ,...,in =1
 E i2 

·D
 ..  .
.
Ein
La suma anterior tiene nn sumandos. Pero un buen número de ellos son nulos: el último factor de cada
uno de los sumandos es el valor que la aplicación D toma en una matriz, cuyas filas están entre los n
vectores fila E1 , E2 , . . . , En . Si esa matriz tiene dos filas iguales, entonces por ser D alternada, el valor
que D toma en esa matriz es cero. (La demostración es igual a la demostración de la propiedad (4) de
los determinantes.) Ası́ que nos quedamos con las matrices cuyas n filas son todos los n -vectores fila
E1 , E2 , . . . , En o, de otro modo, las n filas son el resultado de una permutación de E1 , E2 , . . . , En . Ası́
que nos quedan n! sumandos, uno por cada permutación σ de Sn , y para cada σ ,




Eσ(1)
E1
 Eσ(2) 
 E2 



D  .  = (−1)i(σ) D 
 ...  = signo(σ) · D(In ) = signo(σ) · 1 = signo(σ).
 .. 
En
Eσ(n)
Por tanto,
E 
i1
D(A) =
n
X
i1 ,i2 ,...,in =1
a1ii · a2i2 · . . . · anin
 Ei2 

·D
 .. 
.
Ein


Eσ(1)
 Eσ(2) 
X


=
a1σ(1) · a2σ(2) · . . . · anσ(n) · signo(σ) · D  . 
 .. 
σ∈Sn
Eσ(n)
=
X
signo(σ) · a1σ(1) · a2σ(2) · . . . · anσ(n)
σ∈Sn
que es la fórmula del determinante det A del comienzo: D(A) = det A , para cada A ∈ Mn (K) .
5. Sistemas de ecuaciones lineales
El más antiguo de los problemas que están en los orı́genes de lo que en la actualidad es el Álgebra lineal
es el problema de la solución de los sistemas de ecuaciones lineales. Ya hemos dado un criterio para la
compatibilidad de los sistemas y también un método para hallar las soluciones. Ahora regresamos a los
sistemas de ecuaciones lineales, pero contamos con la “maquinaria” de Álgebra lineal que hemos desarrollado en las páginas anteriores. Los resultados que se obtienen proporcionan mucha más información:
más criterios de compatibilidad, más métodos para hallar las soluciones y formas precisas de describir los
conjuntos de las soluciones de estos sistemas.
Sistemas de ecuaciones lineales
Sea K un cuerpo. Sean X1 , X2 , . . . , Xn n indeterminadas o incógnitas. Una ecuación lineal en las
indeterminadas X1 , X2 , . . . , Xn con coeficientes en K es una igualdad de la forma
(∗)
a1 X1 + a2 X2 + · · · + an Xn = b
donde a1 , a2 , . . . , an y b son elementos de K . Los elementos a1 , a2 , . . . , an de K son los coeficientes
de la ecuación (∗) , y b es el término independiente. La ecuación lineal
(∗)0
a1 X1 + a2 X2 + · · · + an Xn = 0
se dice que es una ecuación lineal homogénea, porque la expresión de la izquierda, vista como polinomio
en las indeterminadas X1 , X2 , . . . , Xn es una suma de monomios del mismo grado, de grado uno, y el
término independiente es igual a cero. Si en la ecuación (∗) , el término independiente b es distinto de
cero, el polinomio a1 X1 + a2 X2 + · · · + an Xn − b tiene monomios de grados uno y cero, y la ecuación
(∗) no es homogénea: se dice que la ecuación es no homogénea. La ecuación (∗)0 es la ecuación lineal
homogénea asociada a la ecuación (∗) .
Una solución de la ecuación lineal (∗) es una n -upla (x1 , x2 , . . . , xn ) de elementos de K , esto es,
un vector de Kn , tal que
a1 x1 + a2 x2 + · · · + an xn = b.
Toda ecuación lineal homogénea tiene, por lo menos, una solución: la llamada solución trivial : (0, 0, . . . , 0) .
Un sistema de m ecuaciones lineales en las
una colección

a11 X1 + a12 X2




 a21 X1 + a22 X2
(∗∗)





am1 X1 + am2 X2
incógnitas X1 , X2 , . . . , Xn con coeficientes en K , es
+ · · · + a1n Xn = b1
+ · · · + a2n Xn = b2
..
.
+ · · · + amn Xn = bm
formada por m > 1 ecuaciones lineales en las indeterminadas X1 , X2 , . . . , Xn . Los m · n elementos
aij , i = 1, . . . , m, j = 1, . . . , n son los coeficientes del sistema (∗∗) . Si los m términos independientes
b1 , b2 , . . . , bm son todos iguales a cero, se dice que el sistema (∗∗) es un sistema homogéneo de m
ecuaciones lineales. El sistema formado por las m ecuaciones lineales homogéneas asociadas a las m
ecuaciones del sistema (∗∗) , es decir,
(∗∗)0

a11 X1 + a12 X2 + · · · + a1n Xn = 0




 a21 X1 + a22 X2 + · · · + a2n Xn = 0
..


.



am1 X1 + am2 X2 + · · · + amn Xn = 0
se dice que es el sistema homogéneo asociado al sistema (∗∗) .
182
Álgebra lineal
Una solución del sistema (∗∗) es una n -upla (x1 , x2 , . . . , xn ) de Kn que es solución de cada una
de las m ecuaciones lineales del sistema (∗∗) . Todo sistema homogéneo de ecuaciones lineales tiene, por
lo menos, una solución: la solución trivial: (0, 0, . . . , 0).
El sistema (∗∗) también se puede expresar en la forma matricial

 


b1
X1
a11 a12 · · · a1n
 a21 a22 · · · a2n   X2   b2 
 . = . 
 .
..
.. 
..
 ..
.
.   ..   .. 
.
bm
Xn
am1 am2 · · · amn
aun cuando las X1 , X2 , . . . , Xn son letras, indeterminadas, incógnitas, y no elementos de K . La matriz


a11 a12 · · · a1n
 a21 a22 · · · a2n 
A=
..
.. 
..
 ...
.
.
. 
am1 am2 · · · amn
es la matriz de los coeficientes del sistema (∗∗), o también, la matriz del sistema: es una matriz de
tamaño m × n de elementos de K y pertenece a Mm×n (K). La matriz de tamaño m × (n + 1) de
elementos de K ,


a11 a12 · · · a1n b1
 a21 a22 · · · a2n b2 
 .
..
..
.. 
..
 ..
.
.
.
. 
am1
am2
···
amn
bm
es la matriz ampliada del sistema (∗∗) . A veces se indica por


a11 a12 · · · a1n b1
 a21 a22 · · · a2n b2 
 .
.
..
..
.. 
..
 ..
.
.
.
. 
am1 am2 · · · amn bm
Si A es la matriz de los coeficientes, la matriz (A b) , o también, (A | b) , es la matriz ampliada del
sistema. Cada sistema de m ecuaciones lineales en n incógnitas con coeficientes en K tiene su matriz
ampliada de Mm×(n+1) (K) . Recı́procamente, cada matriz de Mm×(n+1) (K) determina un sistema de
m ecuaciones lineales en n incógnitas con coeficientes en K que tiene a la matriz dada como matriz
ampliada.
Un sistema de ecuaciones lineales es compatible si tiene al menos una solución. Si el sistema no tiene
ninguna solución, se dice que el sistema es incompatible.
Indicamos con Sol(A, b) el conjunto de las soluciones del sistema de ecuaciones lineales que tiene
como matriz ampliada a (A | b) .
Con esta notación, decir que un sistema es incompatible equivale a decir que Sol(A, b) es el conjunto
vacı́o ∅ . Si un sistema de ecuaciones lineales es compatible y tiene una sola solución, se dice que el sistema
es determinado. Esto equivale a que Sol(A, b) tiene un solo elemento. Si el sistema es compatible y tiene
más de una solución, se dice que el sistema es indeterminado, lo que equivale a que Sol(A, b) tiene más
de un elemento.
Criterios de compatibilidad
Para un sistema de ecuaciones lineales concreto, lo primero que tenemos que saber es si el sistema es
compatible, o, lo que es lo mismo, si tiene solución. Para esto necesitamos criterios de compatibilidad que
sean sencillos y eficientes desde un punto de vista práctico. En la primera parte explicamos el método
de eliminación de Gauss, que incluye un criterio sencillo y eficiente, al menos para sistemas con pocas
ecuaciones e incógnitas: es el enunciado del teorema de la página 44.
Si sólo nos interesa saber si el sistema es compatible, el criterio que explicamos a continuación es el
más útil.
183
Sistemas de ecuaciones lineales
Supongamos un sistema de ecuaciones lineales como (∗∗) . Sea A ∈ Mm×n (K) la matriz de los
coeficientes del sistema.
El sistema (∗∗) es compatible si y sólo si existe (x1 , x2 , . . . , xn ) ∈ Kn tal que

a11 x1 + a12 x2 + · · · + a1n xn = b1




 a21 x1 + a22 x2 + · · · + a2n xn = b2
..


.



am1 x1 + am2 x2 + · · · + amn xn = bm
o lo que es lo mismo,

 
a11 x1 + a12 x2 + · · · + a1n xn
b1
 b2   a21 x1 + a22 x2 + · · · + a2n xn
 . =
..
 ..  
.
bm
a11
  a21
= .
  ..
a12
a22
..
.
···
···
..
.
am1
am2
···


am1 x1 + am2 x2 + · · · + amn xn
 
 
x1
x1
a1n
a2n   x2 
 x2 
 .  = A . .
.. 
 .. 
.   .. 
xn
xn
amn
Veamos esta expresión de otra forma. Sea fA : Kn −−→ Km la aplicación lineal de Kn en Km
definida por:
fA (x1 , x2 , . . . , xn ) = (a11 x1 + a12 x2 + · · · + a1n xn , . . . , am1 x1 + am2 x2 + · · · + amn xn ) ,
para cada (x1 , x2 , . . . , xn ) de Kn .
Bne
La aplicación fA es la aplicación lineal de Kn en Km cuya matriz respecto de las bases estándares
n
y Bm
y Km , respectivamente, es la matriz A del sistema:
e de K
MBne ,Bm
(fA ) = A.
e
Con todo esto, el sistema (∗∗) tiene solución si y sólo si
existe
(x1 , x2 , . . . , xn )
en Kn
tal que
fA (x1 , x2 , . . . , xn ) = (b1 , b2 , . . . , bm ).
A su vez esto equivale a que
el vector (b1 , b2 , . . . , bm )
pertenece al subespacio
im fA .
El subespacio im fA está generado por los n vectores

f (e1 ) = f (1, 0, 0, . . . , 0) = (a11 , a21 , . . . , am1 ),





 f (e2 ) = f (0, 1, 0, . . . , 0) = (a12 , a22 , . . . , am2 ),






..
.
f (en ) = f (0, 0, . . . , 0, 1) = (a1n , a2n , . . . , amn ),
imágenes de los n vectores e1 , e2 , . . . , en de la base estándar Bne de Kn , en sı́mbolos,
im fA = L[f (e1 ), f (e2 ), . . . , f (en )] = L [(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn )] .
Entonces el sistema (∗∗) tiene solución si y sólo si
el vector
(b1 , b2 , . . . , bm )
pertenece a
L [(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn )] .
De otro modo, el sistema (∗∗) es compatible si y sólo si
L [(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn )] =
= L [(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn ), (b1 , b2 , . . . , bm )] .
Como el primer subespacio está contenido en el segundo, esta última condición equivale a
dim L [(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn )] =
= dim L [(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn ), (b1 , b2 , . . . , bm )] ,
184
Álgebra lineal
es decir,
rango {(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn )} =
= rango {(a11 , a21 , . . . , am1 ), (a12 , a22 , . . . , am2 ), . . . , (a1n , a2n , . . . , amn ), (b1 , b2 , . . . , bm )} ,
y como estamos con las bases estándares en Kn y Km ,



a11 a12 · · · a1n

 a21 a22 · · · a2n 
= rango 
rango A = rango 
..
.. 
..

 ...

.
.
.
am1
am2
···
amn
esto a su vez es
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.

b1
b2 
= rango(A | b).
.. 
. 
am1
am2
···
amn
bm
Ası́ hemos llegado al siguiente criterio de compatibilidad de un sistema de ecuaciones lineales:
Teorema. (Rouché – Frobenius – Fontené – Kronecker – Capelli) Un sistema de m ecuaciones lineales
en n incógnitas con coeficientes en K como el sistema (∗∗) , tiene solución si y sólo si el rango de la
matriz A de los coeficientes y el rango de la matriz ampliada (A | b) del sistema coinciden:
rango A = rango(A | b).
Recordemos lo que dice el criterio que dimos en la primera parte: por medio de operaciones elementales en las filas, la matriz ampliada (A | b) del sistema se transforma en una matriz (A0 | b0 ) tal que
la matriz A0 es escalonada con exactamente r filas no nulas. El sistema original tiene solución si y sólo
si los m − r últimos miembros b0r+1 , . . . , b0m del vector columna b0 son nulos. En términos de rangos
de matrices, esta última condición equivale a que el rango de la matriz (A0 | b0 ) es r , igual al rango de
la matriz escalonada A0 . Y como el rango de una matriz no cambia por operaciones elementales en las
filas, esto equivale a que A y (A | b) tienen el mismo rango, que es la condición del teorema anterior.
Ejemplos
(1) El sistema


2X + 3Y



4X + 3Y

+Z
+Z
+ 2T = 4
+ T =5
5X + 11Y + 3Z + 2T = 2



2X + 5Y + Z + T = 1




X − 7Y − Z + 2T = 7
no tiene solución porque
2
4

rango  5

2
1

3
3
11
5
−7
1
1
3
1
−1

2
1

2 = 4

1
2
2
4

rango  5

2
1

y
3
3
11
5
−7
1
1
3
1
−1
2
1
2
1
2

4
5

2  = 5.

1
7
(2) El sistema


2X

6X

6X



4X
−Y
+Z
+ 2T + 3U = 2
− 3Y + 2Z + 4T + 5U = 3
− 3Y + 4Z + 8T + 13U = 9
− 2Y + Z
+
T + 2U = 1
es compatible, porque
2
6
rango 
6
4


−1 1 2 3
−3 2 4 5 
=3
−3 4 8 13
−2 1 1 2
2
6
rango 
6
4

y

−1 1 2 3 2
−3 2 4 5 3 
 = 3.
−3 4 8 13 9
−2 1 1 2 1
185
Sistemas de ecuaciones lineales
(3) El sistema

2X



4X

2X



X
+ 5Y − 8Z = 8
+ 3Y − 9Z = 9
+ 3Y − 5Z = 7
+ 8Y − 7Z= 12
también tiene solución:
2
4
rango 
2
1

5
3
3
8


2
−8
−9 
4
 = rango 
2
−5
1
−7
5
3
3
8

−8 8
−9 9 
 = 3.
−5 7
−7 12
El teorema anterior nos da un método para determinar si el sistema es compatible, basado en el
cálculo del rango de dos matrices. La eficiencia del método depende, por consiguiente, de la eficiencia de
los métodos de cálculo del rango de matrices. El teorema no da ningún método para, en el caso de ser
compatible el sistema, hallar una solución. Para esto es especialmente útil el método de eliminación de
Gauss. Más abajo damos, para un tipo especial de sistemas, un método distinto para hallar una solución.
Estructura del conjunto de las soluciones
Supongamos entonces que el sistema (∗∗) es compatible. El conjunto Sol(A, b) de soluciones del sistema
es un subconjunto no vacı́o del espacio vectorial Kn . Preguntas: ¿Cómo es ese conjunto Sol(A, b) de
soluciones del sistema? ¿Qué tipo de subconjunto de Kn es? ¿Tiene alguna forma especial?
Para contestar a estas preguntas miramos primero al sistema homogéneo asociado al sistema (∗∗) ,
esto es, al sistema

a11 X1 + a12 X2 + · · · + a1n Xn = 0




 a21 X1 + a22 X2 + · · · + a2n Xn = 0
(∗∗)0
..


.



am1 X1 + am2 X2 + · · · + amn Xn = 0
Sabemos que este sistema homogéneo tiene, por lo menos, la solución trivial (0, 0, . . . , 0) . (El teorema
también nos dice que el sistema tiene solución, porque es evidente que rango A = rango(A | 0). ) Entonces,
¿cómo es el conjunto Sol(A, 0) de soluciones del sistema homogéneo (∗∗)0 ?
Proposición. El conjunto Sol(A, 0) de las soluciones del sistema homogéneo (∗∗)0 asociado al sistema
(∗∗) es un subespacio vectorial de Kn de dimensión n − rango A .
Demostración. Que el conjunto de soluciones de un sistema de ecuaciones lineales homogéneas en n
indeterminadas es un subespacio vectorial de Kn fue uno de los primeros ejemplos de subespacio vectorial
que dimos en la segunda parte.
Si, como más arriba, fA es la aplicación lineal de Kn en Km cuya matriz respecto de las bases
estándares de Kn y Km es la matriz A del sistema, entonces
Sol(A, 0) = {(x1 , . . . , xn ) ∈ Kn | (x1 , . . . , xn )
= {(x1 , . . . , xn ) ∈ K
n
es una solución de (∗∗)0 }
| fA (x1 , . . . , xn ) = (0, . . . , 0)}
= ker fA
y por la fórmula de las dimensiones,
dim Sol(A, 0) = dim ker fA = dim Kn − dim im fA
= n − rango fA
= n − rango MBne ,Bm
(fA )
e
= n − rango A.
186
Álgebra lineal
Si A tiene rango n , entonces Sol(A, 0) tiene dimensión cero, y ha de ser Sol(A, 0) = {(0, 0, . . . , 0)} ,
con lo que el sistema sólo tiene la solución trivial (0, 0, . . . , 0) :
Corolario. Un sistema homogéneo de m ecuaciones lineales y n incógnitas con coeficientes en K , como
el sistema (∗∗)0 , tiene solución única (y por tanto es la solución trivial (x1 , x2 , . . . , xn ) = (0, 0, . . . , 0) )
si y sólo si el rango de la matriz A de los coeficientes es n :
rango A = n.
Ejemplos.
(a) El sistema homogéneo asociado al sistema del ejemplo (3) de más arriba

2X



4X

2X



X
+ 5Y − 8Z= 0
+ 3Y − 9Z= 0
+ 3Y − 5Z= 0
+ 8Y − 7Z= 0
sólo tiene la solución trivial (0, 0, 0) , porque el rango de la matriz A de los coeficientes del sistema es
3.
(b) También el sistema homogéneo asociado al sistema del ejemplo (1) tiene sólo la solución trivial
(0, 0, 0, 0) , porque el rango de la matriz del sistema es 4 .
(c) El sistema homogéneo asociado al sistema del ejemplo (2) de más arriba

2X



6X

6X



4X
−Y
+Z
+ 2T + 3U = 0
− 3Y + 2Z + 4T + 5U = 0
− 3Y + 4Z + 8T + 13U = 0
− 2Y + Z
+
T + 2U = 0
tiene como conjunto de soluciones un subespacio vectorial de K5 de dimensión 2 , porque
2
6
5 − rango 
6
4

−1
−3
−3
−2
1
2
4
1
2
4
8
1

3
5 
 = 5 − 3 = 2.
13
2
En concreto, es
{(t, s, −8t + 4s, 0, 2t − s) ∈ K5 | t, s ∈ K} = L[(1, 0, −8, 0, 2), (0, 1, 4, 0, −1)]
y es núcleo de la aplicación lineal f : K5 → K4 definida por:
f (x, y, z, t, u) = (2x − y + z + 2t + 3u, 6x − 3y + 2z + 4t + 5u, 6x − 3y + 4z + 8t + 13u, 4x − 2y + z + t + 2u)
para cada (x, y, z, t, u) de K5 .
Pasamos ahora a considerar el conjunto Sol(A, b) de soluciones del sistema (∗∗) . Como el sistema
tiene solución, el conjunto Sol(A, b) es un subconjunto no vacı́o de Kn . Sea (x1 , x2 , . . . , xn ) ∈ Kn una
solución cualquiera, pero fija, del sistema (∗∗) .
Sea (y1 , . . . , yn ) ∈ Kn una solución del sistema homogéneo (∗∗)0 asociado al sistema (∗∗) . Entonces
la suma
(x1 , . . . , xn ) + (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn )
187
Sistemas de ecuaciones lineales
también es solución del sistema (∗∗) : En efecto, para cada i = 1, . . . , m ,
ai1 (x1 + y1 ) + · · · + ain (xn + yn ) = (ai1 x1 + · · · + ain xn ) + (ai1 y1 + · · · + ain yn )
= bi + 0
= bi .
Además la diferencia de dos soluciones del sistema (∗∗) es una solución del sistema homogéneo (∗∗)0
asociado:
Si (z1 , . . . , zn ) y (z10 , . . . , zn0 ) son soluciones de (∗∗) , entonces
ai1 (z1 − z10 ) + · · · + ain (zn − zn0 ) = (ai1 z1 + · · · + ain zn ) − (ai1 z10 + · · · + ain zn0 )
= bi − bi
=0
y (z1 , . . . , zn )−(z10 , . . . , zn0 ) = (z1 −z10 , . . . , zn −zn0 ) es solución del sistema homogéneo (∗∗)0 , y pertenece
a Sol(A, 0) .
Con esto tenemos que cada solución (x01 , . . . , x0n ) del sistema (∗∗) se puede expresar como suma
de la solución particular (x1 , . . . , xn ) del mismo sistema y una solución (x1 , . . . , xn ) − (x01 , . . . , x0n ) del
sistema homogéneo (∗∗)0 asociado:
(x01 , . . . , x0n ) = (x1 , . . . , xn ) + (x01 − x1 , . . . , x0n − xn ).
Y cualquier n -upla que sea suma de una solución de (∗∗) y de una solución de (∗∗)0 es solución del
sistema (∗∗) . Tenemos
Proposición. Supongamos que el sistema (∗∗) es compatible. Entonces el conjunto Sol(A, b) de las
soluciones del sistema (∗∗) coincide con el conjunto de los elementos de Kn que resultan de sumar a
una solución particular de (∗∗) cada una de las soluciones del sistema homogéneo (∗∗)0 asociado al
sistema (∗∗) .
Podemos expresar esto en la forma siguiente: sea (x1 , . . . , xn ) una solución particular del sistema
(∗∗) , que existe porque hemos supuesto que el sistema (∗∗) es compatible. Entonces
Sol(A, b) = {(x1 , . . . , xn ) + (y1 , . . . , yn ) | (y1 , . . . , yn ) ∈ Sol(A, 0)}
= (x1 , . . . , xn ) + {(y1 , . . . , yn ) ∈ Kn | (y1 , . . . , yn ) ∈ Sol(A, 0)}
= (x1 , . . . , xn ) + Sol(A, 0)
= (x1 , . . . , xn ) + {(y1 , . . . , yn ) ∈ Kn | fA (y1 , . . . , yn ) = (0, . . . , 0)}
= (x1 , . . . , xn ) + ker fA ,
donde fA es la aplicación lineal de Kn en Km cuya matriz respecto de las bases estándares correspondientes es la matriz A de los coeficientes del sistema.
Ejemplos.
(i) En el sistema del ejemplo (3) de más arriba, el sistema tiene solución y el sistema homogéneo
asociado tiene solución única, luego el conjunto de soluciones tiene un solo elemento, y el sistema es
compatible determinado: la única solución del sistema es (3, 2, 1) .
(ii) Una solución particular del sistema del ejemplo (2) de más arriba es (0, 0, −1, 0, 1) , ası́ que el
conjunto de soluciones del sistema original es
(0, 0, −1, 0, 1) + {(t, s, −8t + 4s, 0, 2t − s) ∈ K5 | t, s ∈ K}
= (0, 0, −1, 0, 1) + L[(1, 0, −8, 0, 2), (0, 1, 4, 0, −1)]
= {(0, 0, −1, 0, 1) + (t, s, −8t + 4s, 0, 2t − s) ∈ K5 | t, s ∈ K}
= {(t, s, −1 − 8t + 4s, 0, 1 + 2t − s) ∈ K5 | t, s ∈ K},
188
Álgebra lineal
o, como escribı́amos en la primera parte, las soluciones del sistema son las quı́ntuplas (x, y, z, t, u) de K5
tales que

x=
t






y=
s


z = −1 − 8t + 4s




t= 0




u = 1 + 2t − s
donde t, s recorren K , o (t, s) pertenece a K2 .
Subespacios afines de un espacio vectorial
Se dice que un subconjunto S de un espacio vectorial V es un subespacio afı́n de V si hay un vector
v en V y un subespacio vectorial W de V tales que
S = v + W = {v + w | w ∈ W }
= {u ∈ V | existe un w ∈ W tal que u = v + w}.
Si S es el subespacio afı́n v +W de V , se dice que el subespacio vectorial W es el subespacio director o
la dirección del subespacio afı́n S . El vector v se dice que es un vector de traslación o de desplazamiento
de S . También se dice que S es el subespacio afı́n trasladado del subespacio vectorial W por el vector
de traslación v .
Por ejemplo, el conjunto Sol(A, b) de las soluciones de un sistema compatible de ecuaciones lineales
en n incógnitas con coeficientes en K es un subespacio afı́n de Kn . Su subespacio director o dirección
es el subespacio vectorial Sol(A, 0) formado por las soluciones del sistema homogéneo asociado.
Cada subespacio vectorial W de V es un subespacio afı́n de V , porque W = 0 + W .
¿Puede haber un subespacio afı́n con dos subespacios directores o direcciones distintas?
Proposición. Para cualesquiera vectores v1 y v2 de V , y subespacios vectoriales W1 y W2 de V ,
los enunciados siguientes son equivalentes:
(a) los subespacios afines v1 + W1 y v2 + W2 coinciden,
(b) W1 = W2 y el vector v1 − v2 pertenece a W1 = W2 .
Demostración. (a) ⇒ (b): Supongamos S = v1 + W1 = v2 + W2 . En primer lugar, v1 − v2 pertenece
a W2 , porque v1 = v1 + 0 pertenece a v2 + W2 y es v1 = v2 + w2 para cierto w2 de W2 . Pero
v1 − v2 = w2 y v1 − v2 ∈ W2 . Del mismo modo se demuestra que v1 − v2 pertenece a W1 .
Queda demostrar W1 = W2 : Sea w1 un vector de W1 . Entonces v1 + w1 pertenece a v1 + W1 =
v2 + W2 , luego v1 + w1 = v2 + w2 , para un cierto vector w2 de W2 , y w1 = v2 − v1 + w2 =
−(v1 − v2 ) + w2 pertenece a W2 , porque es suma de dos vectores de W2 . Un argumento simétrico
muestra que W2 ⊆ W1 .
(b) ⇒ (a): Demostramos que v1 + W1 ⊆ v2 + W2 . Sea v1 + w1 un elemento de v1 + W1 . También
lo es de v1 + W2 , porque W1 = W2 . Y es
v1 + w1 = (v1 − v2 ) + v2 + w1 = v2 + ((v1 − v2 ) + w1 ),
que pertenece a v2 + W2 , porque (v1 − v2 ) + w1 ∈ W2 , por la hipótesis y porque W2 es un subespacio
vectorial. La segunda inclusión v2 + W2 ⊆ v1 + W1 se demuestra de un modo análogo a la primera. Por esta proposición, dado un subespacio afı́n S de V , hay un subespacio vectorial W de V
único, tal que S = v + W , para un vector v de S : es el subespacio director o la dirección del subespacio
afı́n S .
Corolario. Si S = v + W es un subespacio afı́n de V , entonces para cualquier u ∈ S = v + W , se
tiene S = u + W = v + W .
189
Sistemas de ecuaciones lineales
Demostración. Sea u un elemento de S = v + W y sea u = v + w , para un w en W . Por un lado, los
subespacios afines u+W y S = v+W tienen la misma dirección W . Por otro, u−v = (v+w)−v = w ,
que pertenece a W . Por la proposición, S = u + W = v + W .
Por el corolario, como vector de traslación de un subespacio afı́n S se puede tomar cualquier elemento
de S , esto es, para cualesquiera v, u ∈ S, v + W = u + W = S.
Se llama dimensión de un subespacio afı́n S a la dimensión del subespacio director W de S .
La dimensión del subespacio afı́n Sol(A, b) , si el sistema es compatible, es n − rango A .
Las rectas afines de V son los subespacios afines de dimensión 1 de V . Los planos afines de V
son los subespacios afines de dimensión 2. Los hiperplanos afines de V son los subespacios afines de
dimensión dim V − 1 . Como sólo hay un subespacio vectorial de dimensión 0, el subespacio {0} , los
subespacios afines de dimensión 0 de V son los subconjuntos v + {0} = {v} de V , para cada v ∈ V .
Sea M el conjunto de los subespacios afines de V de dirección W :
M = {v + W | v ∈ V }.
En este conjunto definimos la adición de dos subespacios afines S1 = v1 + W y S2 = v2 + W por
S1 + S2 = (v1 + W ) + (v2 + W ) = (v1 + v2 ) + W ,
esto es, la suma de dos subespacios afines de dirección W es el subespacio trasladado del mismo subespacio vectorial W por el vector de traslación que es el vector suma de un vector de traslación del primer
subespacio y de otro del segundo subespacio.
Si en lugar de tomar en S1 el vector de traslación v1 tomamos otro vector v10 , y en lugar de tomar
en S2 el vector de desplazamiento v2 tomamos otro vector v20 , entonces (v1 +v2 )+W = (v10 +v20 )+W :
Por la proposición anterior, sólo tenemos que demostrar que (v1 + v2 ) − (v10 + v20 ) pertenece a W , pero
esto es bien fácil: como v1 y v10 son vectores de traslación de S1 , se tiene que v1 − v10 pertenece a W .
Y del mismo modo, v2 − v20 pertenece a W . Luego
(v1 − v10 ) + (v2 − v20 ) = (v1 + v2 ) − (v10 + v20 )
pertenece a la dirección W . Por tanto, la suma de S1 y S2 no depende de los vectores de desplazamiento
que tomemos en cada subespacio afı́n. Cuando esto ocurre, se dice que la operación de adición en M
está bien definida.
También definimos el producto del escalar λ de K por el subespacio afı́n S = v + W por:
λ(v + W ) = λv + W
esto es, el producto del escalar λ por un subespacio afı́n de dirección W es el subespacio trasladado del
mismo subespacio vectorial W por el vector de traslación que es el vector producto del escalar λ por
un vector de traslación del subespacio afı́n.
Si en lugar de tomar en S el vector de traslación v tomamos otro vector v 0 , entonces λv + W =
λv + W , porque λv − λv 0 = λ(v − v 0 ) pertenece a W , al ser v − v 0 un vector de W . Por tanto, el
producto de un escalar de K por un subespacio afı́n no depende del vector de traslación que tomemos en
el subespacio afı́n. Como con la adición, se dice que el producto por escalares en M está bien definido.
0
Proposición. Sea V un espacio vectorial sobre un cuerpo K y sea W un subespacio vectorial de V .
El conjunto M de los subespacios afines del espacio vectorial V que tienen como dirección el subespacio
W , con la adición y el producto por escalares de K que acabamos de definir, es un espacio vectorial
sobre K .
Demostración. Hay que comprobar las ocho condiciones de espacio vectorial.
(1) Asociativa: para cualesquiera v1 , v2 , v3 de V ,
(v1 + W ) + ((v2 + W ) + (v3 + W )) = ((v1 + W ) + (v2 + W )) + (v3 + W )
porque los dos son iguales a (v1 + v2 + v3 ) + W .
(2) Conmutativa: para cualesquiera v1 , v2 de V ,
(v1 + W ) + (v2 + W ) = (v2 + W ) + (v1 + W )
190
Álgebra lineal
porque los dos son iguales a (v1 + v2 ) + W .
(3) Existencia de elemento neutro: para cada v de V ,
(v + W ) + (W ) = v + W
y la propia dirección W de 0 + W es el elemento neutro.
(4) Existencia de elemento opuesto de cada elemento: para cada v de V ,
(v + W ) + ((−v) + W ) = 0 + W = W
y el vector opuesto de v + W es −(v + W ) = (−v + W ) .
(5) Para cualesquiera v1 , v2 de V y λ de K ,
λ((v1 + W ) + (v2 + W )) = λ(v1 + W ) + λ(v2 + W )
porque los dos son iguales a (λv1 + λv2 ) + W .
(6) Para cada v de V y cualesquiera λ y µ de K ,
(λ + µ)(v + W ) = λ(v + W ) + µ(v + W )
porque los dos son iguales a (λv + µv) + W .
(7) Para cada v de V y cualesquiera λ y µ de K ,
λ(µ(v + W )) = (λµ)(v + W )
porque los dos son iguales a λ(µv) + W .
(8) Para cada v de V , 1(v + W ) = (1v) + W = v + W .
El espacio vectorial M sobre K que acabamos de obtener se llama espacio vectorial cociente de V
por el subespacio vectorial W , y se indica por V /W . El vector cero 0V/W de este espacio vectorial
es el subespacio vectorial W de V .
La pregunta inmediata: ¿Cuál es la dimensión del espacio vectorial cociente V /W ? La proposición
siguiente responde a esta pregunta y, además, da un método para hallar una base del espacio cociente.
Proposición. Sea V un espacio vectorial de dimensión n > 1 sobre K , y sea W un subespacio
vectorial de V . Entonces
dim(V /W ) = dim V − dim W .
Demostración. Si W es el subespacio cero {0} , entonces V /W = V /{0} = {{v} | v ∈ V } , espacio
que se identifica con V . Si W no es el subespacio cero, sea {w1 , . . . , wk } una base de W . Hay n − k
vectores vk+1 , . . . , vn en V tales que B = {w1 , . . . , wk } ∪ {vk+1 , . . . , vn } es una base de V . Pues bien,
los subespacios afines trasladados del subespacio vectorial W por los n − k vectores vk+1 , . . . , vn que
hemos añadido a una base de W para obtener una base de V , forman una base del espacio cociente
V /W :
{vk+1 + W , . . . , vn + W }.
En primer lugar, son linealmente independientes: Sean λk+1 , . . . , λn escalares de K tales que
λk+1 (vk+1 + W ) + · · · + λn (vn + W ) = (λk+1 vk+1 + · · · + λn vn ) + W = 0V/W = W .
Entonces λk+1 vk+1 + · · · + λn vn pertenece a W , es combinación lineal de los vectores w1 , . . . , wk de
la base de W , y para ciertos escalares λ1 , . . . , λk ∈ K ,
λk+1 vk+1 + · · · + λn vn = λ1 w1 + · · · + λk wk .
Pero los vectores w1 , . . . , wk , vk+1 , . . . , vn son linealmente independientes y λk+1 = . . . = λn = 0.
191
Sistemas de ecuaciones lineales
Finalmente, vk+1 + W , . . . , vn + W generan el espacio cociente V /W . Sea v + W un vector de
V /W . Si λ1 , . . . , λn ∈ K son las coordenadas de v respecto de la base B ,
v + W = (λ1 w1 + · · · + λk wk + λk+1 vk+1 + · · · + λn vn ) + W
= ((λ1 w1 + · · · + λk wk ) + W ) + ((λk+1 vk+1 + · · · + λn vn ) + W )
= (λk+1 vk+1 + · · · + λn vn ) + W
= λk+1 (vk+1 + W ) + · · · + λn (vn + W ),
porque el subespacio afı́n (λ1 w1 + · · · + λk wk ) + W es el subespacio W , ya que (λ1 w1 + · · · + λk wk )
pertenece a W .
¿Alguna semejanza entre la demostración que acabamos de dar y la demostración de la existencia
de un subespacio suplementario de W en V que está en la página ?
Proposición. La aplicación p : V −−→ V /W definida por:
para cada v ∈ V ,
p(v) = v + W ,
y que en cada vector v de V toma como valor el subespacio afı́n v + W trasladado del subespacio W
por el vector v ,
(a) es una aplicación lineal de V en V /W ,
(b) su núcleo ker p es el subespacio director W , y
(c) es sobreyectiva.
Demostración. (a) Hay que demostrar que p(λv + µu) = λp(v) + µp(u) , esto es,
(λv + µu) + W = λ(v + W ) + µ(u + W ),
para cualesquiera vectores v y u de V y escalares λ y µ de K . En efecto,
p(λv + µu) = (λv + µu) + W
= ((λv) + W ) + ((µu) + W )
= λ(v + W ) + µ(u + W )
= λp(v) + µp(u).
(b) ker p = W : Si v es un vector de V tal que p(v) = v + W es el vector cero 0 del espacio
V /W , esto es, es v + W = 0V/W = W , entonces v debe ser un vector de W . Y para cada w de
W , w + W = W.
(c) Que la aplicación p es sobreyectiva es claro, porque los elementos de V /W son los subespacios
afines de dirección W de V , y cada uno de estos es el subespacio trasladado de W por un vector de
traslación.
La aplicación lineal p se llama proyección canónica del espacio vectorial V sobre el espacio cociente
V /W .
Como consecuencia de las tres propiedades de la proposición, se obtiene otra vez la dimensión del
espacio vectorial cociente V /W , en el caso en el que V sea de dimensión finita: por la fórmula de las
dimensiones,
dim V = dim ker p + dim im p = dim W + dim(V /W ).
Dos subespacios afines S1 = v1 + W1 y S2 = v2 + W2 de V son paralelos si la dirección de uno
de los dos está contenida en la dirección del otro, esto es, W1 ⊆ W2 o W2 ⊆ W1 . En particular, todos
los subespacios afines de V con la misma dirección W son paralelos.
Proposición. Sea f : V −−→ V 0 una aplicación lineal. Para cada subespacio afı́n S de V , el conjunto
imagen f [S] de S por f es un subespacio afı́n de V .
192
Álgebra lineal
Demostración. Supongamos que S es el subespacio afı́n v + W de dirección el subespacio W de V .
Entonces
f [S] = f [v + W ]
= f [{v + w | w ∈ W }]
= {f (v + w) | w ∈ W }
= {f (v) + f (w) | w ∈ W }
= f (v) + {f (w) | w ∈ W }
= f (v) + f [W ]
y f [S] es el subespacio afı́n f (v) + f [W ] de dirección f [W ].
0
Si la aplicación lineal f es biyectiva, es decir, es un isomorfismo de V sobre V , entonces para
cada subespacio vectorial W de V , dim W = dim f [W ] , y por tanto, para cada subespacio afı́n S
de V , S y f [S] tienen la misma dimensión. Luego, por ejemplo,
• la imagen por f de cada recta afı́n de V es una recta afı́n de V 0 , y
• la imagen por f de cada plano afı́n de V es un plano afı́n de V 0 , y también
• subespacios afines paralelos de V se transforman en subespacios afines paralelos de V 0 .
Fórmula de la solución general
Si un sistema de m ecuaciones lineales en n incógnitas con elementos en K como (∗∗) es compatible,
se trata ahora de obtener una fórmula que nos dé las soluciones y nada más que las soluciones del sistema.
Primero consideramos un caso particular: el caso en el que n = m , esto es, el número de ecuaciones
del sistema es igual al número de incógnitas, y el rango de la matriz cuadrada A de orden n de los
coeficientes del sistema es n . En este caso, el sistema tiene solución única, porque el sistema lineal
homogeneo sólo tiene la solución trivial. Hay una fórmula que da la solución única del sistema:
Regla o fórmulas de Cramer
Como A es una matriz cuadrada de orden n y rango A = n , A es invertible y tiene matriz inversa
A−1 . Sabemos además que
1
A−1 =
(adj A)t ,
det A
donde adj A = (Aij )n ∈ Mn (K) es la matriz adjunta de la matriz A . Expresando el sistema en la forma
 
X1
a11
 X2   a21
 
A
 ...  =  ...

Xn
an1
a12
a22
..
.
···
···
..
.

  
a1n
X1
b1
a2n   X2   b2 
 . = . 
.. 
.   ..   .. 
an2
···
ann
Xn
bn
y multiplicando los dos miembros de la igualdad por A−1 obtenemos


 
X1
b1
X
b 



2
−1  2 

A−1 · A 
 ...  = A  ...  ,
Xn
bn
esto es,
 


 
b1
A11
X1
b1
b
A
b



 X2 


2
2
1
1
 .12
 .  = A−1  .  =
(adjA)t 
=
.. 



 .. 
 .. 
..
det A
det A
.
bn
A1n
Xn
bn

A21
A22
..
.
···
···
..
.
 
An1
b1
An2   b2 
 . .
.. 
.   .. 
A2n
···
Ann
bn
193
Sistemas de ecuaciones lineales
Para cada i = 1, . . . , n , obtenemos

b1
 b2 
1

Ani ) 
 ...  = det A (A1i b1 + A2i b2 + · · · + Ani bn )
bn

Xi =
1
( A1i
det A
···
A2i
a11
a21
1
=
· .
..
det A
an1
a12
a22
..
.
···
···
..
.
a1,i−1
a2,i−1
..
.
b1
b2
..
.
a1,i+1
a2,i−1
..
.
···
···
..
.
a1n
a2n
..
.
an2
···
an,i−1
bn
an,i+1
···
ann
porque A1i b1 +A2i b2 +· · ·+Ani bn
de la matriz
a
11
 a21
 .
 .
.
an1
es la expresión del desarrollo por la columna i -ésima del determinante
a12
a22
..
.
···
···
..
.
a1,i−1
a2,i−1
..
.
b1
b2
..
.
a1,i+1
a2,i−1
..
.
···
···
..
.
an2
···
an,i−1
bn
an,i+1
···
a1n 
a2n 
.. 
,
.
ann
matriz que es el resultado de sustituir la columna i -ésima A(i) de la matriz A por el n -vector columna
t
b = ( b1 b2 · · · bn ) .
Y tenemos, para el caso en que n = m y rango A = n , las fórmulas que nos dan la solución única
que tiene el sistema:
a11
a21
1
Xi =
· .
..
det A
an1
a12
a22
..
.
···
···
..
.
a1,i−1
a2,i−1
..
.
b1
b2
..
.
a1,i+1
a2,i−1
..
.
···
···
..
.
a1n
a2n
..
.
an2
···
an,i−1
bn
an,i+1
···
ann
para cada i = 1, . . . , n.
Estas fórmulas constituyen la regla o fórmulas de Cramer. La utilidad práctica de estas fórmulas está
limitada si hay que calcular determinantes de matrices de órdenes > 4.
Ejemplos.
(1) El rango de la matriz A de los coeficientes del sistema


3X + 2Y + Z = 5
2X + 3Y + Z = 1


2X + Y + 3Z= 11
3
es 3, porque el determinante de A es 2
2
obtener por la regla de Cramer:
5 2 1
1 3 1
11 1 3
X=
det A
=
24
= 2,
12
Y =
2
3
1
3
2
2
1
1 = 12 6= 0. El sistema tiene solución única que podemos
3
5 1
1 1
11 3
det A
=
−24
= −2,
12
Z=
3
2
2
2 5
3 1
1 11
det A
=
36
= 3.
12
(2) En el ejemplo anterior son pocas las cuentas que hay que hacer para llegar hasta la solución:
aparte de las tres divisiones, ha habido que calcular los determinantes de cuatro matrices de orden 3.
Pongamos ahora un sistema de cuatro ecuaciones lineales con cuatro incógnitas:

X + 2Y + 3Z − 2T = 6



2X − Y − 2Z − 3T = 8

3X + 2Y − Z + 2T = 4



2X − 3Y + 2Z + T = −8
194
Álgebra lineal
El determinante de la matriz A de los coeficientes del sistema es 324, el rango de A es 4 y podemos
hallar la solución única del sistema por medio de la regla de Cramer:
6
8
4
−8
X =
Z =
1
2
3
2
2
3
−1 −2
2 −1
−3 2
det A
2
6 −2
−1 8 −3
2
4
2
−3 −8 1
det A
−2
−3
2
1
=
=
324
= 1,
324
1
2
3
2
Y =
−324
= −1,
324
1
2
3
2
T =
6
3
8 −2
4 −1
−8 2
det A
2
3
−1 −2
2 −1
−3 2
det A
−2
−3
2
1
6
8
4
−8
648
= 2,
324
=
=
−648
= −2.
324
La única solución del sistema es (1, 2, −1, −2). En total ha habido que calcular los determinantes
de cinco matrices de orden 4.
Pasamos ahora al caso general de un sistema de m ecuaciones lineales con n incógnitas.
Una fórmula que da las soluciones del sistema se obtiene por aplicación del método de eliminación
de Gauss, explicado en la primera parte. Si el sistema que tiene como matriz ampliada (A | b) tiene
solución, por medio de operaciones elementales en las filas llegamos a una matriz (A00 | b00 ) tal que A00
es escalonada reducida con r filas no nulas y b00r+1 = . . . = b00m = 0, esto es, (A00 | b00 ) =














0 ···
0 ···
0 ···
.. . .
.
.
0 ···
0 ···
.. . .
.
.
0 1
0 0
0 0
.. ..
. .
0 0
0 0
.. ..
. .
?
0
0
..
.
···
···
···
..
.
?
0
0
..
.
0
1
0
..
.
?
?
0
..
.
···
···
···
..
.
?
?
0
..
.
0
0
1
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
0
0
0
..
.
?
?
?
..
.
···
···
···
..
.
?
?
?
..
.
0
0
..
.
···
···
..
.
0
0
..
.
0
0
..
.
0
0
..
.
···
···
..
.
0
0
..
.
0
0
..
.
0
0
..
.
···
···
..
.
0
0
..
.
···
···
..
.
0
0
..
.
1
0
..
.
?
0
..
.
···
···
..
.
?
0
..
.
0 ··· 0 0
0
···
0
0
0
···
0
0
0
···
0
···
0
0
0
···
0

b001
b002 

b003 
.. 

. .

b00r 

0
.. 
. 
0
Sean j1 , . . . , jr los ı́ndices de las columnas de A00 en las que están los pivotes, que son todos iguales
a 1 , porque es escalonada reducida. Sean jr+1 , . . . , jn los ı́ndices de las columnas restantes. Podemos
despejar directamente las r incógnitas Xj1 , . . . , Xjr en función de las n − r restantes Xjr+1 , . . . , Xjn :
Xj1 = b001 − (a001jr+1 Xjr+1 + · · · + a001jn Xjn )
Xj2 = b002 − (a002jr+1 Xjr+1 + · · · + a002jn Xjn )
..
.
Xjr = b00r − (a00rjr+1 Xjr+1 + · · · + a00rjn Xjn ).
Para simplificar la notación vamos a suponer que los ı́ndices de las columnas de A00 en las que están los
pivotes son los r primeros: 1, 2, . . . , r , es decir, j1 = 1, j2 = 2, . . . , jr = r . Los ı́ndices de las columnas
restantes son los n − r últimos: r + 1, . . . , n. Las expresiones anteriores son ahora
X1 = b001 − (a001,r+1 Xr+1 + a001,r+2 Xr+2 + · · · + a001n Xn )
X2 = b002 − (a001,r+1 Xr+1 + a002,r+2 Xr+2 + · · · + a002n Xn )
..
.
Xr = b00r − (a00r,r+1 Xr+1 + a00r,r+2 Xr+2 + · · · + a00rn Xn ).
195
Sistemas de ecuaciones lineales
y la solución general del sistema de ecuaciones lineales del comienzo es

X1 = b001 − (a001,r+1 t1 + a001,r+2 t2 + · · · + a001n tn−r )






 X2 = b002 − (a001,r+1 t1 + a002,r+2 t2 + · · · + a002n tn−r )





..



.




00
00
 Xr = b00 − (a00
r
r,r+1 t1 + ar,r+2 t2 + · · · + arn tn−r )


Xr+1 =
t1





t2

 Xr+2 =




..


.





Xn =
tn−r
donde t1 , t2 , . . . , tn−r recorren K , es decir, (t1 , t2 , . . . , tn−r ) recorre Kn−r . Los t1 , t2 , . . . , tn−r son los
n − r parámetros de K de los que dependen las soluciones.
Para los valores t1 = t2 = . . . = tn−r = 0 , se obtiene la solución particular (b001 , b002 , . . . , b00r , 0, 0, . . . , 0)
del sistema.
También se obtiene una parametrización del conjunto Sol(A, b) de soluciones del sistema: la aplicación Φ : Kn−r −−→ Kn definida por:
para cada (t1 , t2 , . . . , tn−r ) de Kn−r ,
Φ(t1 , t2 , . . . , tn−r ) = (x1 , x2 , . . . , xr , xr+1 , . . . , xn ),
la n -upla definida por la solución general anterior, es una parametrización de Sol(A, b) , porque
Φ[Kn−r ] = Sol(A, b) : un vector (x1 , x2 , . . . , xn ) de Kn pertenece a Sol(A, b) si y sólo si (x1 , x2 , . . . , xn ) =
Φ(t1 , t2 , . . . , tn−r ) para algún (t1 , t2 , . . . , tn−r ) de Kn−r .
El sistema homogéneo asociado (∗∗)0 al sistema original tiene como solución general

X1 = −(a001,r+1 t1 + a001,r+2 t2 + · · · + a001n tn−r )







X2 = −(a002,r+1 t1 + a002,r+2 t2 + · · · + a002n tn−r )





..



.




00
00
00
 Xr = −(a
r,r+1 t1 + ar,r+2 t2 + · · · + arn tn−r )


Xr+1 =
t1





Xr+2 =
t2






..


.





Xn =
tn−r
donde t1 , t2 , . . . , tn−r recorren K , es decir, (t1 , t2 , . . . , tn−r ) ∈ Kn−r . Si (t1 , t2 , . . . , tn−r ) es cada uno de
los n − r vectores (1, 0, . . . , 0), (0, 1, 0, . . . , 0), . . . , (0, . . . , 0, 1) de la base estándar de Kn−r , se obtienen
las n − r soluciones
(−a001,r+1 , −a002,r+1 , . . . , −a00r,r+1 , 1, 0, . . . , 0),
(−a001,r+2 , −a002,r+2 , . . . , −a00r,r+2 , 0, 1, . . . , 0),
..
.
(−a001n , −a002n , . . . , −a00rn , 0, 0, . . . , 1),
que son, claramente, linealmente independientes y forman una base del subespacio Sol(A, 0) : por esto se
dice que forman un sistema fundamental de soluciones del sistema homogéneo asociado.
El subespacio Sol(A, 0) admite una parametrización lineal Φ0 : Kn−r −−→ Kn , en el sentido de
que, además de parametrización, es una aplicación lineal: la aplicación que a cada (t1 , t2 , . . . , tn−r ) de
Kn−r le asocia la n -upla (x1 , . . . , xr , xr+1 , . . . , xn ) de Sol(A, 0) dada por las expresiones de la solución
196
Álgebra lineal
general del sistema homogéneo asociado. Como parametrización que es de Sol(A, 0) , la imagen im Φ0
es el subespacio Sol(A, 0) .
La matriz de esta aplicación lineal Φ0 respecto de
 00
−a1,r+1 −a001,r+2
 −a002,r+1 −a002,r+2

..
..


.
 00.
 −ar,r+1 −a00r,r+2


1
0


0
1

..
..

.
.
0
0
las bases estándares de Kn−r y Kn es

· · · −a001n
· · · −a002n 

.. 
..
.
. 

· · · −a00rn 

···
0 

···
0 
.. 
..

.
.
···
1
matriz que tiene como columnas los n−r vectores de la base anterior o sistema fundamental de Sol(A, 0) .
También se observa aquı́ que todas las soluciones del sistema original (∗∗) son suma de una solución
particular como (b001 , b002 , . . . , b00r , 0, 0, . . . , 0) y una solución del sistema homogéneo asociado: para cada
(t1 , t2 , . . . , tn−r ) ∈ Kn−r ,
Φ(t1 , t2 , . . . , tn−r ) = (b001 , b002 , . . . , b00r , 0, 0, . . . , 0) + Φ0 (t1 , t2 , . . . , tn−r ).
Ejemplos.
Véanse los sistemas resueltos en las páginas 46-48 con el método de eliminación de Gauss.
Otra forma de llegar a una fórmula para las soluciones de un sistema compatible de ecuaciones
lineales utiliza la regla de Cramer. Supongamos que el sistema de matriz ampliada (A | b) es compatible
y que rango A = rango(A | b) = r. La matriz de los coeficientes A tiene una submatriz cuadrada
a

a
··· a
i1 j 1
i1 j2
 ai2 j1
C = A(i1 i2 . . . ir | j1 j2 . . . jr ) = 
 ..
.
air j1
ai2 j2
..
.
air j2
i1 j r
···
..
.
···
ai2 jr 
.. 

.
air jr
de rango r. Sean jr+1 < jr+2 < · · · < jn los n − r ı́ndices de las columnas restantes de A. Nos
quedamos con las ecuaciones i1 -ésima, i2 -ésima, . . . , ir -ésima (las m − r restantes son combinación
lineal de estas r ecuaciones) y formamos el sistema

ai1 j1 Xj1 + ai1 j2 Xj2 + · · ·+ai1 jr Xjr = bi1 − (ai1 jr+1 Xjr+1 + ai1 jr+2 Xjr+2 + · · · + ai1 jn Xjn )




ai2 j1 Xj1 + ai2 j2 Xj2 + · · ·+ai2 jr Xjr = bi2 − (ai2 jr+1 Xjr+1 + ai2 jr+2 Xjr+2 + · · · + ai2 jn Xjn )
..


.



air j1 Xj1 + air j2 Xj2 + · · ·+air jr Xjr = bir − (air jr+1 Xjr+1 + air jr+2 Xjr+2 + · · · + air jn Xjn )
que es un sistema de r ecuaciones lineales en las r incógnitas Xj1 , Xj2 , . . . , Xjr cuya matriz C de los
coeficientes tiene rango r y es invertible. La única solución del sistema se puede obtener por medio de
la regla de Cramer:
det C(1) , D, . . . , C(r)
det C(1) , . . . , C(r−1) , D
det D, C(2) , . . . , C(r)
, xj2 =
, . . . , x jr =
,
xj1 =
det C
det C
det C
donde D es el r -vector columna


bi1 − (ai1 jr+1 Xjr+1 + ai1 jr+2 Xjr+2 + · · · + ai1 jn Xjn )
 bi2 − (ai2 jr+1 Xjr+1 + ai2 jr+2 Xjr+2 + · · · + ai2 jn Xjn ) 



.
..


.
bir − (air jr+1 Xjr+1 + air jr+2 Xjr+2 + · · · + air jn Xjn )
De este modo, las r componentes xj1 , xj2 , . . . , xjr de cada solución (x1 , x2 , . . . , xn ) del sistema
original quedan expresadas en función de las n − r incógnitas Xjr+1 , Xjr+2 , . . . , Xjn :
Para cada valor xjr+1 , xjr+2 , . . . , xjn que demos a las incógnitas Xjr+1 , Xjr+2 , . . . , Xjn en las expresiones obtenidas de xj1 , xj2 , . . . , xjr se obtiene una solución (x1 , x2 , . . . , xn ) ∈ Kn del sistema original
de matriz ampliada (A | b) y, recı́procamente, cada solución del sistema original se obtiene de esa forma.
197
Sistemas de ecuaciones lineales
Ejemplos.
(a) El sistema

X+ Y



3X + 2Y

Y



5X + 4Y
+ Z+ T+ U = 7
+ Z + T − 3U = −2
+ 2Z + 2T + 6U = 23
+ 3Z + 3T − U = 12
es compatible, porque
1
3
rango 
0
5

1
2
1
4
1
1
2
3
1
1
2
3


1
1
−3 
3
 = rango 
0
6
5
−1
1
2
1
4
1
1
2
3

7
1 1
1 −3 −2 
 = 2.
2 6 23
3 −1 12
Podemos tomar como submatriz
cuadrada invertible de orden 2 de la matriz de los coeficientes la sub1 1
matriz A(1 2 | 1 2) =
, pero haremos menos cuentas si tomamos la submatriz A(1 3 |1 2) =
3 2
1 1
.
0 1
Nos olvidamos de las ecuaciones segunda y cuarta, porque son combinación lineal de la primera y
tercera, y consideramos el sistema
(
X +Y = 7−Z −T −U
Y = 23 − 2Z − 2T − 6U
que tiene solución única
(
x = −16 + Z + T + 5U
y = 23 − 2Z − 2T − 6U
y con esto tenemos las soluciones del sistema original dadas por la fórmula

x = −16 + λ + µ + 5ν






y = 23 − 2λ − 2µ − 6ν


z=
λ




t=
µ




u=
ν
para cualesquiera λ, µ, ν ∈ K o para cada (λ, µ, ν) ∈ K3 .
Una solución particular del sistema se obtiene tomando λ = µ = ν = 0 : (−16, 23, 0, 0, 0).
Los vectores (1, −2, 1, 0, 0), (1, −2, 0, 1, 0) y (1, −6, 0, 0, 1) forman un sistema fundamental de soluciones del sistema homogéneo asociado al sistema dado, esto es, una base de Sol( A, 0).
(b) Resolvamos el sistema

X+ Y
− 3T − U = 0



 X − Y + 2Z − T
=0

4X
−
2Y
+
6Z
+
3T
−
4U
=0



2X + 4Y − 2Z + 4T − 7U = 0
que, como es evidente, tiene, al menos, la solución trivial. El rango de la matriz A de los coeficientes del
1 1 −3
sistema es 3 y el menor det A(1 2 3 | 1 2 4) = 1 −1 −1 = −18, la submatriz C = A(1 2 3 | 1 2 4)
4 −2 3
es invertible y el sistema

U

 X + Y − 3T =
X − Y − T=
− 2Z


4X − 2Y + 3T = −6Z + 4U
198
Álgebra lineal
se puede resolver por la regla de Cramer:
x =
U
1
−2Z
−1
−6Z + 4U −2
det C
−3
−1
3
=
18Z − 21U
7
= −Z + U,
−18
6
5
y = Z + U,
6
t =
1
U.
3
La fórmula de las soluciones del sistema dado es

7


x = −λ + µ


6




5



y = λ+ µ


6
z
=
λ





1


t=
µ



3



u=
µ
para cualesquiera λ, µ ∈ K o para cada (λ, µ) ∈ K2 .
Como el sistema es homogéneo, el conjunto de las soluciones es un subespacio vectorial de K5 y una
base de este subespacio está formada por los vectores (−1, 1, 1, 0, 0) y (7, 5, 0, 2, 6).
Ecuaciones de los subespacios vectoriales
Una de las formas más útiles de especificar un subespacio de un espacio vectorial de dimensión finita es
por medio de ecuaciones que deben cumplir las coordenadas de los vectores del subespacio y nada más
que las de los vectores del subespacio. Las coordenadas de un vector son coordenadas respecto de una
base, y, por tanto, las ecuaciones de un subespacio son ecuaciones respecto de una base: al cambiar la
base del espacio vectorial, las ecuaciones cambian. Explicamos dos tipos de ecuaciones para describir un
subespacio de un espacio vectorial respecto de una base.
Ecuaciones paramétricas
Sea V un espacio vectorial de dimensión n > 1 sobre un cuerpo K , y sea B = {v1 , v2 , . . . , vn } una
base de V .
Sea W un subespacio vectorial de V . Supongamos que w1 , w2 , . . . , wk son vectores de V que generan el subespacio W . Por definición de subespacio vectorial generado por un conjunto finito de vectores,
para cada vector v de V , v pertenece al subespacio W si y sólo si existen escalares λ1 , λ2 , . . . , λk en
K tales que
v = λ1 w1 + λ2 w2 + · · · + λk wk .
Supongamos que, para cada j = 1, . . . , k , las coordenadas del vector wj respecto de la base B son
a1j , a2j , . . . , anj :
wj = a1j v1 + a2j v2 + · · · + anj vn .
Entonces, para cada vector v de V ,
λ1 , λ2 , . . . , λk en K tales que
v pertenece al subespacio W si y sólo si existen escalares
v = λ1 w1 + λ2 w2 + · · · + λk wk
= λ1 (a11 v1 + a21 v2 + · · · + an1 vn ) + λ2 (a12 v1 + a22 v2 + · · · + an2 vn ) + · · ·
· · · + λk (a1k v1 + a2k v2 + · · · + ank vn )
= (a11 λ1 + a12 λ2 + · · · + a1k λk )v1 + (a21 λ1 + a22 λ2 + · · · + a2k λk )v2 + · · ·
· · · + (an1 λ1 + an2 λ2 + · · · + ank λk )vn .
Por ser B = {v1 , v2 , . . . , vn } una base de V , los coeficientes de los vectores v1 , v2 , . . . , vn en la suma
anterior tienen que ser las coordenadas de v respecto de la base B . Ası́ que un vector v , de coordenadas
199
Sistemas de ecuaciones lineales
x1 , x2 , . . . , xn respecto de la base B , pertenece a W si y sólo si existen escalares λ1 , λ2 , . . . , λk en K
tales que

x = a11 λ1 + a12 λ2 + · · · + a1k λk

 1



 x2 = a21 λ1 + a22 λ2 + · · · + a2k λk
(1)

...





xn = an1 λ1 + an2 λ2 + · · · + ank λk .
Las ecuaciones (1) se dice que son unas ecuaciones paramétricas del subespacio W respecto de la base
B . Las coordenadas aij de los vectores wj respecto de la base B son conocidas y para cualesquiera
valores en K que se dé a los parámetros λ1 , λ2 , . . . , λn , se obtienen las coordenadas x1 , x2 , . . . , xn de
un vector de W respecto de la base B .
Si las ecuaciones paramétricas (1) las expresamos en forma matricial
 
  
λ1
a11 a12 · · · a1k
x1
 x2   a21 a22 · · · a2k   λ2 
 . 
 . = .
(2)
..
.. 
..
 ..   ..
.
.
.   .. 
λk
an1 an2 · · · ank
xn
obtenemos una expresión que recuerda a la expresión matricial de una aplicación lineal: es la expresión
matricial de la aplicación lineal f : Kk −−→ V cuya matriz respecto de la base estándar de Kk y de la
base B de V es la matriz


a11 a12 · · · a1k
 a21 a22 · · · a2k 
 .
..
.. 
..
 ..
.
.
. 
an1
an2
···
ank
y esta aplicación lineal f tiene como imagen al subespacio de V generado por los vectores cuyas n uplas de coordenadas respecto de B son los k n -vectores columna de la matriz, es decir, los vectores
w1 , w2 , . . . , wk , y, por tanto, im f = L[w1 , w2 , . . . , wk ] = W .
La aplicación lineal f es una parametrización lineal del subespacio vectorial W respecto de la base
B de V . Si los vectores que generan W y cuyas coordenadas respecto de la base B son las columnas
de la matriz anterior, no son linealmente independientes, entonces la parametrización lineal f de W no
es inyectiva: la dimensión del espacio de partida es k y la dimensión de im f es estrictamente menor
que k , luego el núcleo de f tiene dimensión no nula. La parametrización f es inyectiva si la dimensión
de W = im f es k .
Al resolver un sistema de ecuaciones lineales homogéneas y dar la solución general del sistema, se
obtiene una parametrización lineal del subespacio de las soluciones del sistema. En este caso se trabaja
con las bases estándares de los correspondientes espacios Kn .
Si conocemos unas ecuaciones paramétricas de un subespacio W respecto de una base B y consideramos una nueva base B0 , ¿cómo hallamos unas ecuaciones paramétricas de W respecto de la nueva
base B0 ?
Si x1 , x2 , . . . , xn son las coordenadas de un vector v de V respecto de la base B y x01 , x02 , . . . , x0n
son las coordenadas de v respecto de la base B0 , sabemos por la expresión del cambio de base que
 
 x0 
 x0 
x1
1
1
0
x2 
x02 
 x2 


 .  = M (B0 , B)  .  = M (B, B0 )−1  . 
 .. 
 . 
 . 
.
.
0
xn
xn
x0n
que con la expresión matricial (2) de más arriba,
 x0 


 x0 
x1
a11
1
1
x02 
x02 
a


 x2 

 .  = M (B0 , B)  .  = M (B, B0 )−1  .  =  21
 .. 
 . 
 . 
 ...
.
.
xn
an1
x0n
x0n

(3)
a12
a22
..
.
···
···
..
.
 
a1k
λ1
a2k   λ2 
 . 
.. 
.   .. 
an2
···
ank
λk
200
Álgebra lineal
de donde
 x0 
(4)
a11
a
 
 .  = M (B, B0 )  21
 ...
 . 
.
an1
x0n

1
x02
a12
a22
..
.
···
···
..
.
 
λ1
a1k
a2k   λ2 
 . 
.. 
.   .. 
an2
···
ank
λk
que es la expresión matricial de unas ecuaciones paramétricas de W respecto de la base B0 .
Ejemplos.
(1) El subespacio W = L[(2, −1, 1, 0), (−1, 0, 1, 1), (0, −1, 3, 1)] tiene, respecto de la base estándar
de R4 , las ecuaciones paramétricas

x = 2λ − µ




 y = −λ
−ν

z = λ + µ + 3ν




t=
µ+ ν
con λ, µ, ν ∈ R o, lo que es equivalente, (λ, µ, ν) ∈ R3 .
(2) Los vectores (2, −1, 1, 0), (−1, 0, 1, 1), (0, −1, 3, 1), (1, 0, 0, 0) forman una base B de R4 . Obsérvese
que los tres primeros vectores de la base B son los tres vectores que generan el subespacio W del ejemplo anterior. Hallamos unas ecuaciones paramétricas de W respecto de la base B. Como las cuádruplas
de coordenadas de los tres vectores que generan W respecto de la base B son (1, 0, 0, 0), (0, 1, 0, 0) y
(0, 0, 1, 0), unas ecuaciones paramétricas de W respecto de B son
 0
x =λ




 y0 =
µ
(5)
0

z =
ν



 0
t =0
para cualesquiera λ, µ, ν ∈ R.
También podemos aplicar la fórmula (4) de más arriba:

 


2
x0
2 −1 0
λ
0
−1
−1
0
−1


y 

  µ  = M (B, B4e )−1 
 0  = M (B4e , B) 
1
1
1
3
z
ν
0
0
1
1
t0

0
0
= 
0
1

−2
−1
1
3

−1 1
2
−1 2   −1

1 −1
1
1
0
0
−1
0
1
1
−1
0
1
1
 
0
λ
−1   
=
µ

3
ν
1
 

1
0
λ
−1   
0
= 
 µ
3
0
ν
0
1
0
1
0
0

0  
λ
0 
 µ .
1
ν
0
En forma de ecuaciones el resultado es el sistema (5).
(3) Supongamos que B = {v1 , v2 , v3 , v4 } es una base de R4 . Sea U el subespacio generado por
v1 y v3 , los vectores primero y tercero de la base. Se trata de hallar unas ecuaciones paramétricas de
U respecto de la base B.
Un vector v de R4 pertenece a U = L[v1 , v3 ] si y sólo si existen λ, µ ∈ R tales que v = λv1 +µv3 .
Si la cuádrupla de coordenadas del vector v respecto de la base B es (x1 , x2 , x3 , x4 ) entonces
v = x1 v1 + x2 v2 + x3 v3 + x4 v4 = λv1 + µv3
y unas ecuaciones paramétricas de U respecto de la base B son

x1 = λ




 x2 = 0

x3 =
µ




x4 = 0
201
Sistemas de ecuaciones lineales
con λ, µ ∈ R.
(4) Sea W el subespacio vectorial de M2 (K) de las matrices de traza cero. Se trata de hallar unas
ecuaciones paramétricas de W respecto de la base
1 0
0 1
0 0
0 0
B=
,
,
,
.
0 0
0 0
1 0
0 1
1 0
0 1
0 0
El subespacio W está generado por las matrices
,
,
, luego una matriz
0 −1
0 0
1 0
a b
de M2 (K) cuyas coordenadas respecto de la base B son a, b, c, d, pertenece a W si y sólo
c d
si existen escalares λ, µ, ν ∈ R tales que
a b
1 0
0 1
0 0
0 0
= a
+b
+c
+d
c d
0 0
0 0
1 0
0 1
1 0
0 1
0 0
=λ
+µ
+ν
0 −1
0 0
1 0
1 0
0 1
0 0
0 0
=λ
+µ
+ν
+ (−λ)
0 0
0 0
1 0
0 1
y unas ecuaciones paramétricas de W respecto de la base B son

a= λ




b=
µ

c=




d = −λ
ν
con λ, µ, ν ∈ K.
(5) Sea W el subespacio vectorial del espacio R63 [X] de los polinomios reales de grado 6 3 que
se anulan en 1, esto es, que tienen a 1 como raı́z. Sea B = {X 3 , X 2 , X, 1}, base de R63 [X]. Se trata
de hallar unas ecuaciones paramétricas de W respecto de la base B.
El subespacio W está generado por los polinomios X 3 − 1, X 2 − 1 y X − 1.
Un polinomio p(X) = aX 3 + bX 2 + cX + d de R63 [X], cuyas coordenadas respecto de la base B
son a, b, c, d, pertenece a W si y sólo si existen λ, µ, ν ∈ R tales que
p(X) = aX 3 + bX 2 + cX + d
= λ(X 3 − 1) + µ(X 2 − 1) + ν(X − 1)
= λX 3 + µX 2 + νX + (−λ − µ − ν)1
luego unas ecuaciones paramétricas de W respecto de la base B son

a=λ




b=
µ

c=
ν




d = −λ − µ − ν
para cualesquiera λ, µ, ν ∈ R.
Ecuaciones implı́citas o cartesianas
Consideramos ahora un sistema de m ecuaciones lineales homogéneas en n indeterminadas X1 , X2 , . . . , Xn
con coeficientes en K :

a11 X1 + a12 X2 + · · · + a1n Xn = 0




 a21 X1 + a22 X2 + · · · + a2n Xn = 0
(6)
..


.



am1 X1 + am2 X2 + · · · + amn Xn = 0.
202
Álgebra lineal
El conjunto de vectores v de V cuyas coordenadas x1 , x2 , . . . , xn respecto de la base B son las
soluciones del sistema (6) es un subespacio vectorial W de V : es el subespacio en el que se transforma
n
sobre V determinado por la base B . Las
el subespacio Sol(A, 0) por el isomorfismo Coord−1
B de K
ecuaciones (6) son unas ecuaciones implı́citas o cartesianas del subespacio W respecto de la base B .
Si las ecuaciones implı́citas (6) las expresamos en forma matricial

   
x1
a11 a12 · · · a1n
0
 a21 a22 · · · a2n   x2   0 
 . =.
 .
(7)
..
.. 
..
 ..
.
.
.   ..   .. 
am1
am2
···
amn
xn
0
resulta claro que el subespacio W de ecuaciones implı́citas (6) se puede ver como el núcleo de la
aplicación lineal f : V −−→ Km que, respecto de la base B de V y la base estándar Be de Km , tiene
como matriz la matriz A de los coeficientes del sistema.
Un subespacio W de un espacio vectorial V , en el que se ha fijado una base B , tiene, en general,
muchos sistemas de ecuaciones implı́citas distintos. Todos ellos son equivalentes, porque el conjunto de
soluciones es el mismo: las n -uplas de las coordenadas de los vectores de W respecto de la base B .
Si se conocen unas ecuaciones implı́citas o cartesianas de un subespacio W respecto de una base
B, ¿cómo hallar unas ecuaciones implı́citas de W respecto de otra base B0 ?
Como conocemos la matriz de cambio de base M (B, B0 ), tenemos la expresión de las coordenadas
x1 , x2 , . . . , xn de cada vector v respecto de la base B en función de las coordenadas x01 , x02 , . . . , x0n de
v respecto de B0 :
 
 x0 
 x0 
x1
1
1
0
x2 
x02 
 x2 


 .  = M (B0 , B)  .  = M (B, B0 )−1  .  .
 .. 
 . 
 . 
.
.
0
xn
xn
x0n
Entonces hay que sustituir en las ecuaciones implı́citas (7) el vector columna de los xi por su expresión
en función de los x0i y el resultado es
 x0 



 
 
a11 a12 · · · a1n
a11 a12 · · · a1n
x1
0
1
0
x2 

 a21 a22 · · · a2n 
 a21 a22 · · · a2n   x2 

0
 .
 .  =  .
M (B, B0 )−1 
= 
.. 
..
.. 
..
.. 
.. 
..
..



 ..





.
.
.
.
.
.
.
.
.
.
.
.
0
am1 am2 · · · amn
am1 am2 · · · amn
xn
x0n
que es la expresión matricial de unas ecuaciones implı́citas de W respecto de la base B0 .
Ejemplos.
(a) En el espacio vectorial K3 y respecto de la base estándar, ¿cuál es el subespacio de ecuación
implı́cita Z = 0 ? ¿Cuál es el subespacio de ecuaciones implı́citas
X
=0
Z
= 0?
(b) En el espacio vectorial K4 y respecto de una base B = {v1 , v2 , v3 , v4 }, ¿cuál es el subespacio
de ecuaciones implı́citas
X
=0
Z
= 0?
(c) En el espacio vectorial M2 (K) de las matrices de orden 2 , ¿cuál es el subespacio que respecto
de la base
1 0
0 1
0 0
0 0
B=
,
,
,
0 0
0 0
1 0
0 1
tiene la ecuación implı́cita Y − Z = 0 ?
(d) En el espacio vectorial R63 [X] de los polinomios reales de grado 6 3 , ¿cuál es el subespacio
que respecto de la base {X 3 , X 2 , X, 1} , tiene como ecuación implı́cita
8X1 + 4X2 + 2X3 + X4 = 0 ?
203
Sistemas de ecuaciones lineales
De ecuaciones implı́citas a ecuaciones paramétricas
Supongamos que tenemos un subespacio W de un espacio vectorial V , en el que se ha fijado una
base B , determinado por un sistema de ecuaciones implı́citas como (6) . Para obtener unas ecuaciones
paramétricas del subespacio W , lo que se hace es resolver el sistema de ecuaciones lineales homogéneas
(6). La solución general del sistema es un sistema de ecuaciones paramétricas del mismo subespacio,
respecto de la misma base.
Ejemplos.
(i) En el espacio vectorial K3 y respecto de la base estándar, el subespacio de ecuación implı́cita
Z = 0 tiene como ecuaciones paramétricas

x=λ


y=
µ


z=0
para cualesquiera λ, µ ∈ K. Una base del subespacio está formada por los vectores que respecto de la base
estándar tienen las coordenadas 1, 0, 0 y 0, 1, 0 , esto es, los vectores (1, 0, 0) y (0, 1, 0), respectivamente,
y es el subespacio L[(1, 0, 0), (0, 1, 0)].
(ii) En el espacio vectorial K4 y respecto de una base B = {v1 , v2 , v3 , v4 }, el subespacio de ecuaciones implı́citas
X
=0
Z
=0
tiene como ecuaciones paramétricas respecto de la base B

x=0




y = λ

z=0




t=
µ
para cualesquiera λ, µ ∈ K. Una base del subespacio está formada por los vectores que respecto de la
base B tienen como coordenadas 0, 1, 0, 0 y 0, 0, 0, 1 , esto es, los vectores v2 y v4 . Es el subespacio
L[v2 , v4 ].
(iii) El subespacio vectorial de R4 de ecuaciones implı́citas, respecto de la base estándar,

2X + Y + 4Z + U = 0



3X + 2Y − Z − 6U = 0

7X + 4Y + 6Z − 5U = 0



X
+ 8Z + 7U = 0
tiene como ecuaciones paramétricas

x= λ




y = λ

z = −λ




u= λ
con λ ∈ R . El subespacio tiene dimensión 1, una base es {(1, 1, −1, 1)} y es L[(1, 1, −1, 1)].
(iv) En el espacio vectorial M2 (K) de las matrices de orden 2 , el subespacio vectorial que respecto
de la base
1 0
0 1
0 0
0 0
B=
,
,
,
0 0
0 0
1 0
0 1
tiene como ecuación implı́cita X + T = 0 es el subespacio de las matrices de traza cero: el subespacio
tiene dimensión 4 − rango ( 1 0 0 1 ) = 4 − 1 = 3 y las coordenadas, respecto de la base B, de las
tres matrices linealmente independientes de traza nula
1 0
0 1
0 0
,
,
0 −1
0 0
1 0
204
Álgebra lineal
cumplen la ecuación.
(v) En el espacio vectorial R63 [X] de los polinomios reales de grado 6 3 , el subespacio que, respecto
de la base {X 3 , X 2 , X, 1} , tiene como ecuación implı́cita
X1 + X2 + X3 + X4 = 0
es el subespacio de los polinomios reales p(X) de grado 6 3 que se anulan en 1 : p(1) = 0 : El
subespacio tiene dimensión 4 − rango ( 1 1 1 1 ) = 4 − 1 = 3 y las coordenadas, respecto de la base
B, de los tres polinomios linealmente independientes que se anulan en 1 X 3 −1, X 2 −1, X −1 cumplen
la ecuación.
De ecuaciones paramétricas a ecuaciones implı́citas
Partimos de un sistema de ecuaciones
B:

x1





 x2
(8)






xn
paramétricas de un subespacio W de V respecto de una base
= a11 λ1 + a12 λ2 + · · · + a1k λk
= a21 λ1 + a22 λ2 + · · · + a2k λk
..
.
= an1 λ1 + an2 λ2 + · · · + ank λk
y queremos hallar unas ecuaciones implı́citas del mismo subespacio.
El vector v de V de coordenadas x1 , x2 , . . . , xn , respecto de B , pertenece a W si y sólo si
existen λ1 , λ2 , . . . , λk en K que cumplen las ecuaciones del sistema (8), esto es, si y sólo si el sistema
(8) tiene solución en las incógnitas λ1 , λ2 , . . . , λk . Tenemos dos caracterizaciones de la compatibilidad
de un sistema de ecuaciones lineales y podemos utilizar las dos para llegar a unas ecuaciones implı́citas
de W .
Por medio de operaciones elementales en las filas aplicadas a la matriz


a11 a12 · · · a1k x1
 a21 a22 · · · a2k x2 
 .
..
..
.. 
..
 ..
.
.
.
. 
an1 an2 · · · ank xn
llegamos a una matriz (A0 | x0 ) del mismo tamaño tal que la matriz A0
filas no nulas y las n − r últimas filas nulas, esto es, (A0 | x0 ) =

?
? ··· ?
?
? ··· ?
0 · · · 0 a01j1 ? · · · ?
 0 ··· 0
0
0 · · · 0 a02j2 ? · · · ?
?
? ··· ?

 0 ··· 0
0
0 ··· 0
0
0 · · · 0 a03j3 ? · · · ?

 . .
..
.. . .
.
..
.. . .
.
..
.. . .
.
. . ...
 ..
. ..
. ..
. ..
.
.
.
.
.
.

 0 ··· 0
0
0 ··· 0
0
0 ··· 0
0
0 ··· 0

 0 ··· 0
0
0
·
·
·
0
0
0
·
·
·
0
0
0 ··· 0

 . .
.
.
.
.
.
.
.
.
.. . .
.
.
.
 ..
. . ..
..
..
. . ..
..
..
. . ..
..
. ..
.
0 ··· 0
0
0
···
0
0
0
···
0
0
0
···
0
es escalonada con las r primeras
···
···
···
..
.
···
···
..
.
?
?
?
..
.
0
0
..
.
···
0
a0rjr
0
..
.
?
?
?
..
.
?
0
..
.
···
···
···
..
.
···
···
..
.
?
?
?
..
.
?
0
..
.
0
0
···
0
?
?
?
..
.
p1
p2
p3
..
.








pr 

pr+1 
.. 

.
pm
donde p1 , p2 , . . . , pn son polinomios homogéneos de grado 1 en las indeterminadas x1 , x2 , . . . , xn . El
sistema (8) tiene solución en λ1 , λ2 , . . . , λk si y sólo si pr+1 = pr+2 = · · · = pn = 0 . Esta condición
se traduce en un sistema de n − r ecuaciones lineales homogéneas en las incógnitas x1 , x2 , . . . , xn , y
forman un sistema de ecuaciones implı́citas o cartesianas del subespacio W , respecto de la base B .
Ejemplos.
(a) El subespacio vectorial de R5 que, respecto de la base estándar, tiene como ecuaciones
paramétricas

x1 = λ + 3µ + 2ν






x = 4λ + 13µ + 7ν

 2
x3 = −2λ − µ − 8ν




x4 = 2λ + 2µ + 4ν




x5 = −λ + µ − 5ν
205
Sistemas de ecuaciones lineales
(por tanto , está generado por los vectores (1, 4, −2, 2, −1), (3, 13, −1, 2, 1) y (2, 7, −8, 4, −5) ) tiene como
ecuaciones implı́citas




x1
1 3
2
1
3
2 x1
13
7 x2 
 0 1 −1 x2 − 4x1 
 4




 −2 −1 −8 x3  −−→  0 5 −4 x3 + 2x1  −−→




0 −4 0 x4 − 2x1
2
2
4 x4
0 4 −3 x5 − x1
−1 1 −5 x5
1
0

0

0
0

3
1
0
0
0

x1
2
−4x1 + x2
−1


22x1 − 5x2 + x3  −−→
1

−4 −18x1 + 4x2 + x4
17x1 − 4x2 + x5
1

x1
2
−4x1 + x2
−1


22x1 − 5x2 + x3
1


0 70x1 − 16x2 + 4x3 + x4
−5x1 + x2 − x3 + x5
0
1 3
0 1

0 0

0 0
0 0

y unas ecuaciones implı́citas del subespacio son
(
70X1 − 16X2 + 4X3 + X4
−5X1 +
X2 − X3
=0
+X5 = 0
La segunda forma de obtener unas ecuaciones implı́citas a partir de unas ecuaciones paramétricas se
basa en el teorema de Rouché–Frobenius. Como antes, un vector v de V de coordenadas x1 , x2 , . . . , xn
respecto de B pertenece a W si y sólo si existen λ1 , λ2 , . . . , λk en K que cumplen las ecuaciones del
sistema (8), esto es, si y sólo si el sistema (8) tiene solución en las incógnitas λ1 , λ2 , . . . , λk . El sistema
(8) tiene solución en λ1 , λ2 , . . . , λk si y sólo si




a11 a12 · · · a1k
a11 a12 · · · a1k x1
 a21 a22 · · · a2k 
 a21 a22 · · · a2k x2 
rango 
= rango 
.
..
.. 
..
..
.. 
..
..
 ...

 ...
.
.
.
.
.
.
. 
an1
an2
···
ank
an1
an2
···
ank
xn
Supongamos que el rango de la matriz A de los coeficientes es r . Entonces A tiene un menor de orden
r no nulo y todos los menores de orden r + 1 de A son nulos. Supongamos que el menor de las r
primeras filas y r primeras columnas
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1r
a2r
..
.
ar1
ar2
···
arr
es no nulo. Por el principio de los menores aumentados u orlados, sabemos que el rango de la matriz
ampliada es r si y sólo si los n − r menores que resultan de orlar el menor anterior con la última
columna de la matriz ampliada y cada una de las n − r filas restantes de A son nulos:
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1r
a2r
..
.
x1
x2
..
.
ar1
ar2
arr
ar+1,1
ar+1,2
···
···
xr
xr+1
ar+1,r
=
a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1r
a2r
..
.
x1
x2
..
.
ar1
ar2
arr
ar+2,1
ar+2,2
···
···
xr
xr+2
a11
a21
.
. . . = ..
ar1
an1
a12
a22
..
.
···
···
..
.
a1r
a2r
..
.
ar2
an2
···
···
arr
anr
ar+2,r
= ...
x1
x2
..
. = 0.
xr
xn
Desarrollando estos n−r menores e igualando a cero, se obtienen n−r ecuaciones lineales homogéneas en
las incógnitas x1 , x2 , . . . , xn , que son condición necesaria y suficiente para que el vector v de coordenadas
x1 , x2 , . . . , xn respecto de B pertenezca a W , y son, por tanto, unas ecuaciones implı́citas o cartesianas
del subespacio W .
206
Álgebra lineal
Ejemplos.
(a) En el ejemplo anterior, este método es más largo que el primero. Porque la matriz de los coeficientes tiene rango 3 , ya que el menor
1
4
2
3
13
−1
2
7 =1
−8
es distinto de cero, y, por el principio de los menores orlados, el rango de la matriz ampliada es 3 si y
sólo si los dos menores de orden 4 que orlan el menor de orden 3 anterior, a saber,
1
4
2
2
3
13
−1
2
2
7
−8
4
x1
x2
x3
x4
1
4
2
−1
y
3
13
−1
1
2
7
−8
−5
x1
x2
x3
x5
son nulos. El resultado es el mismo conjunto de ecuaciones que obtuvimos por el primer método:
(
70X1 − 16X2 + 4X3 + X4
=0
−5X1 +
X2 − X3
+X5 = 0
(b) Hallemos unas ecuaciones implı́citas del subespacio vectorial del ejemplo (1) de la página 200.
La matriz de los coeficientes tiene rango 3 porque el menor
−1
1
0
0 −1
1 3
1 1
Ahora el rango de la matriz ampliada es 3 (y
sólo si
2 −1 0
−1 0 −1
1
1
3
0
1
1
y se tiene que X + 3Y + Z
= 1 6= 0.
el sistema en las incógnitas t1 , t2 , t3 es compatible) si y
x
y
z
t
= −x − 3y − z = 0,
= 0 es una ecuación implı́cita del subespacio respecto de la base estándar.
6. Diagonalización
Los endomorfismos más sencillos de un espacio vectorial V de dimensión n > 1 son las homotecias
vectoriales λIV de V , con λ 6= 0 . Respecto de cualquier base B = {v1 , v2 , . . . , vn } del espacio, la
homotecia vectorial λIV tiene como matriz la matriz escalar


λ 0 ··· 0
0 λ ··· 0

λIn = 
 ... ... . . . ... 
0
0
···
λ
porque λIV (vi ) = λvi para cada i = 1, . . . , n. Y como ya sabemos, si el espacio tiene dimensión 1 , no
hay más endomorfismos no nulos del espacio que las homotecias vectoriales.
Si el espacio tiene dimensión > 2 , entonces el espacio tiene endomorfismos no nulos que no son
homotecias vectoriales. El siguiente caso “más complicado” se presenta cuando el espacio se descompone
en suma directa de dos subespacios y en cada uno de estos dos subespacios, el endomorfismo se comporta
como una homotecia vectorial, con razones distintas.
Ejemplos muy sencillos de endomorfismos de este tipo son
f : R2 −−→ R2
g : R3 −−→ R3
(x, y) 7−→ (2x, 3y)
2
(x, y, z) 7−→ (2x, 3y, 2z)
2
Para el endomorfismo f de R , tenemos R = L[(1, 0)] ⊕ L[(0, 1)] . En el subespacio L[(1, 0)] , f
actúa como la homotecia vectorial de razón 2 , esto es, f (x, 0) = 2(x, 0) = (2x, 0) ; y en el subespacio
L[(0, 1)] , f se comporta como la homotecia vectorial de razón 3 , es decir, f (0, y) = 3(0, y) = (0, 3y) .
Para el endomorfismo g de R3 , tenemos R3 = L[(1, 0, 0), (0, 0, 1)] ⊕ L[(0, 1, 0)]. El endomorfismo g
transforma cada vector (x, 0, z) del subespacio L[(1, 0, 0), (0, 0, 1)] en el vector proporcional 2(x, 0, z) =
(2x, 0, 2z) , y cada vector (0, y, 0) del subespacio L[(0, 1, 0)] tiene como imagen por g , 3(0, y, 0) =
(0, 3y, 0) .
Supongamos que el espacio V se descompone en suma directa de dos subespacios
V = V1 ⊕ V2
y que en cada uno de los subespacios V1 y V2 , el endomorfismo f es una homotecia vectorial, esto es,
hay escalares λ1 y λ2 tales que
(
λ1 v
para cada v ∈ V1 ,
f (v) =
λ2 v
para cada v ∈ V2 .
El endomorfismo actúa de una forma muy sencilla en los vectores de V : Si v es un vector cualquiera
de V , sabemos que existen dos vectores v1 ∈ V1 y v2 ∈ V2 , únicos, tales que v = v1 + v2 . (Para cada
i = 1, 2 el vector vi es la proyección de v sobre Vi en la dirección de V3−i . ) Entonces
f (v) = f (v1 + v2 ) = f (v1 ) + f (v2 ) = λ1 v1 + λ2 v2 .
Sean B1 y B2 sendas bases de los subespacios V1 y V2 . Por una caracterización de la suma directa
de dos subespacios, el conjunto B = B1 ∪ B2 , unión de las bases de los subespacios, es una base del
espacio V . Para cada vector v de la base B , si v ∈ Bi , entonces f (v) = λi v , y las coordenadas de
f (v) respecto de la base B son todas nulas salvo la correspondiente al lugar que ocupa v en la base
B , que es la razón λi . La matriz de f respecto de esta base B es de la forma


λ1
..


.
0

 

λ1
λ 1 I n1
0



=
λ2
0
λ 2 I n2




..


.
0
λ2
208
Álgebra lineal
una matriz diagonal, en la que ni es la dimensión del subespacio Vi , para cada i = 1, 2 .
En los ejemplos anteriores, la matriz de f respecto de la base B = {(1, 0)} ∪ {(0, 1)} de R2 , y la
matriz de g respecto de la base B = {(1, 0, 0), (0, 0, 1)} ∪ {(0, 1, 0)} de R3 , son, respectivamente, las
matrices diagonales


2 0 0
2 0
0 2 0.
y
0 3
0 0 3
No hay ninguna razón para no hacer esto en el caso general en el que el espacio es suma directa de
k > 2 y en cada uno de los k subespacios, el endomorfismo actúa como una homotecia vectorial:
Supongamos que el espacio V se descompone en suma directa de k subespacios
V = V1 ⊕ V2 ⊕ · · · ⊕ Vk
(1)
y que en cada uno de los subespacios Vi , el endomorfismo f es una homotecia vectorial, es decir, existen
escalares λ1 , λ2 , . . . , λk ∈ K tales que para cada v ∈ V ,

λ1 v
si v ∈ V1 ,




 λ2 v
si v ∈ V2 ,
f (v) =

..



 .
λk v
si v ∈ Vk ,
y por f cada vector v del subespacio Vi tiene como imagen f (v) = λi v, que es un vector del mismo
subespacio.
Como en el caso anterior con k = 2, es fácil determinar la actuación de f en los vectores de V :
Si v es un vector cualquiera de V , sabemos que existen k vectores v1 ∈ V1 , v2 ∈ V2 , . . . , vk ∈ Vk ,
únicos, tales que v = v1 + v2 + · · · + vk . Entonces
f (v) = f (v1 + v2 + · · · + vk )
= f (v1 ) + f (v2 ) + · · · + f (vk )
= λ1 v1 + λ2 v2 + · · · + λk vk .
Sea Bi una base del subespacio Vi , para cada i = 1, . . . , k . Por una caracterización de la suma
directa de k > 2 subespacios, el conjunto B = B1 ∪ B2 ∪ . . . ∪ Bk , unión de las bases de los subespacios,
es una base del espacio V . Para cada vector v de la base B , si v ∈ Bi , entonces f (v) = λi v , y las
coordenadas de f (v) respecto de la base B son todas nulas salvo la correspondiente al lugar que ocupa
v en la base B , que es λi . La matriz de f respecto de esta base B es de la forma
λ I

1 n1



λ2 In2
0
0
..
.



λ k I nk
una matriz diagonal, en la que ni es la dimensión del subespacio Vi , para cada i = 1, . . . , k .
Estos son los endomorfismos más sencillos o simples de un espacio vectorial de dimensión finita. Son
los endomorfismos que se llaman endomorfismos diagonalizables: los endomorfismos para los que hay una
base B en el espacio respecto de la cual la matriz MB,B (f ) del endomorfismo es una matriz diagonal.
Es claro que las homotecias vectoriales de un espacio son endomorfismos diagonalizables.
209
Diagonalización
Problema de diagonalización
Sea f : V −−→ V un endomorfismo de un espacio vectorial V de dimensión n > 1 sobre un cuerpo
K . Para cada base B del espacio V , la matriz MB (f ) = MB,B (f ) del endomorfismo f respecto de la
base B (la misma base, tanto de partida como de llegada), es una matriz de Mn (K) . Respecto de otras
bases de V resultan otras matrices de Mn (K) . Consideremos el conjunto de las matrices de Mn (K)
que son matrices del endomorfismo f respecto de alguna base de V :
{MB (f ) | B es una base de V } = {A ∈ Mn (K) | hay una base B de V tal que MB (f ) = A}.
El problema de la diagonalización de un endomorfismo f consiste en saber si en ese conjunto de matrices
hay alguna matriz diagonal. Con otras palabras:
¿hay una base B de V tal que la matriz MB (f ) de f respecto de esa base es una matriz diagonal?
Si la respuesta es afirmativa,
hallar tanto una base como la matriz diagonal del endomorfismo respecto de esa base.
Diagonalizar un endomorfismo f de un espacio vectorial consiste en hallar, si la hay, una base del
espacio respecto de la cual la matriz del endomorfismo es una matriz diagonal, y hallar también esta
matriz diagonal.
No siempre se puede diagonalizar un endomorfismo: hay endomorfismos que no se pueden diagonalizar, o, como diremos más adelante, no son diagonalizables, porque no hay ninguna base de V respecto
de la cual f se represente por una matriz diagonal. Como tiene interés, tanto teórico como práctico, saber
cuando un endomorfismo es diagonalizable, buscaremos criterios sencillos que caractericen la diagonalizabilidad.
La matriz más sencilla que representa una aplicación lineal
Antes de tratar el problema de la diagonalización, observemos que para una aplicación lineal f : V −−→ V 0
entre dos espacios vectoriales V y V 0 de dimensiones n y m , respectivamente, sobre K , en el conjunto
de las matrices de tamaño m × n que representan f
{A ∈ Mm×n (K) | hay bases B de V y B0 de V 0 tales que MB,B0 (f ) = A}
hay matrices “especialmente sencillas,” en el sentido de que tienen muchos ceros y los elementos que no
son cero son 1.
Supongamos que el rango de f es r , esto es, dim im f = r . Entonces dim ker f = n − r. Si
ker f 6= {0} , sea {vr+1 , . . . , vn } una base de ker f . Extendemos esta base de ker f a una base del
espacio V por medio de r vectores v1 , . . . , vr . Sea
B = {v1 , . . . , vr } ∪ {vr+1 , . . . , vn }
la base ası́ obtenida de V . Como los vectores vr+1 , . . . , vn pertenecen al núcleo de f , f (vr+1 ) =
. . . = f (vn ) = 0 , y los r vectores f (v1 ), . . . , f (vr ) de im f , generan im f , y forman una base de im f ,
porque el rango de f es r . Extendemos esta base de im f a una base de V 0 por medio de m − r
vectores wr+1 , . . . , wm . Sea
B0 = {f (v1 ), . . . , f (vr )} ∪ {wr+1 , . . . , wm }
la base de V 0 ası́ obtenida.
Si ker f = {0} , simplemente tomamos una base {v1 , . . . , vn } de V . En este caso, f es inyectiva,
el rango de f es n y los vectores f (v1 ), . . . , f (vn ) forman una base de im f . Esta base se extiende a
una base de V 0 por medio de m − r = m − n vectores wr+1 , . . . , wm . Sea B0 la base de V 0 obtenida.
Hallemos ahora la matriz MB,B0 (f ) de f respecto de estas dos bases. La primera columna de esta
matriz tiene como componentes las coordenadas de f (v1 ) respecto de la base B0 , que son 1, 0, . . . , 0 ;
210
Álgebra lineal
. . . , la columna r -ésima tiene como componentes las coordenadas de f (vr ) respecto de B0 , que son
0, . . . , 0, 1, 0, . . . , 0 (el único 1 está en la posición r -ésima), y las restantes n − r columnas son nulas
porque f (vr+1 ) = . . . = f (vn ) = 0 . Entonces


1 0 ··· 0 0 ··· 0
0 1 ··· 0 0 ··· 0

. . .
. .
. . ... ... . . . ... 
 . .
Ir
0r×(n−r)


,
MB,B0 (f ) =  0 0 · · · 1 0 · · · 0  =
0(m−r)×r 0(m−r)×(n−r)


0 0 ··· 0 0 ··· 0

. . .
. . ... ... . . . ... 
 .. ..
0 0 ··· 0 0 ··· 0
que tiene exactamente r filas y r columnas no nulas, esto es, la mayor submatriz no nula de la matriz
es Ir , con r = rango f = dim im f .
Proposición. Sean V y V 0 espacios vectoriales de dimensiones n y m > 1 sobre K , y sea f : V →
V 0 una aplicación lineal de V en V 0 . Sea r el rango de f . Entonces existen bases B y B0 de V y
V 0 , respectivamente, tales que la matriz de f respecto de estas dos bases es
Ir
0r×(n−r)
MB,B0 (f ) =
.
0(m−r)×r 0(m−r)×(n−r)
Ejemplos.
(1) Sea f : R4 −−→ R3 la aplicación lineal definida por
f (x, y, z, t) = (x + z + t, 2x + y + z + 3t, x + y + 2t),
para cada (x, y, z, t) ∈ R4 .
El rango de f es 2 porque el rango de la matriz de f respecto de las bases estándares de R4 y R3


1 0 1 1
MB4e ,B3e (f ) =  2 1 1 3 
1 1 0 2
es 2. El núcleo de f tiene dimensión dim R4 − dim im f = 4 − 2 = 2 y una base de ker f es
{(−1, −1, 0, 1), (−1, 1, 1, 0)}. Esta base se extiende a una base de R4
B = {(1, 0, 0, 0), (0, 1, 0, 0)} ∪ {(−1, −1, 0, 1), (−1, 1, 1, 0)}.
Los vectores f (1, 0, 0, 0) = (1, 2, 1) y f (0, 1, 0, 0) = (0, 1, 1) forman una base de im f que se extiende a
una base de R3
B0 = {(1, 2, 1), (0, 1, 1)} ∪ {(1, 0, 0)}.
La matriz MB,B0 (f ) de f respecto de estas dos bases

1 0 0
0 1 0
0 0 0
es

0
0.
0
(2) Si f es un isomorfismo entre dos espacios vectoriales V y V 0 de la misma dimensión n > 1,
entonces para cada base B = {v1 , v2 , . . . , vn }, el conjunto imagen f [B] = {f (v1 ), f (v2 , . . . , f (vn )} es
una base de V 0 y la matriz de f respecto de estas dos bases B y f [B] es, claramente,


1 0 ··· 0
0 1 ··· 0

MB,f [B] (f ) = 
 ... ... . . . ...  = In .
0
0
···
1
En el caso particular en el que V y V 0 son el mismo espacio vectorial V de dimensión n , hay
dos bases B y B0 de V tales que
Ir
0r×(n−r)
MB,B0 (f ) =
,
0(n−r)×r
0n−r
211
Diagonalización
una matriz diagonal de orden n , y donde r es el rango del endomorfismo f de V .
Por ejemplo, el endomorfismo f : R4 −−→ R4 definido por
para cada (x, y, z, t) ∈ R4 ,
f (x, y, z, t) = (2x + y − t, y + t, x − z, 2x + y),
es biyectivo, como se puede comprobar fácilmente, ya
estándar de R4

2
0
MB4e (f ) = 
1
2
que el rango de la matriz de f respecto de la base

1 0 −1
1 0
1 

0 −1 0
1 0
0
es 4. La matriz MB4e ,B (f ) de f respecto de la base estándar de R4 en el dominio y la base
B = f [B4e ] = {f (e1 ), f (e2 ), f (e3 ), f (e4 )} = {(2, 0, 1, 2), (1, 1, 0, 1), (0, 0, −1, 0), (−1, 1, 0, 0)}
en el espacio de llegada es la matriz
1
0
= 
0
0
0
1
0
0

I4
0
0
1
0

0
0

0
1
la matriz identidad de orden 4.
Desde un punto de vista práctico, el hecho de disponer de una matriz ası́ tiene poca utilidad. El
motivo es que, para un endomorfismo f de V , están involucradas dos bases B y B0 del espacio
vectorial V , y la base B del espacio de partida V no es igual a la base B0 del espacio de llegada V .
Por ejemplo, ¿cuál es la matriz MB,B0 (f 2 ) de f 2 = f ◦ f respecto de esas bases?
V
f
−−−−−→
V
f
−−−−−→
B0
B
V
B0
Entonces
MB,B0 (f 2 ) = MB,B0 (f ◦ f ) = MB0 ,B0 (f ) · MB,B0 (f )
y esta matriz MB0 ,B0 (f ) · MB,B0 (f ) es distinta de MB,B0 (f )2 .
Tiene mucho más interés obtener una base B del espacio V tal que la matriz del endomorfismo
f : V −−→ V respecto de esa base (tanto de partida como de llegada) sea una matriz “con muchos ceros”,
en especial, una matriz diagonal, si es posible. Porque, por ejemplo, si llegamos a obtener una matriz
diagonal, la matriz MB (f k ) de f k respecto de la base B es MB (f )k , para cada k > 1 , y es fácil hallar
potencias de matrices diagonales. Con esto llegamos al problema de la diagonalización con las preguntas
del comienzo: ¿Hay alguna base del espacio vectorial tal que la matriz del endomorfismo respecto de esa
base sea una matriz diagonal?
Semejanza de matrices
Veamos qué relación se da entre las distintas matrices que representan un mismo endomorfismo respecto
de las bases del espacio vectorial.
Sea V un espacio vectorial de dimensión finita n > 1 sobre K y sea B = {v1 , . . . , vn } una base de
V . Para cada endomorfismo f : V −−→ V del espacio vectorial V , sea MB (f ) = MB,B (f ) la matriz
de f respecto de la base B .
Sea B0 otra base de V y sea MB0 (f ) la matriz de f respecto de B0 . ¿Qué relación hay entre
estas dos matrices MB (f ) y MB0 (f ) de orden n ? Como en la tercera parte,
id
V
−−−−
−→
V
0
B
V
B
f
−−−−−→
V
B
id
V
−−−−
−→
V
B0
212
Álgebra lineal
Entonces
MB0 (f ) = MB0 ,B0 (f )
= MB0 ,B0 (idV ◦ f ◦ idV )
= MB,B0 (idV ) · MB,B (f ) · MB0 ,B (idV )
= M (B, B0 ) · MB (f ) · M (B0 , B)
= M (B, B0 ) · MB (f ) · M (B, B0 )−1
o también
MB0 (f ) = M (B0 , B)−1 · MB (f ) · M (B0 , B),
y hay una matriz invertible P , que es M (B0 , B) , de Mn (K) tal que
MB0 (f ) = P −1 · MB (f ) · P,
y, como diremos más abajo, las matrices MB (f ) y MB0 (f ) son semejantes.
Inciso: Determinante y traza de un endomorfismo
Tomando determinantes en la última igualdad, tenemos
det MB0 (f ) = det(P −1 · MB (f ) · P )
= det(P −1 ) · det MB (f ) · det P
= (det P )−1 · det MB (f ) · det P
= det MB (f ),
de donde deducimos que det MB (f ) no depende de la base B del espacio V : sólo depende del endomorfismo f . Se llama determinante del endomorfismo f al determinante de la matriz MB (f ) de f
respecto de una base (cualquiera) B de V . La notación para el determinante de f es, naturalmente,
det f .
Recordemos que la traza tr A de una matriz cuadrada A = (aij )n es la suma de los elementos de
la diagonal principal de la matriz:
tr A = a11 + a22 + · · · + ann .
Es una comprobación sencilla que si A y B son matrices de Mn (K), entonces AB y BA tienen la
misma traza. Teniendo esta propiedad en cuenta,
tr MB0 (f ) = tr (P −1 · MB (f ) · P )
= tr P −1 · (MB (f ) · P )
= tr (MB (f ) · P ) · P −1
= tr MB (f ) · In
= tr MB (f ),
y deducimos que tr MB (f ) no depende de la base B del espacio vectorial V , sólo depende del endomorfismo f . Se llama traza del endomorfismo f a la traza de la matriz MB (f ) de f respecto de una
base (cualquiera) B de V . La notación para la traza de f es tr f .
Matrices semejantes
Se dice que dos matrices A y B de Mn (K) son semejantes si hay una matriz invertible P de Mn (K)
tal que B = P −1 · A · P .
Ejemplos.
(1) Todas las matrices de un mismo endomorfismo de V respecto de las distintas bases de V son
semejantes.
(2) ¿Qué matrices son semejantes a una matriz escalar λIn ? Son las matrices de la forma P −1 ·
(λIn ) · P, con P matriz invertible de orden n. Pero
P −1 · (λIn ) · P = λ(P −1 · In · P ) = λ(P −1 · P ) = λIn ,
213
Diagonalización
la propia matriz escalar λIn , luego sólo hay una matriz semejante a una matriz escalar: la propia matriz
escalar.
En particular, sólo hay una matriz semejante a la matriz identidad de orden n : la matriz identidad
de orden n.
Como el determinante de un producto de matrices de orden n es el producto de los determinantes
de las matrices,
det B = det(P −1 · A · P ) = det P −1 · det A · det P =
1
· det A · det P = det A,
det P
las matrices semejantes tienen el mismo determinante.
Y como
tr (B) = tr (P −1 ·A·P ) = tr (P −1 ·(A·P )) = tr ((A·P )·P −1 ) = tr (A·(P ·P −1 )) = tr (A·In ) = tr A,
las matrices semejantes tienen la misma traza.
La relación de semejanza entre matrices de Mn (K) tiene las propiedades de las relaciones de equivalencia, y es, por tanto, una relación de equivalencia en Mn (K) :
• Reflexiva: Cada matriz A de orden n es semejante a sı́ misma, porque A = I−1
n · A · In .
• Simétrica: Si B = P −1 · A · P , entonces P · B = P · P −1 · A · P = A · P , de donde P · B · P −1 =
A · P · P −1 = A y tenemos (P −1 )−1 · B · P −1 = A , es decir, B es semejante a A .
• Transitiva: Si C = Q−1 · B · Q y B = P −1 · A · P , entonces
C = Q−1 · (P −1 · A · P ) · Q = (P · Q)−1 · A · (P · Q)
y A es semejante a C .
En el conjunto Mn (K) de matrices de orden n de elementos de K la relación de semejanza es
una relación de equivalencia, y el conjunto Mn (K) “se parte” en clases de equivalencia. En la clase de
equivalencia de una matriz A de orden n están todas las matrices semejantes a A y ninguna más. Y
no hay ninguna matriz que esté en dos clases de equivalencia distintas.
Por ejemplo, la clase de equivalencia de la matriz escalar λIn sólo tiene un elemento, la propia
matriz escalar.
Otro ejemplo: fijado un espacio vectorial V de dimensión n sobre K , en la clase de equivalencia
en la que está la matriz MB (f ) de un endomorfismo f de V respecto de una base B están todas las
matrices que son matriz de f respecto de una base de V , porque, como hemos demostrado más arriba,
las matrices que representan un mismo endomorfismo respecto de las bases del espacio son semejantes.
Y se cumple el recı́proco: si dos matrices de orden n son semejantes es que son matrices de un mismo
endomorfismo de un espacio vectorial de dimensión n respecto de dos bases distintas:
Proposición. Sea V un espacio vectorial de dimensión finita n > 1 sobre K y sean A y B dos
matrices de Mn (K) . Los enunciados siguientes son equivalentes:
(1) A y B son matrices semejantes, y
(2) hay un endomorfismo f de V y bases B y B0 de V tales que A es la matriz MB (f ) y B
es la matriz MB0 (f ) .
Demostración. (1) ⇒ (2) Supongamos que B = P −1 · A · P con P invertible de orden n . Sea B una
base cualquiera de V y sea f el endomorfismo de V cuya matriz respecto de la base B es la matriz A ,
esto es, MB (f ) = A . Para cada j = 1, . . . , n , sea wj el vector de V cuyas coordenadas respecto de la
base B son los escalares de la columna j -ésima de la matriz P , es decir, wj = p1j v1 +· · ·+pnj vn . Como
la matriz P es invertible, su rango es n , luego los vectores w1 , . . . , wn son linealmente independientes
y forman una base B0 de V . Además, MB0 ,B (idV ) = P . Y la matriz de f respecto de esta base B0
es B :
id
V
−−−−
−→ V
V
0
B
B
f
−−−−−→
V
B
id
V
−−−−
−→
V
B0
214
Álgebra lineal
y
MB0 (f ) = MB0 (idV ◦ f ◦ idV )
= MB,B0 (idV ) · MB (f ) · MB0 ,B (idV )
= M (B, B0 ) · MB (f ) · M (B0 , B)
= P −1 · A · P
= B.
(2) ⇒ (1) Ya estaba demostrado más arriba.
Endomorfismos y matrices diagonalizables
Sea V un espacio vectorial de dimensión finita n
dice que f es diagonalizable si hay una base B de
esto es, de la forma

λ1 0
 0 λ2
 .
..
 ..
.
0
0
> 1 sobre K y sea f un endomorfismo de V . Se
V tal que la matriz MB (f ) es una matriz diagonal,
···
···
..
.
···

0
0 
.. 
. 
λn
para escalares λ1 , λ2 , . . . , λn de K .
En el caso anterior se dice también que la base B es una base de V respecto de la cual f se
diagonaliza.
Sea A = (aij )n una matriz de Mn (K) y sea fA : Kn −−→ Kn el endomorfismo de Kn definido
por:
f (x1 , . . . , xn ) = (a11 x1 + · · · + a1n xn ,
a21 x1 + · · · + a2n xn ,
. . . , an1 x1 + · · · + ann xn ),
para cada (x1 , . . . , xn ) de Kn , esto es, el endomorfismo f de Kn cuya matriz MBne (fA ) respecto de
la base estándar de Kn es la matriz A .
Se dice que la matriz A de Mn (K) es diagonalizable si el endomorfismo fA de Kn es diagonalizable,
esto es, hay una base B de Kn tal que la matriz MB (fA ) de fA respecto de esa base es una matriz
diagonal.
Como la matriz A = MBne (fA ) y la matriz MB (fA ) son matrices de un mismo endomorfismo fA
de Kn respecto de bases distintas, las dos matrices son semejantes, y si A es diagonalizable, entonces
A es semejante a una matriz diagonal.
Por la proposición anterior, si la matriz A es semejante a una matriz diagonal B , A y B son
matrices de un mismo endomorfismo f de Kn , que es diagonalizable, porque respecto de la base B, su
matriz es la matriz diagonal B. Por lo tanto,
Corolario. Sea A una matriz de Mn (K) . Los enunciados siguientes son equivalentes:
(a) A es diagonalizable,
(b) A es semejante a una matriz diagonal.
Más general,
Corolario. Sea f es un endomorfismo de V y sea B una base de V . Los enunciados siguientes son
equivalentes
(a) f es diagonalizable,
(b) la matriz MB (f ) de f respecto de B es semejante a una matriz diagonal.
Demostración. (a) ⇒ (b): Si f es diagonalizable, hay una base B0 de V tal que la matriz MB0 (f )
de f respecto de B0 es diagonal. Como MB (f ) también es matriz de f respecto de una base, las dos
matrices MB (f ) y MB0 (f ) son semejantes.
(b) ⇒ (a): Si la matriz MB (f ) es semejante a una matriz diagonal D, hay otra base B0 de V
tal que D = MB0 (f ). Luego f es diagonalizable.
215
Diagonalización
Con este corolario el problema de la diagonalización de endomorfismos tiene una formulación equivalente:
la matriz MB (f ) de f respecto de una base cualquiera B de V , ¿es semejante a una matriz diagonal?
Si f es un endomorfismo diagonalizable de V y B = {v1 , . . . , vn } es una base de V tal que la
matriz MB (f ) es diagonal:


λ1 0
0 ··· 0
 0 λ2 0 · · · 0 


0
0 λ3 · · · 0 
MB (f ) = diagn (λ1 , λ2 , λ3 , . . . , λn ) = 
 .
..
.. . .
. 
 ..
. .. 
.
.
0
0
0 · · · λn
entonces las coordenadas de f (v1 ) respecto de la base B son λ1 , 0, . . . , 0 y, por lo tanto, f (v1 ) = λ1 v1 .
Del mismo modo,
para cada i = 1, . . . , n , se tiene
f (vi ) = λi vi ,
y, por tanto, en V hay vectores v que por f se transforman en múltiplos escalares λv suyos.
Recı́procamente, si hay una base B = {v1 , . . . , vn } y escalares λ1 , . . . , λn ∈ K tales que f (vi ) =
λi vi para cada i = 1, . . . , n , entonces la matriz MB (f ) es diagonal, y f es diagonalizable. Observemos
que en la diagonal de la matriz diagonal están los “factores de proporcionalidad” λ1 , . . . , λn .
Ejemplos.
(1) Si el espacio vectorial V tiene dimensión 1 , por la proposición de la pág. 122 sabemos que cada
endomorfismo f de V es una homotecia vectorial, es decir, es de la forma λ idV , para un λ ∈ K , y f
es diagonalizable, y cualquier base de V es una base respecto de la cual la matriz de f es diagonal: es
una matriz de orden 1 .
Si V tiene dimensión mayor que 1 , ya no podemos asegurar que cada endomorfismo de V sea
diagonalizable. De hecho hay endomorfismos que no transforman ningún vector no nulo en un vector
proporcional:
(2) El endomorfismo f de R2 , definido por
f (x, y) = (−y, x)
para cada (x, y) ∈ R2
no transforma ningún vector (x, y) de R2 , distinto de (0, 0) , en un múltiplo escalar λ(x, y) suyo: supongamos que f (x, y) = λ(x, y) para un (x, y) 6= (0, 0) de R2 y un λ ∈ R . Se tiene f (x, y) = (−y, x) =
(λx, λy) y el sistema
(
λx + y= 0
x − λy= 0
lleva a λ2 + 1 = 0 , sin solución en R o a (x, y) = (0, 0) .
Análogamente,
si n > 1, hay matrices de Mn (K) que no son diagonalizables. Por ejemplo la matriz
0 −1
real
, que es la matriz del endomorfismo f anterior respecto de la base estándar B2e .
1 0
Vectores propios y valores propios
Las consideraciones anteriores llevan, de manera natural, a las nociones siguientes.
Sea V un espacio vectorial sobre K y sea f un endomorfismo de V . Se dice que un escalar λ de
K es un autovalor o valor propio de f si hay un vector v en V distinto del vector cero 0 tal que
f (v) = λv .
Un vector v de V se dice que es un vector propio o autovector de f si
v es distinto del vector cero 0 y f (v) = λv , para un escalar λ .
216
Álgebra lineal
Este λ es, por tanto, un valor propio de f , y se dice también que v es un vector propio de f respecto
del (o correspondiente al) autovalor λ .
El conjunto de los autovalores de un endomorfismo f se llama espectro de f .
Sea A una matriz de Mn (K) y sea, como más arriba, fA : Kn −−→ Kn el endomorfismo de Kn
cuya matriz respecto de la base estándar de Kn es A. Un vector propio de la matriz A es cada vector
propio del endomorfismo fA , y un autovalor de la matriz A es cada autovalor de fA .
Ejemplos
(a) Si f es el endomorfismo identidad idV de V , entonces cada vector v distinto del vector cero
0 es un vector propio de f con autovalor λ = 1 .
(b) Si f es un endomorfismo cuyo núcleo ker f es distinto del subespacio cero {0} , entonces cada
vector v del núcleo de f distinto del vector cero 0 es un vector propio de f de autovalor λ = 0 :
f (v) = 0 = 0v,
para cada v ∈ ker f.
De hecho, los vectores propios de f de autovalor cero junto con el vector cero 0 son todos los vectores
de ker f .
(c) Si f es la homotecia vectorial λ idV de V de razón λ , entonces todo vector de V distinto
del vector 0 es un vector propio de f de autovalor λ . La razón λ de la homotecia es el único autovalor
de λ idV .
(d) El endomorfismo f de R4 definido por
f (x, y, z, t) = (y, x, z + 2t, 2z + t),
para cada (x, y, z, t) ∈ R4 ,
tiene a λ = 1 como autovalor, porque f (1, 1, 0, 0) = (1, 1, 0, 0) = 1(1, 1, 0, 0), y (1, 1, 0, 0) es un vector
propio de f correspondiente al autovalor λ = 1.
También λ = 3 es autovalor de f, porque f (0, 0, 1, 1) = (0, 0, 3, 3) = 3(0, 0, 1, 1), y (0, 0, 1, 1) es
un vector propio de f para el autovalor λ = 3.
Y también λ = −1 es un autovalor de f, porque f (−1, 1, 0, 0) = (1, −1, 0, 0) = (−1)(−1, 1, 0, 0),
y f (0, 0, −1, 1) = (0, 0, 1, −1) = (−1)(0, 0, −1, 1). Los vectores (−1, 1, 0, 0) y (0, 0, −1, 1) son vectores
propios de f respecto del autovalor λ = −1 y son linealmente independientes.
(e) En el ejemplo (2) de más arriba, el endomorfismo f no tiene autovalores y, por tanto, tampoco
tiene vectores propios.
(f) El endomorfismo f de C2 , definido por
f (x, y) = (−y, x)
para cada (x, y) ∈ C2
sı́ tiene autovalores y vectores propios: supongamos que f (x, y) = λ(x, y) para un (x, y) 6= (0, 0) de C2
y un λ ∈ C . Se tiene f (x, y) = (−y, x) = (λx, λy) y el sistema
(
λx + y= 0
x − λy= 0
tiene solución en (x, y) ∈ C2 siempre que λ2 + 1 = 0 , esto es, para λ = ±i. Por tanto i y −i son
autovalores de f.
(g) Si V = V1 ⊕ V2 y p1 es la proyección vectorial de V sobre V1 en la dirección de V2 , entonces
cada vector de V1 distinto del vector 0 es un vector propio de p1 de autovalor 1 , y cada vector de V2
distinto del vector 0 es un vector propio de p1 de autovalor 0 .
Si p2 es la proyección vectorial de V sobre V2 en la dirección de V1 , entonces cada vector de V2
distinto del vector 0 es un vector propio de p2 de autovalor 1 , y cada vector de V1 distinto del vector
0 es un vector propio de p2 de autovalor 0 .
(h) Si V = V1 ⊕ V2 y s1 es la simetrı́a vectorial de V respecto de V1 en la dirección de V2 ,
entonces cada vector de V1 distinto del vector 0 es un vector propio de s1 de autovalor 1 , y cada
vector de V2 distinto del vector 0 es un vector propio de s1 de autovalor −1 .
(i) Sea f : C[X] −−→ C[X] el endomorfismo definido por
f (p(X)) = Xp(X),
para cada p(X) ∈ C[X].
217
Diagonalización
Si λ ∈ C es un autovalor de f hay un polinomio p(X) no nulo en C[X] tal que f (p(X)) = Xp(X) =
λp(X). No puede haber ningún polinomio con esa propiedad y distinto del polinomio nulo, porque el
grado de Xp(X) es el grado de λp(X) más 1. Luego f no tiene valores propios y tampoco vectores
propios.
(j) Sea C ∞ (R) el espacio vectorial real de las funciones f : R −−→ R que tienen derivadas de todos
los órdenes en todos los puntos de R. Por ejemplo, las funciones polinomiales, las funciones seno y coseno
(pero no la función tangente), las funciones exponenciales (pero no la función logaritmo), pertenecen a
C ∞ (R). Sea D : C ∞ (R) −−→ C ∞ (R) la aplicación definida por
D(f ) = f 0 , la función derivada de f, para cada f ∈ C ∞ (R),
que es un endomorfismo de C ∞ (R). Hallamos los autovalores y los vectores propios de D. Si λ ∈ R es
un autovalor de D hay una función f no nula en el espacio tal que
D(f ) = f 0 = λf.
La igualdad f 0 = λf es una ecuación diferencial de primer orden y sus soluciones son las funciones de la
forma
t 7→ f (t) = aeλt , para cada t ∈ R, con a un número real fijo.
Por tanto, todo número real λ es autovalor de D. Para λ = 0, los vectores propios correspondientes
son las funciones f no nulas tales que D(f ) = f 0 = 0f = la función constante cero, es decir, son las
funciones constantes distintas de la función constante cero.
Proposición. (Primer criterio de diagonalizabilidad) Sea V un espacio vectorial de dimensión n > 1
sobre K y sea f un endomorfismo de V . Las condiciones siguientes son equivalentes:
(a) f es diagonalizable, y
(b) hay una base de V formada por vectores propios de f .
Demostración. (a) ⇒ (b) Como está demostrado más arriba, si B es una base de V tal que MB (f )
es diagonal, los elementos de B son vectores propios de f .
(b) ⇒ (a) Si B es una base de V cuyos elementos son vectores propios de f , entonces MB (f ) es
diagonal, y los elementos de la diagonal de esta matriz son autovalores de f .
Proposición. Vectores propios de f de autovalores distintos son linealmente independientes: esto es, si
v1 , . . . , vk son vectores propios de f correspondientes a los autovalores λ1 , . . . , λk , y estos escalares
λ1 , . . . , λk son distintos, entonces los vectores v1 , . . . , vk son linealmente independientes.
Demostración. Por inducción sobre el número k de vectores. Para k = 1 , si v1 es un vector propio de
autovalor λ1 , entonces v1 es linealmente independiente, porque v1 es distinto del vector cero 0 .
Supongamos el resultado cierto para cualesquiera k−1 > 0 vectores de V . Sean v1 , . . . , vk vectores
propios de f con autovalores λ1 , . . . , λk , que son escalares distintos dos a dos. Veamos que v1 , . . . , vk
son linealmente independientes. Supongamos que µ1 , . . . , µk son escalares de K tales que
µ1 v1 + µ2 v2 + · · · + µk vk = 0.
(1)
Aplicamos f en los dos lados,
f (µ1 v1 + µ2 v2 + · · · + µk vk ) = µ1 f (v1 ) + µ2 f (v2 ) + · · · + µk f (vk ) = 0,
es decir,
µ1 (λ1 v1 ) + µ2 (λ2 v2 ) + · · · + µk (λk vk ) = f (0) = 0.
(2)
Multiplicando la igualdad (1) por λk resulta
λk (µ1 v1 + µ2 v2 + · · · + µk vk ) = µ1 λk v1 + µ2 λk v2 + · · · + µk λk vk = 0,
y restando (3) de (2),
µ1 (λ1 − λk )v1 + µ2 (λ2 − λk )v2 + · · · + µk−1 (λk−1 − λk )vk−1 = 0.
Por la hipótesis de inducción, los k − 1 vectores v1 , . . . , vk−1 son linealmente independientes, luego
µ1 (λ1 − λk ) = · · · = µk−1 (λk−1 − λk ) = 0.
(3)
218
Álgebra lineal
Pero λi − λk 6= 0 para cada i = 1, . . . , k − 1 , y µ1 = · · · = µk−1 = 0 . Con esto la igualdad (1) queda
reducida a µk vk = 0 , de donde µk = 0 , porque vk es distinto del vector cero 0 , al ser vector propio
de f . En total, µ1 = · · · = µk = 0 , como querı́amos demostrar.
Dos consecuencias de esta proposición:
Corolario. Sea f un endomorfismo de un espacio vectorial V de dimensión n > 1 sobre K . Entonces
(a) f tiene a lo más n autovalores distintos, y
(b) si f tiene n autovalores distintos, entonces f es diagonalizable.
Demostración. (a) Si f tiene más de n autovalores distintos, en V hay más de n vectores linealmente
independientes, lo que no es posible, porque dim V = n.
(b) Sean λ1 , . . . , λn , n autovalores distintos de f . Para cada i = 1, . . . , n , sea vi un vector propio
de f de autovalor λi . Por la proposición anterior, los vectores v1 , . . . , vn son linealmente independientes,
y están en un espacio vectorial de dimensión n , luego {v1 , . . . , vn } es una base del espacio formada por
vectores propios de f , y f es diagonalizable.
Las homotecias vectoriales de un espacio vectorial tienen todos los vectores no nulos del espacio
como vectores propios de la homotecia vectorial, y todos del mismo autovalor: la razón de la homotecia.
El recı́proco:
Proposición. Si cada vector v distinto de 0 de V es un vector propio de f , entonces f es la
homotecia vectorial de V de razón λ para un escalar λ ∈ K , esto es, f = λ idV .
Demostración. Si V tiene dimensión 1 , ya lo hemos demostrado. Supongamos que V tiene dimensión
> 1 . Sea B = {v1 , . . . , vn } una base de V . Por la hipótesis, existen escalares λ1 , . . . , λn ∈ K tales que
f (vi ) = λi vi para cada i = 1, . . . , n . Sean i, j dos enteros distintos tales que 1 6 i, j 6 n y sea wij el
vector vi + vj . Por la hipótesis existe un escalar λij ∈ K tal que
f (wij ) = λij wij = λij (vi + vj ) = λij vi + λij vj .
Por otro lado,
f (wij ) = f (vi + vj ) = f (vi ) + f (vj ) = λi vi + λj vj ,
y como vi y vj son linealmente independientes por pertenecer a una base, de las igualdades
f (wij ) = λij vi + λij vj = λi vi + λj vj
se deduce λi = λj = λij . Ası́ que λ1 = . . . = λn , y si λ es este valor común, f (vi ) = λvi para cada
i = 1, . . . , n , f (v) = λv para todo vector v ∈ V , y se acaba la demostración.
Subespacios propios
Sea λ un autovalor de un endomorfismo f . Sea Vλ (f ) el conjunto de los vectores propios de f correspondientes al autovalor λ más el vector cero 0 :
Vλ (f ) = {v ∈ V | v es un vector propio de f de autovalor λ} ∪ {0}
= {v ∈ V | f (v) = λv}.
Proposición. Si λ es un autovalor de f , entonces Vλ (f ) es un subespacio vectorial de V distinto de
{0} .
Demostración. El conjunto Vλ (f ) es distinto de {0} , porque λ es un autovalor de f y hay vectores
propios de autovalor λ . Los vectores propios son distintos de 0 . Sean v y w vectores de Vλ (f ) y sean
µ, ν escalares de K . Se tiene
f (µv + νw) = µf (v) + νf (w) = µλv + νλw = λ(µv + νw)
y, si es distinto de 0 , el vector µv + νw es un vector propio de f de autovalor λ .
Para cada valor propio λ ∈ K de f , el subespacio Vλ (f ) recibe el nombre de subespacio vectorial
propio o, más corto, subespacio propio de V para o correspondiente al autovalor λ .
219
Diagonalización
Si A es una matriz de Mn (K) , se llama subespacio propio de A correspondiente al autovalor λ
al subespacio propio Vλ (fA ) de Kn correspondiente al autovalor λ del endomorfismo fA de Kn , y se
indica por Vλ (A) .
La dimensión del subespacio vectorial propio Vλ (f ) ( o de Vλ (A) ) correspondiente a un autovalor
λ es un dato numérico importante: se llama multiplicidad geométrica del autovalor λ de f (o de A ).
Como Vλ (f ) es un subespacio de V distinto del subespacio cero, su dimensión, es decir, la multiplicidad
geométrica del autovalor λ , es siempre
1 6 dim Vλ (f ) 6 n.
Una consecuencia del último corolario: si dim V = n > 1, entonces cada endomorfismo de V
determina a lo más n subespacios propios distintos. Y si tiene exactamente n subespacios propios
distintos, el endomorfismo es diagonalizable.
Si sabemos hallar núcleos de endomorfismos, sabemos hallar subespacios propios, porque
Proposición. Para cada autovalor λ de f , Vλ (f ) = ker(f − λ idV ).
Demostración. Se tiene
Vλ (f ) = {v ∈ V | f (v) = λv}
= {v ∈ V | f (v) − λv = 0}
= {v ∈ V | (f − λ idV )(v) = 0}
= ker(f − λ idV ).
Sea B = {v1 , . . . , vn } una base de V . La matriz del endomorfismo λ idV de V respecto de B es
λ
0
MB (λ idV ) = λ MB (idV ) = λ In = 
 ...
0
λ
..
.
···
···
..
.

0
0
.. 
.
0
0
···
λ

y si MB (f ) = (aij )n es la matriz de un endomorfismo f respecto de B , entonces la matriz del endomorfismo f − λ idV respecto de B es
a11 − λ
 a21
MB (f − λ idV ) = MB (f ) − MB (λ idV ) = MB (f ) − λIn = 
..

.

a1n
a12
a22 − λ
..
.
···
···
..
.
a1n
a2n
..
.
a2n
···
ann − λ


.

Y tenemos un método para hallar la multiplicidad geométrica del autovalor λ :
dim Vλ (f ) = dim ker(f − λ idV )
= n − dim im(f − λ idV )
= n − rango(f − λ idV )
= n − rango MB (f − λ idV )
para una base (cualquiera) B de V
= n − rango (MB (f ) − λ In ) .
Ejemplo.
Hallamos la multiplicidad geométrica de cada autovalor del endomorfismo f de R4 del ejemplo (d)
de más arriba. Respecto de la base estándar de R4 la matriz de f es
0
1
MB4e (f ) = 
0
0

1
0
0
0
0
0
1
2

0
0

2
1
220
Álgebra lineal
y la multiplicidad geométrica del autovalor λ = 1

 
0 1 0 0
1 0
 1 0 0 0   0 1
dim V1 (f ) = 4−rango 
−
0 0 1 2
0 0
0 0 2 1
0 0
La multiplicidad geométrica

0
 1
dim V3 (f ) = 4−rango 
0
0
es
0
0
1
0


0
−1
0 
 1
 = 4−rango 
0
0
1
0
1
−1
0
0

0 0
0 0
 = 4−3 = 1.
0 2
2 0
del autovalor λ = 3 es
 
1 0 0
3 0 0
0 0 0 0 3 0
−
0 1 2
0 0 3
0 2 1
0 0 0


0
−3
0 
 1
 = 4−rango 
0
0
3
0
1
−3
0
0
0
0
−2
2
Y la multiplicidad geométrica

0
 1
dim V−1 (f ) = 4−rango 
0
0
del autovalor λ = −1 es
 
1 0 0
−1 0
0
0 0 0   0 −1 0
−
0 1 2
0
0 −1
0 2 1
0
0
0


0
1
0 
1
 = 4−rango 
0
0
−1
0
1
1
0
0

0
0 
 = 4−3 = 1.
2
−2
0
0
2
2

0
0
 = 4−2 = 2.
2
2
Llegados a este punto, necesitamos un método para hallar los autovalores de un endomorfismo. Entre
otras cosas, porque si hay una base del espacio respecto de la cual la matriz del endomorfismo es diagonal,
los elementos de la diagonal de la matriz son los autovalores del endomorfismo. La siguiente proposición da
la caracterización de los autovalores de un endomorfismo, en la que se basará el método que utilizaremos
para hallar los posibles autovalores.
Proposición. Sea V un espacio vectorial de dimensión finita n > 1 sobre K y sea f un endomorfismo
de V . Para cada escalar λ ∈ K , los enunciados siguientes son equivalentes
(a) λ es un autovalor de f , y
(b) det(f − λ idV ) = 0.
Demostración. Para cada λ ∈ K , tenemos
λ es un autovalor de f ⇐⇒ el endomorfismo f tiene un vector propio v de autovalor λ
⇐⇒ existe v ∈ V , v 6= 0, tal que f (v) = λv
⇐⇒ existe v ∈ V , v 6= 0, tal que f (v) − λv = 0
⇐⇒ existe v ∈ V , v 6= 0, tal que (f − λ idV )(v) = 0
⇐⇒ el núcleo ker(f − λ idV ) 6= {0}
⇐⇒ el endomorfismo f − λ idV no es inyectivo
⇐⇒ el endomorfismo f − λ idV no es un automorfismo de V
⇐⇒ el endomorfismo f − λ idV no es sobreyectivo
⇐⇒ dim im(f − λ idV ) < n
⇐⇒ el rango de (f − λ idV ) es < n
⇐⇒ rango MB (f − λ idV ) < n, para una base cualquiera B de V
⇐⇒ det MB (f − λ idV ) = 0, para una base cualquiera B de V
⇐⇒ det(f − λ idV ) = 0.
¿Qué es det(f − λ idV ) ?
Para cada base B de V ,
det(f − λ idV ) = det MB (f − λ idV ) = det(MB (f ) − λIn ).
Luego, si B es una base cualquiera de V ,
un escalar λ de K es un autovalor de f
si y sólo si
det(MB (f ) − λIn ) = 0 .
Los autovalores de f son los escalares λ que hacen det(MB (f ) − λIn ) = 0 , o, con otras palabras,
las soluciones en X de det(MB (f ) − XIn ) = 0 .
¿Qué es det(MB (f ) − XIn ) ?
221
Diagonalización
Interludio: Polinomios
Sea K un cuerpo y sea X una letra, una indeterminada. Sea K[X] el conjunto de los polinomios con
coeficientes en K en la indeterminada X , esto es, expresiones de la forma
an X n + an−1 X n−1 + · · · + a2 X 2 + a1 X + a0
donde an , an−1 , . . . , a2 , a1 , a0 son elementos de K , los coeficientes del polinomio. El polinomio cero de
K[X] es el elemento cero 0 de K . Si p(X) es el polinomio anterior, y no es el polinomio cero 0 , el
grado del polinomio p(X) es el máximo i tal que 0 6 i 6 n y ai 6= 0 . Esta definición no funciona para
el polinomio cero y se dice que el grado del polinomio cero 0 es −∞ .
En el conjunto K[X] están definidas las operaciones naturales de adición + y multiplicación · de
polinomios. En el producto se cumple
grado(p(X) · q(X)) = grado(p(X)) + grado(q(X))
y si alguno de los polinomios es el polinomio cero, hay que tener en cuenta las reglas n + (−∞) =
(−∞) + m = (−∞) + (−∞) = −∞.
La adición de polinomios de K[X] es asociativa, conmutativa, tiene elemento neutro (el polinomio
cero 0) y cada polinomio p(X) tiene su opuesto −p(X) . El producto de polinomios es asociativo,
conmutativo y tiene elemento unidad (el polinomio 1 ). Se cumple además la propiedad distributiva:
p(X) · (q(X) + r(X)) = p(X) · q(X) + p(X) · r(X).
Los polinomios constantes de K[X] son los elementos a0 de K . Los polinomios constantes a0 distintos
del polinomio cero son los polinomios de grado cero y son los únicos polinomios de K[X] que tienen
inverso.
Con todo esto se tiene que la estructura con dos operaciones binarias (K[X], +, ·) es un anillo
conmutativo con unidad, y no es un cuerpo. Es también un dominio de integridad, porque no tiene
“divisores de cero”: si el producto de dos polinomios
p(X) · q(X) = (an X n + · · · + a1 X + a0 ) · (bm X m + · · · + b1 X + b0 ) = (an bm X n+m + · · · · · · · · ·)
es el polinomio cero, esto es porque alguno de los dos polinomios es el polinomio cero: si an ·bm = 0, an = 0
o bm = 0 , etc.
Los polinomios lineales de K[X] son los polinomios de grado 1 : los polinomios a1 X + a0 , con
a1 =
6 0 . Los polinomios cuadráticos de K[X] son los polinomios de grado 2: a2 X 2 + a1 X + a0 , con
a2 6= 0. Los polinomios cúbicos son los polinomios de grado 3 , y ası́ sucesivamente.
Una propiedad fundamental:
Teorema. (División con resto) Sean p1 (X) y p2 (X) polinomios de K[X] tales que p2 (X) 6= 0 . Existen
dos polinomios q(X) y r(X) en K[X] , únicos, tales que
p1 (X) = p2 (X) · q(X) + r(X),
y
grado(r(X)) < grado(p2 (X)).
Los polinomios q(X) y r(X) del enunciado son el cociente y el resto, respectivamente, de dividir
p1 (X) (el dividendo) por p2 (X) (el divisor). A veces se pone
r(X)
p1 (X)
= q(X) +
.
p2 (X)
p2 (X)
Si p2 (X) 6= 0 y el resto r(X) de la división de p1 (X) por p2 (X) es cero, se dice que p2 (X)
divide a o es un divisor o un factor de p1 (X) , y también que p1 (X) es un múltiplo de p2 (X) : se tiene
p1 (X) = p2 (X) · q(X) , para un polinomio q(X) de K[X] . Se indica por p2 (X) | p1 (X) . Si p2 (X) no
divide a p1 (X) , ponemos p2 (X) 6 | p1 (X) .
Proposición. (Teorema del resto) Sea p(X) un polinomio de K[X] y sea λ un elemento de K . El
resto de la división de p(X) por el polinomio lineal X − λ es p(λ) .
222
Álgebra lineal
Demostración. Dividimos con resto p(X) por X − λ y obtenemos
p(X) = (X − λ) · q(X) + r(X),
con
grado r(X) < grado(X − λ) = 1.
Por tanto, grado(r(X)) = 0 o −∞ , y r(X) es un polinomio constante a de K . Entonces p(X) =
(X − λ) · q(X) + a , y p(λ) = (λ − λ) · q(λ) + a = 0 + a = a = r(X).
Sea p(X) = an X n + · · · + a1 X + a0 un polinomio de K[X] . Se llama raı́z de p(X) a cada elemento
λ de K tal que p(λ) = an · λn + · · · + a1 · λ + a0 = 0.
Proposición. (Teorema del factor) Sea p(X) un polinomio de K[X] y sea λ un elemento de K . Los
enunciados siguientes son equivalentes:
(a) λ es una raı́z del polinomio p(X) , y
(b) el polinomio (X − λ) es un factor de p(X) .
Demostración. (a) ⇒ (b) Por el teorema del resto, el resto de la división con resto de p(X) por (X − λ)
es p(λ) . Pero λ es raı́z de p(X) , luego p(λ) = 0. Por tanto p(X) = (X − λ) · q(X) + 0 = (X − λ) · q(X)
con grado q(X) = (grado p(X)) − 1 , porque (X − λ) es un polinomio lineal.
(b) ⇒ (a) Como (X − λ) es un factor de p(X), p(X) = (X − λ) · q(X) , para un cierto polinomio
q(X) . Entonces p(λ) = (λ − λ) · q(λ) = 0 · q(λ) = 0 , y λ es raı́z de p(X) .
Corolario. Sea p(X) un polinomio no nulo de K[X] . El número k de raı́ces de p(X) es menor o igual
que el grado de p(X) .
Demostración. Por inducción sobre el grado n > 0 de p(X) .
Si p(X) tiene grado cero, entonces p(X) = a0 6= 0 , un polinomio constante, que no tiene raı́ces.
Sea p(X) un polinomio de grado n > 1 y supongamos que el resultado se cumple para todos los
polinomios de K[X] de grado 6 n − 1 . Si p(X) no tiene raı́ces, se cumple el resultado. Si p(X) tiene
una raı́z λ ∈ K , por la proposición hay un polinomio q(X) de K[X] tal que
p(X) = (X − λ) · q(X)
y
grado q(X) = n − 1.
Las raı́ces de p(X) que no son λ son también raı́ces de q(X) . Si h es el número de raı́ces de q(X) ,
por la hipótesis de inducción, h 6 (n − 1) y por tanto k 6 h + 1 6 n .
Sea p(X) un polinomio no nulo de K[X] y sea λ ∈ K una raı́z de p(X) . Se llama multiplicidad de
la raı́z λ de p(X) al máximo entero k > 1 tal que (X − λ)k divide a o es un factor de p(X) .
Si k es la multiplicidad de la raı́z λ de p(X) , entonces (X − λ)k | p(X) y (X − λ)k+1 6 | p(X) .
Una raı́z de p(X) de multiplicidad 1 se dice que es una raı́z simple. Las raı́ces de multiplicidad 2
se dice que son raı́ces dobles, las de multiplicidad 3 son raı́ces triples, y ası́ sucesivamente.
Teorema. (Teorema fundamental del Álgebra) Cada polinomio p(X) de C[X] de grado > 1 tiene por
lo menos una raı́z en C .
Sea p(X) un polinomio de C[X] de grado n > 0 . Sea λ1 ∈ C una raı́z de p(X) . Entonces hay un
polinomio único p1 (X) de C[X] de grado n − 1 tal que
p(X) = (X − λ1 ) · p1 (X).
Si el grado de p1 (X), n − 1, es > 0 , este polinomio tiene al menos una raı́z λ2 ∈ C . Luego hay un
polinomio único p2 (X) de grado (n − 1) − 1 = n − 2, tal que
p(X) = (X − λ1 ) · p1 (X) = (X − λ1 ) · (X − λ2 ) · p2 (X).
Si n − 2 es mayor que cero, . . . . . . . . .
De esta forma se llegan a tener n números complejos λ1 , λ2 , . . . , λn y un polinomio pn (X) de C[X]
de grado cero (por tanto, un elemento a de C ), tales que
p(X) = a · (X − λ1 ) · (X − λ2 ) · . . . · (X − λn ).
Cuando esto ocurre se dice que el polinomio p(X) está descompuesto en factores lineales en C[X] .
Dado p(X) , tanto los λ1 , λ2 , . . . , λn , que son las raı́ces del polinomio, como a , que es el coeficiente del
223
Diagonalización
término de mayor grado n del polinomio, son únicos y la factorización anterior es única, salvo el orden
de los factores. Los λ1 , λ2 , . . . , λn no son necesariamente distintos, ası́ que agrupando los factores que
sean iguales
Corolario. Cada polinomio p(X) de C[X] de grado n > 0 se factoriza en la forma
p(X) = a · (X − λ1 )m1 · (X − λ2 )m2 · . . . (X − λk )mk
donde λ1 , . . . , λk son las k raı́ces complejas distintas dos a dos de p(X) , a es el coeficiente del término
de mayor grado de p(X) y para cada i = 1, . . . , k, mi es la multiplicidad de la raı́z λi de p(X) , siendo
m1 + m2 + · · · + mk = n.
Pasamos al caso de los polinomios de R[X] , esto es, los polinomios con coeficientes reales. Es conocido
que hay polinomios reales de grado 2 que no tienen raı́ces reales, y, por tanto, no se descomponen en
factores lineales de R[X] : por ejemplo, X 2 +1 no tiene ninguna raı́z real, y no se descompone en factores
lineales reales: no existen números reales λ y µ tales que X 2 + 1 = (X − λ) · (X − µ). Pero R está
contenido en C , R[X] está contenido en C[X] , y el corolario anterior se cumple en particular para
los polinomios de R[X] , vistos como polinomios de C[X] . Puede ocurrir que este polinomio tenga raı́ces
complejas que no sean reales, y no se puede afirmar que cada polinomio real de grado > 0 se descompone
en factores lineales reales.
Lema. Sea p(X) un polinomio de R[X] de grado > 0 y sea λ = a + bi una raı́z compleja no real de
p(X) . Sea p1 (X) el polinomio (en principio, de C[X] ) (X − λ) · (X − λ) . Entonces
(a) p1 (X) pertenece a R[X] , y
(b) p1 (X) es un factor de p(X) : existe q(X) ∈ R[X] tal que p(X) = p1 (X) · q(X).
Demostración. Se tiene
(X − λ) · (X − λ) = (X − (a + bi)) · (X − (a − bi)) = X 2 − 2aX + (a2 + b2 )
que pertenece a R[X] , porque sus coeficientes son reales. Si dividimos con resto p(X) por p1 (X) en
R[X] , obtenemos polinomios q(X), r(X) ∈ R[X] tales que
p(X) = p1 (X) · q(X) + r(X)
con grado(r(X)) 6 (grado p1 (X)) − 1 = 1.
Como λ y λ son raı́ces de p(X) , sustituyendo en la igualdad anterior, resultan
r(λ) = p(λ) − p1 (λ) · q(λ) = 0 = p(λ) − p1 (λ) · q(λ) = r(λ).
Tenemos un polinomio r(X) de grado 6 1 y con dos raı́ces distintas λ y λ ( λ es una raı́z compleja
no real de p(X) ). Por tanto r(X) tiene que ser igual a 0 , y p1 (X) es un factor de p(X) .
Proposición. Sea p(X) un polinomio de R[X] de grado > 0 y sea λ = a + bi una raı́z compleja
de p(X) . Entonces el número complejo conjugado λ = a − bi de λ también es raı́z de p(X) y las
multiplicidades de λ y λ como raı́ces de p(X) coinciden.
Demostración. Primero, algunas propiedades de la aplicación de conjugación
C −−→ C , definida por
z = (a + bi) 7→ z = a − bi , para cada z ∈ C : para cualesquiera números complejos z1 , z2 ,
z1 + z2 = z1 + z2 ,
y
z1 · z2 = z1 · z2 .
Además, para cada número complejo z , z = z si y sólo si z es un número real.
Si p(X) = an X n + · · · + a1 X + a0 es un polinomio de R[X] y λ ∈ C es una raı́z de p(X) , entonces
p(λ) = 0 y
0 = 0 = p(λ) = an λn + · · · + a1 λ + a0
n
= an · λ + · · · + a1 · λ + a0
n
= an · λ + · · · + a1 · λ + a0
= p(λ)
porque los ai son reales
224
Álgebra lineal
y λ = a − bi es también raı́z de p(X) .
Para demostrar la igualdad de las multiplicidades de λ y λ , demostramos que si k es la multiplicidad
de λ como raı́z de p(X) y k 0 es la multiplicidad de λ como raı́z de p(X) , entonces para todo número
natural h , si k > h , entonces k 0 > h . Suponemos que λ es un número complejo no real: λ 6= λ. Sea
p1 (X) el polinomio (X − λ) · (X − λ) .
Demostramos por inducción sobre h > 0 que si k > h entonces existe un polinomio qh (X) en
R[X] tal que p(X) = p1 (X)h · qh (X).
Para h = 0 , no hay nada que demostrar.
Supongamos que el resultado se cumple para h y que k > h + 1 . Entonces p(X) = p1 (X)h · qh (X) ,
y es qh (λ) = 0. Por el lema anterior, existe qh+1 (X) en R[X] tal que qh (X) = p1 (X) · qh+1 (X) , de
donde p(X) = p1 (X)h · p1 (X) · qh+1 (X) = p1 (X)h+1 · qh+1 (X).
Sea p(X) un polinomio de R[X] . Como también es un polinomio de C[X] , por el teorema fundamental del Álgebra, existen números complejos λ1 , . . . , λn , a tales que
p(X) = a · (X − λ1 ) · (X − λ2 ) · . . . · (X − λn ).
El número a es el coeficiente del término de mayor grado de p(X) y es un número real, porque p(X)
pertenece a R[X] .
De las raı́ces λ1 , . . . , λn de p(X) , supongamos que λ1 , . . . , λk son reales y las n − k restantes
λk+1 , . . . , λn son complejas no reales. Por la proposición anterior, con cada una de las raı́ces complejas no
reales está también su conjugada, que es compleja no real, y el número n−k de raı́ces complejas no reales
tiene que ser par. Podemos numerarlas de modo que λk+1 = λk+2 , λk+3 = λk+4 , . . . , λn−1 = λn .
Para cada par λ, λ de estas raı́ces complejas, con λ = a + bi , el polinomio
q(X) = (X − λ) · (X − λ)
= (X − (a + bi)) · (X − (a − bi))
= X 2 − 2aX + (a2 + b2 )
es un polinomio cuadrático real, que no tiene raı́ces reales, porque su discriminante (−2a)2 −4·1·(a2 +b2 ) =
4a2 − 4(a2 + b2 ) = −4b2 < 0 porque b 6= 0 , ya que λ es un número complejo no real. Con esto, tenemos
Teorema. Sea p(X) un polinomio de R[X] de grado n > 1 . Entonces p(X) se factoriza en la forma
p(X) = a · (X − λ1 ) · (X − λ2 ) · (X − λr ) · q1 (X) · q2 (X) · . . . · qm (X)
donde λ1 , . . . , λr , a son números reales, no necesariamente distintos, con a 6= 0 y q1 (X), . . . , qm (X)
son polinomios de R[X] de grado 2 , con coeficiente del término de grado 2 igual a 1, y sin raı́ces reales.
Además n = r + 2m.
Corolario. Cada polinomio p(X) de R[X] de grado n impar tiene al menos una raı́z real.
Demostración. Por el teorema, si n = r + 2m es impar, r = n − 2m debe ser impar y p(X) tiene alguna
raı́z real.
225
Diagonalización
Polinomio caracterı́stico
Volvemos al problema de hallar los autovalores de un endomorfismo f . Tenı́amos que los autovalores de
f son las soluciones en la incógnita X de det(MB (f ) − XIn ) = 0 , donde MB (f ) es la matriz de f
respecto de una base cualquiera B de V .
Sea A = (aij )n una matriz cuadrada de orden n > 1 y veamos qué es det(A − XIn ) .
Estrictamente hablando, la matriz
a11 − X
 a21
A − XIn = 
..

.

a12
a22 − X
..
.
···
···
..
.
a1n
a2n
..
.
a2n
···
ann − X
a1n




no es una matriz de Mn (K) , porque los elementos aii −X para i = 1, . . . , n no son escalares de K . (En
cualquier caso, la matriz se puede considerar como matriz de elementos del cuerpo K(X) de funciones
racionales sobre K. ) Pero no hay ninguna dificultad en considerarlos como si fueran elementos de K . El
determinante
a11 − X
a12
···
a1n
a21
a22 − X · · ·
a2n
det(A − XIn ) =
..
..
..
..
.
.
.
.
a1n
a2n
···
ann − X
es, por la fórmula del determinante de una matriz de orden n , una suma de n! términos, cada uno de
ellos, salvo el signo + o − , un producto de n factores, uno de cada fila y uno de cada columna. Cada
sumando es
• o un producto de n elementos aij de la matriz A y, por tanto, un elemento de K,
• o un producto de k > 1 elementos aij de la matriz A por n − k binomios aii − X y, por tanto, un
polinomio de grado n − k en X,
• o el producto de los n binomios aii − X, i = 1, . . . , n y, por tanto, un polinomio de grado n en X .
El resultado final es un polinomio de grado n de K[X]. El término de grado n se obtiene al
desarrollar el sumando que es el producto (a11 − X)(a22 − X) · · · (ann − X) de los n binomios que están
en la diagonal principal. Más detalles:
Proposición. Para cada matriz A de Mn (K), el determinante det(A − XIn ) es un polinomio de grado
n con coeficientes en K en el que
• el coeficiente de X n es (−1)n ,
• el coeficiente de X n−1 es (−1)n−1 (tr A) y
• el término independiente es det A.
Esto es, det(A − XIn ) = (−1)n X n + (−1)n−1 (tr A)X n−1 +
+ término de grado (n − 2) + · · · + término de grado 1 + det A.
Demostración. Por inducción sobre n, el orden de la matriz A. El resultado es claro para n = 1 :
Para n = 1 :
det((a11 ) − XI1 ) = det(a11 − X · 1) = −X + a11 .
Supongamos que el resultado es cierto para las matrices de orden n−1 y demostremos que se cumple
para matrices de orden n.
Sea A una matriz de orden n. Ya hemos demostrado más arriba que el resultado de desarrollar
det(A − XIn ) por la fórmula del determinante es un polinomio de grado n de K[X]. Calculamos
det(A − XIn ) desarrollando el determinante por la primera columna
det(A − XIn ) =
a11 − X
a21
..
.
a12
a22 − X
..
.
a1n
a2n
···
···
..
.
···
a1n
a2n
..
.
ann − X
=
226
Álgebra lineal
a22 − X
a32
= (a11 − X)
..
.
a23
a33 − X
..
.
···
···
..
.
a2n
a3n
..
.
an3
···
ann − X
an2
+ términos de grado 6 n − 2 ,
porque estos términos resultan al desarrollar los determinantes de matrices de orden n − 1 en cada una
de las cuales hay exactamente n − 2 binomios del tipo aii − X. Por la hipótesis de inducción
det(A − XIn ) = (a11 − X) (−1)n−1 X n−1 + (−1)n−2 (a22 + . . . + ann )X n−2 + · · · + · · ·
= (−1)n X n + (−1)n−1 (tr A)X n−1 + · · ·
y los puntos suspensivos representan sumas de monomios de grado 6 n − 2. Por tanto el coeficiente de
X n es (−1)n y el coeficiente de X n−1 es (−1)n−1 tr A, como querı́amos demostrar. Y ahora que ya
sabemos que es det(A − XIn ) es un polinomio p(X), su término independiente es
p(0) = det(A − 0In ) = det A.
El polinomio p(X) = det(A − XIn ) ası́ obtenido se llama polinomio caracterı́stico de la matriz A
y lo indicaremos por pA (X).
Ejemplos
(1) El polinomio caracterı́stico pIn (X) de la matriz identidad In de orden n es det(In − XIn ) =
(1 − X)n .
(2) El polinomio caracterı́stico p0n (X) de la matriz nula 0n de orden n es det(0n −XIn ) = (−X)n .
(3) El polinomio caracterı́stico pλIn (X) de la matriz escalar λIn es det(λIn − XIn ) = (λ − X)n .
a b
(4) El polinomio caracterı́stico pA (X) de una matriz A =
de orden 2 es
c d
pA (X) =
a−X
c
b
= (a − X) · (d − X) − bc = X 2 − (a + d)X + (ad − bc) = X 2 − tr(A)X + det A.
d−X
(5) El polinomio caracterı́stico pA (X) de una matriz A = (aij )3 de orden 3 es
pA (X) =
a11 − X
a21
a31
a12
a22 − X
a32
a13
a23
a33 − X
= (a11 − X)(a22 − X)(a33 − X) + a12 a23 a31 + a21 a32 a13 −
− a13 a31 (a22 − X) − a21 a12 (a33 − X) − a32 a23 (a11 − X)
=
...
3
= −X + tr(A)X − (a12 a21 + a13 a31 + a23 a32 − a11 a22 − a11 a33 − a22 a33 )X + det A.
Proposición. Las matrices semejantes de Mn (K) tienen el mismo polinomio caracterı́stico.
Demostración. Sean A y B dos matrices semejantes con B = P −1 · A · P para una cierta matriz
invertible P de Mn (K) . Con la indeterminada X actuando como un escalar de K :
P −1 · X · In · P = X · In .
Entonces
B − XIn = P −1 · A · P − X · In
= P −1 · A · P − P −1 · X · In · P
= P −1 · (A · P − X · In · P )
= P −1 · (A − X · In ) · P,
227
Diagonalización
luego
det(B − XIn ) = det(P −1 · (A − X · In ) · P )
= det(P −1 ) · det(A − X · In ) · det P
= (det P )−1 · det(A − X · In ) · det P
= det(A − X · In )
y
pB (X) = pA (X).
Al tener el mismo polinomio caracterı́stico, las matrices semejantes tienen la misma traza y el mismo
determinante, como ya sabı́amos.
Si f es un endomorfismo de V , B es una base de V y A es la matriz MB (f ) de f respecto de
B , para cada λ ∈ K , la matriz MB (f − λ idV ) del endomorfismo f − λ idV respecto de la base B es,
como hemos visto más arriba,
MB (f − λ idV ) = MB (f ) − MB (λ idV ) = A − λMB (idV ) = A − λIn ,
y como el determinante de un endomorfismo es el determinante de la matriz del endomorfismo respecto
de una base cualquiera del espacio,
det(f − λ idV ) = det(MB (f − λ idV )) = det(A − λIn ) = pA (X),
y det(f − λ idV ) es igual al polinomio caracterı́stico pA (X) de la matriz de f respecto de una base
cualquiera de V . Este polinomio se llama polinomio caracterı́stico del endomorfismo f , y se indica por
pf (X). La definición de pf (X) es independiente de la base B porque si B0 es otra base de V ,
det MB (f − XidV ) = det(MB (f ) − XIn ) = det(MB0 (f ) − XIn ) = det MB0 (f − XidV )
como se demostró más arriba.
De todo lo anterior, tenemos
Corolario. Sea V un espacio vectorial de dimensión n > 1 sobre K y sea f un endomorfismo de V .
Los enunciados siguientes son equivalentes para cada λ ∈ K :
(a) λ es un autovalor de f ,
(b) λ es una raı́z del polinomio caracterı́stico pf (X) de f .
Ejemplos
(1) El polinomio caracterı́stico pidV (X) del automorfismo identidad idV de V es
det(idV − XidV ) = det(In − XIn ) = (1 − X)n .
Tiene un solo autovalor, 1, raı́z de multiplicidad n .
(2) El polinomio caracterı́stico p0 (X) del endomorfismo constante cero 0 de V es
det(0 − XIn ) = det(0n − XIn ) = (−X)n .
Tiene a 0 como única raı́z, y es una raı́z de multiplicidad n .
(3) El polinomio caracterı́stico pλidV (X) de la homotecia vectorial λ idV de V de razón λ , es
det(λ idV − XidV ) = det(λ In − XIn ) = (λ − X)n .
El único autovalor es λ , que como raı́z del polinomio caracterı́stico tiene multiplicidad n .
(4) Sea V = V1 ⊕ V2 con dim V = n y dim V1 = k, 1 6 k < n . Sea p1 : V −−→ V la proyección
vectorial de V sobre el subespacio V1 en la dirección o paralela a V2 . El polinomio caracterı́stico de
p1 es
pp1 (X) = (1 − X)k · (−X)n−k ,
porque, como vimos en la tercera parte, hay una base B de V respecto de la cual la matriz de p es la
matriz diagonal
Ik
0k×(n−k)
MB (p) =
.
0(n−k)×k
0(n−k)
228
Álgebra lineal
El endomorfismo p1 tiene dos autovalores, 1 y 0 , que como raı́ces del polinomio, tienen multiplicidades
k y (n − k) , respectivamente.
(5) Sea V = V1 ⊕ V2 con dim V = n y dim V1 = k, 1 6 k < n . Sea s1 : V −−→ V la simetrı́a
vectorial de V respecto del subespacio V1 en la dirección o paralela a V2 . El polinomio caracterı́stico
de s1 es
ps1 (X) = (1 − X)k · ((−1) − X)n−k ,
porque, como vimos en la tercera parte, hay una base B de V respecto de la cual la matriz de s1 es
la matriz diagonal
Ik
0k×(n−k)
MB (p) =
.
0(n−k)×k −I(n−k)
El automorfismo s1 tiene dos autovalores, 1 y −1 , que como raı́ces del polinomio tienen multiplicidades
k y n − k , respectivamente.
(6) Sea f el endomorfismo del ejemplo (d ) de la pág. 216. Su polinomio caracterı́stico pf (X) es


−X
1
0
0
−X
0
0 
 1
4
3
2
pf (X) = det MB4e (f − XidV ) = det 
 = X − 2X − 4X + 2X + 3.
0
0
1−X
2
0
0
2
1−X
Endomorfismos diagonalizables
Sea V un espacio vectorial de dimensión finita n > 1 sobre K y sean f un endomorfismo de V y
λ ∈ K un autovalor de f . Recordemos que la multiplicidad geométrica del autovalor λ de f es la
dimensión dim Vλ (f ) del subespacio propio correspondiente al autovalor λ, y es también
dim Vλ (f ) = n − rango(MB (f ) − λIn )
para una base (cualquiera) B de V .
Se llama multiplicidad algebraica del autovalor λ de f a la multiplicidad de λ como raı́z del
polinomio caracterı́stico pf (X) de f, es decir, es el mayor número natural k > 1 tal que
(X − λ)k | pf (X)
y
(X − λ)k+1 6 | pf (X) .
Indicaremos la multiplicidad algebraica de λ por mλ .
La multiplicidad geométrica de un autovalor nunca es mayor que la multiplicidad algebraica del
mismo:
Proposición. Para cada endomorfismo f de V y cada autovalor λ ∈ K de f ,
1 6 dim Vλ (f ) 6 mλ ,
en palabras, la multiplicidad geométrica de λ es menor o igual que la multiplicidad algebraica de λ .
Demostración. Sea d la multiplicidad geométrica de λ , d = dim Vλ (f ) > 1 . Sea {v1 , . . . , vd } una
base de Vλ (f ) . Extendemos esta base a una base B = {v1 , . . . , vd } ∪ {vd+1 , . . . , vn } de V . Como
f (vi ) = λ vi , para cada i = 1, . . . , d , las coordenadas de f (vi ) respecto de B son 0, . . . , 0, λ, 0, . . . , 0
(el autovalor λ en la i -ésima posición). Con esto, la matriz de f respecto de esta base B es de la forma


λ 0 ··· 0 ? ··· ?
0 λ ··· 0 ? ··· ?
. . .

. .
. . ... ... . . . ... 
. .
 λId B


MB (f ) =  0 0 · · · λ ? · · · ?  =
0 C


0 0 ··· 0 ? ··· ?

. . .
.
.
.
.
. . .. ..
. . .. 
 .. ..
0 0 ··· 0 ? ··· ?
donde B es una matriz de Md×(n−d) (K) , 0 es la matriz cero de M(n−d)×d (K) y C es una matriz de
M(n−d)×(n−d) (K) . El polinomio caracterı́stico pf (X) de f es det(MB (f ) − XIn ) . Este determinante
desarrollado por la primera fila es
pf (X) = (λ − X)d · q(X)
229
Diagonalización
donde q(X) es un polinomio de grado n − d , de hecho es el polinomio caracterı́stico de la matriz C .
Tenemos ahı́ que (X − λ)d divide al polinomio caracterı́stico pf (X) de f , con lo que el escalar λ tiene
multiplicidad algebraica > d , y como d es la multiplicidad geométrica de λ , resulta la desigualdad
buscada: d = dim Vλ (f ) 6 mλ .
Teorema. Sea V un espacio vectorial de dimensión finita n > 1 sobre K y sea f un endomorfismo
de V . Sean λ1 , . . . , λk los escalares de K que son autovalores de f . Entonces
dim(Vλ1 (f )) + dim(Vλ2 (f )) + · · · + dim(Vλk (f )) 6 n.
Demostración. Para cada i = 1, . . . , k , sea Bi = {vi1 , . . . , vidi } una base de Vλi (f ) . Demostraremos
que el conjunto unión B1 ∪ . . . ∪ Bk , que tiene d1 + . . . + dk = dim Vλ1 (f ) + · · · + dim Vλk (f ) elementos,
es linealmente independiente en V , y por tanto, tiene a lo más n elementos.
Para cada i = 1, . . . , k , sean µi1 , . . . , µidi escalares de K y supongamos que
(µ11 v11 + . . . + µ1d1 v1d1 ) + (µ21 v21 + . . . + µ2d2 v2d2 ) + · · · + (µk1 vk1 + . . . + µkdk vkdk ) = 0.
Para cada i = 1, . . . , k , sea vi = (µi1 vi1 + . . . + µidi vidi ) , vector que pertenece al subespacio propio
Vλi (f ) . Entonces
v1 + v2 + · · · + vk = 0.
Tenemos k vectores propios de f correspondientes a autovalores distintos, luego son linealmente independientes y, por tanto, v1 = v2 = . . . = vk = 0 . Esto lleva a que para cada i = 1, . . . , k ,
vi = µi1 vi1 + . . . + µidi vidi = 0,
y como {vi1 , . . . , vidi } es una base de Vλi (f ) , los vectores vi1 , . . . , vidi son linealmente independientes,
y µi1 = . . . = µidi = 0 , para cada i = 1, . . . , k , como querı́amos demostrar.
Como, por otra parte, el conjunto B de la demostración también genera el subespacio
W = Vλ1 (f ) + Vλ2 (f ) + · · · + Vλk (f ),
se tiene que B es una base de W , y dim W = d1 + d2 + · · · + dk . Si esta dimensión es n , entonces
W = V , V tiene una base formada por vectores propios de f , y f es diagonalizable. Del siguiente
teorema se deduce que si f es diagonalizable, entonces la suma d1 + d2 + · · · + dk es igual a n .
El teorema siguiente proporciona dos caracterizaciones muy útiles de la diagonalizabilidad de un
endomorfismo, en especial, la parte (2).
Teorema. Sea V un espacio vectorial de dimensión n > 1 sobre K y sea f un endomorfismo de V .
Las condiciones siguientes son equivalentes:
(1) f es diagonalizable;
(2) (a) el polinomio caracterı́stico pf (X) de f se descompone en factores lineales en K[X] , y
(b) para cada autovalor λ de f , las multiplicidades geométrica y algebraica de λ coinciden;
(3) si λ1 , . . . , λk son los distintos autovalores de f , entonces
V = Vλ1 (f ) ⊕ Vλ2 (f ) ⊕ · · · ⊕ Vλk (f ).
Demostración. (1) ⇒ (2) Primero (a). Sea B una base de V cuyos elementos son vectores propios de
f . Existe una base ası́ porque f es diagonalizable. La matriz MB (f ) de f respecto de B es diagonal
λ1
 0
MB (f ) = 
 ...
0
λ2
..
.
···
···
..
.
0
0
···


0
0 
,
.. 
. 
λn
230
Álgebra lineal
con los autovalores de f , posiblemente con repeticiones, en la diagonal, y el polinomio caracterı́stico
pf (X) es el polinomio caracterı́stico de esa matriz diagonal:
λ1 − X
0
det(f − X idV ) = det(MB (f − X idV )) =
..
.
0
λ2 − X
..
.
···
···
..
.
0
0
..
.
0
···
λn − X
0
= (λ1 − X) · (λ2 − X) · . . . · (λn − X),
que está descompuesto en factores lineales en K[X] :
pf (X) = (λ1 − X)m1 · (λ2 − X)m2 · . . . · (λk − X)mk
y
m1 + m2 + · · · + mk = n.
Ahora (b). Sean λ1 , . . . , λk los distintos autovalores de f . Para cada i = 1, . . . , k , sea di = dim Vλi (f ) ,
la multiplicidad geométrica de λi , y sea mi la multiplicidad algebraica del autovalor λi . El autovalor
λi está en la diagonal de la matriz diagonal MB (f ) , y aparece tantas veces en la diagonal como la
multiplicidad mi de la raı́z λi del polinomio pf (X) , esto es, como la multiplicidad algebraica de λi .
Por tanto, la matriz diagonal MB (f ) − λi In tiene exactamente mi ceros en la diagonal y su rango es
n − mi . Entonces
di = dim Vλi (f )
= dim ker(f − λi idV )
= n − dim im(f − λi idV )
= n − rango(f − λi idV )
= n − rango(MB (f ) − λi In )
= n − (n − mi )
= mi .
Luego (b).
(2) ⇒ (3) Sean λ1 , . . . , λk los distintos autovalores de f . Por la proposición anterior, sabemos que
W = Vλ1 (f ) + · · · + Vλk (f ) es un subespacio vectorial de V de dimensión
dim W = d1 + · · · + dk
= m1 + · · · + mk
por (2)(b)
= n,
luego W es un subespacio vectorial de V de dimensión n = dim V , y V = W = Vλ1 (f )+· · ·+Vλk (f ) .
Queda demostrar que esta suma de k subespacios es directa, es decir, según la definición, para cada
i = 1, . . . , k ,
Vλi (f ) ∩ (Vλ1 (f ) + · · · + Vλi−1 (f ) + Vλi+1 (f ) + · · · + Vλk (f )) = {0}.
Sea v un vector de esta intersección. Para cada h = 1, . . . , i−1, i+1, . . . , k existen vectores wh ∈ Vλh (f )
tales que
v = w1 + · · · + wi−1 + wi+1 + · · · + wk .
Entonces
w1 + · · · + wi−1 + (−v) + wi+1 + · · · + wk = 0,
pero cada wi es un vector propio de autovalor λh , para h = 1, . . . , i − 1, i + 1, . . . , k y v es un vector
propio de autovalor λi . Los autovalores λ1 , . . . , λk son distintos dos a dos, luego los vectores
w1 , . . . , wi−1 , v, wi+1 , . . . , wk
son linealmente independientes, y como su suma es el vector cero 0 , todos ellos tienen que ser el vector
cero, y v = 0 .
(3) ⇒ (1) Supongamos que λ1 , . . . , λk son los distintos autovalores de f y que
V = Vλ1 (f ) ⊕ Vλ2 (f ) ⊕ · · · ⊕ Vλk (f ).
231
Diagonalización
Si para cada i = 1, . . . , k, Bi es una base del subespacio propio Vλi (f ) correspondiente al autovalor λi
de f , el conjunto B = B1 ∪ . . . ∪ Bk es una base de V formada por vectores propios de f , y f es
diagonalizable.
La equivalencia (3) nos dice que si f es diagonalizable con k autovalores distintos, el espacio
vectorial V es suma directa de los k subespacios propios, y el endomorfismo f restringido a cada uno
de esos subespacios es una homotecia vectorial de razón el autovalor correspondiente. Entonces para cada
v de V , existen vectores v1 , . . . , vk únicos (porque la suma es directa), tales que vi ∈ Vλi (f ) , para
cada i = 1, . . . , k y v = v1 + · · · + vk . La imagen de v por f es
f (v) = f (v1 + · · · + vk ) = f (v1 ) + · · · + f (vk ) = λ1 v1 + · · · + λk vk .
Es en este sentido en el que los endomorfismos diagonalizables de un espacio vectorial son los endomorfismos de estructura más sencilla, como decı́amos al comienzo, en las páginas 207-8.
La forma equivalente (2) es el criterio de uso más frecuente para saber si un endomorfismo es
diagonalizable. En caso afirmativo, un poco más de trabajo nos da una base del espacio formada por
vectores propios del endomorfismo, y se tiene diagonalizado el endomorfismo.
Sea f un endomorfismo de un espacio vectorial V de dimensión n > 1 sobre K .
Parte 1:
(i) Tomar una base B de V y hallar la matriz A = MB (f ) del endomorfismo f respecto de
B.
(ii) Hallar el polinomio caracterı́stico pf (X) de f , que es el polinomio caracterı́stico de la matriz
A : pA (X) = det(A − XIn ) .
(iii) Descomponer el polinomio pf (A) en factores lineales en K[X].
• Esta es la condición (2)(a) del teorema. Si el cuerpo K es el cuerpo C de los números
complejos, la condición (2)(a) se cumple sin más, porque todo polinomio de C[X] de grado > 1 se
descompone en factores lineales en C[X] . Si no se puede descomponer pf (X) en factores lineales en
K[X] , el endomorfismo f no es diagonalizable.
Parte 2:
Supongamos que pf (X) se descompone en factores lineales en K[X] . Sus raı́ces son los autovalores de f .
(i) Para cada autovalor λ de f, hallar su multiplicidad geométrica:
dim Vλ (f ) = n − rango(A − λIn ).
Esto sólo hace falta hacerlo para los autovalores de multiplicidad algebraica > 1 , porque para los
autovalores simples, las multiplicidades geométrica y algebraica coinciden y son 1 .
(ii) Si para cada autovalor λ de f las multiplicidades coinciden, el endomorfismo es diagonalizable.
Parte 3:
Si f es diagonalizable,
(i) para cada autovalor λ de f , hallar una base del subespacio propio Vλ (f ) = ker(f − λidV ) .
(ii) La unión de las bases ası́ obtenidas es una base de V formada por vectores propios de f ,
y la matriz de f respecto de esta base es una matriz diagonal, con los autovalores en la diagonal.
• El orden en el que se dispongan los vectores de la base determina la disposición de los
autovalores en la diagonal de la matriz.
232
Álgebra lineal
Ejemplos
(1) El endomorfsimo del ejemplo (d) de la página 216 es diagonalizable: los autovalores son −1, con
multiplicidades algebraica y geométrica 2, y 1 y 3 que son simples.
(2) Sea f : R4 −−→ R4 el endomorfismo definido por: para cada (x, y, z, t) ∈ R4 ,
f (x, y, z, t) = (x + y, 3x + z, −x + t, −2x).
La matriz de f respecto de la base estándar B4e de R4 es


1 1 0 0
 3 0 1 0
A=

−1 0 0 1
−2 0 0 0
y el polinomio caracterı́stico de f es
1−X
3
pf (X) = pA (f ) = det(A − XI4 ) =
−1
−2
1
−X
0
0
0
1
−X
0
0
0
1
−X
= X 4 − X 3 − 3X 2 + X + 2
= (X + 1)2 · (X − 1) · (X − 2),
descompuesto en factores lineales en R[X] y los autovalores de f son −1 (doble), 1 (simple) y 2
(simple).
La multiplicidad geométrica de −1 es 1 porque el

2
 3
A − (−1)I4 = 
−1
−2
2 1
3 1
−1 0
f es menor que la multiplicidad
es 3 , al tener el menor
rango de la matriz

1 0 0
1 1 0

0 1 1
0 0 1
0
1 = −2 6= 0. Luego la multiplicidad geométrica del autovalor −1 de
1
algebraica, que es 2 , y f no es diagonalizable.
(3) Sea f : R4 −−→ R4 el endomorfismo definido por: para cada (x, y, z, t) ∈ R4 ,
f (x, y, z, t) = (x + y, x − z − 2t, z + t, x + 2y + z).
La matriz de f respecto de la base estándar B4e

1
1
A=
0
1
de R4 es
1
0
0
2
0
−1
1
1

0
−2 

1
0
y el polinomio caracterı́stico de f es
1−X
1
pf (X) = pA (f ) = det(A − XI4 ) =
0
1
1
−X
0
2
0
−1
1−X
1
0
−2
1
−X
= X 4 − 2X 3 + 3X 2 − 2X + 2
= (X 2 + 1) · (X 2 − 2X + 2).
Los polinomios cuadráticos X 2 + 1 y X 2 − 2X + 2 no tienen raı́ces reales, y el polinomio caracterı́stico
de f no se descompone en factores lineales en R[X] . Por tanto, f no es diagonalizable.
(4) Sea f : C4 −−→ C4 el endomorfismo definido por: para cada (x, y, z, t) ∈ R4 ,
233
Diagonalización
f (x, y, z, t) = (x + y, x − z − 2t, z + t, x + 2y + z).
La matriz de f respecto de la base estándar B4e

1
1
A=
0
1
de C4 es la misma que en el ejemplo anterior (2):

1 0
0
0 −1 −2 

0 1
1
2 1
0
y el polinomio caracterı́stico de f es el mismo que el del ejemplo anterior (2):
pf (X) = pA (f ) = det(A − XI4 ) = X 4 − 2X 3 + 3X 2 − 2X + 2
= (X 2 + 1) · (X 2 − 2X + 2)
= (X + i) · (X − i) · (X − (1 + i)) · (X − (1 − i)).
El polinomio caracterı́stico de f está descompuesto en factores lineales en C[X] . El endomorfismo
f tiene cuatro autovalores distintos i, −i, 1 + i, 1 − i y estamos en dimensión cuatro, luego f es
diagonalizable.
(5) Sea f : M2 (R) −−→ M2 (R) el endomorfismo definido por: para cada matriz
a
c
b
d
de
M2 (R) ,
a + 2b + 3d −a − 2b − 3d
.
2c
a + 2b + 3d
1 0
0 1
0 0
0
La matriz de f respecto de la base B =
,
,
,
0 0
0 0
1 0
0
f
a
c
b
d
=

1
−1

A=
0
1
2
−2
0
2
2
−2 − X
0
2
0
0
2−X
0
0
1
es

0 3
0 −3 

2 0
0 3
y el polinomio caracterı́stico de f es
1−X
−1
pf (X) = det(A − XI4 ) =
0
1
3
−3
= X 4 − 4X 3 + 4X 2 = X 2 · (X − 2)2
0
3−X
y f tiene dos autovalores 0 y 2 , ambos con multiplicidad algebraica 2 .
La multiplicidad geométrica de 0 es 4 − rango(A − 0 · I4 ) = 4 − rango A = 4 − 2 = 2.


−1 2 0 3
 −1 −4 0 −3 
La multiplicidad geométrica de 2 es 4−rango(A−2·I4 ) = 4−rango 
 = 4−2 =
0
0 0 0
1
2 0 1
2.
−2
Por consiguiente, f es diagonalizable. Las matrices
0
1 −1
0
pios de f de autovalor 0 , y las matrices
y
0 1
1
autovalor 2 . Estas cuatro matrices forman una base de M2 (R)
f respecto de esta base es


0 0 0 0
0 0 0 0

.
0 0 2 0
0 0 0 2
1
−3 0
y
son dos vectores pro0
0 1
0
son dos vectores propios de f de
0
de vectores propios de f y la matriz de
234
Álgebra lineal
Diagonalización de matrices por semejanza
Sea A una matriz de Mn (K) . Se dice que A es diagonalizable por semejanza si A es semejante a una
matriz diagonal, es decir, si hay una matriz diagonal D y una matriz invertible P de Mn (K) , tales que
D = P −1 · A · P.
La matriz A es diagonalizable por semejanza si y sólo si el endomorfismo fA : Kn −−→ Kn cuya
matriz respecto de la base estándar de Kn es A , es diagonalizable. Si fA es diagonalizable y B es una
base de Kn respecto de la cual fA tiene una matriz diagonal D , la matriz invertible P tal que
D = MB (fA ) = P −1 · A · P = P −1 · MBe (fA ) · P
es la matriz M (B, Be ) de cambio de la base B a la base estándar de Kn :
D = MB (fA ) = M (B, Be )−1 · MBe (fA ) · M (B, Be ) = M (B, Be )−1 · A · M (B, Be )
y
A = MBe (fA ) = M (B, Be ) · D · M (B, Be )−1 .
Ejemplos

2
(1) Sea A la matriz real  −1
3
−5
−2
15

−3
−3  . ¿Es A semejante a una matriz diagonal?
12
El polinomio caracterı́stico de A es
pA (X) = det(A − X · In ) =
2−X
−1
3
−5
−2 − X
15
−3
−3
= −X 3 + 12X 2 − 45X + 54 = (3 − X)2 · (6 − X),
12 − X
y A tiene dos autovalores: 3 (doble) y 6 (simple).
El subespacio propio V3 (A) tiene como ecuación implı́cita X + 5Y + 3Z = 0 y es V3 (f ) =
L[(−5, 1, 0), (−3, 0, 1)].
(
4X + 5Y + 3Z= 0
El subespacio propio V6 (A) tiene como ecuaciones implı́citas
y, por tanto,
X + 8Y + 3Z= 0
V6 (A) = L[(1, 1, −3)] .
Como pA (A) se descompone en factores lineales en R[X] y las multiplicidades geométrica y algebraica de cada autovalor de A coinciden, fA es diagonalizable, y A es semejante a la matriz diagonal


3 0 0
D = 0 3 0.
0 0 6
Sea B = {(−5, 1, 0), (−3, 0, 1), (1, 1, −3)} la base de R3 respecto de la cual fA tiene como matriz a D .
Las matrices M (B, Be ) de cambio de base de la base B a la base estándar Be , y M (Be , B) de cambio
de base de la base Be a la base B , que es la matriz inversa M (B, Be )−1 de la primera son




1
8
1
−5 −3 1
1
M (B, Be ) =  1
0
1 
y
M (B, Be )−1 = M (Be , B) =  −3 −15 −6  .
3
−1 −5 −1
0
1 −3
Se tiene
D = MB (f ) = M (Be , B) · A · M (B, Be )
y
A = M (B, Be ) · D · M (Be , B).
(2) La sucesión de Fibonacci es la sucesión (an )n∈N de números naturales definida de manera
recursiva por

a0 = 1


a1 = 1


an+2 = an + an+1 para cada n > 0.
235
Diagonalización
Sea bn = an−1 , para cada n > 1 . Entonces tenemos
(
an+2 = an+1 + bn+1
o de otra forma
bn+2 = an+1
an+2
bn+2
=
1
1
1
0
an+1
·
bn+1
y resulta
an+2
bn+2
1
1
1
1
1
1
=
=
=
an+1
·
bn+1
2 1
an
·
0
bn
3 1
an−1
·
0
bn−1
1
0
=
...
n+1 1 1
a1
=
·
.
1 0
b1
1 1
Queremos hallar la potencia (n + 1) -ésima de la matriz A =
. El polinomio caracterı́stico de
1 0
la matriz A es
√ !
√ !
1− 5
1+ 5
1−X
1
2
· X−
=X −X −1= X −
pA (X) = det(A − X · I2 ) =
1
−X
2
2
y A tiene dos
autovalores distintos, λ =
λ 0
D=
.
0 µ
√
1+ 5
2
y µ =
√
1− 5
2
y A es semejante a la matriz diagonal
El subespacio propio Vλ (A) de autovalor λ está generado por (λ, 1) , y el subespacio propio Vµ (A)
de autovalor µ está generado por (µ, 1) . Por tanto, B = {(λ, 1), (µ, 1)} es una base de R2 formada
por vectores propios de A , y respecto de esa base la matriz de fA es D . Entonces
A = M (B, Be ) · D · M (Be , B)
= M (B, Be ) · D · M (B, Be )−1
1
λ µ
λ 0
−1
=
·
·
1 1
0 µ
1
(µ − λ)
µ
−λ
de donde
A
n+1
=
1
1
1
0
n+1
n+1
1
−1 µ
λ 0
·
·
1 −λ
0 µ
(µ − λ)
n+2
1
µ
− λn+2 µλn+2 − λµn+2
=
(µ − λ) µn+1 − λn+1 µλn+1 − λµn+1
=
λ
1
µ
1
y teniendo en cuenta que λ · µ = −1 ,
an+2
bn+2
n+1 a1
=
·
b1
n+1 1 1
1
=
·
1 0
0
n+2
1
µ
− λn+2
=
n+1
− λn+1
(µ − λ) µ
1
1
1
0
µn+1 − λn+1
µn − λn
1
·
0
236
Álgebra lineal
resulta que para cada n > 0 ,
an+2

√ !n+2
1
1
1+ 5
n+2
n+2

−
=
µ
−λ
=√
(µ − λ)
2
5

√ !n+2
1− 5
.
2
y para cada n > 2 , el término general an de la sucesión de Fibonacci es
√ !n
√ !n !
1
1+ 5
1− 5
an = √
−
.
2
2
5
¿Se puede utilizar esta fórmula para hallar el término a2004 de la sucesión de Fibonacci?
Se tiene
a2004

√ !2004
1  1+ 5
−
=√
2
5

√ !2004
1− 5
.
2
Como a2004 es un número natural, buscamos el número natural más próximo a este número. Como para
√ k
k grande, 1−2 5
es un número muy pequeño en valor absoluto, mucho menor que 12 , el término
√ 2004
a2004 buscado es el número natural más próximo a √15 1+2 5
.
7. Espacios vectoriales euclı́deos
Los espacios vectoriales de este capı́tulo son espacios vectoriales reales.
Dos ejemplos familiares de espacio vectorial euclı́deo son los espacios vectoriales de los vectores
geométricos o libres del plano y del espacio de la geometrı́a euclı́dea elemental con el producto escalar de
dos vectores definido como el número real producto de los módulos de los dos vectores por el coseno del
ángulo que forman. El módulo de un vector y el ángulo que forman dos vectores no nulos están definidos
previamente a partir de las nociones básicas de la geometrı́a euclı́dea elemental. En estos espacios las
bases { i, j } y { i, j, k } formadas por vectores que tienen módulo igual a 1 (son vectores unitarios) y
dos a dos son perpendiculares u ortogonales, son ejemplos de bases ortonormales de espacios vectoriales
euclı́deos, bases que son especialmente útiles.
Ahora partimos de un producto escalar de vectores de un espacio vectorial real y llegamos a definir
un buen número de nociones de contenido geométrico como la norma o módulo de un vector, el ángulo
formado por dos vectores no nulos, la distancia entre dos vectores, perpendicularidad u ortogonalidad de
vectores y de subespacios y bases ortonormales.
Productos escalares
Sea V un espacio vectorial sobre el cuerpo R . Un producto escalar sobre el espacio vectorial real V es
una aplicación h , i del producto cartesiano V × V en el cuerpo R
h , i : V × V −−→ R
(v, w) 7−→ hv, wi
que a cada par (v, w) de vectores de V asigna un número real hv, wi , el producto escalar de v y w ,
con las propiedades siguientes:
(1) h , i es bilineal :
(a) hv + v 0 , wi = hv, wi + hv 0 , wi ,
y
hλv, wi = λhv, wi ,
(b) hv, w + w0 i = hv, wi + hv, w0 i ,
y
hv, λwi = λhv, wi ,
0
0
para cualesquiera vectores v, v , w y w de V y cualquier número real λ ;
(2) h , i es simétrica:
(a) hv, wi = hw, vi,
para cualesquiera vectores v y w de V , y
(3) h , i es definida positiva:
(a) hv, vi > 0 ,
para todo vector v de V distinto del vector cero 0 .
La palabra ‘bilineal’ se explica porque la aplicación es lineal en cada una de las dos componentes del
par (v, w) : por (b), para un vector v cualquiera pero fijo, la aplicación w 7−→ hv, wi es una aplicación
lineal de V en R , y por (a), para un vector w cualquiera pero fijo, la aplicación v 7−→ hv, wi es
también una aplicación lineal de V en R .
En la definición completa hay partes redundantes, porque son consecuencia de las demás. Por ejemplo,
(1)(a) y (2) implican (1)(b), porque
hv, w + w0 i = hw + w0 , vi = hw, vi + hw0 , vi = hv, wi + hv, w0 i,
y
hv, λwi = hλw, vi = λhw, vi = λhv, wi.
Del mismo modo se demuestra que las condiciones (1)(b) y (2) implican (1)(a).
Propiedades inmediatas
De las condiciones de la definición se deducen varias propiedades inmediatas:
(4) hv, 0i = h0, vi = 0,
para cada v de V .
La primera igualdad es consecuencia de la simetrı́a (2). La segunda es
238
Álgebra lineal
hv, 0i = hv, 0 0i = 0hv, 0i = 0.
(5) hv, vi = 0
si y sólo si
v es el vector cero 0 .
Por (4), h0, 0i = 0 . Por otra parte, por (3), si hv, vi = 0 , el vector v no puede ser distinto del
vector cero 0 . Sólo queda una posibilidad: v = 0 .
(6) Si v y v 0 son vectores tales que para todo vector w del espacio, hv, wi = hv 0 , wi , entonces
v = v0 .
Se tiene que hv − v 0 , wi = 0 , para todo vector w , luego en particular, hv − v 0 , v − v 0 i = 0 , y por
(5), v = v 0 .
(7) h λ1 v1 + · · · + λn vn , µ1 w1 + · · · + µm wm i =
n X
m
X
λi µj hvi , wj i,
para cualesquiera vec-
i=1 j=1
tores v1 , . . . , vn , w1 , . . . , wm ∈ V y números reales λ1 , . . . , λn , µ1 , . . . , µm .
Por ejemplo, con n = m = 2 ,
hλ1 v1 + λ2 v2 , µ1 w1 + µ2 w2 i = hλ1 v1 , µ1 w1 + µ2 w2 i + hλ2 v2 , µ1 w1 + µ2 w2 i
= hλ1 v1 , µ1 w1 i + hλ1 v1 , µ2 w2 i + hλ2 v2 , µ1 w1 i + hλ2 v2 , µ2 w2 i
= λ1 µ1 hv1 , w1 i + λ1 µ2 hv1 , w2 i + λ2 µ1 hv2 , w1 i + λ2 µ2 hv2 , w2 i.
y en particular,
hλv + µw, λv + µwi = λ2 hv, vi + 2λµhv, wi + µ2 hw, wi.
En general,
h λ1 v1 + · · · + λn vn , µ1 w1 + · · · + µm wm i =
n
X
hλi vi , µ1 w1 + · · · + µn wn i
i=1
=
n
X
λi hvi , µ1 w1 + · · · + µn wn i
i=1
=
n
X


m
X
λi 
µj hvi , wj i
i=1
=
m
n X
X
j=1
λi µj hvi , wj i
i=1 j=1
Ejemplos
(I) El ejemplo más importante de producto escalar es el producto escalar estándar de Rn , definido
por:
h , i : Rn × Rn −−→ R
h(x1 , x2 , . . . , xn ), (y1 , y2 , . . . , yn )i = x1 · y1 + x2 · y2 + · · · + xn · yn .
Esta aplicación es un producto escalar sobre Rn :
(1) h , i es bilineal:
h(x1 , . . . , xn ) + (x01 , . . . , x0n ), (y1 , . . . , yn )i = h(x1 + x01 , . . . , xn + x0n ), (y1 , . . . , yn )i
= (x1 + x01 ) · y1 + · · · + (xn + x0n ) · yn
= x1 · y1 + · · · + xn · yn + x01 · y1 + · · · + x0n · yn
= h(x1 , . . . , xn ), (y1 , . . . , yn )i + h(x01 , . . . , x0n ), (y1 , . . . , yn )i,
239
Espacios vectoriales euclı́deos
y
hλ(x1 , . . . , xn ), (y1 , . . . , yn )i = h(λx1 , . . . , λxn ), (y1 , . . . , yn )i
= λx1 · y1 + · · · + λxn · yn
= λ(x1 · y1 + · · · + xn · yn )
= λh(x1 , . . . , xn ), (y1 , . . . , yn )i.
Si demostramos que h , i es simétrica, todo lo que se cumple respecto de la primera componente, se
cumple respecto de la segunda, y, por ejemplo, no tenemos necesidad de comprobar que se cumple (1)
(b), si ya tenemos (1)(a) y (2).
(2) h , i es simétrica:
h(x1 , . . . , xn ), (y1 , . . . , yn )i = x1 · y1 + · · · + xn · yn
= y1 · x1 + · · · + yn · xn
= h(y1 , . . . , yn ), (x1 , . . . , xn )i.
(3) h , i es definida positiva:
Si (x1 , . . . , xn ) es un vector de Rn distinto del vector cero (0, . . . , 0) , entonces hay al menos un
i = 1, . . . , n tal que xi =
6 0 y
h(x1 , . . . , xn ), (x1 , . . . , xn )i = x21 + · · · + x2n > x2i > 0.
El espacio vectorial Rn con el producto escalar estándar h , i se llama espacio vectorial euclı́deo
estándar de dimensión n .
Si n = 1, el producto escalar estándar de R es el producto usual de números reales: hx, x0 i = xx0 .
Si n = 2, el producto escalar estándar de R2 es
h(x, y), (x0 , y 0 )i = xx0 + yy 0 .
Si n = 3, el producto escalar estándar de R3 es
h(x, y, z), (x0 , y 0 , z 0 )i = xx0 + yy 0 + zz 0 .
(II) Sobre un mismo espacio vectorial real se pueden definir infinitos productos escalares. Por ejemplo,
para cualesquiera números reales positivos a1 , a2 , . . . , an la aplicación
h , i : Rn × Rn −−→ R
h(x1 , x2 , . . . , xn ), (y1 , y2 , . . . , yn )i = a1 x1 · y1 + a2 x2 · y2 + · · · + an xn · yn .
es un producto escalar sobre Rn . La demostración es análoga a la demostración anterior para el producto
escalar estándar, que es el caso particular de este ejemplo con a1 = a2 = · · · = an = 1.
Por ejemplo, un producto escalar sobre R2 es
h(x, y), (x0 , y 0 )i = 7xx0 + 4yy 0 .
y un producto escalar sobre R3 es
h(x, y, z), (x0 , y 0 , z 0 )i = 2xx0 + 3yy 0 + 5zz 0 .
(III) El segundo ejemplo importante de producto escalar es sobre el espacio vectorial real V =
C([a, b], R) de las funciones reales f : [a, b] → R continuas en un intervalo [a, b] de la recta real: la
aplicación
h , i : V × V −−→ R
Z
(f, g) 7−→ hf, gi =
b
f ·g
a
para cada f, g ∈ V , es un producto escalar sobre V , donde f · g es la función producto de f y g ,
definida en [a, b] por t −
7 → f (t) · g(t) para cada t ∈ [a, b].
Comprobamos que la aplicación ası́ definida es un producto escalar sobre V :
240
Álgebra lineal
(1) h , i es bilineal:
Z b
Z b
Z b
Z b
(g · h) = h f, h i + h g, h i
(f · h) +
(f · h) + (g · h) =
(f + g) · h =
h f + g, h i =
a
a
a
a
y
Z
h λf, g i =
b
Z
(λf ) · g =
b
b
Z
λ(f · g) = λ
a
a
f · g = λh f, g i
a
Como en el ejemplo anterior, si demostramos que es simétrica, al tener (1)(a), tendremos (1)(b).
(2) h , i es simétrica:
Z
hf, gi =
b
Z
f ·g =
a
b
g · f = hg, f i.
a
(3) h , i es definida positiva:
Si f ∈ V no es la función constante cero de [a, b] en R , como f es continua en [a, b] , hay un
subintervalo de [a, b] en el que f no toma el valor 0, y por tanto, f (x) · f (x) > 0 para todo x del
subintervalo. Con esto, y teniendo en cuenta que f (x) · f (x) > 0 , para cada x ∈ [a, b] ,
Z b
hf, f i =
f ·f >0
a
y h , i es definida positiva.
(IV) Para el espacio vectorial R6n [X] de los polinomios reales de grado 6 n , la aplicación definida
por
Z
(p(X), q(X)) 7−→
b
hp(X), q(X)i =
p(t) · q(t) dt
a
para cualesquiera p(X), q(X) ∈ R6n [X] , es un producto escalar.
La demostración es como la que se acaba de hacer en el ejemplo anterior. Para demostrar que es
definida positiva no hace falta echar mano de las propiedades de las funciones continuas: si p(X) es un
polinomio real de grado 6 n y distinto del polinomio nulo, entonces p(X) tiene a lo más n raı́ces en el
intervalo [a, b], lo que implica que p2 (t) > 0 para todo t ∈ [a, b] salvo un número finito de puntos, las
posibles raı́ces del polinomio en [a, b]. Por consiguiente, hp(X), p(X)i > 0.
(V) Sea V el espacio vectorial Mn (R) de la matrices reales de orden n . La aplicación h , i de
V × V en R definida por
hA, Bi = tr(B t · A)
para cualesquiera matrices A, B reales de orden n , donde tr(A) es la traza de la matriz A , es un
producto escalar sobre Mn (R) .
Efectivamente, es un producto escalar sobre Mn (R) :
(1) h , i es bilineal:
h A + B, C i = tr(C t · (A + B)) = tr(C t · A + C t · B) = tr(C t · A) + tr(C t · B) = h A, C i + h B, C i
y
h λA, B i = tr(B t · (λA)) = tr(λ(B t · A)) = λ tr(B t · A) = λh A, B i.
Como en los ejemplos anteriores, si demostramos que es simétrica, al tener (1)(a), tendremos (1)(b).
(2) h , i es simétrica:
hA, Bi = tr(B t · A) = tr((B t · A)t ) = tr(At · (B t )t ) = tr(At · B) = hB, Ai.
(3) h , i es definida positiva:
Sea A = (aij )n una matriz real de orden n , y sea (cij )n la matriz At · A . Entonces
hA, Ai = tr(At · A) = c11 + c22 + · · · + cnn =
n
X
k=1
ak1 ak1 +
n
X
k=1
ak2 ak2 + · · · +
n
X
k=1
akn akn =
n
X
i,j=1
a2ij ,
241
Espacios vectoriales euclı́deos
la suma de los cuadrados de todos los elementos de la matriz A , que son números reales. Si A es una
matriz no nula, alguno de sus elementos aij es distinto de cero, a2ij es positivo, y por tanto, hA, Ai
también es positivo. Ası́ que h , i es definida positiva.
(VI) Hallamos los números reales a, b, c y d tales que la aplicación h , i : R2 × R2 −−→ R definida
por
h(x, y), (x0 , y 0 )i = axx0 + bxy 0 + cx0 y + dyy 0
es un producto escalar sobre R2 .
(1) La aplicación es bilineal para cualesquiera números reales a, b, c y d : si en la expresión anterior
fijamos (x, y), tenemos la aplicación lineal de R2 en R definida por:
(x0 , y 0 ) 7−→ (ax + cy)x0 + (bx + dy)y 0 .
Del mismo modo, si fijamos (x0 , y 0 ), tenemos la aplicación lineal de R2 en R definida por:
(x, y) 7−→ (ax0 + by 0 )x + (cx0 + dy 0 )y.
(2) Si es simétrica, h(1, 0), (0, 1)i = h(0, 1), (1, 0)i . El primero es b , y el segundo es c . Luego b y c
tienen que ser iguales, y la aplicación queda
h(x, y), (x0 , y 0 )i = axx0 + bxy 0 + bx0 y + dyy 0 .
(3) Para cada (x, y) ∈ R2 , h(x, y), (x, y)i = ax2 + 2bxy + dy 2 . Como los vectores (1, 0) y (0, 1)
son distintos del vector cero, si h , i es definida positiva, h(1, 0), (1, 0)i = a y h(0, 1), (0, 1)i = d tienen
que ser positivos. Para cada (x, y) de R2 , “completando cuadrados”
1 2 2
(a x + 2abxy + ady 2 )
a
1
= (a2 x2 + 2abxy + b2 y 2 + ady 2 − b2 y 2 )
a
1
= ((ax + by)2 + (ad − b2 )y 2 )
a
1
= ((ax + by)2 − (b2 − ad)y 2 )
a
h(x, y), (x, y)i = ax2 + 2bxy + dy 2 =
y si (b2 − ad) < 0 , para cualquier vector (x, y) 6= (0, 0) , se tiene que h(x, y), (x, y)i > 0 .
En total, la aplicación anterior es un producto escalar sobre R2 si a, d > 0, b = c y ad − b2 > 0.
El producto escalar estándar se obtiene con a = d = 1 y b = c = 0 .
Por ejemplo, las aplicaciones
h(x, y), (x0 , y 0 )i = 2xx0 + xy 0 + x0 y + 3yy 0 ,
y
h(x, y), (x0 , y 0 )i = xx0 + 2yy 0
son productos escalares sobre R2 .
Norma, distancia y ángulos
Cada producto escalar en un espacio vectorial real impone una ‘geometrı́a’ del espacio vectorial. Porque
el producto escalar trae consigo la posibilidad de definir toda una serie de nociones de tipo geométrico,
como, por ejemplo, la norma o módulo de un vector, la distancia entre vectores, el ángulo que forman dos
vectores no nulos y perpendicularidad u ortogonalidad de vectores y de subespacios.
Sea V un espacio vectorial euclı́deo con producto escalar h , i . Para cada vector v de V se define
la norma (o la longitud, o incluso, el módulo) del vector v como el número real no negativo
p
kvk=
hv, vi.
242
Álgebra lineal
Como el producto escalar es definido positivo, hv, vi > 0 , para todo v ∈ V , y la norma está definida
para todo vector de V .
Ejemplos
(1) En el espacio vectorial euclı́deo Rn con el producto escalar estándar, la norma (o longitud) de
un vector (x1 , x2 , . . . , xn ) es
q
p
k (x1 , x2 , . . . , xn ) k= h(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )i = x21 + x22 + · · · + x2n .
Como casos particulares tenemos
k x k = |x|
si n = 1;
p
k (x, y) k = x2 + y 2
si n = 2, y
p
si n = 3.
k (x, y, z) k = x2 + y 2 + z 2
√
√
Por ejemplo, en R2 , k (1, 1) k= 2; en R3 , k (1, 0, 0) k= 1 y en R4 , k (1, 2, 0, 1) k= 6.
(2) En el espacio vectorial del ejemplo (II) de más arriba, la norma de un vector (x1 , x2 , . . . , xn ) es
q
p
k (x1 , x2 , . . . , xn ) k =
h(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )i =
a1 x21 + a2 x22 + · · · + an x2n .
En √los ejemplos de productos escalares sobre R2 y R3 resultan k (1, 1) k=
k ( 22 , 0, 0) k= 1.
√
11, k (1, 0, 0) k=
√
2 y
(3) En el espacio vectorial euclı́deo del ejemplo (III) de más arriba, la norma de una función real
f : [a, b] → R continua en [a, b] es
s
Z b
p
k f k= hf, f i =
f · f,
a
la raı́z cuadrada positiva de la integral en [a, b] de la función t 7→ f (t) · f (t) = (f (t))2 .
Por ejemplo, con [a, b] = [0, π] la norma de la función seno f (x) = sen x es
sZ
s
r
π
π
1
π
k f k = k sen x k =
(sen x)2 dx =
(x − sen x · cos x) =
.
2
2
0
0
pπ
De hecho, para cada n > 1, la norma de la función fn (x) = sen nx es
2 . También para cada n > 1,
pπ
la norma de la función gn (x) = cos nx es
.
2
es
(4) En el espacio vectorial euclı́deo del ejemplo (IV) de más arriba, la norma de un polinomio p(X)
s
Z b
p
k p(X) k =
hp(X), p(X)i =
(p(X))2 dx.
a
Por ejemplo, con [a, b] = [0, 1], para cada n > 1,
s
s
Z 1
x2n+1
k X n k=
(xn )2 dx =
2n + 1
0
1
r
=
0
1
=
2n + 1
√
2n + 1
.
2n + 1
(5) En el espacio vectorial euclı́deo de las matrices reales de orden n del ejemplo (V) anterior, la
norma de una matriz A es
v
uX
p
p
u n 2
t
k A k= hA, Ai = tr(A · A) = t
aij ,
i,j=1
la raı́z cuadrada positiva de la suma de los cuadrados de todos los elementos de la matriz A .
1 0
1
Por ejemplo, para n = 2, la norma de la matriz
es 1 y la norma de la matriz
0 0
0
√
es 6.
2
1
243
Espacios vectoriales euclı́deos
El primer resultado sobre normas y productos escalares es la siguiente importante desigualdad, que
relaciona el producto escalar de dos vectores con el producto de sus normas:
Teorema. (Desigualdad de Cauchy–Buniakovski–Schwarz) Sea V un espacio vectorial euclı́deo con
producto escalar h , i . Para cualesquiera vectores v y w de V ,
|hv, wi| 6 k v k · k w k .
Además, se cumple la igualdad
mente dependientes.
|hv, wi| = k v k · k w k
si y sólo si los vectores v y w son lineal-
Demostración. Observamos en primer lugar que para cualesquiera números reales λ y µ ,
0 6 hλv + µw, λv + µwi = λ2 hv, vi + µ2 hw, wi + 2λµhv, wi.
Si w = 0 , entonces la desigualdad se convierte en 0 6 λ2 hv, vi, y no hay nada que demostrar.
Supongamos que w 6= 0 . Sea λ = hw, wi , que es > 0 , y sea µ = −hv, wi . Sustituyendo estos
valores de λ y µ en la desigualdad anterior,
0 6 hw, wi2 · hv, vi + (−hv, wi)2 · hw, wi + 2(hw, wi) · (−hv, wi) · hv, wi =
= hw, wi2 · hv, vi + hv, wi2 · hw, wi − 2hw, wi · hv, wi2 .
Dividimos por λ = hw, wi > 0 y queda
0 6 hw, wi · hv, vi − hv, wi2 ,
es decir,
0 6 k v k2 · k w k2 − hv, wi2 ,
de donde
|hv, wi| 6 k v k · k w k,
que es la desigualdad buscada.
Supongamos ahora que v y w son linealmente dependientes y que w 6= 0 . Entonces v = νw para
un número real ν , y
|hv, wi| = |hνw, wi| = |ν| · hw, wi = |ν|· k w k · k w k = k νw k · k w k = k v k · k w k .
Si se cumple la igualdad, tenemos con los λ = hw, wi =
6 0 y µ = −hv, wi tomados más arriba,
hλv + µw, λv + µwi = 0,
lo que lleva a λv + µw = 0 , y v y w son linealmente dependientes.
Ejemplos.
Veamos algunos ejemplos de “desigualdad de Cauchy–Buniakovski–Schwarz”:
(1) En el espacio vectorial euclı́deo estándar Rn , para cualesquiera vectores (x1 , x2 , . . . , xn ) e
(y1 , y2 , . . . , yn ) la desigualdad toma la forma
(x1 y1 + x2 y2 + · · · + xn yn )2 6 (x21 + x22 + · · · + x2n ) · (y12 + y22 + · · · + yn2 ).
Para n = 2 y 3,
(xx0 + yy 0 )2 6 (x2 + y 2 ) · (x02 + y 02 )
(xx0 + yy 0 + zz 0 )2 6 (x2 + y 2 + z 2 ) · (x02 + y 02 + z 02 ).
(2) En el espacio vectorial euclı́deo C([a, b], R) del ejemplo (III) de más arriba, para cualesquiera
funciones f y g del espacio
!2
Z b
Z b !
Z b !
2
f ·g
6
f
·
g2 .
a
a
a
Las propiedades básicas de la norma k k de un espacio vectorial euclı́deo son
Proposición. Para cualesquiera vectores v y w de V y cada número real λ ,
244
Álgebra lineal
(1) k v k > 0 ;
(2) k v k = 0 si y sólo si v es el vector nulo 0 ;
(3) k λv k = |λ|· k v k , y
(4) (Desigualdad triangular) k v + w k 6 k v k + k w k .
Demostración. (1) Por la definición de norma, k v k es un número real no negativo.
(2) Esto es porque el producto escalar es definido positivo: hv, vi = 0 si y sólo si v = 0 y entonces,
k v k = hv, vi2 = 0 si y sólo si v = 0 .
p
p
p
(3) k λv k = hλv, λvi = λ2 hv, vi = |λ| hv, vi = |λ|· k v k .
(4) Con la desigualdad de Cauchy–Buniakovski–Schwarz demostramos la desigualdad triangular.
Para cualesquiera v y w ,
k v + w k2 = hv + w, v + wi = hv, vi + 2hv, wi + hw, wi 6
6 k v k2 + 2 k v k · k w k + k w k2 = (k v k + k w k)2
√
y por la monotonı́a de la función raı́z cuadrada x > 0 7−→ + x ,
kv+w k 6 kv k + kw k.
El nombre de “desigualdad triangular” tiene su origen en el teorema de geometrı́a euclı́dea plana
que dice que cada lado de un triángulo es mayor que la diferencia de los otros dos y menor que la suma
de los otros dos. El enunciado correspondiente aquı́ es
|kvk−kwk|
6 kv+w k
6 k v k + k w k,
para cualesquiera vectores v y w de V . Sólo queda demostrar la primera desigualdad, y queda como
ejercicio.
Los vectores v de V de norma igual a 1 , en sı́mbolos, k v k= 1 , son los vectores unitarios del
espacio vectorial euclı́deo V .
Para cada vector no nulo v , hay un vector proporcional a v que es un vector unitario, a saber, el
1
v . Es una consecuencia de la propiedad (3) de la norma, que este vector es un vector unitario.
vector kvk
Normalizar un vector v distinto del vector cero 0 consiste en hallar el vector unitario
porcional a v.
1
kvk v
pro-
Distancia entre vectores
En un espacio vectorial euclı́deo V con producto escalar h , i , se llama distancia de dos vectores v y
w , al número real
d(v, w) = k v − w k .
Las propiedades básicas de la distancia son consecuencias inmediatas de las propiedades básicas de la
norma, y sólo damos los enunciados:
Proposición. Para cualesquiera vectores v, w y u de un espacio vectorial euclı́deo
(1) d(v, w) > 0;
(2) d(v, w) = 0 si y sólo si v = w ;
(3) d(v, w) = d(w, v) , y
(4) (Desigualdad triangular) d(v, w) 6 d(v, u) + d(u, w).
Ejemplos.
(1) En el espacio vectorial euclı́deo estándar R3 , la distancia entre los vectores (1, 0, 0) y (0, 1, 0)
es
d((1, 0, 0), (0, 1, 0)) = k (1, 0, 0) − (0, 1, 0) k = k (1, −1, 0) k =
p
√
h(1, −1, 0), (1, −1, 0)i = 2.
245
Espacios vectoriales euclı́deos
(2) En el espacio vectorial euclı́deo
M2 (R) de las
reales de orden 2 definido más arriba,
matrices
1 0
1 1
la distancia entre las matrices A =
y B=
es
0 1
1 0
p
√
√
hA − B, A − Bi = 0 + 1 + 1 + 1 = 3.
d(A, B) = k A − B k =
Ángulo convexo no orientado de dos vectores no nulos
Sean v y w dos vectores no nulos de un espacio vectorial euclı́deo V con producto escalar h , i . De
la desigualdad de Cauchy–Buniakovski–Schwarz se obtiene
−1 6
hv, wi
6 1.
kvk·kwk
El cociente en esta desigualdad es un número real del intervalo [−1, 1] , y sabemos que la función coseno
cos : [0, π] −−→ [−1, 1]
x 7−→ cos x
hv,wi
es una aplicación biyectiva, luego para el número real kvk·kwk
de [−1, 1] hay un α en [0, π] , único, tal
que
hv, wi
,
06α6π
cos α =
kvk·kwk
y
hv, wi = k v k · k w k · cos α,
(“el producto escalar de dos vectores es el producto de sus módulos por el coseno del ángulo que forman”).
El α único de [0, π] tal que
hv, wi
α = arccos
kvk·kwk
se llama ángulo convexo no orientado formado por los vectores v y w , y lo indicamos por ^(v, w) . El
adjetivo convexo se refiere a que, según la definición, el ángulo ^(v, w) está en [0, π] .
Observemos que ^(v, w) = ^(w, v) , y el ángulo no orientado no depende del orden de los vectores.
Y para todo número real λ > 0 , ^(λv, w) = ^(v, w) = ^(v, λw).
Ejemplos.
(1) En R2 con el producto escalar estándar, los vectores (1, 0) y (0, 1) de la base estándar forman
el ángulo α de [0, π] tal que
cos α =
y α = arccos 0 =
π
2
h(1, 0), (0, 1)i
0
= =0
k (1, 0) k · k (0, 1) k
1
.
(2) En R2 con el producto escalar definido por h(x, y), (x0 , y 0 )i = 2xx0 + 3yy 0 , los vectores (1, 2) y
(1, 0) forman el ángulo β dado por
√
h(1, 2), (0, 1)i
6
42
√ =
cos β =
=√
k (1, 2) k · k (0, 1) k
7
14 · 3
√
y β = arccos
42
7
.
Recordemos que en la desigualdad de Cauchy–Buniakovski–Schwarz se cumple la igualdad si y sólo
si los vectores son linealmente dependientes: Por tanto, v y w son linealmente dependientes si y sólo si
|hv, wi| = | k v k · k w k · cos ^(v, w)| = k v k · k w k,
lo que equivale a que cos ^(v, w) = ±1 , esto es, ^(v, w) = 0 o π : v y w forman un ángulo de 0 o
π radianes, y v y w son proporcionales.
246
Álgebra lineal
Vectores y conjuntos ortogonales
Sea V un espacio vectorial euclı́deo con producto escalar h , i . Se dice que dos vectores v y w de V
son ortogonales o perpendiculares, si su producto escalar hv, wi es igual a cero: hv, wi = 0. Si v y w
son vectores ortogonales, se indica por v ⊥ w .
Según la definición de ángulo de dos vectores no nulos, si dos vectores no nulos de V son ortogonales,
y α es el ángulo de los dos vectores,
cos α =
de donde α =
π
2
|hv, wi|
0
=
=0
kvk·kwk
kvk·kwk
, y el ángulo es un ángulo recto.
• El vector cero 0 es ortogonal a cualquier vector v , porque hv, 0i = 0 . Y como h0, 0i = 0 , el
vector cero es ortogonal a sı́ mismo, y es el único vector que es ortogonal a sı́ mismo: porque de hv, vi = 0
se deduce v = 0 , ya que el producto escalar es definido positivo.
• Un vector v es ortogonal a todos los vectores de una base B = {v1 , v2 , . . . , vn } si y sólo si
v = 0 . En efecto, si v es ortogonal a todos los vectores de la base, es ortogonal a cada vector que es
combinación lineal de los vectores de la base, es decir, a todos los vectores del espacio, y en particular,
es ortogonal a sı́ mismo, luego v = 0 . La otra implicación es evidente.
Ejemplos.
(a) En el espacio vectorial euclı́deo estándar R3 los vectores (1, 0, 1) y (1, 1, −1) son ortogonales.
(b) En el espacio vectorial euclı́deo C([a, b], R) del ejemplo (III) de más arriba, con [a, b] = [0, π],
las funciones f (x) = sen x y g(x) = sen 2x son ortogonales, porque integrando por partes dos veces,
Z π
π
1
hf, gi = hsen x, sen 2xi =
sen x · sen 2x dx = − (2 sen x cos 2x − cos x sen 2x) = 0.
3
0
0
De hecho, para cualesquiera n, m > 1 y distintos, las funciones fn (x) = sen nx y fm (x) = sen mx son
ortogonales, porque también integrando por partes dos veces
Z π
n
π
m
hfn , fm i = hsen nx, sen mxi =
sen nx·sen mx dx = 2
sen
nx
cos
mx
−
cos
nx
sen
mx
= 0.
m − n2 m
0
0
En este mismo espacio vectorial euclı́deo también las funciones gn (x) = cos nx, para n > 1, son
ortogonales, esto es, si n 6= m, entonces hgn , gm i = hcos nx, cos mxi = 0.
(c) En el espacio vectorial euclı́deo R6n [X] del ejemplo (IV) de más arriba, con [a, b] = [−1, 1] los
polinomios X 2 + 9 y X 3 − 2X son ortogonales, porque
Z 1
Z 1
1
x6
7x4
hX 2 + 9, X 3 − 2Xi =
= 0.
(x2 + 9) · (x3 − 2x) dx =
(x5 + 7x3 − 18x) dx =
+
− 9x2
6
4
−1
−1
−1
De hecho, en este espacio vectorial euclı́deo, cada polinomio par (esto es, los polinomios p(X) tales que
p(−x) = p(x), para cada x ∈ R ) es ortogonal a cada polinomio impar ( p(−x) = −p(x) para cada
x ∈ R ).
Proposición. Sean v y w dos vectores no nulos de un espacio vectorial euclı́deo V . Entonces
k v + w k2 = k v k2 + k w k2
si y sólo si
v y w son ortogonales.
Demostración. Tenemos
k v + w k2 = hv + w, v + wi
= hv, vi + 2hv, wi + hw, wi
= k v k2 + 2hv, wi+ k w k2 .
Entonces k v + w k2 = k v k2 + k w k2 si y sólo si hv, wi = 0 , los vectores v y w son ortogonales. Un conjunto finito {v1 , v2 , . . . , vk } de vectores no nulos se dice que es un conjunto ortogonal de
vectores de V si para cualesquiera i, j = 1, . . . , k , con i 6= j , se tiene hvi , vj i = 0 , es decir, vi y vj
son ortogonales.
A veces llamado Teorema de
Pitágoras.
247
Espacios vectoriales euclı́deos
En general, no sólo con conjuntos finitos de vectores: un conjunto no vacı́o S de vectores de un espacio
vectorial euclı́deo es un conjunto ortogonal si cualesquiera dos vectores distintos de S son ortogonales.
Ejemplos.
(a) En el espacio vectorial euclı́deo estándar Rn , los n vectores de la base estándar forman un
conjunto ortogonal.
(b) En el espacio vectorial euclı́deo C([0, π], R) de las funciones reales continuas en [0, π], el conjunto
{fn | n > 1} de las funciones fn (x) = sen nx, es un conjunto ortogonal.
También el conjunto {gn | n > 1} de las funciones gn (x) = cos nx, es un conjunto ortogonal de
vectores del mismo espacio.
Un conjunto finito {v1 , v2 , . . . , vk } de vectores no nulos se dice que es un conjunto ortonormal de
vectores de V si
(1) {v1 , v2 , . . . , vk } es un conjunto ortogonal de vectores de V , y
(2) los vectores v1 , v2 , . . . , vk son vectores unitarios, esto es, k vi k= 1 , para cada i = 1, . . . , k .
De otro modo, {v1 , v2 , . . . , vk } es un conjunto ortonormal si para cualesquiera i, j = 1, . . . , k ,
1
si i = j,
hvi , vj i = δij =
0
si i 6= j.
A partir de un conjunto finito {v1 , v2 , . . . , vk } ortogonal de vectores de V se obtiene un conjunto
ortonormal simplemente normalizando cada uno de los vectores vi del conjunto, esto es , el conjunto
1
1
1
v1 ,
v2 , . . . ,
vk .
k v1 k
k v2 k
k vk k
Ejemplos.
(a) En el espacio vectorial euclı́deo estándar Rn , los n vectores de la base estándar forman un
conjunto ortonormal.
(b) En el espacio vectorial euclı́deo C([0, π], R) de las funciones reales continuas en [0, π], el conjunto
{Fn | n > 1} de las funciones
r
2
Fn (x) =
sen nx,
π
p
es un conjunto ortonormal. Recordemos que k fn k = k sen nx k= π2 . Cada función Fn es el resultado
de normalizar el vector fn .
También el conjunto {Gn | n > 1} de las funciones
r
2
cos nx,
Gn (x) =
π
es un conjunto ortonormal de vectores del mismo espacio. Como en el ejemplo anterior, cada vector Gn
es el resultado de normalizar el vector gn .
Pregunta: ¿es ortonormal el conjunto unión {Fn | n > 1} ∪ {Gn | n > 1} ? Los vectores son unitarios.
¿Es un conjunto ortogonal? Para cada m, n > 1, ¿son ortogonales los vectores Fm y Gn ?, ¿cuál es el
valor de hFm , Gn i ?, ¿es cero?
Proposición. Todo conjunto ortogonal {v1 , v2 , . . . , vk } de vectores no nulos de un espacio vectorial
euclı́deo V es linealmente independiente.
Demostración. Sean λ1 , λ2 , . . . , λk números reales tales que λ1 v1 + λ2 v2 + . . . + λk vk = 0. Entonces
para cada i = 1, . . . , k ,
0 = hvi , 0i = hvi , λ1 v1 + λ2 v2 + . . . + λk vk i
= λ1 hvi , v1 i + λ2 hvi , v2 i + · · · + λk hvi , vk i
= λ1 0 + · · · + λi−1 0 + λi hvi , vi i + λi+1 0 + · · · + λk 0
= λi hvi , vi i.
248
Álgebra lineal
Y como hvi , vi i > 0 , porque los vectores vi son todos distintos del vector 0 , tiene que ser λi = 0 .
Luego λ1 = λ2 = . . . = λk = 0 y los vectores v1 , v2 , . . . , vk son linealmente independientes.
Corolario. Si V es un espacio vectorial euclı́deo de dimensión n > 1 , cada conjunto ortogonal de n
vectores de V es una base de V .
Subespacio ortogonal a un conjunto de vectores
Sea S un conjunto no vacı́o de vectores de un espacio vectorial euclı́deo V . Consideramos el conjunto
de los vectores de V que son ortogonales a todos los vectores de S , conjunto que indicamos por S ⊥ :
S ⊥ = {w ∈ V | w es ortogonal a cada vector v de S}
= {w ∈ V | hv, wi = 0
para todo v ∈ S}
Proposición. Para cada conjunto no vacı́o S de vectores de V , el conjunto S ⊥ es un subespacio
vectorial de V .
Demostración. El conjunto S ⊥ tiene elementos, porque el vector cero 0 es ortogonal a todos los vectores
de V , y, por tanto, de S . Para cualesquiera vectores w y w0 de S ⊥ y números reales λ y µ ,
hv, λw + µw0 i = hv, λwi + hv, µw0 i = λhv, wi + µhv, w0 i = λ0 + µ0 = 0 + 0 = 0
para todo vector v de S , y el vector λw + µw0 pertenece a S ⊥ .
El subespacio S ⊥ se llama subespacio ortogonal a S .
En el caso en el que el conjunto S es un subespacio vectorial W de V , se tiene el subespacio
ortogonal W ⊥ al subespacio W :
W ⊥ = {v ∈ V | v ⊥ w
para todo vector w ∈ W }
= {v ∈ V | hv, wi = 0
para todo vector w ∈ W }.
• El subespacio ortogonal {0}⊥ al subespacio cero {0} , o al vector cero 0 , es el espacio V ,
porque hv, 0i = 0 , para todo v de V .
• El subespacio ortogonal V ⊥ al espacio V es el subespacio cero {0} , porque el único vector v
que es ortogonal a sı́ mismo, hv, vi = 0 , es el vector cero 0 .
Todo vector que es ortogonal a todos los vectores de un conjunto S es también ortogonal a todos
los vectores que son combinación lineal de vectores de S :
Si v es un vector que es ortogonal a los vectores v1 , v2 , . . . , vk de S entonces para cualesquiera
números reales λ1 , . . . , λk ,
hv, λ1 v1 + · · · + λk vk i = λ1 hv, v1 i + · · · + λk hv, vk i
= λ1 0 + · · · + λk 0
=0
y v es ortogonal a todo vector que es combinación lineal de vectores de S . En sı́mbolos, S ⊥ ⊆ L[S]⊥ .
Además como todo vector de S pertenece a L[S] , todo vector que es ortogonal a todos los vectores de
L[S] es ortogonal a los vectores de S, lo que en sı́mbolos se expresa por L[S]⊥ ⊆ S ⊥ . En total
Proposición. Para cada conjunto no vacı́o S de vectores de V
S ⊥ = L[S]⊥ .
Si S es un conjunto con un solo vector, S = {v} , entonces
S ⊥ = {v}⊥ = {w ∈ V | hw, vi = 0} = {w ∈ V | w ⊥ v}
es el subespacio de los vectores ortogonales al vector v . También se suele indicar por v ⊥ . Como acabamos
de demostrar, el subespacio ortogonal {v}⊥ coincide con el subespacio ortogonal L[v]⊥ a L[v] .
249
Espacios vectoriales euclı́deos
Ejemplo.
En R3 con el producto escalar estándar, el subespacio ortogonal al vector (1, 2, 1) es
{(1, 2, 1)}⊥ = L[(1, 2, 1)]⊥ = {(x, y, z) ∈ R3 | h(1, 2, 1), (x, y, z)i = 0}
= {(x, y, z) ∈ R3 | x + 2y + z = 0}
= L[(1, 0, −1), (2, −1, 0)].
Proposición. Para cada vector no nulo v de V , se tiene
V = L[v] ⊕ {v}⊥ = L[v] ⊕ L[v]⊥ .
Demostración. Primero demostramos V = L[v] + L[v]⊥ , expresando cada vector de V como suma
de un vector proporcional al vector v y un vector ortogonal a v . Para cada w de V , sea av (w) el
hv,wi
número real hv,wi
hv,vi . El vector av (w)v = hv,vi v es proporcional a v , luego pertenece a L[v] , y el vector
w − av (w)v es ortogonal a v :
hv, w − av (w)vi = hv, wi − av (w)hv, vi = hv, wi −
hv, wi
hv, vi = 0.
hv, vi
Luego el vector w − av (w)v pertenece a {v}⊥ . Se tiene el vector w como suma
w = av (w)v + (w − av (w)v)
(1)
en donde el primer sumando av (w)v pertenece L[v] y el segundo sumando es un vector del subespacio
ortogonal {v}⊥ al vector v . Por consiguiente, V = L[v] + L[v]⊥ .
Además L[v] ∩ L[v]⊥ = {0} porque ningún vector no nulo proporcional a v 6= 0 es ortogonal a v ,
ya que v no es ortogonal a sı́ mismo. En total, V = L[v] ⊕ {v}⊥ = L[v] ⊕ L[v]⊥ , como querı́amos
demostrar.
Una consecuencia de esta proposición es que si el espacio V tiene dimensión n > 1, para cada vector
no nulo v de V , la dimensión del subespacio ortogonal L[v]⊥ al vector v , es (dim V ) − 1 = n − 1 , y
L[v]⊥ es un hiperplano vectorial de V .
Otra consecuencia es que para cada vector w de V la expresión anterior de w como suma de un
vector proporcional a v y otro vector ortogonal a v
w = av (w)v + (w − av (w)v)
con av (w)v ∈ L[v]
y
(w − av (w)v) ∈ L[v]⊥
(1)
es única.
El primer sumando es el vector
pv (w) = av (w)v =
hv, wi
k v k · k w k · cos ^(v, w)
1
v =
v = k w k · cos ^(v, w) ·
v
hv, vi
k v k2
kvk
que se llama proyección ortogonal del vector w en la dirección de v , y el número real
av (w) =
1
hv, wi
= k w k · cos ^(v, w) ·
hv, vi
kvk
se llama coeficiente de Fourier de w respecto de v .
El segundo sumando es el vector
w − pv (w) = w − av (w)v = w −
hv, wi
v
hv, vi
que se llama componente normal del vector w a la dirección de v.
Si el vector v es unitario,
vector
k v k= 1, la proyección ortogonal de w en la dirección de v es el
hv, wiv = k w k · cos ^(v, w)v
el coeficiente de Fourier de w respecto de v es
de w es w − hv, wiv.
hv, wi = k w k · cos ^(v, w), y la componente normal
250
Álgebra lineal
La aplicación
pv : V −−→ V
w 7−→ pv (w)
que a cada vector w de V asigna el vector pv (w) proyección ortogonal de w en la dirección de v no
es más que el endomorfismo de V proyección vectorial de V sobre su subespacio L[v] paralemente al
subespacio ortogonal L[v]⊥ .
Ejemplos.
(i) En el espacio vectorial euclı́deo estándar R2 expresemos el vector (2, 4) como suma de un vector
proporcional y otro perpendicular al vector (1, 1).
Como h(2, 4), (1, 1)i = 2 + 4 = 6 tenemos que la proyección ortogonal de (2, 4) en la dirección de
(1, 1) es
6
h(2, 4), (1, 1)i
(1, 1) = (1, 1) = 3(1, 1) = (3, 3)
p(1,1) (2, 4) =
h(1, 1), (1, 1)i
2
y
(2, 4) = (3, 3) + ((2, 4) − (3, 3)) = (3, 3) + (−1, 1)
con
(3, 3) ∈ L[(1, 1)]
y
(−1, 1) ⊥ (3, 3).
(ii) En el espacio vectorial euclı́deo estándar R3 el vector (3, 5, 2) se expresa de una forma solamente
como suma de un vector proporcional y un vector ortogonal al vector (1, 1, 0). La proyección ortogonal
del vector (3, 5, 2) en la dirección del vector (1, 1, 0) es el vector
p(1,1,0) (3, 5, 2) =
h(3, 5, 2), (1, 1, 0)i
8
(1, 1, 0) = (1, 1, 0) = (4, 4, 0)
h(1, 1, 0), (1, 1, 0)i
2
luego
(3, 5, 2) = (4, 4, 0) + (−1, 1, 2),
con
(4, 4, 0) ∈ L[(1, 1, 0)]
y
(−1, 1, 2) ⊥ (4, 4, 0).
Bases ortogonales y bases ortonormales
Si el espacio vectorial euclı́deo V tiene dimensión finita, se llama base ortogonal de V a cada base
{v1 , v2 , . . . , vn } del espacio V que además es un conjunto ortogonal de vectores de V .
Ejemplos.
(1) La base estándar Be = {e1 , e2 , . . . , en } del espacio euclı́deo estándar Rn es una base ortogonal del espacio. También lo es {λ1 e1 , λ2 e2 , . . . , λn en } para cualesquiera números reales no nulos
λ1 , λ2 , . . . , λn .
(2) En R2 con el producto escalar estándar, {(1, 2), (−2, 1)} es una base ortogonal.
Una base ortonormal de un espacio vectorial euclı́deo de dimensión finita n > 1 es un conjunto
ortonormal de vectores de V que es una base del espacio.
Ejemplos.
(1) La base estándar Be = {e1 , e2 , . . . , en } del espacio euclı́deo estándar Rn es una base ortonormal
del espacio. Si λ1 , λ2 , . . . , λn son números reales de valor absoluto 1 , es decir, son 1 o −1 , entonces
{λ1 e1 , λ2 e2 , . . . , λn en } es una base ortonormal del espacio.
n √ √ √ √ o
5 2 5
(2) Otra base ortonormal de R2 con el producto escalar estándar es
, −25 5 , 55
.
5 , 5
n
o
Si B = {v1 , v2 , . . . , vn } es una base ortogonal de V , el conjunto kv11 k v1 , kv12 k v2 , . . . , kv1n k vn es
una base ortonormal de V : lo que se ha hecho es normalizar cada uno de los vectores vi de la base
ortogonal B .
Ventajas de trabajar con una base ortonormal
En un espacio vectorial euclı́deo de dimensión finita, trabajar con bases ortogonales tiene varias ventajas,
y éstas son mayores si las bases son ortonormales. Algunas de esta ventajas son:
251
Espacios vectoriales euclı́deos
(a) Sea B = {v1 , v2 , . . . , vn } una base ortogonal de V . Sea v un vector de V y sean x1 , x2 , . . . , xn
las coordenadas de v respecto de B . Para cada i = 1, . . . , n , tenemos
hv, vi i = hx1 v1 + x2 v2 + . . . + xn vn , vi i
= x1 hv1 , vi i + x2 hv2 , vi i + · · · + xn hvn , vi i
= xi hvi , vi i
y las coordenadas de v respecto de la base ortogonal B son
hv, v1 i
,
hv1 , v1 i
hv, v2 i
,
hv2 , v2 i
...,
hv, vn i
hvn , vn i
y
v =
hv, v1 i
hv, v2 i
hv, vn i
v1 +
v2 + · · · +
vn
hv1 , v1 i
hv2 , v2 i
hvn , vn i
Si la base B es una base ortonormal, entonces hvi , vi i = 1 para cada i = 1, . . . , n, las coordenadas
de un vector v respecto de B son hv, v1 i, hv, v2 i, . . . , hv, vn i, y
v = hv, v1 iv1 + hv, v2 iv2 + · · · + hv, vn ivn .
De otro modo,
CoordB (v) = (hv, v1 i, hv, v2 i, . . . , hv, vn i).
(b) Sea B = {v1 , v2 , . . . , vn } una base ortogonal de V . La expresión del producto escalar hv, wi
en función de las coordenadas de los vectores v y w respecto de la base B , con v = x1 v1 + · · · + xn vn
y w = y1 v1 + · · · + yn vn , es
hv, wi = hx1 v1 + · · · + xn vn , y1 v1 + · · · + yn vn i
=
n
X
xi yj hvi , vj i
i,j=1
=
n
X
xi yi hvi , vi i
porque hvi , vj i = 0
si i 6= j,
i=1
=
=
n
X
hv, vi i hw, vi i
hvi , vi i
hvi , vi i hvi , vi i
i=1
n
X
hv, vi ihw, vi i
i=1
hvi , vi i
y se tiene
hv, wi =
hv, v2 ihw, v2 i
hv, vn ihw, vn i
hv, v1 ihw, v1 i
+
+ ··· +
.
hv1 , v1 i
hv2 , v2 i
hvn , vn i
Si la base B es una base ortonormal, entonces hvi , vi i = 1 para cada i = 1, . . . , n, y si x1 , . . . , xn
e y1 , . . . , yn son las coordenadas de v y w respecto de la base B resulta
hv, wi = hv, v1 ihw, v1 i + · · · + hv, vn ihw, vn i = x1 y1 + · · · + xn yn .
y respecto de una base ortonormal, el producto escalar de dos vectores tiene la misma expresión que el
producto escalar estándar en Rn de las n -uplas de las coordenadas de los vectores.
(c) Si en la expresión del producto escalar respecto de una base ortogonal tomamos v = w ,
k v k2 = hv, vi =
hv, v2 i2
hv, vn i2
hv, v1 i2
+
+ ··· +
.
hv1 , v1 i
hv2 , v2 i
hvn , vn i
y
s
p
kvk=
hv, vi =
hv, v1 i2
hv, vn i2
+ ··· +
.
hv1 , v1 i
hvn , vn i
Si la base B es una base ortonormal hvi , vi i = 1, para cada i = 1, . . . , n y
hv, vi = hv, v1 ihv, v1 i + · · · + hv, vn ihv, vn i = hv, v1 i2 + · · · + hv, vn i2 .
252
Álgebra lineal
Si x1 , x2 , . . . , xn son las coordenadas de v respecto de la base ortonormal B anterior, entonces
k v k=
p
p
hv, vi = hv, v1 i2 + hv, v2 i2 + · · · + hv, vn i2
q
= x21 + x22 + · · · + x2n
y respecto de una base ortonormal, la norma de un vector tiene la misma expresión que la norma estándar
en Rn de la n -upla de las coordenadas del vector.
(d) Sea f : V −−→ V un endomorfismo de V y sea B = {v1 , v2 , . . . , vn } una base ortonormal de
V . La matriz del endomorfismo f respecto de la base B es la matriz
 hf (v ), v i
1
1
 hf (v1 ), v2 i
MB (f ) = 
..

.
hf (v2 ), v1 i
hf (v2 ), v2 i
..
.
···
···
..
.
hf (vn ), v1 i 
hf (vn ), v2 i 

..

.
hf (v1 ), vn i
hf (v2 ), vn i
···
hf (vn ), vn i
porque para cada j = 1, . . . , m la columna j -ésima de la matriz MB (f ) es el n -vector columna de las
coordenadas de f (vj ) respecto de la base ortonormal B y estas coordenadas son
hf (vj ), v1 i, hf (vj ), v2 i, . . . , hf (vj ), vn i.
Teniendo en cuenta estas ventajas, es natural hacer la pregunta:
¿Todo espacio vectorial euclı́deo de dimensión finita tiene una base ortogonal?
Vamos a dar dos demostraciones distintas de la existencia de bases ortogonales en cada espacio
vectorial euclı́deo de dimensión finita. Las dos proporcionan un método para hallar una base ortogonal.
Proposición. En cada espacio vectorial euclı́deo de dimensión finita > 1 hay una base ortogonal.
Demostración. La demostración es por inducción sobre la dimensión n > 1 del espacio. Demostraremos
que para cada número natural n > 1 , todo espacio vectorial euclı́deo V de dimensión n , tiene una base
ortogonal.
Si n = 1 , cualquier base de V tiene un solo elemento no nulo, y es una base ortogonal del espacio.
Supongamos que n > 1 y todo espacio vectorial euclı́deo de dimensión n tiene una base ortogonal.
Demostramos que todo espacio vectorial euclı́deo de dimensión n + 1 tiene una base ortogonal.
Sea V un espacio vectorial euclı́deo de dimensión n + 1 . Sea v un vector no nulo de V y consideremos el subespacio ortogonal {v}⊥ = L[v]⊥ al vector v. Sabemos que
V = L[v] ⊕ {v}⊥ = L[v] ⊕ L[v]⊥ .
Esto implica que la dimensión de {v}⊥ es (n + 1) − 1 = n , y el subespacio {v}⊥ es un espacio vectorial
euclı́deo de dimensión n con el producto escalar h , i0 , restricción al subespacio {v}⊥ del producto
escalar h , i de V . Por la hipótesis de inducción, este espacio vectorial euclı́deo de dimensión n tiene
una base ortogonal {v1 , v2 , . . . , vn } . Añadimos el vector v a estos n vectores.
Entonces B = {v, v1 , v2 , . . . , vn } es una base de V , porque los vectores v1 , v2 , . . . , vn son linealmente independientes y el vector v no pertenece al subespacio L[v1 , v2 , . . . , vn ] , que es {v}⊥ , y los
n + 1 vectores v, v1 , v2 , . . . , vn son linealmente independientes en un espacio vectorial de dimensión
n+1.
Además, hv, vi i = 0 para cada i = 1, . . . , n , porque vi pertenece a {v}⊥ . Y para cada i, j, 1 6
i, j 6 n con i 6= j , hvi , vj i = hvi , vj i0 = 0 , porque {v1 , v2 , . . . , vn } es una base ortogonal del espacio
vectorial euclı́deo {v}⊥ con el producto escalar h , i0 .
En total, B = {v, v1 , v2 , . . . , vn } es una base ortogonal del espacio vectorial euclı́deo V de dimensión n + 1 con producto escalar h , i .
Una consecuencia inmediata de la obtención de bases ortogonales es
Corolario. Todo espacio vectorial euclı́deo de dimensión finita > 1 tiene una base ortonormal.
253
Espacios vectoriales euclı́deos
Demostración. Si {v1 , v2 , . . . , vn } es una base ortogonal del espacio
n vectorial euclı́deo dado, y normalio
zamos los vectores de la base, obtenemos una base ortonormal kv11 k · v1 , kv12 k · v2 , . . . , kv1n k · vn del
espacio.
Para obtener o, mejor, construir una base ortogonal de un espacio vectorial euclı́deo de dimensión
finita, el método inductivo de la demostración de la proposición funciona bien cuando la dimensión del
espacio no es grande, porque para un espacio de dimensión n , aplicar ese método supone tener que hallar
soluciones no nulas de n − 1 sistemas de ecuaciones lineales homogéneas en n incógnitas.
Ejemplo
Hallemos una base ortogonal del espacio vectorial euclı́deo R3 con el producto escalar definido por
h(x, y, z), (x0 , y 0 , z 0 )i = 2xx0 + xy 0 + yx0 + yy 0 + zz 0 .
(Es fácil comprobar que es un producto escalar sobre R3 : (1) es bilineal: si fijamos (x, y, z) , queda una
aplicación lineal en (x0 , y 0 , z 0 ) , y si fijamos (x0 , y 0 , z 0 ) , queda una aplicación lineal en (x, y, z) ; (2) es
simétrica: está xy 0 y está yx0 , con el mismo coeficiente, 1; y (3) es definida positiva: h(x, y, z), (x, y, z)i =
2x2 + 2xy + y 2 + z 2 = x2 + (x + y)2 + z 2 , una suma de cuadrados de números reales, luego siempre > 0 .
Y esa suma es nula si y sólo si x = x + y = z = 0, es decir, si y sólo si (x, y, z) = (0, 0, 0). )
Partimos de un vector no nulo cualquiera de R3 , por ejemplo, v1 = (1, 0, 0). Hallamos el subespacio ortogonal a v1 . Es el subespacio de R3
{v1 }⊥ = {(1, 0, 0)}⊥ = {(x, y, z) ∈ R3 | h(x, y, z), (1, 0, 0)i = 2x + y = 0}
esto es, el subespacio de R3 que tiene como ecuaciones implı́citas la ecuación 2X +Y = 0 . Por tanto es el
plano vectorial generado por (1, −2, 1) y (0, 0, 1) . Tomamos el subespacio L[(1, 0, 0), (0, 0, 1)] generado
por el vector v1 = (1, 0, 0) de partida y el vector v2 = (0, 0, 1) del subespacio ortogonal a v1 , y hallamos
su subespacio ortogonal:
L[(1, 0, 0), (0, 0, 1)]⊥ = {(x, y, z) ∈ R3 | h(x, y, z), (1, 0, 0)i = h(x, y, z), (0, 0, 1)i = 0},
que es el subespacio que tiene como ecuaciones implı́citas 2X + Y = Z = 0 , esto es, el subespacio
L[(1, −2, 0)].
Con todo esto, una base ortogonal de R3 con el producto escalar anterior
(1, −2, 0)}o.
n √es {(1, 0, 0), (0, 0, 1),
√
√
√
2
2
Como k (1, 0, 0) k = 2, k (0, 0, 1) k = 1 y k (1, −2, 0) k = 2 , la base
2 (1, 0, 0), (0, 0, 1), 2 (1, −2, 0)
es una base ortonormal de R3 con el producto escalar definido más arriba.
Método de ortogonalización de Gram-Schmidt
El segundo método que damos para construir bases y conjuntos ortogonales y ortonormales está en la
demostración del siguiente
Teorema. (Método de ortogonalización de Gram–Schmidt) Sea V un espacio vectorial euclı́deo con
producto escalar h , i . Sean v1 , v2 , . . . , vk vectores linealmente independientes de V . Entonces existen
vectores w1 , w2 , . . . , wk de V tales que para cada i = 1, . . . , k ,
(a) los vectores w1 , w2 , . . . , wi son ortogonales dos a dos, y
(b) L[v1 , v2 , . . . , vi ] = L[w1 , w2 , . . . , wi ].
Demostración. Definimos
w1 = v1
hv2 , w1 i
· w1
hw1 , w1 i
hv3 , w2 i
hv3 , w1 i
· w2 +
· w1
hw2 , w2 i
hw1 , w1 i
w2 = v2 −
w3 = v3 −
..
.
wk = vk −
hvk , wk−1 i
hvk , w2 i
hvk , w1 i
· wk−1 + · · · +
· w2 +
· w1
hwk−1 , wk−1 i
hw2 , w2 i
hw1 , w1 i
254
Álgebra lineal
El vector w1 es v1 y es distinto del vector cero 0 , porque v1 , v2 , . . . , vk son linealmente independientes.
El vector
hv2 , v1 i
hv2 , w1 i
· w1 = v 2 −
· v1
w2 = v2 −
hw1 , w1 i
hv1 , v1 i
es una combinación lineal no trivial de los vectores v1 y v2 , que son linealmente independientes, luego
w2 es distinto del vector cero 0 . Y, del mismo modo, para cada i = 1, . . . , k , el vector wi es una
combinación lineal no trivial de los vectores v1 , . . . , vi , luego es un vector no nulo. Por tanto, el subespacio L[w1 , . . . , wi ] generado por w1 , . . . , wi está contenido en el subespacio L[v1 , . . . , vi ] generado
por v1 , . . . , vi .
Por otra parte, por la definición de wi , el vector vi es combinación lineal de los vectores w1 , . . . , wi ,
para cada i = 1, . . . , k . Con todo esto se tiene que L[v1 , v2 , . . . , vi ] ⊆ L[w1 , w2 , . . . , wi ] , para cada
i = 1, . . . , k , y con las dos inclusiones hemos llegado a la igualdad y demostrado (b).
Demostramos ahora que para cada i = 1, . . . , k , el conjunto {w1 , w2 , . . . , wi } es un conjunto
ortogonal de vectores de V . La demostración es por inducción sobre i , con 1 6 i 6 k .
Para i = 1 , no hay nada que demostrar, porque {w1 } es ortogonal, ya que w1 6= 0 .
Sea ahora i tal que 2 < i < k y supongamos que {w1 , w2 , . . . , wi−1 } es ortogonal. Entonces para
cada j = 1, . . . , i − 1 ,
hvi , w2 i
hvi , w1 i
hvi , wi−1 i
· wi−1 + · · · +
· w2 +
· w1 , wj i
hwi , wj i = hvi −
hwi−1 , wi−1 i
hw2 , w2 i
hw1 , w1 i
= hvi , wj i −
hvi , wj i
hwj , wj i
hwj , wj i
= hvi , wj i − hvi , wj i
=0
y el vector wi es ortogonal a los vectores w1 , . . . , wi−1 . Por la hipótesis de inducción, wj ⊥ wh , para
cualesquiera j, h , con 1 6 j, h 6 i , y j 6= h . Luego {w1 , w2 , . . . , wi } es un conjunto ortogonal de
vectores de V , para cada i = 1, . . . , k , y hemos demostrado (a).
Con este método se obtienen bases ortogonales de la forma siguiente:
Sea B = {v1 , v2 , . . . , vn } una base de un espacio vectorial euclı́deo V .
Aplicamos el método de Gram–Schmidt a los vectores linealmente independientes v1 , v2 , . . . , vn
y llegamos a n vectores w1 , w2 , . . . , wn .
Estos n vectores forman una base ortogonal de V , porque generan el mismo subespacio que
v1 , v2 , . . . , vn , esto es, V , y son linealmente independientes, al ser {w1 , w2 , . . . , wn } un conjunto
ortogonal.
Y normalizando los vectores de esta base ortogonal, obtenemos una base ortonormal de V .
El método de Gram–Schmidt también es útil para extender cada conjunto ortogonal (respectivamente, ortonormal) de vectores de V a una base ortogonal (resp., ortonormal) del espacio:
Proposición. Sea V un espacio vectorial euclı́deo de dimensión n > 1 . Sea {v1 , v2 , . . . , vk } un conjunto ortogonal de vectores de V . Entonces existen vk+1 , . . . , vn en V tales que {v1 , v2 , . . . , vk } ∪
{vk+1 , . . . , vn } es una base ortogonal de V .
Demostración. Los vectores v1 , v2 , . . . , vk son linealmente independientes, porque forman un conjunto
ortogonal. Por el teorema de la base incompleta, hay n − k vectores uk+1 , . . . , un en V tales que
{v1 , v2 , . . . , vk }∪{uk+1 , . . . , un } es una base de V , luego un conjunto linealmente independiente. Con el
método de ortogonalización de Gram–Schmidt aplicado a este conjunto linealmente independiente, se obtiene una base ortogonal {w1 , . . . , wk , wk+1 , . . . , wn } de V . Pero los k primeros elementos w1 , . . . , wk
de este conjunto ortogonal son los k vectores v1 , . . . , vk , como se deduce de las fórmulas de la demostración del método de Gram–Schmidt. Y resulta la base ortogonal {v1 , . . . , vk , wk+1 , . . . , wn } de
V . Normalizando estos vectores se obtiene una base ortonormal de V .
255
Espacios vectoriales euclı́deos
Ejemplos
(1) En el espacio euclı́deo estándar R3 , sean v1 = (1, 1, 1), v2 = (−1, 1, 1), y v3 = (1, 0, 1) . Estos
tres vectores son linealmente independientes y forman una base del espacio vectorial R3 . Aplicamos el
método de ortogonalización de Gram–Schmidt a estos tres vectores:
w1 = v1 = (1, 1, 1)
hv2 , w1 i
h(−1, 1, 1), (1, 1, 1)i
w2 = v2 −
w1 = (−1, 1, 1) −
· (1, 1, 1)
hw1 , w1 i
h(1, 1, 1), (1, 1, 1)i
1
= (−1, 1, 1) − (1, 1, 1) = (−4/3, 2/3, 2/3)
3
hv3 , w1 i
hv3 , w2 i
· w2 +
· w1
w3 = v3 −
hw2 , w2 i
hw1 , w1 i
h(1, 0, 1), (1, 1, 1)i
h(1, 0, 1), (−4/3, 2/3, 2/3)i
= (1, 0, 1) −
(−4/3, 2/3, 2/3) +
(1, 1, 1)
h(−4/3, 2/3, 2/3), (−4/3, 2/3, 2/3)i
h(1, 1, 1), (1, 1, 1)i
= (1, 0, 1) + (−1/3, 1/6, 1/6) − (2/3, 2/3, 2/3) = (0, −1/2, 1/2),
y w1 = (1, 1, 1), w2 = (−4/3, 2/3, 2/3) y w3 = (0, −1/2, 1/2) forman una base ortogonal del espacio
euclı́deo estándar R3 tal que
L[v1 ] = L[w1 ],
L[v1 , v2 ] = L[w1 , w2 ],
y
L[v1 , v2 , v3 ] = L[w1 , w2 , w3 ] = R3 .
Normalizamos los tres vectores w1 , w2 , w3 y obtenemos la base ortonormal de R3 formada por
√ √ √ √ √ √ √
√ u1 = 33 , 33 , 33 , u2 = − 36 , 66 , 66
y
u3 = 0, − 22 , 22 .
(2) En el espacio euclı́deo estándar R3 , sean v1 = (0, 1, 1), v2 = (1, 0, 1), y v3 = (1, 1, 0) . Estos tres
vectores son linealmente independientes. Si aplicamos el método de ortogonalización de Gram–Schmidt
a estos tres vectores y normalizamos, obtenemos los vectores unitarios
√ √ √
√ √
√
√ √ u1 = 0, 22 , 22 , u2 = 36 , − 66 , 66 y u3 = 33 , 33 , − 33 ,
que forman una base ortonormal de R3 tal que
L[v1 ] = L[u1 ],
L[v1 , v2 ] = L[u1 , u2 ], y
L[v1 , v2 , v3 ] = L[u1 , u2 , u3 ] = R3 .
(3) Sea W = L[(0, 1, 0, 1), (1, 1, 1, 1), (1, 1, 1, 0)] subespacio del espacio vectorial euclı́deo estándar
R4 . Los tres vectores que generan W son linealmente independientes y si aplicamos el método de
ortogonalización de Gram-Schmidt a esos tres vectores obtenemos los vectores (0, 1, 0, 1), (1, 0, 1, 0) y
(0, 1/2, 0, −1/2). Y
L[(0, 1, 0, 1)] = L[(0, 1, 0, 1)],
L[(0, 1, 0, 1), (1, 1, 1, 1)] = L[(0, 1, 0, 1), (1, 0, 1, 0)], y
L[(0, 1, 0, 1), (1, 1, 1, 1), (1, 1, 1, 0)] = L[(0, 1, 0, 1), (1, 0, 1, 0), (0, 1/2, 0, −1/2)] = W .
Entonces {(0, 1, 0, 1), (1, 0, 1, 0), (0, 1/2, 0, −1/2)} es una base ortogonal de W y
n √
√
√
√
√
√ o
(0, 22 , 0, 22 ), ( 22 , 0, 22 , 0), (0, 22 , 0, − 22 )
es una base ortonormal de W .
256
Álgebra lineal
(4) En el espacio euclı́deo R4 con el producto escalar
1
1
x1 y1 + x2 y2 + x3 y3 + x4 y4
2
2
aplicamos el método de Gram–Schmidt a los vectores v1 = (1, 1, −1, −1), v2 = (1, 1, 1, 1), v3 =
(−1, −1, −1, 1) y v4 = (1, 0, 0, 1) y obtenemos la base ortonormal
h(x1 , x2 , x3 , x4 ), (y1 , y2 , y3 , y4 )i =
{(1, 1, −1, −1),
1
1
(4, 4, 2, 2), (0, 0, −1, 1), (1, −1, 0, 0)}
3
2
respecto del producto escalar h , i .
(5) ¿Cuál es el resultado de aplicar el método de Gram–Schmidt a k vectores v1 , v2 , . . . , vk que no
son linealmente independientes?
Aplicar el método de Gram–Schmidt a los vectores linealmente dependientes
v1 = (1, −1, 1, 0), v2 = (1, 0, 0, 1), v3 = (1, 1, −1, 1) y v4 = (0, 0, 1, 1)
4
de R .
Subespacios ortogonales y proyecciones ortogonales
Sean W y U dos subespacios de V . Se dice que W y U son subespacios ortogonales si todo vector
de W es ortogonal a todo vector de U , y todo vector de U es ortogonal a todo vector de W , es
decir, para cualesquiera vectores w en W y u en U , w ⊥ u , o, aún de otra forma, si U ⊆ W ⊥ y
W ⊆ U⊥ .
Por la simetrı́a del producto escalar, si U ⊆ W ⊥ , entonces W ⊆ U ⊥ , y si W ⊆ U ⊥ , entonces
U ⊆ W⊥ .
Subespacio suplementario ortogonal de un subespacio
Cada subespacio W distinto de {0} de un espacio vectorial euclı́deo V , determina el subespacio
ortogonal W ⊥ a W cuyos elementos son los vectores de V que son ortogonales a todos los vectores
de W :
W ⊥ = {v ∈ V | v ⊥ w para todo vector w ∈ W }
= {v ∈ V | hv, wi = 0
para todo vector w ∈ W }.
Proposición. Sea V un espacio vectorial euclı́deo y sea W un subespacio de V de dimensión finita
> 1. Entonces
(a) El subespacio W ⊥ es suplementario del subespacio W :
V = W ⊕ W ⊥,
y para cada vector v de V hay dos vectores w de W y w0 de W ⊥ , únicos, tales que
v = w + w0
(b) si V tiene dimensión finita, entonces
(c) si V tiene dimensión finita,
y
w ⊥ w0 ;
dim W ⊥ = dim V − dim W , y
(W ⊥ )⊥ = W .
Demostración. (a) Sea B = {v1 , v2 , . . . , vk } una base ortonormal del subespacio W . Para cada vector
v de V sean
w = hv, v1 iv1 + hv, v2 iv2 + · · · + hv, vk ivk ,
y
w0 = v − w.
El vector w está en el subespacio W , y el vector w0 es ortogonal a todos los vectores de la base B de
W porque para cada i = 1, . . . , k ,
hw0 , vi i = hv − w, vi i
= hv, vi i − hw, vi i
= hv, vi i − hhv, v1 iv1 + hv, v2 iv2 + · · · + hv, vk ivk , vi i
= hv, vi i − hv, vi ihvi , vi i
= hv, vi i − hv, vi i ya que hvi , vi i = 1,
= 0.
257
Espacios vectoriales euclı́deos
Por tanto, w0 es ortogonal a todo vector que es combinación lineal de los vectores de la base B de W ,
es decir, a todo vector de W , y el vector w0 pertenece al subespacio ortogonal W ⊥ de W . Con esto,
V = W + W⊥ .
Sea ahora v un vector de W ∩ W ⊥ . Entonces v es un vector de W ⊥ , luego es ortogonal a todos
los vectores de W , en particular es ortogonal a sı́ mismo, que está en W , y hv, vi = 0 , de donde
v = 0 , la intersección W ∩ W ⊥ es {0} , y la suma V = W + W ⊥ es suma directa V = W ⊕ W ⊥ .
(b) Consecuencia de que en la suma directa V = W ⊕ W ⊥ ,
dim V = dim W + dim W ⊥ .
(c) Por un lado, W ⊆ (W ⊥ )⊥ , por la definición: si w ∈ W , entonces w ⊥ w0 para todo w0 ∈ W ⊥ ,
luego w ∈ (W ⊥ )⊥ . Por otro,
dim(W ⊥ )⊥ = dim V − dim W ⊥ = dim V − (dim V − dim W ) = dim W ,
y tiene que ser W = (W ⊥ )⊥ .
Para cada subespacio W de V distinto del subespacio cero {0} , se dice que el subespacio W ⊥
es el subespacio suplementario ortogonal de W .
Más arriba se ha explicado un caso particular de subespacio suplementario ortogonal: en concreto,
de subespacios de dimensión 1 : L[v] , con v un vector no nulo del espacio. El subespacio suplementario
ortogonal de L[v] es un hiperplano vectorial de V .
Ejemplos.
(1) En el espacio vectorial euclı́deo estándar R3 el subespacio suplementario ortogonal del subespacio
W = L[(1, 4, 3), (1, −1, 1)] es el subespacio W ⊥ = L[(−7, −2, 5)] porque
W ⊥ = {(x, y, z) ∈ R3 | (x, y, z) ⊥ (1, 4, 3) y (x, y, z) ⊥ (1, −1, 1)}
= {(x, y, z) ∈ R3 | h(x, y, z), (1, 4, 3)i = h(x, y, z), (1, −1, 1)i = 0}
= {(x, y, z) ∈ R3 | x + 4y + 3z = x − y + z = 0}
= L[(−7, −2, 5)].
(2) En el espacio vectorial euclı́deo estándar R4 el subespacio suplementario ortogonal del subespacio
W = L[(1, −2, 1, −1), (−2, −4, 0, 6)] es el subespacio W ⊥ = L[(−2, 1, 4, 0), (3, 0, −2, 1)].
(3) En el espacio vectorial euclı́deo R63 [X] del ejemplo (IV) de más arriba, con [a, b] = [−1, 1],
el subespacio ortogonal del subespacio de los polinomios pares, esto es, del subespacio L[1, X 2 ] es el
subespacio de los polinomios impares L[X, X 3 ].
(4) En el espacio vectorial euclı́deo M2 (R) del ejemplo (V) de más arriba, el subespacio ortogonal
del subespacio de las matrices simétricas es el subespacio de las matrices antisimétricas.
Proyecciones ortogonales
Sea W un subespacio de un espacio vectorial euclı́deo V con producto escalar h , i . La descomposición
en suma directa
V = W ⊕ W⊥
del espacio determina la aplicación proyección vectorial de V sobre el subespacio W paralelamente a
W ⊥ o en la dirección de W ⊥ . Este endomorfismo del espacio V se llama proyección ortogonal de V
sobre W y es el endomorfismo pW : V −−→ V definido por:
para cada v ∈ V , si v = w + w0 con w ∈ W y w0 ∈ W ⊥ , entonces pW (v) = pW (w + w0 ) = w .
El subespacio imagen de la proyección ortogonal pW es im pW = W y el núcleo ker pW = W ⊥ .
Para cada w de W , pW (w) = w .
Si disponemos de una base ortonormal {w1 , . . . , wk } ∪ {wk+1 , . . . , wn } de V formada por la unión
de una base {w1 , . . . , wk } de W y una base {wk+1 , . . . , wn } del suplementario ortogonal W ⊥ de
W , entonces la expresión de la proyección ortogonal pW de V sobre W es bien sencilla: para cada v
de V ,
pW (v) = hv, w1 iw1 + · · · + hv, wk iwk
y el vector
v − pW (v) = v − (hv, w1 iw1 + · · · + hv, wk iwk ) = hv, wk+1 iwk+1 + · · · + hv, wn iwn
258
Álgebra lineal
pertenece a W ⊥ y es ortogonal a pW (v) . El vector pW (v) se llama vector proyección ortogonal del
vector v sobre W y el vector v − pW (v) es la componente normal del vector v respecto de W .
Más arriba se ha tratado un caso especial de proyección ortogonal: el caso en el que el subespacio
W tiene dimensión 1 , esto es, es de la forma W = L[v] para un cierto vector no nulo v.
Ahora, con esta terminologı́a podemos explicar el proceso de obtención de los vectores wi en el
método de Gram–Schmidt.
El vector w2 es la componente normal del vector v2 respecto del subespacio L[w1 ] = L[v1 ] en el
que {w1 } es una base ortogonal: el vector proyección ortogonal de v2 sobre el subespacio L[w1 ] = L[v1 ]
y la componente normal de v2 respecto del mismo subespacio son
hv2 , w1 i
w1
hw1 , w1 i
y
v2 −
hv2 , w1 i
w1 .
hw1 , w1 i
El vector w3 es la componente normal del vector v3 respecto de L[w1 , w2 ] = L[v1 , v2 ] en el que w1 , w2
forman una base ortogonal: el vector proyección ortogonal de v3 sobre el subespacio L[w1 , w2 ] = L[v1 , v2 ]
y la componente normal del vector v3 respecto del mismo subespacio son
hv3 , w2 i
hv3 , w1 i
hv3 , w2 i
hv3 , w1 i
w2 +
w1
y
v3 −
w2 +
w1 .
hw2 , w2 i
hw1 , w1 i
hw2 , w2 i
hw1 , w1 i
Y ası́ sucesivamente hasta el último vector vk .
En términos de la distancia entre vectores, la proposición siguiente muestra que de entre los vectores
de un subespacio W , el vector más cercano (‘a menor distancia’) a un vector v del espacio es el vector
proyección ortogonal pW (v) de v sobre W .
Proposición. Sea W un subespacio de un espacio vectorial euclı́deo V con producto escalar h , i . Sea
v un vector de V . Entonces el vector proyección ortogonal pW (v) de v sobre W cumple
k v − pW (v) k 6 k v − w k
para todo vector w de W . Se cumple la igualdad si y sólo si w = pW (v).
Demostración. Sabemos que para cada vector v de V , v = pW (v) + (v − pW (v)) , donde pW (v) ∈ W
y (v − pW (v)) ∈ W ⊥ . Entonces para cada vector w de W ,
k v − w k2 = k (pW (v) + (v − pW (v))) − w k2
= k (pW (v) − w) + (v − pW (v)) k2
= k pW (v) − w k2 + k v − pW (v)) k2
> k v − pW (v)) k2
la tercera igualdad porque el vector pW (v) − w pertenece a W y el vector v − pW (v) pertenece a
W⊥ .
Por tanto, k v − w k > k v − pW (v) k .
La igualdad se cumple si y sólo si k pW (v) − w k2 = 0 , esto es, k pW (v) − w k = 0 , es decir,
pW (v) − w = 0 , y w = pW (v).
Ejemplo
¿Cuál es el vector del plano vectorial W de R3 de ecuación X − Y − Z = 0 que está más próximo al
vector (1, 2, 0) ?
Es la proyección ortogonal del vector (1, 2, 0) sobre el subespacio W . Para hallarlo, tomamos una
base
ortonormal
de W : Una base ortogonal es {(1, 1, 0), (1, −1, 2)} y una base ortonormal de W es
√
√
2
6
{ 2 (1, 1, 0), 6 (1, −1, 2)} . Luego el vector buscado es
√
√
√
√
2
2
6
6
(1, 1, 0)i ·
(1, 1, 0) + h(1, 2, 0),
(1, −1, 2)i ·
(1, −1, 2)
2
2
6
6
√ √
√ √
1 √
= (9 2 − 6, 9 2 + 6, 2 6).
6
pW (1, 2, 0) = h(1, 2, 0,
259
Espacios vectoriales euclı́deos
Matriz de un producto escalar respecto de una base
Sea h , i un producto escalar sobre V y sea B = {v1 , v2 , . . . , vn } una base de V . Se llama matriz del
producto escalar h , i respecto de la base B (y también matriz que representa el producto escalar h , i
respecto de la base B )a la matriz
 hv , v i
1
1
 hv2 , v1 i
MB (h , i) = 
..

.
hv1 , v2 i
hv2 , v2 i
..
.
···
···
..
.
hvn , v1 i
hvn , v2 i
···
hv1 , vn i 
hv2 , vn i 

..

.
hvn , vn i
que es una matriz de Mn (R) en la que el elemento de la fila i -ésima y columna j -ésima es el producto
escalar hvi , vj i , del i -ésimo vector vi y del j -ésimo vector vj de la base B , para cada i, j = 1, . . . , n .
La propiedad (2) del producto escalar de ser simétrico hace que, en particular, hvi , vj i = hvj , vi i
para cualesquiera vectores de la base, y esto se traduce en el hecho de la matriz MB (h , i) es simétrica.
Si la base B es ortogonal, entonces hvi , vj i = 0 para todo i, j = 1, . . . , n con i 6= j, y todos los
elementos de la matriz MB (h , i) que no están en la diagonal principal son nulos, ası́ que la matriz es
una matriz diagonal.
Si, además, la base es ortonormal, entonces la matriz es diagonal y los elementos de la diagonal
principal, que son los hvi , vi i, son todos iguales a 1. Por tanto la matriz MB (h , i) es la matriz
identidad In de orden n.
Ejemplos.
(1) La matriz del producto escalar estándar de Rn respecto de la base estándar Be de Rn es
 he , e i
1 1
 he2 , e1 i
MBe (h , i) = 
..

.
he1 , e2 i
he2 , e2 i
..
.
···
···
..
.
hen , e1 i
hen , e2 i
···

he1 , en i 
1 0
he2 , en i 
0 1
 = . .
..

 .. ..
.
0 0
hen , en i
···
···
..
.

0
0
= In .
.. 
.
···
1
Claro está, la base estándar Bne es una base ortonomal del espacio vectorial euclı́deo estándar Rn .
(2) La matriz del producto escalar
h(x, y, z), (x0 , y 0 , z 0 )i = xx0 − xy 0 − x0 y − 2yy 0 − yz 0 − zy 0 + 2zz 0
sobre R3 respecto de la base estándar es

1
MBe (h , i) =  −1
0
−1
2
−1

0
−1  .
2
(3) La matriz respecto de la base B = {1, X, X 2 , X 3 } del producto escalar h , i sobre el espacio
vectorial R63 [X] del ejemplo (IV) de más arriba es
2
 0
MB )h , i) = 
2/3
0


0 2/3 0
2/3 0 2/5 
.
0 2/5 0
2/5 0 2/7
(4) En el espacio vectorial M2 (R) de las matrices reales de orden 2 con el producto escalar
hA, Bi = tr(B t A) = a11 b11 + a12 b12 + a21 b21 + a22 b22
del ejemplo (V) de más arriba, la matriz
1
B =
0
del producto escalar respecto de la base
0
0 1
0 0
0 0
,
,
,
0
0 0
1 0
0 1
es la matriz identidad I4 . Por tanto, la base B es una base ortonormal.
260
Álgebra lineal
La matriz MB (h , i) del producto escalar respecto de una base B es útil, porque con ella podemos
hallar el producto escalar hv, wi de dos vectores v y w cualesquiera de V , si conocemos las coordenadas
de esos vectores respecto de la base B :
En efecto, sean v, w vectores de V y sean (x1 , x2 , . . . , xn ) y (y1 , y2 , . . . , yn ) las n -uplas
de las coordenadas de v y w respecto de la base B . Tenemos v = x1 v1 + x2 v2 + · · · + xn vn y
w = y1 v1 + y2 v2 + · · · + yn vn , y resulta
hv, wi = hx1 v1 + x2 v2 + · · · + xn vn , y1 v1 + y2 v2 + · · · + yn vn i
=
n
X
hxi vi , y1 v1 + y2 v2 + · · · + yn vn i =
i=1
=
n
X
n
X
xi hvi , y1 v1 + y2 v2 + · · · + yn vn i
i=1




n
n
n
X
X
X
xi 
yj hvi , vj i =
xi  hvi , vj iyj 
i=1
= ( x1
j=1
x2
···
i=1
j=1
 hv , v iy + hv , v iy + · · · + hv , v iy
1
1 1
1
2 2
1
n n
 hv2 , v1 iy1 + hv2 , v2 iy2 + · · · + hv2 , vn iyn
xn ) · 
..

.




hvn , v1 iy1 + hvn , v2 iy2 + · · · + hvn , vn iyn
= ( x1
x2
···
 hv , v i
1
1
 hv2 , v1 i
xn ) · 
..

.
hv1 , v2 i
hv2 , v2 i
..
.
···
···
..
.
hv1 , vn i   y1 
hv2 , vn i   y2 
· . 
..
  . 
.
.
hvn , v1 i
hvn , v2 i
···
hvn , vn i
yn

y1
 y2 

xn ) · MB (h , i) · 
 .. 
.
yn

= ( x1
x2
···
y se tiene

y1
 y2 

xn ) · MB (h , i) · 
 ..  .
.
yn

hv, wi = ( x1
x2
···
Si la base B es una base ortonormal del espacio, entonces la matriz del producto escalar respecto
de B es la matriz identidad In y la expresión anterior se convierte en

y1
 y2 

xn ) · In · 
 ..  = ( x1
.
yn

hv, wi = ( x1
x2
···

y1
 y2 

xn ) · 
 ..  = x1 y1 + x2 y2 + · · · + xn yn .
.
yn

x2
···
¿Cómo cambia la matriz MB (h , i) al cambiar de base? Con otras palabras, si conocemos la matriz
MB (h , i) del producto escalar h , i respecto de una base B y tomamos otra base B0 del espacio, ¿cuál
es la matriz MB0 (h , i) de h , i respecto de la nueva base B0 ?
Sea M (B0 , B) la matriz de cambio de base de la base B0 a la base B . Sean v y w vectores de
V y sean (x1 , x2 , . . . , xn ) y (y1 , y2 , . . . , yn ) las n -uplas de las coordenadas de v y w respecto de
la base B y (x01 , x02 , . . . , x0n ) y (y10 , y20 , . . . , yn0 ) las n -uplas de las coordenadas de v y w respecto
de la base B0 . Tenemos
 
 x0 
 
 x0 
y1
x1
1
1
x02 
x02 
y
 x2 




2
 .  = M (B0 , B)  . 
 .  = M (B0 , B)  . 
e
 .. 
 . 
 . 
 . 
.
.
.
0
xn
yn
xn
x0n
261
Espacios vectoriales euclı́deos
y en la expresión del producto escalar

y1
 y2 

hv, wi = ( x1 x2 · · · xn ) · MB (h , i) · 
 .. 
.
yn
 
 t
y1
x1
 y2 
 x2 
 

=
 ...  · MB (h , i) ·  .. 
.

xn
yn
 x0 t

1
x02

 y 0 
1
 y 0 

 

0
 .  · MB (h , i) · M (B0 , B) ·  .2 
M
(B
,
B)
·
=
 . 

 . 

.
.
yn0
x0n
 y0 
1
= ( x01
x02
···
 y20 

x0n ) · M (B0 , B)t · MB (h , i) · M (B0 , B) · 
 .. 
.
yn0
 y0 
1
= ( x01
x02
···
 y20 
0

0
xn ) · MB (h , i) · 
 .. 
.
yn0
de donde
MB0 (h , i) = M (B0 , B)t ·MB (h , i)·M (B0 , B).
Esta expresión recuerda a la expresión de la matriz de un endomorfismo f respecto de una base B0
en función de la matriz de f respecto de una base B y la matriz de cambio de base M (B, B0 ) :
MB0 (f ) = M (B0 , B)−1 · MB (f ) · M (B0 , B).
Una consecuencia de la igualdad anterior es que el determinante de la matriz MB (h , i) de un
producto escalar respecto de una base cualquiera B es siempre positivo, porque si B0 es una base
ortonormal del espacio,
MB (h , i) = M (B, B0 )t · MB0 (h , i) · M (B, B0 )
= M (B, B0 )t · In · M (B, B0 )
= M (B, B0 )t · M (B, B0 )
y tomando determinantes,
det MB (h , i) = det M (B, B0 )t · det M (B, B0 ) = (det M (B, B0 ))2 > 0,
porque M (B, B0 ) es una matriz de cambio de base y, por tanto, no singular.
Aplicaciones y matrices ortogonales
Sea V un espacio vectorial euclı́deo de dimensión n > 1 , con producto escalar h , i . Se dice que un
endomorfismo f : V −−→ V es una aplicación ortogonal de V si f conserva el producto escalar, esto
es, para cualesquiera vectores v y w de V ,
hf (v), f (w)i = hv, wi .
La proposición siguiente proporciona cuatro formas equivalentes más de definir la noción de aplicación
ortogonal.
262
Álgebra lineal
Proposición. Sea V un espacio vectorial euclı́deo de dimensión n > 1 con producto escalar h , i. Sea
f : V −−→ V un endomorfismo de V . Los enunciados siguientes son equivalentes:
(1) f es una aplicación ortogonal de V ;
(2) para toda base ortonormal B = {v1 , v2 , . . . , vn } de V , f [B] = {f (v1 ), f (v2 ), . . . , f (vn )} es
también una base ortonormal de V ;
(3) hay una base ortonormal B = {v1 , v2 , . . . , vn } de V , tal que f [B] = {f (v1 ), f (v2 ), . . . , f (vn )}
es también una base ortonormal de V ;
(4) f conserva la norma, esto es,
k f (v) k = k v k
para todo vector v ∈ V , y
(5) f conserva la distancia entre vectores, esto es,
d(f (v), f (w)) = d(v, w),
para todo v, w ∈ V .
Demostración. (1) ⇒ (2) : Supongamos que f es ortogonal y B = {v1 , v2 , . . . , vn } es una base ortonormal de V . Entonces f [B] = {f (v1 ), f (v2 ), . . . , f (vn )} también una base ortonormal de V , porque
1
si i = j,
hf (vi ), f (vj )i = hvi , vj i =
0
si i 6= j,
y f [B] es un conjunto ortonomal de vectores de V , luego es un conjunto linealmente independiente con
n vectores en un espacio vectorial de dimensión n , y es una base ortonormal de V .
(2) ⇒ (3) : Si se cumple para todas las bases ortonormales, se cumple para una en particular.
(3) ⇒ (4): Sea v un vector de V . Tenemos
k f (v) k2 = hf (v), f (v)i
= hf (hv, v1 iv1 + · · · + hv, vn ivn ), f (hv, v1 iv1 + · · · + hv, vn ivn )i
= hhv, v1 if (v1 ) + · · · + hv, vn if (vn ), hv, v1 if (v1 ) + · · · + hv, vn if (vn )i
=
n X
n
X
hv, vi ihv, vj ihf (vi ), f (vj )i
i=1 j=1
=
n X
n
X
hv, vi ihv, vj iδij ,
porque f [B] es una base ortonormal,
i=1 j=1
=
n
X
hv, vi i2
i=1
= k v k2 ,
y resulta que v y f (v) tienen la misma norma.
(4) ⇒ (5): Si v y w son vectores de V , entonces
d(f (v), f (w)) = k f (v) − f (w) k = k f (v − w) k = k v − w k= d(v, w),
y f conserva la distancia entre vectores.
(5) ⇒ (1): Supongamos que f conserva la distancia entre vectores de V y veamos que también
conserva el producto escalar. Observemos que la norma de un vector v es su distancia al vector 0 :
d(v, 0) = k v − 0 k = k v k . Por tanto, si f conserva la distancia entre vectores, f conserva la norma,
y para cada vector v, k f (v) k2 = k v k2 . Entonces para todo v, w ∈ V ,
hf (v + w), f (v + w)i = k f (v + w) k2 = k v + w k2 = hv + w, v + wi
y
hf (v + w), f (v + w)i = hf (v), f (v)i + 2hf (v), f (w)i + hf (w), f (w)i
hv + w, v + wi = hv, vi + 2hv, wi + hw, wi,
y resulta hf (v), f (w)i = hv, wi , como querı́amos demostrar.
Algunas propiedades básicas de las aplicaciones ortogonales:
263
Espacios vectoriales euclı́deos
Proposición. Sea f : V −−→ V una aplicación ortogonal. Entonces
(1) f conserva el ángulo entre vectores, esto es, si v y w son vectores no nulos de V , entonces
^(f (v), f (w)) = ^(v, w);
(2) para cualesquiera vectores v y w de V ,
v⊥w
si y sólo si
f (v) ⊥ f (w);
(3) si λ es un valor propio real de f , entonces λ es 1 o −1 , y
(4) si v y w son vectores propios de f de autovalores distintos λ y µ , entonces v y w son
ortogonales.
Demostración. (1) Sean v y w vectores no nulos de V . Se tiene:
cos ^(f (v), f (w)) =
hf (v), f (w)i
hv, wi
=
= cos ^(v, w).
k f (v) k · k f (w) k
kvk·kwk
(2) Para cualesquiera vectores v y w de V ,
v ⊥ w si y sólo si hv, wi = 0 si y sólo si hf (v), f (w)i = 0 si y sólo si f (v) ⊥ f (w) .
(3) Sea λ un valor propio real de f y sea v 6= 0 un vector propio de f de autovalor λ . Entonces
hv, vi = hf (v), f (v)i = hλv, λvi = λ2 hv, vi
y λ2 = 1, de donde λ = ±1 , y |λ| = 1.
(4) Sean v y w vectores propios de f de autovalores λ y µ , respectivamente, con
Entonces
λ 6= µ .
hv, wi = hf (v), f (w)i = hλv, µwi = λ · µhv, wi.
Supongamos que v y w no son ortogonales, esto es, hv, wi 6= 0 . Entonces λ · µ = 1 , y como |λ| =
|µ| = 1 , tiene que ser λ = µ = 1 o λ = µ = −1 , en cualquier caso λ = µ , lo que es contrario a la
hipótesis. Por consiguiente, hv, wi = 0 , y v ⊥ w .
Hay endomorfismos de un espacio vectorial euclı́deo que conservan los ángulos y no son aplicaciones
ortogonales. Por ejemplo, las homotecias vectoriales de V de razón λ 6= 0, 1, −1 , conservan los ángulos
entre vectores y no conservan la norma.
Más propiedades:
Proposición. Sea V un espacio vectorial euclı́deo de dimensión n > 1 .
(a) Toda aplicación ortogonal f de V es biyectiva y, por tanto, un automorfismo de V .
(b) La composición de dos aplicaciones ortogonales de V es una aplicación ortogonal.
(c) La aplicación inversa f −1 de una aplicación ortogonal de V también es ortogonal.
Demostración. (a) Como f es un endomorfismo de V , para ser automorfismo de V sólo queda demostrar
que f es biyectiva, y para esto basta con ver que es inyectiva, esto es, ker f = {0} . Pero si v es un
vector de V tal que f (v) = 0 , entonces hf (v), f (v)i = h0, 0i = 0 , hv, vi = hf (v), f (v)i = 0 y v debe
ser el vector cero 0 . Por tanto, ker f = {0} .
(b) Si f, g : V −−→ V son aplicaciones ortogonales de V , entonces g ◦ f : V −−→ V también es
ortogonal:
h(g ◦ f )(v), (g ◦ f )(w)i = hg(f (v)), g(f (w))i = hf (v), f (w)i = hv, wi ,
para cualesquiera v, w ∈ V , y g ◦ f conserva el producto escalar y es lineal.
(c) La aplicación f −1 es un automorfismo de V y para cualesquiera v y w de V ,
hf −1 (v), f −1 (w)i = hf (f −1 (v)), f (f −1 (w))i = hv, wi
y f −1 conserva el producto escalar y es lineal.
Estas últimas propiedades muestran que el conjunto de las aplicaciones ortogonales de un espacio vectorial euclı́deo, con la composición de aplicaciones como operación, es un grupo, llamado grupo
264
Álgebra lineal
ortogonal del espacio V , y representado por O(V) . Este grupo es un subgrupo del grupo GL(V ) de
automorfismos del espacio vectorial V . El elemento identidad de este grupo es el automorfismo identidad
idV .
Consideremos el espacio vectorial euclı́deo estándar Rn . ¿Cuáles son las aplicaciones ortogonales del
espacio vectorial euclı́deo estándar Rn ? Por ejemplo, ¿qué automorfismos fA de Rn definidos por una
matriz invertible A de orden n son aplicaciones ortogonales de Rn ?
Sea A una matriz de Mn (K) y sea fA : Rn −−→ Rn el endomorfismo de Rn definido por A ,
esto es, el endomorfismo que respecto de la base estándar Be de Rn (que es una base ortonormal del
espacio) tiene como matriz MBe (fA ) la matriz A . Entonces fA es una aplicación ortogonal si y sólo si
para cualesquiera (x1 , . . . , xn ), (y1 , . . . , yn ) ∈ Rn ,
h(x1 , . . . , xn ), (y1 , . . . , yn )i = hfA (x1 , . . . , xn ), fA (y1 , . . . , yn )i
= (fA (x1 , . . . , xn ))t · In · fA (y1 , . . . , yn )
 
  t
y1
x1
 .. 
.. 


= A·
· In · A ·  . 
.
xn
yn
 
y1
 .. 
t
= ( x1 · · · xn ) · A · In · A ·  . 

= ( x1
···
yn

y1
 .. 
xn ) · (A · A) ·  . 
yn
t
luego

h(x1 , . . . , xn ), (y1 , . . . , yn )i = ( x1
···

y1
 . 
xn ) · In ·  ..  = ( x1

···

y1
 . 
xn ) · (At · A) ·  .. 
yn
yn
y debe ser
At · A = I n
con lo que A es una matriz invertible y su inversa A−1 es la matriz traspuesta At . En resumen, el
endomorfismo fA de Rn determinado por A es una aplicación ortogonal si y sólo si At · A = In . Las
matrices reales de orden n con esta propiedad tienen un nombre:
Matrices ortogonales
Una matriz A de Mn (R) es una matriz ortogonal si
A · At = At · A = I n ,
es decir, A es invertible y su matriz inversa A−1 es su traspuesta At .
Si A es una matriz ortogonal de orden n , entonces A · At = In , y tomando determinantes,
1 = det In = det(A · At ) = det A · det At = (det A)2 ,
luego det A = ±1 .
Sea O(n) el conjunto de las matrices ortogonales de orden n > 1 . Como las matrices ortogonales son
invertibles, O(n) es un subconjunto del grupo lineal general GL(n, R) de las matrices reales invertibles
de orden n . De hecho, O(n) con la operación del producto de matrices, es un grupo:
Si A y B son dos matrices de O(n) , entonces A · B también es ortogonal, porque
(A · B)t · (A · B) = (B t · At ) · (A · B) = B t · (At · A) · B = B t · In · B = B t · B = In .
265
Espacios vectoriales euclı́deos
El conjunto O(n) es cerrado respecto de la operación producto de matrices, el producto de matrices tiene
la propiedad asociativa, la matriz identidad In es una matriz ortogonal, y para cada matriz ortogonal
A de orden n , sabemos que A es invertible y
(A−1 )t · (A−1 ) = (At )t · At = A · At = In ,
y A−1 también es ortogonal y pertenece a O(n) .
El grupo O(n) se llama grupo ortogonal de orden n . Sus elementos son las matrices ortogonales de
orden n . Si n > 2 , el grupo O(n) no es conmutativo: por ejemplo, en O(2) ,
0 1
1 0
0 −1
1 0
0 1
0 1
·
=
y
·
=
.
1 0
0 −1
1 0
0 −1
1 0
−1 0
El subconjunto de O(n) formado por las matrices ortogonales de orden n de determinante igual a
1 se llama grupo ortogonal especial de orden n , y es también un grupo, es un subgrupo del grupo O(n) .
Se indica por SO(n) y también por O+ (n) . Si n > 3 , el grupo SO(n) no es conmutativo, pero el grupo
SO(2) es conmutativo.
Hemos demostrado más arriba que si A es una matriz real de orden n , el endomorfismo fA :
Rn −−→ Rn determinado por A es una aplicación ortogonal del espacio euclı́deo estándar Rn si y sólo si
A , que es la matriz de fA respecto de la base estándar Be , a su vez una base ortonormal del espacio,
es una matriz ortogonal. En general,
Proposición. Sea V un espacio vectorial euclı́deo de dimensión n > 1 , sea B una base ortonormal
de V y sea f un endomorfismo de V . Los enunciados siguientes son equivalentes:
(a) f es una aplicación ortogonal, y
(b) la matriz MB (f ) de f respecto de la base B es ortogonal.
Demostración. (a) ⇒ (b) : Sea A = MB (f ) la matriz de f respecto de la base B . Sean v , w vectores
de V y sean (x1 , . . . , xn ) y (y1 , . . . , yn ) las n -uplas de coordenadas de v y w , respecto de la base
B . Como B es ortonormal, la matriz del producto escalar h , i respecto de B es la matriz identidad
In y
 
y1
 
hv, wi = ( x1 · · · xn ) · In ·  ...  .
yn
Pero f es ortogonal, ası́ que hf (v), f (w)i = hv, wi y es
  
  t
y1
x1
  
.
hf (v), f (w)i = A ·  ..  · In · A ·  ...  = ( x1
xn
yn

·

y1
 
xn ) · At · A ·  ... 
yn
luego
At · A = I n ,
lo que quiere decir que A = MB (f ) es una matriz ortogonal.
(b) ⇒ (a): Supongamos que la matriz A = MB (f ) de f respecto de la base ortonormal B de
V es ortogonal, y veamos que f conserva el producto escalar. Sean v y w vectores de V , y sean
(x1 , . . . , xn ) e (y1 , . . . , yn ) las n -uplas de sus coordenadas respecto de la base ortonormal B . Sabemos
que la matriz del producto escalar h , i respecto de B es la matriz identidad In , luego
 
  
  t
y1
y1
x1






.
.
t
hf (v), f (w)i = A ·  ..  · In · A ·  ..  = ( x1 · xn ) · A · A ·  ... 
xn
yn

= ( x1
·
yn

y1
 .. 
xn ) · In ·  .  = hv, wi
yn
y f conserva el producto escalar y es una aplicación ortogonal.
266
Álgebra lineal
Las matrices de cambio de base entre bases ortonormales son matrices ortogonales:
Proposición. Sea B una base ortonormal de un espacio vectorial euclı́deo V y sea B0 otra base de
V . Las condiciones siguientes son equivalentes:
(a) La base B0 es una base ortonormal de V , y
(b) la matriz M (B0 , B) de cambio de base de la base B0 a la base B es una matriz ortogonal.
Demostración. (a) ⇒ (b): Si B0 es una base ortonormal de V , sabemos que MB0 (h , i) es la matriz
identidad In , como también lo es la matriz MB (h , i) . Y tenemos
In = MB0 (h , i) = M (B0 , B)t · MB (h , i) · M (B0 , B) =
= M (B0 , B)t · In · M (B0 , B) = M (B0 , B)t · M (B0 , B)
y como las matrices de cambio de base son invertibles, M (B0 , B)−1 = M (B0 , B)t , y la matriz M (B0 , B)
del cambio de base es una matriz ortogonal.
(b) ⇒ (a): Por hipótesis la matriz M (B0 , B) es ortogonal, y su inversa es la matriz traspuesta,
luego
MB0 (h , i) = M (B0 , B)t · MB (h , i) · M (B0 , B) =
= M (B0 , B)−1 · In · M (B0 , B) = M (B0 , B)−1 · M (B0 , B) = In
y como MB0 (h , i) = In , la base B0 es ortonormal.
La proposición siguiente da dos caracterizaciones de las matrices ortogonales:
Proposición. Sea A una matriz real de orden n > 1 . Los enunciados siguientes son equivalentes:
(a) la matriz A es ortogonal;
(b) los n -vectores columnas de A , como vectores de Rn , forman una base ortonormal del espacio
euclı́deo estándar Rn , y
(c) los n -vectores filas de A , como vectores de Rn , forman una base ortonormal del espacio
euclı́deo estándar Rn .
Demostración. (b) es equivalente a que At · A = In y (c) es equivalente a que A · At = In , en los dos
casos, a que A es una matriz ortogonal: (a).
Aplicaciones ortogonales de Rn , n = 1, 2, 3
Los ejemplos más interesantes de aplicaciones ortogonales son las de los espacios euclı́deos estándar Rn
con n pequeño, n = 2 y 3 . Las matrices de estas aplicaciones ortogonales respecto de la base estándar
son matrices ortogonales, de O(2) y O(3) , respectivamente. Antes, n = 1 :
Aplicaciones ortogonales de R1
Sólo hay dos matrices ortogonales de orden 1 , a saber, (1) y (−1) , y sólo tenemos dos aplicaciones
ortogonales : f : R −−→ R , que son f (x) = x y f (x) = −x , para cada x ∈ R , es decir, idR y −idR .
Aplicaciones ortogonales de R2
La matriz MBe (f ) de cada aplicación ortogonal de R2 respecto de la base estándar es una matriz
ortogonal de orden 2 , de O(2) . Y
Proposición. Cada matriz ortogonal de orden 2 es de una de las dos formas
cos α − sen α
cos α sen α
sen α
cos α
sen α − cos α
para un α del intervalo [0, 2π).
267
Espacios vectoriales euclı́deos
Demostración. Sea A =
At · A =
a
c
b
d
a
b
c
d
a
·
c
una matriz ortogonal de orden 2 . Entonces
b
d
=
a 2 + c2
ab + cd
ab + cd
b2 + d2
=
1
0
0
1
= In .
Por tanto
(i) a2 + c2 = 1,
(ii) b2 + d2 = 1,
(iii) ab + cd = 0.
Por (i), existe un α en [0, 2π) tal que a = cos α y c = sen α . Por (ii), existe un α0 en [0, 2π) tal que
b = sen α0 y d = cos α0 .
Por (iii),
0 = ab + cd = cos α sen α0 + sen α cos α0 = sen(α + α0 )
y 0 6 α + α0 < 4π , luego α + α0 debe ser 0, π, 2π o 3π . Si α + α0 = 0 o 2π ,
b = sen α0 = − sen α = −c
y
d = cos α0 = cos α = a,
y si α + α0 = π o 3π ,
b = sen α0 = sen α = c
Y resultan las dos formas posibles
cos α
A =
sen α
− sen α
cos α
d = cos α0 = − cos α = −a.
y
o
A=
cos α
sen α
sen α
− cos α
.
Las matrices del primer tipo tienen determinante cos2 α + sen2 α = 1 , y son las matrices del grupo
ortogonal especial SO(2) = O+ (2) de orden 2 .
I Sea f una aplicación ortogonal de R2 cuya matriz MBe (f ) = A respecto de la base estándar
de R2 es una matriz del primer tipo, para un α ∈ [0, 2π) . Entonces det f = det A = 1 , el polinomio
caracterı́stico de A (y de f ) es
pf (X) =
cos α − X
sen α
− sen α
= (cos α − X)(cos α − X) + sen2 α = X 2 − (2 cos α)X + 1,
cos α − X
y el discriminante de este polinomio cuadrático es (2 cos α)2 − 4 = 4(cos2 α − 1) = −4 sen2 α .
• Si α = 0 , la matriz A es la matriz identidad I2 , y f es la aplicación identidad idR2 . Naturalmente, el polinomio caracterı́stico pf (X) = pA (X) es X − 2X + 1 = (X − 1)2 , y f tiene el autovalor
λ = 1 , de multiplicidad algebraica 2 .
• Si α = π , la matriz A es la matriz −I2 , y f es la aplicación −idR2 . Naturalmente, el polinomio
caracterı́stico pf (X) es X + 2X + 1 = (X + 1)2 y f tiene el autovalor λ = −1 , de multiplicidad 2 .
• Si α 6= 0, π , el discriminante −4 sen2 α es negativo, el polinomio caracterı́stico de f no tiene
raı́ces reales, y f no tiene autovalores ni vectores propios.
Si det f = 1 , la aplicación ortogonal f es un giro o rotación (vectorial) de ángulo α .
I Sea f una aplicación ortogonal de R2 cuya matriz MBe (f ) = A respecto de la base estándar de
R es una matriz del segundo tipo, para un α ∈ [0, 2π) . Entonces det f = det A = −1 , y el polinomio
caracterı́stico de A (y de f ) es
2
pf (X) = det(A − XI2 ) =
cos α − X
sen α
sen α
− cos α − X
= (cos α − X)(− cos α − X) − (sen α)2 = X 2 − 1 = (X + 1) · (X − 1)
y f (y la matriz A ) tiene dos autovalores distintos 1 y −1 . Por tanto, f es diagonalizable,
R2 = V1 (f ) ⊕ V−1 (f )
y además estos dos subespacios propios son suplementarios ortogonales uno del otro.
El subespacio propio V1 (f ) de autovalor 1 es una recta vectorial, cuyos vectores quedan fijos
f (x, y) = 1(x, y) = (x, y) por f .
268
Álgebra lineal
El subespacio propio V1 (f ) es ker(f − 1 idR2 ) , y es el subespacio de R2 de ecuaciones cartesianas
α
α−1
(cos α − 1)X + (sen α)Y = 0 , que es el subespacio de R2 generado por el vector (1, cos
sen α ) = (1, tg 2 ) ,
α
la recta vectorial de ecuación cartesiana Y = (tg 2 )X .
El subespacio propio V−1 (f ) de autovalor −1 es el subespacio ortogonal a V1 (f ) , y cada vector de
V−1 (f ) se transforma en su opuesto f (x, y) = (−1)(x, y) = −(x, y) .
La aplicación ortogonal f es la simetrı́a vectorial de R2 respecto de la recta vectorial V1 (f ) en
la dirección del subespacio ortogonal V−1 (f ) : f es la simetrı́a ortogonal respecto de la recta vectorial
V1 (f ) de ecuación Y = (tg α2 )X.
Aplicaciones ortogonales de R3
Si f : R3 −−→ R3 es una aplicación ortogonal, su polinomio caracterı́stico pf (X) tiene grado 3 , impar,
y tiene al menos una raı́z real λ1 , que es un autovalor de f , y ha de ser λ1 = 1 o λ1 = −1.
Sea w1 un vector propio de f de autovalor λ1 de norma k w1 k = 1 . Sabemos que w1 6= 0 , es
linealmente independiente, y hay dos vectores más, w2 y w3 en R3 tales que B = {w1 , w2 , w3 } es
una base ortonormal de R3 .
Sea W el subespacio L[w2 , w3 ] generado por w2 , w3 . Como W es el subespacio ortogonal a
{w1 } , esto es, a L[w1 ] , y f conserva la ortogonalidad, los vectores de W , que son ortogonales a w1 ,
se transforman por f en vectores ortogonales a f (w1 ) = λ1 w1 = (±1)w1 , por lo tanto, en vectores de
W , y tiene que ser f [W ] = W . La matriz de f respecto de la base B es de la forma


λ1 0 0
A = MB (f ) =  0 a b 
0 c d
a b
y la submatriz A0 =
es una matriz ortogonal de orden 2 . Y det f = det A = λ1 · det A0 .
c d
Distinguimos varios casos:
(1)(a) Supongamos det f = det A = +1 , y λ1 = −1 . Entonces det A0 = −1 y podemos tomar w2
y w3 como vectores propios de autovalores λ2 = +1 y λ3 = −1 , con lo que


−1 0 0
A = MB (f ) =  0 1 0  .
0 0 −1
Se trata entonces del giro vectorial de eje la recta L[w2 ] y ángulo π .
(1)(b) Sea det f = det A = +1 , y λ1 = +1 . Entonces existe un α ∈ [0, 2π) tal que


1
0
0
A = MB (f ) =  0 cos α − sen α  .
0 sen α
cos α
En este caso f es el giro o rotación vectorial de eje V1 (f ) = L[w1 ] y ángulo α . Se observa que
cos α = 21 (tr(f ) − 1).
(2)(a) Supongamos que det f = det A = −1 y λ1 = 1 . Entonces det A0 = −1 y existen vectores
propios w2 y w3 de autovalores 1 y −1 , respectivamente tales que la base B es ortonormal y


1 0 0
A = MB (f ) =  0 1 0  .
0 0 −1
En este caso, f es la simetrı́a (vectorial) ortogonal respecto del plano V1 (f ) = L[w1 , w2 ] .
(2)(b) Sea det f = det A = −1 y λ1 = −1 . Entonces det A0 = 1 y existe un α ∈ [0, 2π) tal que


−1
0
0
A = MB (f ) =  0 cos α − sen α  .
0 sen α
cos α
En este caso, f es un giro-simetrı́a vectorial de eje V−1 (f ) = L[w1 ] respecto del plano vectorial
V−1 (f )⊥ = L[w1 ]⊥ = L[w2 , w3 ] .
Los cuatro casos anteriores son los cuatro casos posibles. De hecho, el caso (1)(a) es el caso particular
de (1)(b) con α = π.
Descargar