eigenvalor

Anuncio
Eigenvalores y eigenvectores
• Los dos problemas principales del álgebra lineal son: resolver sistemas lineales de
la forma Ax = b y resolver el problema de eigenvalores.
• En general, una matriz actúa sobre un vector cambiando tanto su magnitud como
su dirección. Sin embargo, una matriz puede actuar sobre ciertos vectores
cambiando solamente su magnitud.
• Una función vectorial A es lineal si:
a) A(x + y) = Ax + Ay
b) A(αx) = αAx
donde x y y son vectores y α es escalar.
•
Definición.- Dada una transformación lineal A, un vector e ≠ 0 es un eigenvector
de A si satisface la ecuación:
Ae = λe
para algún escalar λ, llamado un eigenvalor de A correspondiente al eigenvector e.
•
Un eigenvalor λ y un eigenvector ē de una matriz cuadrada [A]
satisfacen la ecuación:
Aē = λē
o de forma equivalente: (A – λI)ē = Ō
•
Cualquier múltiplo escalar, cē, también satisface la ecuación. En
consecuencia, para definirlos con precisión es usual requerir que los
eigenvectores tengan longitud unitaria:
|| ē || = [∑ek2]½ = 1
•
En este caso, si ē satisface la ecuación, entonces -ē también la
satisface.
•
Si además [A] es simétrica entonces los eigenvectores son
ortogonales. Por lo tanto, los eigenvectores serán ortonormales:
• La multiplicidad algebraica (m.a.) es el número de veces que se repite un
eigenvalor (o el número de veces que se repite una raíz de la ecuación
característica) y la multiplicidad geométrica (m.g.) es el número de
eigenvectores linealmente independientes asociados a un eigenvalor
particular.
• Para cada eigenvalor distinto de una matriz n x n existe un eigenvector
asociado a él, e.d., ambas multiplicidades son iguales a 1. Si la multiplicidad
algebráica de un eigenvalor es r puede haber a lo más r eigenvectores l.i.
asociados a él.
• Los eigenvectores correspondientes a eigenvalores distintos son linealmente
independientes y forman una base para Rn.
• Si A es una matriz de n x n simétrica, entonces sus eigenvalores son reales.
• Si A es una matriz de n x n simétrica y positiva definida, entonces sus
eigenvalores son reales y mayores que cero.
• Una matriz A es ortogonal si es cuadrada con elementos reales y sus
columnas y renglones son vectores ortogonales unitarios. Si A es ortogonal
entonces su transpuesta es igual a su inversa.
•
Si A es una matriz de K x K y es no-singular, habrá K parejas λK, ēK con
eigenvalores distintos de cero. Si A es singular al menos uno de sus eigenvalores
será cero y el eigenvector correspondiente será arbitrario.
•
Dada una matriz simétrica A, la matriz E cuyas columnas son los eigenvectores de
A es ortogonal:
ET = E-1 , EET = ETE = I
•
La transformación ortogonal ETx define una rotación rígida de los ejes
coordenados en el espacio K-dimensional de x, llamado un eigenespacio.
•
Este espacio cubre el mismo “territorio” que las coordenadas originales pero
usando un conjunto de ejes diferente.
•
Las K parejas λK, ēK contienen la misma información que la matriz [A] a partir de
la cual fueron calculadas y por lo tanto pueden considerarse como una
transformación de [A].
•
Esta equivalencia puede expresarse como la descomposición espectral (o
descomposición de Jordan) de [A], donde [A] es simétrica:
•
La matriz original [A] puede recuperarse mediante la suma pesada de estas
matrices
, donde los pesos son los eigenvalores correspondientes. La
descomposición espectral de una matriz es análoga a la descomposición de
Fourier de una función o serie de datos, con los eigenvalores jugando el
papel de las amplitudes de Fourier y las matrices
el de las funciones
senoidales.
f(x) = a0 + ∑an cos(nx) + ∑bn sen(nx)
•
La matriz de eigenvectores [E] tiene la propiedad de que diagonaliza la
matriz simétrica original [A]: (también se cumple si A no es simétrica pero
tiene K eigenvectores l.i.)
•
Los eigenvectores de una matriz simétrica no-singular son iguales a los de
su inversa,
, y los eigenvalores correspondientes son recíprocos:
•
Por lo tanto, el eigenvector de [A] asociado con su eigenvalor más grande
es el mismo que el eigenvector de [A]-1 asociado con su eigenvalor más
pequeño y viceversa.
Descomposición en Valores Singulares
• La descomposición espectral de una matriz cuadrada y simétrica
puede ser extendida a cualquier matriz rectangular [A nxm]
(con n ≥ m) usando la descomposición en valores singulares (SVD):
• Las m columnas de L son llamadas vectores singulares izquierdos y las m
columnas de R son los vectores singulares derechos. Ambos conjuntos de
vectores son mutuamente ortogonales.
• La matriz
es diagonal y sus elementos no-negativos son llamados los
valores singulares de [A].
• Si [A] es cuadrada y simétrica, la SVD se reduce a la descomposición
espectral con
• Los valores singulares de una matriz [A] de m x n son las raíces
cuadradas de los eigenvalores de la matriz [ATA] de n x n.
• Aún si [A] no es simétrica, existe una conexión entre la SVD y los
eigenvalores y eigenvectores de ambas matrices
,
las cuales son cuadradas y simétricas (una es m x m y la otra n x n).
• Específicamente las columnas de [R] son los eigenvectores (m x 1) de
, las columnas de [L] son los eigenvectores (n x 1) de
los valores singulares respectivos son las raíces cuadradas de los
eigenvalores correspondientes,
y
Funciones Empíricas Ortogonales
(Empirical Orthogonal Functions)
• El análisis de FEOs busca estructuras que expliquen la mayor cantidad de la varianza
contenida en un conjunto de datos bidimensional. Puede haber varios tipos de
matrices o arreglos de datos bidimensionales:
Arreglo espacio-tiempo: mediciones de una sola variable en M localidades tomadas
en N tiempos diferentes.
Arreglo parámetro-tiempo: Mediciones de M variables tomadas en una sola localidad
en N tiempos diferentes.
Arreglo parámetro-espacio: Mediciones de M variables tomadas en N localidades
diferentes en un sólo tiempo.
• Generalmente, al conjunto de estructuras obtenidas en la dimensión espacial se les
conoce como las FEOs, mientras que al conjunto complementario de estructuras en la
dimensión temporal se les conoce como Componentes Principales.
• Ambos conjuntos de estructuras son ortogonales en su propia dimensión.
• Objetivo: Proporcionar una descripción compacta de la variabilidad espacial y
temporal de series de datos usando un número más pequeño de piezas de información
independientes (en términos de funciones ortogonales o “modos” estadísticos).
• El análisis mediante FEOs es un método para “particionar” la varianza
de un conjunto de series de tiempo distribuidas espacialmente.
• Son llamadas “empíricas” para reflejar el hecho de que están definidas
mediante la covarianza del conjunto de datos que está siendo
analizado.
• Usualmente, la mayor parte de la varianza de las series de tiempo
distribuidas espacialmente está representada por las primeras funciones
ortogonales cuyos patrones pueden estar vinculados con posibles
mecanismos dinámicos.
• No necesariamente existe una relación física directa entre las FEOs
(puramente estadísticas) y cualquier proceso dinámico con el que se les
relacione.
• El método de FEOs o CP utiliza el concepto de eigenvalores (valores
propios o característicos) y eigenvectores (vectores propios o
característicos).
• Hay dos formas de calcular FEOs: 1) Se construye la matriz de
covarianzas de las series de datos y después se descompone en
eigenvalores y eigenvectores. 2) Se utiliza la descomposición en
valores singulares (SVD) de la matriz de datos para obtener los
eigenvalores, eigenvectores y amplitudes de variación temporal
(componentes principales) sin calcular la matriz de covarianzas.
• Las FEOs obtenidas por ambos métodos son idénticas. La diferencia
está dada por el mayor grado de sofisticación, rapidez computacional y
estabilidad de la SVD.
Procedimiento
• Consideremos un conjunto de N mapas en los tiempos t = 1...N, donde cada
mapa contiene mediciones del campo en los sitios m = 1 … M. Por lo
tanto, tenemos M series de tiempo
todas de longitud N, con N>M.
• El primer paso es remover el promedio de cada una de las series de tiempo
para obtener las anomalías. Se puede trabajar con las anomalías o con las
anomalías estandarizadas. La estandarización es especialmente relevante
cuando se analizan dos o más campos de manera conjunta para asegurar que
no domina un campo sobre los otros.
• Se construye la matriz de datos FM x N
Cálculo de FEOs usando la matriz de covarianzas
•
La matriz R es simétrica y cuadrada, aún si F no es cuadrada. Si las series
de datos en F están normalizadas entonces R será la matriz de correlación
en lugar de la matriz de covarianzas.
•
Una vez calculada R se resuelve su problema de eigenvaloreseigenvectores:
• Generalmente los eigenvalores en la matriz
están acomodados en
orden decreciente. Como la matriz de datos F es real, la matriz de
covarianzas R es positiva definida, lo que significa que todos sus
eigenvalores son mayores o iguales a cero.
• Aunque la dimensión de
es M x M, típicamente solo los primeros
K eigenvalores son distintos de cero, donde
Entonces
la dimensión efectiva de
es de hecho K x K y por lo tanto
solamente se pueden determinar K modos o FEOs.
• Cada eigenvalor distinto de cero
está asociado con un eigenvector
columna
en la matriz E. Por lo tanto, solamente se usan K
eigenvectores en la descomposición y la dimensión efectiva de la
matriz E será M x K.
• Los eigenvectores no están correlacionados y cada uno representa el
patrón espacial o FEO de modo k.
•
Cada eigenvalor
es proporcional al porcentaje de la varianza del
campo observado F que es descrito por el modo k.
•
La evolución temporal del k-ésimo modo o FEO se obtiene proyectando
los datos originales sobre los eigenvectores, con lo que se obtienen las
Componentes Principales:
•
es K x M, F es M x N y A es K x N, en donde se ha utilizado la matriz E
reducida. Los renglones de la matriz A son series de tiempo de longitud N.
•
El campo original F puede reconstruirse en su totalidad multiplicando cada
eigenvector por su correspondiente CP y sumando los productos:
•
Sin embargo, el objetivo de la descomposición en FEOs es la reconstrucción aproximada, compacta y menos ruidosa, del campo original F usando
solamente los H primeros modos, con H < K:
E = 0.8479 -0.5302
0.5302 0.8479
Avg.
Λ = 254.7571 0
0
8.2902
•
Generalmente se tienen observaciones de una variable particular en K
sitios para n tiempos distintos, donde K >> n.
•
La matriz de covarianzas (KxK) es demasiado grande.
•
Como K > n la matriz de covarianzas es singular, lo cual implica que
los últimos K – n eigenvalores son cero.
•
Intercambiando el papel de los puntos en espacio y tiempo, se calcula
la matriz de covarianzas de n x n
•
Los eigenvalores de ambas matrices de covarianzas son los mismos.
•
Los eigenvectores de S*nxn son diferentes a los de SkxK pero pueden
obtenerse a partir de los de S* mediante:
Estadística multivariada
• Un conjunto de datos univariado consiste de una colección de n
observaciones escalares:
• Un conjunto de datos multivariado puede acomodarse en un arreglo
rectangular de números (o matriz) con n renglones y K columnas.
Cada elemento corresponde a la i-ésima observación de la j-ésima
variable, donde i = 1, …, n y j = 1, ..., K. (Geométricamente se puede
ver como un espacio K-dimensional en donde cada renglón define un
punto en dicho espacio).
•
Promedio muestral multivariado: vector cuyas componentes son los
K promedios muestrales individuales
•
La extensión multivariada de la varianza muestral es la colección de
covarianzas entre todas las posibles parejas de las K variables
si k = l entonces la ecuación define la varianza muestral
•
Matriz de covarianzas o matriz de dispersión:
Descargar