Aplicaci´on de métodos de selecci´on de variables para la predicci

Anuncio
1
Aplicación de métodos de selección de variables
para la predicción de series de tiempo
Eric Iturbide, Jaime Cerda y Mario Graff
Facultad de Ingenierı́a Eléctrica
Posgrado de Ingenierı́a Eléctrica
Universidad Michoacana de San Nicolás de Hidalgo
[email protected], [email protected] y [email protected]
Resumen—En este trabajo, se presentan dos algoritmos ”Least
Absolute Shrinkage and Selection Operator” LASSO y ”Least
Angle Regression” LARS, dos métodos de selección de variable
que están basados en mı́nimos cuadrados ordinarios. A lo largo
de este artı́culo, se muestra como utilizar LARS, LASSO y
OLS para pronosticar series de tiempo, utilizando modelos
auto-regresivos para inicializar las matrices requeridas para su
aplicación. Los resultados muestran que LARS y LASSO tiene un
poder predictivo igual o superior que OLS en términos de error
promedio, para hacer ésta comparación se utilizarán 4004 series
de tiempo diferentes que fueron tomadas de las competiciones
M1 y M3 de series de tiempo. Además como era de esperarse
los experimentos afirman que LARS y LASSO obtienen mejores
modelos que OLS. También se concluye que LARS y LASSO
tienden a ser similares, pero no iguales, sin embargo LARS suele
ser mejor que LASSO en términos del menor error promedio
para cada uno de estos experimentos.
I. Introducción
En este trabajo, se realiza una comparacin de mı́nimos
cuadrados ordinarios con ”Least Absolute Shrinkage and Selection Operator” LASSO [17] y ”Least Angle Regression”
LARS [7], dos métodos de selección de variables. Tales
métodos se aplicaron para la predicción de 4004 series de
tiempo diferentes en un modelo lineal. Para su funcionamiento
se requieren matrices tal como lo hace mnimos cuadrados
ordinarios y por lo cual se utilizo el modelo auto-regresivo.
Los resultados muestran que LASSO y LARS tienen un buen
rendimiento, además producen modelos parsimoniosos que
son fáciles de analizar. LASSO minimiza la diferencia de los
errores al cuadrado sujeta a una restricción. Dicha restriccin
es la sumatoria de los absolutos de todos los coeficientes
acotada por una constante t que define la cota superior. Esta
sumatoria es equivalente a la norma L1 . LARS es un nuevo
procedimiento que se va haciendo por segmentos o etapas
mı́nimas, por cada etapa entra una variable al conjunto activo
hasta tener todos los coeficientes en el conjunto activo. Lo
cual implica que en la última etapa es equivalente a mı́nimos
cuadrados ordinarios. Este algoritmo tiene su funcionamiento
sobre la dirección equiangular entre las variables del conjunto
activo y la variable más correlacionada. Otra peculiaridad de
LARS es que en términos de tiempo o proceso de computo
es equivalente al ajuste de un modelo por mı́nimos cuadrados
ordinarios. Cabe destacar que en cuanto se obtenga el modelo
más adecuado, el que mejor se ajuste a la respuesta. La
selección de un subconjunto de variables se convierte en
tarea fundamental para evitar el sobre ajuste de los datos a
pronosticar y ası́ dar una mejor interpretación a los resultados.
El objetivo de todo problema de selección de variables es
encontrar un subconjunto de coeficientes que mejor expliquen
el problema. Actualmente el campo de la investigación muestra
gran interés por las metodologı́as de selección de variable,
por ejemplo para la clasificación de patrones [6] y en el
estudio de imágenes [15]. Los resultados muestran que LARS
y LASSO obtienen modelos sencillos que superan o igualan el
rendimiento de mı́nimos cuadrados ordinarios (por sus siglas
en ingles ”OLS”) en términos de error promedio. Las diferentes metodologas pronosticaron las 4004 series de tiempo
diferentes. La comparación de las diferentes metodologı́as se
hace con la finalidad de obtener el mejor modelo a partir de
su comparación, cabe mencionar que los resultados obtenidos
son para estas series de tiempo y no es posible generalizar
para otros problemas.
Este articulo está organizado de la siguiente manera: en la
sección II se presentan los diferentes trabajos relacionados
con LASSO y LARS. Para la sección III se presentan los
métodos de regresión, comenzando con una breve explicación
del modelo lineal y su formulación, después revisaremos las
metodologı́as de OLS , LASSO y LARS. En la sección
IV se muestra como obtener las series de tiempo en forma
matricial inicializadas con ecuaciones auto-regresivas, además
se analizan los parámetros a optimizar para LARS y LASSO.
Los resultados obtenidos al aplicar las diferentes metodologı́as
de regresión son presentados en la seccin 5. Y por último en
la sección 6 se dan las conclusiones.
II. Trabajo relacionado
El método de mı́nimos cuadrados ordinarios es una forma
común de estimar coeficientes de regresión para ajustar datos.
Es muy popular y en la mayorı́a de las aéreas de invesitagación
como en la economı́a ó eléctrica frecuentemente se utiliza
como primer opción para obtener los parámetros desconocidos,
sin embargo tiene deficiencias muy notables. Por tal motivo
es necesario buscar alternativas, aunque LASSO y RIDGE se
basa en mı́nimos cuadrados, el primer modelo relacionado es
la regresión ridge [11] el método más antiguo de estimación
penalizada. Este método consiste en una constante no negativa
que controla la compensaccón entre la bondad de ajuste del
modelo, sujeta por la sumatoria de los cuadrados de los
2
coeficientes de regresión, o equivalentement a la norma L2 . La
penalidad cuadrática L2 induce a una contracción hacia cero
de los coeficientes pero nunca llegan a ser cero por lo cual no
lo hace ser un modelo de selección de variable, después desarrollaron LASSO otro método de estimación penalizada que es
mucho más utilizada que Ridge. A diferencia de la regresión
Ridge, LASSO contiene la suma de los valores absolutos de los
coeficientes, o norma L1 sujeta a una cota superior positiva. La
solución a este problema involucra reducir exactamente a cero
algunos coeficientes, por lo tanto, LASSO realiza selección de
variable y contracción simultáneamente.
LARS es un algoritmo que ha llamado mucho la atención,
cabe mencionar que the Annals of Statistics [7] en 2004 dedica
92 páginas dedicado a este tema. El artı́culo va seguido de
un debate sobre los pros y contras de LARS [19], se realizo
con la colaboración de varios expertos en el tema. Otros
trabajos relacionados con LASSO es LASSO-BAYESIAN [12]
y ELASTIC NET [21] dos nuevas metodologı́as que en la
actualidad son muy utilizadas principalmente en economı́a, lo
cual indica el gran interés hacia los modelos de selección de
variable que producen modelos sencillos y su aplicación de
forma eficiente.
III. Métodos de regresión
En esta sección se presentarán los diferentes modelos de
regresión. Se explica breve mente el modelo lineal para varias
variables. Para usar el modelo lineal implica conocer los
valores de los coeficientes para obtener una respuesta que pretendemos conocer. Para obtener los valores de los coeficientes
desconocidos, se utilizan dos modelos de selección de variable
LASSO y LARS, además de mı́nimos cuadrados ordinarios.
B. Mı́nimos cuadrados ordinarios
Mı́nimos cuadrados ordinarios, es un método estadı́stico de
estimación de coeficientes desconocidos. Esta técnica minimiza el residuo de los errores al cuadrado de un conjunto
de datos [10]. El método de mı́nimos cuadrados consiste en
determinar los parámetros β j de tal manera que los residuos
sean mı́nimos, es decir lo que se busca es minimizar la
siguiente ecuación
S (β j ) =
n
X
(yi −
i=1
p
X
X i j β j )2
El conjunto de valores de β j que minimiza la sumatoria
de los errores al cuadrado son llamados estimadores de OLS,
obviamente, cuanto menores son los residuos, mejor es el
ajuste. La función S (β j ) es convexa, por lo tanto tiene un
mı́nimo global.
Minimizar
n
X
i=1
(yi −
p
X
El análisis de regresion lineal es una técnica estadı́stica
que se utiliza para estudiar la relación entre una variable
dependiente Y y las variables independientes Xi , este modelo
puede ser expresado de la siguiente manera.

 x11
 ..
 .

xn1
...
...
...
   
x1p  β1  y1 
   
..   ..  =  .. 
.   .   . 
   
xnp β p
yn
El problema es encontrar el mejor conjunto de valores que
tomaran los ceficientes β j , en el siguiente modelo lineal
yi = Xi j β j + ∈i ,
(1)
Donde yi es el vector de la respuesta, y las β j son los
coeficientes de regresión, Xi j es la matriz de variables y ∈i es
el error aleatorio.
Xi j β j )2
(3)
j=1
Si escribimos la ecuación (3) en forma matricial
2
y − Xβ = (y − Xβ)0 (y − Xβ) = y0 y − 2y0 Xβ + X 0 Xβ2
(4)
Asumiendo que X es no-singular y que X 0 X es definida
positiva, se puede derivar la ecuación (4) con respecto a β e
igualar a cero, obteniendo la siguiente ecuación.
−2X 0 y + 2X 0 Xβ = 0
(5)
Se requiere conocer el valor de β de la ecuación (5), Entonces
la ecuación (5) resuelve los estimadores de mı́nimos cuadrados
ordinarios, obteniendo una solución única.
β = (X 0 X)−1 X 0 y
A. Modelo lineal
(2)
j=1
(6)
Sin embargo, la pseudo-inversa X 0 X puede ser singular, es
decir su determinante es igual a cero. Si este problema ocurre
no es posible calcular exactamente la pseudo-inversa, debido
a que no se puede invertir. Para solucionar este problema, se
pueden utilizar algoritmos iterativos de aproximación [16], [4].
Además del problema mencionado con la singularidad de la
matriz, mı́nimos cuadrados sobre-ajusta y no es un método
de selección de variable por tal motivo no produce modelos parsimoniosos. Esta forma de encontrar los estimadores,
provoca que todos sus coeficientes sean diferentes a cero, en
este trabajo se presentan dos métodos de selección de variable
que se inspiran en mı́nimos cuadrados y que a partir de los
resultados en la predicción de las 4004 series de tiempos
diferentes mejoran los problemas de mı́nimos cuadrados.
C. LASSO
El ”least absolute shrinkage and selection operator” LASSO
[17] es un método de selección de variable. Este método utiliza
la norma L1 que minimiza el residuo de los errores al cuadrado
similar a mı́nimos cuadrados ordinarios pero sujeto a una
restricción que tiene como cota superior un valor constante
3
t que controla la sumatoria de los valores absolutos de los
coeficientes y se define de la siguiente manera.
Minimizar
p
n
X
X
(yi −
Xi j β j )2
i=1
j=1
(7)
p
X
|β j | ≤ t
j=1
Donde t debe ser mayor o igual a cero, además que t es un
parámetro a optimizar. Este parámetro se puede resuelver con
validación cruzada una técnica de aprendizaje supervisado.
LASSO resulta ser un problema de optimización conocida
como programación cuadrática [2]. Para solucionar LASSO
(7) se propone un algoritmo que utiliza una librera de optimización de python que se llama scipy. La solución no
resulta ser un método de selección de variables. Con esta
solución los coeficientes no toman un valor igual a cero,
al contrario en cuanto se incrementa el valor de la cota
superior todos los coeficientes son diferentes a cero. A esta
solución le llamaremos LASSO puro, sin embargo para que los
coeficientes sean igual a cero se debe aplicar un umbral para la
contracción de los coeficientes. Este umbral involucra reducir
exactamente a cero algunos coeficientes, por lo tanto, LASSO
realiza selección de variable y contracción simultáneamente,
en este trabajo se presentan dos soluciones a LASSO una
que es el LASSO-puro como se menciono anteriormente y
LASSO-umbral con el umbral [8], [20]. Equivalentemente
(7) también se puede ver como un método de estimación
penalizada [13] que contiene la suma de los valores absolutos
de los coeficientes como la función de perdida que produce la
contracción de los coeficientes a cero [5].
p
p
n
X
X
X
2
|β j |
Xi j β j ) + λ
(yi −
f (β j ) =
(8)
punto en lugar de seguir la dirección de la variable X j1 ,
sigue una dirección equiangular entre ambas variable, lo
que hace que la correlacin sea igual al residuo actual.
• Sigue el procedimiento hasta que entren todos las variables, al finalizar tenemos la solución OLS.
Como se ha mencionado LARS es un nuevo algoritmo que
selecciona variables y que presenta las siguientes ventajas
• Es computacionalmente eficiente, pues requiere el mismo
esfuerzo computacional que mı́nimos cuadrados ordinarios.
• Produce una solución por cada etapa por lo que resulta
interesante para usar técnicas de aprendizaje supervisado
para escoger el mejor conjunto de coeficientes.
• Con una simple modificación se pueden obtener otros
modelos de regresión como LASSO.
• Funciona muy bien cuando p ≥ n (donde el numero de
variable es mayor al número de observaciones) [3]
• El algoritmo es de dominio público y lo encontramos en
python-Sklearn y R [14].
IV. LARS, LASSO y OLS para series de tiempo
En esta sección se ejemplificaran las series de tiempo y su
uso.
En los últimos años las series de tiempo han tenido aplicaciones importantes en las diferentes áreas de la investigación,
por ello, en esta sección se muestra una metodologı́a para
inicializar las matrices requeridas para aplicar LASSO, LARS
y OLS. Estas matrices se utilizan para pronosticar series
de tiempo, por último vamos a identificar los parámetros a
optimizar en LASSO y LARS.
A. Series de tiempo
D. LARS
Una serie de tiempo [9] es una secuencia de datos o valores
sucesivos, que son medidos en intervalos de tiempo iguales y
que pueden ser ordenados cronológicamente.
Una serie de tiempo se puede representar de la siguiente
manera. {y1 , y2 , ...yT } o {yt }, t = 1, 2, ...T . El análisis de series
de tiempo juega un papel importante para el pronóstico de
eventos futuros, es por esta razón que son usadas en muchas
aplicaciones, la siguiente figura muestra un ejemplo de una
serie de tiempo, es una representación del punto de un (Light
Amplification by Stimulated Emission of Radiation) LASER
en movimiento.
”Least angle regression” LARS [7] es un nuevo modelo
de selección de variable que realiza los procedimientos por
etapas, en términos de tiempo de complejidad es lo equivalente
al ajuste de un modelo por mńimos cuadrados ordinarios. El
camino que sigue LARS para la selección de variable, es el
siguiente:
• Se normalizan los datos con media 0 y desviación
estándar 1.
• Todos los coeficientes son igual a cero.
• Se busca la variable más correlacionado con la respuesta.
• Se hace un salto hacia la dirección de la variable seleccionada hasta que entre otra variable, entonces en este
Fig. 1.
i=1
j=1
j=1
La solución de (7) y (8) es una correspondencia uno a uno
entre λ y t. Si β(λ) minimiza (8) , tambien resuelve (7) con t =
Pp
j=1 |β j (λ)|. A esta representación se le conoce como ”basis
pursuit” [5]. Existen diferentes algoritmos para resolver este
problema para cada valor de λ o t. Para la solución de LASSO
con umbral se aplicó coordenada descendiente [20] que se
encuentra en la librerı́a de Sklearn de Python.
LASER representado en una serie de tiempo.
4
El primer paso es la manera de representar cualquier
medición en una serie de tiempo, para este ejemplo un laser.
El segundo paso es convertir la serie de tiempo en forma
de matriz y entonces obtener una formulación correcta. La
siguiente tabla representa el laser de la figura (3).
yt
t
86 48 24 152 23 37 118 16 58 82 18
1 11 21 31 41 51 61 71 81 91 100
(9)
Transformar la serie de tiempo en una matriz es necesario
para aplicar los métodos de selección de variable y mı́nimos
cuadrados ordinarios presentados en este trabajo.

  
 x11 . . . x1p  y1 
 ..
..  y  .. 
(10)
 . . . .
.   . 

  
yn
xn1 . . . xnp
En la siguiente sección se explica cómo se transformo una
serie de tiempo que solo tiene una columna a una matriz de
datos para poder utilizar las metodologı́as de OLS, LASSO y
LARS.
B. Modelos Auto-regresivos
En este apartado, solucionamos la representación de las
series de tiempo en forma matricial mediante el modelo de
ecuaciones auto-regresivas [18]. Un modelo del cual depende
únicamente de los valores previos, por lo cual recibe el nombre
de modelos auto-regresivos y tiene una representación de la
siguiente forma.
yt =
m
X
ai yt−i
(11)
La tabla (8) muestra la representación del ejemplo del laser,
para m = 3.

86
48

24

 ..
 .
16
48
24
152
..
.
58



152
24 

   
152 a1   23 

   
23  a2  =  37 




..  a   .. 
 . 
.  3


18
82
(14)
C. Parámetros a optimizar
Los dos modelos de selección de variable tanto LARS
y LASSO tienen parámetros que se pueden optimizar con
técnicas de aprendizaje supervisado. En este trabajo se aplicó
validación cruzada con un 5-fold [1], esta técnica de aprendizaje supervisado divide un conjunto en k subconjuntos de
datos, uno para validar y el resto para entrenar. Este procedimiento se realiza k veces hasta que cada uno de los conjuntos
sea utilizado como conjunto de validación. De esta manera se
calcula el error de la predicción haciendo un promedio por
cada conjunto de validación a esto le llamamos error MSE.
El parámetro a optimizar en LASSO, es el valor de la cota
superior, además debe estar entre el rango de 0 y la sumatoria
de los absolutos de coeficientes de mı́nimos cuadrados. Este
valor es muy sensible, si la cota superior es muy pequeña o
cero es evidente que todos los coeficientes serán ceros, por lo
contrario si la cota es muy grande todos los coeficientes serán
diferentes a cero. Para LARS es muy similar debemos saber
cuál es la mejor etapa, es decir que subconjunto de coeficientes
es el mejor, para optimizar este parámetro también se utiliza
validación cruzada.
i
where:
• yt es la serie bajo investigación.
• {a1 , a2 , ..., am } son los coeficientes de la auto-regresión .
• m es el orden del modelo el cual debe ser menor que la
longitud de la serie de tiempo
El principal problema en el análisis de las ecuaciones autoregresivas es encontrar el mejor valor para ai dada una serie
de tiempo:

   
 x11 . . . x1p  a1  y1 
 .
..   ..  =  .. 
 .. . . .
(12)
.   .   . 

   
xn1 . . . xnp a p
yn
Si se escoge un orden de m = 3, el modelo es la siguiente
forma:

 x11
 .
 ..

...
x12
...
...
.


x13  a1  ..
    
..  a  = ..
.   2  .

 
. . . a3
..
.
(13)
V. Resultados
En esta sección se presentan los resultados de la investigación. Se presentan los algoritmos LASSO con umbral,
LASSO puro, LARS en python, LARS en R y OLS para
pronosticar las 4004 series de tiempo diferentes. Como se
menciono en la sección anterior, es necesario definir un grado
ó ventana para incializar las ecuaciones auto-regresivas y ası́
poder trasformar cada una de las series de tiempo a matrices
de datos. En este trabajo se utilizó un grado de 5, además
para optimizar los parámetros de LASSO y LARS se utilizó
validación cruzada con 5-fold. Recordando que las 4004 series
de tiempo tienen un conjunto de entrenamiento y validación,
tal y cual la proporciona las competencias M1 y M3. De
acuerdo a los parámetros definidos, las ecuaciones matriciales
son las siguientes :

 x11
 ..
 .

xn1
...
...
...
   
x15  β1  y1 
   
..   ..  =  .. 
.   .   . 
   
xn5 β5
y5
Cinco coeficientes βi . La siguiente gráfica (2) indica cuantos
coeficientes son diferentes a cero de 5 posibles. En dicha
gráfica se puede observar que LASSO-puro tiene más coeficientes diferentes a cero, mientras que los otros tres algoritmos
muestran un similar número. Es muy importante recordar que
5
entrenamiento aplicando Validacin cruzada.
Los resultados muestran un mejor rendimiento de LASSO y
LARS sobre mı́nimos cuadrados ordinarios. Dichos resultados
son los esperados sobre todo porque OLS tiene picos muy
elevados que evidentemente representan el sobre ajuste que
hace mı́nimos cuadrados. Resulta muy interesante que LARS
y LASSO se comportan casi similar pero no iguales.
Fig. 2. En esta gráfica se representan los números diferentes a cero que
toman los coeficientes en cada una de las 4004 series de tiempo diferentes,
recordar que solo son los datos en el conjunto de entrenamiento
OLS no se gráfico, porque los 5 coeficientes son diferentes a
cero.
En la gráfica (3) se realiza un promedio de los coeficientes
diferentes a cero de todas las series de tiempo a partir de los
resultados de la gráfica (2), lo que resulta muy evidente que
LASSO y LARS son modelos de selección de variable y OLS
no lo es.
Fig. 3.
Fig. 4. Comparación del error MSE en el conjunto de entrenamiento para
cada una de las 4004 series de tiempo
Los grandes resultados obtenidos en este trabajo nos indica
que LASSO y LARS puede ser utilizado como algoritmos de
selección de variable sin ningn problema, además es muy fácil
utilizarlos ya que se usa de la misma manera que mı́nimos
cuadrados. Estos algoritmos se encuentran disponibles en
diferentes librerı́as de programación libres. En la siguiente
gráfica (5) muestra un promedio de la gráfica (4), evidentemente refleja que estos dos modelos de selección de variables
tienden a ser mejor que OLS en términos de error en la
predicción, tienden a obtener modelos muy sencillos y al
mismo tiempo evitan el sobre-ajustan.
Promedio de los coeficientes diferentes a cero (gráfica (2)).
Otro dato importante a mencionar es que los coeficientes
que se muestran en la gráfica (2) son los que finalmente
se utilizarán para pronosticar el conjunto de validación que
nunca se toco. En la gráfica (2) se puede observar que el
mejor subconjunto de coeficientes no siempre fue menor que
cinco, pero esto se debe porque al aplicar validación cruzada
se generaliza el mejor subconjunto, este subconjunto es el que
representa la gráfica (2).
Como se puede observar en las gráficas (2) y (3), los
4 algoritmos obtienen resultados similares, notando que el
algoritmo de LASSO-puro es el algoritmo que tiene más
coeficientes diferentes a cero, esto se debe a que no se aplicó
el umbral y no es precisamente un método de selección de
variable. Sin embargo es evidente que las metodologı́as de
selección de variables producen modelos parsimoniosos que
son preferibles que los modelos con todas las variables, es
decir, cuando se lleva a la practica estas metodologı́as son
ideales.
En la gráfica (4), se muestra el resultado del rendimineto
de la precisión para cada una de las predicciones de las 4004
series de tiempo en términos del error MSE en el conjunto de
Fig. 5. Promedio de la figura (4), resultados de error MSE en el conjunto
de entrenamiento para cada una de las series de tiempo.
Como se puede observar en la gráfica (5), también se
obtienen muy buenos resultados en el conjunto de validación.
Recordar que se utilizaron los parámetros optimizados de
LARS y LASSO a partir de los resultados obtenidos en el
conjunto de entrenamiento, es decir seleccionamos el mejor
subconjunto de coeficientes a partir de validación cruzada
para pronosticar los datos del conjunto de validación. Los
resultados son muy buenos no igual que en el conjunto de
entrenamiento pero era de esperarse porque los datos de
validación son desconocidos totalmente, lo que indica que
estos modelos de selección de variable no sobre-ajustan como
lo hace mı́nimos cuadrados.
6
Fig. 8.
Fig. 6. Error MSE en el conjunto de validación para cada una de las 4004
series de tiempo.
Fig. 7.
Promedio de la grafica (6).
En la siguiente tabla se hace una comparación de los
5 algoritmos para identificar que algoritmo obtuvo en más
ocasiones el menor error para cada una de las predicciones de
las 4004 series de tiempo. Los resultados muestran que LARSsklearn fue el mejor, después LASSO-puro lo cual nos indica
que a pesar de no ser precisamente un método de selección de
variable obtiene muy buen resultado. En realidad las gráficas
de los errores MSE tanto para LASSO y LARS no muestran
gran diferencia y este experimento se puede tomar solo como
una simple curiosidad para identificar el mejor algoritmo, la
gráfica (8) muestra un resultado más claro con una gráfica por
porcentajes.
TABLE I
Comparación de los diferentes algoritmos para el pronostico de las 4004
series de tiempo, en términos del menor error MSE
Modelos
LARS R
LARS Sklearn
LASSO Scipy
LASSO Sklearn
OLS
Entrenamiento
768
1266
1109
550
311
Validación
547
1406
1046
550
455
Gráfica por porcentajes de los resultados de la tabla (1)
VI. Conclusiones
LARS y LASSO son dos enfonques de selección de variable
muy prometedoras, que ofrece velocidad, facilidad de interpretación, estabilidad y una buena presentación gráfica de las
rutas de los coeficientes. Los resultados son los esperados y se
reafirma que los métodos de selección de variable LASSO y
LARS son mejores técnicas que mı́nimos cuadrados ordinarios
en términos del error promedio en la predicción de estas 4004
series de tiempo. También se puede concluir que es muy
fácil utilizar estas dos técnicas y que prácticamente se utiliza
de la misma manera que mı́nimos cuadrados ordinarios, por
tal motivo recomendamos utilizar estas técnicas. Además que
producen modelos parsimoniosos para su fácil interpretación
en cualquier campo de la investigación, todo esto a un tiempo
computacional muy bueno, lo que nos indica que estas técnicas
son muy eficientes para su aplicación.
Bibliografı́a
[1] S. Arlot and A. Celisse. A survey of cross-validation procedures for
model selection. Statistics Surveys, 4:40–79, 2010.
[2] S. Boyd and L. Vandenberghe. Convex Optimization. Cambridge
University Press, Mar. 2004.
[3] P. Bhlmann. Boosting for high-dimensional linear models. The Annals
of Statistics, 34(2):559–583, Apr. 2006. Mathematical Reviews number
(MathSciNet): MR2281878; Zentralblatt MATH identifier: 1095.62077.
[4] S. L. Campbell and C. D. Meyer. Generalized Inverses of Linear
Transformations. SIAM, Mar. 2009.
[5] S. S. Chen, D. L. Donoho, Michael, and A. Saunders. Atomic
decomposition by basis pursuit. SIAM Journal on Scientific Computing,
20:33–61, 1998.
[6] P. Drineas and M. W. Mahoney. On the Nyström Method for Approximating a Gram Matrix for Improved Kernel-Based Learning. JOURNAL
OF MACHINE LEARNING RESEARCH, 6, 2005.
[7] B. Efron. Least angle regression. The Annals of Statistics, 32(2):407–
499, 2004.
[8] J. Friedman, T. Hastie, and R. Tibshirani. Regularization paths for
generalized linear models via coordinate descent. Journal of statistical
software, 33(1):1–22, 2010. PMID: 20808728 PMCID: PMC2929880.
[9] N. A. Gershenfeld and A. S. Weigend. The future of time series:
Learning and understanding. In A. Weigend and N. Gershenfeld, editors,
Time Series Prediction: Forecasting the Future and Understanding the
Past, pages 1–70. Addison-Wesley, 1993.
[10] F. Hayashi. Bekaert-hodrick93. Instructional Stata datasets for econometrics bhodrick93, Boston College Department of Economics, 2000.
[11] A. E. Hoerl and R. W. Kennard. Ridge regression: Biased estimation
for nonorthogonal problems. Technometrics, 12:55–67, 1970.
[12] T. Park and G. Casella. The bayesian lasso. Technical report, 2005.
[13] B. M. Pötscher and H. Leeb. On the distribution of penalized maximum
likelihood estimators: The lasso, scad, and thresholding. J. Multivar.
Anal., 100(9):2065–2082, Oct. 2009.
[14] R Development Core Team. R: A Language and Environment for
Statistical Computing. R Foundation for Statistical Computing, Vienna,
Austria, 2008. ISBN 3-900051-07-0.
7
[15] N. S. Rao, R. D. Nowak, S. J. Wright, and N. G. Kingsbury. Convex
approaches to model wavelet sparsity patterns. CoRR, abs/1104.4385,
2011.
[16] A. Ruhe. Rational krylov algorithms for nonsymmetric eigenvalue
problems, ii: Matrix pairs, 1992.
[17] R. Tibshirani. Regression shrinkage and selection via the lasso. Journal
of the Royal Statistical Society, Series B, 58:267–288, 1994.
[18] J. S. Tzu-Kuo Huang. Learning auto-regressive models from sequence
and non-sequence data. In NIPS 2011, 2011.
[19] S. Weisberg. Discussion of ”least angle regression” by efron et al. The
Annals of Statistics, pages 490–494, 2004.
[20] T. T. Wu and K. Lange. Coordinate descent algorithms for lasso
penalized regression. Mar. 2008.
[21] H. Zou and T. Hastie. Regularization and variable selection via the
elastic net. Journal of the Royal Statistical Society, Series B, 67:301–
320, 2005.
Descargar