REGULARIZACION

Anuncio
REGULARIZACION
Miguel Cárdenas-Montes
El sobreajuste es uno de los principales riesgos en minería de datos. La
técnica denominada regularización permite reducir el sobreajuste.
Objetivos:
Conocer las principales características de la regularización para corregir el sobbreajuste.
Ser capaz de aplicar la regularización en los algoritmos de minería
de datos.
1
Este documento puede contener imprecisiones o errores. Por favor no lo utilice
para citarlo como una fuente fiable.
Regularización
La técnica de regularización puede ser empleada para corregir el sobreajuste. Esta técnica puede emplearse en un conjunto amplio de técnicas de minería de datos como regresión linear, regresión logística,
SVM, etc.
La regularización consiste en reducir la importancia de los parámetros θ j que aparecen en la función de coste. Este efecto se consigue
mediante la inclusión de los parámetros θ j en la función de coste J (θ ).
Así, en el caso de regresión lineal la función de coste se ve modificada por la adición de un sumatorio de todos los parámetros θ j con un
factor llamado parámetro de regularización, λ. De esta forma la función
de coste resultante es:
J (θ ) =
1
2m
m
m
i =0
j =1
∑ (hθ (xi ) − yi )2 + λ ∑ θ2j
El parámetro θ0 no suele incluirse en la
regularización.
(1)
Si se utiliza gradiente descendiente para obtener los valores óptimos
de los parámetros θ j , entonces se modifica su ecuación (ecuación 2).
θ j : = θ j (1 − α
1
λ
)−α
m
m
m
∑ (hθ (xi ) − yi )xij
(2)
Ejemplos de normas:
i =0
En regresión logística, como en regresión lineal, se debe añadir a su
λ
2
función de coste, J (θ ), el término 2m
∑m
j =1 θ j .
El valor del parámetro λ tiene que ser elegido cuidadosamente, ya
que tanto valores elevados como reducidos dan lugar a distorsiones
en la función de coste. Esta distorsiones pueden ocasionar que se produzca un mal ajuste con los datos manejados.
En el ejemplo de la ecuación 1 se ha elegido la norma denominada
1/2
L2 − norm → |~x |2 = ∑iN=1 | xi |2
para el vector de parametros ~θ.
Sin embargo otras normas como L1 − norm o L∞ − Norm podrían ser
aceptadas con la misma finalidad.
N
L1 − norm → |~x |1 =
∑ | xi |
i =1
L2 − norm → |~x |2 =
N
∑ | xi |2
i =1
p
N
L − norm → |~x | p =
∑ | xi |
i =1
p
!1/2
!1/p
L∞ − norm → |~x |∞ = máx | xi |
i
Descargar