Técnicas de Preprocesado

Anuncio
Técnicas de Preprocesado
Series Temporales
Máster en Computación
Universitat Politècnica de Catalunya
Dra. Alicia Troncoso Lora
1
Contenido


Por q
qué p
preprocesar
p
los datos?
Técnicas de filtro
 Depuración
p
 Tratamiento de valores ausentes (Missing)
 Detección de Outliers
 Trasformación
 Normalización
 Estandarización
 Atributos Calculados
 Discretización
 No Supervisada (Igual anchura/frecuencia)
 Supervisada: Fayyad e Irani, 1Rule, USD
2
Por qué preprocesar los datos?


Los datos reales están “sucios”

Datos incompletos: valores de atributos inexistentes

Datos
D
t
con ruido:
id errores de
d precisión,
i ió errores de
d
medición, errores de almacenamiento

Datos inconsistentes: outliers
Para obtener conclusiones válidas y útiles al aplicar
minería de datos, es necesario una adecuada
preparación
ió de
d los
l datos
d t previa
i all proceso de
d minería
i í
3
Técnicas de filtro: Depuración
Tratamiento de Missings:

Eliminar ejemplos con atributos missings  Pérdida de
información

Filt d
Asignar
A
i
una constante
t t  Mala
M l interpretación
i t WEKA
t -ióFiltro:
dell algoritmo
l it
d
de
UnsupervisedAttributeReplaceMissingValue
aprendizaje
s

Sustituir por valores con influencia mínima:
 Continuos: Media
 Discretos  Moda

Predecir el valor (clasificación, regresión)  Muy costoso
4
Técnicas de filtro: Depuración
Detección de Outliers

Para la detección y eliminación outliers se suelen aplicar
técnicas de agrupamiento (clustering):



WEKA ClusterersSimplekMeans
WEKA ClusterersEM
K-Means
EM (Expectation Maximization)
Procedimiento:
Agrupar en clusters y eliminar clusters poco densos y/o
lejanos
5
Técnicas de filtro: Transformación
Normalización

Trasforma el rango de valores a un intervalo determinado
(normalmente [0,1])
Valor  Min
ValorNorm 
Max  Min


Es necesario si se van
an a aplicar algoritmos de aprendi
aprendizaje
aje
basados en distancias para que todos los atributos estén en el
mismo rango.
WEKA: FiltersUnsupervisedAttributeNormalize
6
Técnicas de filtro: Transformación
Estandarización


Transforma los valores de los atributos para que
tengan media 0 y desviación 1
Sólo si la distribución es normal
Valor  Media
ValorEst 
Desviación

WEKA: FiltersUnsupervisedAttributeStandardize
7
Técnicas de filtro: Nuevos atributos

Se trata de añadir nuevos atributos aplicando
una expresión matemática a atributos ya
existentes en el conjunto de datos.
Ej
Ejemplo:
l
sepalArea = sepallength x sepalwidth

WEKA: FiltersUnsupervised
p
AttributeAddExpresion
p
8
Técnicas de filtro: Discretización

Hay algoritmos de aprendizaje que sólo operan con atributos
discretos  Transformación de atributos continuos a
discretos (rango finito de valores).

Consiste en dividir el rango de valores continuos en un
conjunto
co
ju o finito
o de intervalos
e a os (o co
cortes).
es) Ejemplo:
je p o
Notas [0,10]{Suspenso, Aprobado, Notable, Sobresaliente}

No Supervisado:




Igual Anchura: k intervalos de igual anchura
Igual Frecuencia: k intervalos de N/k valores cada uno
WEKA: UnsupervisedAttributeDiscretize
Supervisado: Fayyad e Irani, Kononenko, 1Rule, USD
9
Técnicas de filtro: Discretización

Fayyad e Irani: Basados en criterios de entropía mínima y
longitud de decripción mínima (MDL)
“La mejor
j descripción
p
del conjunto
j
de datos es la q
que minimiza la
longitud de la descripción de todo el conjunto de datos”
U.M. Fayyad,
yy , K.B. Irani. “Multi-Interval Discretization of Continuous-Valued
Attributes for Classification Learning”. XIII International Joint Conference on
Artificial Intelligence, pp. 1022-1029, France, 1993
Los puntos
L
t de
d corte
t serán
á aquellos
ll que fformen b
barreras entre
t clases
l
después de ordenar los valores de las características continuas

WEKA: Filters: SupervisedAttributeDiscretize
(Use Kohonenko = false)
10
Técnicas de filtro: Discretización

1Rule: Clasificación como discretización
R.C. Holte, “Very simple classification rules perform well on most
commonly
l used
dd
datasets”,
t
t ” M
Machine
hi L
Learning,
i
V
Vol.
l 11
11, pp. 63
63-91,
91 1993
1993.
Idea Algoritmo: Para cada atributo:
 Ordena los valores
 Recorre el conjunto de datos estableciendo cortes que
cumplan:



Hay al menos una clase óptima para más de un número mínimo
(SMALL) de valores en el intervalo. (Esta restricción no se
aplica al último intervalo).
Un intervalo no puede tener la misma clase óptima que el
intervalo o valor inmediatamente anterior o posterior.
WEKA: Classify: RulesOneR
11
Técnicas de filtro: Discretización

USD (Unparametrized Supervised Discretization) :
Raúl Giráldez et al. Discretization Oriented to Decision Rule Generation (KES).
IOS Press,
P
pp.275-279,
275 279 2002

Intervalos g
generados: Debe obtener un conjunto
j
finito de
intervalos disjuntos para cada atributo continuo que cubra todo el
rango de valores.

Precisión: El error introducido por la discretización debe ser
mínimo  Discretización Supervisada.

Número de intervalos: A menor número de intervalos, menor
será el espacio de búsqueda.
búsqueda

Eficiencia: El método debe ser de un coste computacional
reducido
.
12
Técnicas
é
de ffiltro: Discretización
ó


Inicialización: Cortes básicos maximizando el nivel de p
pureza.
Refinamiento: Une intervalos adyacentes si la bondad de la unión es
mayor que la bondad media de los intervalos participantes.
IInicialización
i i li ió
Inicialización
Refinamiento
1ª Iteración
Refinamiento
Ejemplo
13
Ejercicio



Discretización del ozono en 3 etiquetas que
correspondan con ozono bajo, ozono medio y
ozono alto
Discretización del ozono en 4 etiquetas que
correspondan con ozono bajo,
bajo ozono medio,
medio
ozono alto y ozono muy alto
Analizar las dependencias entre el ozono y las
otras variables


¿Cuáles son las variables más influyentes en el
ozono?
De dichas variables, ¿
¿cuáles son los rangos
g de
valores que más afectan?
14
Descargar