1 Tasa de error 2 Hold-out 3 Hold

Anuncio
UNIVERSIDAD DE COSTA RICA
MAESTRÍA ACADÉMICA EN BIOINFORMÁTICA Y
BIOLOGÍA DE SISTEMAS
MINERÍA DE DATOS PARA BIOINFORMÁTICA
PF-5028
Laboratorio 5
1 Tasa de error
El desempeño de un algoritmo de minería de datos sobre el conjunto de entrenamiento (training )
no es un buen estimador del error de dicho algoritmo en datos nuevos. En el caso particular de
clasicación, es natural medir el desempeño del clasicador en términos de la tasa de error. La tasa
de error consiste en considerar como un éxito cuando una instancia es clasicada correctamente,
y como un error en caso contrario. Así, la tasa de error se dene como la proporción de errores
sobre el número total de instancias.
E=
|{errores}|
|{instancias}|
(1)
2 Hold-out
Cuando la cantidad de muestras para utilizar en el algoritmo de minería de datos es grande,
entonces se reducen los problemas de lograr obtener una muestra más representativa de la población
bajo estudio, reduciendo así el error obtenido en el proceso. El mayor problema se presenta cuando
la cantidad de datos a utilizar es reducida, por ello algunas técnicas son utilizadas para estimar
a partir de un proceso de entrenamiento y prueba (training y testing ), el error de clasicación en
datos desconocidos (propiedad de generalización).
Hold-out En este método se reserva una cantidad para entrenamiento, y otra para prueba. De
ser necesario una parte para validación, lo cual implica un ajuste de los parámetros aprendidos. Comúnmente en este método, se selecciona aleatoriamente la muestras que van a cada
subconjunto.
Utilice el método de hold-out para realizar la clasicación de los datos de iris.data. Utilice al
menos dos métodos de clasicación distintos. Describa con detalle el procedimiento seguido.
3 Hold-out con Stratication
Si se tiene mala suerte, las muestras que representan cada clase en cada subconjunto (testing,
training) no estarán uniformemente representadas, con lo cual el algoritmo de clasicación (u otro)
no será capaz de generar funciones adecuadas de particionamiento. Para evitar este problema, se
utiliza stratication.
Stratication Consiste en muestrear apropiadamente los datos para garantizar que cada clase
será bien representada en la muestra que se utilizará para el algoritmo de minería de datos.
1
UNIVERSIDAD DE COSTA RICA
MAESTRÍA ACADÉMICA EN BIOINFORMÁTICA Y
BIOLOGÍA DE SISTEMAS
MINERÍA DE DATOS PARA BIOINFORMÁTICA
PF-5028
Laboratorio 5
Utilizando los mismos dos métodos de clasicación anteriores, aplique stratication y compare
los resultados obtenidos con aquellos de las sección anterior.
4 Cross-Validation
La stratication provee únicamente un mecanismo muy básico para evitar los problemas de muestreo,
por lo que una forma más robusta y general es requerida. Por ejemplo, utilizando el método de
repeated hold-out, en donde se repite todo el procedimiento de entrenamiento y de prueba varias
veces utilizando distintas muestras aleatorias. En cada iteración una proporción de datos se utiliza
para entrenamiento y el resto para prueba. Esto permite obtener una estimación de la tasa de
error más precisa.
Cross-Validation Consiste en una variación del método repeated hold-out, en la cual se predeter-
mina un número jo de particiones de los datos K , luego los datos son divididos de manera
aproximadamente igual en este número de particiones, y en cada iteración k de K , cada
partición es utilizada para prueba y el resto para entrenamiento.
Utilizando los mismos dos métodos de clasicación anteriores, aplique cross-validation para 3,
5, 10 y 20 particiones, y compare los resultados obtenidos con aquellos de las sección anterior.
5 Cross-Validation con Stratication
Cross-Validation con Stratication Consiste en aplicar conjuntamente los métodos de crossvalidation y stratication.
Utilizando los mismos dos métodos de clasicación anteriores, aplique cross-validation con stratication para 3, 5, 10 y 20 particiones, y compare los resultados obtenidos con aquellos obtenidos
anteriormente.
Finalmente, utilizando los datos de imágenes de cáncer repita todos los experimentos anteriores,
compare con los obtenidos con iris.data y concluya.
2
Descargar