an study comparative among machine learning

Anuncio
An study comparative among machine learning algorithms for professional orientation
AN STUDY
COMPARATIVE
AMONG MACHINE
LEARNING
ALGORITHMS FOR
PROFESSIONAL
ORIENTATION
Rocío Rodríguez Guerrero, Jorge
Enrique Rodríguez Rodríguez*
ABSTRACT
In this paper we show an study comparative among
different machine learning techniques: decision trees,
neural networks and bayesian methods. We used a
dataset where we show development of professional
orientation; which is a structured process of support
directed to people in uncertainty about their
vocational behavior; with the purpose of supporting
the taking of decisions with regard to the election of a
professional degree.
Keywords
Decision tree, neural networks, bayesian network,
machine learning and professional orientation
1 INTRODUCCIÓN
El proceso de orientación profesional conlleva al
desarrollo de pruebas vocacionales, en las cuales se
busca que el estudiante se conozca a si mismo,
explore sus cualidades y se relacione con las diversas
áreas del conocimiento que le permitan definir un
perfil profesional específico adecuado. Cuanto más
temprana sea la etapa de la vida escolar en que se
inicie este proceso, más adecuados serán los
resultados [1]. Para ayudar a los jóvenes a tomar una
decisión, los orientadores profesionales utilizan
diferentes pruebas psicológicas, y han diseñado
algunos modelos formales y no formales que miden
la capacidad de decisión del individuo y evalúan su
habilidad en dicho proceso. No obstante, las medidas
resultantes son exploratorias y limitadas, y no tienen
la última palabra: son sólo instrumentos que ayudan a
interpretar la relación entre el estilo de vida y el
entorno de vida del estudiante [2].
*
Manuscript received April 2010. This work was supported
in part by the Universidad Distrital “Francisco José de
Caldas”. Rodríguez Rocio is director of Parallel Computing
Research Group, Universidad Distrital “Francisco José de
Caldas (e-mail: [email protected]). Rodríguez
Jorge is member of Artificial Intelligence Research Group,
Universidad Distrital “Francisco José de Caldas – Colombia
(e-mail: [email protected]).
El problema de orientación profesional es abordado
en este artículo con tres técnicas que en aprendizaje
computacional han demostrado ser útiles cuando se
trata de estimar valores se trata, estas son: árboles de
decisión C4.5, red naïve bayes y una red neuronal con
conexión hacia adelante. Con estas técnicas se
pretenden medir la efectiva y su complejidad
computacional con el fin de sugerir la técnica más
adecuada para este problema.
El artículo se encuentra estructurado en: - El proceso
que se sigue en la orientación profesional. Referentes teórico acerca de árboles de decisión C4.5,
redes neuronales artificiales, especificando en redes
con conexión hacia adelante y el algoritmo de
entrenamiento de retropropagación, y la red naïve
bayes. - Análisis de pruebas y resultados con el fin de
medir la efectividad y la complejidad computacional
de las técnicas en mención. - Conclusiones producto
de la comparación entre las técnicas de aprendizaje
computacional. – Trabajos futuros del área en
estudio.
2. ¿CÓMO SE LLEVA A CABO EL
PROCESO DE ORIENTACIÓN
PROFESIONAL?
Habitualmente factores como el desconocimiento de
las habilidades y capacidades propias, la falta de
conocimiento sobre el mercado laboral y la ausencia
de experiencia laboral, son algunos de los factores
que conducen a una orientación vocacional (el
proceso de asistencia individual para la selección de
una ocupación, preparación para la misma, inicio y
desarrollo en ella) desajustada. Se estima que un
conocimiento adecuado de esta dimensión de la
motivación humana permite predecir el monto de
satisfacción que una persona experimentará en el
desempeño de una ocupación [3]. Es por ello que
expertos
han
planteado
enfoques
teóricos
acompañados de pruebas vocacionales dirigidos a
orientar este proceso, a continuación se examinarán
algunos de interés para el presente artículo.
2.1 La Teoría de las Inteligencias
Múltiples
Esta teoría propuesta por Howard Gardner presenta
un modelo alternativo a la concepción unitaria de la
inteligencia, propone un conjunto de potenciales
biopsicológicos
(lingüística,
lógica-matemática,
espacial, musical, corporal-cenestésica, intrapersonal,
interpersonal) para analizar información que pueden
ser activados en un marco cultural y que permiten
resolver problemas o crear productos valiosos en su
medio cultural. Este enfoque teórico tiene numerosas
implicancias educacionales [5]. En el terreno de la
Orientación Vocacional, específicamente, se lo ha
propuesto como modelo de trabajo para los
orientadores, quienes podrían considerar los patrones
individuales en múltiples inteligencias para asesorar a
sus clientes en sus planes de carrera [6].
2.2 La Teoría Factorial Vista como una
Variedad de Habilidades Intelectuales
An study comparative among machine learning algorithms for professional orientation
John P. Guilford, propone varios tipos de inteligencia
y es posible conceptualizarlas como un modelo
factorial en el que existe una gran variedad de
habilidades intelectuales, que si bien están vinculadas
entre sí, poseen características distintivas. Este
enfoque propone un modelo tridimensional, según el
cual cada tarea intelectual se puede clasificar de
acuerdo con su contenido, con la operación mental
implicada y con el producto que resulta de la
operación. El modelo genera un total de 180 factores
determinados por habilidades independientes [7].
Guilford establece una batería integrada de pruebas
de orientación, elaboradas con el fin de ofrecer un
procedimiento integrado, científico y bien
estandarizado para medir las aptitudes de los alumnos
de ambos sexos de los ciclos básico y especializado
de la enseñanza secundaria, para fines de orientación
educacional y vocacional.
La batería de pruebas de aptitudes diferenciales,
incluye las siguientes: razonamiento Verbal (VR),
aptitud Numérica (NA), razonamiento Abstracto
(AR), relaciones Espaciales (SR), razonamiento
Mecánico (MR), y rapidez y Precisión Perceptivas
(CSA).
2.3 Formulario
de
Profesionales (FIP)
Intereses
Es importante resaltar que la orientación vocacional
no es una actividad ocasional o de última hora, sino
un proceso que involucra un seguimiento del
estudiante durante varios años.
Esta prueba tiene como objetivo indicar al estudiante
el área profesional hacia la cual apuntan sus intereses.
No evalúa conocimientos, y por tanto, no hay
respuestas buenas ni malas; la correcta será aquella
que mejor refleje el tipo de actividades que prefiere
desarrollar el estudiante, sus aficiones. De ahí que se
requiera la mayor sinceridad posible a la hora de
responder este cuestionario.
Esta prueba comprende ocho áreas profesionales,
agrupadas de la siguiente forma: Ciencias
Económicas, administrativas y del Mercadeo,
Ciencias Humanísticas y de investigación de la
Cultura, Ciencias de la Salud y del Servicio Social,
Ciencias Exactas y Naturales aplicadas a la
Investigación de la Salud y de la Alimentación,
Administración e Investigación de las Ciencias
Agropecuarias, Ciencias Exactas y Naturales
aplicadas a la Tecnología, Áreas Artísticas, y
Investigación en Ciencias Exactas.
3. TÉCNICAS DE APRENDIZAJE
COMPUTACIONAL
3.1 Árboles de decisión
Un árbol de decisión es un diagrama de flujo, con
estructura de árbol, en donde los nodos internos
representan validaciones sobre los atributos, las
ramas representan las salidas de las validaciones, y
los “nodos hoja” representan las clases. El nodo en la
parte superior del árbol se le conoce como nodo raíz.
Un ejemplo típico de un árbol de decisión se muestra
en la figura 1, que representa el concepto de comprar
computadoras, el modelo predice si un cliente
comprará o no una computadora en AllElectronics.
En la figura los nodos internos están denotados por
rectángulos, mientras que los “nodos hoja” están
denotados por óvalos [8].
Figura 1. Árbol de Decisión para la compra de computadoras [9]
El algoritmo que se empleó en el actual trabajo, es
C4.5, que es la versión definitiva, presentada por su
autor él Australiano Ross Quinlan [10], este
algoritmo representa el clasificador como un árbol,
usa la técnica de búsqueda de Greedy, puede
procesar datos categóricos y numéricos, maneja
Inicio
R: conjunto de grupos no clasificadores,
C: atributo clasificador
instancias ponderadas por peso, compara el error
estimado para un conjunto de hojas hijas todas de un
mismo nodo, y maneja el error estimado para el padre
en caso de podar sus hojas, el seudocodigo del
algoritmo se ilustra en la tabla 1:
An study comparative among machine learning algorithms for professional orientation
S: conjunto de entrenamiento, devuelve un árbol de decisión
Inicio
Si S esta vacio,
Devolver un único nodo con valor Falla;
‘para formar el nodo raíz
Si todos los registros de S tienen el mismo valor para el atributo clasificador
Devolver un único nodo con dicho valor
‘un único nodo para todos
Si R está vacio
Devolver un único nodo el valor más frecuente del atributo Clasificador
En los registros de S[ Nota: habrá errores, es decir, Registros que no estén bien clasificados en este caso] ;
Si R no está vacio
D← atributo con mayor Proporción de Ganancia (D,S) entre los atributos de R;
Sean {dj | j=1,2,……..,m} los valores del atributo D;
Sean {dj | j=1,2,……..,m} los subconjuntos de S correspondientes a los valores
de dj respectivamente;
Devolver un árbol con la raíz mas nombrada como D y con los arcos nombrados d1,d2,………,dm, que van
respectivamente a los árboles
C4.5(R-{D},C, S1), C4.5(R-{D},C,S2), C4.5(R-{D},C, Sm);
Fin
Tabla 1. Algoritmo del árbol C4.5 [10]
El algoritmo J4.8 es la implementación en WEKA
(Entorno para el Análisis de Conocimiento de
Waikato) del algoritmo C4.5, la cual fue la última
versión pública de esta familia de algoritmos,
posteriormente apareció la primera implementación
comercial, es decir, el algoritmo C5.0.
bayesiana se puede definir como un grafo dirigido
acíclico
que
representa
el
conocimiento
cualitativamente, mediante la independencia o
dependencia de los atributos, representando su fuerza
a través de distribuciones de probabilidad. Cabe
resaltar que el modelo presentado (figura 2) solo
especifica el clasificador más simple de todos, el
Naïve Bayes. En este clasificador se toma por cierto
la supuesta independencia entre las variables o
atributos, y aunque esto es bastante serio y riesgoso,
en algunos casos se ha comprobado su eficacia
comparándolo con árboles de decisión, redes
neuronales, etc. En este todos los atributos
independientes tienen como nodo padre a la clase
conocida, entonces, solo es necesario poseer el
conjunto de probabilidades con respecto a esta, y se
genera la red.
3.2 Redes bayesianas
Los métodos bayesianos han sido utilizados en la
solución de problemas de inteligencia artificial; de las
ventajas que tiene esta técnica en comparación a las
otras es el manejo de la incertidumbre, soportado por
la teoría de la probabilidad y que en Minería de Datos
resulta muy útil. Estos métodos suministran un
camino para incorporar información externa en el
proceso de análisis de datos, es decir, cambian
completamente la visión del proceso de análisis de
datos con respecto al enfoque clásico [11]. Una red
Clase
Atributo
Atributo
Atributo
Figura 2 Topología de un clasificador Naïve Bayes [12]
Construcción del clasificador Naïve Bayes. El primer
paso para rellenar valores faltantes es construir la red
bayesiana, en este caso el clasificador Naïve Bayes.
La independencia entre atributos puede ser algo
arriesgado, pero se ha demostrado la efectividad de
este clasificador. La idea del Naïve Bayes radica en
tener una estructura fija, en donde el único nodo
padre es la clase (que se tiene que conocer), y sus
hijos son los demás atributos (atributos
independientes). Es decir, aprender los parámetros
(distribuciones de probabilidad) de la siguiente
forma: de acuerdo a la hipótesis de independencia
que asume este clasificador la tabla de probabilidad
P(A1, A2,….., An|c), donde la A representa los
atributos, y c representa la clase, se factoriza y
quedan n tablas de probabilidad, una para cada
atributo de la forma P(Ai|c). De tal manera que hay
que estimar la tabla de probabilidad para cada
atributo y la distribución a priori de la variable clase
P(c). Como se trabajan dos tipos de atributos,
nominales y numéricos, existen diferentes métodos
para estimar las distribuciones.
- Estimación de probabilidades para atributos
nominales. El cálculo de la tabla de probabilidad
condicional para atributos nominales, se realiza por el
método de sucesión de Laplace; que se basa en las
frecuencias de aparición en la base de datos.
An study comparative among machine learning algorithms for professional orientation
La ley de la sucesión de Laplace se muestra en la
ecuación 1, esta representa el número de casos
favorables del valor del atributo más uno, dividido
por el número de casos totales más el número de
valores posibles de la clase. Este método tiene una
ventaja sobre otros y es que no sobreajusta tanto a los
P ( xi | Pa ( xi )) =
datos, por ejemplo como el método de máxima
verosimilitud. Todas las combinaciones posibles
tienen asignada una distribución de probabilidad
mínima; con esto no se descarta ningún valor con el
que se puede rellenar.
n( xi , Pa ( xi )) + 1
n( Pa ( xi ))+ | Ωxi |
La estimación de la probabilidad a priori de la clase,
se determina realizando el conteo de cada clase y
dividiéndolo por el número total de instancias.
- Estimación de probabilidades para atributos
numéricos. La estimación de probabilidades para el
trabajo con atributos numéricos, está basada en el tipo
de función de distribución de probabilidad del
conjunto de datos. Comúnmente se trabaja con seis
funciones de distribución de probabilidad, estas son:
Normal, Gamma, Beta, Cauchy, Exponencial y
Lognormal.
3.3 Redes neuronales multicapa
feedforward (redes con conexión
hacia adelante)
Una red neuronal artificial consiste de un conjunto
simple de unidades de proceso, comunicadas para
enviar señales a cada unidad a través de un alto
número de conexiones [13]. El algoritmo de
retropropagación realiza su aprendizaje sobre una red
neuronal feedforward. Las entradas corresponden a
los atributos medidos para cada ejemplo de
entrenamiento, estas son enviadas simultáneamente a
un grupo de unidades, las cuales constituyen la capa
de entrada, los pesos generados en esta capa, son
enviados simultáneamente a la segunda capa,
conocida como capa oculta. Los pesos generados en
la capa oculta pueden ser enviados a otra capa oculta,
y así sucesivamente. El número de capas ocultas es
arbitrario, sin embargo, en la práctica, usualmente
sólo se utiliza una. Los pesos generados en la última
capa oculta son las entradas de la capa de salida, la
cual genera la predicción de clase para los ejemplos
ingresados. En una red feedforward ninguno de los
pesos de salida vuelve a la capa de entrada o a una
unidad anterior a la capa actual. Si es totalmente
(1)
conectada, cada unidad provee una salida a cada
unidad en la siguiente capa.
¿Cómo diseñar la topología de una red neuronal?.
Antes de que el entrenamiento pueda comenzar, el
usuario debe decidir cual es la topología de la red,
especificando el número de unidades de la capa de
entrada, el número de capas ocultas, el número de
unidades en cada capa oculta y el número de unidades
en la capa de salida.
La normalización de los valores de entrada para cada
atributo medido en los ejemplos de entrenamiento,
ayudará a optimizar la velocidad en la fase de
entrenamiento. Normalmente, si el dominio de un
atributo A es {a0, a1, a2}, entonces debemos asignar
tres unidades de entrada para poder representar A.
Esto es, podemos tener I0, I1, I2 como unidades de
entrada. Cada unidad es inicializada en 0. Si A = a0
entonces I0 es colocado en 1. Si A = a1, I1 es colocado
en 1 y así sucesivamente. Una unidad de salida puede
ser usada para representar dos clases (donde el valor
de 1 representa una clase y el valor de 0 representa la
otra). Si hay más de dos clases, entonces una unidad
de salida debe ser usada por cada clase. No existen
reglas exactamente definidas como las "mejores" para
el número de capas ocultas.
¿Cómo trabaja el algoritmo de retropropagación?.
Este algoritmo (figura 3) aprende procesando
iterativamente un conjunto de ejemplos de
entrenamiento, comparando la predicción de la red
para cada ejemplo con la clase real de dicho ejemplo
(ya conocida). Para cada ejemplo de entrenamiento,
los pesos son modificados para minimizar el error
medio cuadrático entre la predicción y la clase real.
Estas modificaciones son hechas en dirección hacia
atrás, es decir, desde la capa de salida, hacia cada
capa oculta llegando hasta la primera capa oculta (de
aquí el nombre backpropagation). Sin embargo, esto
no es garantía, en general los pesos convergirán, y el
proceso
de
aprendizaje
termina.
An study comparative among machine learning algorithms for professional orientation
Seleccionar pesos aleatoriamente wki (1<=k<=i, 1<=i<=N)
Seleccionar un vector de entrada Xi (1<=i<=N)
Calcular el valor(s) de la capa de la salida propagando el vector de la entrada a través
de la red (Feedforward)
Calcular el vector de diferencia entre el valor (s) de salida y el valor (s) empírico
dado en el conjunto de datos
Recalcular los valores de todos los vectores de pesos wk aplicando la regla de
aprendizaje Backpropagation
Fin
¿Se han procesado
todos los vectores
de entrada?
Si
No
Figura 3 Algoritmo de Retropropagación
4. ANÁLISIS DE PRUEBAS
RESULTADOS
30% restante para pruebas (se emplea validación
cruzada).
Este
porcentaje
se
selecciona
aleatoriamente para que la técnica pueda tomar la
mayor combinación posible.
Y
Para el entrenamiento de las técnicas se recopiló 1000
instancias, el 70% se asignó al entrenamiento y el
4.1 Naïve Bayes
Matríz de confusión
A
B
C
64
0
0
0
D
E
F
G
H
I
Å
clase
0
0
0
0
0
3 0
A
=
Lingüística
90
6
0
0
0
0
8 0
B
=
Lógica Matemática
2
102
7
0
0
0
9 0
C
=
Espacial
0
0
2
93
9
0
0
8 0
D
=
Musical
0
0
0
5
103
9
0
9 0
E
=
Interpersonal
0
0
0
0
3
106
8
9 0
F
=
Cinestesica Corporal
0
0
0
0
0
3
104
19 0
G
=
Intrapersonal
0
0
0
0
0
0
12
207 0
H
=
Naturalista
0
0
0
0
0
0
0
0 0
I
=
Interpretación
Instancias correctas
Instancias incorrectas
869
131
86.9%
13.1%
Complejidad computacional: O (DMNT), donde D es
el número de árboles, M número de instancias, N
número de variables (atributos), y T el número de
valores que toma cada atributo.
4.2 Red Neuronal con conexión hacia adelante
An study comparative among machine learning algorithms for professional orientation
Matríz de confusión
A
B
C
D
E
F
G
H
I
Å
Clase
58
1
1
0
0
1
0
6 0
A
=
Lingüística
2
100
2
0
0
0
0
0 0
B
=
Lógica Matemática
0
8
100
0
9
0
3
0 0
C
=
Espacial
0
4
8
22
31
24
23
0 0
D
=
Musical
0
0
0
20
42
35
29
0 0
E
=
Interpersonal
0
0
0
14
32
50
30
0 0
F
=
Cinestesica Corporal
0
0
1
14
34
29
47
1 0
G
=
Intrapersonal
1
0
0
0
0
0
0
218 0
H
=
Naturalista
0
0
0
0
0
0
0
0 0
I
=
Interpretación
Instancias correctas
Instancias incorrectas
637
363
63.7%
36.3%
por el número de neuronas, el número de pesos, el
número de instancias y la cantidad de épocas de
entrenamiento. Se deja al lector el determinar esta
complejidad.
Complejidad computacional: la complejidad de una
red neuronal con conexión hacia adelante está dado
4.3 Árbol C4.5
Matriz de confusión
A
B
C
D
E
F
G
H
I
Å
Clase
67
0
0
0
0
0
0
0 0
A
=
Lingüística
0
103
1
0
0
0
0
0 0
B
=
Lógica Matemática
0
0
119
1
0
0
0
0 0
C
=
Espacial
0
0
0
111
1
0
0
0 0
D
=
Musical
0
0
0
0
125
1
0
0 0
E
=
Interpersonal
0
0
0
0
0
125
1
0 0
F
=
Cinestesica Corporal
0
0
0
0
0
0
125
1 0
G
=
Intrapersonal
0
0
0
0
0
0
0
219 0
H
=
Naturalista
0
0
0
0
0
0
0
0 0
I
=
Interpretación
Instancias correctas
Instancias incorrectas
994
6
99.4%
0.6%
4.4 Resultados
En las tres matrices se observa que en promedio la
clase que aprende mejor cada una de las técnicas es
NATURALISTA, la razón puede estar en que para
esta clase existe el mayor número de instancias (en
total 219). Sin embargo, esta misma tendencia no se
mantiene para la clase con el menor número de
instancias (sin incluir la clase sin instancias
“INTERPRETACIÓN”).
Complejidad computacional: O (nm2) donde m es
número de niveles del árbol (atributos), y n representa
el número de instancias.
La técnica de redes neuronales presentó la menor
efectividad en la clasificación, este hecho se debe a
que el procedimiento empleado por la red neuronal
deja al azar los pesos iniciales. Para aumentar la
efectividad de este tipo de redes se sugiere emplear
heurísticas en la inicialización de pesos.
En la tabla 2, se puede apreciar la interpretación (área
profesional) de las instancias relacionadas.
Pruebas
IAIM
Personas
DAT
FIP
INTERPRETACIÓN
An study comparative among machine learning algorithms for professional orientation
1
Razonamiento
verbal
Ciencias de la salud
y servicio social
Ciencias de la salud y servicio
social
Rapidez y
precisión
perceptivas
Áreas artísticas
Áreas artísticas
2
Cinestésicacorporal
Musical
3
Lingüística
Razonamiento
verbal
Ciencias
humanísticas y
investigación de
cultura
Ciencias humanísticas
investigación de cultura
4
Naturalista
Razonamiento
mecánico
Admón. E
investigación de
ciencias
agropecuarias
Admón. e investigación de
ciencias agropecuarias
5
Cinestésica
corporal
Razonamiento
verbal-aptitud
numérica
Ciencias económicas
administrativas del
mercado
Ciencias económicas
administrativas del mercado
Tabla 2. Muestra de Interpretación
5 CONCLUSIONES
Las técnicas utilizadas para el entrenamiento pueden
variar en complejidad y eficiencia, lo que conlleva a
que se tenga que establecer diferentes criterios para
poder estimar cuales y porque son las más eficientes.
Entre los criterios más relevantes se pueden
establecer el costo computacional, la exactitud de la
técnica, las restricciones de esta, y su complejidad a
la hora de implementarla.
El análisis de pruebas y resultados muestra la
confiabilidad de las técnicas, ya que se logro
coherencia con las estimaciones hechas por los
psicólogos, esto debido a la veracidad de las
instancias con que cada una de las técnicas se
entrenó; ofreciendo así la oportunidad de utilizar el
conocimiento de los psicólogos.
Como se aprecia la técnica con mayor efectividad en
este problema son los árboles de decisión, esto no
implica que siempre los árboles sean más efectivos
que las redes neuronales y los métodos bayesianos,
dado que existen características en los problemas que
hacen que una técnica aunque en teoría sea efectiva,
no lo puede ser para ciertos problemas.
6 TRABAJOS FUTUROS
Como trabajos futuros se espera implementar un
software que solucione el problema en referencia, a
través de técnicas de aprendizaje computacional
incrementa, el cual según referentes teóricos requiere
un menor costo computacional sin reducir la
efectividad.
7 REFERENCIAS
[1] MEJÍA, María de los Ángeles. Escoja bien su
carrera. Bogotá: Intermedio. Cáp.1, 2000.
[2] RODRIGUEZ Moreno, M. L. Orientación e
intervención
psicopedagógica.
Barcelona:
Barcanova.1995.
[3] BARAK, A. Vocational Interests: A cognitive
view. Journal of Vocational
Behavior. 19 (1). 1981.
[4] FITCH, J. “Vocational guidance in action”
Columbia University Press New York. 1935.
[5] PÉREZ, E., BELTRAMINO, C, CUPANI, M.
Inventario de Auto eficacia para Inteligencias
Múltiples: Fundamentos Teóricos y Estudios
Psicométricos.Laboratorio de Evaluación Psicológica
y Educativa. Facultad de Universidad Nacional de
Córdoba (Argentina). ISSN N º1667-4545. 2003.
Consulta
en
línea
http://www.revistaevaluar.com.ar/33.pdf.
[6] SHEARER, B. The Application of Multiple
Intelligences Theory to Career Counseling. Paper
presented in the annual meeting of the American
Educational Research Association. Montreal.1999.
An study comparative among machine learning algorithms for professional orientation
[7] GUILFORD JP. Intelligence: 1965 model. Am
Psychol 1966.
[8] FRANK, E. Data Mining: Practical machine
learning tools and techniques with java
implementations. San Francisco: Morgan Kaufmann
Publishers. 2000.
[9] HAN, J. and KAMBER, M.. Data Mining:
Concepts and Techniques. Morgan Kaufmann, 2000.
[10] QUINLAN, J.R. C4.5: Program For Machine
Learning. Edit. Morgan Kaufmann, San Mateo, CA.,
1993.
[11] BERTHOLD, M. and HAND, D. Intelligent
Data Analysis “An Introduction”. USA: Springer,
2002.
[12] HERNANDEZ, J., RAMIREZ, M., y FERRI, C.
Introducción a la Minería de Datos. España: Prentice
Hall, 2004.
[13] KRÖSE, B. and SMAGT, P. An Introduction to
Neural Network. Holland: The University of
Amsterdam, 1996. p. 15 – 17
Descargar