4º parte - Junta de Castilla y León

Anuncio
DATA MINING EN ECONOMÍA. UNA APLICACIÓN AL COMERCIO EXTERIOR.
Mauricio BELTRÁN PASCUAL
Junta de Castilla y León, Consejería de Hacienda, D.G. de Estadística
Email: mauriciobeltrá[email protected]
Catalina BOLANCÉ LOSILLA
Departamento de Econometría, estadística y economía española; Facultad de Ciencias
Económicas y Empresariales. Universidad de Barcelona
Email: [email protected]
Alex COSTA SÁENZ DE SAN PEDRO
Responsable de Área de Estadísticas Económicas
Instituto de Estadística de Catalunya
Email: [email protected]
Montserrat GUILLEN ESTANY
Departamento de Econometría, Estadística y Economía Española
Universidad de Barcelona
Email: [email protected]
Resumen:
En la sociedad actual, que muchos han denominado sociedad de la información, se
genera una ingente cantidad de datos que no siempre pueden tratarse a través de métodos
estadísticos convencionales. Las técnicas y algoritmos incluidos en Data Mining (minería de
datos) tienen como objetivo descubrir estructuras subyacentes en los datos y detectar patrones,
perfiles y tendencias significativas ocultas en los mismos.
El Data Mining, en el ámbito de los negocios, responde a múltiples preguntas, como por
ejemplo: quiénes son mis mejores clientes, cómo aumentar la cuota de mercado o cómo
conseguir clientes fieles.
En este trabajo se precisa el concepto de Data Mining y sus aplicaciones en el campo
económico. También se ofrece una breve descripción de las principales técnicas que se engloban
en Data Mining: reglas de asociación, redes neuronales, árboles de decisión, algoritmos
genéticos, etcétera.
Por último, aplicando el algoritmo a priori a datos de comercio exterior se obtienen
diferentes reglas de asociación entre distintos productos. La importancia comercial de estas
asociaciones de productos es muy interesante en el sentido de que, al poderse establecer en qué
países se están produciendo estas asociaciones y en qué países no, se está en condiciones de
mejorar las estrategias comerciales lo que, sin duda, implicará un aumento de las exportaciones.
1. Conceptos y definiciones de Data Mining.
La gran cantidad de datos que se crean en las actividades que desarrollamos como seres
humanos se encuentran almacenados en grandes bases datos y se multiplican rápidamente. Esto
es cierto para casi todos los sectores de la actividad pero, aún es más cierto, en las empresas
tanto públicas como privadas, locales o multinacionales. Sin embargo, se puede afirmar que este
incremento espectacular de datos almacenados no ha supuesto un significativo aumento de la
información disponible para la empresa (el bosque no deja ver los árboles) ni, en general, se ha
traducido en un incremento de la rentabilidad de las compañías.
1
Con el objetivo de optimizar todo el conocimiento existente en la información disponible,
hay que utilizar un conjunto de técnicas que se han resumido en la literatura en el concepto de
minería de datos o Data Mining.
El término Data Mining engloba un conjunto de algoritmos con un objetivo común,
identificar de una forma automática patrones que proporcionen información relevante y útil
contenida en una gran cantidad de datos. La minería de datos es una parte de un proceso más
general que se denomina Descubrimiento de conocimiento en las bases de datos (Knowledge
Discovery in Databases o KDD), concepto que proviene de la inteligencia artificial, si bien, en
la mayor parte de la bibliografía sobre el tema el concepto de Data Mining toma el significado
global del proceso.
Una definición más general de la minería de datos es referirse a ella como la extracción no
trivial de la información implícita, previamente desconocida y potencialmente útil, a partir de
los datos. El Data Mining siempre intenta descubrir los patrones, perfiles y tendencias presentes
y significativas ocultas en los datos trabajando con tecnologías de reconocimientos de patrones,
como las redes neuronales, máquinas de aprendizaje, algoritmos genéticos, etcétera.
El Data Mining puede dar respuesta a múltiples preguntas vitales que se plantean muy a
menudo en los negocios: ¿quiénes son mis mejores clientes y cómo puedo fidelizarlos ?, ¿qué
estrategias puedo diseñar para aumentar mi cuota de mercado?, ¿cómo optimizar mi inventario?,
¿quiénes son los visitantes de mi sitio Web?, y otras muchas más preguntas importantes
relativas al mundo de la gestión empresarial.
La relaciones del Data Mining con la estadística, la inteligencia artificial y las bases de
datos son evidentes. Muchos de sus algoritmos, procedimientos, técnicas y metodología son
iguales en esencia, aunque, muchas veces, se denominen con otros nombres. No obstante, el
Data Mining presenta características útiles e interesantes que lo hacen atractivo. De forma
general, se puede afirmar que para la resolución de problemas, muy a menudo complejos, se
utilizan varios procedimientos dada la complementariedad de las técnicas en la solución de los
mismos.
La importancia del Data Mining se pone de manifiesto al echar un vistazo, desde varias
perspectivas, a los movimientos que se observan. Desde que se celebró el primer congreso
dedicado a este campo del conocimiento en 1995, en Montreal (Canadá) con el nombre “The
First International Conference on Knowledge Discovery and Data Mining”, han aumentado las
reuniones internacionales y se han promovido nuevas conferencias que muestran el increíble
auge que está teniendo esta filosofía de trabajo. Por otra parte, la proliferación de paquetes de
software informático estadístico por parte de las principales casa comerciales: SAS, SPSS,
ORACLE, IBM, MATHWORK Y MICROSOFT, principalmente, han impulsado la utilización
de las técnicas que se engloban en Data Mining. También existen múltiples recursos gratuitos en
la red. Otros hechos significativos que se pueden observar son: la proliferación de páginas Web,
el incremento en el número de artículos y de revistas que tratan estos temas, la incorporación de
algunas de las técnicas de Data Mining en algunos manuales de estadística multivariante, un
mayor número de tesis doctorales que resuelven problemas utilizando las técnicas que promueve
el Data Mining y la proliferación de cursos de postgrado y masters relacionados con esta
disciplina, entre otros hechos, que indican la utilidad del Data Mining.
2. Aplicaciones en Economía.
Entre los usuarios más destacados del Data Mining están los bancos y otros agentes
financieros y las grandes empresas, en especial las industrias de telecomunicaciones, pero el
conjunto de sectores que utiliza estas herramientas es muy amplio. Las áreas donde se han
desarrollado diferentes técnicas son muchas: ventas e ingresos, gestión de abandonos,
(deslealtad), procedimientos de reclamaciones, análisis de impagos, marketing relacional y
dirigido, perfilados de clientes, retención de clientes, comercio electrónico, detección del fraude,
análisis de la cesta de la compra, desarrollo de nuevos productos, control de procesos, control de
calidad, gestión de almacén (merchandansing), etcétera.
2
A continuación, se ofrecen unas breves pinceladas para describir someramente los trabajos
más significativos y los problemas que se han abordado a través de las técnicas y herramientas
empleadas en Data Mining.
En relación al marketing y su tarea de clasificar y entender los diversos aspectos del nuevo
consumidor podemos afirmar que cada vez es más compleja. Seleccionar el mercado y
segmentarlo es una ardua tarea. Se han aplicado con éxito las reglas de asociación, los árboles
de decisión y clasificación, así como las redes neuronales y otras técnicas en la segmentación de
mercados para detectar tendencias de abandono de clientes, en el descubrimiento de
transacciones fraudulentas, en el análisis de la cesta de la compra para determinar los patrones
de comportamiento, en la búsqueda de perfiles de clientes, en el análisis de la pérdida de
clientes, etcétera.
En los últimos años se ha desarrollado el concepto de CRM (Customer Relationship
Management, Gestión de la Relación con el Cliente), tanto en su forma analítica como
operacional. El Data Mining optimiza y se integra en el sistema de CRM aumentando el
beneficio de las compañías que lo implementan.
Respecto a los temas de predicción de variables económicas, son casi ya innumerables los
investigadores que han utilizado las redes neuronales para compararlas con otros métodos de
predicción, generalmente los modelos ARIMA, consiguiendo excelentes resultados. Entre otros
trabajos podemos citar a Serrano y Martín del Brío (1993), Pacheco y Delgado (1990), Otero y
Trujillo (1993) y Palmer et al. (2003).
Los análisis de solvencia se han estudiado siguiendo dos caminos. Uno, a través de
aproximaciones simbólico/algorítmicas simulando el razonamiento lógico, siendo los métodos
más utilizados los algoritmos de inducción de reglas y los árboles de decisión. La otra vía de
investigación se ha dirigido a intentar reproducir el comportamiento de la vida biológica,
creando estructuras que se organizan y aprenden. Desde esta perspectiva, las redes neuronales y
los algoritmos genéticos aportan excelentes resultados. El prototipo de arquitectura de la red
neuronal artificial más empleado para determinar la salud financiera de las empresas es el
perceptrón multicapa. Estos sistemas expertos, según diversos autores, son adecuados para
estudiar los múltiples aspectos implicados en la solvencia empresarial: evaluación de la gestión
de la empresa, vigilancia de la situación financiera, relación de la empresa con su entorno,
etcétera.
El estudio de las quiebras empresariales ha sido ampliamente tratado y se pueden encontrar
excelentes trabajos. Estos estudios se basan en la aplicación de diversas arquitecturas de redes
neuronales utilizando un conjunto de ratios contables que caracterizan la actividad económica
de las empresas: ratios de liquidez, de autofinanciación de la empresa, de beneficio, de ventas y
de cash flow. Puede ampliarse esta información en Laffarga, Martín y Vázquez (1986), Mar
Molinero y Serrano (2001), Serrano (1997) y Elorduy Trifoll (2001).
Otros trabajos aparecidos en la literatura económica, o que están en proyecto, van
encaminados al estudio de los comportamientos en los mercados financieros. Reseñamos, entre
varios trabajos, dos estudios: la predicción de estos mercados en el corto plazo a través del
IBEX -35 (Aragón et al., 1997 y García Estévez, 2002). También se han llevado a cabo trabajos
de predicción del rendimiento de carteras mediante redes neuronales (García Estévez, 2002).
Los sistemas expertos antes aludidos, especialmente las redes neuronales artificiales, de las
que se nutre el Data Mining, también se han aplicado a otros campos de la economía como por
ejemplo a problemas de transporte (Masson y Wang, 1990), a la aproximación de funciones de
producción (Joerding et al., 1994) y a la planificación de la producción (Sastri, 1994).
3. Técnicas, métodos y algoritmos utilizados en Data Miming.
Las técnicas de Data Mining están muy extendidas en la solución de problemas de
predicción y clasificación de datos. El proceso de Data Mining puede ser desglosado en varias
fases. Una primera prepara y analiza los datos, la segunda se corresponde con la modelización y
3
contrastación de modelos alternativos, la tercera evalúa el modelo óptimo y la cuarta se
corresponde con la generalización del mismo.
Diversas casas comerciales han presentado metodologías para el desarrollo del Data
Mining. Una de las más conocidas es la metodología, CRISP-DM (Cross – Industry Standard
Process for Data Mining). El CRISP-DM es un proyecto fundado por la Comisión Europea en
colaboración con varias empresas (SPSS, Daimler – Bentz, etc..). Define un modelo universal
para aplicar proyectos de Data Mining (algo parecido a un AENOR para el Data Mining).
También la empresa SAS ofrece su proceso metodológico de aplicación de Data Mining
(SEMMA) que, en este caso, está constituido por cinco etapas: muestreo (Sampling),
exploración (Exploration), modificación (Modification), modelado (Modeling), evaluación
(Assessment).
El conjunto de problemas que aborda el Data Mining se pueden solucionar con diversas
técnicas que se agrupan en los siguientes seis grandes grupos: Técnicas descriptivas, resúmenes
e informes, segmentación, descripción de conceptos y clases, clasificación, predicción y análisis
de dependencia. A continuación, y a modo de resumen, se enumeran las técnicas más habituales
que se utilizan en Data Mining, algunas de las cuales se describirán posteriormente:
• Descripción de los datos del Data Mining
Resúmenes y gráficos
Clustering
Análisis de enlaces
• Predicción Data Mining
Reglas de asociación
Clasificación
Regresión
Series temporales
• Modelos de Data Mining y algoritmos
Redes neuronales
Árboles de decisión
Regresión multivariante adaptativa (Sistema Bayesiano)
Inducción de reglas
K-nearest neighbor and memory-based reasoning (MBR) (Cluster)
Regresión logística
Análisis discriminante
Modelos generalizados aditivos (Modelo ANOVA)
Boosting
Métodos de búsqueda aleatoria: Algoritmos genéticos, algoritmos evolutivos y el recocido
simulado.
Como se ha puesto de manifiesto en el apartado anterior existen múltiples técnicas
relacionadas con la minería de datos. En este trabajo se describen brevemente cuatro técnicas
ampliamente utilizadas: los árboles de decisión, dos modelos de redes neuronales, los
algoritmos genéticos y las reglas de asociación. Para el caso de la obtención de reglas de
asociación entre productos se realiza una descripción más detallada, en concreto, se describe el
algoritmo utilizado, el cual se denomina a priori, además, se ilustra su aplicación con un
ejemplo aplicado al comercio exterior.
Árboles de decisión
Los árboles de decisión son particiones secuenciales de un conjunto de datos que
maximizan las diferencias de la variable dependiente. Ofrecen una forma concisa de definir
grupos que son consistentes en sus atributos pero que varían en términos de la variable
dependiente.
Esta herramienta puede emplearse tanto para la resolución de problemas de clasificación
como de regresión: árboles de clasificación y árboles de regresión.
4
Mediante esta técnica se representan de forma gráfica un conjunto de reglas sobre las
decisiones que se deben de tener en cuenta para asignar un determinado elemento a una clase
(valor de salida).
En los árboles de decisión se encuentran los siguientes componentes: nodos, ramas y
hojas. Los nodos son las variables de entrada, las ramas representan los posibles valores de la
variable de entrada y las hojas son los posibles valores de la variable de salida.
Como primer elemento de un árbol de decisión se tiene el llamado nodo raíz que va a
representar a la variable de mayor relevancia en el proceso de clasificación.
Los múltiples algoritmos de los que se dispone, o bien solos o bien integrados en
diferentes paquetes informáticos, son los que determinan o generan el procedimiento de cálculo
que establece el orden de importancia de las variables en cada interacción. También se pueden
imponer ciertas limitaciones en el número de ramas en que se divide cada nodo.
Los algoritmos más utilizados son los siguientes: CART, acrónimo de Classification
And Regression Trees (Árboles de decisión y de regresión), CHAID, acrónimo de Chi-squared
Automatic Interaction Detection (detector automático de interacciones mediante Ji cuadrado),
QUEST, que al igual que los dos anteriores están implementados en el Answer Tree y es el
acrónimo de Quick, Unbiased, Efficient Statistical Tree (árbol estadístico eficiente, insesgado y
rápido) y el C5.0, que está basado en el concepto de “ganancia de información”.
Redes neuronales
Las redes neuronales tratan de emular el comportamiento cerebral. Existen actualmente
más de 40 paradigmas de redes neuronales artificiales Se estima que tan sólo cuatro
arquitecturas: el modelo perceptrón multicapa (MLP), los mapas autoorganizados de Kohonen,
(SOFM), el vector de cuantificación (LVQ) y las redes de base radial (RBF) cubren,
aproximadamente, el 90% de las aplicaciones prácticas de redes neuronales. El modelo más
utilizado es el perceptrón multicapa, que abarca el 70%, dado que este modelo es un
aproximador universal de funciones (Funahashi 89)
Una red neuronal puede describirse mediante cuatro conceptos: el tipo de modelo de red
neuronal; las unidades de procesamiento que recogen información, la procesan y arrojan un
valor; la organización del sistema de nodos para transmitir las señales desde los nodos de
entrada a los nodos de salida y, por último, la función de aprendizaje a través de la cual el
sistema se retroalimenta.
El elemento básico de una red neuronal es un nodo. Es la unidad de procesamiento que
actúa en paralelo con otros nodos de la red. Es similar a la neurona del cerebro humano: acepta
inputs y genera outputs. Los nodos aceptan input de otros nodos. La primera tarea del nodo es
procesar los datos de entrada creando un valor resumen que es la suma de todas las entradas
multiplicadas por sus ponderaciones. Este valor resumen se procesa a continuación mediante
una función de activación para generar un salida que se envía al siguiente nodo del sistema. Las
funciones de activación más utilizadas son: la función escalón, la función identidad, la función
sigmoide o logística y la tangente hiperbólica
Se considera una red neuronal la ordenación secuencial de tres tipos básicos de nodos o
capas: nodos de entrada, nodos de salida y nodos intermedios (capa oculta o escondida). Los
nodos de entrada se encargan de recibir los valores iniciales de los datos de cada caso para
transmitirlos a la red. Los nodos de salida reciben entradas y calculan el valor de salida (no van
a otro nodo). En casi todas las redes existe una tercera capa denominada oculta, Este conjunto
de nodos utilizados por la red neuronal, junto con la función de activación posibilita a las redes
neuronales representar fácilmente las relaciones no lineales, que poseen mayor dificultad para
las técnicas multivariantes.
5
Se puede decir que una red neuronal tiene tres ventajas que le hacen muy atractiva en el
tratamiento de los datos: aprendizaje adaptativo a través de ejemplos, robustez en el tratamiento
de información redundante e imprecisa y paralelismo masivo.
El método más utilizado en las aplicaciones prácticas de redes neuronales es el
perceptrón multicapa, que fue popularizado por Rumelhart, Hinton y Willians (1986). Este
modelo de red es conocido también como backpropagation error (propagación del error hacia
atrás), también denominado método del gradiente decreciente.
La razón de su tremenda utilidad radica en su capacidad de organizar una representación
interna del conocimiento en las capas ocultas de neuronas a fin de aprender la relación entre un
conjunto de datos de entrada y salida. El perceptrón multicapa es un aproximador universal de
funciones. La red backpropagation, conteniendo al menos una capa oculta, es capaz de aprender
cualquier tipo de función o relación continua. Esta propiedad convierte a esta red en una
herramienta de propósito general.
Los mapas autoorganizativos de Kohonen
Teuvo Kohonen en 1982 presenta un modelo de red denominado mapas
autoorganizativos basándose en ciertas evidencias encontradas en el cerebro humano. Este tipo
de red se caracteriza por poseer un aprendizaje no supervisado competitivo. Es decir, la red
tiene que descubrir por si misma rasgos, peculiaridades, correlaciones o categorías que se
encuentren en los datos. El objetivo de esta red es clusterizar los datos que se presentan a la red
a través de las correlaciones.
La utilidad de este sistema es que es capaz de realizar análisis cluster, representar
funciones de densidad asociadas a distribuciones de probabilidad y proyectar un espacio de alta
dimensión en otro más reducido.
La arquitectura de la red se basa en dos capas de neuronas, la capa de entrada se encarga
de recibir y de transmitir a la capa de salida la información procedente del exterior. Las
neuronas de la capa de salida se organizan de forma bidimensional (plano), tridimensional,
(paralelepípedo) o de sólo una dimensión (cadena lineal de neurona).
Aunque las redes resuelven múltiples problemas y son capaces de encontrar soluciones
en muchas situaciones, no son la panacea que lo resuelve todo. El campo de las redes neuronales
artificiales es todavía reciente y aún quedan problemas sin resolver: se trata de un método de
resolución de problemas demasiado creativo, es difícil en muchas situaciones averiguar porque
no funciona la red y no es fácil interpretar su comportamiento.
Algoritmos genéticos
Estos algoritmos se originaron en los intentos de imitar el comportamiento de las
especies (Holland, 1975), a través de ecuaciones matemáticas. Los algoritmos genéticos están
inspirados en la solución de problemas que la naturaleza emplea en la evolución de los seres
vivos sometiéndolos a diferentes hábitats. Son algoritmos de búsqueda que se basan en el
proceso de selección natural y de la genética natural, combinando la supervivencia de los
individuos más aptos entre las cadenas de estructuras con un intercambio de información
aleatorio.
El proceso de optimización del algoritmo comienza con la generación de una población
de individuos. Sobre estos individuos se realizan unas definiciones: genoma (todos los
parámetros que definen a los individuos de la población), genotipo (la parte del genoma que
define a un individuo concreto), fenotipo (es la expresión de un genotipo) y gen (cada uno de
los parámetros que define a un individuo). La fase siguiente del proceso es la evaluación en la
cual se deja que cada uno de los controladores que constituyen la población actúe controlando el
sistema. En la siguiente fase, la selección, se simula el proceso natural de los individuos en cada
generación. A esta fase le sigue una secuencia de operadores genéticos que simulan el proceso
de reproducción de los seres vivos. Con el genoma final se expresa un fenotipo y se reconstruye
6
cada controlador de la población y se procede a una nueva evaluación. El proceso se repite un
número determinado de veces hasta que la evaluación se estabiliza.
Los algoritmos genéticos se han utilizado, entre otros temas, en la resolución de
problemas relacionados con rutas de transporte, en la gestión de carteras comerciales, en la
búsqueda del número ideal de neuronas de la capa oculta en la estructura de una red neuronal y,
en general, en problemas de optimización de sistemas, estando especializados en problemas de
optimización con restricciones.
4. Reglas de asociación. El algoritmo a priori.
Entre todo el conjunto de técnicas que se incluyen dentro del término Data Mining, en
esta sección nos centramos en los algoritmos de asociación. El objetivo de dichos algoritmos es
encontrar distintas reglas de asociación entre ítems, los cuales, comúnmente, se corresponderán
con distintos tipos de productos. Las reglas de asociación nos permitirán predecir patrones de
comportamiento futuros sobre ocurrencias simultáneas de productos. El algoritmo a priori que
introducen Agrawal, Imielinski y Swami (1993) permite la obtención de dichas reglas de forma
eficiente en término de número de operaciones en el ordenador.
Como su propio nombre indica, el objetivo de una regla de asociación es detectar ítems
que, por algún motivo, se dan de forma conjunta. Un ejemplo comúnmente utilizado se centra
en el análisis de las reglas de asociación entre los productos de consumo frecuente que se
adquieren en un establecimiento comercial, sea éste un pequeño comercio, un supermercado o
un hipermercado. En este contexto, el algoritmo a priori permite predecir de un modo eficiente
qué productos se compran conjuntamente y qué productos influyen significativamente en la
adquisición de otros complementarios. Como se mostrará posteriormente en la quinta sección,
este ejemplo puede generalizarse al comercio exterior, concretamente, para analizar cuáles son
las reglas de asociación entre los productos que se exportan desde Cataluña.
Una regla de asociación está formada por uno o más antecedentes y una consecuencia.
Siendo m el número de antecedentes, en general, una regla de asociación puede representarse
del siguiente modo:
Consecuencia⇐Antecedente 1 Antecedente 2 … Antecedente m.
Por ejemplo, sean A y B dos productos antecedente y C la consecuencia, la regla de
asociación equivale a:
C⇐A B,
que implicaría que la compra de A y B (antecedentes) supone que un número elevado de veces
también se compre C (consecuencia). Para evaluar la capacidad predictiva de una regla de
asociación existen varias medidas, las dos más comunes son el soporte y la confianza. El
primero equivale al porcentaje de veces que se adquieren de forma conjunta los productos
antecedentes (A y B) sobre el total de compras. La confianza de una regla se calcula como
cociente entre el soporte de todos los productos implicados en la regla (A, B y C) y el soporte de
los productos antecedentes (A y B) multiplicado por 100.1 El soporte es una medida de
significación estadística de la regla, sin embargo, la confianza mide en que medida se cumple
dicha regla de asociación. La representación de la regla de asociación anterior se amplia del
siguiente modo:
C⇐A B (Soporte% Confianza).
Por ejemplo, si se supone que el soporte de la regla es del 50% y su confianza equivale
al 95%, la regla de asociación anterior queda del siguiente modo:
C⇐A B (50% 0,95).
1
Agrawal et al. (1993) definen el soporte como el porcentaje de veces que se dan de forma conjunta los
productos antecedentes y la consecuencia (A, B y C). Sin embargo, para facilitar la interpretación de otras
medidas alternativas a la confianza, los programas estadísticos existentes denominan soporte al porcentaje
de veces que se dan de forma conjunta los productos antecedentes (A y B).
7
En este caso, la interpretación que se realiza es la siguiente: “El 50% de los individuos
compran conjuntamente los productos A y B y, además, el 95% de estos individuos también
adquieren C. También, como 0,50×0,95=0,475, se sabe que el 47,5% de los individuos compran
A, B y C de forma conjunta”. En la práctica, suelen fijarse unos valores mínimos del soporte y la
confianza, para posteriormente obtener todas aquellas reglas de asociación con soporte y
confianza iguales o superiores a los mínimos establecidos.
La base de datos utilizada para el implementar el algoritmo a priori debe contener dos
tipos de información, una identifica al individuo (o al país, en nuestra aplicación) que realiza la
compra y la otra identifica los distintos productos. Las formas en las que se presenta la base de
datos pueden ser dos. Por un lado, puede trabajarse con dos variables (columnas), una que
identifique al individuo o al país y la otra que identifique al producto, por tanto, cada registro
(fila) se corresponde con un individuo o país y con uno de los productos que éste adquiere. Cada
individuo o país tendrá asociadas tantas filas de la base de datos como número de productos
compre. Por otro lado, la base de datos puede presentarse con tantas variables como productos y
tantos registros como individuos o países, cada una de estas variables tomará valor 1 si el
individuo compra el producto y cero en caso contrario.
Es sabido que el número de tipos de producto que pueden adquirirse en un
establecimiento comercial o ser importados por un determinado país es muy elevado y, por
tanto, existen un gran número de combinaciones entre productos, las cuales podrían valorarse
para encontrar las distintas reglas de asociación. El algoritmo a priori funciona de un modo
eficiente en la obtención de las reglas de asociación, en el sentido de que no necesita evaluar
todas las combinaciones posibles entre productos. En Agrawal et al. (1993) se describe el
funcionamiento de dicho algoritmo, el cual se resume a continuación.
El algoritmo a priori se inicia fijando un valor para el soporte de la regla, sea s dicho
soporte.2 En una primera etapa se seleccionan aquellos productos cuya frecuencia de compra
iguala o supera el soporte s. Los productos resultantes son los aspirantes a ser unidos a otros
productos. Posteriormente, en una segunda etapa, los productos aspirantes se combinan de dos
en dos, seleccionando aquellos pares de productos cuyo soporte iguala o supera el valor s. Las
combinaciones de dos productos seleccionadas son las aspirantes a ser ampliadas a tres. Así,
sucesivamente, hasta alcanzar el número límite de productos fijado para formar una regla de
asociación. En el caso de que no se fije dicho límite, el algoritmo se repite hasta que ninguna de
las combinaciones de m productos resulte aspirante a ser ampliada. Las reglas de asociación se
forman entre los productos que intervienen en las combinaciones resultantes.
Seguidamente, se muestra el funcionamiento del algoritmo a priori con un ejemplo
numérico. Supongamos una muestra de 10 individuos los cuales disponen de 5 tipos de producto
para adquirir. En la tabla 1 se señala, para cada individuo, cuáles son los productos que compra.
Además, se supone un soporte mínimo s=30%.
Tabla 1: Datos simulados.
Producto
Individuo
A
1
2
X
3
4
5
6
7
8
9
10
2
B
C
X
X
X
X
X
X
X
X
X
X
D
X
X
E
X
X
X
X
X
X
X
X
X
X
X
X
Al igual que en el software Clementine, en este trabajo el soporte de la regla está ligado a los
antecedentes de la misma. Es decir, es igual al porcentaje de individuos o países que adquieren dichos
antecedentes de forma conjunta.
8
Tras analizar cada uno de los productos individualmente, se determina que A posee un
soporte del 10%, que es inferior a s, lo que implica que sea eliminado del análisis y no vuelva a
considerarse en las combinaciones posteriores. El resto de productos poseen soporte superior al
30%, es decir, son consumidos por más del 30% de los individuos. En una segunda etapa se
analizar las combinaciones de productos 2 a 2, las combinaciones resultantes son: {B C}, {B
D}, {B E}, {C D}, {C E} y {D E}, todas ellas poseen soporte superior igual o superior al 30%.
A continuación, se muestran algunas de las reglas de asociación resultantes con un único
antecedente, su soporte y su confianza:
C⇐B (40% 0,75), B⇐C (70% 0,43), D⇐B (40% 0,75), B⇐D (70% 0,43),
E⇐B (40% 0,75), B⇐E (60% 0,50), D⇐C (70% 0,71), C⇐D (70% 0,71),
E⇐C (70% 0,57), C⇐E (60% 0,67), E⇐D (70% 0,71) y D⇐E (60% 0,83)
En una tercera etapa se analizan las combinaciones de productos tres a tres, estas son:
{B C D}, {B C E}, {B D E} y {C D E}, la primera combinación posee soporte 30% y las dos
siguientes poseen soporte 20% y la última 40%. Las reglas de asociación con 2 antecedentes
son:
D⇐B C (30% 1,00), E⇐B C (30% 0,67), C⇐B D (30% 1,00)
E⇐B D (30% 0,67), C⇐B E (30% 0,67), D⇐B E (30% 0,67)
B⇐C D (50% 0,40), B⇐C E (40% 0,50) y B⇐D E (50% 0,40)
E⇐C D (50% 0,80), D⇐C E (40% 1,00) y C⇐D E (50% 0,80)
Finalmente, las combinaciones {B C E} y {B D E} posen soporte inferior al 30% la
combinación con cuatro productos {B C D E} ya no se analiza, dado que también poseerá
soporte inferior al 30%. Por lo tanto, teniendo en cuenta el criterio del soporte igual o superior a
s=30%, no se encuentran reglas de asociación con tres antecedentes.
Además del soporte y la confianza, existen otras medidas alternativas que pueden utilizarse para
valorar estadísticamente la regla de asociación. Algunas de estas medidas se describen a
continuación:
Diferencia absoluta entre confianzas: Mide la diferencia entre una regla de asociación
y la misma ampliada con un antecedente más. En el ejemplo anterior, pueden compararse las
confianzas de las reglas C⇐B y C⇐B D, en este caso la diferencia es 1,00-0.75=0.25. Puede
considerarse que si la confianza de una regla varía con el número de antecedentes, es interesante
analizar la regla ampliada (en este caso C⇐B D) en caso contrario no.
Diferencia entre el cociente de confianzas y 1: Mide la diferencia entre el cociente de
dos confianzas y 1. En el cociente se compara la confianza de una regla de asociación con la de
la misma ampliada. Cuanto más alejado esté el cociente de uno más interés posee el análisis de
ambas reglas de asociación. En el caso de que el cociente esté próximo a uno únicamente tiene
interés el análisis de una de las reglas.
Diferencia entre criterios de información: Se trata de una medida de ganancia de
información estadística (entropía). Para un determinado suceso con probabilidad p y su
contrario, la distribución posee una entropía igual a: H = p log p − (1 − p )log(1 − p ) . En el
contexto de la reglas de asociación se puede calcular, por ejemplo, la entropía asociada a la
regla C⇐B, que equivale a:
H = P (C | B )log P (C | B ) − P (C | B )log P (C | B ) ,
donde C es el contrario de C, y compararla con la entropía asociada a C⇐B D, que se expresa
como:
H = P (C | B, D )log P (C | B, D ) − P (C | B, D )log P (C | B, D ) .
Medida χ2 normalizada: Equivale del estadístico χ2, que mide el grado de asociación entre
dos variables discretas. Este estadístico se normaliza dividiéndolo entre el número de casos, de
forma que no dependa del número de individuos o países que intervienen en el cálculo. La
medida resultante toma valores entre 0 y 1. Cuanto más próxima al 1 esté la χ2 normalizada
mayor será el grado de asociación. Por ejemplo, para la regla de asociación C⇐B D las dos
variables discretas que se comparan son dos: la primera toma dos valores según se compre C o
no y, la segunda, también toma dos valores según se compren B y D conjuntamente o no.
9
A continuación, en el siguiente apartado se ejemplifica la aplicación del algoritmo a-priori a
datos sobre exportaciones de productos desde Cataluña al exterior de España.
5. Ejemplo con datos de comercio exterior.
El objetivo del análisis es encontrar distintas reglas de asociación entre los diversos
productos textiles que se exportan desde Cataluña al exterior de España. Para ello, se ha
utilizado el algoritmo a priori descrito en el apartado anterior, el cual puede ejecutarse con el
software Clementine. Se analizan las reglas de asociación entre partidas de la TARIC.3 Las
reglas muestran asociaciones entre productos textiles y, también, entre estos productos y otros
pertenecientes a otros sectores. Los datos utilizados son todas las exportaciones realizadas en el
año 2000.
Inicialmente, la base de datos utilizada contiene 1.267.366 registros, que se
corresponden con todas las exportaciones realizadas desde Cataluña en el año 2000. Cada uno
de estos registros se corresponde con una partida de la TARIC a ocho dígitos que representa una
exportación desde Cataluña a un determinado país de destino.
A continuación, se describen el proceso que se ha seguido para la búsqueda de las reglas
de asociación y, posteriormente, se muestran, a modo de ejemplo, los resultados obtenidos para
algunos de los productos textiles considerados.
El análisis parte de la selección de una serie de partidas de la TARIC a dos dígitos las
cuales se corresponden con productos textiles, éstas van desde la 50 a la 63, ambas incluidas. En
una primera etapa se han seleccionado aquellos países que importan alguno de los productos
incluidos entre las partidas textiles. Considerando estos países con todas sus importaciones
llegadas desde Cataluña, la base de datos queda formada por 1.254.560 registros, que se
corresponden con 150 países de destino.
Para el análisis de cada partida se ha depurado la información inicial. En primer lugar,
se elimina de la base de datos aquella información irrelevante para las reglas de asociaciones de
interés y facilitar así su búsqueda, es decir, se eliminan de la base de datos aquellos registros
que se corresponden con códigos de la TARIC no definidos y muy poco frecuentes. En segundo
lugar, se seleccionan los países de interés según el código de la TARIC y el nivel de
desagregación. Este segundo proceso de filtrado se describe, a continuación, para un producto
en particular.
Por ejemplo, si se desea analizar las asociaciones a cuatro dígitos cuya consecuencia
coincide con la partida 6110 (suéteres y jerséis de punto), en primer lugar, se buscan las reglas
de asociación entre partidas a dos dígitos, posteriormente se seleccionan aquellos registros cuyo
código de la TARIC a 2 dígitos coincide con el 61 (piezas y complementos de vestir de punto) o
con aquellos sectores que aparecen como antecedente en las asociaciones con consecuencia 61.
Seguidamente, para analizar las asociaciones a 6 dígitos cuya consecuencia es la partida 611020
(suéteres y jerséis de punto de algodón), el proceso es similar, en este caso se seleccionan
aquellos registros cuyo código a 4 dígitos coincide con el 6110 o con todos aquellos que
aparecen como antecedentes de éste. Finalmente, para el estudio de las asociaciones a 8 dígitos
cuya consecuencia es el código de la TARIC 61102099 (suéteres y jerséis de punto de algodón
para mujeres y niñas), se seleccionan aquellos registros cuyo código de la TARIC a 6 dígitos
coincide con el 611020 o con sus antecedentes. Tras realizar los distintos procesos de filtrado en
la base de datos inicial, aunque el número de registros vaya siendo inferior a 1.254.560, los
países que se estudian siempre coinciden con los 150 importadores de alguno de los productos
textiles.
En este punto cabe advertir que, aunque puede establecerse una jerarquía entre las
partidas de la TARIC a 4, 6 y 8 dígitos, es decir, las partidas a 6 dígitos están incluidas dentro
de las partidas a 4 dígitos y, también, las expresadas en 8 dígitos se incluyen en las partidas a 6
3
La TARIC es una nomenclatura administrativa que presenta la información según el arancel comunitario
integrado.
10
dígitos, no se suele encontrar dicha jerarquía entre reglas de asociación. Esto significa que,
normalmente, las reglas de asociación a 4 dígitos no se repiten en las asociaciones encontradas a
6 dígitos. Este hecho indica que las conclusiones extraídas de los resultados deben enmarcarse
en un nivel de desagregación determinado. Además, no suelen encontrarse asociaciones entre
partidas a ocho dígitos.
Tras realizar distintas pruebas con los valores de diversos criterios de asociación (soporte,
precisión, confianza y χ2 normalizada), se han seleccionado aquellas reglas que cumplen las
siguientes condiciones: 4
•
El soporte de la regla o porcentaje de casos en los que aparecen los productos
antecedentes de forma conjunta es igual o superior al 20%.
•
El valor para la Ji-cuadrado estandarizada es igual o superior a 0,5.
•
La precisión de la regla es igual o superior al 80%.
•
Confianza de la regla igual o superior a 0,9.
•
El número de productos antecedentes se limita a un máximo de 2 productos.
En la tabla 2 se describen las partidas de la TARIC sobre las cuales se realiza el análisis
de las asociaciones, este análisis consiste en obtener aquellas reglas cuya consecuencia coincide
con la partida a la que se hace referencia en esta tabla.
Tras obtener las reglas de asociación e interpretarlas, se plantea realizar una serie de
análisis a posteriori que complementan los resultados. En concreto, para cada regla de
asociación se estudian cuáles son los países mayores importadores del producto consecuencia y,
posteriormente, se analiza en que medida estos países cumplen la regla de asociación. Para
ordenar los países según sus importaciones se utiliza el valor estadístico de las mismas, se
considera que son principales importadores de un producto aquellos países cuyo valor
estadístico se sitúa en el último cuartil de la variable.5
Tabla 2: Partidas analizadas.
Código
de
la Descripción
TARIC
61
Piezas y complementos de vestir, de punto
6110
Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto
611020
Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto,
de algodón
62
Piezas y complementos de vestir, excluidos los de punto.
6204
Todo tipo de ropa de vestir para mujeres y niñas, excluyendo la de baño
620462
Todo tipo de pantalones de vestir, excluido los de baño, de algodón, que no sean de
punto, para mujeres y niñas
Se han obtenido 704 reglas de asociación en las cuales el código de la TARIC 6110 es
consecuencia, 7 de las cuales poseen un único antecedente y las 697 restantes dos. Los
productos antecedentes son de distinta naturaleza y se sitúan dentro del sector textil o en otros
sectores totalmente distintos.
Entre todas las reglas de asociación encontradas se seleccionan dos para analizar, ambas
con dos antecedentes. La primera es la que posee mayor soporte o, lo que es lo mismo, mayor
número de países que importan ambos antecedentes. La segunda regla de asociación se
caracteriza por tener confianza 100% además, entre todas las que poseen esta confianza
máxima, se ha seleccionado la de mayor soporte y con ambos antecedentes pertenecientes al
sector textil. Las dos reglas de asociación seleccionadas son las que se presentan en la tabla 3.
4
La precisión de una regla es una medida relacionada con la eficiencia del algoritmo a-priori y equivale
al porcentaje de asociaciones que cumplen el resto de criterios establecidos sobre el total de reglas
evaluadas.
5
El valor estadístico es el importe monetario de las exportaciones en la aduana del país de origen.
11
Tabla 3: Reglas de asociación seleccionadas para analizar.
REGLA Consecuencia Antecedentes Número Soporte
1
4202 6104
65
43,3%
6110 ⇐
2
6104 6211
58
38,7%
6110 ⇐
Confianza
95,4%
100%
Los productos que son antecedentes en las dos reglas de asociación anteriores son:
4202 Bolsos, maletas y maletines, incluidos los neceseres y porta documentos, carteras de
mano, fundas para gafas, cámaras, instrumentos de música o armas, sacos de viaje,
mochilas, bolsas para la compra, bolsas de deporte, etcétera de cuero natural, artificial o
regenerado, de plástico, textiles, fibra o cartón, o cubiertos totalmente o mayoritariamente
con estos materiales
6104 Trajes de sastre, conjuntos, chaquetas, vestidos, faldas, faldas pantalón, pantalones,
pantalones de pitillo, calzones y pantalones cortos (menos los de baño), de punto, para
mujeres o niñas
6211 Piezas de vestir para deportes (de entrenamiento), monos y conjuntos de esquí y trajes
y pantalones de baño; otras piezas de vestir
Según el valor estadístico de sus compras, los principales importadores de los productos
incluidos dentro del código de la TARIC 6110 son (número de pedidos entre paréntesis): Italia
(306), Portugal (1371), Francia (1342), Alemania (382), Bélgica (422), Países Bajos (384),
Reino Unido (322), Venezuela (107), Arabia Saudita (471), Austria (129), Estados Unidos (77),
Kuwait (228), Suiza (553), Hong Kong (173), Marruecos (425), Grecia (176) y Andorra (352).
Entre todos estos países, existen cuatro que no cumplen la primera regla de asociación descrita
en la tabla 3 (6110 ⇐ 4202 6104) con una confianza superior al 95%, estos países son:
Alemania, Italia, Grecia y Austria, cuya confianza, aunque inferior al 95%, supera el 50%.
Todos los países principales importadores de los productos 6110 según TARIC a cuatro
dígitos cumplen la segunda regla de asociación (6110 ⇐ 6104 6211) con una confianza superior
al 95%.
Se desprende que las exportaciones de bolsos y maletas conjuntamente con la
indumentaria descrita inducen a la exportación de jerséis de punto (jerséis y suéters).
En un nivel más detallado, se han obtenido 277 reglas de asociación en las cuales el
código de la TARIC 611020 es consecuencia. Se han encontrado cuatro reglas con un solo
antecedente y el resto con dos. Los productos antecedentes son de distinta naturaleza y se sitúan
dentro del sector textil o en otros totalmente distintos.
Se han seleccionado dos reglas de asociación para analizar, que se describen en la tabla
4.
Tabla 4: Reglas de asociación seleccionadas para analizar.
REGLA Consecuencia Antecedentes Número Soporte
1
610910 420310 52
34,7%
611020 ⇐
2
620630
620610
38
25,3%
611020 ⇐
Confianza
90,4%
100%
Los productos que son antecedentes en las dos reglas de asociación anteriores son:
610910 Camisetas de punto, de algodón
420310 Piezas de vestir de cuero natural o de cuero artificial o regenerado
620630 Camisas, blusas y blusas camiseras, de algodón, que no sea de punto, para mujeres
y niñas
620610 Camisas, blusas y blusas camiseras, de seda, que no sean de punto, para mujeres y
niñas
Los países considerados principales importadores de los productos agrupados en el código
de la TARIC 611020 son (número de pedidos entre paréntesis): Italia (104), Portugal (498),
Francia (562), Bélgica (145), Alemania (151), Países Bajos (137), Reino Unido (87), Arabia
Saudita (64), Andorra (73), Austria (34), Grecia (53), Israel (38) y Dinamarca (26).
12
Entre todos los países principales importadores existen tres en los que la confianza de la
primera regla de asociación (611020 ⇐ 610910 420310) no supera el 50%, estos países son:
Andorra, Israel y Arabia Saudita. Por lo que respecta a la segunda regla de asociación (611020
⇐ 620630 620610) todos los países citados en el párrafo anterior la cumplen con confianza
superior al 95%. Por lo tanto, se observa una correlación entre camisas y blusas (que no sean de
punto) y suéters de punto de algodón, todo ello para mujeres y niñas.
Se han obtenido 48 reglas de asociación en las cuales el código de la TARIC 6204 es
consecuencia, las dos primeras poseen un único antecedente y las 46 reglas restantes se han
formado con dos antecedentes.
Entre todas las reglas de asociación encontradas se seleccionan dos para analizar.
Ambas asociaciones se describen en la tabla 5. La primera posee los dos productos antecedentes
dentro del sector 61 “Ropa y complementos de vestir, de punto”. La segunda regla de asociación
seleccionada es la que posee mayor soporte o número de países que la cumplen.
Tabla 5: Reglas de asociación seleccionadas para analizar.
REGLA Consecuencia Antecedentes Número Soporte
1
6110 6104
62
41,3%
6204 ⇐
2
9401 8207
77
51,3%
6204 ⇐
Confianza
98,4%
90,9%
Los productos que son antecedentes en las dos reglas de asociación anteriores son:
6110 Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto
6104 Trajes de sastre, conjuntos, chaquetas, vestidos, faldas, faldas pantalón, pantalones,
pantalones de pitillo, calzones y pantalones cortos (menos los de baño), de punto, para
mujeres o niñas
9401 Asientos (menos los de profesionales: médicos, peluqueros, etcétera), incluso los
transformables en cama, y sus componentes
8207 Útiles intercambiables para herramientas de mano, incluso mecánicas, o para
máquinas herramienta como las de hacer embutidos, estampar, enroscar, etcétera.
Los principales importadores de los productos incluidos dentro del código de la TARIC
6204 son (número de pedidos entre paréntesis): Portugal (2308), Francia (1552), Alemania
(953), Italia (497), Reino Unido (4830), Bélgica (965), Arabia Saudita (1217), Méjico
(477), Países Bajos (738), Austria (277), Suiza (749), Irlanda (984), Grecia (439), Israel
(1275), Estados Unidos de América (136), Japón (392), Kuwait (407), Venezuela (254),
Andorra (406) y Chile (51). Todos ellos cumplen las dos reglas de asociación descritas en la
Tabla 18 con una confianza superior al 95%.
De este análisis se desprende que los países que importan asientos y útiles para
herramientas son los que tienen mayor propensión a la compra de ropa de vestir femenina.
Se han obtenido 842 reglas de asociación entre códigos a seis dígitos donde el 620462
de la TARIC es consecuencia. Entre todas las asociaciones 16 tienen un único antecedente, el
resto poseen dos.
De nuevo se han seleccionado dos asociaciones para analizar detalladamente, la primera
ya se daba entre códigos a cuatro dígitos (6204 ⇐ 6110 6104), la segunda se caracteriza por
poseer dos productos antecedentes incluidos en el código 6204 de la TARIC. Ambas reglas de
asociación se describen en la tabla 6.
Tabla 6: Reglas de asociación seleccionadas para analizar.
REGLA Consecuencia Antecedentes Número Soporte
1
611030 610443 42
28,0%
620462 ⇐
2
620453
620452
47
31,3%
620462 ⇐
Confianza
100,0%
93,6%
13
Los productos que son antecedentes en la regla de asociación anterior son:
611030 Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de
punto, de fibras sintéticas o artificiales
610443 Trajes de punto, para mujeres o niñas, de fibras sintéticas o artificiales
620453 Faldas y faldas pantalón, para mujeres o niñas, de fibras sintéticas o artificiales, que
no sean de punto
620452 Faldas y faldas pantalón, para mujeres o niñas, de algodón, que no sean de punto
Los países considerados mayores importadores de los productos incluidos dentro del código
de la TARIC 620462 son: Portugal (233), Francia (263), Bélgica (59), Italia (52), Reino Unido
(109). Alemania (156), Méjico (129), Austria (36), Arabia Saudita (234), Grecia (62), Países
Bajos (76), Suecia (59), Venezuela (54) e Irlanda (50). Todos estos países cumplen las dos
reglas de asociación descritas en la Tabla 20, con una confianza superior al 95%.
En la primera regla de asociación se observa como la exportación de suéteres y artículos
similares de fibra sintética conjuntamente con trajes de punto sintético induce la exportación de
pantalones para mujeres y niñas, de algodón y que no sean de punto. La segunda regla indica
que la exportación de faldas que no sean de punto (tanto de algodón como de fibras sintéticas)
induce la exportación de pantalones de algodón que no sean de punto.
6. Conclusiones.
El trabajo ha permitido evaluar el potencial de las técnicas de Data Mining en economía, y
concretamente en el análisis de los datos de comercio exterior.
Se ha realizado un estudio para la comunidad autónoma de Cataluña, respecto a las
exportaciones desde dicha comunidad a países extranjeros en el año 2000. La valoración de
algunos resultados muestra una vinculación entre el mercado textil de punto confeccionado y
otra ropa de vestir. Esta relación podría esperarse ya que en ambos casos se trata de prendas e
indumentarias de vestuario. Además de la anterior relación, se ha detectado una fuerte
asociación entre las exportaciones de punto confeccionado y los productos de equipaje, como
maletas y bolsos. En este caso se trata de productos que no pertenecen al mismo grupo. Al
realizar un análisis más detallado de los correspondientes códigos TARIC más detallados se
observa una asociación entre la exportación de camisetas de punto y de piezas de vestir
confeccionadas en cuero o material artificial similar. Ello podría explicar la vinculación de la
producción de ropa de punto, con el mercado de las prendas de cuero y, consecuentemente con
la exportación de suministros de equipaje.
Otra de las conclusiones extraídas del análisis de las exportaciones detecta que los envíos de
maquinaria (útiles intercambiables para herramientas) están fuertemente asociados a
exportaciones de asientos y ropa de vestir. Dichas relaciones no parecerían evidenciarse de un
análisis descriptivo de tipo generalista, pero sí son obtenidos a través de los algoritmos
utilizados.
Como conclusión fundamental del análisis empírico se ha podido identificar qué productos
están más relacionados con el mercado textil. Por ejemplo, cambios en el sector de fabricación
de bolsos y maletas así con herramientas intercambiables o asientos, pueden determinar
inflexiones e incluso anticipar transformaciones en las exportaciones de ropa de vestir, ya que
se ha detectado una fuerte asociación entre ambos productos.
14
Bibliografía.
Agrawal, R y Srikant, R. (1994) “Fast Algorithms for Mining association Rules”. Paper
presented at the 20th Internacional Conference on Very Large Databases, Santiago, Chile.
Agrawal, R., Imielienski, T. y Swami, A. (1993) “Mining Association Rules between
Sets of Items in Large Databases. En: Processes and Conferences on Management of Data, ed.
ACM Press, New York, pp. 207-216.
Aragón, A., Calzada, J.M., García, A. y Pacheco, J.A. (1997) “Aplicaciones de redes
neuronales en economía”. V Jornadas de ASEPUMA, España.
Bigus, J.P. (1996) Data mining with neural networks: solving business problems from
application development to decision support, ed. McGraw-Hill, New York.
Bonchi, F., Giannotti, F., Mainetto, G. y Pedreschi, D. (1999) “Using Data Mining
Techniques in Fiscal Fraud Detection”. Paper presented at the First International Conference on
Data Warehousing and Knowledge Discovery (DaWak’99). Florence, Italy.
Breiman, L., Friedman, Jh., Olshen, R.A. y Stone, C.J. (1984) Classification and
regression trees. Monterey, ed. Wadsworth & Brooks/Cole Advanced Book & Software.
Cajal, B., Jiménez, R., Montaño, J.J., Palmer, A., Sesé, A. y Sospedra, M.J. (2001)
“Modelo Lineal Generalizado, Redes Neuronales Artificiales y Aprendizaje Automático: un
estudio comparativo”. Comunicación presentada en la VIII Conferencia Española de Biometría,
Pamplona, España.
De la Fuente, D., Pino, R., Suárez, C. y Mayo, J.L. (1996) “Análisis comparativo de los
métodos de previsión univariante, Box-Jenkins, Redes Neuronales artificiales y espacios de
Estado”. Revista de Estudios de Economía Aplicada, 5, pp. 5-33.
Elorduy Trifoll, J. (2001) Las redes neuronales como herramienta de predicción de
quiebra, Tesis Doctoral, Universidad Nacional de Educación a Distancia. España.
Hand, D.J. (1999) “Statistics and Data Mining: Intersecting disciplines”. SIGKDD
Explorations, 1, pp. 16-19.
García Estévez, P. (2002) “Modelo de predicción del rendimiento de una cartera
mediante una Red Neuronal”. Análisis Financiero, 87, pp. 52-59.
García Estévez, P. (2002) “Aplicaciones de las Redes Neuronales en finanzas”.
Documentos de Trabajo de la Facultad de Ciencias Económicas y Empresariales. Universidad
Complutense. España
Gondar Nores, J.E, (2003) Técnicas estadísticas aplicadas a las ciencias bancarias,
Data Mining Institute, España.
Gondar Nores, J.E, (2003) CRM y Data Mining, Data Mining Institute, España.
Hand, D.J.(2000) “Data Mining. New Challenges for Statisticians”. Social Science
Computer Review, 18, pp. 442-449.
Holland, J.H. (1975) Adaptation in Natural and Artificial Systems. University of
Michigan Press, Ann Arbor, Estados Unidos.
Joerding, W., Li, Y., Hu, S., y Meador, J.(1994) “Approximating production
technologies with feedforward neural networks”, en Johnson, J.D. y Whinston, A.B. (eds.)
Advances in Artificial Intelligence in Economics, Finance and Management, pp.211-216.
Kaastra I. y Boyd, M. (1996) Designing a neural network for forecasting financial and
economic time series, Ed. Neurocomputing 10, Elsevier, Estados Unidos.
Laffarga, J, Martín, J.L. y Vázquez, M.J. (1986) “El pronóstico a corto plazo del fracaso
en las instituciones bancarias: propuesta de una metodología y aplicaciones de la banca
española”. Esic-Market, 53, pp. 59-116.
Levi, J.P, Sulé Alonso, M.A. y Solazar Clavel, J. (2002) “La predicción y la
clasificación de datos en Marketing. Un estudio comparativo mediante técnicas multivariantes,
árboles jerárquicos y redes neuronales”. Revista ciencia Ergo Sum, 9, nº 1, Méjico.
López González, E. y Flórez López, R. (1999) “El análisis de solvencia empresarial
utilizando redes neuronales auto asociativas: el modelo Kohonen”. Proceedings of the VI
International Meeting on Advances in Computational Management, Reus, España.
Luan, J y Willet, T. (2001) “Data Mining and Knowledge management”. Paper
presented at the Association of Institutional Research Conference, Long Beach, CA.
Mar Molinero, C. y Serrano, C. (2001) “Bank Failure: A Multidimensional Scaling
Approach”. European Journal of Finance, 7, pp. 165-183.
Martín del Brío, B. y Sanz Molina, A. (2001) Redes Neuronales y Sistemas Borrosos,
ed. Ra-ma, España.
15
Masson, E. y Wang, Y. (1990) “ Introduction to computation and learning in artificial
neural networks”. European Journal of Operational Research, 47, pp. 1-28.
Montaño, J.J., Palmer, A., Sesé, A. y Beltrán, M. (2003) “Redes Neuronales Artificiales
aplicadas al análisis de datos turísticos”. En Técnicas y métodos estadísticos aplicados al sector
turístico, ed. Govern de las Illes Balears, España.
Otero, J.M y Trujillo, F. (1993) “Predicción Multivariante y multiperiodo de una serie
temporal económica mediante una red neuronal”. Revista de Estadística Española, 35, pp. 345375.
Pacheco, J.A. y Delgado, C. (1990) “Utilización de las redes neuronales artificiales en el
análisis y predicción del IPC Regional”. II Congreso de Economía de Castilla y León, España.
Palmer, A., Beltrán, M., Montaño, J.J., Jimenez, R., Sesé, A. y Franconetti, J. (2003)
“Minería de datos en Economía. Aplicaciones de redes neuronales artificiales a datos de la
Encuesta de gasto turístico de las Islas Baleares”. I Congreso de Economía de las Illes Balears,
España.
Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz,
Colinshearer y Rüdiger Wirth (2000) CRISP-DM 1.0 Step-by-step Data Mining guide.
Pitarque, A., Roy, J.F. y Ruiz, J.C. (1998) “Redes neurales vs Modelos estadísticos:
Simulaciones sobre tareas de predicción y clasificación”. Psicológica, 19, pp. 387-400.
Prado Lorenzo, J.M. (1991) La aplicación de sistemas expertos al análisis de estados
financieros. En memoria de Mª Angeles Gil Luezas, ed. AC, Madrid, España.
Quinlan, J.R. (1986) “Induction of decision trees”, Machine Learning, 1, pp. 81-106.
Rodríguez Marín, P. (1991) “Sistemas expertos en la gestión empresarial”. Dirección y
Progreso, 119, pp. 42-47.
Rumelhart, D.E., Hinton, G.E. y Willians, R.J. (1986) “Learning representations by
backpropagating errors”. Nature, 323, pp. 533-536.
Santín, D., Delgado, F.J. y Valiño, A. (2001) “Measuring Technical Efficiency whith
neural networks: a review”. The Efficiency Series Papers. Permanebte Seminar on Efficiency.
Efficiency Group at the Departament of Economics in Oviedo, Spain.
Sastri, T. (1994) “A neural network production planning system”, en Johnson, J.D. y
Whinston, A.B. (eds.) Advances in Artificial Intelligence in Economics, Finance and
Management, pp. 113-124.
Serrano, C. (1995) “Las redes neuronales autoorganizadas: aplicaciones en la gestión
empresarial”. En Sierra Molina, G. y Bonsón Ponte, E. (Eds.) Artificial Intelligence in
Accounting, Finance and Tax, pp. 287-310.
Serrano, C. (1997) “Feedforward Neural Network in the Classification of Financial
Iformation”. European Journal of Finance, 3, pp. 183-202.
Serrano, C. y Martín del Brío, B. (1993) “Predicción de la quiebra bancaria mediante el
empleo de redes neuronales artificiales”. Revista Española de Financiación y Contabilidad, 22,
pp. 153-176.
SPSS Inc. (2001) Clementine 6.0 User’s Guide.
Varetto, F. (1998) “Genetic algorithms applications in the analysis of insolvency risk”.
Journal of Banking and Finance, 22, pp. 1421-1439.
Warren, S. (1994) Neural Network and Statistica Models, SAS Institute Inc.
16
Descargar