Pontificia Universidad Javeriana Anexo 1. Glosario – Estudio de Minería de Datos Anexo 1. Glosario A continuación serán definidos los conceptos básicos necesarios para entender el presente trabajo de grado. Datos: Corresponden a números o texto que tiene las características para ser procesado en un computador. Las organizaciones actuales almacenan altas cantidades de datos en diferentes formatos, tales como transacciones u operacionales. También son denominados como hechos o valores discretos con las características para ser capturados, estructurados, procesados y transferidos. [1] Información: Relación de datos que pertenecen a un contexto específico, resultando en un conjunto de datos con mayor relevancia y valor para quien la reciba. Este conjunto de datos resultante cuenta ahora con una funcionalidad o propósito que permite ser usado para cualquier tipo de procedimiento y toma de decisiones. [1] Conocimiento: Información relacionada lógicamente con los usos en los que puede ser aplicado. La información es convertida en conocimiento a partir de patrones presentes en la misma. Se refiere al entendimiento mental que se tiene de la información y requiere análisis. [1] Atributo: Se refiere a las características atribuibles al conjunto de datos o valores predefinido. El valor de un atributo es una medida de la cantidad referente al atributo, dicha cantidad puede ser de carácter numérico o nominal. Los atributos numéricos, nombrados algunas veces como continuos pueden ser medidos en enteros o reales. De otro lado, los atributos nominales, nombrado algunas veces como categóricos, toman valores sobre un conjunto finito de posibilidades. No obstante, existen otro tipo de posibilidades, como radio, intervalos u ordinal. [2] Pronóstico: Es referente a la proyección o predicción sobre valores futuros de comportamiento de una serie de datos. [4] Las proyecciones son basadas en el comportamiento histórico de los datos y consideran factores adicionales que puedan afectar el Daniel Augusto Solano Oviedo Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008 Página 1 Anexo 1. Glosario – Estudio de Minería de Datos Pontificia Universidad Javeriana comportamiento futuro. Estos factores son determinados y establecidos de acuerdo al tipo de datos sobre los que se busca pronosticar y el contexto en que se desarrollen. También se puede apreciar como predicción, es decir, la estimación de valores futuros de una variable en función del comportamiento pasado. [3] Riesgo y Probabilidad: El riesgo es referente a incertidumbres sobre variables específicas de análisis que pueden perturbar los resultados de un proceso, sistema o individuo. Así mismo, los efectos o cambios resultantes de estas incertidumbres puede ser evaluados probabilísticamente y cuantificados por medio de modelos estadísticos. [5] De esta manera, la probabilidad se ha convertido en una disciplina fundamental para la ciencia y aplicable a diferentes campos. La probabilidad es una herramienta que permita la conceptualización y consecuentemente la solución a problemas reales, con base en técnicas de simulación de escenarios cuyos resultados varían uno del otro de acuerdo a la incertidumbre en las variables clave, o como se menciona previamente su riesgo. [6] Tabla de Hechos: Las tablas de hechos almacenan los indicadores a medir y las dimensiones representan los criterios de análisis. Almacena los datos numéricos y está enlazada a otras tablas dimensionales que almacenan información descriptiva acerca de los nombres de la dimensión. Los hechos normalmente están representados mediante tablas físicas ubicadas en la base de datos del almacén de datos. Las tablas de hecho están relacionadas con tablas de dimensiones en una relación varios a uno (M: 1), de esta manera una tabla de hechos está relacionada con muchas tablas de dimensiones. [7] Los hechos contienen: Un identificador. Llaves de dimensión, que lo enlaza con las dimensiones. Medidas. Varios tipos de atributos, los que usualmente se derivan de otros datos en el modelo. [11] Daniel Augusto Solano Oviedo Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008 Página 2 Anexo 1. Glosario – Estudio de Minería de Datos Pontificia Universidad Javeriana Modelo Estrella/ Dimensiones: Un modelo estrella es un conjunto de tablas de hechos en una base de datos vinculada, diseñada para representar ese conjunto de datos que almacena de manera multidimensional. Para construir un modelo multidimensional se deben identificar las medidas candidatas, que corresponden a aquellas que permiten medir el desempeño de un elemento dentro del proceso. Corresponden a datos numéricos. Así mismo, el número y tipo de dimensiones para cada medida utilizada dentro del modelo debe ser determinada apropiadamente. Cuando se definen las dimensiones, el hecho de añadir, eliminar o cambiar ciertas propiedades de las que se tomaron como dimensiones candidatas tiene un efecto en el contexto y consecuentemente en el significado de la medida candidata. [1] Recomendaciones: Las recomendaciones son los resultados finales evaluados conjunta e individualmente que permiten al individuo adoptar el camino que le sea más beneficioso. Las recomendaciones son resultantes de una investigación profunda sobre la información pertinente al contexto de evaluación y el comportamiento de variables que afecten dicha información. Una vez se realice dicha investigación, se procede a analizar la información y realizar un análisis comparativo de la misma. Con base en ese análisis, el individuo tiene herramientas que le permiten determinar la mejor decisión de acuerdo a sus intereses y de esta manera concluir una recomendación sobre la misma. Búsqueda de secuencias: Una secuencia consiste en una sucesión de etapas o similitud entre comportamiento de variables unidas consecutivamente por condiciones de transición. [8] De esta manera, una búsqueda de secuencias corresponde a la identificación de patrones de comportamiento consecutivos entre variables o datos. La búsqueda de secuencias le permite al usuario reconocer variables con comportamiento similares y que de cierta manera están afectando un proceso o por el contrario se ven afectada por otros factores del proceso. [9] Agrupamiento: Se refiere a ubicar datos conjuntamente de manera que todos presenten una similitud establecida bajo el criterio de dicha agrupación. Daniel Augusto Solano Oviedo Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008 Página 3 Pontificia Universidad Javeriana Anexo 1. Glosario – Estudio de Minería de Datos También se puede relacionar al término segmentación, asociado a la detección de un grupo que cumplan ciertas características. [1] Bibliografía [1] Maneiro, Mariela Yanina. Minería de Datos; 2008 [Citado 2013 Septiembre 14] Disponible en: http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosYany2008.p df [2] Ian H. Witten, Eibe Frank, Mark A. Hall. Data Mining Practical Machine Learning Tools and Techniques.3rd Ed; 2011. Páginas [39-60]. [3] Luis M. Molinero. Análisis de series Temporales; 2004 [Citado 2013 Septiembre 28] Disponible en: http://www.seh-lelha.org/tseries.htm [4] Distribución de probabilidades; [Citado 2013 Octubre 1] Disponible en: http://metodoscuantitativo2.galeon.com/enlaces2218784.html [5] Mario Castillo Hernández. Toma de Decisiones en las empresas. 1ra Ed; 2008. Página [22]. [6] Mario Castillo Hernández. Toma de Decisiones en las empresas. 1ra Ed; 2008. Página [33]. [7] Ania Cravero Leal, Samuel Sepúlveda Cuevas. Aplicación de Minería de Datos para la Detección de Anomalías: Un Caso de Estudio; 2009 [Citado 2013 Octubre 1] Disponible en: http://ceur-ws.org/Vol-558/Art_8.pdf. [8] Secuencial Lineal; [Citado 2013 Octubre 2] Disponible en: http://www.sc.ehu.es/sbweb/webcentro/automatica/WebCQMH1/PAGINA%20PRINCIPAL/ PROGRAMACION/GRAFCET/ESTRUCTURAS%20BASICAS%20DEL%20GRAFCET/S ECUENCIA%20LINEAL/secuencia_lineal.htm Daniel Augusto Solano Oviedo Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008 Página 4 Pontificia Universidad Javeriana Anexo 1. Glosario – Estudio de Minería de Datos [9] Michael J. A. Berry, Gordon S. Linoff. Mastering data mining the art and science of customer relationship management; 2da Ed; 2004. Daniel Augusto Solano Oviedo Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008 Página 5