Bases de Datos multidimensionales para datos educacionales Carolina Zambrano Matamala Gabriel Poblete Cuadra [email protected] Abstract – La mayoría de los artículos y casos de estudio de Inteligencia de Negocios (IN) están relacionados con el impacto o beneficio de aplicar IN a grandes empresas. Sin embargo, aunque existen trabajos relacionados de IN hacia contextos educacionales, la mayoría de estos trabajos sólo se han concentrado en aplicar Data Mining a las bases de datos educacionales (EDM), habiendo un claro sesgo hacia el uso de esta tecnología en otros contextos. En este trabajo se desarrolló un primer avance de Base de Datos multidimensional para datos educacionales de PISA pertenecientes a la OECD. Los resultados de la implementación muestran que Chile y Brazil son los países de Latinoamérica con las mejoras más significativas entre los años 2000 y 2009, además de existir una clara relación entre el nivel socioeconómico de los estudiantes y su rendimiento. Como futuros trabajos se podría volver a analizar la información con los resultados del estudio para la versión 2012, los cuales a la fecha no han sido liberados. Además de incluir nuevas dimensiones de análisis en el estudio. Index Terms - Inteligencia de Negocios – BDM, PISA, Educación. I. INTRODUCCIÓN La Inteligencia de Negocios (IN) es el conjunto de metodologías, aplicaciones y tecnologías que permiten entre otras reunir, depurar y transformar datos de los sistemas transaccionales e información desestructurada en información estructurada, para su explotación directa o para su análisis [1]. En general, la mayoría de los artículos y casos de estudio de IN están relacionados con el impacto o beneficio de aplicar ésta a grandes empresas [2]. Si bien, las técnicas y tecnologías de IN nacieron para ayudar a los analistas a descubrir la información oculta en sus sistemas transaccionales, esto no significa que la tecnología no pueda ser aplicada a otros contextos, como por ejemplo el educacional. En ese sentido, existen artículos relacionados de IN hacia contextos educacionales. Sin embargo, la mayoría de estos Escuela de Ingeniería Universidad Católica del Norte Coquimbo,Chile. [email protected] artículos sólo se han concentrado en aplicar Data Mining o EDM (Educational Data Mining) que es sólo una de las técnicas de IN disponibles [3,14]. Alternativamente a los EDM, el uso de base de datos multidimensionales (BDM) podría ofrecer importantes oportunidades de aplicación en el ámbito educacional. Una BDM es un repositorio de datos que proporciona un entorno integrado para consultas de soporte a las decisiones que requieren de agregaciones, y de enormes cantidades de datos históricos. Las BDM son Data Warehouse relacionales en los que la información se puede organizar según el modelo estrella [4]. Para probar el uso de BDM en educación, en este trabajo se desarrolló una base de datos multidimensional para analizar los datos educacionales de PISA [5]. Ésta es una prueba internacional realizada por la OECD y dirigido a estudiantes de 15 años. PISA, es un estudio comparativo de los sistemas educativos de los países miembro de la OECD. El estudio, mide si los estudiantes tienen la capacidad de reproducir lo que han aprendido, de transferir sus conocimientos y aplicarlos en nuevos contextos académicos y no académicos. Además busca identificar si ellos son capaces de analizar, razonar y comunicar sus ideas efectivamente [5]. La prueba PISA se realiza cada tres años, y en cada ciclo se enfatiza uno de los tres dominios de evaluación (Lectura, Matemáticas y Ciencias), mientras que los otros dos son evaluados con menor profundidad. En el 2000 el principal dominio fue Lectura, en el 2003 Matemáticas, en el 2006 Ciencias y en el 2009 se regresa a Lectura, y así sucesivamente. A continuación el artículo está dividido en cuatro secciones. La primera sección define IN, su arquitectura y describe el modelo lógico y conceptual, así como también los datos para el desarrollo de la BDM. La segunda sección presenta la metodología usada. La tercera sección presenta los principales resultados del estudio. Por último se establecen las principales conclusiones y los trabajos futuros. II. MARCO TEÓRICO A. Inteligencia de Negocios También conocida como Inteligencia Empresarial o por sus siglas en ingles BI (Business Intelligence), se define como el conjunto de tecnologías, aplicaciones y prácticas para la recolección, integración, análisis y presentación de la información empresarial [6]. La Figura 1 muestra una arquitectura general de IN y sus componentes de acuerdo a [1]. Los componentes son: Sistemas fuentes, ETL (Extraction, Transformation and Load), Estructuras multidimensionales y de Análisis, OLAP, Data Mining. de los datos operativos de la empresa. Sin embargo, el desarrollo de un Data Warehouse puede ser una tarea compleja y costosa. Es por ello que se puede implementar un Data Warehouse, construyendo Data Marts que son pequeños Data Warehouse orientados a áreas específicas de la empresa [7,8,13]. Finalmente una base de datos multidimensional es un repositorio de datos que proporciona un entorno integrado para consultas de soporte a las decisiones que requieren de agregaciones, y de enormes cantidades de datos históricos. La Figura 2 muestra el ámbito de aplicación de los conceptos definidos anteriormente. BDM DW DM Figura 2 – Ámbito de aplicación de DW, DM y BDM DW ERP ETL Archivos DM OLAP DATA MINING BDM Figura 1 – Arquitectura General de Inteligencia de Negocios La IN puede ser descrita como un proceso que comienza en los sistemas fuentes de información. Éstos básicamente corresponden a los datos de los sistemas operacionales o transaccionales, y que incluyen aplicaciones desarrolladas a medida tales como ERP (Enterprise Resource Planning), CRM y otros. Luego de haber identificado las fuentes de información, el segundo componente corresponde al proceso de ETL (Extraction , Transformation and Load), que permite mover los datos desde múltiples fuentes, reformatearlos, limpiarlos, y cargarlos en otras bases de datos, tales como DataMart o Data Warehouse. Estas base de datos son usadas para el análisis [7]. Como tercer componente, sigue la creación de las estructuras multidimensionales en las que podemos encontrar Data Warehouse, Data Marts y BDM. Un Data Warehouse es una base de datos que centraliza todos los datos de la empresa creada para soportar las aplicaciones de toma de decisiones [7]. Esta base de datos se carga a partir Por último, existen distintas tecnologías que nos permiten analizar la información que reside en un Data Warehouse, pero la más extendida es el OLAP. Los usuarios necesitan analizar información a distintos niveles de agregación y sobre múltiples dimensiones. Por ejemplo, ventas de productos por zona de ventas, por tiempo, por clientes o tipo de cliente y por región geográfica. Los usuarios pueden hacer este análisis al máximo nivel de agregación o al máximo nivel de detalle. OLAP provee de estas funcionalidades y algunas más, con la flexibilidad necesaria para descubrir las relaciones y las tendencias que otras herramientas menos flexibles no pueden aportar. A estos tipos de análisis se les llama multidimensionales, porque facilitan el estudio de un hecho desde distintas perspectivas o dimensiones [9]. Finalmente otra herramienta de análisis es Data Mining o minería de datos. Data Mining es el proceso de analizar de manera "semi-automática" grandes bases de datos para buscar patrones útiles. Similar al descubrimiento de conocimiento en inteligencia artificial. En otras palabras, la minería de datos encuentra reglas y patrones [15]. La tecnología Data Mining trata con volúmenes de datos almacenados principalmente en disco. Es semi-automática porque requiere de intervención manual, un pre-proceso proceso (qué patrón busca buscar) y un post-proceso proceso (encontrar nuevos patrones novedosos). B. Modelo Multidimensional Conceptual CMDM Existen variadas metodologías [13] y modelos conceptuales para modelar lar una BDM [8,10]. Para realizar el modelado multidimensional se escogió el modelo CMDM (Conceptual MultiDimensional Model) por su simplicidad. simplicidad Éste presenta tres estructuras básicas: niveles, dimensiones y relaciones multidimensionales. Los niveles representan un conjunto de objetos que son del mismo tipo. Para representar un nivel el modelo utiliza un rectángulo que contiene el nombre y la estructura del tipo de ese nivel. Los niveles se organizan en jerarquías arquías y cada jerarquía está compuesta por uno o varios niveles. En cada jerarquía se tiene una relación 1--n entre objetos de nivel superior e inferior [8]. En la Figura 3 se muestra un ejemplo de un nivel en el modelo CMDM. que se pueden construir a partir de los niveles de un conjunto dado de dimensiones. Por lo tanto, el esquema de una relación dimensional está dado por un grafo en forma de estrella. El nodo central es de forma oval y tiene el nombre de la relación dimensional imensional y los nodos “satélite” son rectangulares y tienen el nombre de cada una de las dimensiones que participan de la relación [8]. En la Figura 5 se muestra un ejemplo del modelo CMDM. Figura 5 - Ejemplo lo del modelo CMDM C.. Modelo Multidimensional Lógico Estrella Vendedor Nombre: String Apellido: String Cedula: String Figura 3 - Ejemplo de Nivel en CMDM Las dimensiones están determinadas por una jerarquía de niveles. En el modelo una dimensión se representa por un rectángulo dentro del cual aparece un nombre para la dimensión y un grafo dirigido en donde los nodos son los niveles que participan de esa dimensión [8].. En la Figura 4 se muestra unn ejemplo de dimensión en el modelo CMDM. Geografía Región Ciudad Figura 4 - Ejemplo de Dimensión en CMDM Una relación dimensional representa un conjunto de cubos, tomado del conjunto de todos los cubos El esquema estrella consiste en una o más tablas centrales denominadas tablas de hechos rodeadas por una serie de tablas de dimensiones que forman una especie de “estrella”. Cada tabla de hecho corresponde con cada hecho definido en el modelo conceptual así como cada tabla de dimensión se corresponde con cada dimensión definida. La tabla de hechos representa una relación “muchos a muchos” entre todas las tablas de dimensiones que relaciona. Sin embargo, representa una relación “muchos a uno” con cada tabla de dimensión por separado. Por Po lo tanto, la clave primaria de la tabla de hechos está compuesta por las claves de las tablas de dimensiones con las que se relaciona [7]. En algunas ocasiones puede suceder que la clave primaria compuesta descrita anteriormente no sea suficiente para identificar a las instancias de la tablaa de hecho. En estos casos se introduce una componente más en la clave primaria de la tabla de hechos según el dominio que se modele para identificar dichas instancias. Por otro lado el esquema estrella utiliza la desnormalización para definir las tablas de hechos y de dimensiones por dos razones fundamentales. fundamentales La primera se debe a que es mucho más intuitivo para el análisis multidimensional al estar muy próximo al proceso cognitivo seguido al llevar a cabo este tipo de análisis: hechos y dimensiones. dimensiones La segunda razón es porque al existir un número mínimo de relaciones entre tablas, la recuperación de los datos es más rápida, más aun debido al gran volumen de datos manejados por las aplicaciones OLAP. En la Figura 6 se muestra un ejemplo del esquema estrella [7]. Figura 6 - Ejemplo de Esquema Estrella Por otro lado, se puede observar en la Figura 6 que en el esquema estrella no se soporta explícitamente la definición de jerarquías de clasificación de los elementos de dimensión. Sin embargo, las jerarquías son expresadas expresa en la implementación de dicho esquema a través de los denominados atributos de nivel definidos en cada una de las dimensiones. Este atributo contendrá números arbitrarios que identificarán identificar a cada nivel de la jerarquía [7]. D. Análisis de los datos de PISA. El siguiente apartado ado tiene como objetivo comprender la naturaleza de los datos para poder definir los indicadores dentro del esquema conceptual multidimensional. El proceso de análisis de los datos comprende una primera parte, que es la recolección de los distintos manuales es de las bases de datos de la prueba PISA. Estos documentos se encuentran en la página oficial de la OECD y se encuentran bajo el nombre de Manual for the PISA database [5]. Cada uno de estos documentos proporciona toda la información relacionada con las bases de datos para cada una de las versiones del estudio. estud En ellos se puede destacar: la estructura e información disponible del estudio, la estructura de los cuestionarios, los estimadores de rendimiento y los índices derivados. La segunda parte del análisis de los datos comprendió la comprensión de la estructura de los mismos. Cada versión del estudio de PISA consta de una tabla de 400 a 450 atributos por alumno. Éstos se dividen en cuatro categorías principales: atributos de identificación del alumno, atributos de los cuestionarios,, atributos de los índices calculados y atributos de estimadores de rendimiento. Los atributos de identificación permiten individualizar de manera única a un alumno dentro del estudio. La identificación de un alumno del estudio consiste básicamente de tres atributos que juntos forman de manera única un identificador para cada alumno. alumno Los atributos de los cuestionarios contienen las respuestas de los alumnos a cada una de las preguntas de los distintos cuestionarios. Los nombres que son usados para identificar estos atributos butos en la base de datos internacional están directamente relacionados con la versión internacional de los cuestionarios. Cada nombre de atributo consiste de siete caracteres. calculados son Los atributos de los índices calculados, índices calculados a partir de las l respuestas de los alumnos en los cuestionarios. La nomenclatura que utilizan estos atributos para ser identificados dentro del estudio es solamente una abreviación del significado del índice. Por ejemplo, HISEI corresponde a Highest International SocioSocio Economic Index. Para este estudio solamente fueron seleccionados dos índices calculados. Los índices fueron HISEI que corresponde al mayor índice socioeconómico de los padres (calculado a partir de las posesiones e ingresos estimados de los padres) y HISCED que corresponde a Highest International Standard Classification of Education que corresponde al mayor grado de educación alcanzado por los padres del alumno. alumno Estos índices, fueron seleccionados debido a que están presentes en todas las versiones del estudio y además por or mantener su forma de cálculo. El estudio proporciona un estimador de rendimiento conocido como valores plausibles que permiten determinar estadísticas de rendimiento a nivel de población. Los valores plausibles fueron desarrollados para el análisis de los datos de la NAEP de 1983-1984 1984 (Evaluación Nacional del Progreso Educativo), por Mislevy, Sheehan, Beaton y Johnson [11],, basado en la teoría de la imputación de valores ausentes o perdidos de Rubin.. Los valores plausibles se utilizaron en todos los estudios posteriores NAEP, TIMSS y posteriormente PISA. le de describir los valores La manera más simple plausibles, es decir, que éstos sean una representación de la gama de capacidades de un alumno que pueden suponerse razonablemente. En lugar de estimar directamente la capacidad de un alumno, se estima una distribución de probabilidad para .. Es decir, en lugar de obtener una estimación puntual para de un alumno, alumno un abanico de valores posibles para la magnitud de un alumno,, con una probabilidad asociada para cada uno es estimado. Los valores plausibles son valores aleatorios orios de esta distribución de para un alumno [5]. Por ultimo si es el estadístico poblacional y el estadístico de interés calculado sobre un valor plausible, entonces: ∗ ∑ . (1) Siendo M el número de valores plausibles. Para este estudio se utilizaron los valores plausibles para estimar el rendimiento rendimi a nivel poblacional de los alumnos por país. III. METODOLOGÍA DE DISEÑO El proceso de desarrollo de la implementación estuvo determinado por el desarrollo iterativo de cubos. Éste tuvo como propósito crear cada vez una versión más completa de la implementación. El primer cubo tuvo como objetivo probar el rendimiento de la herramienta SQL Server 2008 y sus características de diseño de cubos, medidas, medidas calculadas, dimensiones entre otros. El segundo cubo tuvo como objetivo aumentar la funcionalidad del mismo,, agregando una nueva dimensión y medida. También buscaba analizar la influencia de las características socioeconómicas en el desempeño de los alumnos. Esto a través de la inclusión ión de una dimensión con estos datos. Por último, el tercer cubo tuvo uvo como objetivo determinar la relevancia de la inclusión de la dimensión, tiempo dentro del análisis de los datos, así como el nivel de escolaridad alcanzado por los padres. El diseño de cada cubo estuvo definido por una metodología en común. Ésta permitió definir los procedimientos para alcanzar nuestros objetivos. Cabe destacar que existen muchas metodologías paraa el diseño de un Data Warehouse [13] sin embargo, este trabajo no tiene como objetivo demostrar el uso de una de ellas en el ámbito de datos educacionales. A continuación se describen cada uno de los procesos necesarios para implementar una Base de Datos Multidimensional [12]. [12] Proceso de Modelado Conceptual: Este proceso permitió capturar los requerimientos de información necesarios para poder generar los indicadores de gestión. El esquema resultante, que contempló las dimensiones, medidas y relaciones multidimensionales fue independiente del motor utilizado para generar el cubo resultante. Proceso de Modelado Lógico y Físico: Este proceso tuvo como entrada un esquema conceptual multidimensional y generó un esquema lógico y físico.. L La principal dificultad de este proceso radicó en generar un modelo lógico que satisficiera no sólo lo los requerimientos funcionales de información, información sino también las restricciones. Proceso de ETL: Este proceso considerado uno de los más largos dentro del desarrollo, constó básicamente de extraer los datos desde los sistemass fuentes, transformarlos y posteriormente cargarlos en la Base de Datos Multidimensional. Proceso de Análisis isis ROLAP: Proceso mediante el cual los usuarios exploraron explora la información mediante las distintas operaciones ROLAP. IV. RESULTADOS Como primera etapa del proceso de desarrollo se diseñó el esquema conceptual el cual presentó present las dimensiones, medidas y relaciones multidimensionales es como se muestra en la Figura 7. El modelo conceptual utilizado para desarrollar el esquema resultante se basó en el modelo CMDM de Carpani [8]. Figura 7 - Esquema de la implementación El esquema tuvo seis dimensiones, que fueron las diferentes perspectivas desde la cuales se analizó la información: • • • • • • Alumno: Contuvo los datos de los alumnos como lo son año de nacimiento, sexo, entre otros datos. País: Contempló los países de los cuales provienen los alumnos. Tipo de Prueba: Describió Describ las pruebas que rinden los alumnos. Socioeconómica: Describió Describ el nivel socioeconómico al cual un alumno pertenecía. Tiempo: Informaba de las fechas de las pruebas. Padres: Esta dimensión contuvo información acerca de los niveles de escolaridad alcanzados por los padres de los alumnos que rinden las pruebas. Por otro lado las medidas resultantes como cantidad de alumnos y promedio pueden agregarse o desagregarse a través avés de las dimensiones. Luego de haber diseñado el esquema conceptual multidimensional para la implementación, la siguiente etapa dentro del proceso de desarrollo fue elaborar el diseño del esquema lógico de la implementación. Para ello se utilizó utiliz el esquema en estrella de forma de simplificar las uniones entre las dimensiones y la tabla de hecho. Cabe destacar que el esquema, correspondió correspond a uno desnormalizado. La Figura 8 ilustra el esquema multidimensional lógico de la implementación. implementación La última etapa dentro del proceso de desarrollo fue la exploración de la información mediante las distintas operaciones ROLAP. En esta etapa, etapa de forma casi intuitiva exploro explor la información buscando tendencias y patrones que resultaran resulta de interés. Figura 9 - Etapas del proceso ETL A continuación se muestran una serie de reportes generados a través de la implementación. El Gráfico 1 muestra la evolución de los puntajes promedios para los países participantes de Latinoamérica desde el año 2000 al 2009. La tendencia muestra un crecimiento sostenido en Chile y Brasil logrando una mejora por sobre los 30 puntos cada uno. Gráfico 1 - Puntajes Promedios Latinoamerica 2000-2009 2000 El Gráfico 2 muestra los puntajes promedios agrupados por nivel socioeconómico en Chile desde el año 2000 al 2009. 2009 Existe una diferencia de más de 100 puntos entre los niveles socioeconómicos más bajos y los más altos. Figura 8 - Esquema Lógico de la implementación Dentro de la etapa del proceso de ETL, la implementación consideró los siguientes pasos mostrados en la Figura 9: Gráfico 2 - Puntajes Promedios por Nivel Socioeconómico El Gráfico 3 muestra los puntajes promedios agrupados por el nivel de escolaridad olaridad alcanzado por los padres de los alumnos. Los niveles son: • Nivel 0: Sin Educación.. • Nivel 1: Primaria. • Nivel 2: Primer ciclo de Secundaria. • Nivel 3: Secundaria Humanista. • Nivel 4: Secundaria Nivel Técnico. • Nivel 5: Pregrado. • Nivel 6: Postgrado. Gráfico 4 - Puntajes Promedios por Prueba El Gráfico 5 muestra la evolucion de los puntajes promedios para la prueba de lenguaje por género g entre los años 2000 y 2009 en Chile. Las mujeres mostraron una clara tendencia en alza en esta prueba, mientras que los hombres matuvieron sus resultados entre el 2006 y el 2009. Gráfico 5 - Puntajes Promedios de Lenguaje por Género G Gráfico 3 - Puntajes Promedios por Nivel de Escolaridad de los Padres El Gráfico 4 muestra la evolución de los puntajes promedios de las distintas pruebas desde el año 2000 al 2009 en Chile. Como se observa la prueba de lenguaje ha sido aquella que presenta el mejor progreso con una diferencia de 60 puntos entre el 2000 y el 2009, seguida da de ciencias con una mejora de 30 puntos. El Gráfico 6 muestra la evolucion de los puntajes promedios para la prueba de ciencias por género g entre los años 2000 y 2009 en Chile. Tanto mujeres como hombres mostraron una tendencia positiva. Sin embargo, loss hombres en promedio obtuvieron mejores resultados en esta prueba. Gráfico 6 - Puntajes Promedios en Ciencias por Género G El Gráfico 7 muestra la evolución evoluci de los puntajes promedios para la prueba de matem matemáticas por género nero entre los años 2000 y 2009 en Chile. En esta prueba los puntajes de los hombres presentó una clara tendencia positiva,, mientras que las mujeres tienen un comportamiento más m anómalo. Gráfico 9 - Nivel de Escolaridad de los Padres en los países latinoamericanos CONCLUSIONES Gráfico 7 - Puntajes Promedios en Matemáticas por Genero El Gráfico 8 muestra los puntajes promedios de Chile y algunos países miembros de la OECD. Como se observa algunos países miembros de la OECD tuvieron una clara tendencia a la baja baja. Mientras que otros mantuvieron niveles de rendimiento. Es interesante observar que Chile se encontraba a 30 puntos de los países miembros de la OECD, siendo uno de los países con los mejores progresos académicos. En el artículo, se ha presentado resentado el diseño inicial e implementación de una base de datos multidimensional para datos educacionales con el objetivo de mostrar la utilidad de la técnica de bases de datos multidimensionales. El haber aplicado BDM a los datos educacionales de PISA, dio la posibilidad de buscar los patrones y tendencias de mayor interés, y de cruzar estas tendencias con las variables más relevantes (como sexo, grupo socioeconómico, nivel educacional de los padres, etc). Para lo cual fue necesario analizar previamente la información que entrega la OECD a través de los resultados de la prueba PISA. Los resultados de la implementación mostraron que Chile fue el país con los mejores puntajes promedios de Latinoamérica, y que junto con Brasil lograron las mejoras más significativas entre los años 2000 y 2009. Gráfico 8 - Chile VS Países OECD El Gráficoo 9 muestra el nivel de escolaridad escolari de los padres para los países de Latinoamérica entre el año 2000 y 2009. Se observa que Chile junto con Uruguay muestran los niveles de escolaridad más altos. También se mostró una relación directa entre el nivel socioeconómico de los alumnos y su puntaje alcanzado. Esto es, a medida que aumentó aument el nivel socioeconómico del alumno también lo hizo su puntaje promedio. Una tendencia que existe en todos los países de Latinoamérica. Por otro lado los resultados mostraron que algunos países desarrollados dos han paulatinamente disminuido sus puntajes promedios en las diferentes pruebas. pruebas A diferencia de Chile que ha significativamente mejorado sus puntajes. Un punto clave dentro del proceso de desarrollo e implementación fue el análisis de los datos proporcionados por el estudio de PISA, que permitió la generación de aquellas medidas de mayor interés. Cabe destacar que en esta etapa también se descartaron otras posibles medidas de interés por no tener la continuidad necesaria de datos dentro de todas las versiones versi del estudio. El desarrollo iterativo permitió entre otras cosas ir ajustando el proceso de desarrollo a las capacidades técnicas operativas a las cuales se estaba sujeto. Por otro lado, permitió también generar una retroalimentación de la información que se iba generando dando pautas, de cuáles eran los tipos de datos que podían aportar más al análisis de la información y, finalmente, ir desarrollando y perfeccionando los esquemas multidimensionales lógico y conceptuales. Además, la reportabilidad generada superó las expectativas. Eso se debió principalmente a la incorporación de la dimensión tiempo que permitió darle toda una nueva arista o perspectiva a la información disponible. Si bien, el estudio se centró en el análisis de la información de Chile, los esquemas lógicos y conceptuales son aplicables a cualquier país o región del estudio. A la fecha las bases de datos para el estudio correspondiente al año 2012 todavía no habían sido liberadas para su uso, por lo que podría ser interesante volver a analizar la información con otro año más de estudio. Además de mejorar la metodología de diseño aplicada usando alguna de las metodologías propuestas para el diseño de data warehouse. [5] OECD, PISA Data Analysis Manual. pp. 478, 2009. [6] H. P. Luhn, “A Business Intelligence System,” IBM Journal of Research and Development, vol. 2, no. 4, pp. 314–319, Oct. 1958. [7] R. Kimball and M. Ross, The Data Warehouse Toolkit. pp. 449, 1998. [8] F. Carpani, “CMDM : Un Modelo Conceptual para la Especificación de Bases,” 2000. [9] S. Chaudhuri and D. Umeshwar, “An overview of data warehousing and OLAP technology,” vol. 26, no. 1. pp. 65–74, 1997. [10] J. C. Trujilo, “El modelo GOLD: modelo conceptual orientado a objetos para el diseño de aplicaciones OLAP,” 2001. [11] R. Carstens and D. Hastedt, “The effect of not using plausible values when they should be : An illustration using TIMSS 2007 grade 8 mathematics data.” pp. 12, 2010. [12] C. Zambrano, D. Rojas, K. Carvajal, and G. Acuña, “Análisis de rendimiento académico estudiantil usando data warehouse y redes neuronales,” Revista chilena de Ingenieria, vol. 19, no. 3, pp. 369–381, 2011. [13] A. Cravero and S. Sepúlveda, "A chronological study of paradigms for datawarehouse design". INGENIERÍA E INVESTIGACIÓN VOL. 32 No. 2, pp. 58-62, 2012. [14] M. A. Pinninghoff, P. Salcedo and R. Contreras, "Neural Networks to Predict Schooling Failure/Sucess". Lecture Notes Computer Science. Vol. 4528. 2007. [15] A.Berson, S J. Smith "Data Warehousing, Data Mining, and Olap" McGrawHill.1997. REFERENCIAS [1] S. Chaudhuri, U. Dayal, and V. Narasayya, “An overview of business intelligence technology,” Communications of the ACM, vol. 54, no. 8, pp. 88–98, Aug. 2011. [2] L. Calzada and J. L. Abreu, “El impacto de las herramientas de inteligencia de negocios en la toma de decisiones de los ejecutivos,” International Journal Of Good Conscience, vol. 4, no. 2, pp. 16–52, 2009. [3] R. Baker and K. Yacef, “The State Educational Data Mining in 2009 : Review and Future Visions,” Journal Educational Data Mining, vol. 1, no. pp. 3–17, 2009. [4] E. Baralis, S. Paraboschi, and E. Teniente, “Materialized View Selection in a Multidimensional Database,” VLDB, vol. 97, pp. 156–165, 1997. of A of 1,