Técnicas de Minería de Datos aplicadas al abandono de los estudiantes de la Facultad de Ciencias Exactas Resumen Es alto el porcentaje de alumnos que ingresan a las universidades públicas argentinas y abandonan sus estudios. La Universidad Nacional de Salta (UNSa) no es ajena a esta situación. El objetivo de este trabajo fue utilizar técnicas de Minería de Datos para obtener modelos que permitan identificar, con antelación, a los estudiantes con mayor riesgo de deserción y los factores de abandono, en las carreras de la Facultad de Ciencias Exactas de la UNSa. Se utilizó técnicas de agrupamiento para caracterizar grupos de estudiantes, regresión logística binaria para predecir la probabilidad de la continuidad o no en los estudios de los estudiantes y árboles de clasificación para obtener un modelo que permita predecir los factores que propician la deserción de los estudiantes, basado en los datos disponibles. En este trabajo se utilizó datos correspondientes a la base histórica de los períodos 2015, 2016 y 2017, de los alumnos de la facultad y el lenguaje de programación R, para la implementación de los métodos. 1. Introducción Uno de los principales problemas que enfrentan las universidades públicas argentinas es el abandono estudiantil. El abandono antes de concluir los estudios atraviesa a más del 50% de los alumnos universitarios [18]. La Universidad Nacional de Salta (UNSa) no es ajena a esta situación. Alrededor del 60% de los alumnos que ingresan, abandonan sus estudios [20]. El análisis de la situación del sistema universitario argentino, realizado por el Centro de Investigaciones Sociales y Económicas (CISE), muestra un indicador que evidencia un muy bajo desempeño del rendimiento de los estudiantes. Este se refiere a la cantidad de materias aprobadas por año. El 35,7% no aprueba ninguna y el 15,3% sólo una. Las Universidades con mayor proporción de alumnos que no aprueban más de una materia al año son: Salta (70,1%), Jujuy (69,3%) y Córdoba (66,3%)[10]. La Minería de Datos o Data Mining es un proceso que reúne un conjunto de herramientas de diversas ciencias (Estadísticas, informática, Matemáticas, Ingeniería, entre otras). Este proceso tiene por objetivo extraer información útil o conocimiento oculto de grandes volúmenes de datos que no sería posible por procedimientos tradicionales de análisis de datos [11]. Existen diversos estudios y publicaciones que abordan, en distintas asignaturas, el problema del abandono estudiantil utilizando técnicas de minería de datos. Este trabajo propone la aplicación de dos técnicas predictivas, a la cohorte 2015 de todas las carreras de grado de la Facultad de Ciencias Exactas. La implementación de las técnicas se realizó con R, que es el lenguaje más utilizado en investigación científica, de filosofía Open Source. El artículo se ha estructurado en seis secciones, incluida la presente introducción. En la segunda sección, se presenta el ‘Estado del Arte’ con una revisión de trabajos en los que se analiza aspectos relacionados con el abandono estudiantil, aplicando técnicas de Minería de Datos. La tercera, presenta el proceso descubrimiento de conocimiento de bases de datos (KDD) y conceptos asociados a la Minería de Datos. En la cuarta sección, se comenta el tipo de investigación realizada, el contexto desde donde se obtuvieron los datos y a continuación los pasos realizados para preparar la vista minable, que se utilizará en la etapa de minería de datos. Además se explica todas las acciones realizadas, los métodos empleados y aspectos considerados, para obtener los modelos necesarios para el logro de los objetivos propuestos. En la quinta sección, se describe, interpreta y evalúa los resultados obtenidos con los métodos de agrupamiento, regresión logística y árboles de decisión aplicados. Finalmente, se exponen las conclusiones extraídas. 2. Estado del Arte En la literatura, se ha analizado la educación universitaria para conocer más a fondo aspectos relacionados con la deserción aplicando técnicas de Minería de Datos. Se presentan a continuación algunos de los trabajos realizados. Eckert and Suenaga [8] analizan la información académica de los estudiantes de la carrera de Ingeniería en Informática de la Universidad Gastón Dachary en Argentina. La fuente de datos contiene información proporcionada al ingreso (personales y antecedentes educativos) y la que se genera durante el periodo de estudios. Aplican algoritmos de clasificación como árboles de decisión, redes bayesianas y reglas. Se identifica como variables influyentes en la deserción, asignaturas aprobadas, cantidad y resultado de asignaturas cursadas, procedencia y edad de ingreso del estudiante. Sotomonte et al., [21] generaron un modelo de árbol de decisión implementado con el algoritmo J48 mediante el uso de la herramienta WEKA. Se identificaron como factores influyentes: cantidad de materias cursadas, género y situación socioeconómica. A drogué and Fanelli [1] han calculado las tasas globales de abandono por nivel socioeconómico en base a información provista por la Encuesta Permanente de Hogares y analizado los principales factores demográficos y socioeconómicos que inciden en la probabilidad de abandonar los estudios universitarios. Entre los factores asociados con la probabilidad de abandonar los estudios superiores, utilizando regresión logística, se destacan: el nivel socioeconómico del hogar, el clima educativo del grupo familiar, estar cursando el primer año de los estudios universitarios y el ser estudiante de primera generación. Miranda and Guzmán [15] a partir de los resultados obtenidos sobre datos proporcionados por las carreras de Ingeniería de la Universidad Católica del Norte en Antofagasta y Coquimbo (Chile) determinan que las variables que mejor explican la deserción de un estudiante son las razones socioeconómicas y el puntaje de ingreso a la universidad (PSU). Según el árbol de decisión construido se concluye que la retención se sitúa en un 78,3%. Bitocchi [4] seleccionó al azar siete cursos o materias, con mayor índice de deserción. Se utilizó el método de árboles de decisión. Entre los principales resultados se pudo observar que los modelos predictivos contribuyeron a reducir en un 25% y 40% los niveles de desaprobación y las variables que mejor predijeron fueron la carrera que estudian (vocación), el número de veces que se matriculan en la asignatura y la nota que tuvieron en Matemática o Comunicación, cuando cursaron el quinto año de secundaria. 3. Conceptos de Minería de datos La Minería de Datos (Data Mining) es la fase más representativa del proceso de “Descubrimiento de Conocimiento en Base de Datos” (KDD), por lo que algunos autores usan los términos Minería de Datos como sinónimo de KDD. La extracción o descubrimiento de conocimiento en base de datos (Knowledge Discovery in Databases, KDD) se puede definir como: el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos [9]. “Es un proceso complejo que incluye no sólo la búsqueda de cualidades, relaciones y patrones globales que existen en los datos, sino también la evaluación y posible interpretación de los mismos” [12]. El proceso del descubrimiento del conocimiento es iterativo e interactivo, y consiste de cuatro fases (Fig. 1). Figura 1. Etapas en el proceso KDD La Minería de Datos es la aplicación de los métodos de aprendizaje y estadísticos para la obtención de patrones y modelos. Tiene por objetivo analizar los datos para producir nuevo conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo basado en los datos recopilados para este efecto. El modelo es una descripción de los patrones y relaciones entre los datos que pueden usarse para hacer predicciones, para entender mejor los datos o para explicar situaciones pasadas (Hernández Orallo et al., [12]). En la actualidad existen muchas aplicaciones de minería de datos muy potentes, con muchas herramientas que facilitan su aplicación en distintos proyectos. En este trabajo se utilizó RStudio, para el lenguaje de programación R. RStudio es un entorno de desarrollo integrado (IDE) que proporciona una interfaz al agregar muchas funciones y herramientas que facilitan la programación. “Este entorno de desarrollo tiene una versión gratuita, open source y multiplataforma de escritorio para disponer de un entorno integrado de desarrollo, y que facilita tanto la tarea de uso interactivo de R como la programación de scripts en R” [7]. 4. Metodología de la investigación Se realizó una investigación propositiva y experimental. Propositiva, ya que se fundamentó en la necesidad de reducir el índice de abandono estudiantil en la Facultad de Ciencias Exactas y tratar de orientar a los directivos a tomar mejores decisiones al implementar acciones para superar la problemática actual. Experimental, pues utilizó un conjunto de datos correspondientes a la base histórica. 4.1 Caso de estudio ● La Universidad Nacional de Salta tiene su sede central de gobierno y administración en la ciudad de Salta. Está integrada por Facultades, Departamentos, Sedes Regionales, Institutos de Investigación y Establecimientos de Enseñanza Preuniversitaria. ● ● ● ● La Facultad de Ciencias Exactas es una de las seis facultades de la Universidad. Está integrada por los Departamentos de: Física, Química, Matemática e Informática. En la misma se dicta quince carreras de grado en sus distintas Unidades Académicas. ● ● ● ● ● ● ● 4.2 Preparación de datos Los datos analizados corresponden a los alumnos ingresantes a la Facultad de Ciencias Exactas en el año 2015. La principal fuente de datos la constituyen los registros correspondientes al periodo académico del año 2015 hasta 2017, obtenidos a través del sistema de gestión de alumnos de la Universidad, SIU Guaraní1 y por el sistema de información estadística de alumnos, SIU Araucano. Inicialmente se realizó una selección preliminar, antes de unificar todo en una sola fuente. Se descartaron muchos de los atributos por tener un alto porcentaje de datos ausentes (en promedio 85%). En este trabajo se tuvo en cuenta datos personales, historia académica, antecedentes del nivel medio y datos socioeconómicos de los alumnos. Como resultado se obtuvo un repositorio compuesto por 783 registros y 31 atributos. Con los datos integrados, se realizó un análisis estadístico de las variables seleccionadas, para tener una mayor comprensión del registro e identificar las propiedades típicas de los datos. Luego, se procedió con la limpieza de los datos a fin de eliminar problemas que afecten la calidad de los mismos. Finalmente, se realizaron las transformaciones necesarias en algunas de las variables seleccionadas. Se obtuvo un repositorio compuesto por 780 registros y 19 atributos saber: ● ● ● ● ‘Carrera’ (carrera en la que ingresó en el año 2015) ‘Estado01’ (variable dicotómica que indica la continuidad, valor igual a uno, o no, valor igual a cero, en los estudios de un estudiante) ‘Aprobadas’ (cantidad de materias aprobadas) ‘Regulares’ (cantidad de materias regularizadas) SIU Guaraní es un sistema de gestión de alumnos que registra y administra todas las actividades académicas de la Universidad, desde que los alumnos ingresan como aspirantes hasta que obtienen su título. El sistema es provisto por el programa SIU, dependiente de la secretaría de Políticas Universitarias del Ministerio de Educación de la Nación. 1 ● ● 4.3 ‘Rendimiento’ (cociente entre cantidad materias aprobadas y regulares) ‘EsMujer’ (si es mujer o no) ‘Edad’ (edad del estudiante al iniciar la carrera) ‘TipoDeColeg’ ( tipo de colegio secundario) ‘AniosEI’ (cantidad de años entre egreso del secundario e ingreso a la universidad) ‘ECivil’ (Estado Civil) ‘SitLaboral’ (si trabaja o no ) ‘HsTrabajo2’ (cantidad de horas de trabajo) ‘EstPadreR2’ (nivel de estudio del padre) ‘EstMadreR2’ (nivel de estudio de la madre) ‘SitLaboralPadre’ (situación laboral del padre) ‘SitLaboralMadre’ (situación laboral de la madre) ‘ViveCon’ (con quién vive) ‘fliarCargo’ (cantidad de familiares a cargo) ‘CosteaFlia’ (costea estudios familia). Caracterización de los estudiantes Se utilizó métodos de agrupamiento para identificar grupos relativamente homogéneos, basados en las características seleccionadas de los estudiantes. El agrupamiento (clustering) es una de las tareas descriptivas más frecuentes en la minería de datos. Sin tener previamente clases predefinidas, su objetivo es encontrar grupos, con características similares, entre un conjunto de individuos basado en alguna medida de distancia. “Estos agrupamientos son útiles para la exploración de datos, la identificación de anomalías en los datos y la creación de predicciones” [2]. Se buscó entonces, una estructura en los datos que ayude a entender mejor la realidad de la población estudiantil investigada, que oriente a las autoridades de la facultad en la toma de decisiones diferentes para cada grupo y seleccionar acciones específicas, respecto de la situación que se desee mejorar. Se aplicó primero el método de agrupamiento jerárquico para observar la cantidad de grupos de estudiantes. Luego, establecido el número de grupos, se empleó el método de agrupamiento no jerárquico de K medias (K-Means). El algoritmo K–Means o de las K-medias (presentado por MacQueen en 1967), es uno de los algoritmos de aprendizaje no supervisado más simples para resolver el problema de agrupamiento. La idea del K medias es situar a los prototipos o centros en el espacio, de forma que los datos pertenecientes al mismo prototipo tengan características similares [16]. “Para ello, el algoritmo utiliza el Criterio de la Inercia, que indica que el modelo será óptimo, cuando los grupos formados tengan una distancia mínima intra-cluster y, una distancia máxima inter-cluster [6]. Uno de los problemas en el método de K–Means es discernir previamente la cantidad de grupos que existen entre los datos. Como consecuencia de lo mencionado, nacieron los métodos jerárquicos. 4.3.1 Agrupamiento Jerárquico Se aplicó el método jerárquico aglomerativo. Este método clasifica los objetos en una jerarquía similar a un diagrama en forma de árbol que se denomina dendrograma. Se utilizó el lenguaje R, para la implementación del método, y sus funciones de uso más frecuente: ‘hclust’ (paquete de estadísticas) y ‘agnes’ (paquete de clúster) 4.3.2 Agrupamiento no jerárquico K-Means Con el método de agrupamiento no jerárquico K-Means, se buscó segmentar el conjunto de datos de los estudiantes de la facultad en K grupos homogéneos, disjuntos entre sí. El valor K representa el número de grupos o clústers a considerar. Se asignó como valor de K, la cantidad de grupos identificados con el método de agrupamiento jerárquico, el cual determinó seis grupos. La selección de las variables a utilizar, se realizó comparando el criterio de la inercia, que indica cuán óptimo es el modelo, con distintas combinaciones de variables e intentando utilizar la mayor cantidad de variables numéricas posible. El caso de prueba elegido, por obtener la menor inercia intra-grupo, consideró los datos de los estudiantes, correspondientes a los siguientes atributos: ● ● ● ● ● ● ● ● Edad (edad del estudiante al iniciar la carrera), HsTrabR2 (cantidad de horas de trabajo), EstPadreR2 (nivel de estudio del padre), EstMadreR2 (nivel de estudio de la madre), AniosEI (cantidad de años entre egreso del secundario e ingreso a la universidad), fliarCargo (cantidad de familiares a cargo), Regulares (cantidad de materias regularizadas) y Aprobadas (cantidad de materias aprobadas). 4.4 Árboles de decisión Se eligió para el diseño del primer modelo predictivo, el método de árbol de decisión de tipo clasificación. “Un árbol de decisión es un modelo jerárquico para el aprendizaje supervisado, que puede ser aplicado para un problema de regresión o clasificación” [14]. En los árboles de decisión de regresión, la variable de respuesta es continua, mientras que en los de clasificación, la variable de respuesta o variable clase es discreta. Esta técnica proporcionó un modelo que posibilitó predecir las condiciones que cumplen los estudiantes que abandonan sus estudios, basados en antecedentes de conducta histórica. Existen diferentes maneras de obtener árboles de decisión, la que se usó en esta investigación es conocida como CART. Esta es una técnica con la que se pueden obtener árboles de clasificación y de regresión. La implementación particular de CART que se utilizó, es conocida como RPART (Recursive Partitioning and Regression Trees), de allí el nombre del paquete de R que se usó en este trabajo. Para construir un árbol de decisión fue necesario definir una función que relaciona una variable categórica dependiente (clase) con n variables independientes (categóricas o numéricas). En nuestro caso se trabajó con una variable clase, dependiente denominada ‘Estado01’, que indica la continuidad o no en los estudios de un estudiante. Se utilizó como variables predictoras a Carrera, ‘Regulares’ (cantidad de materias regulares), ‘Edad’ (edad al iniciar su carrera), ‘EsMujer’ (si es mujer o no), ‘TipodeColeg’ (tipo de colegio secundario), ‘EstMadreR2’ (nivel de estudio de la madre). El siguiente paso que se realizó, fue definir la muestra de entrenamiento y la muestra de prueba en una proporción 70:30. Luego se diseñó y graficó el modelo, a partir de las variables predictoras. Se utilizaron las funciones de R: rpart(), para generar el modelo, y rpart.plot(), para obtener su gráfico. Finalmente se analizó su capacidad predictiva. 4.5 Regresión logística Se utilizó regresión logística con el objetivo de intentar predecir la probabilidad de la continuidad o no en los estudios de los estudiantes de la facultad. La regresión logística es una técnica analítica que permite relacionar funcionalmente una variable dicotómica con un conjunto de variables independientes. Es un método lineal que intenta modelizar la probabilidad de ocurrencia de un evento. La variable dependiente es categórica dicotómica o politómica, a los efectos de facilitar la interpretación [5]. El modelo de regresión logística se puede escribir como (Eq. 1): Li = ln ( )=Z Pi 1−P i p i = β 0 + β 1 x1 + … + β p xp = β 0 + ∑ β K K=1 Donde Pi es la probabilidad de que ocurra el evento de interés (en nuestro caso, continuar los estudios). En este trabajo se construyó el modelo de predicción considerando a la variable ‘Estado01’, como variable dependiente. Como variables independientes (o predictoras) se utilizó: ‘rendimiento’, ‘Edad’ (al iniciar su carrera), ‘HsTrabajo2’ (cantidad de horas de trabajo),’ EstPadreR2’ (nivel de estudio del padre), ‘EstMadreR2’ (nivel de estudio de la madre), ‘AniosEI’ (años entre egreso del secundario e ingreso a la Universidad), ‘fliarCargo’ (cantidad de familiares a cargo), ‘Regulares’ (cantidad de materias regulares), ‘Aprobadas’ (cantidad de materias aprobadas). Se realizaron varias pruebas previas con distintas combinaciones de variables. Para el análisis del modelo de regresión logística de este trabajo, se seleccionó el modelo que por los resultados de las pruebas se consideró el más adecuado. aglomeración obtenido es de 0.9471413, valor muy cercano a 1, lo que sugiere una estructura de agrupación fuerte. El ajuste del modelo de regresión logística se realizó dividiendo los datos en una proporción de 70:30. El conjunto de entrenamiento (train) se utilizó para capacitar el modelo de regresión logística, el que luego se validó usando el conjunto de prueba (test). Se construyó con R los modelos de regresión logística. Luego, se eligió el modelo más conveniente teniendo en cuenta sus desvianzas y la medida estadística de ajuste AIC (Akaike Information Criteria), que penaliza el modelo logístico para el número de variables predictoras. Esta métrica se utiliza para hacer comparaciones entre diferentes modelos, un AIC más bajo indica un mejor ajuste. Un modelo con un valor mínimo de AIC se considera un modelo adecuado. Elegido el modelo, con la menor medida AIC, se examinó sus coeficientes, se evaluó su eficiencia y se verificó su importancia Existen distintas técnicas estadísticas para calcular la significancia de un modelo logístico en su conjunto (p-value del modelo). Todos ellas consideran que el modelo es útil si es capaz de mostrar una mejora respecto a lo que se conoce como modelo nulo, el modelo sin predictores. En este trabajo, para evaluar el modelo, se utilizó: ● ● ● ● Test Wald Chi-test, que sirve para evaluar la significancia estadística de cada coeficiente en el modelo. Análisis de las desviaciones, para ver cómo disminuye la desviación al agregar, de una en una, cada variable al modelo. El estadístico razón de verosimilitud, que permite valorar si las variables predictoras, tomadas en conjunto, contribuyen efectivamente a "explicar" las modificaciones que se producen en P (Y=1). El cálculo del Pseudo R2 de McFadden, número que indica si el modelo tiene o no poder predictivo. Figura 2. Agrupamiento Jerárquico - Dendograma 5.2 Método de agrupamiento no jerárquico K-Means Con la aplicación de K-Means, al caso de prueba elegido, se obtuvo la inercia total de 6224 y de inercia intra grupo de 2814.31 que resultó ser la menor de todas, lo que indicó que en este caso, la distancia entre sus elementos es la menor, es decir sus elementos son más similares. A continuación, se describe la caracterización realizada de los estudiantes de la Facultad de Ciencias Exactas, Cohorte 2015. Grupo 1 Este grupo o clúster lo conforman 45 estudiantes (5.7%). La edad promedio de los estudiantes es de 26 años. La mayor proporción de sus padres tienen estudios secundarios incompletos, sus madres tienen estudios secundarios completos. La mayoría de los estudiantes trabaja entre 20 y 35 horas, sin familiares a cargo. La cantidad de años entre su egreso de la secundaria e ingreso a la Universidad, en promedio, es de 7 años; corresponden la mayor parte a las carreras de tecnicatura en energía solar y tecnicatura electrónica universitaria, con una materia regular en promedio, ninguna aprobada y continúan estudiando. Grupo 2 5. Resultados obtenidos Se detalla a continuación, los resultados obtenidos al aplicar las técnicas de agrupamiento jerárquico, agrupamiento no jerárquico K-Means, regresión logística y árboles de clasificación. Además, se interpretan y evalúan los resultados obtenidos de cada uno de los métodos. 5.1 Métodos de agrupamiento jerárquico La Fig. 2 muestra el dendograma obtenido. Se visualiza la conformación de 6 clústers o grupos, cada uno en distintos colores. Por la distribución de observaciones por grupo se observa un clúster mayoritario. El coeficiente de Este grupo lo conforman 318 estudiantes (41%). La edad promedio de los estudiantes es de 20 años. La mayor proporción de sus padres tienen estudios secundarios completos, sus madres tienen estudios superiores incompletos. La mayoría de los estudiantes trabaja hasta 10 horas, sin familiares a cargo. La cantidad de años entre su egreso de la secundaria e ingreso a la Universidad, en promedio, es de 3 años; pertenecen mayoritariamente a la Licenciatura en Análisis de Sistemas, con ninguna materia regular en promedio y la mayoría de ellos abandona la carrera. Grupo 3 Este grupo lo conforman 50 estudiantes (6.4 %). La edad promedio de los estudiantes es de 38 años. La mayor proporción de sus padres tienen estudios secundarios incompletos, sus madres también con estudios secundarios incompletos. La mayoría de los estudiantes trabaja de 10 a 20 horas, con un familiar a cargo. La cantidad de años entre su egreso de la secundaria e ingreso a la Universidad, en promedio, es de 20 años; corresponden la mayor parte a la Tecnicatura en Programación y Tecnicatura Electrónica Universitaria, con ninguna materia regular en promedio y la mayoría de ellos continúa sus estudios. Grupo 4 Este grupo lo conforman 39 estudiantes (5%). La edad promedio de los estudiantes de este grupo es de 21 años. La mayor proporción de sus padres tienen estudios secundarios completos, al igual que sus madres. La mayoría de los estudiantes no trabaja, con un familiar a cargo. La cantidad de años entre su egreso de la secundaria e ingreso a la Universidad, en promedio, es de 2 años; corresponden la mayor parte a la Licenciatura en análisis de Sistemas, con ninguna materia regular en promedio y la mayoría de ellos abandona sus estudios. Grupo 5 Este clúster lo conforman 77 estudiantes (9.8%). La edad promedio de los estudiantes de este grupo es de 19 años. La mayor proporción de sus padres tienen estudios secundarios incompletos, sus madres tienen estudios secundarios completos. La mayoría de los estudiantes no trabaja, con ningún familiar a cargo. La cantidad de años entre su egreso de la secundaria e ingreso a la Universidad, en promedio, es de 3 años; corresponden a la Licenciatura en Química, Licenciatura en Análisis en Sistemas, Licenciatura Física y Analista Químico, con 6 materias regulares en promedio y la mayoría de ellos continúa sus estudios. Se observaron dos situaciones: en los grupos de estudiantes que continúan sus estudios, uno corresponde a estudiantes que inician sus estudios después de muchos años de haber finalizado sus estudios secundarios, de mayor edad, y que trabajan más horas que el resto, con menor rendimiento pero, a pesar de ello, continúan sus estudios. Por otro lado, los estudiantes más jóvenes, con menor cantidad de horas de trabajo, con mayor cantidad de materias regularizadas y mayor cantidad de materias aprobadas, también continúan sus estudios. La principal diferencia que se observa entre estos grupos y los de estudiantes que abandonan sus estudios, es la cantidad de materias regularizadas. Se advirtió también, que es mayor la proporción de estudiantes que abandonan sus estudios. El grupo más numeroso, de estudiantes que abandonan sus estudios (Grupo 2), se representa por estudiantes jóvenes, con padres y madres con mayor nivel de estudio y con menor cantidad de horas de trabajo. 5.3 Árboles de decisión Realizadas las simulaciones con los datos correspondientes, en el programa RStudio, se obtuvo el modelo de árboles de decisión del tipo clasificación y el conjunto de reglas que se derivan de él. De forma gráfica el resultado se observa (Fig. 3) en el árbol de decisión obtenido del modelo. Grupo 6 Este clúster lo conforman 250 estudiantes (32%). La edad promedio de los estudiantes de este grupo es de 20 años. La mayor proporción de sus padres tienen estudios primarios completos, sus madres tienen estudios secundarios incompletos. La mayoría de los estudiantes no trabaja, con ningún familiar a cargo. La cantidad de años entre su egreso de la secundaria e ingreso a la Universidad, en promedio, es de 3 años; la mayor cantidad cursa la Licenciatura en Análisis en Sistemas, Tecnicatura en Programación y Analista Químico, con ninguna materia regular en promedio y la mitad de ellos continúa sus estudios y la otra mitad no. Los resultados obtenidos con el método muestran las características de los alumnos que continúan sus estudios y de los que lo abandonan. Figura 3. Árbol de decisión del modelo El árbol de decisión parte de un nodo principal, donde su primera condición de decisión es el atributo ‘Regulares’. Esta condición clasifica al total de estudiantes en dos grupos, el ’grupo 0’ de los estudiantes que abandonan sus estudios (con el 47% del total de estudiantes) y el ‘grupo 1’ (con el 53% del total de estudiantes) de los estudiantes que continúan con sus estudios. Se describe a continuación las condiciones del árbol de decisión: ● ● ● ● De los alumnos que regularizaron menos de una materia (Regulares <1), es decir no regularizaron ninguna, y con edad menor a 27 años (Edad<27), un 73% pertenecen al ‘grupo 0’ (abandonan sus estudios) y sólo un 27% de ellos pertenecen al ‘grupo 1’ (continúan sus estudios). De los alumnos que regularizaron menos de una materia (Regulares <1), con edad mayor o igual a 27 años (Edad>=27) y de sexo femenino (EsMujer=1), un 63 % de ellos pertenecen al ‘grupo 0’ (abandonan sus estudios). De los alumnos que regularizaron menos de una materia (Regulares <1), con edad mayor o igual a 27 años (Edad>=27) y de sexo masculino (EsMujer ≠1), un 63 % de ellos pertenecen al ‘grupo 1’ (continúan sus estudios). De los alumnos que regularizaron por lo menos una materia (Regulares >=1), un 83 % de ellos pertenecen al ‘grupo 1’ (continúan sus estudios). Se observa que el nodo raíz del árbol toma el valor de la variable ‘Regulares’ (cantidad de materias regularizadas). Es decir que la condición que se evalúa para la partición del nodo es Regulares<1, el alumno no ha regularizado ninguna materia. Si la condición se cumple, la rama continúa su camino hacia el nodo que se encuentra abajo del nodo raíz, a su lado izquierdo, y se evalúa el nodo hijo siguiente que corresponde a la variable ‘Edad’. En este punto, la condición que se evalúa es Edad<27, si esta condición se cumple la ramificación sigue hacia la izquierda del nodo, llegando a un nodo hoja que muestra una probabilidad de pertenecer al ‘grupo 0’ de un 73% de que un alumno abandone sus estudios. Se continúa con el mismo razonamiento para cada uno de los nodos del árbol. La interpretación de las reglas del árbol de decisión muestra que el principal grupo de riesgo, con una probabilidad del 73% de probabilidad de abandonar sus estudios, son los estudiantes más jóvenes que no logran regularizar ninguna materia. A continuación se analizó la calidad de predicción del modelo. Con la función confusionMatrix() del paquete Caret de R, se obtuvo la matriz de confusión (herramienta que permite la visualización del desempeño de un algoritmo que se emplea en aprendizaje supervisado). A partir de los resultados obtenidos de la matriz de confusión, se observó que la tasa de verdaderos positivos (TPR= 79%) y de verdaderos negativos (TNR=77%) son mayores que las tasas de falsos positivos (FPR= 23%) y falsos negativos (FNT=20%). El acierto o exactitud (Accuracy) resultó ser del 78%, lo que representa un muy desempeño del modelo para este tipo de datos, y representa un modelo confiable para predecir las condiciones del abandono de los estudios de los estudiantes. Para complementar el análisis de la eficiencia del método obtenido, se realizó una representación gráfica del rendimiento del clasificador o curva ROC (Fig. 4) y se obtuvo el área bajo la curva ROC (AUC). La curva ROC muestra la distribución de las fracciones de verdaderos positivos (sensibilidad) y de falsos positivos (especificidad) y el valor del 77.88206% (datos de entrenamiento) y del 83.42242 (datos de prueba) obtenidos, correspondiente al área bajo la curva ROC (AUC), confirman que el modelo de árbol de decisión del tipo clasificación tiene un buen rendimiento, es eficiente para los datos en cuestión. Figura 4. Curva ROC del modelo de árbol de decisión 5.4 Regresión logística Obtenido el modelo con el método de regresión logística binomial, se observó que las variables ‘Aprobadas’, ‘Regulares’, ‘HsTrabajo2’ y ‘AniosEI’ son estadísticamente significativas. Las variables Aprobadas’ y ‘Regulares’ son más significativas que ‘HsTrabajo2’ y ‘AniosEI’, con valor de p más bajo, y señala una fuerte asociación de la cantidad de materias ‘Aprobadas’ y ‘Regulares’ del estudiante con la probabilidad de continuar sus estudios. Teniendo en cuenta que en el modelo regresión logística (logit), las variables de respuesta son las probabilidades de registro: ln (probabilidades) = ln (p / (1-p)) que es el logaritmo de los odds, en nuestro modelo el logaritmo de los odds de que un estudiante continúe con sus estudios está positivamente relacionado con las materias Aprobadas’ y ‘Regulares’. Además, considerando que el coeficiente de regresión no es más que el odds ratio entre dos individuos que se diferencian en una unidad de la variable independiente (predictora). Esto implica que, por cada unidad que se incrementa la variable ‘Aprobadas’ (materias aprobadas), le corresponderá un odds ratio de continuar sus estudios más de dos veces mayor (2.57) que otro estudiante, siempre que las variables restantes sean iguales en ambos estudiantes. Con respecto a la variable ‘Regulares’ (materias regularizadas), le corresponderá un odds ratio de continuar sus estudios más de tres veces mayor (3.11519) que otro estudiante, siempre que las variables restantes sean iguales en ambos estudiantes. A su vez, por cada aumento unitario en la cantidad de horas de trabajo ‘HsTrabajo2’ (coeficiente de regresión = -0.28784) del estudiante, los odds de continuar sus estudios (Estado01=1) disminuye en 1.33, siempre que las variables restantes sean iguales en ambos estudiantes, mientras que la variable ‘AniosEI’ aumenta 1.13, siempre que las variables restantes sean iguales en ambos estudiantes Las variables restantes no resultaron ser estadísticamente significativas. A partir de los resultados obtenidos de la diferencia entre la desviación nula y la desviación residual se pudo ver cómo disminuye la desviación al agregar, de una en una, cada variable. Al agregar la variable ‘Aprobadas’ y ‘Regulares’ se redujo significativamente la desviación residual. El resto de las variables, mejoraron poco el modelo. modelo para este tipo de datos, y representa un modelo confiable para predecir el abandono de los estudios de los estudiantes. Finalmente se graficó la curva ROC y se calculó el AUC (área debajo de la curva) sobre los datos de entrenamiento, medidas de rendimiento típicas para un clasificador binario. La curva ROC ofrece un mejor resumen de la capacidad predictiva del modelo que una tabla de clasificación, porque presenta la potencia predictiva para todos los posibles valores de referencia o umbral. La Figura 5, muestra la curva ROC que se obtuvo para el modelo de regresión logística de este trabajo. A continuación, se procedió a evaluar la bondad de ajuste del modelo elegido con la razón de verosimilitud. La razón de verosimilitud (Likelihood ratio), usa la diferencia entre la probabilidad de obtener los valores observados con el modelo logístico resultante y las probabilidades de hacerlo con un modelo sin relación entre las variables. Para esto, calcula la significancia de la diferencia de residuos entre el modelo de interés (modelo con predictores) y el modelo nulo (modelo sin predictores). El estadístico sigue una distribución chi-cuadrado con grados de libertad equivalentes a la diferencia de grados de libertad de los dos modelos. En nuestro modelo, la diferencia de residuos fue de 269.0295 en 9 grados de libertad, de lo que resulta un valor p de p-value: 9.49271754768638e-53. En este caso, el modelo obtenido sí es significativo. En la regresión lineal, el estadístico R2 indica la proporción de varianza en la variable dependiente que se explica por los predictores. No hay una medida equivalente para la regresión logística pero si existe una serie de valores R2 que pueden ser útiles para analizar la bondad de ajuste de un modelo. El más destacado es el número Pseudo R2 de McFadden.. La medida varía desde 0 un poco menos de 1, con valores más cercanos a cero indican que el modelo no tiene poder predictivo. El resultado obtenido en el modelo obtenido fue 0.3593590, valores entre 0.2 y 0.4 indica un muy buen ajuste del modelo. Para realizar la validación de los valores pronosticados se construyó la matriz de confusión de los datos de prueba y se obtuvo la tasa de clasificación. A partir de los resultados obtenidos de la matriz de confusión, se observó que la tasa de verdaderos positivos (TPR= 70%) y de verdaderos negativos (TNR=81%) son mayores que las tasas de falsos positivos (FPR= 19%) y falsos negativos (FNT=32%). El acierto o exactitud (Accuracy) resultó ser del 79.48%, lo que representa un muy buen desempeño del Figura 5. Curva ROC del modelo de regresión logística 6. Conclusiones En este trabajo se ha comprobado que para la aplicación de técnicas de Data Mining, sobre los datos de los estudiantes de la Facultad de Ciencias Exactas, fue necesario realizar cada una de las etapas en las que se basa el proceso del descubrimiento del conocimiento (KDD). También se pudo corroborar, que la fase más laboriosa del proceso KDD es la de preparación de los datos. Los tres métodos seleccionados han obtenido muy buenos rendimientos. Con los métodos de agrupamiento se ha logrado identificar los perfiles de los estudiantes con riesgo de deserción o abandono de sus estudios. Esto contribuirá a proponer acciones proactivas para disminuir el índice de abandono. En relación a esto, se estima que el perfilamiento de los estudiantes podría ser más beneficioso si sería mayor la calidad de los datos recolectados, desde las distintas fuentes, de los datos relacionados a la realidad socioeconómica de los estudiantes. Se considera importante que expertos en el tema de aprendizaje definan los datos a recolectar sobre todo vinculados a la situación académica del nivel medio, por ejemplo: competencias adquiridas, y que el proceso de recolección de datos sea ineludible. El patrón obtenido con el método de Árboles de Decisión posibilitó identificar atributos que inciden para determinar la deserción de estudiantes y realizar la clasificación de los estudiantes. Su valor de 0.7788206 que indica su capacidad predictiva, correspondiente al área bajo la curva ROC (AUC), superó en calidad al modelo obtenido con el método de regresión logística (0.7484926) pero por un margen menor. La información presentada de forma gráfica con el Árbol de Decisión resultante, es fácil de interpretar, lo que es muy importante. En él se observa que la variable ‘Regulares’ (cantidad de materias regularizadas en los períodos 2015, 2016 y 2017 sería la variable determinante de los datos utilizados en este método, transversal a todas las carreras y asociado a los estudiantes de primer año. La interpretación de las reglas del árbol de decisión mostró que el principal grupo de riesgo, con una probabilidad del 73% de abandonar sus estudios, son los estudiantes más jóvenes que no logran regularizar ninguna materia. Este resultado probablemente se podría complementar incorporando nuevas variables socioeconómicas y de la trayectoria en el nivel medio de los estudiantes. Con una capacidad predictiva del 79.48%, el modelo obtenido con la Regresión Logística Binomial se podrá utilizar para predecir la probabilidad de que un estudiante ‘continúe sus estudios’. En su desarrollo se señaló a las variables: ‘Aprobadas’ y ‘Regulares’ como las variables estadísticamente más significativas del método, lo que coincidió con lo observado en el método de árbol de decisión. Este resultado condice con el análisis realizado por el CISE que señala como indicador del muy bajo desempeño del rendimiento de los estudiantes, la cantidad de materias aprobadas por año. Es muy importante conocer con antelación cuáles son los estudiantes con mayor probabilidad de desertar, cuáles son los factores que inciden en ello. Llevar a cabo este tipo de investigación permite identificar con anticipación a los estudiantes que son candidatos a desertar y realizar acciones diferenciadas sobre los distintos grupos de estudiante, todas orientadas a evitar que los estudiantes abandonen sus estudios universitarios. =23985&congresos=yes&detalles=yes&congr_id=6607517, 2017. [2] Angulo, E. Docplayer. Recuperado el 30 de Octubre de 2019, de https://docplayer.es/789942-Modelo-para-la-automatizacion-delproceso-de-determinacion-de-riesgo-de-desercion-en-estudiantesuniversitarios.html, 2012. [3] Beguerí, G., and Malberti, M., “Minería de Datos y una Aplicación en la Educación Superior”, in Trabajos del WICC 2017, Buenos Aires, 2017, pp. 1276-1279. [4] Bitocchi, O. S., “Modelos predictivos de la deserción estudiantil en una universidad privada peruana”, Revista Industrial Data 21, 2, 2018. pp. 47-52. [5] Britos, P. V., Hossian, A., Sierra, E., and García Martínez, R. “Minería de datos basada en sistemas Inteligentes”, Buenos Aires, Ed. Nueva Librería, 2015. [6] Calvo, D. Recuperado el 30 de Octubre de 2019, de http://www.diegocalvo.es/analisis-cluster-no-jerarquico-k-meansen-r/, 2016. [7] Calvo, D. Recuperado el 5 de Noviembre de 2019, de http://www.diegocalvo.es/definicion-de-rstudio/, 2018. [8] Eckert, K., and Suenaga, R. “Análisis de Deserción-Permanencia de Estudiantes Universitarios Utilizando Técnica de Clasificación en Minería de Datos”, Formación Universitaria, 3, 12, 2015. [9] Fayyad, U. M., Piatestky-Shapiro, G., and Smith, P. “The KDD Process for Extracting Useful Knowledge discovery and Data Mining”, AAAI/MIT Press, 1994. [10] Fundación Libertad. Recuperado el 31 de 10 de 2019, de Informes CISE: https://libertad.org.ar/web/wp-content/uploads/2019/09/CISE_Ra diografia_Universidades.pdf, 2019. [11] Hand, D., “Encyclopedia of Environmetrics”, Recuperado el 30 de Octubre de 2019, de https://doi.org/10.1002/9780470057339.vad002.pub2, 2013. Agradecimientos [12] Hernández, R. F., “Introducción a la Minería de Datos”, Madrid, Ed. Pearson Educación, 2004. Los autores agradecen a las autoridades de la Facultad de Ciencias Exactas y al personal del Centro de Cómputos y de la Dirección de Estadísticas de la UNSa por proveer y facilitar los datos necesarios para realizar el presente trabajo. [13] Maimon, R., “Data Mining and Knowledge Discovery Handbook, Second Edition”, London, Springer, 2010. Referencias [15] Miranda, M. A., and Guzmán, J. “Análisis de la Deserción de Estudiantes Universitarios usando Técnicas de Minería de Datos”, Formación Universitaria, 2017, pp. .61-68. [1] Adrogué, C., and Fanelli, M. Consejo Nacional de Investigaciones. Recuperado el 30 de 10 de 2019, de CONICET: https://www.conicet.gov.ar/new_scp/detalle.php?keywords=&id [14] Menacho Chiok, C. H., “Predicción del rendimiento académico aplicando técnicas de minería de datos”, Anales Científicos, l. 78, 2017, pp. 26-33. [16] Moody, J. D., "Fast learning in network of locally turned processing units”, Neuronal computation, 1989, pp. 281-294. [17] Quintana Ramírez, M. J., and Hernández Orallo, J., “Extracción Automática de Conocimiento en Base de Datos e Ingeniería del Software”, España, 2003 . [18] Rabossi, M., Universidad Torcuato di Tella. Recuperado el 5 de Noviembre de 2019, de https://www.utdt.edu/ver_nota_prensa.php?id_nota_prensa=1677 0&id_item_menu=6, 2019. [19] Reyes, F. R., “Minería de datos aplicada para la identificación de factores de riesgo en alumnos”, Research in Computing Science 139, 2017, pp. 177–189. [20] Romero, D. G., Rodríguez, S. L., Martínez, C. A., and Romano, R. E., “Análisis cuantitativo y Cualitativo de la Deserción en la Facultad de Ciencias Exactas de la Universidad Nacional de Salta”, Memorias VI CLABES 2016 Sexta Conferencia Latinoamericana sobre el Abandono en la Educación Superior, Quito, Ecuador, 2016, pp. 51-59. [21] Sotomonte, J., Rodríguez, C., and Marín, C., ”Hacia la construcción de un modelo predictivo de deserción académica basado en técnicas de minería de datos”, Revista Científica, 2016, pp. 35-48.