Subido por martinezdro1

366-580-1-SM

Anuncio
Técnicas de Minería de Datos aplicadas al abandono de los estudiantes de la
Facultad de Ciencias Exactas
Resumen
Es alto el porcentaje de alumnos que ingresan a las
universidades públicas argentinas y abandonan sus
estudios. La Universidad Nacional de Salta (UNSa) no es
ajena a esta situación. El objetivo de este trabajo fue
utilizar técnicas de Minería de Datos para obtener
modelos que permitan identificar, con antelación, a los
estudiantes con mayor riesgo de deserción y los factores
de abandono, en las carreras de la Facultad de Ciencias
Exactas de la UNSa. Se utilizó técnicas de agrupamiento
para caracterizar grupos de estudiantes, regresión
logística binaria para predecir la probabilidad de la
continuidad o no en los estudios de los estudiantes y
árboles de clasificación para obtener un modelo que
permita predecir los factores que propician la deserción
de los estudiantes, basado en los datos disponibles. En
este trabajo se utilizó datos correspondientes a la base
histórica de los períodos 2015, 2016 y 2017, de los
alumnos de la facultad y el lenguaje de programación R,
para la implementación de los métodos.
1. Introducción
Uno de los principales problemas que enfrentan las
universidades públicas argentinas es el abandono
estudiantil. El abandono antes de concluir los estudios
atraviesa a más del 50% de los alumnos universitarios
[18]. La Universidad Nacional de Salta (UNSa) no es
ajena a esta situación. Alrededor del 60% de los alumnos
que ingresan, abandonan sus estudios [20].
El análisis de la situación del sistema universitario
argentino, realizado por el Centro de Investigaciones
Sociales y Económicas (CISE), muestra un indicador que
evidencia un muy bajo desempeño del rendimiento de los
estudiantes. Este se refiere a la ​cantidad de materias
aprobadas por año​. El 35,7% no aprueba ninguna y el
15,3% sólo una. Las Universidades con mayor proporción
de alumnos que no aprueban más de una materia al año
son: Salta (70,1%), Jujuy (69,3%) y Córdoba (66,3%)[10].
La Minería de Datos o Data Mining es un proceso que
reúne un conjunto de herramientas de diversas ciencias
(Estadísticas, informática, Matemáticas, Ingeniería, entre
otras). Este proceso tiene por objetivo extraer información
útil o conocimiento oculto de grandes volúmenes de datos
que no sería posible por procedimientos tradicionales de
análisis de datos [11].
Existen diversos estudios y publicaciones que abordan,
en distintas asignaturas, el problema del abandono
estudiantil utilizando técnicas de minería de datos. Este
trabajo propone la aplicación de dos técnicas predictivas, a
la cohorte 2015 de todas las carreras de grado de la
Facultad de Ciencias Exactas. La implementación de las
técnicas se realizó con R, que es el lenguaje más utilizado
en investigación científica, de filosofía Open Source.
El artículo se ha estructurado en seis secciones, incluida la
presente introducción. En la segunda sección, se presenta
el ‘Estado del Arte’ con una revisión de trabajos en los que
se analiza aspectos relacionados con el abandono
estudiantil, aplicando técnicas de Minería de Datos. La
tercera, presenta el proceso descubrimiento de
conocimiento de bases de datos (KDD) y conceptos
asociados a la Minería de Datos. En la cuarta sección, se
comenta el tipo de investigación realizada, el contexto
desde donde se obtuvieron los datos y a continuación los
pasos realizados para preparar la vista minable, que se
utilizará en la etapa de minería de datos. Además se
explica todas las acciones realizadas, los métodos
empleados y aspectos considerados, para obtener los
modelos necesarios para el logro de los objetivos
propuestos. En la quinta sección, se describe, interpreta y
evalúa los resultados obtenidos con los métodos de
agrupamiento, regresión logística y árboles de decisión
aplicados. Finalmente, se exponen las conclusiones
extraídas.
2. Estado del Arte
En la literatura, se ha analizado la educación
universitaria para conocer más a fondo aspectos
relacionados con la deserción aplicando técnicas de
Minería de Datos. Se presentan a continuación algunos de
los trabajos realizados.
Eckert and Suenaga [8] analizan la información
académica de los estudiantes de la carrera de Ingeniería en
Informática de la Universidad Gastón Dachary en
Argentina. La fuente de datos contiene información
proporcionada al ingreso (personales y antecedentes
educativos) y la que se genera durante el periodo de
estudios. Aplican algoritmos de clasificación como árboles
de decisión, redes bayesianas y reglas. Se identifica como
variables influyentes en la deserción, asignaturas
aprobadas, cantidad y resultado de asignaturas cursadas,
procedencia y edad de ingreso del estudiante.
Sotomonte et al., [21] generaron un modelo de árbol de
decisión implementado con el algoritmo J48 mediante el
uso de la herramienta WEKA. Se identificaron como
factores influyentes: cantidad de materias cursadas, género
y situación socioeconómica.
A
​ drogué and Fanelli [1] han calculado las tasas
globales de abandono por nivel socioeconómico en base a
información provista por la Encuesta Permanente de
Hogares y analizado los principales factores demográficos
y socioeconómicos que inciden en la probabilidad de
abandonar los estudios universitarios. Entre los factores
asociados con la probabilidad de abandonar los estudios
superiores, utilizando regresión logística, se destacan: el
nivel socioeconómico del hogar, el clima educativo del
grupo familiar, estar cursando el primer año de los
estudios universitarios y el ser estudiante de primera
generación.
Miranda and Guzmán [15] a partir de los resultados
obtenidos sobre datos proporcionados por las carreras de
Ingeniería de la Universidad Católica del Norte en
Antofagasta y Coquimbo (Chile) determinan que las
variables que mejor explican la deserción de un estudiante
son las razones socioeconómicas y el puntaje de ingreso a
la universidad (PSU). Según el árbol de decisión
construido se concluye que la retención se sitúa en un
78,3%.
Bitocchi [4] seleccionó al azar siete cursos o materias,
con mayor índice de deserción. Se utilizó el método de
árboles de decisión. Entre los principales resultados se
pudo observar que los modelos predictivos contribuyeron a
reducir en un 25% y 40% los niveles de desaprobación y
las variables que mejor predijeron fueron la carrera que
estudian (vocación), el número de veces que se matriculan
en la asignatura y la nota que tuvieron en Matemática o
Comunicación, cuando cursaron el quinto año de
secundaria.
3. Conceptos de Minería de datos
La Minería de Datos (Data Mining) es la fase más
representativa del proceso de “Descubrimiento de
Conocimiento en Base de Datos” (KDD), por lo que
algunos autores usan los términos Minería de Datos como
sinónimo de KDD.
La extracción o descubrimiento de conocimiento en
base de datos (Knowledge Discovery in Databases, KDD)
se puede definir como: el proceso no trivial de identificar
patrones válidos, novedosos, potencialmente útiles y, en
última instancia, comprensibles a partir de los datos [9].
“Es un proceso complejo que incluye no sólo la búsqueda
de cualidades, relaciones y patrones globales que existen
en los datos, sino también la evaluación y posible
interpretación de los mismos” [12].
El proceso del descubrimiento del conocimiento es
iterativo e interactivo, y consiste de cuatro fases (Fig. 1).
Figura 1. Etapas en el proceso KDD
La Minería de Datos es la aplicación de los métodos de
aprendizaje y estadísticos para la obtención de patrones y
modelos. Tiene por objetivo analizar los datos para
producir nuevo conocimiento que pueda utilizar el usuario.
Esto se realiza construyendo un modelo basado en los
datos recopilados para este efecto. El modelo es una
descripción de los patrones y relaciones entre los datos que
pueden usarse para hacer predicciones, para entender
mejor los datos o para explicar situaciones pasadas
(Hernández Orallo et al., [12]).
En la actualidad existen muchas aplicaciones de
minería de datos muy potentes, con muchas herramientas
que facilitan su aplicación en distintos proyectos. En este
trabajo se utilizó RStudio, para el lenguaje de
programación R. RStudio es un entorno de desarrollo
integrado (IDE) que proporciona una interfaz al agregar
muchas funciones y herramientas que facilitan la
programación. “Este entorno de desarrollo tiene una
versión gratuita, open source y multiplataforma de
escritorio para disponer de un entorno integrado de
desarrollo, y que facilita tanto la tarea de uso interactivo de
R como la programación de scripts en R” [7].
4. Metodología de la investigación
Se realizó una investigación propositiva y
experimental. Propositiva, ya que se fundamentó en la
necesidad de reducir el índice de abandono estudiantil en
la Facultad de Ciencias Exactas y tratar de orientar a los
directivos a tomar mejores decisiones al implementar
acciones para superar la problemática actual.
Experimental, pues utilizó un conjunto de datos
correspondientes a la base histórica.
4.1 Caso de estudio
●
La Universidad Nacional de Salta tiene su sede central
de gobierno y administración en la ciudad de Salta. Está
integrada por Facultades, Departamentos, Sedes
Regionales, Institutos de Investigación y Establecimientos
de Enseñanza Preuniversitaria.
●
●
●
●
La Facultad de Ciencias Exactas es una de las seis
facultades de la Universidad. Está integrada por los
Departamentos de: Física, Química, Matemática e
Informática. En la misma se dicta quince carreras de grado
en sus distintas Unidades Académicas.
●
●
●
●
●
●
●
4.2 Preparación de datos
Los datos analizados corresponden a los alumnos
ingresantes a la Facultad de Ciencias Exactas en el año
2015. La principal fuente de datos la constituyen los
registros correspondientes al periodo académico del año
2015 hasta 2017, obtenidos a través del sistema de gestión
de alumnos de la Universidad, SIU Guaraní​1 y por el
sistema de información estadística de alumnos, SIU
Araucano. Inicialmente se realizó una selección
preliminar, antes de unificar todo en una sola fuente. Se
descartaron muchos de los atributos por tener un alto
porcentaje de datos ausentes (en promedio 85%).
En este trabajo se tuvo en cuenta datos personales,
historia académica, antecedentes del nivel medio y datos
socioeconómicos de los alumnos. Como resultado se
obtuvo un repositorio compuesto por 783 registros y 31
atributos.
Con los datos integrados, se realizó un análisis
estadístico de las variables seleccionadas, para tener una
mayor comprensión del registro e identificar las
propiedades típicas de los datos. Luego, se procedió con la
limpieza de los datos a fin de eliminar problemas que
afecten la calidad de los mismos. Finalmente, se realizaron
las transformaciones necesarias en algunas de las variables
seleccionadas.
Se obtuvo un repositorio compuesto por 780 registros y
19 atributos saber:
●
●
●
●
‘Carrera’ (carrera en la que ingresó en el año
2015)
‘Estado01’ (variable dicotómica que indica la
continuidad, valor igual a uno, o no, valor igual a
cero, en los estudios de un estudiante)
‘Aprobadas’ ​(cantidad de materias aprobadas)
‘Regulares’ (​cantidad de materias regularizadas)
​SIU Guaraní es un sistema de gestión de alumnos que
registra y administra todas las actividades académicas de la
Universidad, desde que los alumnos ingresan como aspirantes
hasta que obtienen su título. El sistema es provisto por el
programa SIU, dependiente de la secretaría de Políticas
Universitarias del Ministerio de Educación de la Nación.
1
●
●
​4.3
‘Rendimiento’ (cociente entre cantidad materias
aprobadas y regulares)
‘EsMujer’ (si es mujer o no)
‘Edad’ ​(edad del estudiante al iniciar la carrera)
‘TipoDeColeg’ ( tipo de colegio secundario)
‘AniosEI’ ​(cantidad de años entre egreso del
secundario e ingreso a la universidad)
‘ECivil’ (Estado Civil)
‘SitLaboral’ (si trabaja o no )
‘HsTrabajo2’​ (cantidad de horas de trabajo)
‘EstPadreR2’ ​(nivel de estudio del padre)
‘EstMadreR2’ (nivel de estudio de la madre)
‘SitLaboralPadre’ (situación laboral del padre)
‘SitLaboralMadre’ (situación laboral de la madre)
‘ViveCon’ (​con quién vive)
‘fliarCargo’ ​(cantidad de familiares a cargo)
‘​CosteaFlia’ (costea estudios familia).
Caracterización de los estudiantes
Se utilizó métodos de agrupamiento para identificar
grupos relativamente homogéneos, basados en las
características seleccionadas de los estudiantes.
El agrupamiento (clustering) es una de las tareas
descriptivas más frecuentes en la minería de datos. Sin
tener previamente clases predefinidas, su objetivo es
encontrar grupos, con características similares, entre un
conjunto de individuos basado en alguna medida de
distancia. “Estos agrupamientos son útiles para la
exploración de datos, la identificación de anomalías en los
datos y la creación de predicciones” [2].
Se buscó entonces, una estructura en los datos que
ayude a entender mejor la realidad de la población
estudiantil investigada, que oriente a las autoridades de la
facultad en la toma de decisiones diferentes para cada
grupo y seleccionar acciones específicas, respecto de la
situación que se desee mejorar. Se aplicó primero el
método de agrupamiento jerárquico para observar la
cantidad de grupos de estudiantes. Luego, establecido el
número de grupos, se empleó el método de agrupamiento
no jerárquico de K medias (K-Means).
El algoritmo K–Means o de las K-medias (presentado
por MacQueen en 1967), es uno de los algoritmos de
aprendizaje no supervisado más simples para resolver el
problema de agrupamiento. La idea del K medias es situar
a los prototipos o centros en el espacio, de forma que los
datos pertenecientes al mismo prototipo tengan
características similares [16]. “Para ello, el algoritmo
utiliza el ​Criterio de la Inercia​, que indica que el modelo
será óptimo, cuando los grupos formados tengan una
distancia mínima intra-cluster y, una distancia máxima
inter-cluster [6].
Uno de los problemas en el método de K–Means es
discernir previamente la cantidad de grupos que existen
entre los datos. Como consecuencia de lo mencionado,
nacieron los métodos jerárquicos.
4.3.1 Agrupamiento Jerárquico
Se aplicó el método jerárquico aglomerativo. Este
método clasifica los objetos en una jerarquía similar a un
diagrama en forma de árbol que se denomina
dendrograma.
Se utilizó el lenguaje R, para la implementación del
método, y sus funciones de uso más frecuente: ​‘hclust’​
(paquete de estadísticas) y ‘​agnes’​ (paquete de clúster)
4.3.2 Agrupamiento no jerárquico K-Means
Con el método de agrupamiento no jerárquico
K-Means, se buscó segmentar el conjunto de datos de los
estudiantes de la facultad en K grupos homogéneos,
disjuntos entre sí. El valor K representa el número de
grupos o clústers a considerar. Se asignó como valor de K,
la cantidad de grupos identificados con el método de
agrupamiento jerárquico, el cual determinó seis grupos.
La selección de las variables a utilizar, se realizó
comparando el criterio de la inercia, que indica cuán
óptimo es el modelo, con distintas combinaciones de
variables e intentando utilizar la mayor cantidad de
variables numéricas posible. El caso de prueba elegido,
por obtener la menor inercia intra-grupo, consideró los
datos de los estudiantes, correspondientes a los siguientes
atributos:
●
●
●
●
●
●
●
●
Edad (edad del estudiante al iniciar la carrera),
HsTrabR2 (cantidad de horas de trabajo),
EstPadreR2 (nivel de estudio del padre),
EstMadreR2 (nivel de estudio de la madre),
AniosEI (cantidad de años entre egreso del
secundario e ingreso a la universidad),
fliarCargo (cantidad de familiares a cargo),
Regulares (cantidad de materias regularizadas) y
Aprobadas (cantidad de materias aprobadas).​
4.4 Árboles de decisión
Se eligió para el diseño del primer modelo predictivo,
el método de árbol de decisión de tipo clasificación. “Un
árbol de decisión es un modelo jerárquico para el
aprendizaje supervisado, que puede ser aplicado para un
problema de regresión o clasificación” [14]. En los árboles
de decisión de regresión, la variable de respuesta es
continua, mientras que en los de clasificación, la variable
de respuesta o variable clase es discreta. Esta técnica
proporcionó un modelo que posibilitó predecir las
condiciones que cumplen los estudiantes que abandonan
sus estudios, basados en antecedentes de conducta
histórica.
Existen diferentes maneras de obtener árboles de decisión,
la que se usó en esta investigación es conocida como
CART. Esta es una técnica con la que se pueden obtener
árboles de clasificación y de regresión. La implementación
particular de CART que se utilizó, es conocida como
RPART (Recursive Partitioning and Regression Trees), de
allí el nombre del paquete de R que se usó en este trabajo.
Para construir un árbol de decisión fue necesario
definir una función que relaciona una variable categórica
dependiente (clase) con ​n variables independientes
(categóricas o numéricas). En nuestro caso se trabajó con
una variable clase, dependiente denominada ‘Estado01’,
que indica la continuidad o no en los estudios de un
estudiante. Se utilizó como variables predictoras a Carrera,
‘Regulares’ (cantidad de materias regulares), ‘Edad’ (edad
al iniciar su carrera), ‘EsMujer’ (si es mujer o no),
‘TipodeColeg’ (tipo de colegio secundario), ‘EstMadreR2’
(nivel de estudio de la madre).
El siguiente paso que se realizó, fue definir la muestra
de entrenamiento y la muestra de prueba en una
proporción 70:30. Luego se diseñó y graficó el modelo, a
partir de las variables predictoras. Se utilizaron las
funciones de R: rpart(), para generar el modelo, y
rpart.plot(), para obtener su gráfico. Finalmente se analizó
su capacidad predictiva.
4.5 Regresión logística
Se utilizó regresión logística con el objetivo de intentar
predecir la probabilidad de la continuidad o no en los
estudios de los estudiantes de la facultad.
La regresión logística es una técnica analítica que
permite relacionar funcionalmente una variable dicotómica
con un conjunto de variables independientes. Es un
método lineal que intenta modelizar la probabilidad de
ocurrencia de un evento. La variable dependiente es
categórica dicotómica o politómica, a los efectos de
facilitar la interpretación [5].
El modelo de regresión logística se puede escribir
como (Eq. 1):
Li = ln
( )=Z
Pi
1−P i
p
i
= β 0 + β 1 x1 + … + β p xp = β 0 + ∑ β K
K=1
Donde P​i es la probabilidad de que ocurra el evento de
interés (en nuestro caso, continuar los estudios).
En este trabajo se construyó el modelo de predicción
considerando a la variable ‘Estado01’, como variable
dependiente. Como variables independientes (o
predictoras) se utilizó: ‘rendimiento’, ‘Edad’ (al iniciar su
carrera), ‘HsTrabajo2’ (cantidad de horas de trabajo),’
EstPadreR2’ (nivel de estudio del padre), ‘EstMadreR2’
(nivel de estudio de la madre), ‘AniosEI’ (años entre
egreso del secundario e ingreso a la Universidad),
‘fliarCargo’ (cantidad de familiares a cargo), ‘Regulares’
(cantidad de materias regulares), ‘Aprobadas’ (cantidad de
materias aprobadas).
Se realizaron varias pruebas previas con distintas
combinaciones de variables. Para el análisis del modelo de
regresión logística de este trabajo, se seleccionó el modelo
que por los resultados de las pruebas se consideró el más
adecuado.
aglomeración obtenido es de 0.9471413, valor muy
cercano a 1, lo que sugiere una estructura de agrupación
fuerte.
El ajuste del modelo de regresión logística se realizó
dividiendo los datos en una proporción de 70:30. El
conjunto de entrenamiento (train) se utilizó para capacitar
el modelo de regresión logística, el que luego se validó
usando el conjunto de prueba (test).
Se construyó con R los modelos de regresión logística.
Luego, se eligió el modelo más conveniente teniendo en
cuenta sus desvianzas y la medida estadística de ajuste
AIC (Akaike Information Criteria), que penaliza el modelo
logístico para el número de variables predictoras. Esta
métrica se utiliza para hacer comparaciones entre
diferentes modelos, un AIC más bajo indica un mejor
ajuste. Un modelo con un valor mínimo de AIC se
considera un modelo adecuado. Elegido el modelo, con la
menor medida AIC, se examinó sus coeficientes, se evaluó
su eficiencia y se verificó su importancia
Existen distintas técnicas estadísticas para calcular la
significancia de un modelo logístico en su conjunto
(p-value del modelo). Todos ellas consideran que el
modelo es útil si es capaz de mostrar una mejora respecto a
lo que se conoce como modelo nulo, el modelo sin
predictores. En este trabajo, para evaluar el modelo, se
utilizó:
●
●
●
●
Test Wald Chi-test, que sirve para evaluar la
significancia estadística de cada coeficiente en
el modelo.
Análisis de las desviaciones, para ver cómo
disminuye la desviación al agregar, de una en
una, cada variable al modelo.
El estadístico razón de verosimilitud, que
permite valorar si las variables predictoras,
tomadas
en
conjunto,
contribuyen
efectivamente a "explicar" las modificaciones
que se producen en P (Y=1).
El cálculo del Pseudo R2 de McFadden,
número que indica si el modelo tiene o no
poder predictivo.
Figura 2. Agrupamiento Jerárquico - Dendograma
5.2 Método de agrupamiento no jerárquico
K-Means
Con la aplicación de K-Means, al caso de prueba
elegido, se obtuvo la inercia total de 6224 y de inercia
intra grupo de 2814.31 que resultó ser la menor de todas,
lo que indicó que en este caso, la distancia entre sus
elementos es la menor, es decir sus elementos son más
similares.
A continuación, se describe la caracterización realizada
de los estudiantes de la Facultad de Ciencias Exactas,
Cohorte 2015.
Grupo 1
Este grupo o clúster lo conforman 45 estudiantes
(5.7%). La edad promedio de los estudiantes es de 26 años.
La mayor proporción de sus padres tienen estudios
secundarios incompletos, sus madres tienen estudios
secundarios completos. La mayoría de los estudiantes
trabaja entre 20 y 35 horas, sin familiares a cargo. La
cantidad de años entre su egreso de la secundaria e ingreso
a la Universidad, en promedio, es de 7 años; corresponden
la mayor parte a las carreras de tecnicatura en energía solar
y tecnicatura electrónica universitaria, con una materia
regular en promedio, ninguna aprobada y continúan
estudiando.
Grupo 2
5. Resultados obtenidos
Se detalla a continuación, los resultados obtenidos al
aplicar las técnicas de agrupamiento jerárquico,
agrupamiento no jerárquico K-Means, regresión logística y
árboles de clasificación. Además, se interpretan y evalúan
los resultados obtenidos de cada uno de los métodos.
5.1 Métodos de agrupamiento jerárquico
La Fig. 2 muestra el dendograma obtenido. Se visualiza
la conformación de 6 clústers o grupos, cada uno en
distintos colores. Por la distribución de observaciones por
grupo se observa un clúster mayoritario. El coeficiente de
Este grupo lo conforman 318 estudiantes (41%). La
edad promedio de los estudiantes es de 20 años. La mayor
proporción de sus padres tienen estudios secundarios
completos, sus madres tienen estudios superiores
incompletos. La mayoría de los estudiantes trabaja hasta
10 horas, sin familiares a cargo. La cantidad de años entre
su egreso de la secundaria e ingreso a la Universidad, en
promedio, es de 3 años; pertenecen mayoritariamente a la
Licenciatura en Análisis de Sistemas, con ninguna materia
regular en promedio y la mayoría de ellos abandona la
carrera.
Grupo 3
Este grupo lo conforman 50 estudiantes (6.4 %). La
edad promedio de los estudiantes es de 38 años. La mayor
proporción de sus padres tienen estudios secundarios
incompletos, sus madres también con estudios secundarios
incompletos. La mayoría de los estudiantes trabaja de 10 a
20 horas, con un familiar a cargo. La cantidad de años
entre su egreso de la secundaria e ingreso a la Universidad,
en promedio, es de 20 años; corresponden la mayor parte a
la Tecnicatura en Programación y Tecnicatura Electrónica
Universitaria, con ninguna materia regular en promedio y
la mayoría de ellos continúa sus estudios.
Grupo 4
Este grupo lo conforman 39 estudiantes (5%). La edad
promedio de los estudiantes de este grupo es de 21 años.
La mayor proporción de sus padres tienen estudios
secundarios completos, al igual que sus madres. La
mayoría de los estudiantes no trabaja, con un familiar a
cargo. La cantidad de años entre su egreso de la secundaria
e ingreso a la Universidad, en promedio, es de 2 años;
corresponden la mayor parte a la Licenciatura en análisis
de Sistemas, con ninguna materia regular en promedio y la
mayoría de ellos abandona sus estudios.
Grupo 5
Este clúster lo conforman 77 estudiantes (9.8%). La
edad promedio de los estudiantes de este grupo es de 19
años. La mayor proporción de sus padres tienen estudios
secundarios incompletos, sus madres tienen estudios
secundarios completos. La mayoría de los estudiantes no
trabaja, con ningún familiar a cargo. La cantidad de años
entre su egreso de la secundaria e ingreso a la Universidad,
en promedio, es de 3 años; corresponden a la Licenciatura
en Química, Licenciatura en Análisis en Sistemas,
Licenciatura Física y Analista Químico, con 6 materias
regulares en promedio y la mayoría de ellos continúa sus
estudios.
Se observaron dos situaciones: en los grupos de
estudiantes que continúan sus estudios, uno corresponde a
estudiantes que inician sus estudios después de muchos
años de haber finalizado sus estudios secundarios, de
mayor edad, y que trabajan más horas que el resto, con
menor rendimiento pero, a pesar de ello, continúan sus
estudios. Por otro lado, los estudiantes más jóvenes, con
menor cantidad de horas de trabajo, con mayor cantidad de
materias regularizadas y mayor cantidad de materias
aprobadas, también continúan sus estudios. La principal
diferencia que se observa entre estos grupos y los de
estudiantes que abandonan sus estudios, es la cantidad de
materias regularizadas.
Se advirtió también, que es mayor la proporción de
estudiantes que abandonan sus estudios. El grupo más
numeroso, de estudiantes que abandonan sus estudios
(Grupo 2), se representa por estudiantes jóvenes, con
padres y madres con mayor nivel de estudio y con menor
cantidad de horas de trabajo.
5.3 Árboles de decisión
Realizadas las simulaciones con los datos
correspondientes, en el programa RStudio, se obtuvo el
modelo de árboles de decisión del tipo clasificación y el
conjunto de reglas que se derivan de él.
De forma gráfica el resultado se observa (Fig. 3) en el
árbol de decisión obtenido del modelo.
Grupo 6
Este clúster lo conforman 250 estudiantes (32%). La
edad promedio de los estudiantes de este grupo es de 20
años. La mayor proporción de sus padres tienen estudios
primarios completos, sus madres tienen estudios
secundarios incompletos. La mayoría de los estudiantes no
trabaja, con ningún familiar a cargo. La cantidad de años
entre su egreso de la secundaria e ingreso a la Universidad,
en promedio, es de 3 años; la mayor cantidad cursa la
Licenciatura en Análisis en Sistemas, Tecnicatura en
Programación y Analista Químico, con ninguna materia
regular en promedio y la mitad de ellos continúa sus
estudios y la otra mitad no.
Los resultados obtenidos con el método muestran las
características de los alumnos que continúan sus estudios y
de los que lo abandonan.
Figura 3. Árbol de decisión del modelo
El árbol de decisión parte de un nodo principal, donde
su primera condición de decisión es el atributo
‘Regulares’. Esta condición clasifica al total de estudiantes
en dos grupos, el ’grupo 0’ de los estudiantes que
abandonan sus estudios (con el 47% del total de
estudiantes) y el ‘grupo 1’ (con el 53% del total de
estudiantes) de los estudiantes que continúan con sus
estudios. Se describe a continuación las condiciones del
árbol de decisión:
●
●
●
●
De los alumnos que regularizaron menos de
una materia (Regulares <1), es decir no
regularizaron ninguna, y con edad menor a 27
años (Edad<27), un 73% pertenecen al ‘grupo
0’ (abandonan sus estudios) y sólo un 27% de
ellos pertenecen al ‘grupo 1’ (continúan sus
estudios).
De los alumnos que regularizaron menos de
una materia (Regulares <1), con edad mayor o
igual a 27 años (Edad>=27) y de sexo
femenino (EsMujer=1), un 63 % de ellos
pertenecen al ‘grupo 0’ (abandonan sus
estudios).
De los alumnos que regularizaron menos de
una materia (Regulares <1), con edad mayor o
igual a 27 años (Edad>=27) y de sexo
masculino (EsMujer ≠1), un 63 % de ellos
pertenecen al ‘grupo 1’ (continúan sus
estudios).
De los alumnos que regularizaron por lo
menos una materia (Regulares >=1), un 83 %
de ellos pertenecen al ‘grupo 1’ (continúan
sus estudios).
Se observa que el nodo raíz del árbol toma el valor de
la variable ‘Regulares’ (cantidad de materias
regularizadas). Es decir que la condición que se evalúa
para la partición del nodo es Regulares<1, el alumno no ha
regularizado ninguna materia. Si la condición se cumple,
la rama continúa su camino hacia el nodo que se encuentra
abajo del nodo raíz, a su lado izquierdo, y se evalúa el
nodo hijo siguiente que corresponde a la variable ‘Edad’.
En este punto, la condición que se evalúa es Edad<27, si
esta condición se cumple la ramificación sigue hacia la
izquierda del nodo, llegando a un nodo hoja que muestra
una probabilidad de pertenecer al ‘grupo 0’ de un 73% de
que un alumno abandone sus estudios. Se continúa con el
mismo razonamiento para cada uno de los nodos del árbol.
La interpretación de las reglas del árbol de decisión
muestra que el principal grupo de riesgo, con una
probabilidad del 73% de probabilidad de abandonar sus
estudios, son los estudiantes más jóvenes que no logran
regularizar ninguna materia.
A continuación se analizó la calidad de predicción del
modelo. Con la función confusionMatrix() del paquete
Caret de R, se obtuvo la matriz de confusión (herramienta
que permite la visualización del desempeño de un
algoritmo que se emplea en aprendizaje supervisado). A
partir de los resultados obtenidos de la matriz de
confusión, se observó que la tasa de verdaderos positivos
(TPR= 79%) y de verdaderos negativos (TNR=77%) son
mayores que las tasas de falsos positivos (FPR= 23%) y
falsos negativos (FNT=20%).
El acierto o exactitud (Accuracy) resultó ser del 78%,
lo que representa un muy desempeño del modelo para este
tipo de datos, y representa un modelo confiable para
predecir las condiciones del abandono de los estudios de
los estudiantes. Para complementar el análisis de la
eficiencia del método obtenido, se realizó una
representación gráfica del rendimiento del clasificador o
curva ROC (Fig. 4) y se obtuvo el área bajo la curva ROC
(AUC).
La curva ROC muestra la distribución de las fracciones
de verdaderos positivos (sensibilidad) y de falsos positivos
(especificidad) y el valor del 77.88206% (datos de
entrenamiento) y del 83.42242 (datos de prueba)
obtenidos, correspondiente al área bajo la curva ROC
(AUC), confirman que el modelo de árbol de decisión del
tipo clasificación tiene un buen rendimiento, es eficiente
para los datos en cuestión.
Figura 4. Curva ROC del modelo de árbol de decisión
5.4 Regresión logística
Obtenido el modelo con el método de regresión
logística binomial, se observó que las variables
‘Aprobadas’, ‘Regulares’, ‘HsTrabajo2’ y ‘AniosEI’ son
estadísticamente significativas. Las variables Aprobadas’ y
‘Regulares’ son más significativas que ‘HsTrabajo2’ y
‘AniosEI’, con valor de p más bajo, y señala una fuerte
asociación de la cantidad de materias ‘Aprobadas’ y
‘Regulares’ del estudiante con la probabilidad de continuar
sus estudios.
Teniendo en cuenta que en el modelo regresión
logística (logit), las variables de respuesta son las
probabilidades de registro: ln (probabilidades) = ln (p /
(1-p)) que es el logaritmo de los odds, en nuestro modelo
el logaritmo de los odds de que un estudiante continúe con
sus estudios está positivamente relacionado con las
materias
Aprobadas’
y
‘Regulares’.
Además,
considerando que el coeficiente de regresión no es más que
el odds ratio entre dos individuos que se diferencian en
una unidad de la variable independiente (predictora). Esto
implica que, por cada unidad que se incrementa la variable
‘Aprobadas’ (materias aprobadas), le corresponderá un
odds ratio de continuar sus estudios más de dos veces
mayor (2.57) que otro estudiante, siempre que las variables
restantes sean iguales en ambos estudiantes. Con respecto
a la variable ‘Regulares’ (materias regularizadas), le
corresponderá un odds ratio de continuar sus estudios más
de tres veces mayor (3.11519) que otro estudiante, siempre
que las variables restantes sean iguales en ambos
estudiantes. A su vez, por cada aumento unitario en la
cantidad de horas de trabajo ‘HsTrabajo2’ (coeficiente de
regresión = -0.28784) del estudiante, los odds de continuar
sus estudios (Estado01=1) disminuye en 1.33, siempre que
las variables restantes sean iguales en ambos estudiantes,
mientras que la variable ‘AniosEI’ aumenta 1.13, siempre
que las variables restantes sean iguales en ambos
estudiantes Las variables restantes no resultaron ser
estadísticamente significativas.
A partir de los resultados obtenidos de la diferencia
entre la desviación nula y la desviación residual se pudo
ver cómo disminuye la desviación al agregar, de una en
una, cada variable. Al agregar la variable ‘Aprobadas’ y
‘Regulares’ se redujo significativamente la desviación
residual. El resto de las variables, mejoraron poco el
modelo.
modelo para este tipo de datos, y representa un modelo
confiable para predecir el abandono de los estudios de los
estudiantes.
Finalmente se graficó la curva ROC y se calculó el
AUC (área debajo de la curva) sobre los datos de
entrenamiento, medidas de rendimiento típicas para un
clasificador binario.
La curva ROC ofrece un mejor resumen de la
capacidad predictiva del modelo que una tabla de
clasificación, porque presenta la potencia predictiva para
todos los posibles valores de referencia o umbral. La
Figura 5, muestra la curva ROC que se obtuvo para el
modelo de regresión logística de este trabajo.
A continuación, se procedió a evaluar la bondad de
ajuste del modelo elegido con la razón de verosimilitud.
La razón de verosimilitud (Likelihood ratio), usa la
diferencia entre la probabilidad de obtener los valores
observados con el modelo logístico resultante y las
probabilidades de hacerlo con un modelo sin relación entre
las variables. Para esto, calcula la significancia de la
diferencia de residuos entre el modelo de interés (modelo
con predictores) y el modelo nulo (modelo sin
predictores). El estadístico sigue una distribución
chi-cuadrado con grados de libertad equivalentes a la
diferencia de grados de libertad de los dos modelos. En
nuestro modelo, la diferencia de residuos fue de 269.0295
en 9 grados de libertad, de lo que resulta un valor p de
p-value: 9.49271754768638e-53. En este caso, el modelo
obtenido sí es significativo.
En la regresión lineal, el estadístico R2 indica la
proporción de varianza en la variable dependiente que se
explica por los predictores. No hay una medida
equivalente para la regresión logística pero si existe una
serie de valores R2 que pueden ser útiles para analizar la
bondad de ajuste de un modelo. El más destacado es el
número Pseudo R2 de McFadden.. La medida varía desde
0 un poco menos de 1, con valores más cercanos a cero
indican que el modelo no tiene poder predictivo. El
resultado obtenido en el modelo obtenido fue 0.3593590,
valores entre 0.2 y 0.4 indica un muy buen ajuste del
modelo.
Para realizar la validación de los valores pronosticados
se construyó la matriz de confusión de los datos de prueba
y se obtuvo la tasa de clasificación. A partir de los
resultados obtenidos de la matriz de confusión, se observó
que la tasa de verdaderos positivos (TPR= 70%) y de
verdaderos negativos (TNR=81%) son mayores que las
tasas de falsos positivos (FPR= 19%) y falsos negativos
(FNT=32%). El acierto o exactitud (Accuracy) resultó ser
del 79.48%, lo que representa un muy buen desempeño del
Figura 5. Curva ROC del modelo de regresión logística
6. Conclusiones
En este trabajo se ha comprobado que para la
aplicación de técnicas de Data Mining, sobre los datos de
los estudiantes de la Facultad de Ciencias Exactas, fue
necesario realizar cada una de las etapas en las que se basa
el proceso del descubrimiento del conocimiento (KDD).
También se pudo corroborar, que la fase más laboriosa del
proceso KDD es la de preparación de los datos.
Los tres métodos seleccionados han obtenido muy
buenos rendimientos. Con los métodos de agrupamiento se
ha logrado identificar los perfiles de los estudiantes con
riesgo de deserción o abandono de sus estudios. Esto
contribuirá a proponer acciones proactivas para disminuir
el índice de abandono. En relación a esto, se estima que el
perfilamiento de los estudiantes podría ser más beneficioso
si sería mayor la calidad de los datos recolectados, desde
las distintas fuentes, de los datos relacionados a la realidad
socioeconómica de los estudiantes. Se considera
importante que expertos en el tema de aprendizaje definan
los datos a recolectar sobre todo vinculados a la situación
académica del nivel medio, por ejemplo: competencias
adquiridas, y que el proceso de recolección de datos sea
ineludible.
El patrón obtenido con el método de Árboles de
Decisión posibilitó identificar atributos que inciden para
determinar la deserción de estudiantes y realizar la
clasificación de los estudiantes. Su valor de 0.7788206 que
indica su capacidad predictiva, correspondiente al área
bajo la curva ROC (AUC), superó en calidad al modelo
obtenido con el método de regresión logística (0.7484926)
pero por un margen menor.
La información presentada de forma gráfica con el
Árbol de Decisión resultante, es fácil de interpretar, lo que
es muy importante. En él se observa que la variable
‘Regulares’ (cantidad de materias regularizadas en los
períodos 2015, 2016 y 2017 sería la variable determinante
de los datos utilizados en este método, transversal a todas
las carreras y asociado a los estudiantes de primer año. La
interpretación de las reglas del árbol de decisión mostró
que el principal grupo de riesgo, con una probabilidad del
73% de abandonar sus estudios, son los estudiantes más
jóvenes que no logran regularizar ninguna materia. Este
resultado probablemente se podría complementar
incorporando nuevas variables socioeconómicas y de la
trayectoria en el nivel medio de los estudiantes.
Con una capacidad predictiva del 79.48%, el modelo
obtenido con la Regresión Logística Binomial se podrá
utilizar para predecir la probabilidad de que un estudiante
‘continúe sus estudios’. En su desarrollo se señaló a las
variables: ‘Aprobadas’ y ‘Regulares’ como las variables
estadísticamente más significativas del método, lo que
coincidió con lo observado en el método de árbol de
decisión. Este resultado condice con el análisis realizado
por el CISE que señala como indicador del muy bajo
desempeño del rendimiento de los estudiantes, la cantidad
de materias aprobadas por año.
Es muy importante conocer con antelación cuáles son
los estudiantes con mayor probabilidad de desertar, cuáles
son los factores que inciden en ello. Llevar a cabo este tipo
de investigación permite identificar con anticipación a los
estudiantes que son candidatos a desertar y realizar
acciones diferenciadas sobre los distintos grupos de
estudiante, todas orientadas a evitar que los estudiantes
abandonen sus estudios universitarios.
=23985&congresos=yes&detalles=yes&congr_id=6607517​,
2017.
[2] Angulo, E. ​Docplayer. Recuperado el 30 de Octubre de 2019,
de
https://docplayer.es/789942-Modelo-para-la-automatizacion-delproceso-de-determinacion-de-riesgo-de-desercion-en-estudiantesuniversitarios.html​, 2012.
[3] Beguerí, G., and Malberti, M., “Minería de Datos y una
Aplicación en la Educación Superior”, in Trabajos del ​WICC
2017, Buenos Aires, 2017, pp. 1276-1279.
[4] Bitocchi, O. S., “Modelos predictivos de la deserción
estudiantil en una universidad privada peruana”,
​Revista
Industrial Data 21, 2,​ 2018. pp. 47-52.
[5] Britos, P. V., Hossian, A., Sierra, E., and García Martínez, R.
“​Minería de datos basada en sistemas Inteligentes”, Buenos
Aires, Ed. Nueva Librería, 2015.
[6] Calvo, D. Recuperado el 30 de Octubre de 2019, de
http://www.diegocalvo.es/analisis-cluster-no-jerarquico-k-meansen-r/​, 2016.
[7] Calvo, D. Recuperado el 5 de Noviembre de 2019, de
http://www.diegocalvo.es/definicion-de-rstudio/​, 2018.
[8]
Eckert, K., and
Suenaga,
R.
“Análisis de
Deserción-Permanencia de Estudiantes Universitarios Utilizando
Técnica de Clasificación en Minería de Datos”, ​Formación
Universitaria,​ 3, 12, 2015.
[9] Fayyad, U. M., Piatestky-Shapiro, G., and Smith, P. “The
KDD Process for Extracting Useful Knowledge discovery and
Data Mining”, AAAI/MIT Press, 1994.
[10] Fundación Libertad. Recuperado el 31 de 10 de 2019, de
Informes
CISE:
https://libertad.org.ar/web/wp-content/uploads/2019/09/CISE_Ra
diografia_Universidades.pdf​, 2019.
[11] Hand, D., “Encyclopedia of Environmetrics”, Recuperado el
30
de
Octubre
de
2019,
de
https://doi.org/10.1002/9780470057339.vad002.pub2​, 2013.
Agradecimientos
[12] Hernández, R. F., “Introducción a la Minería de Datos”,
Madrid, Ed. Pearson Educación, 2004.
Los autores agradecen a las autoridades de la Facultad
de Ciencias Exactas y al personal del Centro de Cómputos
y de la Dirección de Estadísticas de la UNSa por proveer y
facilitar los datos necesarios para realizar el presente
trabajo.
[13] Maimon, R., “Data Mining and Knowledge Discovery
Handbook, Second Edition”, London, Springer, 2010.
Referencias
[15] Miranda, M. A., and Guzmán, J. “Análisis de la Deserción
de Estudiantes Universitarios usando Técnicas de Minería de
Datos”, ​Formación Universitaria,​ 2017, pp. .61-68.
[1] Adrogué, C., and Fanelli, M.
Consejo Nacional de
Investigaciones. Recuperado el 30 de 10 de 2019, de CONICET:
https://www.conicet.gov.ar/new_scp/detalle.php?keywords=&id
[14] Menacho Chiok, C. H., “Predicción del rendimiento
académico aplicando técnicas de minería de datos”, Anales
Científicos, l. 78, 2017, pp. 26-33.
[16] Moody, J. D., "Fast learning in network of locally turned
processing units”, Neuronal computation, 1989, pp. 281-294.
[17] Quintana Ramírez, M. J., and Hernández Orallo, J.,
“Extracción Automática de Conocimiento en Base de Datos e
Ingeniería del Software”, España, 2003 .
[18] Rabossi, M., Universidad Torcuato di Tella. Recuperado el 5
de
Noviembre
de
2019,
de
https://www.utdt.edu/ver_nota_prensa.php?id_nota_prensa=1677
0&id_item_menu=6​, 2019.
[19] Reyes, F. R., “Minería de datos aplicada para la
identificación de factores de riesgo en alumnos”, Research in
Computing Science 139, 2017, pp. 177–189.
[20] Romero, D. G., Rodríguez, S. L., Martínez, C. A., and
Romano, R. E., “Análisis cuantitativo y Cualitativo de la
Deserción en la Facultad de Ciencias Exactas de la Universidad
Nacional de Salta”,
Memorias VI CLABES 2016 Sexta
Conferencia Latinoamericana sobre el Abandono en la Educación
Superior, Quito, Ecuador, 2016, pp. 51-59.
[21] Sotomonte, J., Rodríguez, C., and Marín, C., ”Hacia la
construcción de un modelo predictivo de deserción académica
basado en técnicas de minería de datos”, ​Revista Científica,​
2016, pp. 35-48.
Descargar