Subido por Edgar Alexis Sánchez Auccapuclla

tesis de la san ignacio

Anuncio
FACULTAD DE INGENIERÍA
Carrera de Ingeniería Informática y de Sistemas
ANÁLISIS DE LA LATENCIA DEL SERVICIO DE
INTERNET Y SU IMPACTO EN LAS APLICACIONES
DE INTERNET DE LAS COSAS (IoT)
Tesis para optar el Título Profesional de Ingeniero Informático y
de Sistemas
LUIS ALBERTO MOSTACERO AGAMA
(0000-0001-8537-8982)
Asesor:
Mg. Pedro Nelson Shiguihara Juárez
(0000-0003-0137-3215)
Lima – Perú
2022
ANÁLISIS DE LA LATENCIA DEL SERVICIO DE INTERNET Y SU
IMPACTO EN LAS APLICACIONES DE INTERNET DE LAS COSAS
(IoT)
INFORME DE ORIGINALIDAD
9
%
INDICE DE SIMILITUD
1%
FUENTES DE INTERNET
8%
PUBLICACIONES
1%
TRABAJOS DEL
ESTUDIANTE
FUENTES PRIMARIAS
1
Luis Mostacero-Agama, Pedro Shiguihara.
"Analysis of Internet Service Latency and its
Impact on Internet of Things (IoT)
Applications", 2022 IEEE Engineering
International Research Conference (EIRCON),
2022
8%
Publicación
2
Submitted to The Robert Gordon University
<1 %
3
spectrum.library.concordia.ca
<1 %
Trabajo del estudiante
Fuente de Internet
Excluir citas
Apagado
Excluir bibliografía
Apagado
Excluir coincidencias
Apagado
ii
JURADO DE LA SUSTENTACIÓN ORAL
………………………………..…………………………………………….
Presidente
………………………………..…………………………………………….
Jurado 1
………………………………..…………………………………………….
Jurado 2
Entregado el: 14 / 11 / 2022
………………….……………..……
Luis Alberto Mostacero Agama
Graduando
Facultad de Ingeniería
Ing. de Informática y de Sistemas
Aprobado por:
………………….……………..……
Pedro Nelson Shiguihara Juárez
Asesor de Tesis
iii
UNIVERSIDAD SAN IGNACIO DE LOYOLA
FACULTAD DE INGENIERÍA
DECLARACIÓN DE AUTENTICIDAD
Yo, Luis Alberto Mostacero Agama , identificado con DNI N°40014382, Bachiller del
Programa Académico de la Carrera de Ingeniería Informática y de Sistemas de la
Facultad de Ingeniería de la Universidad San Ignacio de Loyola, presento mi tesis
titulada:
“Análisis de la Latencia del Servicio de Internet y su Impacto en las Aplicaciones de
Internet de las Cosas (IoT)”
Declaro en honor a la verdad, que el trabajo de tesis es de mi autoría; que los datos,
los resultados y su análisis e interpretación, constituyen mi aporte. Todas las
referencias han sido debidamente consultadas y reconocidas en la investigación.
En tal sentido, asumo la responsabilidad que corresponda ante cualquier falsedad u
ocultamiento de la información aportada. Por todas las afirmaciones ratifico lo
expresado, a través de mi firma correspondiente.
Lima, 14 de Noviembre del 2022
……………………………………………..
Luis Alberto Mostacero Agama
DNI 40014382
Facultad de Ingeniería
Ing. de Informática y de Sistemas
iv
DEDICATORIA
Le quiero dedicar el resultado de este trabajo a mi
esposa Erika. Por su amor, paciencia y
compresión. Ella hace que alcance mi equilibrio
mi mejor versión, algo por que siempre le estaré
agradecido.
También se lo quiero dedicar a mi hijo
Gianfranco, quien se convirtió en mi principal
fuente de información, propiciando el empujón
que necesitaba para empezar este trabajo.
A mis padres, quienes me enseñaron a ser una
persona de valores y principios, y a afrontar las
dificultades de la vida.
A mi asesor, el profesor Pedro Shiguihara, que
me ayudó a orientar este trabajo hacia una
investigación exigente, profunda, detallada y
única, y así poder darle un enfoque global.
A Carlos Blas y Francisco Tafur, por ese apoyo
incondicional para formarme como un buen
profesional y mejor persona.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
v
AGRADECIMIENTO
Quiero agradecer a las empresas Grupo Urano
Perú y Check Security, por haberme facilitado la
infraestructura de hardware y software que
necesitaba para desarrollar la investigación de
este trabajo.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
vi
RESUMEN
La pandemia del Covid-19 hizo que se adoptaran nuevas tecnologías, siendo
IoT una de ellas. El objetivo principal de IoT es la interacción, en tiempo real, de
personas y objetos utilizando redes de comunicación desde cualquier lugar y en
cualquier momento, pero cada día aumenta la cantidad de dispositivos utilizados, por
lo que necesitan redes más eficientes que puedan ofrecer valores bajos para
indicadores de rendimiento, como la latencia y la fluctuación, ya que son un
requisito para las aplicaciones en tiempo real, como los vehículos autónomos, el
control de tráfico, etc., la telemedicina y los videojuegos online multijugador, para
que puedan funcionar sin problemas.
Al recopilar datos de latencia, fluctuación y pérdida de paquetes de cinco
servidores diferentes, construimos un conjunto de datos para usar con algoritmos de
regresión en modelos de aprendizaje automático, para analizar el servicio de Internet
en Perú, evaluar datos y poder hacer estimaciones.
Palabras Clave: IoT, tiempo real, latencia, fluctuación, Internet de las cosas, paquetes
perdidos, velocidad de Internet
Facultad de Ingeniería
Ing. de Informática y de Sistemas
vii
ABSTRACT
The Covid-19 pandemic caused new technologies to be adopted, IoT being one
of them. The main objective of IoT is the interaction, in real-time, of people and
objects using communication networks from anywhere and at any time, but every
day the number of used devices increases, so they need more efficient networks that
can offer low values for performance indicators, such as latency and jitter since they
are a requirement for real-time applications, such as autonomous vehicles, traffic
control, etc. telemedicine, and online multiplayer video games, so that they can work
without problems.
Collecting latency, jitter, and packet loss data from five different servers, we
built a dataset to be used with regression algorithms in Machine Learning models, to
analyze Internet service in Peru, evaluate data, and to be able to make estimates.
Keywords: IoT, real-time, latency, jitter, Internet of Things, packet loss, Internet
speed,
Facultad de Ingeniería
Ing. de Informática y de Sistemas
viii
TABLA DE CONTENIDO
DEDICATORIA ..................................................................................................... iv
AGRADECIMIENTO ............................................................................................. v
RESUMEN ............................................................................................................. vi
ABSTRACT .......................................................................................................... vii
TABLA DE CONTENIDO ................................................................................... viii
LISTA DE TABLAS .............................................................................................. ix
LISTA DE FIGURAS .............................................................................................. x
INTRODUCCIÓN .................................................................................................. xi
CAPITULO I: GENERALIDADES ......................................................................... 1
Problema de investigación.................................................................................... 1
Realidad problemática ...................................................................................... 1
Formulación del problema ................................................................................ 4
Justificación ......................................................................................................... 4
Objetivos ............................................................................................................. 5
Objetivo General .............................................................................................. 5
Objetivos Específicos ....................................................................................... 5
CAPITULO II: MARCO TEORICO ........................................................................ 6
Antecedentes........................................................................................................ 6
Bases teóricas ...................................................................................................... 8
Definición de términos básicos............................................................................. 9
CAPITULO III: DISEÑO METODOLÓGICO ...................................................... 12
Formulación de la Hipótesis ............................................................................... 12
Identificación de Variables ................................................................................. 13
Operacionalización de Variables ........................................................................ 14
Población ........................................................................................................... 16
Muestra .............................................................................................................. 17
Diseño de Investigación ..................................................................................... 17
Técnicas e Instrumentos de recolección de datos ................................................ 17
Métodos y Procedimientos de análisis de datos .................................................. 20
CAPITULO IV: DESARROLLO. .......................................................................... 23
CAPITULO V: RESULTADOS ............................................................................ 27
CAPITULO VI: DISCUSIÓN DE RESULTADOS................................................ 34
CAPITULO VII: CONCLUSIONES...................................................................... 37
CAPITULO VIII: RECOMENDACIONES ........................................................... 39
REFERENCIAS .................................................................................................... 40
ANEXOS............................................................................................................... 44
Facultad de Ingeniería
Ing. de Informática y de Sistemas
ix
LISTA DE TABLAS
Tabla 1 .................................................................................................................. 12
Tabla 2 .................................................................................................................. 13
Tabla 3 .................................................................................................................. 14
Tabla 4 .................................................................................................................. 15
Tabla 5 .................................................................................................................. 24
Tabla 6 .................................................................................................................. 27
Tabla 7 .................................................................................................................. 28
Tabla 8 .................................................................................................................. 31
Tabla 9 .................................................................................................................. 33
Tabla 10 ................................................................................................................ 34
Facultad de Ingeniería
Ing. de Informática y de Sistemas
x
LISTA DE FIGURAS
Figura 1 .................................................................................................................. 3
Figura 2 ................................................................................................................ 17
Figura 3 ................................................................................................................ 19
Figura 4 ................................................................................................................ 29
Figura 5 ................................................................................................................ 29
Figura 6 ................................................................................................................ 30
Figura 7 ................................................................................................................ 30
Figura 8 ................................................................................................................ 30
Figura 9 ................................................................................................................ 32
Facultad de Ingeniería
Ing. de Informática y de Sistemas
xi
INTRODUCCIÓN
Internet es una red mundial para difundir de información, también para que
las personas colaboren e interactúen con sus computadoras sin tener en cuenta la
ubicación geográfica (Leiner et al., 2017).
Internet de las Cosas (IoT), considerada la evolución de Internet, es una red
de objetos interconectados que interactúan entre sí y con personas, en tiempo real, en
cualquier momento y en cualquier lugar (Fedullo et al., 2022). Si bien IoT presentó
inconvenientes para su despliegue por problemas de seguridad, falta de mano de obra
especializada o falta de casos de uso con un claro retorno de la inversión, la
pandemia del COVID-19 ha obligado a su adopción en varias áreas como la
telemedicina y el trabajo remoto (Umair, M. et al., 2021). Sin embargo, el creciente
número de objetos conectados requiere una infraestructura de comunicación
mejorada que proporcione valores de latencia bajos (Gidlund et al., 2018). La
latencia se define como el tiempo de retraso, en milisegundos, para comunicar dos
objetos conectados (European Telecommunications Standards Institute [ETSI],
2008).
En 2022, los usuarios todavía miden la velocidad de Internet, en megabits por
segundo, para diagnosticar el estado de su conexión proporcionada por un proveedor
de servicios de Internet (PSI). Por ejemplo, Ookla es un popular sitio web de pruebas
de velocidad de Internet visitado por los usuarios, que ejecuta pruebas de velocidad
utilizando servidores con baja latencia y geográficamente cercanos al usuario,
Facultad de Ingeniería
Ing. de Informática y de Sistemas
xii
obteniendo medidas optimistas de latencia y velocidad de Internet (Yang et al., 2022)
La mayoría de los PSI utilizan las mismas pruebas para diagnosticar problemas en
sus redes de comunicación; sin embargo, la latencia tiene mayor relevancia, e
importancia, que la velocidad de Internet, especialmente en aplicaciones en tiempo
real como videoconferencias, juegos multijugador en línea, tratamiento médico
remoto, hogar inteligente, ciudades inteligentes, entre otras (Lai et al., 2020)
Según (Lai et al., 2020), los indicadores de Internet se estimaron con modelos
de aprendizaje automático, utilizando datos obtenidos de los equipos de
comunicación de la red de los ISP, utilizando métricas como Precision, Recall y F-1
Score para evaluar el rendimiento. Dado que el índice de precisión podría variar si
consideramos el uso de servidores ubicados fuera de las redes de los PSI, se propone
diagnosticar el servicio de internet midiendo indicadores como latencia, fluctuación
y pérdida de paquetes a través de una aplicación web instalada en un servidor en
Lima Perú, que mide los indicadores de internet utilizando cinco servidores
diferentes ubicados en los Estados Unidos de América. Estos servidores fueron
seleccionados porque brindan los servicios más utilizados, como Google y
Microsoft, por los usuarios en Perú y América Latina. Además, se utilizan modelos
de Machine Learning con algoritmos de regresión para evaluar la calidad de los
datos recopilados para la predicción.
Este documento ha sido estructurado como sigue: en el Capítulo I detalla
información sobre el problema de investigación, la realidad problemática,
formulación del problema, justificación y objetivos. En el siguiente capítulo, define
el marco teórico, tales como antecedentes, bases teóricas y definiciones de términos
Facultad de Ingeniería
Ing. de Informática y de Sistemas
xiii
básicos utilizadas en este documento para contextualizar nuestra investigación. La
información sobre las hipótesis, las variables y su operacionalización, además de
datos de la muestra, población, diseño de investigación, técnicas e instrumentos para
la recolección de datos, y métodos y procedimientos de análisis de datos, se detalla
en el Capítulo III. Respecto al desarrollo, el Capítulo 4 explica cómo se capturaron y
calcularon los datos de los indicadores de Internet, y el Capítulo 5 detalla los
modelos de aprendizaje automático utilizados para analizar el conjunto de datos y las
métricas para evaluar los modelos. Los resultados del análisis y diagnóstico a través
de la visualización de datos y tablas con métricas de modelos de Machine Learning
se detallan en el Capítulo VI. Finalmente, los capítulos VII y VIII muestran las
conclusiones y recomendaciones respectivamente.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
1
INFORME DE TESIS
CAPITULO I: GENERALIDADES
Problema de investigación
Realidad problemática
En el año 2020, la pandemia por el virus COVID-19 hizo que el mundo diera
un giro inesperado. Para Umair et al. (2021), el COVID-19 impuso cambios en las
políticas, prioridades y actividades de personas, organizaciones y gobiernos, los
cuales se convirtieron en un acelerador para las innovaciones y la tecnología.
Una de las tecnologías adoptadas por la pandemia es el Internet de las Cosas
(IoT), la cual para Fedullo et al. (2022) es una red de objetos interconectados que
interactúan entre sí y con personas desde cualquier lugar y momento. Asimismo,
Gidlund et al. (2018) indica que el componente clave del IoT es la infraestructura de
comunicación, la cual tiene muchos desafíos técnicos por delante, ya que se necesita
conectar un gran número de dispositivos a Internet con baja latencia.
En Perú los cambios debido a la pandemia fueron visibles. Actividades como
el trabajo remoto, educación virtual, teleconsultas médicas, entre otras fueron
habilitadas para reducir el impacto de la cuarentena, pero también aparecieron los
problemas con las redes de comunicación debido al incremento en su uso por las
actividades mencionadas. Según el Estudio de Satisfacción 2021 realizado por el
Organismo Supervisor de Inversión Privada en Telecomunicaciones [OSIPTEL]
(2022), solo el 29% estaba totalmente satisfecho con su servicio de Internet Fijo,
mostrando una caída de 4% respecto del 33% reportado en el año 2020. Asimismo, un
Facultad de Ingeniería
Ing. de Informática y de Sistemas
2
78% de usuarios tuvo problemas con el servicio, de los cuales el 58% reportó
problemas debido a la velocidad de navegación lenta y el 46% debido a intermitencias
con el servicio.
Cuando se mencionan actividades de trabajo remoto, educación virtual,
teleconsultas médicas, entre otras, es posible mencionar a proveedores como Google,
Microsoft, Zoom, Amazon Web Services, las cuales son empresas líderes en
tecnología que ofrecen servicios ampliamente utilizados por los peruanos. Al respecto,
el portal DataReportal (2022) ha realizado un análisis de datos del comportamiento de
los usuarios peruanos conectados a Internet, donde se detalla que durante el año 2021
las visitas al dominio Google.com, que incluyen los servicios como GMail, Drive,
Presentations, Meet y Cloud, llegaron a los 8 330 millones al año, el dominio
Zoom.us, que ofrece el servicio de videoconferencias, alcanzó el número de 891
millones y el dominio Live.com, que incluyen a Outlook y Office 365, llegó a los 320
millones.
Respecto a valores de velocidad, DataReportal (2022) detalla que el promedio
es de 42.26 Megabits por segundo (Mbps), cálculo que obtiene luego de haber
analizado datos del proveedor Ookla del mes de noviembre 2021. Sobre el particular,
Yang et al. (2022) dice que los usuarios de Internet usan pruebas de Internet para
medir la velocidad de descarga y diagnosticar el estado de sus conexiones. En octubre
2021 había más de 38 mil millones de pruebas de velocidad realizadas por Ookla, una
popular web de pruebas de velocidad de Internet distribuida por todo el mundo, la
cual ofrece una interfaz web que selecciona un servidor con baja latencia por defecto
para los usuarios, el cual está ubicado, geográficamente, cerca al usuario que realiza la
Facultad de Ingeniería
Ing. de Informática y de Sistemas
3
prueba. Esta selección de servidor tiene como objetivo obtener una menor latencia y
una mayor velocidad, lo cual hace que las pruebas muestren resultados muy
optimistas y sesgados, lo que no los hace efectivos como se requieren para una
investigación.
Figura 1
Prueba de Velocidad Ookla - Lista de Servidores
De acuerdo a Lai et al. (2020), los Proveedores de Servicios de Internet (PSI)
utilizan las mismas pruebas de velocidad que los usuarios para diagnosticar problemas
en sus redes de comunicación, sin embargo, la latencia es más importante para el
servicio de Internet que la velocidad de Internet, especialmente en aplicaciones
sensibles al tiempo como videoconferencias, juegos en línea multijugador,
telemedicina, etc. Teniendo en cuenta ello, se recolectaron datos de los equipos de redes
de comunicación de los PSI para obtener información de la latencia y, utilizando
modelos de clasificación de Inteligencia Artificial, se obtuvieron resultados de las
métricas Precision, Recall, F1-Score con Accuracy de 66% para responder a la
interrogante planteada: ¿Se quejará el cliente por el mal servicio prestado?
Facultad de Ingeniería
Ing. de Informática y de Sistemas
4
Formulación del problema
● ¿El proceso utilizado para diagnosticar el funcionamiento del servicio de
Internet es efectivo para usarse con aplicaciones IoT?

¿Es posible estimar la latencia aplicando modelos de regresión de Machine
Learning?

¿Existe correlación entre la latencia y la fluctuación, y cómo afectaría a las
aplicaciones IoT?

¿Existe correlación entre la velocidad de descarga y la latencia?
Justificación
Considerando que las investigaciones previas realizadas por Lai et al. (2020) y
Yang et al. (2022) tuvieron un alcance local, limitados a datos obtenidos de los
equipos de redes de comunicación de los PSI y pruebas realizadas entre equipos
ubicados en los mismos lugares geográficos respectivamente, los resultados de las
métricas como F1-Score, Precision, Recall no fueron muy precisos ya que se obtuvo
un Accuracy del 66%. Por ello, en la presente investigación se propone realizar
mediciones de los indicadores del servicio de Internet, capturando datos entre una
aplicación web ubicada en Lima y cinco servidores ubicados en distintas ciudades de
Estados Unidos, los cuales se encuentran geográficamente fuera de la red de
comunicaciones del PSI, lo cual permitirá construir un conjunto de datos de mayor
precisión de los indicadores: latencia, fluctuación y paquetes perdidos. Finalmente,
aplicando modelos de Machine Learning con algoritmos de regresión, se evaluará el
funcionamiento del servicio de Internet en Perú a través de métricas como MAE,
RMSE, R2 y la Correlación de Pearson, para determinar el estado actual del servicio
Facultad de Ingeniería
Ing. de Informática y de Sistemas
5
de Internet y como ello afecta la implementación y funcionamiento de las aplicaciones
IoT en hogares y empresas.
Objetivos
Objetivo General

Desarrollar un proceso para diagnosticar el funcionamiento del servicio de
Internet midiendo velocidad, latencia, fluctuación y paquetes perdidos
desde distintas ubicaciones geográficas, siendo efectivo para usarse en
aplicaciones IoT.
Objetivos Específicos

Recolectar datos de la latencia, fluctuación y paquetes perdidos desde
múltiples servidores, que se encuentran en distintas ubicaciones
geográficas.

Analizar la correlación entre los indicadores de servicio de Internet y
determinar el impacto que tienen en las aplicaciones IoT.

Verificar si existe correlación entre la latencia y la velocidad de Internet.

Determinar la precisión de los modelos de Machine Learning utilizando
técnicas de regresión con los datos de latencia.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
6
CAPITULO II: MARCO TEORICO
Antecedentes
Según Fedullo et al (2022), la transformación digital generada por el
paradigma Industria 4.0 y los requerimientos de comunicación necesarios para su
funcionamiento, encajan con los requerimientos del Internet de las Cosas (IoT). Al
respecto, indica que las redes actuales no ofrecen la comunicación en tiempo real, por
lo que propone el uso de Time-Sensitive Networks (TSN) como el nuevo protocolo de
comunicación para manejar el tráfico crítico en tiempo real.
Asismimo, para Gidlung et al. (2018), el componente crítico para IoT es la
infraestructura de comunicación, la cual tienen muchos desafíos técnicos por delante,
ya que se necesita conectar un gran número de dispositivos a Internet donde la
latencia y confiabilidad son las características más buscadas, por lo que plantea el uso
de redes inalámbricas con soluciones de sincronización de tiempo y detección de
errores, lo cual permitirá ofrecer una comunicación en tiempo real.
Según Umair et al. (2021), la pandemia COVID 19 ha forzado la adopción del
IoT para proveer de soluciones innovadoras en una variedad de áreas, como salud,
agricultura y transporte, proponiendo desafíos como la reducción de costos al
desarrollar, instalar y usar soluciones y sistemas IoT que permitan comunicar y
compartir datos, los cuales al ser analizados sean útiles para planificar, gestionar y
tomar decisiones.
Amjad et al. (2021) analiza la integración de varios protocolos usados por las
aplicaciones IoT para la interoperabilidad de datos en las aplicaciones IoT,
concluyendo que existe el soporte para la interoperabilidad a través de intermediarios,
pero es importante integrar los protocolos con los datos de las aplicaciones de manera
Facultad de Ingeniería
Ing. de Informática y de Sistemas
7
directa, lo cual se puede lograr a través de una entidad de estándares como la
European Telecommunication Standard Institute (ETSI).
Al respecto, ETSI (2008), especifica los indicadores a medir para evaluar el
servicio de Internet a nivel de usuario, mencionando la velocidad de transmisión y la
demora, indicando que este último indicador tiene un impacto muy directo en la
satisfacción del usuario.
Para Ahmad et al. (2020), las redes de comunicación tienen como objetivo
principal el soportar las aplicaciones IoT emergentes y de tiempo real, como por
ejemplo la telemedicina, vehículos autónomos, juegos en línea multijugador, las
cuales requieren latencia por debajo de los 10 ms, y una alta confiabilidad, y concluye
indicando que los PSI deben mejorar sus redes de comunicación y optimizar sus
procesos ya que tienen impacto directo en las demoras de las aplicaciones, afectando
la latencia, y por ende, el servicio de Internet.
Mamane et al. (2021) indica que las nuevas redes de comunicación necesitan
integrar infraestructuras actuales y nuevas, tecnologías heterogéneas e innovadoras
para satisfacer las crecientes demanda y garantizar la máxima cobertura para los
usuarios en diferentes circunstancias, proponiendo el uso de algoritmos de
programación que permitan el uso equitativo de la red entre los usuarios y
proporcionando baja latencia para las aplicaciones IoT.
Al respecto, Bazi y Nassereddine (2019) mencionan que TCP es el protocolo
de transporte más confiable del modelo TCP/IP, ya que implementa varios
mecanismos para garantizar una alta confiabilidad de transferencia de datos. Sin
embargo, debido al gran crecimiento de Internet, se vuelve más difícil garantizar la
continuidad del servicio a un número grande de usuarios, ya que el tráfico de datos se
Facultad de Ingeniería
Ing. de Informática y de Sistemas
8
incrementa a la par con la congestión de las redes (incrementando la latencia). Para
dicho fin, se propone la medición de métricas como la latencia y paquetes perdidos
para la implementación de algoritmos de gestión de tráfico, concluyendo que el uso
del algoritmo TCP Vegas es el recomendado para aplicaciones que requieren una
transferencia de datos confiable, como el que realizan las aplicaciones IoT.
Lai et al. (2020) dice que una vez que el PSI despliega su circuito de
comunicaciones y provee servicios a sus clientes, sólo se ocupa de los problemas en
su circuito cuando los clientes llaman a quejarse. Por ello se propone medir el
funcionamiento del servicio de Internet y, haciendo uso de la Inteligencia Artificial,
predecir si los clientes se quejarían o no, llegando a la conclusión que los clientes se
pueden quejar, basado en el modelo de clasificación construido con los datos
recolectados, que obtuvo un Accuracy del 66%.
Bases teóricas
Para Leiner et al. (2017) Internet es una red mundial para difundir
información, y para que las personas colaboren e interactúen con sus computadoras
sin tener en cuenta la ubicación geográfica.
Según Moschini (2020, Oct 29), la vida actual es impensable sin Internet ya
que se usa para comprar, estudiar, trabajar, realizar trámites, comunicarnos y hasta
para ir al médico. Y aquí muchas personas se hacen la pregunta: ¿qué es Internet? El
29 de octubre de 1969, un equipo de la Universidad de California Los Ángeles
(UCLA) mandó un mensaje a través de una red de 4 computadoras. Esa red tenía por
nombre ARPANET y era un proyecto del Departamento de Defensa de Estados
Unidos, cuyo fin era el de tener un sistema de comunicación a distancia capaz. Sin
Facultad de Ingeniería
Ing. de Informática y de Sistemas
9
embargo, Lawrence Roberts, Robert Kahn, Tim Berners-Lee y Vinton Cerf, los
creadores de esta red, nunca pensaron que esta red sostendría al mundo frente al
ataque viral del COVID – 19. Según las estadísticas, 4 570 millones de personas usan
Internet en todo el mundo, lo que equivale a un aproximado del 60% de la población
mundial. Muchas personas declaran que Internet fue esencial para sobrevivir durante
la pandemia, ya que les permitió sostener la educación de sus hijos y mantener
comunicación con familiares y amigos. El trabajo remoto se consolidó: los usuarios
de Zoom crecieron en 2 900% y Microsoft Teams alcanzó el récord de 2 700 millones
de reuniones en un solo día. De estos indicadores se puede indicar que el uso de
Internet para tareas síncronas se incrementó durante la pandemia.
Como se mencionó anteriormente, evaluar una conexión a Internet sólo por la
velocidad no garantiza el correcto funcionamiento del servicio de Internet, ya que la
velocidad mide la cantidad de datos que puedes transferir en un lapso de tiempo. Para
una mejor evaluación se deben considerar indicadores que incluyan las actividades
sensibles al tiempo, las cuales se ven afectadas por valores altos de las siguientes
variables:

Latencia

Fluctuación

Paquetes Perdidos
Definición de términos básicos
Facultad de Ingeniería
Ing. de Informática y de Sistemas
10
Internet de las Cosas (IoT)
Internet de las Cosas está definida como una red de objetos interconectados
que interactúan entre sí y con las personas en cualquier momento y desde cualquier
lugar.
Velocidad de Transmisión (Data Rate / Data Speed / Throughput)
Según ETSI (2008), la velocidad de transmisión está definida como la tasa de
transmisión de datos que es alcanzada por separado para descargar y cargar archivos
de prueba específicos entre un sitio web remoto y la computadora de un usuario. La
prueba consiste en realizar la medición del tiempo que demora en cargar y descargar
archivos de tamaño aleatorio desde un servidor web. El resultado de esta medición se
muestra en bits por segundo (bps). Considerando que el año en curso es 2022, el
término a utilizar es Megabits por segundo (Mbps).
Demora / Retraso (Delay)
Según ETSI (2008), la demora o retraso está definida como la mitad del
tiempo (en milisegundos) que necesita una solicitud de respuesta ICMP, la cual es
conocida como latencia. Se le conoce también como tiempo de transmisión
unidireccional.
Latencia (Ping)
La latencia, también conocida ping o delay, es la velocidad a la que se
establece la conexión entre dos dispositivos, es decir, mide el tiempo que demora en
transferir datos de ida y vuelta entre dispositivos (es decir tiempo de transmisión
bidireccional). Por ejemplo entre una laptop y una web de videoconferencias o entre
un teléfono inteligente y una web de clases remotas. El resultado se muestra en
Facultad de Ingeniería
Ing. de Informática y de Sistemas
11
milisegundos (ms). Valores bajos permitirán realizar las actividades sensibles al
tiempo sin problemas (ej. videoconferencias, clases virtuales, etc.), mientras que
valores altos afectarán directamente la realización de dichas actividades.
Paquetes Perdidos (Packet Loss)
Es un indicador que mide los datos que no llegan al destino, lo cual puede ser
causado por errores en la transmisión de datos debido a problemas como congestión de
la red, servidores en mantenimiento, etc.
Modelo de Aprendizaje de Máquina (Machine Learning model)
Los modelos de aprendizaje de máquina, son algoritmos que permiten realizar
análisis de datos con la finalidad de identificar patrones, obteniendo información para
tomar decisiones.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
12
CAPITULO III: DISEÑO METODOLÓGICO
Formulación de la Hipótesis
En el presente trabajo se plantean las siguientes hipótesis:
Tabla 1
Lista de Hipótesis
Pregunta de
Hipótesis
Hipótesis
Investigación
Nula (H0)
Alternativa (H1)
¿Qué tan precisos
La métrica R2 tiene
La métrica R2 tiene
son los resultados
un resultado menor
un resultado igual o
obtenidos por los
a 0.8.
mayor a 0.8.
modelos
de
Machine Learning
al usar técnicas de
regresión con los
datos de latencia?
¿Qué
tipo
de
La
métrica
La
métrica
correlación existe
Correlación
de
Correlación
de
entre la latencia y
Pearson
entre
la
Pearson
entre
la
la fluctuación, y
latencia
y
la
latencia
y
la
cómo afecta a las
fluctuación tiene un
fluctuación tiene un
aplicaciones IoT?
resultado menor a
resultado mayor o
0.1 y mayor o igual
igual a 0.1 y menor
a -1, con lo cual se
o igual a 1, con lo
puede afirmar que
cual
no tienen relación.
afirmar que tienen
se
puede
relación directa.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
13
¿Existe
alguna
La
métrica
La
métrica
correlación entre la
Correlación
de
Correlación
de
velocidad
de
Pearson
entre
la
Pearson
entre
la
la
latencia
y
la
latencia
y
la
Internet
y
latencia?
velocidad tiene un
fluctuación tiene un
resultado entre -
resultado mayor a -
0.20 y 0, con lo cual
0.21, con lo cual se
se puede afirmar
puede afirmar que
que
tienen
no
relación.
tienen
relación
inversa.
Identificación de Variables
Para responder las preguntas de la investigación planteadas se identificaron las
siguientes variables
Tabla 2
Lista de variables
Dato
Descripción
LatenciaMiami
Variable independiente
LatenciaMountainView
Variable independiente
LatenciaSantaClara
Variable independiente
LatenciaRedmond
Variable independiente
LatenciaAtlanta
Variable independiente
VelocidadDescargaMiami
Variable independiente
FluctuaciónSantaClara
Variable independiente
RMSE
Variable dependiente
Facultad de Ingeniería
Ing. de Informática y de Sistemas
14
MAE
Variable dependiente
R2
Variable dependiente
Correlación de Pearson
Variable dependiente
Operacionalización de Variables
Teniendo identificadas las variables, es necesario definir su operacionalización.
Tabla 3
Operacionalización de variables
Pregunta de
Variable Independiente
Investigación
Variable
Dependiente
¿Qué tan precisos
LatenciaAtlanta
MAE
son los resultados
LatenciaMiami
RMSE
obtenidos por los
LatenciaMountainView
R2
modelos
LatenciaRedmond
de
Machine
LatenciaSantaClara
Learning al usar
técnicas
de
regresión con los
datos de latencia?
¿Qué
tipo
de
LatenciaAtlanta
Correlación de
correlación existe
LatenciaMiami
Pearson
entre la latencia y
LatenciaMountainView
la fluctuación, y
LatenciaRedmond
cómo afecta a las
LatenciaSantaClara
aplicaciones IoT?
FluctuacionAtlanta
Facultad de Ingeniería
Ing. de Informática y de Sistemas
15
FluctuacionMiami
FluctuacionMountainView
FluctuacionRedmond
FluctuacionSantaClara
¿Existe
alguna
LatenciaAtlanta
Correlación de
correlación entre
LatenciaMiami
Pearson
la velocidad de
LatenciaMountainView
Internet
LatenciaRedmond
y
la
latencia?
LatenciaSantaClara
VelocidadDescargaMiami
Asimismo, para manejar los problemas de ancho de banda y sesgo (bias) en el
análisis de datos y modelos de Machine Learning, se utilizarán los siguientes controles
estadísticos:
Tabla 4
Controles estadísticos en variables
Pregunta de
Variable
Investigación
Extraña
Control
¿Qué tan precisos
Sesgo
Validación
son los resultados
(bias)
(K=10)
obtenidos por los
modelos
de
Machine
Learning al usar
técnicas
Facultad de Ingeniería
Ing. de Informática y de Sistemas
de
Cruzada
K-Folds
16
regresión con los
datos de latencia?
¿Qué
tipo
de
Ancho
correlación existe
banda
de

Equipo de uso exclusivo
para la aplicación web y
entre la latencia y
las pruebas, evitando
la fluctuación, y
que
cómo afecta a las
resultados.

aplicaciones IoT?
Uso
afecten
de
los
servidores
optimizados
para
actividades específicas.
¿Existe
alguna
Ancho
correlación entre
banda
de

Equipo de uso exclusivo
para la aplicación web y
la velocidad de
las pruebas, evitando
Internet
que
y
la
latencia?
afecten
los
resultados.

Uso
de
servidores
optimizados
para
actividades específicas.
Población
Todas las solicitudes de prueba entre las ciudades de Lima, Miami – (Florida),
Santa Clara y Mountain View (California), Atlanta (Georgia) y Redmond (Washington)
cada 4 minutos desde el 19 de marzo del 2022 hasta el 25 de Mayo del 2022.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
17
Muestra
Para un mejor análisis, se trabajó con toda la población disponible, y además se
utilizó Validación Cruzada K-pliegues (K-fold Cross Validation), el cual, según Jung et
al. (2018), es un criterio de selección de modelos ampliamente utilizado en Inteligencia
Artificial, donde el 90% de los datos se utilizó para entrenamiento y el 10% restante para
pruebas.
Diseño de Investigación
El diseño de la investigación es No Experimental Transversal Descriptivo, ya que
busca evidenciar las características del problema.
Técnicas e Instrumentos de recolección de datos
El instrumento utilizado en la presente investigación fue una aplicación web que
fue desarrollada por el autor utilizando los lenguajes de programación JAVA, HTML5 y
Bootstrap. Esta aplicación web se ejecuta cada 4 minutos desde el 19 de abril del 2022
para capturar datos de velocidad de carga y descarga, latencia, fluctuación y paquetes
perdidos.
Figura 2
Aplicación Web Desarrollada para la investigación
Facultad de Ingeniería
Ing. de Informática y de Sistemas
18
La construcción de la aplicación web siguió los estándares definidos por la
International Telecommunication Union [ITU] (2003) en el documento “Quality of
service and performance - Generic and user-related aspects - Performance parameter
definitions for quality of speech and other voiceband applications utilizing IP networks”,
donde se especifica que el cálculo de la latencia es la sumatoria de sus mediciones
dividido entre el número de mediciones realizadas.
𝑙𝑎𝑡𝑒𝑛𝑐𝑖𝑎 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 =
∑𝑛𝑖=1 𝑙𝑎𝑡𝑒𝑛𝑐𝑖𝑎𝑖
n
El cálculo de la fluctuación se realiza bajo el enfoque basado en la variación
absoluta, calculando la variación entre la medición anterior de la latencia con la actual,
obteniendo su valor absoluto y realizando el cálculo para todas las mediciones realizadas
para finalmente dividir entre el número de mediciones realizadas.
𝑓𝑙𝑢𝑐𝑡𝑢𝑎𝑐𝑖ó𝑛 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 =
∑𝑛𝑖=1 |𝑙𝑎𝑡𝑒𝑛𝑐𝑖𝑎𝑛−1 − 𝑙𝑎𝑡𝑒𝑛𝑐𝑖𝑎𝑛 |
n
En la configuración de la aplicación web, se considera n = 10, ya que es el número
de mediciones que se realiza a cada servidor para realizar los cálculos de la latencia
promedio y la fluctuación promedio.
Para la validación del funcionamiento de la aplicación, se realizaron pruebas de
recolección de datos de los indicadores utilizando los servidores ubicados en Estados
Unidos y los resultados fueron comparados utilizando herramientas como la línea de
Facultad de Ingeniería
Ing. de Informática y de Sistemas
19
comandos de Windows, donde se ejecutó el comando ping para medir la latencia,
obteniendo resultados similares.
Figura 3
Comparativa comando ping versus aplicación web
Luego de la validación realizada, la aplicación web fue instalada en un servidor
ubicado en Lima Perú, y realizó pruebas de conexión con servidores de conocidas
empresas como Amazon Web Services, Google Education, Microsoft Teams, Valve
(empresa de videojuegos) y Speed Of me (servidor carga y descarga), los cuales estaban
ubicados físicamente en ciudades de California, Washington, Georgia y Florida (Estados
Unidos de América).
La finalidad de realizar pruebas de conexión con los servidores antes mencionados
es la de obtener datos de velocidad de transmisión (carga y descarga), latencia,
fluctuación y paquetes perdidos para distintas actividades tales como: trabajo remoto,
educación remota, videoconferencias, juegos en línea multijugador y descargas de
archivos, realizando pruebas remotas a los servidores indicados anteriormente, mostrando
el funcionamiento más preciso del servicio de Internet, a diferencia de otras aplicaciones
web (como por ejemplo Ookla) que solo realizan pruebas con servidores en el mismo
país.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
20
Ejecutar pruebas entre los servidores ubicados en Lima Perú y Estados Unidos han
cubierto la necesidad de capturar con mayor precisión los valores de los siguientes
indicadores: latencia, fluctuación, pérdida de paquetes y velocidad. Además, elegimos
estos servidores en diferentes ciudades de los Estados Unidos para evaluar el servicio de
Internet en diversas actividades: remoto trabajo (Amazon Web Services), educación
remota (Google Educación), videoconferencias (Microsoft Teams) y videojuegos en línea
(Valve Inc), poque estas empresas brindan servicios de alta demanda para realizar
actividades diarias para personas en Perú y América Latina.
La medición de la velocidad consiste en subir o bajar velocidad a través de la
transferencia de archivos utilizando el servidor SpeedOfMe ubicado en Miami-Florida,
con un tamaño entre 128 KB y 128 MB. Finalmente, se selecciona el primer resultado de
la prueba que toma más de 8 segundos para completar la transferencia.
La medición de la latencia consiste en ejecutar diez iteraciones en cada servidor:
Amazon, Google, Microsoft y Valve para capturar la demora entre el inicio de la solicitud
y la obtención de la respuesta, por lo que es posible calcular el promedio de capturado
valores. Además, los valores de latencia son la fuente para calcular la fluctuación, que es
la diferencia entre los valores de la latencia y divididos por el número de muestras menos
1. Para la pérdida de paquetes, las solicitudes de medición de latencia que no tuvieron
respuesta se cuentan como solicitudes fallidas. Finalmente, los datos fueron almacenados
en una base de datos para su respectivo procesamiento y análisis.
Métodos y Procedimientos de análisis de datos
Creamos el conjunto de datos mediante la ejecución de una tarea automatizada
que recopiló datos mediante la aplicación web. Esta tarea se desarrolló desde el 19 de
Facultad de Ingeniería
Ing. de Informática y de Sistemas
21
marzo de 2022 hasta el 25 de mayo de 2022, realizándose alrededor de 22 000 pruebas,
por lo que fue posible crear y analizar diferentes modelos de ML y gráficos de
visualización de datos.
En ML, el modelo se entrena en un conjunto separado de entradas llamado
conjunto de entrenamiento y se evalúa usando otro conjunto llamado conjunto de
evaluación. Para (Nilsson, Nils J. 1998), es fundamental porque dividir el conjunto de
datos reduce el tamaño del conjunto de entrenamiento y, por lo tanto, aumenta la
posibilidad de sobreajustar. Por lo tanto, usamos K-Fold Cross Validation, usando k = 10
pliegues, donde el 90\% del contenido del conjunto de datos se dividió para
entrenamiento y el 10\% para pruebas para evaluar el rendimiento del modelo.
Las métricas utilizadas para la evaluación del modelo son: RMSE, MAE y RSquared, debido a que utilizamos modelos de regresión, obteniendo una puntuación para
entrenamiento y otra para prueba. Las fórmulas se muestran a continuación:
𝑛
1
𝑅𝑀𝑆𝐸 = √ ∑(𝑎𝑗 − ă𝑗 )2
𝑛
𝑗=1
𝑛
1
𝑀𝐴𝐸 = ∑ |𝑎𝑗 − ă𝑗 |
𝑛
𝑗=1
𝑛
∑
𝑅2 = 1 −
(ă𝑗 − 𝑎𝑗 )2
𝑗=1
𝑛
∑
(a − ā𝑗 )2
𝑗=1
Facultad de Ingeniería
Ing. de Informática y de Sistemas
22
Para la optimización del modelo, incluimos las siguientes características que
usamos en los algoritmos de regresión:

FE: La Ingeniería de Características crea nuevas entradas basadas en entradas
existentes. Los nuevos insumos se basan en agregados tales como suma,
producto, logaritmo y/o combinaciones de las entradas existentes.

HPO1: La optimización de hiperparámetros define los pesos para cada
entrada, por lo que cada entrada tiene una importancia diferente en el modelo.
La latencia de los servidores en Estados Unidos se pronosticó en función de la
entrada de cinco predictores: LatenciaMountainView, LatenciaAtlanta
LatenciaSantaClara, LatenciaRedmond y LatenciaMiami. Los modelos fueron entrenados
usando dos algoritmos ML: LGBM y Boosting Machine. El error de entrenamiento de
cada modelo se estimó utilizando RMSE y MAE. La precisión de los modelos que
representan la varianza de la variable dependiente se estima calculando el R2. Elegimos
los valores RMSE y MAE más pequeños y el valor R2 más alto para seleccionar el mejor
modelo predictivo.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
23
CAPITULO IV: DESARROLLO.
Hay varias formas de medir la latencia, por ejemplo, el protocolo TAWL (Jahn et al.,
2021), que obtiene los datos directamente del equipo de la red de comunicación del ISP (Lai
et al., 2020); y otra es obtener datos de sitios web de pruebas de velocidad (Yang et al.,
2022). En este trabajo de investigación se propone analizar el servicio de Internet desde un
enfoque de usuario, midiendo indicadores, como latencia, fluctuación y pérdida de paquetes,
a través de una aplicación web instalada en un servidor en Lima – Perú y utilizando
servidores en los Estados Unidos de América (ver Tabla 5). El aprendizaje automático y la
ciencia de datos se utilizan para predecir la latencia de Internet y obtener información para
determinar cómo afecta a las aplicaciones de IoT. La realización de pruebas utilizando
servidores en Estados Unidos ubicados en diferentes ciudades permitió medir indicadores de
Internet como latencia, fluctuación, pérdida de paquetes y velocidad desde una perspectiva
global. Además, estos servidores fueron seleccionados para medir indicadores de Internet en
diferentes actividades: trabajo remoto (Amazon Web Services), educación remota (Google
Education), videoconferencias (Microsoft Teams) y videojuegos en línea (Valve Inc), y
elegimos estas empresas porque brindan servicios de alta demanda para realizar las
actividades diarias de las personas en Perú y América Latina.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
24
Tabla 5
Lista de servidores utilizados para recolectar datos
Distancia desde
Empresa
Ubicación
Actividades
Lima Perú (km)
Amazon
Santa Clara,
Trabajo
7 214
Web Services
California
Remoto
Mountain
Google
Educación
View,
7 225
Education
Remota
California
Microsoft
Redmond,
Video
7 990
Teams
Washington
conferencias
Miami,
SpeedOfMe
Carga y Descarga
4 215
Florida
de archivos
Juegos
Valve
Atlanta,
(CSGO)
Georgia
5 148
multijugador
en línea
La técnica utilizada para medir la velocidad de Internet consiste en subir y descargar
archivos usando el servidor SpeedOfMe en Miami, Florida, con tamaños de archivo que
oscilan entre 128 KB y 128 MB. Finalmente, el primer resultado de la prueba que tarda más
de 8 segundos en completar la transferencia es seleccionada.
La medición de la latencia consiste en ejecutar diez ping en cada servidor:
SpeedOfMe, Amazon, Google, Microsoft y Valve. La aplicación web recopila datos de las
medidas y calcula el promedio de los valores medidos. Además, la aplicación web utiliza la
latencia medida para calcular la fluctuación. Finalmente, para la pérdida de paquetes, las
Facultad de Ingeniería
Ing. de Informática y de Sistemas
25
solicitudes de medición de latencia que no tuvieron respuesta se cuentan como solicitudes
fallidas.
En base a lo propuesto, el objetivo de esta investigación es la respuesta a las
siguientes interrogantes:

PI1: ¿Es posible estimar la latencia aplicando modelos de regresión de Machine
Learning?

PI2: ¿Existe una correlación entre la latencia y la fluctuación? ¿cómo afectaría a las
aplicaciones de IoT?

PI3: ¿Existe una correlación entre la velocidad de descarga y la latencia?
Para obtener respuestas a nuestras preguntas, utilizamos bibliotecas de Python de
Ciencia de datos para obtener información del conjunto de datos, e IBM Watson Auto AI
para entrenar y evaluar modelos de aprendizaje automático (ML) utilizando algoritmos de
regresión como LGBM y Boosting Machine. Finalmente, se evalúa el rendimiento de los
modelos de regresión utilizando métricas RMSE, MAE y R-Squared.
Para la obtención de información y evaluación de modelos fue necesaria la creación
de un conjunto de datos, la cual se realizó mediante la ejecución de una tarea automatizada
que recopiló datos mediante la aplicación web. Esta tarea se desarrolló desde el 19 de marzo
de 2022 hasta el 25 de mayo de 2022, realizándose alrededor de 22 000 pruebas, por lo que
fue posible crear y analizar diferentes modelos de ML y gráficos de visualización.
El modelo se entrena y evalúa utilizando el conjunto de datos. Es fundamental
manejar el sesgo porque aumenta la posibilidad de underfitting u overfitting (Nilsson, 1998),
por lo que usamos K-Fold Cross Validation, usando k = 10 pliegues, donde el 90 % del
Facultad de Ingeniería
Ing. de Informática y de Sistemas
26
contenido del conjunto de datos se dividió para entrenamiento y el 10 % para pruebas para
evaluar el rendimiento del modelo.
Las métricas utilizadas para la evaluación del modelo son: RMSE, MAE y R-Squared,
debido a que utilizamos modelos de regresión, obteniendo una puntuación para entrenamiento
y otra para prueba.
Para la optimización del model, incluimos las siguientes características que usamos en
los algoritmos de regresión:

FE: Ingeniería de Características crea nuevas entradas basadas en entradas
existentes. Los nuevos insumos se basan en agregados tales como suma, producto y
combinaciones de insumos existentes.

HPO1: la optimización de hiperparámetros define los pesos para cada entrada, por
lo que cada entrada tiene una importancia diferente en el modelo.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
27
CAPITULO V: RESULTADOS
En las siguientes líneas se muestran los resultados obtenidos para cada
pregunta de investigación.

PI1: La latencia se predijo en función de la entrada de cinco predictores:
LatencyAtlanta, LatencyMiami, LatencyMountainView, LatencySantaClara y
LatencyRedmond. Los modelos utilizaron dos algoritmos ML: LGBM y Boosting
Machine. El error en entrenamiento y prueba de cada modelo se estimó utilizando
RMSE y MAE. La precisión de modelos, que representan la varianza de la
variable dependiente, se estimó calculando el R-Squared. Para elegir el mejor
modelo predictivo se evalúan los valores mínimos de RMSE y MAE y el valor
más alto de R-Squared. Los resultados finales son mostrados en las tablas 6 y 7.
Tabla 6
Modelos de regresión aplicados al conjunto de datos recopilados
ID
Modelo
HPO1
FE
LGBM1
Regresión usando LGMB
No
No
LGBM2
Regresión usando LGMB
Sí
No
LGBM3
Regresión usando LGMB
Sí
Sí
BM1
Regresión usando Boosting Machine
No
No
BM2
Regresión usando Boosting Machine
Sí
No
BM3
Regresión usando Boosting Machine
Sí
Sí
Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of
Internet Service Latency and its Impact on Internet of Things (IoT)
Applications," 2022 IEEE Engineering International Research Conference
(EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
28
Tabla 7
Resultados de los modelos de regresión para predicción de latencia
Estimación de Error y Variación de latencia en promedio - entrenamiento
LGBM1
LGBM2
LGBM3
BM1
BM2
BM3
RMSE
11.765
9.327
8.741
11.027
10.081
8.129
MAE
1.581
1.746
1.302
1.420
1.503
1.143
R-Squared
0.885
0.933
0.940
0.908
0.924
0.948
Estimación de Error y Variación de latencia en promedio - pruebas
LGBM1
LGBM2
LGBM3
BM1
BM2
BM3
RMSE
4.624
3.025
3.589
7.198
8.595
9.950
MAE
1.486
1.536
1.346
1.411
1.729
1.282
R-Squared
0.982
0.992
0.989
0.956
0.937
0.915
Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of Internet
Service Latency and its Impact on Internet of Things (IoT) Applications," 2022 IEEE
Engineering International Research Conference (EIRCON), 2022, pp. 1-4, doi:
10.1109/EIRCON56026.2022.9934102.

PI2: Las figuras 4, 5 y 6 muestran la relación directa entre la latencia y la
fluctuación. Las figuras 7 y 8 muestran la latencia promedio y la fluctuación
promedio por mes para cada servidor. Asimismo, en la Tabla 8 se muestran los
resultados de la Correlación de Pearson para cada servidor.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
29
Figura 4
Relación Latencia - Fluctuación (Servidor: Miami, FLO)
Figura 5
Relación Latencia - Fluctuación (Servidor: Atlanta, GA)
Facultad de Ingeniería
Ing. de Informática y de Sistemas
30
Figura 6
Relación Latencia - Fluctuación (Servidor: Santa Clara, CA)
Figura 7
Latencia Promedio por Mes y Servidor
Figura 8
Fluctuación Promedio por Mes y Servidor
Facultad de Ingeniería
Ing. de Informática y de Sistemas
31
Tabla 8
Resultados de la Correlación de Pearson para Latencia y Fluctuación
Ubicación
Latencia Fluctuación
Correlación
Promedio Promedio
de Pearson
(ms)
(ms)
Santa
Clara,
California
110.770
15.959
0.186
Mountain
View,
California
76.723
18.974
0.662
Redmond,
Washington
243.426
40.118
0.326
Miami,
Florida
92.108
287.234
0.132
Atlanta,
Georgia
104.821
6.667
0.300
Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of
Internet Service Latency and its Impact on Internet of Things (IoT)
Applications," 2022 IEEE Engineering International Research Conference
(EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
32

PI3: Finalmente, la comparación entre las latencias y la velocidad de Internet está
representada en la Figura 9 y los resultados de la Correlación de Pearson en la
Tabla 9.
Figura 9
Relación Latencia – Velocidad de Descarga
Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of
Internet Service Latency and its Impact on Internet of Things (IoT)
Applications," 2022 IEEE Engineering International Research Conference
(EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
33
Tabla 9
Resultados de la Correlación de Pearson para Latencia y Velocidad
Ubicación
Correlación de
Pearson
Santa Clara,
California
-0.068
Mountain View,
California
-0.202
Redmond,
Washington
-0.025
Miami,
Florida
-0.069
Atlanta,
Georgia
-0.104
Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis
of Internet Service Latency and its Impact on Internet of Things (IoT)
Applications," 2022 IEEE Engineering International Research
Conference (EIRCON), 2022, pp. 1-4, doi:
10.1109/EIRCON56026.2022.9934102.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
34
CAPITULO VI: DISCUSIÓN DE RESULTADOS
Para la PI1, los resultados de la evaluación de modelos de Machine Learning
obtuvieron los siguientes valores para la métrica R-Squared (R2):
Tabla 10
Valores de R-Squared para cada modelo ML evaluado
Modelo
Valor R2
Entrenamiento
Valor R2
Pruebas
LGBM1
0.885
0.982
LGBM2
0.933
0.992
LGBM3
0.94
0.989
BM1
0.908
0.956
BM2
0.924
0.937
BM3
0.948
0.915
Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of Internet
Service Latency and its Impact on Internet of Things (IoT) Applications," 2022 IEEE
Engineering International Research Conference (EIRCON), 2022, pp. 1-4, doi:
10.1109/EIRCON56026.2022.9934102.
De los valores obtenidos para R-Squared se puede determinar que el valor mínimo es
0.885 (Modelo LGBM1 – Entrenamiento) y el valor máximo obtenido es 0.992 (modelo
LGBM2 – Pruebas). Para asegurar una alta precisión de los modelos se definió que el valor
esperado de R-Squared se encontraba en el rango de valores entre 0.8 y 1.0, lo cual según
Chicco et al. (2021) indica un excelente rendimiento del modelo evaluado. Por lo tanto, al
Facultad de Ingeniería
Ing. de Informática y de Sistemas
35
estar los resultados dentro del rango de valores especificado se puede decir que la hipótesis
H1 es verdadera.
En cuanto a la PI2, en los resultados de la correlación de Pearson para determinar la
relación entre la latencia y la fluctuación se obtuvo 0.132 como valor mínimo (Miami –
Florida) y 0.662 como valor máximo (Mountain View – California), valores que se encuentran dentro
del rango definido de > 0.1 y <=1. Según Nettleton (2014), la Correlación de Pearson es el método
más común para evaluar variables numéricas, el cual asigna valores entre -1 y 1, donde un resultado
de 0 significa sin correlación, 1 significa correlación positiva, y -1 significa correlación negativa. Una
correlación positiva se interpreta como directa, es decir si el valor de la latencia sube, la fluctuación
también sube, lo cual es lo que se ha podido demostrar con el análisis realizado de las mediciones
realizadas. Es necesario aclarar también que el resultado positivo que se obtiene de la Correlación de
Pearson es mejor cuando más se acerque a 1, porque eso significa una mayor correlación, sin
embargo, en el análisis realizado se han obtenido valores cercanos a 0.1 (ver Tabla 8), lo cual se
puede interpretar como una correlación positiva débil. Las causas que pueden afectar el resultado
obtenido son varias, pero para Høiland-Jørgensen et al. (2016) la causa más frecuente es el
encolamiento debido a la congestión en la red por el tráfico de datos, lo cual se pone de manifiesto
con el resultado obtenido en Miami – Florida (ver Figura 4), cuyo servidor se encarga de realizar las
mediciones de ancho de banda a través de la carga y descarga de archivos. Esta situación afecta
negativamente el comportamiento de la latencia y la fluctuación, generando inestabilidad en la
conexión y debido a ello el funcionamiento de las aplicaciones IoT se ve afectado, lo cual es percibido
directamente por los usuarios. Por lo tanto, en base a todo lo anteriormente explicado, se puede
concluir que la hipótesis H1 es verdadera.
Finalmente, respecto a la relación entre la latencia y la velocidad de descarga que se
plantea en la PI3, se obtuvo un valor mínimo de -0.025 (Redmond - Washington) y un valor
máximo de -0.202 (Mountain View – California) como resultados de la Correlación de Pearson.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
36
Como se mencionó en el PI2, Nettleton (2014) indica que la Correlación de Pearson es el método más
común para evaluar variables numéricas, el cual asigna valores entre -1 y 1, donde un resultado de 0
significa sin correlación, 1 significa correlación positiva, y -1 significa correlación negativa. Una
correlación negativa se interpreta como inversa, es decir si el valor de la velocidad sube, la latencia
baja, sin embargo, esta situación no se presenta (ver Figura 9), ya que los resultados obtenidos son
muy cercanos a 0 (ver Tabla 9). En base a ello, se interpreta que la velocidad y la latencia no tienen
relación, por lo tanto la hipótesis H1 es falsa.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
37
CAPITULO VII: CONCLUSIONES
Se analizaron los valores de velocidad, latencia y fluctuación experimentados por los
usuarios de Internet, obtenidos con un método de medición que se desarrolló para generar un
conjunto de datos basado en mediciones realizadas entre ciudades de Perú y Estados Unidos
de América. Basado en el análisis realizado se concluye que este trabajo ha logrado validar
sus objetivos de investigación y que a continuación se detallan:

Es posible utilizar el conjunto de datos y realizar estimaciones para obtener
resultados de la latencia para el servicio de Internet, utilizando modelos Machine
Learning, obteniendo valores para la métrica R-Squared mayores a 0.8. Eso
significa que el modelo tiene buena precisión. Además, los valores obtenidos para
las métricas MAE y RMSE son bajos, lo cual indica que el modelo se ajusta a los
datos y tiene un bajo error en la estimación, confirmando que el modelo tiene una
excelente precisión.

La latencia y la fluctuación tienen una relación directa, por lo que los incrementos
en la latencia incrementan también la fluctuación, afectando el funcionamiento de
las aplicaciones IoT, las cuales necesitan estabilidad en la conexión para un
óptimo rendimiento.

La velocidad y la latencia no tienen relación, lo cual significa que a mayor ancho
de banda no necesariamente reduce la latencia.

La aplicación web, utilizada para realizar el análisis de la latencia, fue
desarrollada para recolectar datos de latencia, fluctuación y paquetes perdidos y
para que las pruebas se ejecuten utilizando servidores remotos (en este caso
Facultad de Ingeniería
Ing. de Informática y de Sistemas
38
estaban en Estados Unidos), mejorando la precisión de la data recolectada durante
las pruebas. En el caso de los sitios web de pruebas de velocidad tradicionales
(como Ookla), las pruebas se realizan utilizando servidores locales, es decir, en la
misma ciudad y país donde reside el usuario, lo cual afecta la precisión de los
datos obtenidos, mostrando resultados optimistas.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
39
CAPITULO VIII: RECOMENDACIONES
Luego de haber concluido con el presente trabajo de investigación queda por hacer las
siguientes recomendaciones:

Los profesionales investigadores podrían ahondar aún más en base a este trabajo
utilizando la geolocalización, porque ello ayudaría a realizar mediciones de la
velocidad, latencia, fluctuación y paquetes perdidos utilizando la ubicación
geográfica exacta de cada usuario. En la presente investigación los datos
obtenidos se estiman teniendo como origen general a Lima – Perú, sin embargo
estas pruebas podrían realizarse con usuarios de cualquier parte del Perú, pero
para obtener datos precisos de la región en la cual residen se hace necesario el uso
de la geolocalización (Høiland-Jørgensen et al., 2016).
Facultad de Ingeniería
Ing. de Informática y de Sistemas
40
REFERENCIAS
Abdulrazzak, F., Abdulaziz, E., & Al-Hussaini, K. (2019). Performance Analysis for TCP
Protocols over mm Wave in 5G Cellular Networks. 2019 First International
Conference of Intelligent Computing and Engineering (ICOICE).
https://doi.org/10.1109/icoice48418.2019.9035145
Ahmad, M., Jafri, S. U., Ikram, A., Qasmi, W. N. A., Nawazish, M. A., Uzmi, Z. A., & Qazi,
Z. A. (2020). A Low Latency and Consistent Cellular Control Plane. Proceedings of
the Annual Conference of the ACM Special Interest Group on Data Communication
on the Applications, Technologies, Architectures, and Protocols for Computer
Communication. https://doi.org/10.1145/3387514.3406218
Amjad, A., Azam, F., Anwar, M. W., & Butt, W. H. (2021). A Systematic Review on the
Data Interoperability of Application Layer Protocols in Industrial IoT. IEEE Access,
9, 96528–96545. https://doi.org/10.1109/access.2021.3094763
Bazi, K. (2019). Comparative study of TCP congestion control algorithms. International
Journal of Advanced Trends in Computer Science and Engineering, 8(6), 3560–3564.
https://doi.org/10.30534/ijatcse/2019/137862019
Moschini, S. (2020). OPINIÓN | 2020: El año que demostró por qué internet es un derecho
universal. CNN Retrieved from
https://cnnespanol.cnn.com/2020/10/29/opinion-2020-el-ano-que-demostro-por-queinternet-es-un-derecho-universal/
Chicco D, Warrens MJ, Jurman G. (2021) The coefficient of determination R-squared is more
informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis
evaluation. https://doi.org/10.7717/peerj-cs.623
DataReportal. (2022). Digital 2022 Peru (February 2022) v01.
https://www.slideshare.net/DataReportal/digital-2022-peru-february-2022-v01
Facultad de Ingeniería
Ing. de Informática y de Sistemas
41
European Telecommunications Standards Institute [ETSI] (2008). Guide Speech Processing,
Transmission and Quality Aspects (STQ); User related QoS parameter definitions and
measurements; Part 4: Internet Access. Retrieved from
https://www.etsi.org/deliver/etsi_eg/202000_202099/20205704/01.02.01_60/eg_202057
04v010201p.pdf
Fedullo, T., Morato, A., Tramarin, F., Rovati, L., & Vitturi, S. (2022). A Comprehensive
Review on Time Sensitive Networks with a Special Focus on Its Applicability to
Industrial Smart and Distributed Measurement Systems. Sensors, 22(4), 1638.
https://doi.org/10.3390/s22041638
Gidlund, M., Han, S., Sisinni, E., Saifullah, A., & Jennehag, U. (2018). Guest Editorial From
Industrial Wireless Sensor Networks to Industrial Internet of Things. IEEE
Transactions on Industrial Informatics, 14(5), 2194–2198.
https://doi.org/10.1109/tii.2018.2815957
Høiland-Jørgensen, Toke & Ahlgren, Bengt & Hurtig, Per & Brunstrom, Anna. (2016).
Measuring Latency Variation in the Internet. 473-480.
https://doi.org/10.1145/2999572.2999603
International Telecommunication Union [ITU] (2003). Quality of service and performance Generic and user-related aspects - Performance parameter definitions for quality of
speech and other voiceband applications utilizing IP networks. ITU-T, G.1020.
https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-G.1020-200311-S!!PDFE&type=items
J. -D. Jhan, Y. -C. Lai, Y. -L. Chen and F. -H. Kuo, "Enhanced Quality of Service
Measurement Mechanism of Container-based Cloud Network Architecture," 2021
22nd Asia-Pacific Network Operations and Management Symposium (APNOMS),
2021, pp. 1-4. https://doi.org/10.23919/APNOMS52696.2021.9562497
Facultad de Ingeniería
Ing. de Informática y de Sistemas
42
Jung, Y. (2018). Multiple predicting K-fold cross-validation for model selection. Journal of
Nonparametric Statistics, 30(1), 197-215.
https://doi.org/10.1080/10485252.2017.1404598
Lai, Y. C., Jhan, J. D., Yang, W. C., Kuo, F. H., & Shih, T. C. (2019). Quality of Service
Measurement Mechanism of Cloud-Based Network Architecture. 2019 20th AsiaPacific Network Operations and Management Symposium (APNOMS).
https://doi.org/10.23919/apnoms.2019.8893126
Lai, Y. C., Kao, C. C., Jhan, J. D., Kuo, F. H., Chang, C. W., & Shih, T. C. (2020). Quality of
Service Measurement and Prediction through AI Technology. 2020 IEEE Eurasia
Conference on IOT, Communication and Engineering (ECICE).
https://doi.org/10.1109/ecice50847.2020.9302008
Leiner, B, Cerf, V., Clark, D, Kahn, R., Kleinrock, L., Lynch, D., Postel, J., Roberts, L.,
Wolff, S. (2017). Internet Society - Brief History of the Internet.
https://www.internetsociety.org/resources/doc/2017/brief-history-internet/
Mamane, A., Fattah, M., Ghazi, M. E., Balboul, Y., el Bekkali, M., & Mazer, S. (2021).
Proportional fair buffer scheduling algorithm for 5G enhanced mobile broadband.
International Journal of Electrical and Computer Engineering (IJECE), 11(5), 4165.
https://doi.org/10.11591/ijece.v11i5.pp4165-4173
Mostacero-Agama, L. & Shiguihara P. (2022). Analysis of Internet Service Latency and its
Impact on Internet of Things (IoT) Applications. 2022 IEEE Engineering International
Research Conference (EIRCON), pp. 1-4,
https://doi.org/10.1109/EIRCON56026.2022.9934102.
Nettleton, D., (2014) Commercial Data Mining: Processing, Analysis and Modeling for
Predictive Analytics Projects. https://doi.org/10.1016/C2013-0-00263-0
Nilsson, N., (1998). Introduction to Machine Learning, Stanford University.
Facultad de Ingeniería
Ing. de Informática y de Sistemas
43
Organismo Supervisor de Inversión Privada en Telecomunicaciones [OSIPTEL] (2022).
Estudio de Satisfacción 2021: la mitad de usuarios se siente totalmente satisfecho con
su servicio móvil. OSIPTEL. https://www.osiptel.gob.pe/portal-delusuario/noticias/estudio-de-satisfaccion-2021-la-mitad-de-usuarios-se-sientetotalmente-satisfecho-con-su-servicio-movil/
Salih, K. O. M., Rashid, T. A., Radovanovic, D., & Bacanin, N. (2022). A Comprehensive
Survey on the Internet of Things with the Industrial Marketplace. Sensors, 22(3), 730.
https://doi.org/10.3390/s22030730
Umair, M., Cheema, M. A., Cheema, O., Li, H., & Lu, H. (2021). Impact of COVID-19 on
IoT Adoption in Healthcare, Smart Homes, Smart Buildings, Smart Cities,
Transportation and Industrial IoT. Sensors, 21(11), 3838.
https://doi.org/10.3390/s21113838
Wong, T., & Po-Yang Yeh. (2020). Reliable accuracy estimates from k -fold cross validation.
IEEE Transactions on Knowledge and Data Engineering, 32(8), 1586-1594.
https://doi.org/10.1109/TKDE.2019.2912815
Yang, J., Ai, B., You, I., Imran, M., Wang, L., Guan, K., He, D., Zhong, Z., & Keusgen, W.
(2019). Ultra-Reliable Communications for Industrial Internet of Things: Design
Considerations and Channel Modeling. IEEE Network, 33(4), 104–111.
https://doi.org/10.1109/mnet.2019.1800455
Yang, R., Mok, R. K. P., Wu, S., Luo, X., Zou, H., & Li, W. (2022). Design and
Implementation of Web-Based Speed Test Analysis Tool Kit. Passive and Active
Measurement, 83–96. https://doi.org/10.1007/978-3-030-98785-5_4
Facultad de Ingeniería
Ing. de Informática y de Sistemas
44
ANEXOS
Facultad de Ingeniería
Ing. de Informática y de Sistemas
Descargar