FACULTAD DE INGENIERÍA Carrera de Ingeniería Informática y de Sistemas ANÁLISIS DE LA LATENCIA DEL SERVICIO DE INTERNET Y SU IMPACTO EN LAS APLICACIONES DE INTERNET DE LAS COSAS (IoT) Tesis para optar el Título Profesional de Ingeniero Informático y de Sistemas LUIS ALBERTO MOSTACERO AGAMA (0000-0001-8537-8982) Asesor: Mg. Pedro Nelson Shiguihara Juárez (0000-0003-0137-3215) Lima – Perú 2022 ANÁLISIS DE LA LATENCIA DEL SERVICIO DE INTERNET Y SU IMPACTO EN LAS APLICACIONES DE INTERNET DE LAS COSAS (IoT) INFORME DE ORIGINALIDAD 9 % INDICE DE SIMILITUD 1% FUENTES DE INTERNET 8% PUBLICACIONES 1% TRABAJOS DEL ESTUDIANTE FUENTES PRIMARIAS 1 Luis Mostacero-Agama, Pedro Shiguihara. "Analysis of Internet Service Latency and its Impact on Internet of Things (IoT) Applications", 2022 IEEE Engineering International Research Conference (EIRCON), 2022 8% Publicación 2 Submitted to The Robert Gordon University <1 % 3 spectrum.library.concordia.ca <1 % Trabajo del estudiante Fuente de Internet Excluir citas Apagado Excluir bibliografía Apagado Excluir coincidencias Apagado ii JURADO DE LA SUSTENTACIÓN ORAL ………………………………..……………………………………………. Presidente ………………………………..……………………………………………. Jurado 1 ………………………………..……………………………………………. Jurado 2 Entregado el: 14 / 11 / 2022 ………………….……………..…… Luis Alberto Mostacero Agama Graduando Facultad de Ingeniería Ing. de Informática y de Sistemas Aprobado por: ………………….……………..…… Pedro Nelson Shiguihara Juárez Asesor de Tesis iii UNIVERSIDAD SAN IGNACIO DE LOYOLA FACULTAD DE INGENIERÍA DECLARACIÓN DE AUTENTICIDAD Yo, Luis Alberto Mostacero Agama , identificado con DNI N°40014382, Bachiller del Programa Académico de la Carrera de Ingeniería Informática y de Sistemas de la Facultad de Ingeniería de la Universidad San Ignacio de Loyola, presento mi tesis titulada: “Análisis de la Latencia del Servicio de Internet y su Impacto en las Aplicaciones de Internet de las Cosas (IoT)” Declaro en honor a la verdad, que el trabajo de tesis es de mi autoría; que los datos, los resultados y su análisis e interpretación, constituyen mi aporte. Todas las referencias han sido debidamente consultadas y reconocidas en la investigación. En tal sentido, asumo la responsabilidad que corresponda ante cualquier falsedad u ocultamiento de la información aportada. Por todas las afirmaciones ratifico lo expresado, a través de mi firma correspondiente. Lima, 14 de Noviembre del 2022 …………………………………………….. Luis Alberto Mostacero Agama DNI 40014382 Facultad de Ingeniería Ing. de Informática y de Sistemas iv DEDICATORIA Le quiero dedicar el resultado de este trabajo a mi esposa Erika. Por su amor, paciencia y compresión. Ella hace que alcance mi equilibrio mi mejor versión, algo por que siempre le estaré agradecido. También se lo quiero dedicar a mi hijo Gianfranco, quien se convirtió en mi principal fuente de información, propiciando el empujón que necesitaba para empezar este trabajo. A mis padres, quienes me enseñaron a ser una persona de valores y principios, y a afrontar las dificultades de la vida. A mi asesor, el profesor Pedro Shiguihara, que me ayudó a orientar este trabajo hacia una investigación exigente, profunda, detallada y única, y así poder darle un enfoque global. A Carlos Blas y Francisco Tafur, por ese apoyo incondicional para formarme como un buen profesional y mejor persona. Facultad de Ingeniería Ing. de Informática y de Sistemas v AGRADECIMIENTO Quiero agradecer a las empresas Grupo Urano Perú y Check Security, por haberme facilitado la infraestructura de hardware y software que necesitaba para desarrollar la investigación de este trabajo. Facultad de Ingeniería Ing. de Informática y de Sistemas vi RESUMEN La pandemia del Covid-19 hizo que se adoptaran nuevas tecnologías, siendo IoT una de ellas. El objetivo principal de IoT es la interacción, en tiempo real, de personas y objetos utilizando redes de comunicación desde cualquier lugar y en cualquier momento, pero cada día aumenta la cantidad de dispositivos utilizados, por lo que necesitan redes más eficientes que puedan ofrecer valores bajos para indicadores de rendimiento, como la latencia y la fluctuación, ya que son un requisito para las aplicaciones en tiempo real, como los vehículos autónomos, el control de tráfico, etc., la telemedicina y los videojuegos online multijugador, para que puedan funcionar sin problemas. Al recopilar datos de latencia, fluctuación y pérdida de paquetes de cinco servidores diferentes, construimos un conjunto de datos para usar con algoritmos de regresión en modelos de aprendizaje automático, para analizar el servicio de Internet en Perú, evaluar datos y poder hacer estimaciones. Palabras Clave: IoT, tiempo real, latencia, fluctuación, Internet de las cosas, paquetes perdidos, velocidad de Internet Facultad de Ingeniería Ing. de Informática y de Sistemas vii ABSTRACT The Covid-19 pandemic caused new technologies to be adopted, IoT being one of them. The main objective of IoT is the interaction, in real-time, of people and objects using communication networks from anywhere and at any time, but every day the number of used devices increases, so they need more efficient networks that can offer low values for performance indicators, such as latency and jitter since they are a requirement for real-time applications, such as autonomous vehicles, traffic control, etc. telemedicine, and online multiplayer video games, so that they can work without problems. Collecting latency, jitter, and packet loss data from five different servers, we built a dataset to be used with regression algorithms in Machine Learning models, to analyze Internet service in Peru, evaluate data, and to be able to make estimates. Keywords: IoT, real-time, latency, jitter, Internet of Things, packet loss, Internet speed, Facultad de Ingeniería Ing. de Informática y de Sistemas viii TABLA DE CONTENIDO DEDICATORIA ..................................................................................................... iv AGRADECIMIENTO ............................................................................................. v RESUMEN ............................................................................................................. vi ABSTRACT .......................................................................................................... vii TABLA DE CONTENIDO ................................................................................... viii LISTA DE TABLAS .............................................................................................. ix LISTA DE FIGURAS .............................................................................................. x INTRODUCCIÓN .................................................................................................. xi CAPITULO I: GENERALIDADES ......................................................................... 1 Problema de investigación.................................................................................... 1 Realidad problemática ...................................................................................... 1 Formulación del problema ................................................................................ 4 Justificación ......................................................................................................... 4 Objetivos ............................................................................................................. 5 Objetivo General .............................................................................................. 5 Objetivos Específicos ....................................................................................... 5 CAPITULO II: MARCO TEORICO ........................................................................ 6 Antecedentes........................................................................................................ 6 Bases teóricas ...................................................................................................... 8 Definición de términos básicos............................................................................. 9 CAPITULO III: DISEÑO METODOLÓGICO ...................................................... 12 Formulación de la Hipótesis ............................................................................... 12 Identificación de Variables ................................................................................. 13 Operacionalización de Variables ........................................................................ 14 Población ........................................................................................................... 16 Muestra .............................................................................................................. 17 Diseño de Investigación ..................................................................................... 17 Técnicas e Instrumentos de recolección de datos ................................................ 17 Métodos y Procedimientos de análisis de datos .................................................. 20 CAPITULO IV: DESARROLLO. .......................................................................... 23 CAPITULO V: RESULTADOS ............................................................................ 27 CAPITULO VI: DISCUSIÓN DE RESULTADOS................................................ 34 CAPITULO VII: CONCLUSIONES...................................................................... 37 CAPITULO VIII: RECOMENDACIONES ........................................................... 39 REFERENCIAS .................................................................................................... 40 ANEXOS............................................................................................................... 44 Facultad de Ingeniería Ing. de Informática y de Sistemas ix LISTA DE TABLAS Tabla 1 .................................................................................................................. 12 Tabla 2 .................................................................................................................. 13 Tabla 3 .................................................................................................................. 14 Tabla 4 .................................................................................................................. 15 Tabla 5 .................................................................................................................. 24 Tabla 6 .................................................................................................................. 27 Tabla 7 .................................................................................................................. 28 Tabla 8 .................................................................................................................. 31 Tabla 9 .................................................................................................................. 33 Tabla 10 ................................................................................................................ 34 Facultad de Ingeniería Ing. de Informática y de Sistemas x LISTA DE FIGURAS Figura 1 .................................................................................................................. 3 Figura 2 ................................................................................................................ 17 Figura 3 ................................................................................................................ 19 Figura 4 ................................................................................................................ 29 Figura 5 ................................................................................................................ 29 Figura 6 ................................................................................................................ 30 Figura 7 ................................................................................................................ 30 Figura 8 ................................................................................................................ 30 Figura 9 ................................................................................................................ 32 Facultad de Ingeniería Ing. de Informática y de Sistemas xi INTRODUCCIÓN Internet es una red mundial para difundir de información, también para que las personas colaboren e interactúen con sus computadoras sin tener en cuenta la ubicación geográfica (Leiner et al., 2017). Internet de las Cosas (IoT), considerada la evolución de Internet, es una red de objetos interconectados que interactúan entre sí y con personas, en tiempo real, en cualquier momento y en cualquier lugar (Fedullo et al., 2022). Si bien IoT presentó inconvenientes para su despliegue por problemas de seguridad, falta de mano de obra especializada o falta de casos de uso con un claro retorno de la inversión, la pandemia del COVID-19 ha obligado a su adopción en varias áreas como la telemedicina y el trabajo remoto (Umair, M. et al., 2021). Sin embargo, el creciente número de objetos conectados requiere una infraestructura de comunicación mejorada que proporcione valores de latencia bajos (Gidlund et al., 2018). La latencia se define como el tiempo de retraso, en milisegundos, para comunicar dos objetos conectados (European Telecommunications Standards Institute [ETSI], 2008). En 2022, los usuarios todavía miden la velocidad de Internet, en megabits por segundo, para diagnosticar el estado de su conexión proporcionada por un proveedor de servicios de Internet (PSI). Por ejemplo, Ookla es un popular sitio web de pruebas de velocidad de Internet visitado por los usuarios, que ejecuta pruebas de velocidad utilizando servidores con baja latencia y geográficamente cercanos al usuario, Facultad de Ingeniería Ing. de Informática y de Sistemas xii obteniendo medidas optimistas de latencia y velocidad de Internet (Yang et al., 2022) La mayoría de los PSI utilizan las mismas pruebas para diagnosticar problemas en sus redes de comunicación; sin embargo, la latencia tiene mayor relevancia, e importancia, que la velocidad de Internet, especialmente en aplicaciones en tiempo real como videoconferencias, juegos multijugador en línea, tratamiento médico remoto, hogar inteligente, ciudades inteligentes, entre otras (Lai et al., 2020) Según (Lai et al., 2020), los indicadores de Internet se estimaron con modelos de aprendizaje automático, utilizando datos obtenidos de los equipos de comunicación de la red de los ISP, utilizando métricas como Precision, Recall y F-1 Score para evaluar el rendimiento. Dado que el índice de precisión podría variar si consideramos el uso de servidores ubicados fuera de las redes de los PSI, se propone diagnosticar el servicio de internet midiendo indicadores como latencia, fluctuación y pérdida de paquetes a través de una aplicación web instalada en un servidor en Lima Perú, que mide los indicadores de internet utilizando cinco servidores diferentes ubicados en los Estados Unidos de América. Estos servidores fueron seleccionados porque brindan los servicios más utilizados, como Google y Microsoft, por los usuarios en Perú y América Latina. Además, se utilizan modelos de Machine Learning con algoritmos de regresión para evaluar la calidad de los datos recopilados para la predicción. Este documento ha sido estructurado como sigue: en el Capítulo I detalla información sobre el problema de investigación, la realidad problemática, formulación del problema, justificación y objetivos. En el siguiente capítulo, define el marco teórico, tales como antecedentes, bases teóricas y definiciones de términos Facultad de Ingeniería Ing. de Informática y de Sistemas xiii básicos utilizadas en este documento para contextualizar nuestra investigación. La información sobre las hipótesis, las variables y su operacionalización, además de datos de la muestra, población, diseño de investigación, técnicas e instrumentos para la recolección de datos, y métodos y procedimientos de análisis de datos, se detalla en el Capítulo III. Respecto al desarrollo, el Capítulo 4 explica cómo se capturaron y calcularon los datos de los indicadores de Internet, y el Capítulo 5 detalla los modelos de aprendizaje automático utilizados para analizar el conjunto de datos y las métricas para evaluar los modelos. Los resultados del análisis y diagnóstico a través de la visualización de datos y tablas con métricas de modelos de Machine Learning se detallan en el Capítulo VI. Finalmente, los capítulos VII y VIII muestran las conclusiones y recomendaciones respectivamente. Facultad de Ingeniería Ing. de Informática y de Sistemas 1 INFORME DE TESIS CAPITULO I: GENERALIDADES Problema de investigación Realidad problemática En el año 2020, la pandemia por el virus COVID-19 hizo que el mundo diera un giro inesperado. Para Umair et al. (2021), el COVID-19 impuso cambios en las políticas, prioridades y actividades de personas, organizaciones y gobiernos, los cuales se convirtieron en un acelerador para las innovaciones y la tecnología. Una de las tecnologías adoptadas por la pandemia es el Internet de las Cosas (IoT), la cual para Fedullo et al. (2022) es una red de objetos interconectados que interactúan entre sí y con personas desde cualquier lugar y momento. Asimismo, Gidlund et al. (2018) indica que el componente clave del IoT es la infraestructura de comunicación, la cual tiene muchos desafíos técnicos por delante, ya que se necesita conectar un gran número de dispositivos a Internet con baja latencia. En Perú los cambios debido a la pandemia fueron visibles. Actividades como el trabajo remoto, educación virtual, teleconsultas médicas, entre otras fueron habilitadas para reducir el impacto de la cuarentena, pero también aparecieron los problemas con las redes de comunicación debido al incremento en su uso por las actividades mencionadas. Según el Estudio de Satisfacción 2021 realizado por el Organismo Supervisor de Inversión Privada en Telecomunicaciones [OSIPTEL] (2022), solo el 29% estaba totalmente satisfecho con su servicio de Internet Fijo, mostrando una caída de 4% respecto del 33% reportado en el año 2020. Asimismo, un Facultad de Ingeniería Ing. de Informática y de Sistemas 2 78% de usuarios tuvo problemas con el servicio, de los cuales el 58% reportó problemas debido a la velocidad de navegación lenta y el 46% debido a intermitencias con el servicio. Cuando se mencionan actividades de trabajo remoto, educación virtual, teleconsultas médicas, entre otras, es posible mencionar a proveedores como Google, Microsoft, Zoom, Amazon Web Services, las cuales son empresas líderes en tecnología que ofrecen servicios ampliamente utilizados por los peruanos. Al respecto, el portal DataReportal (2022) ha realizado un análisis de datos del comportamiento de los usuarios peruanos conectados a Internet, donde se detalla que durante el año 2021 las visitas al dominio Google.com, que incluyen los servicios como GMail, Drive, Presentations, Meet y Cloud, llegaron a los 8 330 millones al año, el dominio Zoom.us, que ofrece el servicio de videoconferencias, alcanzó el número de 891 millones y el dominio Live.com, que incluyen a Outlook y Office 365, llegó a los 320 millones. Respecto a valores de velocidad, DataReportal (2022) detalla que el promedio es de 42.26 Megabits por segundo (Mbps), cálculo que obtiene luego de haber analizado datos del proveedor Ookla del mes de noviembre 2021. Sobre el particular, Yang et al. (2022) dice que los usuarios de Internet usan pruebas de Internet para medir la velocidad de descarga y diagnosticar el estado de sus conexiones. En octubre 2021 había más de 38 mil millones de pruebas de velocidad realizadas por Ookla, una popular web de pruebas de velocidad de Internet distribuida por todo el mundo, la cual ofrece una interfaz web que selecciona un servidor con baja latencia por defecto para los usuarios, el cual está ubicado, geográficamente, cerca al usuario que realiza la Facultad de Ingeniería Ing. de Informática y de Sistemas 3 prueba. Esta selección de servidor tiene como objetivo obtener una menor latencia y una mayor velocidad, lo cual hace que las pruebas muestren resultados muy optimistas y sesgados, lo que no los hace efectivos como se requieren para una investigación. Figura 1 Prueba de Velocidad Ookla - Lista de Servidores De acuerdo a Lai et al. (2020), los Proveedores de Servicios de Internet (PSI) utilizan las mismas pruebas de velocidad que los usuarios para diagnosticar problemas en sus redes de comunicación, sin embargo, la latencia es más importante para el servicio de Internet que la velocidad de Internet, especialmente en aplicaciones sensibles al tiempo como videoconferencias, juegos en línea multijugador, telemedicina, etc. Teniendo en cuenta ello, se recolectaron datos de los equipos de redes de comunicación de los PSI para obtener información de la latencia y, utilizando modelos de clasificación de Inteligencia Artificial, se obtuvieron resultados de las métricas Precision, Recall, F1-Score con Accuracy de 66% para responder a la interrogante planteada: ¿Se quejará el cliente por el mal servicio prestado? Facultad de Ingeniería Ing. de Informática y de Sistemas 4 Formulación del problema ● ¿El proceso utilizado para diagnosticar el funcionamiento del servicio de Internet es efectivo para usarse con aplicaciones IoT? ¿Es posible estimar la latencia aplicando modelos de regresión de Machine Learning? ¿Existe correlación entre la latencia y la fluctuación, y cómo afectaría a las aplicaciones IoT? ¿Existe correlación entre la velocidad de descarga y la latencia? Justificación Considerando que las investigaciones previas realizadas por Lai et al. (2020) y Yang et al. (2022) tuvieron un alcance local, limitados a datos obtenidos de los equipos de redes de comunicación de los PSI y pruebas realizadas entre equipos ubicados en los mismos lugares geográficos respectivamente, los resultados de las métricas como F1-Score, Precision, Recall no fueron muy precisos ya que se obtuvo un Accuracy del 66%. Por ello, en la presente investigación se propone realizar mediciones de los indicadores del servicio de Internet, capturando datos entre una aplicación web ubicada en Lima y cinco servidores ubicados en distintas ciudades de Estados Unidos, los cuales se encuentran geográficamente fuera de la red de comunicaciones del PSI, lo cual permitirá construir un conjunto de datos de mayor precisión de los indicadores: latencia, fluctuación y paquetes perdidos. Finalmente, aplicando modelos de Machine Learning con algoritmos de regresión, se evaluará el funcionamiento del servicio de Internet en Perú a través de métricas como MAE, RMSE, R2 y la Correlación de Pearson, para determinar el estado actual del servicio Facultad de Ingeniería Ing. de Informática y de Sistemas 5 de Internet y como ello afecta la implementación y funcionamiento de las aplicaciones IoT en hogares y empresas. Objetivos Objetivo General Desarrollar un proceso para diagnosticar el funcionamiento del servicio de Internet midiendo velocidad, latencia, fluctuación y paquetes perdidos desde distintas ubicaciones geográficas, siendo efectivo para usarse en aplicaciones IoT. Objetivos Específicos Recolectar datos de la latencia, fluctuación y paquetes perdidos desde múltiples servidores, que se encuentran en distintas ubicaciones geográficas. Analizar la correlación entre los indicadores de servicio de Internet y determinar el impacto que tienen en las aplicaciones IoT. Verificar si existe correlación entre la latencia y la velocidad de Internet. Determinar la precisión de los modelos de Machine Learning utilizando técnicas de regresión con los datos de latencia. Facultad de Ingeniería Ing. de Informática y de Sistemas 6 CAPITULO II: MARCO TEORICO Antecedentes Según Fedullo et al (2022), la transformación digital generada por el paradigma Industria 4.0 y los requerimientos de comunicación necesarios para su funcionamiento, encajan con los requerimientos del Internet de las Cosas (IoT). Al respecto, indica que las redes actuales no ofrecen la comunicación en tiempo real, por lo que propone el uso de Time-Sensitive Networks (TSN) como el nuevo protocolo de comunicación para manejar el tráfico crítico en tiempo real. Asismimo, para Gidlung et al. (2018), el componente crítico para IoT es la infraestructura de comunicación, la cual tienen muchos desafíos técnicos por delante, ya que se necesita conectar un gran número de dispositivos a Internet donde la latencia y confiabilidad son las características más buscadas, por lo que plantea el uso de redes inalámbricas con soluciones de sincronización de tiempo y detección de errores, lo cual permitirá ofrecer una comunicación en tiempo real. Según Umair et al. (2021), la pandemia COVID 19 ha forzado la adopción del IoT para proveer de soluciones innovadoras en una variedad de áreas, como salud, agricultura y transporte, proponiendo desafíos como la reducción de costos al desarrollar, instalar y usar soluciones y sistemas IoT que permitan comunicar y compartir datos, los cuales al ser analizados sean útiles para planificar, gestionar y tomar decisiones. Amjad et al. (2021) analiza la integración de varios protocolos usados por las aplicaciones IoT para la interoperabilidad de datos en las aplicaciones IoT, concluyendo que existe el soporte para la interoperabilidad a través de intermediarios, pero es importante integrar los protocolos con los datos de las aplicaciones de manera Facultad de Ingeniería Ing. de Informática y de Sistemas 7 directa, lo cual se puede lograr a través de una entidad de estándares como la European Telecommunication Standard Institute (ETSI). Al respecto, ETSI (2008), especifica los indicadores a medir para evaluar el servicio de Internet a nivel de usuario, mencionando la velocidad de transmisión y la demora, indicando que este último indicador tiene un impacto muy directo en la satisfacción del usuario. Para Ahmad et al. (2020), las redes de comunicación tienen como objetivo principal el soportar las aplicaciones IoT emergentes y de tiempo real, como por ejemplo la telemedicina, vehículos autónomos, juegos en línea multijugador, las cuales requieren latencia por debajo de los 10 ms, y una alta confiabilidad, y concluye indicando que los PSI deben mejorar sus redes de comunicación y optimizar sus procesos ya que tienen impacto directo en las demoras de las aplicaciones, afectando la latencia, y por ende, el servicio de Internet. Mamane et al. (2021) indica que las nuevas redes de comunicación necesitan integrar infraestructuras actuales y nuevas, tecnologías heterogéneas e innovadoras para satisfacer las crecientes demanda y garantizar la máxima cobertura para los usuarios en diferentes circunstancias, proponiendo el uso de algoritmos de programación que permitan el uso equitativo de la red entre los usuarios y proporcionando baja latencia para las aplicaciones IoT. Al respecto, Bazi y Nassereddine (2019) mencionan que TCP es el protocolo de transporte más confiable del modelo TCP/IP, ya que implementa varios mecanismos para garantizar una alta confiabilidad de transferencia de datos. Sin embargo, debido al gran crecimiento de Internet, se vuelve más difícil garantizar la continuidad del servicio a un número grande de usuarios, ya que el tráfico de datos se Facultad de Ingeniería Ing. de Informática y de Sistemas 8 incrementa a la par con la congestión de las redes (incrementando la latencia). Para dicho fin, se propone la medición de métricas como la latencia y paquetes perdidos para la implementación de algoritmos de gestión de tráfico, concluyendo que el uso del algoritmo TCP Vegas es el recomendado para aplicaciones que requieren una transferencia de datos confiable, como el que realizan las aplicaciones IoT. Lai et al. (2020) dice que una vez que el PSI despliega su circuito de comunicaciones y provee servicios a sus clientes, sólo se ocupa de los problemas en su circuito cuando los clientes llaman a quejarse. Por ello se propone medir el funcionamiento del servicio de Internet y, haciendo uso de la Inteligencia Artificial, predecir si los clientes se quejarían o no, llegando a la conclusión que los clientes se pueden quejar, basado en el modelo de clasificación construido con los datos recolectados, que obtuvo un Accuracy del 66%. Bases teóricas Para Leiner et al. (2017) Internet es una red mundial para difundir información, y para que las personas colaboren e interactúen con sus computadoras sin tener en cuenta la ubicación geográfica. Según Moschini (2020, Oct 29), la vida actual es impensable sin Internet ya que se usa para comprar, estudiar, trabajar, realizar trámites, comunicarnos y hasta para ir al médico. Y aquí muchas personas se hacen la pregunta: ¿qué es Internet? El 29 de octubre de 1969, un equipo de la Universidad de California Los Ángeles (UCLA) mandó un mensaje a través de una red de 4 computadoras. Esa red tenía por nombre ARPANET y era un proyecto del Departamento de Defensa de Estados Unidos, cuyo fin era el de tener un sistema de comunicación a distancia capaz. Sin Facultad de Ingeniería Ing. de Informática y de Sistemas 9 embargo, Lawrence Roberts, Robert Kahn, Tim Berners-Lee y Vinton Cerf, los creadores de esta red, nunca pensaron que esta red sostendría al mundo frente al ataque viral del COVID – 19. Según las estadísticas, 4 570 millones de personas usan Internet en todo el mundo, lo que equivale a un aproximado del 60% de la población mundial. Muchas personas declaran que Internet fue esencial para sobrevivir durante la pandemia, ya que les permitió sostener la educación de sus hijos y mantener comunicación con familiares y amigos. El trabajo remoto se consolidó: los usuarios de Zoom crecieron en 2 900% y Microsoft Teams alcanzó el récord de 2 700 millones de reuniones en un solo día. De estos indicadores se puede indicar que el uso de Internet para tareas síncronas se incrementó durante la pandemia. Como se mencionó anteriormente, evaluar una conexión a Internet sólo por la velocidad no garantiza el correcto funcionamiento del servicio de Internet, ya que la velocidad mide la cantidad de datos que puedes transferir en un lapso de tiempo. Para una mejor evaluación se deben considerar indicadores que incluyan las actividades sensibles al tiempo, las cuales se ven afectadas por valores altos de las siguientes variables: Latencia Fluctuación Paquetes Perdidos Definición de términos básicos Facultad de Ingeniería Ing. de Informática y de Sistemas 10 Internet de las Cosas (IoT) Internet de las Cosas está definida como una red de objetos interconectados que interactúan entre sí y con las personas en cualquier momento y desde cualquier lugar. Velocidad de Transmisión (Data Rate / Data Speed / Throughput) Según ETSI (2008), la velocidad de transmisión está definida como la tasa de transmisión de datos que es alcanzada por separado para descargar y cargar archivos de prueba específicos entre un sitio web remoto y la computadora de un usuario. La prueba consiste en realizar la medición del tiempo que demora en cargar y descargar archivos de tamaño aleatorio desde un servidor web. El resultado de esta medición se muestra en bits por segundo (bps). Considerando que el año en curso es 2022, el término a utilizar es Megabits por segundo (Mbps). Demora / Retraso (Delay) Según ETSI (2008), la demora o retraso está definida como la mitad del tiempo (en milisegundos) que necesita una solicitud de respuesta ICMP, la cual es conocida como latencia. Se le conoce también como tiempo de transmisión unidireccional. Latencia (Ping) La latencia, también conocida ping o delay, es la velocidad a la que se establece la conexión entre dos dispositivos, es decir, mide el tiempo que demora en transferir datos de ida y vuelta entre dispositivos (es decir tiempo de transmisión bidireccional). Por ejemplo entre una laptop y una web de videoconferencias o entre un teléfono inteligente y una web de clases remotas. El resultado se muestra en Facultad de Ingeniería Ing. de Informática y de Sistemas 11 milisegundos (ms). Valores bajos permitirán realizar las actividades sensibles al tiempo sin problemas (ej. videoconferencias, clases virtuales, etc.), mientras que valores altos afectarán directamente la realización de dichas actividades. Paquetes Perdidos (Packet Loss) Es un indicador que mide los datos que no llegan al destino, lo cual puede ser causado por errores en la transmisión de datos debido a problemas como congestión de la red, servidores en mantenimiento, etc. Modelo de Aprendizaje de Máquina (Machine Learning model) Los modelos de aprendizaje de máquina, son algoritmos que permiten realizar análisis de datos con la finalidad de identificar patrones, obteniendo información para tomar decisiones. Facultad de Ingeniería Ing. de Informática y de Sistemas 12 CAPITULO III: DISEÑO METODOLÓGICO Formulación de la Hipótesis En el presente trabajo se plantean las siguientes hipótesis: Tabla 1 Lista de Hipótesis Pregunta de Hipótesis Hipótesis Investigación Nula (H0) Alternativa (H1) ¿Qué tan precisos La métrica R2 tiene La métrica R2 tiene son los resultados un resultado menor un resultado igual o obtenidos por los a 0.8. mayor a 0.8. modelos de Machine Learning al usar técnicas de regresión con los datos de latencia? ¿Qué tipo de La métrica La métrica correlación existe Correlación de Correlación de entre la latencia y Pearson entre la Pearson entre la la fluctuación, y latencia y la latencia y la cómo afecta a las fluctuación tiene un fluctuación tiene un aplicaciones IoT? resultado menor a resultado mayor o 0.1 y mayor o igual igual a 0.1 y menor a -1, con lo cual se o igual a 1, con lo puede afirmar que cual no tienen relación. afirmar que tienen se puede relación directa. Facultad de Ingeniería Ing. de Informática y de Sistemas 13 ¿Existe alguna La métrica La métrica correlación entre la Correlación de Correlación de velocidad de Pearson entre la Pearson entre la la latencia y la latencia y la Internet y latencia? velocidad tiene un fluctuación tiene un resultado entre - resultado mayor a - 0.20 y 0, con lo cual 0.21, con lo cual se se puede afirmar puede afirmar que que tienen no relación. tienen relación inversa. Identificación de Variables Para responder las preguntas de la investigación planteadas se identificaron las siguientes variables Tabla 2 Lista de variables Dato Descripción LatenciaMiami Variable independiente LatenciaMountainView Variable independiente LatenciaSantaClara Variable independiente LatenciaRedmond Variable independiente LatenciaAtlanta Variable independiente VelocidadDescargaMiami Variable independiente FluctuaciónSantaClara Variable independiente RMSE Variable dependiente Facultad de Ingeniería Ing. de Informática y de Sistemas 14 MAE Variable dependiente R2 Variable dependiente Correlación de Pearson Variable dependiente Operacionalización de Variables Teniendo identificadas las variables, es necesario definir su operacionalización. Tabla 3 Operacionalización de variables Pregunta de Variable Independiente Investigación Variable Dependiente ¿Qué tan precisos LatenciaAtlanta MAE son los resultados LatenciaMiami RMSE obtenidos por los LatenciaMountainView R2 modelos LatenciaRedmond de Machine LatenciaSantaClara Learning al usar técnicas de regresión con los datos de latencia? ¿Qué tipo de LatenciaAtlanta Correlación de correlación existe LatenciaMiami Pearson entre la latencia y LatenciaMountainView la fluctuación, y LatenciaRedmond cómo afecta a las LatenciaSantaClara aplicaciones IoT? FluctuacionAtlanta Facultad de Ingeniería Ing. de Informática y de Sistemas 15 FluctuacionMiami FluctuacionMountainView FluctuacionRedmond FluctuacionSantaClara ¿Existe alguna LatenciaAtlanta Correlación de correlación entre LatenciaMiami Pearson la velocidad de LatenciaMountainView Internet LatenciaRedmond y la latencia? LatenciaSantaClara VelocidadDescargaMiami Asimismo, para manejar los problemas de ancho de banda y sesgo (bias) en el análisis de datos y modelos de Machine Learning, se utilizarán los siguientes controles estadísticos: Tabla 4 Controles estadísticos en variables Pregunta de Variable Investigación Extraña Control ¿Qué tan precisos Sesgo Validación son los resultados (bias) (K=10) obtenidos por los modelos de Machine Learning al usar técnicas Facultad de Ingeniería Ing. de Informática y de Sistemas de Cruzada K-Folds 16 regresión con los datos de latencia? ¿Qué tipo de Ancho correlación existe banda de Equipo de uso exclusivo para la aplicación web y entre la latencia y las pruebas, evitando la fluctuación, y que cómo afecta a las resultados. aplicaciones IoT? Uso afecten de los servidores optimizados para actividades específicas. ¿Existe alguna Ancho correlación entre banda de Equipo de uso exclusivo para la aplicación web y la velocidad de las pruebas, evitando Internet que y la latencia? afecten los resultados. Uso de servidores optimizados para actividades específicas. Población Todas las solicitudes de prueba entre las ciudades de Lima, Miami – (Florida), Santa Clara y Mountain View (California), Atlanta (Georgia) y Redmond (Washington) cada 4 minutos desde el 19 de marzo del 2022 hasta el 25 de Mayo del 2022. Facultad de Ingeniería Ing. de Informática y de Sistemas 17 Muestra Para un mejor análisis, se trabajó con toda la población disponible, y además se utilizó Validación Cruzada K-pliegues (K-fold Cross Validation), el cual, según Jung et al. (2018), es un criterio de selección de modelos ampliamente utilizado en Inteligencia Artificial, donde el 90% de los datos se utilizó para entrenamiento y el 10% restante para pruebas. Diseño de Investigación El diseño de la investigación es No Experimental Transversal Descriptivo, ya que busca evidenciar las características del problema. Técnicas e Instrumentos de recolección de datos El instrumento utilizado en la presente investigación fue una aplicación web que fue desarrollada por el autor utilizando los lenguajes de programación JAVA, HTML5 y Bootstrap. Esta aplicación web se ejecuta cada 4 minutos desde el 19 de abril del 2022 para capturar datos de velocidad de carga y descarga, latencia, fluctuación y paquetes perdidos. Figura 2 Aplicación Web Desarrollada para la investigación Facultad de Ingeniería Ing. de Informática y de Sistemas 18 La construcción de la aplicación web siguió los estándares definidos por la International Telecommunication Union [ITU] (2003) en el documento “Quality of service and performance - Generic and user-related aspects - Performance parameter definitions for quality of speech and other voiceband applications utilizing IP networks”, donde se especifica que el cálculo de la latencia es la sumatoria de sus mediciones dividido entre el número de mediciones realizadas. 𝑙𝑎𝑡𝑒𝑛𝑐𝑖𝑎 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 = ∑𝑛𝑖=1 𝑙𝑎𝑡𝑒𝑛𝑐𝑖𝑎𝑖 n El cálculo de la fluctuación se realiza bajo el enfoque basado en la variación absoluta, calculando la variación entre la medición anterior de la latencia con la actual, obteniendo su valor absoluto y realizando el cálculo para todas las mediciones realizadas para finalmente dividir entre el número de mediciones realizadas. 𝑓𝑙𝑢𝑐𝑡𝑢𝑎𝑐𝑖ó𝑛 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 = ∑𝑛𝑖=1 |𝑙𝑎𝑡𝑒𝑛𝑐𝑖𝑎𝑛−1 − 𝑙𝑎𝑡𝑒𝑛𝑐𝑖𝑎𝑛 | n En la configuración de la aplicación web, se considera n = 10, ya que es el número de mediciones que se realiza a cada servidor para realizar los cálculos de la latencia promedio y la fluctuación promedio. Para la validación del funcionamiento de la aplicación, se realizaron pruebas de recolección de datos de los indicadores utilizando los servidores ubicados en Estados Unidos y los resultados fueron comparados utilizando herramientas como la línea de Facultad de Ingeniería Ing. de Informática y de Sistemas 19 comandos de Windows, donde se ejecutó el comando ping para medir la latencia, obteniendo resultados similares. Figura 3 Comparativa comando ping versus aplicación web Luego de la validación realizada, la aplicación web fue instalada en un servidor ubicado en Lima Perú, y realizó pruebas de conexión con servidores de conocidas empresas como Amazon Web Services, Google Education, Microsoft Teams, Valve (empresa de videojuegos) y Speed Of me (servidor carga y descarga), los cuales estaban ubicados físicamente en ciudades de California, Washington, Georgia y Florida (Estados Unidos de América). La finalidad de realizar pruebas de conexión con los servidores antes mencionados es la de obtener datos de velocidad de transmisión (carga y descarga), latencia, fluctuación y paquetes perdidos para distintas actividades tales como: trabajo remoto, educación remota, videoconferencias, juegos en línea multijugador y descargas de archivos, realizando pruebas remotas a los servidores indicados anteriormente, mostrando el funcionamiento más preciso del servicio de Internet, a diferencia de otras aplicaciones web (como por ejemplo Ookla) que solo realizan pruebas con servidores en el mismo país. Facultad de Ingeniería Ing. de Informática y de Sistemas 20 Ejecutar pruebas entre los servidores ubicados en Lima Perú y Estados Unidos han cubierto la necesidad de capturar con mayor precisión los valores de los siguientes indicadores: latencia, fluctuación, pérdida de paquetes y velocidad. Además, elegimos estos servidores en diferentes ciudades de los Estados Unidos para evaluar el servicio de Internet en diversas actividades: remoto trabajo (Amazon Web Services), educación remota (Google Educación), videoconferencias (Microsoft Teams) y videojuegos en línea (Valve Inc), poque estas empresas brindan servicios de alta demanda para realizar actividades diarias para personas en Perú y América Latina. La medición de la velocidad consiste en subir o bajar velocidad a través de la transferencia de archivos utilizando el servidor SpeedOfMe ubicado en Miami-Florida, con un tamaño entre 128 KB y 128 MB. Finalmente, se selecciona el primer resultado de la prueba que toma más de 8 segundos para completar la transferencia. La medición de la latencia consiste en ejecutar diez iteraciones en cada servidor: Amazon, Google, Microsoft y Valve para capturar la demora entre el inicio de la solicitud y la obtención de la respuesta, por lo que es posible calcular el promedio de capturado valores. Además, los valores de latencia son la fuente para calcular la fluctuación, que es la diferencia entre los valores de la latencia y divididos por el número de muestras menos 1. Para la pérdida de paquetes, las solicitudes de medición de latencia que no tuvieron respuesta se cuentan como solicitudes fallidas. Finalmente, los datos fueron almacenados en una base de datos para su respectivo procesamiento y análisis. Métodos y Procedimientos de análisis de datos Creamos el conjunto de datos mediante la ejecución de una tarea automatizada que recopiló datos mediante la aplicación web. Esta tarea se desarrolló desde el 19 de Facultad de Ingeniería Ing. de Informática y de Sistemas 21 marzo de 2022 hasta el 25 de mayo de 2022, realizándose alrededor de 22 000 pruebas, por lo que fue posible crear y analizar diferentes modelos de ML y gráficos de visualización de datos. En ML, el modelo se entrena en un conjunto separado de entradas llamado conjunto de entrenamiento y se evalúa usando otro conjunto llamado conjunto de evaluación. Para (Nilsson, Nils J. 1998), es fundamental porque dividir el conjunto de datos reduce el tamaño del conjunto de entrenamiento y, por lo tanto, aumenta la posibilidad de sobreajustar. Por lo tanto, usamos K-Fold Cross Validation, usando k = 10 pliegues, donde el 90\% del contenido del conjunto de datos se dividió para entrenamiento y el 10\% para pruebas para evaluar el rendimiento del modelo. Las métricas utilizadas para la evaluación del modelo son: RMSE, MAE y RSquared, debido a que utilizamos modelos de regresión, obteniendo una puntuación para entrenamiento y otra para prueba. Las fórmulas se muestran a continuación: 𝑛 1 𝑅𝑀𝑆𝐸 = √ ∑(𝑎𝑗 − ă𝑗 )2 𝑛 𝑗=1 𝑛 1 𝑀𝐴𝐸 = ∑ |𝑎𝑗 − ă𝑗 | 𝑛 𝑗=1 𝑛 ∑ 𝑅2 = 1 − (ă𝑗 − 𝑎𝑗 )2 𝑗=1 𝑛 ∑ (a − ā𝑗 )2 𝑗=1 Facultad de Ingeniería Ing. de Informática y de Sistemas 22 Para la optimización del modelo, incluimos las siguientes características que usamos en los algoritmos de regresión: FE: La Ingeniería de Características crea nuevas entradas basadas en entradas existentes. Los nuevos insumos se basan en agregados tales como suma, producto, logaritmo y/o combinaciones de las entradas existentes. HPO1: La optimización de hiperparámetros define los pesos para cada entrada, por lo que cada entrada tiene una importancia diferente en el modelo. La latencia de los servidores en Estados Unidos se pronosticó en función de la entrada de cinco predictores: LatenciaMountainView, LatenciaAtlanta LatenciaSantaClara, LatenciaRedmond y LatenciaMiami. Los modelos fueron entrenados usando dos algoritmos ML: LGBM y Boosting Machine. El error de entrenamiento de cada modelo se estimó utilizando RMSE y MAE. La precisión de los modelos que representan la varianza de la variable dependiente se estima calculando el R2. Elegimos los valores RMSE y MAE más pequeños y el valor R2 más alto para seleccionar el mejor modelo predictivo. Facultad de Ingeniería Ing. de Informática y de Sistemas 23 CAPITULO IV: DESARROLLO. Hay varias formas de medir la latencia, por ejemplo, el protocolo TAWL (Jahn et al., 2021), que obtiene los datos directamente del equipo de la red de comunicación del ISP (Lai et al., 2020); y otra es obtener datos de sitios web de pruebas de velocidad (Yang et al., 2022). En este trabajo de investigación se propone analizar el servicio de Internet desde un enfoque de usuario, midiendo indicadores, como latencia, fluctuación y pérdida de paquetes, a través de una aplicación web instalada en un servidor en Lima – Perú y utilizando servidores en los Estados Unidos de América (ver Tabla 5). El aprendizaje automático y la ciencia de datos se utilizan para predecir la latencia de Internet y obtener información para determinar cómo afecta a las aplicaciones de IoT. La realización de pruebas utilizando servidores en Estados Unidos ubicados en diferentes ciudades permitió medir indicadores de Internet como latencia, fluctuación, pérdida de paquetes y velocidad desde una perspectiva global. Además, estos servidores fueron seleccionados para medir indicadores de Internet en diferentes actividades: trabajo remoto (Amazon Web Services), educación remota (Google Education), videoconferencias (Microsoft Teams) y videojuegos en línea (Valve Inc), y elegimos estas empresas porque brindan servicios de alta demanda para realizar las actividades diarias de las personas en Perú y América Latina. Facultad de Ingeniería Ing. de Informática y de Sistemas 24 Tabla 5 Lista de servidores utilizados para recolectar datos Distancia desde Empresa Ubicación Actividades Lima Perú (km) Amazon Santa Clara, Trabajo 7 214 Web Services California Remoto Mountain Google Educación View, 7 225 Education Remota California Microsoft Redmond, Video 7 990 Teams Washington conferencias Miami, SpeedOfMe Carga y Descarga 4 215 Florida de archivos Juegos Valve Atlanta, (CSGO) Georgia 5 148 multijugador en línea La técnica utilizada para medir la velocidad de Internet consiste en subir y descargar archivos usando el servidor SpeedOfMe en Miami, Florida, con tamaños de archivo que oscilan entre 128 KB y 128 MB. Finalmente, el primer resultado de la prueba que tarda más de 8 segundos en completar la transferencia es seleccionada. La medición de la latencia consiste en ejecutar diez ping en cada servidor: SpeedOfMe, Amazon, Google, Microsoft y Valve. La aplicación web recopila datos de las medidas y calcula el promedio de los valores medidos. Además, la aplicación web utiliza la latencia medida para calcular la fluctuación. Finalmente, para la pérdida de paquetes, las Facultad de Ingeniería Ing. de Informática y de Sistemas 25 solicitudes de medición de latencia que no tuvieron respuesta se cuentan como solicitudes fallidas. En base a lo propuesto, el objetivo de esta investigación es la respuesta a las siguientes interrogantes: PI1: ¿Es posible estimar la latencia aplicando modelos de regresión de Machine Learning? PI2: ¿Existe una correlación entre la latencia y la fluctuación? ¿cómo afectaría a las aplicaciones de IoT? PI3: ¿Existe una correlación entre la velocidad de descarga y la latencia? Para obtener respuestas a nuestras preguntas, utilizamos bibliotecas de Python de Ciencia de datos para obtener información del conjunto de datos, e IBM Watson Auto AI para entrenar y evaluar modelos de aprendizaje automático (ML) utilizando algoritmos de regresión como LGBM y Boosting Machine. Finalmente, se evalúa el rendimiento de los modelos de regresión utilizando métricas RMSE, MAE y R-Squared. Para la obtención de información y evaluación de modelos fue necesaria la creación de un conjunto de datos, la cual se realizó mediante la ejecución de una tarea automatizada que recopiló datos mediante la aplicación web. Esta tarea se desarrolló desde el 19 de marzo de 2022 hasta el 25 de mayo de 2022, realizándose alrededor de 22 000 pruebas, por lo que fue posible crear y analizar diferentes modelos de ML y gráficos de visualización. El modelo se entrena y evalúa utilizando el conjunto de datos. Es fundamental manejar el sesgo porque aumenta la posibilidad de underfitting u overfitting (Nilsson, 1998), por lo que usamos K-Fold Cross Validation, usando k = 10 pliegues, donde el 90 % del Facultad de Ingeniería Ing. de Informática y de Sistemas 26 contenido del conjunto de datos se dividió para entrenamiento y el 10 % para pruebas para evaluar el rendimiento del modelo. Las métricas utilizadas para la evaluación del modelo son: RMSE, MAE y R-Squared, debido a que utilizamos modelos de regresión, obteniendo una puntuación para entrenamiento y otra para prueba. Para la optimización del model, incluimos las siguientes características que usamos en los algoritmos de regresión: FE: Ingeniería de Características crea nuevas entradas basadas en entradas existentes. Los nuevos insumos se basan en agregados tales como suma, producto y combinaciones de insumos existentes. HPO1: la optimización de hiperparámetros define los pesos para cada entrada, por lo que cada entrada tiene una importancia diferente en el modelo. Facultad de Ingeniería Ing. de Informática y de Sistemas 27 CAPITULO V: RESULTADOS En las siguientes líneas se muestran los resultados obtenidos para cada pregunta de investigación. PI1: La latencia se predijo en función de la entrada de cinco predictores: LatencyAtlanta, LatencyMiami, LatencyMountainView, LatencySantaClara y LatencyRedmond. Los modelos utilizaron dos algoritmos ML: LGBM y Boosting Machine. El error en entrenamiento y prueba de cada modelo se estimó utilizando RMSE y MAE. La precisión de modelos, que representan la varianza de la variable dependiente, se estimó calculando el R-Squared. Para elegir el mejor modelo predictivo se evalúan los valores mínimos de RMSE y MAE y el valor más alto de R-Squared. Los resultados finales son mostrados en las tablas 6 y 7. Tabla 6 Modelos de regresión aplicados al conjunto de datos recopilados ID Modelo HPO1 FE LGBM1 Regresión usando LGMB No No LGBM2 Regresión usando LGMB Sí No LGBM3 Regresión usando LGMB Sí Sí BM1 Regresión usando Boosting Machine No No BM2 Regresión usando Boosting Machine Sí No BM3 Regresión usando Boosting Machine Sí Sí Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of Internet Service Latency and its Impact on Internet of Things (IoT) Applications," 2022 IEEE Engineering International Research Conference (EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102. Facultad de Ingeniería Ing. de Informática y de Sistemas 28 Tabla 7 Resultados de los modelos de regresión para predicción de latencia Estimación de Error y Variación de latencia en promedio - entrenamiento LGBM1 LGBM2 LGBM3 BM1 BM2 BM3 RMSE 11.765 9.327 8.741 11.027 10.081 8.129 MAE 1.581 1.746 1.302 1.420 1.503 1.143 R-Squared 0.885 0.933 0.940 0.908 0.924 0.948 Estimación de Error y Variación de latencia en promedio - pruebas LGBM1 LGBM2 LGBM3 BM1 BM2 BM3 RMSE 4.624 3.025 3.589 7.198 8.595 9.950 MAE 1.486 1.536 1.346 1.411 1.729 1.282 R-Squared 0.982 0.992 0.989 0.956 0.937 0.915 Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of Internet Service Latency and its Impact on Internet of Things (IoT) Applications," 2022 IEEE Engineering International Research Conference (EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102. PI2: Las figuras 4, 5 y 6 muestran la relación directa entre la latencia y la fluctuación. Las figuras 7 y 8 muestran la latencia promedio y la fluctuación promedio por mes para cada servidor. Asimismo, en la Tabla 8 se muestran los resultados de la Correlación de Pearson para cada servidor. Facultad de Ingeniería Ing. de Informática y de Sistemas 29 Figura 4 Relación Latencia - Fluctuación (Servidor: Miami, FLO) Figura 5 Relación Latencia - Fluctuación (Servidor: Atlanta, GA) Facultad de Ingeniería Ing. de Informática y de Sistemas 30 Figura 6 Relación Latencia - Fluctuación (Servidor: Santa Clara, CA) Figura 7 Latencia Promedio por Mes y Servidor Figura 8 Fluctuación Promedio por Mes y Servidor Facultad de Ingeniería Ing. de Informática y de Sistemas 31 Tabla 8 Resultados de la Correlación de Pearson para Latencia y Fluctuación Ubicación Latencia Fluctuación Correlación Promedio Promedio de Pearson (ms) (ms) Santa Clara, California 110.770 15.959 0.186 Mountain View, California 76.723 18.974 0.662 Redmond, Washington 243.426 40.118 0.326 Miami, Florida 92.108 287.234 0.132 Atlanta, Georgia 104.821 6.667 0.300 Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of Internet Service Latency and its Impact on Internet of Things (IoT) Applications," 2022 IEEE Engineering International Research Conference (EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102. Facultad de Ingeniería Ing. de Informática y de Sistemas 32 PI3: Finalmente, la comparación entre las latencias y la velocidad de Internet está representada en la Figura 9 y los resultados de la Correlación de Pearson en la Tabla 9. Figura 9 Relación Latencia – Velocidad de Descarga Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of Internet Service Latency and its Impact on Internet of Things (IoT) Applications," 2022 IEEE Engineering International Research Conference (EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102. Facultad de Ingeniería Ing. de Informática y de Sistemas 33 Tabla 9 Resultados de la Correlación de Pearson para Latencia y Velocidad Ubicación Correlación de Pearson Santa Clara, California -0.068 Mountain View, California -0.202 Redmond, Washington -0.025 Miami, Florida -0.069 Atlanta, Georgia -0.104 Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of Internet Service Latency and its Impact on Internet of Things (IoT) Applications," 2022 IEEE Engineering International Research Conference (EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102. Facultad de Ingeniería Ing. de Informática y de Sistemas 34 CAPITULO VI: DISCUSIÓN DE RESULTADOS Para la PI1, los resultados de la evaluación de modelos de Machine Learning obtuvieron los siguientes valores para la métrica R-Squared (R2): Tabla 10 Valores de R-Squared para cada modelo ML evaluado Modelo Valor R2 Entrenamiento Valor R2 Pruebas LGBM1 0.885 0.982 LGBM2 0.933 0.992 LGBM3 0.94 0.989 BM1 0.908 0.956 BM2 0.924 0.937 BM3 0.948 0.915 Nota: Adaptado de L. Mostacero-Agama and P. Shiguihara, "Analysis of Internet Service Latency and its Impact on Internet of Things (IoT) Applications," 2022 IEEE Engineering International Research Conference (EIRCON), 2022, pp. 1-4, doi: 10.1109/EIRCON56026.2022.9934102. De los valores obtenidos para R-Squared se puede determinar que el valor mínimo es 0.885 (Modelo LGBM1 – Entrenamiento) y el valor máximo obtenido es 0.992 (modelo LGBM2 – Pruebas). Para asegurar una alta precisión de los modelos se definió que el valor esperado de R-Squared se encontraba en el rango de valores entre 0.8 y 1.0, lo cual según Chicco et al. (2021) indica un excelente rendimiento del modelo evaluado. Por lo tanto, al Facultad de Ingeniería Ing. de Informática y de Sistemas 35 estar los resultados dentro del rango de valores especificado se puede decir que la hipótesis H1 es verdadera. En cuanto a la PI2, en los resultados de la correlación de Pearson para determinar la relación entre la latencia y la fluctuación se obtuvo 0.132 como valor mínimo (Miami – Florida) y 0.662 como valor máximo (Mountain View – California), valores que se encuentran dentro del rango definido de > 0.1 y <=1. Según Nettleton (2014), la Correlación de Pearson es el método más común para evaluar variables numéricas, el cual asigna valores entre -1 y 1, donde un resultado de 0 significa sin correlación, 1 significa correlación positiva, y -1 significa correlación negativa. Una correlación positiva se interpreta como directa, es decir si el valor de la latencia sube, la fluctuación también sube, lo cual es lo que se ha podido demostrar con el análisis realizado de las mediciones realizadas. Es necesario aclarar también que el resultado positivo que se obtiene de la Correlación de Pearson es mejor cuando más se acerque a 1, porque eso significa una mayor correlación, sin embargo, en el análisis realizado se han obtenido valores cercanos a 0.1 (ver Tabla 8), lo cual se puede interpretar como una correlación positiva débil. Las causas que pueden afectar el resultado obtenido son varias, pero para Høiland-Jørgensen et al. (2016) la causa más frecuente es el encolamiento debido a la congestión en la red por el tráfico de datos, lo cual se pone de manifiesto con el resultado obtenido en Miami – Florida (ver Figura 4), cuyo servidor se encarga de realizar las mediciones de ancho de banda a través de la carga y descarga de archivos. Esta situación afecta negativamente el comportamiento de la latencia y la fluctuación, generando inestabilidad en la conexión y debido a ello el funcionamiento de las aplicaciones IoT se ve afectado, lo cual es percibido directamente por los usuarios. Por lo tanto, en base a todo lo anteriormente explicado, se puede concluir que la hipótesis H1 es verdadera. Finalmente, respecto a la relación entre la latencia y la velocidad de descarga que se plantea en la PI3, se obtuvo un valor mínimo de -0.025 (Redmond - Washington) y un valor máximo de -0.202 (Mountain View – California) como resultados de la Correlación de Pearson. Facultad de Ingeniería Ing. de Informática y de Sistemas 36 Como se mencionó en el PI2, Nettleton (2014) indica que la Correlación de Pearson es el método más común para evaluar variables numéricas, el cual asigna valores entre -1 y 1, donde un resultado de 0 significa sin correlación, 1 significa correlación positiva, y -1 significa correlación negativa. Una correlación negativa se interpreta como inversa, es decir si el valor de la velocidad sube, la latencia baja, sin embargo, esta situación no se presenta (ver Figura 9), ya que los resultados obtenidos son muy cercanos a 0 (ver Tabla 9). En base a ello, se interpreta que la velocidad y la latencia no tienen relación, por lo tanto la hipótesis H1 es falsa. Facultad de Ingeniería Ing. de Informática y de Sistemas 37 CAPITULO VII: CONCLUSIONES Se analizaron los valores de velocidad, latencia y fluctuación experimentados por los usuarios de Internet, obtenidos con un método de medición que se desarrolló para generar un conjunto de datos basado en mediciones realizadas entre ciudades de Perú y Estados Unidos de América. Basado en el análisis realizado se concluye que este trabajo ha logrado validar sus objetivos de investigación y que a continuación se detallan: Es posible utilizar el conjunto de datos y realizar estimaciones para obtener resultados de la latencia para el servicio de Internet, utilizando modelos Machine Learning, obteniendo valores para la métrica R-Squared mayores a 0.8. Eso significa que el modelo tiene buena precisión. Además, los valores obtenidos para las métricas MAE y RMSE son bajos, lo cual indica que el modelo se ajusta a los datos y tiene un bajo error en la estimación, confirmando que el modelo tiene una excelente precisión. La latencia y la fluctuación tienen una relación directa, por lo que los incrementos en la latencia incrementan también la fluctuación, afectando el funcionamiento de las aplicaciones IoT, las cuales necesitan estabilidad en la conexión para un óptimo rendimiento. La velocidad y la latencia no tienen relación, lo cual significa que a mayor ancho de banda no necesariamente reduce la latencia. La aplicación web, utilizada para realizar el análisis de la latencia, fue desarrollada para recolectar datos de latencia, fluctuación y paquetes perdidos y para que las pruebas se ejecuten utilizando servidores remotos (en este caso Facultad de Ingeniería Ing. de Informática y de Sistemas 38 estaban en Estados Unidos), mejorando la precisión de la data recolectada durante las pruebas. En el caso de los sitios web de pruebas de velocidad tradicionales (como Ookla), las pruebas se realizan utilizando servidores locales, es decir, en la misma ciudad y país donde reside el usuario, lo cual afecta la precisión de los datos obtenidos, mostrando resultados optimistas. Facultad de Ingeniería Ing. de Informática y de Sistemas 39 CAPITULO VIII: RECOMENDACIONES Luego de haber concluido con el presente trabajo de investigación queda por hacer las siguientes recomendaciones: Los profesionales investigadores podrían ahondar aún más en base a este trabajo utilizando la geolocalización, porque ello ayudaría a realizar mediciones de la velocidad, latencia, fluctuación y paquetes perdidos utilizando la ubicación geográfica exacta de cada usuario. En la presente investigación los datos obtenidos se estiman teniendo como origen general a Lima – Perú, sin embargo estas pruebas podrían realizarse con usuarios de cualquier parte del Perú, pero para obtener datos precisos de la región en la cual residen se hace necesario el uso de la geolocalización (Høiland-Jørgensen et al., 2016). Facultad de Ingeniería Ing. de Informática y de Sistemas 40 REFERENCIAS Abdulrazzak, F., Abdulaziz, E., & Al-Hussaini, K. (2019). Performance Analysis for TCP Protocols over mm Wave in 5G Cellular Networks. 2019 First International Conference of Intelligent Computing and Engineering (ICOICE). https://doi.org/10.1109/icoice48418.2019.9035145 Ahmad, M., Jafri, S. U., Ikram, A., Qasmi, W. N. A., Nawazish, M. A., Uzmi, Z. A., & Qazi, Z. A. (2020). A Low Latency and Consistent Cellular Control Plane. Proceedings of the Annual Conference of the ACM Special Interest Group on Data Communication on the Applications, Technologies, Architectures, and Protocols for Computer Communication. https://doi.org/10.1145/3387514.3406218 Amjad, A., Azam, F., Anwar, M. W., & Butt, W. H. (2021). A Systematic Review on the Data Interoperability of Application Layer Protocols in Industrial IoT. IEEE Access, 9, 96528–96545. https://doi.org/10.1109/access.2021.3094763 Bazi, K. (2019). Comparative study of TCP congestion control algorithms. International Journal of Advanced Trends in Computer Science and Engineering, 8(6), 3560–3564. https://doi.org/10.30534/ijatcse/2019/137862019 Moschini, S. (2020). OPINIÓN | 2020: El año que demostró por qué internet es un derecho universal. CNN Retrieved from https://cnnespanol.cnn.com/2020/10/29/opinion-2020-el-ano-que-demostro-por-queinternet-es-un-derecho-universal/ Chicco D, Warrens MJ, Jurman G. (2021) The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation. https://doi.org/10.7717/peerj-cs.623 DataReportal. (2022). Digital 2022 Peru (February 2022) v01. https://www.slideshare.net/DataReportal/digital-2022-peru-february-2022-v01 Facultad de Ingeniería Ing. de Informática y de Sistemas 41 European Telecommunications Standards Institute [ETSI] (2008). Guide Speech Processing, Transmission and Quality Aspects (STQ); User related QoS parameter definitions and measurements; Part 4: Internet Access. Retrieved from https://www.etsi.org/deliver/etsi_eg/202000_202099/20205704/01.02.01_60/eg_202057 04v010201p.pdf Fedullo, T., Morato, A., Tramarin, F., Rovati, L., & Vitturi, S. (2022). A Comprehensive Review on Time Sensitive Networks with a Special Focus on Its Applicability to Industrial Smart and Distributed Measurement Systems. Sensors, 22(4), 1638. https://doi.org/10.3390/s22041638 Gidlund, M., Han, S., Sisinni, E., Saifullah, A., & Jennehag, U. (2018). Guest Editorial From Industrial Wireless Sensor Networks to Industrial Internet of Things. IEEE Transactions on Industrial Informatics, 14(5), 2194–2198. https://doi.org/10.1109/tii.2018.2815957 Høiland-Jørgensen, Toke & Ahlgren, Bengt & Hurtig, Per & Brunstrom, Anna. (2016). Measuring Latency Variation in the Internet. 473-480. https://doi.org/10.1145/2999572.2999603 International Telecommunication Union [ITU] (2003). Quality of service and performance Generic and user-related aspects - Performance parameter definitions for quality of speech and other voiceband applications utilizing IP networks. ITU-T, G.1020. https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-G.1020-200311-S!!PDFE&type=items J. -D. Jhan, Y. -C. Lai, Y. -L. Chen and F. -H. Kuo, "Enhanced Quality of Service Measurement Mechanism of Container-based Cloud Network Architecture," 2021 22nd Asia-Pacific Network Operations and Management Symposium (APNOMS), 2021, pp. 1-4. https://doi.org/10.23919/APNOMS52696.2021.9562497 Facultad de Ingeniería Ing. de Informática y de Sistemas 42 Jung, Y. (2018). Multiple predicting K-fold cross-validation for model selection. Journal of Nonparametric Statistics, 30(1), 197-215. https://doi.org/10.1080/10485252.2017.1404598 Lai, Y. C., Jhan, J. D., Yang, W. C., Kuo, F. H., & Shih, T. C. (2019). Quality of Service Measurement Mechanism of Cloud-Based Network Architecture. 2019 20th AsiaPacific Network Operations and Management Symposium (APNOMS). https://doi.org/10.23919/apnoms.2019.8893126 Lai, Y. C., Kao, C. C., Jhan, J. D., Kuo, F. H., Chang, C. W., & Shih, T. C. (2020). Quality of Service Measurement and Prediction through AI Technology. 2020 IEEE Eurasia Conference on IOT, Communication and Engineering (ECICE). https://doi.org/10.1109/ecice50847.2020.9302008 Leiner, B, Cerf, V., Clark, D, Kahn, R., Kleinrock, L., Lynch, D., Postel, J., Roberts, L., Wolff, S. (2017). Internet Society - Brief History of the Internet. https://www.internetsociety.org/resources/doc/2017/brief-history-internet/ Mamane, A., Fattah, M., Ghazi, M. E., Balboul, Y., el Bekkali, M., & Mazer, S. (2021). Proportional fair buffer scheduling algorithm for 5G enhanced mobile broadband. International Journal of Electrical and Computer Engineering (IJECE), 11(5), 4165. https://doi.org/10.11591/ijece.v11i5.pp4165-4173 Mostacero-Agama, L. & Shiguihara P. (2022). Analysis of Internet Service Latency and its Impact on Internet of Things (IoT) Applications. 2022 IEEE Engineering International Research Conference (EIRCON), pp. 1-4, https://doi.org/10.1109/EIRCON56026.2022.9934102. Nettleton, D., (2014) Commercial Data Mining: Processing, Analysis and Modeling for Predictive Analytics Projects. https://doi.org/10.1016/C2013-0-00263-0 Nilsson, N., (1998). Introduction to Machine Learning, Stanford University. Facultad de Ingeniería Ing. de Informática y de Sistemas 43 Organismo Supervisor de Inversión Privada en Telecomunicaciones [OSIPTEL] (2022). Estudio de Satisfacción 2021: la mitad de usuarios se siente totalmente satisfecho con su servicio móvil. OSIPTEL. https://www.osiptel.gob.pe/portal-delusuario/noticias/estudio-de-satisfaccion-2021-la-mitad-de-usuarios-se-sientetotalmente-satisfecho-con-su-servicio-movil/ Salih, K. O. M., Rashid, T. A., Radovanovic, D., & Bacanin, N. (2022). A Comprehensive Survey on the Internet of Things with the Industrial Marketplace. Sensors, 22(3), 730. https://doi.org/10.3390/s22030730 Umair, M., Cheema, M. A., Cheema, O., Li, H., & Lu, H. (2021). Impact of COVID-19 on IoT Adoption in Healthcare, Smart Homes, Smart Buildings, Smart Cities, Transportation and Industrial IoT. Sensors, 21(11), 3838. https://doi.org/10.3390/s21113838 Wong, T., & Po-Yang Yeh. (2020). Reliable accuracy estimates from k -fold cross validation. IEEE Transactions on Knowledge and Data Engineering, 32(8), 1586-1594. https://doi.org/10.1109/TKDE.2019.2912815 Yang, J., Ai, B., You, I., Imran, M., Wang, L., Guan, K., He, D., Zhong, Z., & Keusgen, W. (2019). Ultra-Reliable Communications for Industrial Internet of Things: Design Considerations and Channel Modeling. IEEE Network, 33(4), 104–111. https://doi.org/10.1109/mnet.2019.1800455 Yang, R., Mok, R. K. P., Wu, S., Luo, X., Zou, H., & Li, W. (2022). Design and Implementation of Web-Based Speed Test Analysis Tool Kit. Passive and Active Measurement, 83–96. https://doi.org/10.1007/978-3-030-98785-5_4 Facultad de Ingeniería Ing. de Informática y de Sistemas 44 ANEXOS Facultad de Ingeniería Ing. de Informática y de Sistemas