EXAMEN TRANSVERSAL “Weather AUS” MINERÍA DE DATOS Integrantes: ● ● ● Daniel Figueroa. Juan Marquez. Maickol Moreira. Sección: 004V Docente: Aldo Martinez Órdenes Contenido Comprensión del negocio 3 Contexto 3 Propósito y Justificación del proyecto 3 Carga del Dataframe 4 Exploración de los datos 5 Transformación y tratamientos de los datos 12 Hallazgos 17 1. 2010 y 2011 los años con más precipitaciones en Australia. 17 2. El fenómeno de la niña y las bajas temperaturas durante el 2012 20 3. Análisis de Perth durante los años 2010 y 2014 23 Modelado y evaluación 27 Introducción 27 Hipótesis y modelos 28 1. ¿Se puede predecir el nivel de evaporación que tendrá el día siguiente en relación a la temperatura de la tarde? 28 Modelo regresión lineal con Statsmodels 28 Ajuste y reducción del modelo 30 Gráficos 31 Modelo de regresión lineal Scikit-learn 33 Predicción inicial 35 Conclusión de la Hipótesis 37 2. Pronóstico de la temperatura de la mañana (Temp9am) considerando las variables de humedad, presión y lluvia (mm). 39 Modelo regresión lineal con Statsmodels 39 Ajuste y reducción del modelo 42 Gráficos 43 Modelo regresión lineal con Scikit-learn 46 Predicción inicial 47 Gráficos 48 Conclusión de la Hipótesis 49 3. Existe una relación entre la dirección del viento en Perth y la capacidad de saber si al día siguiente caerán precipitaciones. 51 Árbol de decisión de la mañana. 53 Árbol de decisión de la tarde. 55 Árbol de decisión variables generales. 57 Conclusión de la Hipótesis 59 Gráficos y visualizaciones 60 Hallazgo e hipótesis 1 60 Hallazgo e hipótesis 2 61 1 | Página Hallazgo e hipótesis 3 Conclusión Bibliografía 62 63 64 2 | Página Comprensión del negocio Contexto Australia es el continente más grande y plano del mundo, con una superficie de alrededor de 7,7 millones de km2. El clima predominante es el desértico y semiárido, aunque el norte del país tiene un clima tropical y las tierras más fértiles y un clima templado se encuentran en el sureste y suroeste. La Gran Cordillera Divisoria es la principal cordillera y se extiende a lo largo de más de 3.500 km entre los estados de Queensland y Victoria. Los ríos más importantes, el Murray y el Darling, nacen en la cordillera y fluyen hacia el este para desembocar en el Océano Pacífico. El país está dividido en seis estados y dos territorios continentales, y su ciudad más poblada y capital es Sídney. Las otras ciudades importantes incluyen Melbourne, Brisbane, Perth y Adelaide. Australia tiene una gran diversidad climática y las estaciones varían de acuerdo con la latitud. La temperatura promedio oscila entre los 27°C en el norte y los 13°C en el sur, con las temperaturas máximas en el centro. Aunque Australia es el continente más seco después de la Antártida, se dan todo tipo de fenómenos naturales extremos como sequías, inundaciones, ciclones tropicales, vendavales e incendios forestales. Propósito y Justificación del proyecto El propósito principal del proyecto es la realización de un análisis y comprensión de los datos meteorológicos entregados, generando información y predicciones a través de minería de datos para obtener y localizar patrones de comportamiento de estos. También, generar un algoritmo mediante el lenguaje de programación Python y la herramienta de Jupyter notebook obteniendo representación gráfica de los datos de la generación de predicciones lo más acertadas sobre la utilidad de los datos conforme al comportamiento observado. 3 | Página Carga del Dataframe Para poder trabajar de la mejor manera con los datos climatológicos de Australia obtenidos para su análisis, usaremos en el Data Frame varias librerías y todas las columnas del Data Frame se usarán en español para la facilidad de comprensión del público. Librerías utilizadas: Pandas Para trabajar con datos estructurados como el Data frame Matplotlib.pyplot Para la creación de visualizaciones en python Numpy Para trabajar con matrices y vectores en python Scikit-Learn Es una biblioteca de Python que proporciona acceso a versiones eficaces de muchos algoritmos comunes LabelEncoder Para normalizar etiquetas y para transformar etiquetas no numéricas StandarScaler Estandarice las características eliminando la media y escalando a la varianza unitaria. Patsy Es una biblioteca de Python para poder escribir modelos estadísticos y construir matrices para el análisis de datos. Seaborn Es una biblioteca la proporciona una interfaz de alto nivel el cual sirve para poder crear gráficos atractivos e informativos. Statsmodels.sandbox Se utiliza para poder calcular los intervalos de confianza y predicción para los .regression.predstd modelos de regresión moderados por mínimos. Statistics Es una biblioteca que proporciona funciones para el cálculo de estadísticas básicas. Scikit-Learn Es una biblioteca de Python que proporciona acceso a versiones eficaces de muchos algoritmos comunes LabelEncoder Para normalizar etiquetas y para transformar etiquetas no numéricas StandarScaler Estandarice las características eliminando la media y escalando a la varianza unitaria. 4 | Página Exploración de los datos Ya cargado el Data Frame podemos identificar con cuantos datos estamos trabajando, las columnas, los tipos de variables y descubrir la mejor manera de trabajar con esto. A Través, del siguiente análisis podemos descubrir que el Data Frame contiene 24 columnas, cada una de ellas contiene 142.193 datos . De los cuales podemos visualizar las columnas/variables, que contiene cada una de ellas y cuál es su tipo de dato. 5 | Página 6 | Página Al necesitar saber con cuantos años se estaba trabajando y la cantidad de datos que contenía cada año. Ejecutamos los siguientes comandos Después de saber con cuantos años estamos trabajando, necesitábamos saber dos cosas, las localidades que se encontraban en el Data Frame y las diferentes estaciones que hay en Australia. Dando las siguientes Localizaciones y Estaciones: - Al visualizar el código nos damos cuenta que hay 49 distintas localidades a estudiar. Además, del análisis de las localizaciones nos dimos cuenta de que están implicadas localidades de los 6 estados ● New South Wales / Nueva gales del sur ● Victoria ● Queensland ● South Australia / Australia Meridional ● Western Australia / Australia Occidental ● Northern Territory / Territorio del Norte 7 | Página Distribución de las estaciones: - Primavera (Septiembre y Octubre) - Verano (Noviembre - Febrero) - Otoño (Marzo y Mayo) - Invierno (Junio - Agosto) Territorio del Norte Clima tropical / 39% del territorio / Temp media 27ºC / hay dos estaciones, seca en invierno y húmeda en verano con la irrupción de lluvias monzónicas. Sureste y suroeste(der-izq): Clima templado con 4 estaciones (Tierras fértiles) Centro Clima desértico / alcanza las máximas 38ºC 8 | Página El siguiente paso de la exploración de los datos es saber cuántos nulos/datos vacíos tiene nuestro Data Frame. Encontrando un total de 316.559 valores nulos. 9 | Página Usando el método .describe() de pandas obtuvimos los cálculos correspondientes para cada columna numérica en el Data Frame original, incluyendo las no numéricas: 10 | Página Los resultados obtenidos nos permiten entender de mejor manera la información del Data Frame, simplificando el proceso de exploración. Algunos de los datos obtenidos que consideramos importantes para el análisis son: - La Columna “Ubicación” tiene 49 valores únicos. - El valor de temperatura mínima más bajo es de -8.5 mientras que el máximo es de 33.1. - El valor de temperatura máxima más bajo es de -4.8 mientras que el máximo es de 48.1. - El promedio de todas las columnas numéricas en base a los datos totales. - Los valores de DirRafaga, Dir9am, Dir3pm poseen 16 valores únicos, equivalentes a una rosa de los vientos con los 16 rumbos co-colaterales. - La desviación estándar de cada una de las columnas numéricas. - El primer y último registro por fecha del Data Frame. - La mediana de cada columna numérica. 11 | Página Transformación y tratamientos de los datos Durante el proceso de exploración de datos nos pudimos dar cuenta de que hay muchos datos nulos, años incompletos entre varios descubrimientos de nuestros datos por ende se tomó la decisión de no considerar dichos datos o variables que entorpecen el análisis de los datos de nuestro Data Frame. Por lo que se cargó un nuevo Data Frame en base al original pero sin contar con los años 2007,2008,2017 por tener más del 50% de sus datos con nulos o inexistentes a través del siguiente comando Dejando nuestro Data Frame con 8 años completos con los que trabajaremos. Después de eso saltamos a las columnas/variables que tienen más del 15% de sus datos como nulos o inexistentes, entre ellos encontramos a Sunshine con 67.816 valores nulos, Cloud3pm con 57.094 nulos y Cloud9am con 53.657 nulos. 12 | Página Al momento de revisar el tipo valor de cada columna nos podemos dar cuenta que las columnas de Pres9am y Pre3pm son Object por lo tanto tenemos que transformarlas a float para su posterior uso. Después de desestimar los valores, años y columnas innecesarias, llega el momento de tener que transformar las diversas columnas en números para su 13 | Página análisis y obtención de información de ellas. A través de directorios se cambia el valor de las columnas “LluviaHoy” y “LluviaMan” que contenían yes y no por 1 y 0 respectivamente. después, se repite el mismo proceso de generación de directorio para las siguientes columnas: DirRafaga, Dir9am y Dir3pm quedando de la siguiente forma: Al momento de terminar de transformar los valores se preparan todas las columnas para su tratamiento de nulos. 14 | Página Por último, se destaca que algunas locaciones corresponden a lugares o puntos de interés que no son ciudades como tal: - Badgerys Creek: Es un suburbio al oeste de Sídney - Dartmoor: es una localidad rural en Victoria. - Norah Head: es un faro en la costa central de Nueva Gales del Sur. - Melbourne Airport: Aeropuerto de la ciudad de melbourne - Mount Ginini: es una montaña y hay una estación meteorológica en Nueva Gales del Sur. - Norfolk Island: es una isla en el océano Pacífico. - PearceRAAF: base militar - PerthAirport: Aeropuerto de la ciudad de Perth - SydneyAirport: Aeropuerto de la ciudad de Sydney - Salmon Gums: es una localidad rural en Australia Occidental. 15 | Página - Uluru: es una formación rocosa sagrada para los pueblos aborígenes australianos, ubicada en el Territorio del Norte. - Williamtown: es una base militar de la Real Fuerza Aérea Australiana, ubicada en Nueva Gales del Sur. - NewCastel: Contiene una gran cantidad de valores nulos Después del análisis decidimos que retiraremos las localidades mencionadas por su poca relevancia en el análisis de los datos. 16 | Página Hallazgos 1. 2010 y 2011 los años con más precipitaciones en Australia. El primer hallazgo tiene relación con el fenómeno de la niña, donde se descubrió que en los años 2010 y 2011 se produjo tal fenómeno en ambos años consecutivos produciendo altas y fuertes precipitaciones, esto lo logramos corroborar mediante noticias que comentaron sobre el fenómeno de la niña en Australia. Lo interesante es que lo mencionado cuadra con los datos presentados en el Data Frame, donde se graficó el aumento en los días con precipitaciones y la cantidad de mm de lluvia durante dichos años que fueron afectados por el fenómeno de la niña y se descubre lo siguiente: 17 | Página Como se puede observar el año 2010 y 2011 se ve una gran cantidad de milímetros de agua y esto de acuerdo a lo mencionado en la noticia que se comenta que entre los años 2010 y 2012 durante 2 años seguidos australia sufre del fenómeno y esto cuadra con el gráfico, que las causas de que 2010 y 2011 sean los años con más días con lluvia y milímetros de agua a diferencia de sus otros años cercanos. Para poder obtener una observación clara se verán las ciudades de forma más específica cuáles fueron las más afectadas por estos años de lluvia. 18 | Página y observar que “nueva gales del sur” fue la más afectada por estas lluvias en los años 2010 y 2011, presentándonos gran cantidad de ciudades que tuvieron lluvias en los años ya dichos. 19 | Página 2. El fenómeno de la niña y las bajas temperaturas durante el 2012 El segundo hallazgo mantiene una relación directa con el primero ya que el fenómeno de la niña, a pesar de haber disminuido, siguió influyendo al clima del país durante el año 2012, pero a diferencia de los años anteriores, el total de lluvia en mm que se registró fue menor y el promedio de las temperaturas fue el más bajo hasta la fecha. Con estos hechos comenzamos la exploración para entender la correlación entre las variables: 20 | Página Se identificó una abrupta caída en la cantidad de lluvia (mm) en comparación con los años anteriores, Además el promedio de humedad registrada durante el 2012 fue menor, pero no el más bajo que se tenga registro: 21 | Página Se observa una relación entre las bajas temperaturas registradas durante el 2012 y la disminución del promedio de humedad y la cantidad total de lluvia que se registró en mm, aunque también se observó un aumento en la presión. Esto se valida con el fenómeno de la niña que sufrió Australia durante ese mismo año, siendo en este caso un anomalía negativa que provocó las bajas temperaturas, tal como se logró apreciar en los antecedentes. 22 | Página 3. Análisis de Perth durante los años 2010 y 2014 Para el último hallazgo se estudió en la ciudad de Perth durante los años 2010 y 2014. Para ver como la dirección del viento afecta a las lluvias ocurridas en dicha ciudad. Para ello filtramos un Data Frame con la ubicación de Perth y se filtraron dos Data Frame uno para el año 2010 y 2014 para facilitar el análisis de estos. Al revisar la cantidad de días con la dirección del viento durante la mañana en el año 2010, nos podemos percatar que hay una gran mayoría de días que el viento se dirigió en dirección este hasta Sur oeste pero al momento de compararlo con los días que llovieron podemos identificar que los porcentajes de días con más lluvias fue cuando el viento se acercaba más hacia el norte. 23 | Página Días Totales con vientos Días con lluvias y sus vientos Al visualizar dicha información en gráficos de barras para poder entender de forma más clara la cantidad de días con vientos y cuantos días al año llueven con dicha dirección de viento. 24 | Página Al analizar el gráfico podemos observar que aunque son menos la cantidad de días que los vientos van en dirección N tienen un mayor porcentaje lluvias en comparación con otras direcciones de vientos, alcanzando un 70% de días con precipitaciones con vientos nortes. Al revisar el año 2014 que fue un año sin el fenómeno de la niña podemos observar que se mantiene el mismo hallazgo y se diferencian solo por una disminución significativa de los vientos en dirección Este. Días Totales con vientos Días con lluvias y sus vientos Volvemos a analizar dicha información con los gráficos de barras. Pero con los datos del año 2014 siendo el año que no presenta fenómenos atmosféricos. 25 | Página Al analizar el gráfico podemos observar que la cantidad de vientos es más pareja que en comparación del año 2010 pero al analizar podemos observar que sigue siendo el viento con dirección norte el que contiene el mayor porcentaje de días lluviosos en dicha dirección. 26 | Página Modelado y evaluación Introducción El Aprendizaje automático, o mayormente conocido como “Machine learning”, es un conjunto de algoritmos y herramientas que nos permiten crear modelos que aprenden automáticamente a partir de los datos e información entregada, con el fin de apoyar en la toma de decisiones. En esta segunda entrega se abordará un aprendizaje supervisado, con la implementación de los modelos de regresión y clasificación que nos ayudarán en las predicciones correspondientes. En la entrega anterior, concluimos con la etapa de “preparación de los datos”, donde se llevó a cabo la transformación,limpieza y el tratamiento de los mismos. Estas acciones tuvieron como objetivo obtener un conjunto de datos final que será utilizado como dataframe base en las siguientes etapas del proyecto, Modelado y Evaluación. En esta primera etapa de Modelado se seleccionan y aplican las técnicas de modelado y algoritmos que sean pertinentes para los objetivos del proyecto, siendo implementados los modelos de regresión y de clasificación. En la siguiente etapa de Evaluación se analizan los modelos construidos y sus resultados para determinar su calidad y capacidad para cumplir con los criterios de éxito definidos con anterioridad en el proyecto. 27 | Página Hipótesis y modelos 1. ¿Se puede predecir el nivel de evaporación que tendrá el día siguiente en relación a la temperatura de la tarde? Modelo regresión lineal con Statsmodels Para desarrollar los primeros modelos tomamos nuestra variable independiente la cual es Temp3pm o temperatura de la tarde la que será nuestra X y como variable dependiente tomaremos la Evaporación que será nuestra Y, con estas variables seleccionadas se procede al desarrollo del modelo. en la cual abordaremos todos los años para ver si podemos ver diferencia de los datos a diferencia de los años. Observamos que los datos tienen una relación y que la temperatura de la tarde si afecta al nivel de evaporación, pero para poder tener un análisis y una predicción más acertada de que si el día siguiente habrá un aumento de evaporación tomaremos una localidad y año en específico. 28 | Página Para la realización de estos modelos se utilizó el año 2010 en la localidad de Perth, donde se registró a Perth como una ciudad con pocas lluvias pero con un alza en la evaporación. Al realizar este acercamiento, podemos obtener de forma más clara los valores que se nos entregarán al momento de realizar un análisis de acuerdo al comportamiento que tienen los datos de la evaporación en relación a la temperatura. utilizamos el programa de jupyter para obtener los valores de predicción que necesitamos. 29 | Página El modelo de dispersión nos muestra como el aumento de la temperatura de la tarde afecta en el aumento de la Evaporación, ya que a mayor temperatura, se acerca más a la temperatura de ebullición. Aun así se debe ver si nuestro modelo está ajustado de forma adecuada y para ello usamos el modelo de regresión OLS, el cual nos entregará información más detallada de las variables estudiadas. Ajuste y reducción del modelo 30 | Página El resultado de la regresión nos entrega un R2 de un 0.64, el cual nos presenta que nuestro modelo de dispersión se ajusta al 64% de los datos entregados para su análisis en la variable dependiente. Coeficiente: Cuenta con un término de coeficiente donde si Temp3pm(X) aumenta una unidad entonces evaporación(Y) aumentará un 0.4830 milimetros. Luego de ello obtenemos un modelo de pronóstico utilizando statsmodels, para obtener de forma clara y visual del valor pronosticado. Con esto poder evaluar cuál es la precisión que tiene el modelo. Gráficos Luego de obtener el modelo de pronósticos y saber cual es la precisión que tiene nuestro modelos de dispersión, se procede a obtener el modelo residual para tener una imagen más clara de cuál es la diferencia entre los valores predictivos y los valores observados. 31 | Página Para poder corroborar los datos obtenidos en el modelo de dispersión se utiliza la función “resultado.predict()” el cual nos entregará un array con los valores de predicción en base a la Hum3pm(X), entregándonos las predicciones o inferencias del modelo, la cual sería 32 | Página Modelo de regresión lineal Scikit-learn El modelo de regresión se utiliza para describir y modelar la relación entre variable dependiente y una o más independientes. Como objetivo principal es el de poder predecir o estimar el valor de las variables dependientes en función de los valores de las variables independientes. Con la introducción presentada se utilizan las mismas variables para los gráficos de regresión, el cual para ello se deben extraer las variables a utilizar en el data frame y tener que definirlas como “variable_X” y “variable_Y” . Luego de ello obtenemos el coeficiente del modelo el cual nos presenta lo siguiente. Con los coeficientes obtenidos se prosigue en realizar el modelo de ecuación de regresión. 33 | Página Observando el gráfico anterior, es posible ver varios puntos alejados de la ecuación de la recta de regresión; explicando el valor que se obtuvo en R^2 Ahora se obtiene el valor de predicción de nuestro modelo versus el valor real, el cual nos entrega los siguientes resultados: Como se observa el valor real es de un 9.0 y el valor de nuestro modelo de predicción es de un 7.3, lo cual demuestra que el valor de nuestro modelo es muy cercano al real, aproximadamente un 1.7 de diferencia, por ello el modelo presenta una alta precisión de acuerdo a sus valores. Luego se realizan las siguientes mejoras del modelo usando librerías, las cuales nos permiten tener los valores necesarios para el análisis, el cual nos presenta los siguientes datos. 34 | Página Predicción inicial Gracias al código donde se creó, entrenó y validó el modelo, ajustándose para que se puedan obtener los siguientes resultados. Los valores obtenidos fueron favorables a diferencia del modelo de prueba, presentándose una mejora en el score del modelo y en el coeficiente de determinación, pasando de ser negativo a positivo. Gracias a los resultados se procede a la obtención del modelo de ecuación de regresión. 35 | Página En el cual se observa una pendiente positiva, indicando la relación directamente proporcional, está pendiente resulta ser semi-pronunciada indicando que hay una buena relación entre las variables con puntos de datos no tan dispersos, indicando cuales son los errores presentes en los datos. Por último quedaría el comparar los 2 modelos, el modelo de entrenamiento con el modelo de validación, el cual se representará de la siguiente manera. 36 | Página Conclusión de la Hipótesis Análisis de los modelo de regresión lineal: - R-cuadrado (R-squared): El resultado que se obtuvo fue del 0,64 lo que conlleva a que hay aproximadamente un 64% de variación en la evaporación. - Coeficientes: El valor obtenido del coeficiente de la temperatura de la tarde es de un 0.4830, lo que afirma la relación que hay entre las variables ya que por cada unidad de temperatura de la tarde aumente, un 0.4830 milimetros de evaporación aumenta. - Score de los modelos: Estos datos obtenidos nos explica que el modelo se explica un 66% y 67% de variación que tiene el nivel de evaporación, demostrando la precisión del modelo. - Resultados del modelo predictivo: Tomando un datos cualquiera de la variable X, evaluando la diferencia que existe entre los datos reales y los datos de predicción hecha por el modelo con una diferencia de 1.7 puntos con los valores reales Como conclusión final del modelo, se pudo concluir de que la temperatura de la tarde afecta directamente con el nivel de evaporación en el aire, por ende al haber una mayor temperatura hay una alza en la evaporación(mm). 37 | Página 2. Pronóstico de la temperatura de la mañana (Temp9am) considerando las variables de humedad, presión y lluvia (mm). 38 | Página Para esta hipótesis se consideraron solo los datos del año 2012 y tomando en cuenta una ubicación por región, con el fin de identificar un modelo que nos ayude a pronosticar la temperatura del proximo dia: Ubicación Región Alice Springs Territorio del norte Ballarat Victoria Hobart Tasmania Perth Australia occidental Sydney Nueva gales del sur Townsville Queensland Woomera Australia meridional Modelo regresión lineal con Statsmodels Con la hipótesis definida, pasamos a la siguiente etapa que consiste en analizar y validar la relación que tienen las variables. Para ello establecemos la temperatura durante la mañana (Temp9am) como variable dependiente (Y), y como variable independiente(X) se evaluará la humedad y presión registrada durante la mañana (hum9am y pres9am) junto con la cantidad de lluvia en mm que cayó durante el día de cada ciudad . Regresión de mínimos cuadrados ordinarios (OLS) 39 | Página 40 | Página Creación de Matrices Como primer paso para la regresión de mínimos cuadrados ordinarios, se utiliza el módulo patsy para preparar las matrices de diseño que serán usados en el ajuste y reducción del modelo de cada ciudad analizada en esta hipótesis, para ello se evaluaron los resultados uno a uno, comenzando con la ciudad de Perth Modelo con los datos de Perth 41 | Página Ajuste y reducción del modelo R-Squared: refleja el ajuste del modelo. Los valores R-cuadrado varían de 0 a 1, donde un valor más alto generalmente indica un mejor ajuste, suponiendo que se cumplan ciertas condiciones. En este caso las ciudades de Alice Springs, Perth y Woomera tienen mayor precisión del modelo, y explican de mejor manera la variabilidad de la temperatura durante la mañana. 42 | Página Coeficiente: Indica el cambio en Y para un cambio de unidad en X. Cada Coeficiente enumerado representa a las variables independientes utilizadas en el modelo, siendo la humedad, la presión y la lluvia en mm respectivamente. Cuando X aumenta en 1 unidad, la temperatura aumenta o disminuye (relación directa o inversa) según el valor de cada Coeficiente. Error estándar: Un valor más bajo indica mayor precisión en la estimación, y un valor más alto indica variabilidad en comparación con el valor real. Gráficos Color de las variables graficadas Temperatura 9am/ Humedad 9am Presión 9am Lluvia (mm) 43 | Página 44 | Página Se traza la regresión parcial de la variable independiente en el modelo de regresión lineal para visualizar la relación entre los datos y los resultados del modelo de regresión OLS de cada ciudad. Podemos corroborar visualmente los datos obtenidos en el modelo de regresión lineal ajustado con la función .predict(), la cual devuelve un array con los valores de predicción en base a la variable independiente ‘X’ Modelo regresión lineal con Scikit-learn Se cargar un Data Frame con los valores de las variables dependientes e independientes en una nueva matriz para la implementación del modelo de regresión lineal que nos ayudará para establecer las primeras predicciones: 45 | Página Con lo anterior se divide el ser de datos en dos subconjuntos, el de entrenamiento y el de validación: Predicción inicial Utilizando los conjuntos de entrenamiento creados, se ajusta el modelo para así obtener las predicciones con ellos. Una vez almacenadas se calcula el coeficiente del modelo, lo mismo con el error cuadrático medio (MSE) entre las predicciones. Finalmente se calcula e imprime el coeficiente de determinación entre las predicciones y los valores reales, una medida 46 | Página que indica cuánta variabilidad de Y puede ser explicada por el modelo. Con este score podemos decir que el modelo explica el 69% de la variabilidad de Y (variable dependiente). Ejecutamos una predicción tomando un valor del set de datos original y el índice que identifica al valor real: Gráficos Visualizamos la línea de la ecuación de regresión del modelo en un gráfico 3D ya que se utilizaron 3 variables independientes para evaluar la variabilidad de la variable Y. 47 | Página Conclusión de la Hipótesis Con los modelos de regresión implementados y los resultados analizados, podemos concluir: - Se puede predecir de manera eficaz la temperatura registrada durante la mañana de las ciudades de Alice Springs, Perth y Woomera utilizando el modelo de regresión implementado, ya que estas poseen un R-Squared mayor al resto de ciudades analizadas durante el mismo periodo. Sustento predictivo: 48 | Página Análisis de los modelo de regresión lineal: - R-cuadrado (R-squared): El modelo de regresión implementado se ajusta a los datos utilizados de manera eficaz. cuatro de las siete ciudades poseen un coeficiente de determinación mayor a 0,50, y además podemos decir que al menos en tres de estas ciudades tenemos el ajuste esperado para explicar la variabilidad de la temperatura a las 9 am - Coeficientes: Ubicación Coe 1 std err 1 Coe 2 std err 2 Coe 3 std err 3 Alice Springs -0,13 0,012 -0,97 0,033 0,006 0,077 Ballarat -0,022 0,012 -0,12 0,027 0,075 0,044 Hobart -0,14 0,016 -0,039 0,025 -0,069 0,058 Perth -0,14 0,010 -0,46 0,026 -0,18 0,039 Sydney 0,012 0,016 -0,31 0,036 -0,023 0,023 49 | Página Ubicación - Coe 1 std err 1 Coe 2 std err 2 Coe 3 std err 3 Alice Springs -0,13 0,012 -0,97 0,033 0,006 0,077 Ballarat -0,022 0,012 -0,12 0,027 0,075 0,044 Townsville -0,052 0,012 -0,63 0,036 -0,047 0,010 Woomera 0,010 -0,45 0,031 0,078 0,104 -0,14 Resultados del modelo predictivo: tomando datos al azar se evaluó la diferencia entre los datos reales y la predicción hecha con el modelo, donde se observó que los resultados para las ciudades con una presión atmosférica más estable durante la mañana tienen mayor precisión.Pero cuando estas registran mayor variabilidad, como es el caso de Hobart, Sydney y Townsville, el modelo no logra ser tan preciso para pronosticar la temperatura al dia siguiente. 3. Existe una relación entre la dirección del viento en Perth y la capacidad de saber si al día siguiente caerán precipitaciones. Para generar este análisis nos centraremos en el año 2012, seleccionaremos las variables que más coincidan en las precipitaciones del día siguiente a través de la tabla de correlación de variables. Para poder generar esta tabla se debe de crear 50 | Página un DataFrame que contiene solo datos de la ciudad de Perth y del año 2012, a través del Data Frame usado en la experiencia anterior: Para continuar procederemos a crear la tabla de correlación de variables. Como podemos observar las variables que afectan a la caída de precipitaciones para el día siguiente son: 51 | Página Variables de la tarde: - Vel3pm - Hum3pm - Dir3pm Variables de la mañana: - Vel9am - Hum9am - Dir9am Variables generales: - LluviaHoy - Lluvia - VelRafaga (No se usará la variable Risk_MM puesto que, generando error en la carga de los datos del árbol de decisiones) Al tener nuestras variables para los tres árboles de decisión de clasificación podemos empezar a crear los modelos de clasificación. Árbol de decisión de la mañana. Partimos definiendo nuestras variables independientes y dependientes con las variables ya obtenidas de la mañana: Después proseguimos separando las variables en prueba y entrenamiento. 52 | Página Como podemos observar el modelo nos muestra que con dichas variables representan el 79% de los datos, pero al momento de entrenar el modelo con sklearn nos muestra que a través del entrenamiento se nos da una precisión del 85% por ende a través del modelo podemos ver que dichas variables son bastante acertadas teniendo solo un 6% de error en comparación con los datos reales. Al tener los datos ya cargados y entrenados vamos a ver como quedaría el árbol de decisiones de clasificación con una profundidad de 4 ramificaciones como máximo. 53 | Página Como se logra observar en todas las casillas finales en naranja dan como resultado de todas, lo que significa que hay probabilidad de lluvia al día siguiente, Pero cuando no, Podemos suponer que las variables de las 9am tienen muchos cambios durante el día afectando así la posibilidad de que llueva al día siguiente. Árbol de decisión de la tarde. Para el siguiente árbol se tomarán las variables de Vel3pm (Velocidad del tiempo a las 3 de la tarde), Hum3pm (Humedad durante las 3 pm) y Dir3pm (Dirección del viento a las 3 pm). Se carga el mismo modelo que el anterior pero se cambiarán las variables antes mencionadas. Carga de las variables independiente y dependiente. Ahora separamos los valores de pruebas y validación. 54 | Página Como se puede observar en la imagen el modelo que contiene las variables de las 3 pm cuentan con un valor de entrenamiento de 0.861 y un valor real de 0.865 esto quiere decir que los valores tanto de entrenamiento como los valores reales son casi idénticos, generando un modelo más preciso en comparación con las variables de la mañana. Procedemos a generar el árbol de decisiones 55 | Página Al observar este modelo podemos identificar un patrón continuo entre sus variables y habiendo una correlación más acertada entre ellas y sus ramificaciones. Además, del aumento de días con posibles precipitaciones en comparación con el modelo anterior. Árbol de decisión variables generales. Para este último análisis vamos a ver las variables de LluviaHoy (Variable que indica si llueve el día de hoy o no), Lluvia (mm de lluvia caída durante el día) y VelRafaga (Velociadad de las rafaga durante el día). Cargamos las variables independiente y dependiente Se generar las variables de validación y de entrenamiento 56 | Página Vemos que este modelo entrega una validación del 76% de los datos de que lloverá mañana se pueden llegar a identificar con este modelo y las variables entrenadas arrojan un 84% de acierto en comparación con los datos reales que solo son un 76%. 57 | Página Generamos el árbol de decisión. Cómo se logra observar en las ramificaciones menos seguridad de los datos en comparación con los dos modelos anteriores que tenían un porcentaje más alto de acierto que el modelo actual. Conclusión de la Hipótesis Se puede concluir que si se puede pronosticar las lluvias del día siguiente en la ciudad de Perth con los datos obtenidos y las mejores 3 variables para esto serían Vel3pm, Hum3pm y Dir3pm puesto que presentan un mayor porcentaje de acierto tanto en los datos reales como en el modelo entrenado, ayudando y entregando información más precisa. 58 | Página 59 | Página Gráficos y visualizaciones Hallazgo e hipótesis 1 60 | Página Hallazgo e hipótesis 2 61 | Página Hallazgo e hipótesis 3 62 | Página Conclusión A través del análisis detallado de datos históricos y el uso de técnicas de machine learning como los modelos de regresión lineal (OLS y Sklearn) y los árboles de decisión de clasificación, descubrimos que factores como la temperatura, la presión atmosférica y los patrones de viento desempeñan un papel crucial en la predicción del clima australiano. Además fue posible identificar patrones recurrentes en los datos climatológicos que nos permitieron dar con los hallazgos e hipótesis que consideramos más relevantes para validar. Los resultados obtenidos a partir de la aplicación de estos modelos predictivos muestran un alto grado de concordancia con los datos reales, lo que respalda la validez y la eficacia del enfoque utilizado. Estas predicciones precisas y confiables pueden ser de gran utilidad para diversas industrias y sectores, como la agricultura, la aviación y el turismo, que dependen en gran medida de la información meteorológica precisa para la toma de decisiones. No obstante, es importante tener en cuenta que la predicción del tiempo atmosférico sigue siendo un desafío complejo debido a la naturaleza dinámica y cambiante de los sistemas climáticos. Aunque el informe logra proporcionar un marco sólido para predecir el clima en Australia, se recomienda continuar investigando y refinando los modelos utilizados, así como incorporar nuevos datos y técnicas emergentes para mejorar aún más la precisión de las predicciones. En resumen, el informe realizado demuestra un enfoque prometedor y efectivo para predecir el tiempo atmosférico en Australia. Sus hallazgos respaldan la importancia de considerar múltiples factores climáticos y utilizar técnicas avanzadas de modelado. A medida que se siga investigando en esta área y se refinen los métodos utilizados, se espera que las predicciones meteorológicas sean cada vez más precisas y valiosas para la sociedad y la toma de decisiones basadas en el clima. 63 | Página Bibliografía Contexto WheatherAUS: Caso semestral - DuocUC 2023 Estaciones de Australia https://studiaglobaledu.com/clima-en-australia/ https://australiayotraspasiones.com/clima-en-australia/ https://dingoos.com/clima-de-australia/ NOTICIA SOBRE EL FENÓMENO DE LA NIÑA EN 2010 Y 2011 Australia declara la aparición del fenómeno La Niña por segundo año seguido (elperiodico.com) http://www.ideam.gov.co/documents/21021/418818/An%C3%A1lisis+Impacto+La+ Ni%C3%B1a.pdf/640a4a18-4a2a-4a25-b7d5-b3768e0a768a https://www.swissinfo.ch/spa/australia-clima_australia-declara-laaparici%C3%B3n-del-fen%C3%B3meno-la-ni%C3%B1a-por-segundoa%C3%B1o-seguido/47132852 Información de OLS : Cómo funciona la regresión OLS—ArcGIS Pro | Documentación Interpretación de los resultados de la regresión lineal mediante OLS Resumen – Barcelona Geeks 64 | Página 65 | Página
Puede agregar este documento a su colección de estudio (s)
Iniciar sesión Disponible sólo para usuarios autorizadosPuede agregar este documento a su lista guardada
Iniciar sesión Disponible sólo para usuarios autorizados(Para quejas, use otra forma )