Clase 02. Data Analytics Bases de datos EN ZOOM COLOCAR LAS INICIALES DE SUS TUTORES – CV, ER, FA, JM, LG ANTES DE SUS NOMBRES ASI: [xx] Nombre Apellido El nombre tal como figura en la plataforma OBJETIVOS DE LA CLASE ● Conocer qué es una base de datos y sus generalidades. ● Identificar los componentes de una base de datos. ● Identificar los tipos de bases de datos. ● Integrar conocimientos generales de data warehouse. BASES DE DATOS: INTRODUCCIÓN Los temas que veremos en esta clase son introductorios. En nuestro módulo de base de datos relacionales profundizaremos en los más importantes. ¿QUÉ ES UNA BASE DE DATOS? Un conjunto de datos almacenados en un formato específico e interrelacionados por un contexto en común COMPONENTES DE UNA BASE DE DATOS INFORMACIÓN La información se obtiene de la base de datos, está integrada y además es compartida. SGBD Sistema de gestión de base de datos (DBMS por sus siglas en inglés). Ej: Oracle, MySQL, SQLServer, Access, entre otros. USUARIOS Aplicaciones y Personas que interactúan con la BD HARDWARE - Almacenamiento secundario. - Procesadores, memoria, etc. SGBD: Sistemas de gestión de bases de datos Aplicaciones que han sido diseñadas para gestionar grandes cantidades de información. ¡Nosotros usaremos este! La gestión de los datos implica tanto la definición de estructuras para almacenar la información como la provisión de mecanismos para la manipulación de la información. Características de un SGBD Recuperación Capacidad de proteger los datos ante fallos en el sistema o en las aplicaciones. Integridad Se refiere a la correctitud y completitud de la información en una base de datos. Concurrencia Permiten que muchas transacciones puedan acceder a una misma base de datos a la vez. Seguridad Es la protección de la base de datos frente a usuarios no autorizados MODELO DE BASE DE DATOS Concepto Un modelo de base de datos permite generar la estructura lógica de la base, incluidas las relaciones y limitaciones que determinan cómo se almacenan los datos y cómo se accede a ellos. TIPOS DE MODELO DE BASE DE DATOS Relacional Colección de tablas para representar tanto los datos como sus relaciones Entidad - Relación Percepción del mundo real que consiste en una colección de objetos básicos, denominados entidades, y de las relaciones entre ellos ¡Nosotros usaremos estos! Orientado a objetos La información se representa mediante objetos como los presentes en la programación orientada a objetos. No Relacional No tienen un identificador que sirva de relación entre un conjunto de datos y otros Relacional No Relacional Jerárquico Los datos son organizados en una estructura parecida a un árbol Red Set de registros, los cuales están conectados entre sí por medio de enlaces en una red MODELADO DE BASE DE DATOS Concepto Permite definir la estructura y comunicarse con una base de datos. Típicamente permite describir: Estructuras de datos Las estructuras de datos de la base: el tipo de datos que hay en la base y la forma en que se relacionan. Restricciones de integridad Las restricciones de integridad: Un conjunto de condiciones que deben cumplir los datos para reflejar la realidad deseada. Operaciones de manipulación Operaciones de manipulación de los datos: generalmente, operaciones de agregado, borrado, modificación y recuperación de los datos de la base. LENGUAJES DE CONSULTAS ESTRUCTURADAS Lenguaje de consultas estructuradas Los sistemas de gestión proporcionan un lenguaje de definición para especificar el esquema de la base de datos y un lenguaje de manipulación para expresar las consultas y las modificaciones de la base. Structured Query Language Sublenguajes del SQL Data Definition Language: Permite crear, modificar y eliminar estructuras. Data Control Language: Permite asignar y modificar permisos. DDL DML DCL TCL Data Manipulation Language: Permite modificar el contenido. Transaction Control Language: Permite gestionar transacciones. DATA WAREHOUSE DATA LAKE Data Warehouse Permite a una organización o empresa ejecutar análisis potentes en grandes volúmenes (petabytes y petabytes) de datos históricos de formas que una base de datos estándar simplemente no puede. Data Warehouse vs Data Lake ☕ BREAK ¡5/10 MINUTOS Y VOLVEMOS! BASE DE DATOS EN UNA PLATAFORMA DE STREAMING Identificarás los componentes de una base de datos de un servicio de streaming cualquiera (Netflix, Spotify, Youtube…) Tiempo: 40 minutos Las bases de datos están en todos lados Los servicios de streaming en la actualidad contienen y registran millones de datos, uniendo a usuarios con diferentes contenidos. 1. Elegir un servicio de streaming cualquiera y tratar de imaginar cómo es la base de datos que la sostiene: - Identificar qué datos son necesarios. - Identificar tablas en las que se almacenarían esos datos. - Imaginar cómo se vincularían dichas tablas. 2. Durante 15 minutos te reunirás con tu equipo para desarrollar el desafío, y luego de esto haremos una puesta en común para debatir con el resto de la clase. ¡PARA PENSAR! CONTESTA LAS ENCUESTAS DE ZOOM 3 DEFINICIÓN DE LA FUENTE DE INFORMACIÓN Seleccionar la base de datos que usaremos en el Proyecto Final. El trabajo en equipo nos permite conocer diferentes fuentes de información. Si tu equipo cuenta con un set de datos y tú no ¡es momento de aprender de una nueva temática! DEFINICIÓN DE LA FUENTE DE INFORMACIÓN Formato: Base de datos almacenada en formato de archivo plano (xls, csv, txt). >> Consigna: ● ● Presentar (máximo) tres sets de datos que puedan ser usados como fuente de información para sus proyectos finales. IMPORTANTE: La información será accedida por todo el equipo, así como sus tutores y profesor. Evitar utilizar datos sensibles. >> Recomendaciones: ● ● Una forma correcta de seleccionar un set de datos es pensar en alguna iniciativa o proyecto personal, laboral o de estudio en el que necesites analizar datos y medir información relevante. Por ejemplo, la información recolectada para un proyecto de tesis, o el histórico de ventas vs presupuesto de un emprendimiento. Lo ideal es que los archivos que serán su fuente de información estén relacionados con las temáticas definidas en la clase uno, pero no es obligatorio. En esta instancia los cambios de temáticas aún son bienvenidos. DEFINICIÓN DE LA FUENTE DE INFORMACIÓN Formato: Base de datos almacenada en formato de archivo plano (xls, csv, txt). >>Aspectos a incluir en el entregable: ● Cada set de datos debe contener al menos diez columnas con datos. Si contiene varias hojas también es aceptado. >>Ejemplo: ● Si no cuentan con un set de datos, propio o conocido, algunas bases de datos públicas: http://data.europa.eu/euodp/en/data/ https://data.buenosaires.gob.ar/ https://data.europa.eu/euodp/es/data/ https://data.iadb.org/ https://data.worldbank.org/ https://datasetsearch.research.google.com/ https://datos.gob.ar/ https://datos.gob.es/es/catalogo https://nces.ed.gov/ https://sisa.msal.gov.ar/datos/descargas/covid-19/files/Covid19Casos.zip https://www.aeaweb.org/resources/data/us-macro-regional https://www.data.gov/ https://www.dataquest.io/blog/free-datasets-for-projects/ https://www.imf.org/en/Data https://www.kaggle.com/datasets https://www.ncdc.noaa.gov/cdo-web/datatools/lcd BONUS: GUÍA PARA SELECCIONAR LA FUENTE DE INFORMACIÓN Mientras busquen un set de datos para explorar, es importante que se hagan las siguientes preguntas: 1) ¿Es este un tema que nos interesa? No elijan un set de datos de forma indiferente. Busquen uno que realmente les atraiga para crear algo interesante. Por ejemplo, si tienen interés en el deporte, busquen datos que les permitan identificar ideas sobre Mundiales, Olimpiadas, etc. 2) ¿Este set de datos nos permitirá realizar visualizaciones claras sin tener que transformar de manera significativa los datos? Deben asegurarse de que el conjunto de datos esté listo para su análisis. De lo contrario, requerirá una gran inversión de tiempo en la limpieza de datos antes de que puedan realizar cualquier análisis. 3) ¿Los datos están en forma numérica? El set de datos que elijan puede incluir una combinación de datos categóricos (no numéricos), pero también debe tener datos numéricos. Luego utilizaremos estadísticas para analizarlos. Pueden tomar como parámetro los sets brindados en la consigna para comparar. 4) ¿Cuál es el nivel de complejidad? No es recomendable elegir un set de datos demasiado complejo para el análisis. Tengan en cuenta que luego deberán presentar la información de manera convincente. Si parece demasiado difícil de explicar e interpretar, puede ser recomendable buscar otra alternativa. También consideren que no sea un set con información sensible. Les recomendamos realizarse estas preguntas previo a seleccionar su set de datos. También pueden seleccionar más de una alternativa, para quedarse con la mejor. ¿QUIERES SABER MÁS? TE DEJAMOS MATERIAL AMPLIADO DE LA CLASE ● Youtube : Historia de las bases de datos | CodeTuts ● Artículo & E-book: ¿Que es un Data Warehouse? | IBM ¡PARA RECORDAR! Para la próxima clase deberás tener instalada la aplicación Microsoft SQL Server Express. En la carpeta de la camada encontrarás un instructivo de instalación. ¿PREGUNTAS? ¡MUCHAS GRACIAS! Resumen de lo visto en clase hoy: - Bases de datos. - Tipos de modelos de datos. - Modelado de datos. OPINA Y VALORA ESTA CLASE #DEMOCRATIZANDOLAEDUCACIÓN