Subido por Guido Ortiz de Zarate

Bases de datos

Anuncio
Clase 02. Data Analytics
Bases de datos
EN ZOOM COLOCAR LAS INICIALES DE
SUS TUTORES – CV, ER, FA, JM, LG ANTES DE SUS NOMBRES ASI:
[xx] Nombre Apellido
El nombre tal como figura en la plataforma
OBJETIVOS DE LA CLASE
● Conocer qué es una base de datos y
sus generalidades.
● Identificar los componentes de una
base de datos.
● Identificar los tipos de bases de datos.
● Integrar conocimientos generales de
data warehouse.
BASES DE DATOS:
INTRODUCCIÓN
Los temas que veremos en esta clase son
introductorios.
En nuestro módulo de base de datos
relacionales profundizaremos en los más
importantes.
¿QUÉ ES UNA BASE DE DATOS?
Un conjunto de datos
almacenados en un formato
específico e interrelacionados
por un contexto en común
COMPONENTES DE UNA BASE DE DATOS
INFORMACIÓN
La información se obtiene de
la base de datos, está
integrada y además es
compartida.
SGBD
Sistema de gestión de base
de datos (DBMS por sus
siglas en inglés). Ej: Oracle,
MySQL, SQLServer, Access,
entre otros.
USUARIOS
Aplicaciones y Personas que
interactúan con la BD
HARDWARE
- Almacenamiento secundario.
- Procesadores, memoria, etc.
SGBD: Sistemas de gestión de bases de datos
Aplicaciones que han sido
diseñadas para gestionar
grandes cantidades de
información.
¡Nosotros usaremos este!
La gestión de los datos
implica tanto la definición de
estructuras para almacenar
la información como la
provisión de mecanismos
para la manipulación de la
información.
Características de un SGBD
Recuperación
Capacidad de proteger los datos ante
fallos en el sistema o en las
aplicaciones.
Integridad
Se refiere a la correctitud y completitud
de la información en una base de
datos.
Concurrencia
Permiten que muchas transacciones
puedan acceder a una misma base de
datos a la vez.
Seguridad
Es la protección de la base de datos
frente a usuarios no autorizados
MODELO DE BASE DE DATOS
Concepto
Un modelo de base de datos
permite
generar
la
estructura lógica de la
base,
incluidas
las
relaciones y limitaciones
que determinan cómo se
almacenan los datos y cómo
se accede a ellos.
TIPOS DE MODELO DE BASE DE DATOS
Relacional
Colección de tablas para representar
tanto los datos como sus relaciones
Entidad - Relación
Percepción del mundo real que
consiste en una colección de objetos
básicos, denominados entidades, y de
las relaciones entre ellos
¡Nosotros usaremos estos!
Orientado a objetos
La información se representa
mediante objetos como los presentes
en la programación orientada a
objetos.
No Relacional
No tienen un identificador que sirva
de relación entre un conjunto de datos
y otros
Relacional
No Relacional
Jerárquico
Los datos son organizados en
una estructura parecida a un
árbol
Red
Set de registros, los cuales están
conectados entre sí por medio de
enlaces en una red
MODELADO DE BASE DE DATOS
Concepto
Permite
definir
la
estructura
y
comunicarse con una base de datos.
Típicamente permite describir:
Estructuras de datos
Las estructuras de datos de la base: el tipo
de datos que hay en la base y la forma en
que se relacionan.
Restricciones de integridad
Las restricciones de integridad: Un
conjunto de condiciones que deben
cumplir los datos para reflejar la realidad
deseada.
Operaciones de manipulación
Operaciones de manipulación de los
datos: generalmente, operaciones de
agregado, borrado, modificación y
recuperación de los datos de la base.
LENGUAJES DE CONSULTAS ESTRUCTURADAS
Lenguaje de consultas estructuradas
Los
sistemas
de
gestión
proporcionan un lenguaje de
definición para especificar el
esquema de la base de datos y
un lenguaje de manipulación
para expresar las consultas y las
modificaciones de la base.
Structured Query Language
Sublenguajes del SQL
Data Definition
Language: Permite
crear, modificar y eliminar
estructuras.
Data Control Language:
Permite asignar y modificar
permisos.
DDL
DML
DCL
TCL
Data Manipulation
Language: Permite
modificar el contenido.
Transaction Control
Language: Permite
gestionar transacciones.
DATA WAREHOUSE
DATA LAKE
Data Warehouse
Permite a una organización o
empresa
ejecutar
análisis
potentes en grandes volúmenes
(petabytes y petabytes) de datos
históricos de formas que una base
de datos estándar simplemente no
puede.
Data Warehouse vs Data Lake
☕
BREAK
¡5/10 MINUTOS Y VOLVEMOS!
BASE DE DATOS EN UNA PLATAFORMA DE
STREAMING
Identificarás los componentes de una base de datos de un servicio de streaming
cualquiera (Netflix, Spotify, Youtube…)
Tiempo: 40 minutos
Las bases de datos están en todos lados
Los servicios de streaming en la actualidad contienen y registran millones de datos, uniendo a
usuarios con diferentes contenidos.
1. Elegir un servicio de streaming cualquiera y tratar de imaginar cómo es la base de datos
que la sostiene:
- Identificar qué datos son necesarios.
- Identificar tablas en las que se almacenarían esos datos.
- Imaginar cómo se vincularían dichas tablas.
2. Durante 15 minutos te reunirás con tu equipo para desarrollar el desafío, y luego de esto
haremos una puesta en común para debatir con el resto de la clase.
¡PARA PENSAR!
CONTESTA LAS ENCUESTAS DE ZOOM
3
DEFINICIÓN DE LA FUENTE DE INFORMACIÓN
Seleccionar la base de datos que usaremos en el Proyecto Final.
El trabajo en equipo nos permite conocer diferentes fuentes de información. Si tu
equipo cuenta con un set de datos y tú no ¡es momento de aprender de una nueva
temática!
DEFINICIÓN DE LA FUENTE DE INFORMACIÓN
Formato: Base de datos almacenada en formato de archivo plano (xls, csv, txt).
>> Consigna:
●
●
Presentar (máximo) tres sets de datos que puedan ser usados como fuente de información
para sus proyectos finales.
IMPORTANTE: La información será accedida por todo el equipo, así como sus tutores y
profesor. Evitar utilizar datos sensibles.
>> Recomendaciones:
●
●
Una forma correcta de seleccionar un set de datos es pensar en alguna iniciativa o proyecto
personal, laboral o de estudio en el que necesites analizar datos y medir información
relevante. Por ejemplo, la información recolectada para un proyecto de tesis, o el histórico
de ventas vs presupuesto de un emprendimiento.
Lo ideal es que los archivos que serán su fuente de información estén relacionados con las
temáticas definidas en la clase uno, pero no es obligatorio. En esta instancia los cambios de
temáticas aún son bienvenidos.
DEFINICIÓN DE LA FUENTE DE INFORMACIÓN
Formato: Base de datos almacenada en formato de archivo plano (xls, csv, txt).
>>Aspectos a incluir en el entregable:
● Cada set de datos debe contener al menos diez columnas con datos. Si contiene
varias hojas también es aceptado.
>>Ejemplo:
● Si no cuentan con un set de datos, propio o conocido, algunas bases de datos
públicas:
http://data.europa.eu/euodp/en/data/
https://data.buenosaires.gob.ar/
https://data.europa.eu/euodp/es/data/
https://data.iadb.org/
https://data.worldbank.org/
https://datasetsearch.research.google.com/
https://datos.gob.ar/
https://datos.gob.es/es/catalogo
https://nces.ed.gov/
https://sisa.msal.gov.ar/datos/descargas/covid-19/files/Covid19Casos.zip
https://www.aeaweb.org/resources/data/us-macro-regional
https://www.data.gov/
https://www.dataquest.io/blog/free-datasets-for-projects/
https://www.imf.org/en/Data
https://www.kaggle.com/datasets
https://www.ncdc.noaa.gov/cdo-web/datatools/lcd
BONUS: GUÍA PARA SELECCIONAR LA
FUENTE DE INFORMACIÓN
Mientras busquen un set de datos para explorar, es importante que se
hagan las siguientes preguntas:
1) ¿Es este un tema que nos interesa?
No elijan un set de datos de forma indiferente. Busquen uno que realmente
les atraiga para crear algo interesante. Por ejemplo, si tienen interés en el
deporte, busquen datos que les permitan identificar ideas sobre Mundiales,
Olimpiadas, etc.
2) ¿Este set de datos nos permitirá realizar visualizaciones claras sin
tener que transformar de manera significativa los datos?
Deben asegurarse de que el conjunto de datos esté listo para su análisis.
De lo contrario, requerirá una gran inversión de tiempo en la limpieza de
datos
antes de que puedan realizar cualquier análisis.
3) ¿Los datos están en forma numérica?
El set de datos que elijan puede incluir una combinación de datos
categóricos (no numéricos), pero también debe tener datos numéricos.
Luego utilizaremos estadísticas para analizarlos. Pueden tomar como
parámetro los sets brindados en la consigna para comparar.
4) ¿Cuál es el nivel de complejidad?
No es recomendable elegir un set de datos demasiado complejo para el
análisis. Tengan en cuenta que luego deberán presentar la información de
manera convincente. Si parece demasiado difícil de explicar e interpretar,
puede ser recomendable buscar otra alternativa.
También consideren que no sea un set con información sensible.
Les recomendamos realizarse estas preguntas previo a
seleccionar su set de datos. También pueden seleccionar más
de una alternativa, para quedarse con la mejor.
¿QUIERES SABER MÁS? TE DEJAMOS
MATERIAL AMPLIADO DE LA CLASE
● Youtube : Historia de las bases de datos |
CodeTuts
● Artículo & E-book: ¿Que es un Data Warehouse?
| IBM
¡PARA RECORDAR!
Para la próxima clase deberás tener instalada la aplicación
Microsoft SQL Server Express. En la carpeta de la
camada encontrarás un instructivo de instalación.
¿PREGUNTAS?
¡MUCHAS GRACIAS!
Resumen de lo visto en clase hoy:
- Bases de datos.
- Tipos de modelos de datos.
- Modelado de datos.
OPINA Y VALORA ESTA CLASE
#DEMOCRATIZANDOLAEDUCACIÓN
Descargar