Subido por Wos CLB

Apuntes de Ciencia de Datos: Conceptos Clave

Anuncio
🧠
Ciencia de Datos ~ Conceptos
Review Date
@15 de enero de 2025 15:30
Tema
Ética Profecional en la computación y la programación
Ciencia de Datos
Definicion
Es un campo interdisciplinario (estadistica, programación y matematicas)
que utiliza métodos, procesos, algoritmos y sistemas para extraer
conocimiento e información útil de datos estructurados y no estructurados
para abordar temas complejos en diversos dominios.
¿Para que Sirve?
Para tomar mejores deciciones utilizando conocmientos, patrones y
modelos algoritmicos. Tambien para resolver problemas al interpretar lo
que los datos nos dicen. Es como aprovechar la información para mejorar la
forma en que vivimos y trabajamos.
¿En qué se basa la Ciencia de Datos para la toma de decisiones?
Ciencia de Datos ~ Conceptos
1
Se basa en el análisis de datos utilizando herramientas como estadísticas,
algoritmos y modelos matemáticos para identificar patrones, tendencias y
relaciones en la información. Esto permite comprender mejor una situación
y predecir lo que podría pasar
¿Es la Ciencia de Datos neutral?
No lo es completamiente, depende de los datos y las personas que la
aplican. Por que los datos pueden tener sesgos inherentes. Por ejemplo, si
un conjunto de datos excluye ciertos grupos de personas o situaciones, los
resultados estarán sesgados desde el principio.
Por otro lado, las personas que aplican la ciencia de datos influyen en el
proceso al decidir qué datos usar, cómo analizarlos y cómo interpretar los
resultados, decisiones que reflejan sus conocimientos, valores y objetivos,
así como las limitaciones de los algoritmos que diseñan.
Notas de Clase:
¿Es la Base de datos parte de la ciencia de datos?
Si, son donde se almacena y organiza la información que se analiza. La
ciencia de datos necesita bases de datos para Recolectar datos, Gestionar
datos y Acceso eficiente.
Diferencia entre BD Transaccional y BD OLTP (Online Transaction
Processing)
BD Transaccional
~ Diseñada para registrar
transacciones individuales en
tiempo real.
Altamente normalizada para
evitar redundancia y ahorrar
espacio
BD OLTP (Subcategoría de BD
Trans)
~ Enfocada en el procesamiento
eficiente de transacciones en línea.
Soporta un gran número de
usuarios concurrentes
Optimizada para operaciones
CRUD
Diseñada para entornos en
línea, donde las operaciones
deben ser rápidas y constantes.
Ejm: Una base de datos que
registra las ventas en una
tienda
Ejm: Bases de datos en
plataformas de comercio
electrónico
¿Cuándo una Base de Datos Transaccional pasa a ser OLTP?
Ciencia de Datos ~ Conceptos
2
Si requiere manejar transacciones en línea realizadas por varios
usuarios simultáneamente
las transacciones deben ser procesadas de forma inmediata, en lugar
de operaciones diferidas o en lotes.
Si la base de datos se conecta a aplicaciones o interfaces web/móviles
para procesar transacciones de manera directa y en tiempo real.
¿Como la BD OLTP se realciona con la ciencia de datos?
Es especialmente útil en análisis que requieren datos actualizados, como el
monitoreo en tiempo real o el análisis predictivo de sistemas en línea.
Ademas, son extraídos periódicamente para integrarse en sistemas
analíticos, como almacenes de datos o entornos de big data, donde se
procesan y analizan para generar insights más profundos. Tambien, son
cruciales para el modelado de conocimiento porque proporcionan los datos
en tiempo real que sirven como base para identificar patrones, construir
relaciones y generar modelos que reflejen la realidad de un sistema o
dominio
Relacion de la IA con la ciencia de datos
La ciencia de datos y la IA no son iguales, pero están conectadas. La
ciencia de datos analiza datos y extrae conocimiento, mientras que la IA
utiliza ese conocimiento para crear sistemas inteligentes capaces de tomar
decisiones y aprender.
IA con aprendizaje automatico → si es parte de la Ciencia de datos
Pero la IA general (metaheuriscticas ,etc) no lo son .
Modelo
Definicion
Es una representación matemática, estadística o computacional que se
utiliza para capturar patrones, relaciones o comportamientos en un conjunto
de datos. Para hacer predicciones, clasificaciones o interpretaciones a
partir de datos existentes.
Modelado → es el proceso de hacer un modelo
La encapsulación ayuda a empaquetar estos modelos y procesos de
análisis para que sean reutilizables, comprensibles y seguros, lo que facilita
Ciencia de Datos ~ Conceptos
3
su integración en sistemas más grandes o aplicaciones prácticas.
Ejemplos
Modelos matematicos
📝 Utilizan ecuaciones y fórmulas matemáticas para describir una
relación o fenómeno
🖱️ Predicción, optimización y simulación
Regresión lineal (estadística)
Redes Neuronales Artificiales (bioinspirados)
Máquinas de Soporte Vectorial (estadistica)
Modelos Simbolicos
📝 representan conocimientos o patrones a través de símbolos, reglas
lógicas o expresiones de alto nivel
🖱️ Tareas que requieren explicaciones claras (diagnósticos médicos o
decisiones comerciales)
Arbol de decision
Reglas de logica
Redes Semanticas
Modelos Probabilisticos
📝Basados en probabilidades e incertidumbre.
🖱️ Predicciones con datos inciertos, como análisis de riesgos o
detección de fraudes
Redes Bayesianas
Naive Bayes
Mistura de Gausiana
Modelos Lazy
📝Basados en la consulta directa de los datos en lugar de construir un
modelo explícito.
🖱️ Sistemas de recomendación, clasificación en pequeñas bases de
datos
Vecino mas cercano
Ciencia de Datos ~ Conceptos
4
Raciocinio basado en casos
¿Como se contruye un modelo?
Datos: Información relevante que se utilizará para entrenar y alimentar el
modelo.
Características (Features): Variables o atributos extraídos de los datos
que ayudarán a hacer predicciones o clasificaciones.
Algoritmo: El método matemático o estadístico que se utiliza para
aprender patrones a partir de los datos (por ejemplo, regresión, redes
neuronales, árboles de decisión).
Entrenamiento: El proceso donde el modelo ajusta sus parámetros para
aprender a partir de los datos.
Evaluación: Las métricas y técnicas utilizadas para medir qué tan bien
el modelo hace predicciones o clasificaciones.
Ajuste de hiperparámetros: Optimización de los parámetros del
algoritmo para mejorar su rendimiento.
Resultado: El modelo final que será utilizado para hacer predicciones o
tomar decisiones basadas en nuevos datos.
¿La realidad es exactamente igual al modelo? }
No, por que se pierde informacion. En si, los modelos son aproximaciones
de la realidad, por lo cual se simplifica la complejidad del mundo real
(omitiendo detalles y factores).
¿Es importante que las personas puedan entender las decisiones que
toma un modelo?
Sí, es importante que las personas puedan entender las decisiones que
toma un modelo. Esto asegura transparencia, confianza y responsabilidad
en el uso del modelo, especialmente cuando afecta decisiones importantes
en áreas como la salud, la justicia o los negocios. Además, entender el
modelo permite mejorar su rendimiento y corregir posibles sesgos o
errores
Notas de Clase:
Ciencia de Datos ~ Conceptos
5
Diferencia / S. basado en Conocimiento (KBS) y S. Apoyo a la toma de
deciciones (DSS)
KBS
DSS
~ La maquina toma la decision
~ La persona toma la decision
Utiliza conocimiento embutido,
Proporciona herramientas para
es decir, conocimiento experto
previamente codificado en el
analizar grandes volumenes de
datos y simular diferentes
sistema
escenarios
Usado para resolver problemas
Apoya al tomador de
específicos, imitando el
razonamiento de un experto
decisiones en la evaluación de
opciones mediante análisis de
humano
datos y modelos.
Resolver problemas complejos
aplicando reglas, heurísticas y
Ejm: Un sistema que ayuda a un
gerente a analizar tendencias de
experiencia especializada.
ventas y prever resultados futuros
para tomar decisiones estratégicas
Ejm: Un sistema de diagnóstico
médico
Sesgo
Definicion
Es una distorsión sistemática que afecta los datos, los modelos o las
decisiones derivadas de ellos, esto conlleva a resultados injustos,
discriminatorios o inexactos en aplicaciones reales.
¿Como ocurre?
Sesgos en la recolección de datos.
Los datos no representan de manera equitativa a toda la población o
el fenómeno que se está estudiando.
Causas: Muestra no representativa, Falta de acceso a ciertas
poblaciones y Errores humanos
Ejm: Un modelo de predicción de riesgo crediticio entrenado solo
con datos de personas urbanas podría ser sesgado, ya que no
refleja la situación de las personas rurales o de grupos marginados.
Ciencia de Datos ~ Conceptos
6
Sesgos en el procesamiento de datos.
La forma en que los datos son limpiados, transformados y
preparados antes de ser utilizados en un modelo.
Causas: Eliminación de datos relevantes, Manipulación inapropiada
de datos, Imputación de valores faltantes
Ejm: Si se omiten todos los registros de datos con valores faltantes,
se podría perder una parte importante de la población que tiene
características particulares, lo que genera sesgo en el análisis
Sesgos en el diseño del modelo.
Durante la construcción del modelo, cuando las decisiones sobre la
selección del algoritmo, la estructura del modelo y los parámetros de
entrenamiento se toman de manera que favorecen ciertos resultados o
patrones.
Causas: Selección de características sesgada, Selección de algoritmos
y Hiperparámetros
Ejm: Si se utiliza un modelo de regresión logística para predecir la
probabilidad de éxito de un grupo de personas y se seleccionan solo
variables relacionadas con el género y la edad
Sesgos en la interpretación del resultado.
Cuando los resultados obtenidos de un modelo se analizan o se
presentan de manera que favorecen una perspectiva o conclusión
particular
Causas: Confirmación de prejuicios, Descontextualización de los
resultados y Generalización indebida.
Ejm: Si un modelo predice que ciertos grupos demográficos tienen
más probabilidades de ser exitosos en una determinada tarea, pero
el analista interpreta esto como un juicio sobre la "capacidad" de
esas personas en lugar de un patrón basado en contexto, estaría
aplicando un sesgo interpretativo.
Sesgos en el uso de los resultados.
Cuando las decisiones tomadas a partir de los resultados del modelo
reflejan prejuicios o suposiciones incorrectas.
Ciencia de Datos ~ Conceptos
7
Causas: Uso indebido del modelo, Reforzamiento de sesgos
existentes, Dependencia excesiva en el modelo
Ejm: Si un modelo de crédito sigue patrones históricos que excluyen
a ciertos grupos debido a datos sesgados, y las decisiones de
crédito se basan exclusivamente en estos resultados, se perpetúa la
discriminación y se aumenta el sesgo en el sistema.
Sesgo de confirmacion
Es una tendencia psicológica que hace que las personas busquen,
interpreten y recuerden información que confirme sus creencias,
conllevando a ingnorar o desestimar informacion que las contradiga.
Ejemplos
En la investigación, los investigadores pueden favorecer la información
que apoya sus creencias y despreciar las que las cuestionan
En la atención médica, un médico puede centrarse en los síntomas que
confirmen su diagnóstico y dejar de lado otros que podrían llevarlo a un
diagnóstico más acertado.
En la comunicación, las personas pueden oír y entender lo que quieren
oír y entender.
¿Cómo se pueden identificar las fuentes de sesgo en un proyecto de
ciencia de datos?
Recolección de datos: Verificar si los datos son representativos y si hay
grupos o aspectos subrepresentados.
Procesamiento de datos: Revisar si las transformaciones, limpieza o
imputaciones eliminan información importante o introducen sesgos.
Diseño del modelo: Evaluar la selección de características, los datos de
entrenamiento y el algoritmo utilizado para evitar amplificar sesgos.
Evaluación del modelo: Analizar el rendimiento en diferentes grupos y
realizar auditorías de equidad.
Interpretación y uso de resultados: Cuestionar supuestos, validar
interpretaciones y evaluar el impacto del modelo en el mundo real.
Herramientas y enfoques adicionales
Ciencia de Datos ~ Conceptos
8
Exploración visual de datos: Utilizar gráficos y visualizaciones para
detectar patrones sospechosos, como desbalances en las clases de
datos.
Pruebas A/B y simulaciones: Comparar resultados de diferentes
versiones del modelo para identificar comportamientos sesgados.
Métodos explicativos: Herramientas como SHAP o LIME pueden ayudar
a entender cómo las características individuales afectan las decisiones
del modelo.
¿Cómo pueden los sesgos en los datos afectar a diferentes grupos de
personas, especialmente a las poblaciones vulnerables?
Perpetua desigualdades existentes o excluirlas de decisiones importantes
como negar oportunidades de empleo, acceso a crédito o servicios
esenciales. Esto refuerza la marginalización y limita el acceso equitativo a
recursos, ampliando brechas sociales y económicas. Por ello, es crucial
diseñar sistemas de ciencia de datos inclusivos y éticos que minimicen el
impacto negativo en estos grupos.
¿Quién debería ser responsable de detectar los sesgos en un modelo:
el desarrollador, la empresa o el usuario?
La responsabilidad de detectar los sesgos en un modelo es compartida:
El desarrollador debe diseñar y entrenar el modelo de forma ética,
considerando posibles sesgos desde el inicio.
La empresa debe establecer políticas, auditorías y supervisión para
garantizar la equidad en todo el proceso.
El usuario debe cuestionar y evaluar los resultados para identificar
posibles impactos negativos.
Ciencia de Datos ~ Conceptos
9
Descargar