Apuntes de Ciencia de Datos: Conceptos Clave

🧠 Ciencia de Datos ~ Conceptos Review Date @15 de enero de 2025 15:30 Tema Ética Profecional en la computación y la programación Ciencia de Datos Definicion Es un campo interdisciplinario (estadistica, programación y matematicas) que utiliza métodos, procesos, algoritmos y sistemas para extraer conocimiento e información útil de datos estructurados y no estructurados para abordar temas complejos en diversos dominios. ¿Para que Sirve? Para tomar mejores deciciones utilizando conocmientos, patrones y modelos algoritmicos. Tambien para resolver problemas al interpretar lo que los datos nos dicen. Es como aprovechar la información para mejorar la forma en que vivimos y trabajamos. ¿En qué se basa la Ciencia de Datos para la toma de decisiones? Ciencia de Datos ~ Conceptos 1 Se basa en el análisis de datos utilizando herramientas como estadísticas, algoritmos y modelos matemáticos para identificar patrones, tendencias y relaciones en la información. Esto permite comprender mejor una situación y predecir lo que podría pasar ¿Es la Ciencia de Datos neutral? No lo es completamiente, depende de los datos y las personas que la aplican. Por que los datos pueden tener sesgos inherentes. Por ejemplo, si un conjunto de datos excluye ciertos grupos de personas o situaciones, los resultados estarán sesgados desde el principio. Por otro lado, las personas que aplican la ciencia de datos influyen en el proceso al decidir qué datos usar, cómo analizarlos y cómo interpretar los resultados, decisiones que reflejan sus conocimientos, valores y objetivos, así como las limitaciones de los algoritmos que diseñan. Notas de Clase: ¿Es la Base de datos parte de la ciencia de datos? Si, son donde se almacena y organiza la información que se analiza. La ciencia de datos necesita bases de datos para Recolectar datos, Gestionar datos y Acceso eficiente. Diferencia entre BD Transaccional y BD OLTP (Online Transaction Processing) BD Transaccional ~ Diseñada para registrar transacciones individuales en tiempo real. Altamente normalizada para evitar redundancia y ahorrar espacio BD OLTP (Subcategoría de BD Trans) ~ Enfocada en el procesamiento eficiente de transacciones en línea. Soporta un gran número de usuarios concurrentes Optimizada para operaciones CRUD Diseñada para entornos en línea, donde las operaciones deben ser rápidas y constantes. Ejm: Una base de datos que registra las ventas en una tienda Ejm: Bases de datos en plataformas de comercio electrónico ¿Cuándo una Base de Datos Transaccional pasa a ser OLTP? Ciencia de Datos ~ Conceptos 2 Si requiere manejar transacciones en línea realizadas por varios usuarios simultáneamente las transacciones deben ser procesadas de forma inmediata, en lugar de operaciones diferidas o en lotes. Si la base de datos se conecta a aplicaciones o interfaces web/móviles para procesar transacciones de manera directa y en tiempo real. ¿Como la BD OLTP se realciona con la ciencia de datos? Es especialmente útil en análisis que requieren datos actualizados, como el monitoreo en tiempo real o el análisis predictivo de sistemas en línea. Ademas, son extraídos periódicamente para integrarse en sistemas analíticos, como almacenes de datos o entornos de big data, donde se procesan y analizan para generar insights más profundos. Tambien, son cruciales para el modelado de conocimiento porque proporcionan los datos en tiempo real que sirven como base para identificar patrones, construir relaciones y generar modelos que reflejen la realidad de un sistema o dominio Relacion de la IA con la ciencia de datos La ciencia de datos y la IA no son iguales, pero están conectadas. La ciencia de datos analiza datos y extrae conocimiento, mientras que la IA utiliza ese conocimiento para crear sistemas inteligentes capaces de tomar decisiones y aprender. IA con aprendizaje automatico → si es parte de la Ciencia de datos Pero la IA general (metaheuriscticas ,etc) no lo son . Modelo Definicion Es una representación matemática, estadística o computacional que se utiliza para capturar patrones, relaciones o comportamientos en un conjunto de datos. Para hacer predicciones, clasificaciones o interpretaciones a partir de datos existentes. Modelado → es el proceso de hacer un modelo La encapsulación ayuda a empaquetar estos modelos y procesos de análisis para que sean reutilizables, comprensibles y seguros, lo que facilita Ciencia de Datos ~ Conceptos 3 su integración en sistemas más grandes o aplicaciones prácticas. Ejemplos Modelos matematicos 📝 Utilizan ecuaciones y fórmulas matemáticas para describir una relación o fenómeno 🖱️ Predicción, optimización y simulación Regresión lineal (estadística) Redes Neuronales Artificiales (bioinspirados) Máquinas de Soporte Vectorial (estadistica) Modelos Simbolicos 📝 representan conocimientos o patrones a través de símbolos, reglas lógicas o expresiones de alto nivel 🖱️ Tareas que requieren explicaciones claras (diagnósticos médicos o decisiones comerciales) Arbol de decision Reglas de logica Redes Semanticas Modelos Probabilisticos 📝Basados en probabilidades e incertidumbre. 🖱️ Predicciones con datos inciertos, como análisis de riesgos o detección de fraudes Redes Bayesianas Naive Bayes Mistura de Gausiana Modelos Lazy 📝Basados en la consulta directa de los datos en lugar de construir un modelo explícito. 🖱️ Sistemas de recomendación, clasificación en pequeñas bases de datos Vecino mas cercano Ciencia de Datos ~ Conceptos 4 Raciocinio basado en casos ¿Como se contruye un modelo? Datos: Información relevante que se utilizará para entrenar y alimentar el modelo. Características (Features): Variables o atributos extraídos de los datos que ayudarán a hacer predicciones o clasificaciones. Algoritmo: El método matemático o estadístico que se utiliza para aprender patrones a partir de los datos (por ejemplo, regresión, redes neuronales, árboles de decisión). Entrenamiento: El proceso donde el modelo ajusta sus parámetros para aprender a partir de los datos. Evaluación: Las métricas y técnicas utilizadas para medir qué tan bien el modelo hace predicciones o clasificaciones. Ajuste de hiperparámetros: Optimización de los parámetros del algoritmo para mejorar su rendimiento. Resultado: El modelo final que será utilizado para hacer predicciones o tomar decisiones basadas en nuevos datos. ¿La realidad es exactamente igual al modelo? } No, por que se pierde informacion. En si, los modelos son aproximaciones de la realidad, por lo cual se simplifica la complejidad del mundo real (omitiendo detalles y factores). ¿Es importante que las personas puedan entender las decisiones que toma un modelo? Sí, es importante que las personas puedan entender las decisiones que toma un modelo. Esto asegura transparencia, confianza y responsabilidad en el uso del modelo, especialmente cuando afecta decisiones importantes en áreas como la salud, la justicia o los negocios. Además, entender el modelo permite mejorar su rendimiento y corregir posibles sesgos o errores Notas de Clase: Ciencia de Datos ~ Conceptos 5 Diferencia / S. basado en Conocimiento (KBS) y S. Apoyo a la toma de deciciones (DSS) KBS DSS ~ La maquina toma la decision ~ La persona toma la decision Utiliza conocimiento embutido, Proporciona herramientas para es decir, conocimiento experto previamente codificado en el analizar grandes volumenes de datos y simular diferentes sistema escenarios Usado para resolver problemas Apoya al tomador de específicos, imitando el razonamiento de un experto decisiones en la evaluación de opciones mediante análisis de humano datos y modelos. Resolver problemas complejos aplicando reglas, heurísticas y Ejm: Un sistema que ayuda a un gerente a analizar tendencias de experiencia especializada. ventas y prever resultados futuros para tomar decisiones estratégicas Ejm: Un sistema de diagnóstico médico Sesgo Definicion Es una distorsión sistemática que afecta los datos, los modelos o las decisiones derivadas de ellos, esto conlleva a resultados injustos, discriminatorios o inexactos en aplicaciones reales. ¿Como ocurre? Sesgos en la recolección de datos. Los datos no representan de manera equitativa a toda la población o el fenómeno que se está estudiando. Causas: Muestra no representativa, Falta de acceso a ciertas poblaciones y Errores humanos Ejm: Un modelo de predicción de riesgo crediticio entrenado solo con datos de personas urbanas podría ser sesgado, ya que no refleja la situación de las personas rurales o de grupos marginados. Ciencia de Datos ~ Conceptos 6 Sesgos en el procesamiento de datos. La forma en que los datos son limpiados, transformados y preparados antes de ser utilizados en un modelo. Causas: Eliminación de datos relevantes, Manipulación inapropiada de datos, Imputación de valores faltantes Ejm: Si se omiten todos los registros de datos con valores faltantes, se podría perder una parte importante de la población que tiene características particulares, lo que genera sesgo en el análisis Sesgos en el diseño del modelo. Durante la construcción del modelo, cuando las decisiones sobre la selección del algoritmo, la estructura del modelo y los parámetros de entrenamiento se toman de manera que favorecen ciertos resultados o patrones. Causas: Selección de características sesgada, Selección de algoritmos y Hiperparámetros Ejm: Si se utiliza un modelo de regresión logística para predecir la probabilidad de éxito de un grupo de personas y se seleccionan solo variables relacionadas con el género y la edad Sesgos en la interpretación del resultado. Cuando los resultados obtenidos de un modelo se analizan o se presentan de manera que favorecen una perspectiva o conclusión particular Causas: Confirmación de prejuicios, Descontextualización de los resultados y Generalización indebida. Ejm: Si un modelo predice que ciertos grupos demográficos tienen más probabilidades de ser exitosos en una determinada tarea, pero el analista interpreta esto como un juicio sobre la "capacidad" de esas personas en lugar de un patrón basado en contexto, estaría aplicando un sesgo interpretativo. Sesgos en el uso de los resultados. Cuando las decisiones tomadas a partir de los resultados del modelo reflejan prejuicios o suposiciones incorrectas. Ciencia de Datos ~ Conceptos 7 Causas: Uso indebido del modelo, Reforzamiento de sesgos existentes, Dependencia excesiva en el modelo Ejm: Si un modelo de crédito sigue patrones históricos que excluyen a ciertos grupos debido a datos sesgados, y las decisiones de crédito se basan exclusivamente en estos resultados, se perpetúa la discriminación y se aumenta el sesgo en el sistema. Sesgo de confirmacion Es una tendencia psicológica que hace que las personas busquen, interpreten y recuerden información que confirme sus creencias, conllevando a ingnorar o desestimar informacion que las contradiga. Ejemplos En la investigación, los investigadores pueden favorecer la información que apoya sus creencias y despreciar las que las cuestionan En la atención médica, un médico puede centrarse en los síntomas que confirmen su diagnóstico y dejar de lado otros que podrían llevarlo a un diagnóstico más acertado. En la comunicación, las personas pueden oír y entender lo que quieren oír y entender. ¿Cómo se pueden identificar las fuentes de sesgo en un proyecto de ciencia de datos? Recolección de datos: Verificar si los datos son representativos y si hay grupos o aspectos subrepresentados. Procesamiento de datos: Revisar si las transformaciones, limpieza o imputaciones eliminan información importante o introducen sesgos. Diseño del modelo: Evaluar la selección de características, los datos de entrenamiento y el algoritmo utilizado para evitar amplificar sesgos. Evaluación del modelo: Analizar el rendimiento en diferentes grupos y realizar auditorías de equidad. Interpretación y uso de resultados: Cuestionar supuestos, validar interpretaciones y evaluar el impacto del modelo en el mundo real. Herramientas y enfoques adicionales Ciencia de Datos ~ Conceptos 8 Exploración visual de datos: Utilizar gráficos y visualizaciones para detectar patrones sospechosos, como desbalances en las clases de datos. Pruebas A/B y simulaciones: Comparar resultados de diferentes versiones del modelo para identificar comportamientos sesgados. Métodos explicativos: Herramientas como SHAP o LIME pueden ayudar a entender cómo las características individuales afectan las decisiones del modelo. ¿Cómo pueden los sesgos en los datos afectar a diferentes grupos de personas, especialmente a las poblaciones vulnerables? Perpetua desigualdades existentes o excluirlas de decisiones importantes como negar oportunidades de empleo, acceso a crédito o servicios esenciales. Esto refuerza la marginalización y limita el acceso equitativo a recursos, ampliando brechas sociales y económicas. Por ello, es crucial diseñar sistemas de ciencia de datos inclusivos y éticos que minimicen el impacto negativo en estos grupos. ¿Quién debería ser responsable de detectar los sesgos en un modelo: el desarrollador, la empresa o el usuario? La responsabilidad de detectar los sesgos en un modelo es compartida: El desarrollador debe diseñar y entrenar el modelo de forma ética, considerando posibles sesgos desde el inicio. La empresa debe establecer políticas, auditorías y supervisión para garantizar la equidad en todo el proceso. El usuario debe cuestionar y evaluar los resultados para identificar posibles impactos negativos. Ciencia de Datos ~ Conceptos 9

Apuntes de Ciencia de Datos: Conceptos Clave

Documentos relacionados

Productos

Apoyo

Apuntes de Ciencia de Datos: Conceptos Clave

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib