Subido por Marcos Reiman

Privacidad y protección de datos

Anuncio
CLASE 7:
Privacidad y
protección de datos
Ética aplicada a la inteligencia artificial
MIA UC
¿Por qué es importante la privacidad?
La privacidad es una discusión de larga data
Reforzada por leyes y jurisprudencias nacionales e internacionales
Uso de datos
Consentimiento
Derecho de un individuo a dar su
consentimiento informado y voluntario
Es esencial antes de recopilar y utilizar sus
datos
Usuarios deben tener control sobre cómo se
utilizan sus datos
Restricciones para que los datos se utilicen
para los fines para los que se han recopilado
Rectificación y supresión
Derecho a corregir y actualizar datos personales
Solicitar eliminación de datos
La privacidad es una discusión de larga data
Reforzada por leyes y jurisprudencias nacionales e internacionales
Diseño
Protección
Incorporación de la privacidad desde la
etapa de diseño
Componente central desde el inicio y no
como algo posterior o secundario
Medidas técnicas y organizativas para
proteger los datos
Adopción de protocolos de seguridad y
cumplimiento de estándares
Minimización de datos
Recopilar, procesar y almacenar la
cantidad mínima de datos necesaria (i.e.,
lo estricta y absolutamente necesario)
Consentimiento informado
Información personal identificable
Facebook utiliza los números de teléfono que los
usuarios le facilitan por motivos de seguridad
(autentificación) para enviarles publicidad
New York publicó datos de 173 millones de viajes
en taxi, donde se puede encontrar información de
cada conductor e inclusive pasajeros
Seguridad
Filtración de datos de Equifax: información sobre
pasaportes, licencias de conducir y números de
seguridad social de más de 146 millones de
clientes
Modelo de suscripción de Meta
Dado los desafíos regulatorios de la UE, Meta propuso un modelo de
suscripción: los usuarios pueden pagar un cierto monto mensual para no
ser rastreados para publicidad o seguir usando la plataforma gratis y
consentir el seguimiento.
Este modelo busca cumplir con las regulaciones de privacidad de la UE.
¿Cuáles aspectos debemos tener en consideración en este caso?
Daño predictivo
Inferir información sensible a partir de otros datos.
e.g., predecir atributos sensibles como la orientación sexual, opiniones
políticas, condición de salud, a partir de datos aparentemente no
relacionados.
No sólo se trata de qué información nos entregan
los datos, sino también de qué se puede inferir a
partir de esos datos
La privacidad consiste en poder elegir: decidir con quiénes
compartimos información, qué límites queremos establecer, decidir
cómo queremos interactuar con nuestro entorno, según nuestros
propios parámetros.
La privacidad es una forma de protegernos: se trata de proteger lo que
puede ser conocido sobre una persona y, en consecuencia, lo que se
puede “hacer” con esa persona.
La privacidad es un derecho: en sí, la privacidad se constituye como un
derecho; y las violaciones a la privacidad pueden dar paso a violaciones
de otros derechos fundamentales
Autonomía y dignidad
Privacidad desde el diseño
Proactivo, no reactivo; preventivo, no correctivo
Anticiparse, dentro de lo posible, a eventos que afecten la privacidad antes de que sucedan.
Privacidad en todas las etapas
Antes de que el sistema esté en funcionamiento, se debe garantizar la privacidad a lo largo
de todas las etapas del tratamiento de datos.
Funcionalidad total: pensamiento “todos ganan”
Balance óptimo para conseguir sistemas funcionales, eficaces y eficientes y la privacidad.
Agencia Española de Protección de Datos (AEPD). (2019). Guía de Privacidad desde el Diseño.
Privacidad desde el diseño
Visibilidad y transparencia
Transparencia en recopilación, uso y consulta de datos, así como las medidas
adoptadas para garantizar la seguridad y privacidad.
Enfoque centrado en el usuario
Además de los intereses legítimos de una organización, se deben garantizar
los derechos de los usuarios.
Diseñar “con el usuario en mente”.
Agencia Española de Protección de Datos (AEPD). (2019). Guía de Privacidad desde el Diseño.
DE-IDENTIFICACIÓN
Proceso de remover información identificativa de una base de datos
Dificultad de dar una definición formal de “información identificativa” y de “deidentificación”: potencialmente toda información puede ser ocupada para
identificarnos.
De-identificación ≠ anonimización
De-identificación implica remover atributos que creemos que son identificativos.
Anonimización se refiere a datos que no pueden ser re-identificados.
DE-IDENTIFICACIÓN
RIESGO DE RE-IDENTIFICACIÓN
Se produce cuando se puede descubrir información de identificación personal en datos depurados o
denominados “anónimos”.
Cuando se re-identifica un conjunto de datos depurado, se conocen identificadores directos o
indirectos, que permiten identificar al individuo.
Los identificadores directos revelan la identidad real de la persona, mientras que los indirectos
suelen proporcionar más información sobre sus preferencias y hábitos.
Datos depurados pueden volver a identificarse mediante tres métodos:
Des-identificación insuficiente
Inversión de seudónimos
Combinación de conjunto de datos
DES-IDENTIFICACIÓN INSUFICIENTE
Se produce cuando un identificador directo o indirecto permanece inadvertidamente en un
conjunto de datos que se pone a disposición del público.
Ejemplos con datos estructurados
En 1990, Massachusetts contrató un seguro médico para funcionarios estatales e hizo público los
registros de visitas al hospital.
Se eliminaron identificadores explícitos: nombre, dirección y números de seguridad social.
Los registros seguían teniendo muchos atributos no depurados por paciente.
Se obtuvieron estos datos públicos y se utilizó el código postal, la fecha de nacimiento y el sexo del
gobernador para identificar su historial médico, diagnóstico y recetas.
Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press.
DES-IDENTIFICACIÓN INSUFICIENTE
Ejemplo con datos no-estructurados:
En 2006, AOL publicó 20 millones de consultas de búsqueda de 658.000 usuarios, a partir de tres
meses de datos.
AOL intentó depurar los datos de cualquier identificador directo o indirecto: eliminó nombres de
usuarios y direcciones IP.
Para preservar la utilidad de los datos, se sustituyó esa información por números de identificación
únicos mediante seudonimización.
Como cada usuario tenía un número único, dos periodistas del New York Times pudieron localizar a
una viuda de sesenta y dos años de Georgia analizando sus búsquedas en AOL.
INVERSIÓN DE SEUDÓNIMOS
Respecto a la seudonimización, hay varias formas de anularla:
Algunos seudónimos están diseñados para ser reversibles y se conserva una “clave” para invertir
el proceso. Esto impide su función de seguridad.
Cuanto más tiempo se utilice el mismo seudónimo para un individuo concreto, menos seguro y
más fácil será volver a identificar ese individuo.
Si se descubre o se llega a conocer el método utilizado para asignar seudónimos, los datos pueden
volver a identificarse.
COMBINACIÓN DE CONJUNTO DE DATOS
La mejor herramienta para re-identificar datos depurados es combinar
dos conjuntos de datos que contengan el mismo individuo en ambos
conjuntos.
Ataque de enlace (linkage attack): intento de re-identificar
individuos en una base de datos haciendo uso de la información
presentada por la misma base y de información auxiliar (información
obtenida mediante otras fuentes, como otras bases de datos).
COMBINACIÓN DE CONJUNTO DE DATOS
Ejemplo del premio de Netflix
En 2006, Netflix hizo público cien millones de registros que revelaban cientos
de miles de valoraciones de usuarios entre 1999 y 2005, y ofreció un premio
de un millón de dólares para el primer equipo que mejorara el algoritmo de
recomendación de películas.
Datos: 100 millones de valoraciones individuales de películas y fecha de las
valoraciones desde 1999 hasta diciembre de 2005, de 480.189 suscriptores
de Netflix.
Los demás datos del usuario se anonimizaron y se redujeron a un identificador
numérico único, utilizado para saber qué valoraciones pertenecían al mismo
usuario.
Narayanan, A., & Shmatikov, V. (2006). How to break anonymity of the Netflix Prize dataset. arXiv preprint cs/0610105.
COMBINACIÓN DE CONJUNTO DE DATOS
Ejemplo del premio de Netflix
Netflix no añadió ningún dato que pudiera identificar a un usuario:
código postal, fecha de nacimiento, nombre, etc.
Arvind Narayanan anunció que se podían conectar muchas de las
identificaciones del conjunto de datos de Netflix con personas reales,
mediante referencias cruzadas con otro conjunto de datos disponible
públicamente: las calificaciones de películas en el sitio de IMDB,
donde muchos usuarios publican con sus propios nombres.
Narayanan, A., & Shmatikov, V. (2006). How to break anonymity of the Netflix Prize dataset. arXiv preprint cs/0610105.
K-ANONIMATO
Si necesitamos usar datos o información sensible, una pregunta para elegir qué estrategia utilizar para
resguardar la privacidad es la siguiente: ¿necesitas retener los valores de verdad? (como código
postal, ciudad, nivel de estudios, etc.).
Si la respuesta es “sí”, se puede usar k-anonimato.
Dos métodos de k-anonimato:
Generalización
Supresión
K-ANONIMATO
GENERALIZACIÓN
Los identificadores indirectos se transforman, sustituyendo los valores específicos por otros
más generales. Así se incrementa la cantidad de datos con los mismos valores, pero
estableciendo rangos o jerarquías.
Por ejemplo: si el valor a generalizar es ⟨edad = 42⟩, simplemente se sustituye dicho valor por
un rango que comprenda el valor 42. Puede ser un rango de ⟨40 a 49 años⟩.
K-ANONIMATO
SUPRESIÓN
Se basa en la eliminación completa del valor identificador dentro del grupo de datos. Esta técnica
sólo debe aplicarse para un tipo de dato o rango de datos que no sean importantes para el fin de la
información.
Siguiendo el ejemplo de la generalización, si la edad es irrelevante para el objetivo de la
recopilación de información, pueden eliminarse los datos de rango de edad. De forma que
pasaríamos de ⟨edad = 42⟩ a ⟨edad = **⟩.
SIN K-ANONIMATO
K-ANONIMATO
NOMBRE
EDAD
GÉNERO
RELIGIÓN
ENFERMEDAD
NOMBRE
EDAD
GÉNERO
RELIGIÓN
ENFERMEDAD
Joan
24
Femenino
Hindu
Diabetes
*
20 ≥ Edad ≤ 30
Femenino
*
Diabetes
Johnson
17
Masculino
Budista
Cáncer
*
Edad ≤ 20
Masculino
*
Cáncer
John
19
Masculino
Cristiano
Infección viral
*
Edad ≤ 20
Masculino
*
Infección viral
PRIVACIDAD DIFERENCIAL
Se añade un “ruido” controlado a los conjuntos de datos para
evitar la identificación de individuos concretos.
Requiere que añadir o eliminar el registro de datos de un solo
individuo no cambie “mucho” la probabilidad de cualquier
resultado.
Es un marco matemático que garantiza la privacidad al
permitir analizar datos sin revelar información sensible sobre
ningún individuo del conjunto de datos.
El output de una función no varía si un registro está
presente o ausente del sistema consultado
Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press.
PRIVACIDAD DIFERENCIAL
La promesa de la privacidad diferencial
No importa qué daño te preocupe: promete que el riesgo de cualquier
daño no aumenta más que un poco como resultado del uso de datos de
cualquier individuo.
Ningún observador externo puede aprender mucho sobre un individuo
gracias a los datos específicos de esta persona, al tiempo que permite al
observador aprender hechos generales sobre el mundo (por ejemplo:
fumar y el cáncer de pulmón están correlacionados).
Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press.
PRIVACIDAD DIFERENCIAL
El mecanismo de Laplace
Se añade ruido a la salida (output) de una función. La
cantidad de ruido depende de la sensibilidad de la función.
La sensibilidad refleja la cantidad que puede variar la salida
cuando cambia la entrada (input). Es el cambio máximo que
puede producirse en la salida si se añade o elimina una sola
persona de cualquier posible conjunto de datos de entrada.
Devaux, E. (2022). What is Differential Privacy: definition, mechanism, and examples. [Statice]
PRIVACIDAD DIFERENCIAL
El mecanismo de Laplace
Ejemplo:
Base de datos con personas que padecen una enfermedad y
queremos dar a conocer el número de personas de una ciudad
con esa enfermedad.
Podemos añadir ruido al recuento de personas con esa
enfermedad.
La contribución de cada paciente puede cambiar el resultado
del recuento en un máximo de uno, por lo que la sensibilidad es
igual a uno y añadimos ruido en consecuencia.
Devaux, E. (2022). What is Differential Privacy: definition, mechanism, and examples. [Statice]
PRIVACIDAD DIFERENCIAL
Respuesta aleatoria y perturbaciones
Consiste en pedir a los individuos que respondan a una
pregunta “sí” o “no” de forma aleatoria, con cierta probabilidad
de dar una respuesta verdadera y cierta probabilidad de dar
una respuesta aleatoria.
Puede introducir sesgos si no se hace con cuidado: si la
probabilidad de dar una respuesta verdadera es demasiado
baja, los datos pueden no ser representativos.
*Mitigación: usar varias preguntas en lugar de una, lo que
proporciona una visión más completa.
Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press.
PRIVACIDAD DIFERENCIAL
Algoritmos diferencialmente privados y modelos de aprendizaje automático
Diseñados para proteger la privacidad de los individuos en los datos de entrenamiento. Se añade
ruido al tiempo que permite que un algoritmo aprenda de los datos y haga predicciones/tome
decisiones precisas.
Añadir ruido a los datos durante el proceso de entrenamiento.
Añadir ruido para proteger los resultados (predicciones o decisiones).
Por ejemplo: impide que un algoritmo entrenado para predecir la probabilidad de que un paciente
desarrolle una determinada enfermedad revele información sensible de registros de pacientes que
han sido tratados por esa enfermedad antes.
Devaux, E. (2022). What is Differential Privacy: definition, mechanism, and examples. [Statice]
PRIVACIDAD DIFERENCIAL
Datos sintéticos diferencialmente privados
Se utiliza un algoritmo para crear datos similares al conjunto de
datos original. Se añade ruido durante el entrenamiento del
modelo generativo.
Hace difícil determinar los registros individuales del conjunto
de datos original a partir de los datos recién generados.
Permite un análisis de datos que preserve la privacidad y
compartir datos con terceros.
Devaux, E. (2022). What is Differential Privacy: definition, mechanism, and examples. [Statice]
PRIVACIDAD DIFERENCIAL
La privacidad no es gratuita
Para obtener el mismo nivel de precisión se necesitan más datos de los que se necesitarían sin una
restricción de privacidad.
En determinados tipos de análisis, se convierte en una aproximación y no en el resultado exacto
que se habría obtenido si se hubiera realizado sobre el conjunto de datos original.
Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press.
PRIVACIDAD DIFERENCIAL
Plantear la privacidad diferencial en términos positivos
La privacidad diferencial es una forma de acceder a nuevos datos,
que antes no se recopilaban por motivos de seguridad.
Es una forma de obtener nuevos datos y no una obligación que
degrada los análisis existentes.
Kearns, M., & Roth, A. (2019). The Ethical Algorithm: The Science of Socially Aware Algorithm Design. Oxford University Press.
APRENDIZAJE FEDERADO
Permite entrenar modelos de IA en datos descentralizados sin
necesidad de transferir los datos brutos.
Los datos permanecen en modelos locales, mientras que el
modelo global se actualiza con los conocimientos agregados de
múltiples modelos.
El algoritmo se entrena por partes en cada lugar donde están
los datos y luego combina lo aprendido en un modelo global.
Por ejemplo: Google entrenó a su modelo de texto predictivo a
partir de todos los mensajes enviados y recibidos por usuarios
de Android, sin leer ni extraer los mensajes de los dispositivos.
Hao, K. (2019). A little-known AI method can train on your data health without threatening your privacy. [MIT Technology Review]
APRENDIZAJE FEDERADO
Ejemplo en el campo de la salud
Muy útil, ya que no se requiere el traspaso de información
confidencial.
Algoritmos con datos almacenados en múltiples hospitales, sin
que los datos salgan de sus instalaciones ni tengan que ser
copiados a los servidores de una empresa.
A medida que cada hospital adquiere más datos, se puede
descargar el último modelo global, actualizarlo con nueva
información y enviarlo de vuelta.
Hao, K. (2019). A little-known AI method can train on your data health without threatening your privacy. [MIT Technology Review]
APRENDIZAJE FEDERADO
Desafíos
La combinación de modelos separados corre el riesgo de crear
un modelo global peor que cada una de sus partes.
En el caso de salud, el aprendizaje federado requiere que cada
hospital tenga la infraestructura y el personal cualificado para
entrenar los algoritmos.
También hay desacuerdos en la estandarización de la
recopilación de datos en todos los hospitales.
Hao, K. (2019). A little-known AI method can train on your data health without threatening your privacy. [MIT Technology Review]
REFLEXIONES FINALES
La ética de la IA considera la privacidad como un valor que
hay que defender y como un derecho que hay que proteger.
Aproximaciones a la privacidad
Soluciones técnicas
Llamados a más investigación
Conciencia y uso de regulaciones
Descargar