Cómo la privacidad diferencial mantiene los datos útiles y confidenciales

Si bien a menudo utiliza algoritmos bastante complejos, el objetivo de la privacidad diferencial es bastante simple: asegurarse de que las personas cuyos datos se recopilan tengan tanta privacidad como la tendrían si los datos nunca se hubieran registrado. Nunca debería poder identificar a alguien con solo mirar un conjunto de información almacenada sobre ellos.

Cómo funciona la privacidad diferencial

Dado que los datos sobre nosotros se recopilan a un ritmo sin precedentes y la gente se siente incómoda con ellos, la idea de que su privacidad pueda ser probada matemáticamente comienza a verse bastante bien. Empresas como Microsoft, Google, Apple, Facebook y Uber lo han implementado de alguna forma o están explorando sus opciones, pero incluso antes de que la gran tecnología se interesara, se estaba utilizando para cosas como datos de investigación confidenciales, registros médicos e incluso partes. del censo de EE. UU.

Lo hace agregando ruido, ya sea a los datos almacenados en sí o a los resultados que se devuelven cuando alguien los consulta, alterando los datos individuales pero manteniendo la forma general. El «ruido» es esencialmente irregularidad, o variabilidad inexplicable, en los datos, y el objetivo aquí es insertar ruido en puntos de datos individuales mientras se mantienen las medidas generales como la media, la mediana, la moda y la desviación estándar cerca de donde estaban antes.

Privacidad diferencial simple

Imaginemos que ha sido seleccionado para participar en un innovador estudio de ciencias sociales. Sin embargo, aquí está el truco: algunas de las preguntas serán potencialmente embarazosas, incriminatorias o incómodas para usted. Digamos que prefieres que nadie vea tu nombre junto a una marca de verificación en la columna titulada «Realmente me gustó la última temporada de Game of Thrones».

Datos de encuestas de privacidad diferencial

Afortunadamente, los investigadores han anonimizado el estudio. En lugar de nombres, obtienes un número aleatorio, pero incluso entonces, las personas pueden usar tus respuestas y limitarlo a ti.

Ese es un problema que en realidad surge bastante en el mundo real, quizás el más famoso cuando los investigadores pudieron no solo identificar a los usuarios de Netflix pero incluso conocer algunas de sus preferencias políticas. Pero, ¿qué pasaría si pudiéramos manipular esos datos, así como nuestra encuesta, de modo que nadie que lea los resultados pueda saber con certeza lo que dijo cada persona?

Añadiendo ruido al lanzar una moneda

Aquí hay una técnica que podemos usar tanto para mantener su privacidad como para obtener resultados que, en conjunto, se verían como si todos dijeran la verdad:

Diagrama de flujo de cambio de moneda de privacidad diferencial
  1. Te haremos una pregunta de sí / no (¿Te gustó la última temporada de Game of Thrones?). Lanzas una moneda.
  2. Si la moneda sale cara, lanza la moneda de nuevo. (No importa lo que obtenga la segunda vez). Responda la pregunta con sinceridad. («Si.»)
  3. Si sale cruz, lanza la moneda de nuevo. Si es cara, diga «Sí». Si es cruz, diga «No».

No miraremos la moneda, por lo que no sabremos si le dijo que mintiera o no. Todo lo que sabemos es que tenía un 50% de posibilidades de decir la verdad y un 50% de posibilidades de decir «Sí» o «No».

Lanzamiento de moneda de privacidad diferencial

Luego, su respuesta se registra junto a su nombre o número de identificación, pero ahora tiene una negación plausible. Si alguien te acusa de disfrutar esa última temporada de Juego de Tronos, tienes una defensa que está respaldada por las leyes de la probabilidad: el lanzamiento de la moneda te hizo decirlo.

Los algoritmos reales que utilizan la mayoría de las empresas de tecnología para la privacidad diferencial son mucho más complejos que esto (dos ejemplos a continuación), pero el principio es el mismo. Al aclarar si cada respuesta es realmente válida o no, o incluso al cambiar las respuestas al azar, estos algoritmos pueden garantizar que, independientemente de la cantidad de consultas que alguien envíe a la base de datos, no podrán identificar a nadie de manera concreta.

Sin embargo, no todas las bases de datos tratan esto de la misma manera. Algunos solo aplican los algoritmos cuando se consultan los datos, lo que significa que los datos en sí todavía se almacenan en su forma original en algún lugar. Obviamente, este no es el escenario de privacidad ideal, pero tener una privacidad diferencial aplicada en cualquier momento es mejor que simplemente enviar datos sin procesar al mundo.

¿Cómo se usa?

manzana

Privacidad diferencial Apple Hademard Mean Count Sketch
El algoritmo Mean Count Sketch utilizado por Apple para privacidad diferencial

Apple usa privacidad diferencial para enmascarar los datos de los usuarios individuales antes de que se los envíen, utilizando la lógica de que si muchas personas envían sus datos, el ruido no tendrá un impacto significativo en los datos agregados. Utilizan una técnica llamada «Count Mean Sketch», que esencialmente significa que la información está codificada, se cambian piezas aleatorias y luego la versión «inexacta» se decodifica y se envía a Apple para su análisis. Informa cosas como sus sugerencias de escritura, sugerencias de búsqueda e incluso los emojis que aparecen cuando escribe una palabra.

Google

Flujo de datos diferencial de privacidad Rappor
Flujo de datos RAPPOR desde el GitHub del proyecto

La primera gran incursión de Google en la privacidad diferencial fue RAPPOR (Respuesta ordinal agregada aleatoria que preserva la privacidad), que ejecuta los datos a través de un filtro y cambia partes de ellos aleatoriamente utilizando una versión del método de lanzamiento de moneda descrito anteriormente. Inicialmente lo usaron para recopilar datos sobre problemas de seguridad en el navegador Chrome y desde entonces han aplicado privacidad diferencial en otros lugares, como averiguar qué tan ocupada está una empresa en un momento dado sin revelar la actividad de los usuarios individuales. De hecho, han abierto este proyecto a código abierto, por lo que es posible que aparezcan más aplicaciones basadas en su trabajo.

¿Por qué no se tratan todos los datos de esta manera?

La privacidad diferencial es actualmente un poco compleja de implementar y viene con una compensación de precisión que puede afectar negativamente los datos críticos en algunas circunstancias. Un algoritmo de aprendizaje automático que utilice datos privatizados para investigaciones médicas sensibles podría cometer errores lo suficientemente grandes como para matar personas, por ejemplo. No obstante, ya está teniendo un uso real en el mundo de la tecnología y, dada la creciente conciencia pública sobre la privacidad de los datos, es muy probable que veamos la privacidad demostrable matemáticamente como un punto de venta en el futuro.

Créditos de imagen: Flujo de datos RAPPOR, Algoritmo del lado del servidor para el boceto del recuento medio de Hademard, Paquete R-MASS de conjuntos de datos y encuestas, Árbol de probabilidades: lanzar una moneda

Artículos Recomendados


Categorías Hogar

Deja un comentario