Todo aquel que utilice la Internet y sus servicios, ya sea por diversión, ocio o trabajo, debe saber que poco a poco va dejando un rastro fácil de identificar a partir de datos sueltos, imágenes, videos, colaboraciones y participación en foros y comunidades afines.
También es importante saber que cada vez que nos apuntamos a un servicio y que creamos una cuenta para tales fines estamos dejando valiosa información a la disposición de terceros que a su vez -con el consentimiento quizás no explícito o del todo consciente del usuario- la ponen a disposición de otros terceros.
Se trata de una cadena interminable de rastros la que vamos dejando a nuestro paso por la Web, de ahí que tanto se insista en no publicar fotos de carácter sensible o que dejen a la persona en posición vulnerable, pues una vez colocamos algo públicamente online se queda ahí, pululando, aun cuando lo “borremos”.
Conscientes de que la privacidad es un tema apremiante y que la gente no está por ser reconocida o identificada a su paso por los recursos online muchos de los sitios que recolectan la información de sus usuarios con fines comerciales o de investigación informan al público que la misma estará “anonimizada” para estos fines, lo que significa -en teoría, al menos- que la anhelada condición de anonimato se estaría manteniendo.
¿Es cierto esto? Malas noticias: por mucho que se “anonimice” la información suministrada, existe una alta posibilidad de identificar a quién pertenecen los datos, según concluye una investigación conjunta de la Universidad Católica de Louvain en Bélgica y el Imperial College de Londres, Reino Unido.
Empleando un sistema de machine learning, ambas entidades desarrollaron un algoritmo que demostró ser capaz de identificar a más del 99 por ciento de la población estadounidense en base a 15 puntos demográficos de información supuestamente “anonimizada”, incluyendo edad, sexo (o género) y estatus marital.
¿Cómo sucede esto? La cuestión está en los detalles. El tema con los datos “anonimizados” es que en conjunto pueden presentar un perfil que reduce grandemente la cantidad de candidatos que encajen en él. A modo de ejemplo, según lo suministraron los propios investigadores, en una ciudad tan grande y poblada como Nueva York no todo el que vive en ella conduce un vehículo rojo deportivo, nació en una fecha específica de enero y convive con dos hijas y un perro.
Este es un ejercicio fácil de replicar en la vida real: basta con tomar nuestro círculo de amistades y conocidos y ver cuantos coinciden en la descripción de elementos puntuales como los señalados en el párrafo anterior. Lo más probable es que algunos coincidan en algunos puntos, pero muy pocos, por no decir ninguno, coincidirán en todos. Un sistema debidamente equipado y entrenado fácilmente puede llegar a la misma conclusión tras analizar un conjunto amplio de datos en base a parámetros específicos.
Si quieres saber qué tan fácil eres de identificar en base a tu data anónima, los investigadores han puesto a la disposición una herramienta online que se basa solo en tres puntos: sexo, fecha de nacimiento y código postal. Al ser un conjunto de parámetros breve, la probabilidad de identificación correcta de una persona es de 83 por ciento. La cifra es alta, pero no tanto como el 99 por ciento mencionado más arriba, siendo esto un reflejo de como un conjunto de datos más amplios y puntuales ayudan a una mayor precisión.
De momento la herramienta está pensada para usuarios en Estados Unidos y Reino Unido, pero es muy probable que esta realidad aplique a cualquier persona, sin importar su nacionalidad o lugar de residencia.