Repost.

Préambule

Je tiens à préciser que je ne suis en rien un quelconque expert ou une quelconque autorité dans l’un des quelconques sujets desquels je vais parler par la suite. J’expose simplement mes pensées, avis et opinions, qui évolueront avec le temps et l’apprentissage, qui seront parfois (souvent ?) erronés, parfois justes, mais surtout qui ne doivent en rien être considérés comme des faits ou des vérités.

Définition(s?)

Big Data, Big Data, Big Data. J’ai l’impression qu’au fil des années cette expression est devenue par trop populaire jusqu’à ce que l’on ne sache plus trop ce qu’elle veuille bien dire.

D’après Wikipédia, cela pourrait se traduire en bon français par « megadonnées », et « désignent des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information ». En fouillant les Internets, l’on constate que, malgré les définitions, il s’agit bien de l’idée d’une quantité d’informations par trop importante pour être traitée à la main ; cependant, le terme Big Data englobe également une idée, idée qui a été exploitée tant dans la fiction que dans la réalité, l’idée que plus la quantité d’information que l’on possède est importante, plus il est possible d’obtenir des réponses à des questions précises.

L’on pourrait s’étendre longtemps sur les possibilités quasi-infinies que permettent un tel mode de pensée, notamment dans le domaine de la recherche ; cependant, ce dont je vais vous parler aujourd’hui est davantage de l’aspect social du Big Data, à savoir ce que je vais naïvement appeler le « Big Data personnel », et que je vais définir ainsi : l’ensemble des données disponibles, publiquement ou non, concernant un individu. J’étais tenté d’ajouter « de près comme de loin », mais je pense que je vais davantage m’attarder dans cet article à l’aspect « de près » – l’autre aspect serait intéressant à traiter à lui tout seul.

Ce que notre flemme dit de nous

En effet, sur les Internets, lorsque quelqu’un se balade, il laisse des informations, de manière plus ou moins volontaire ou non. Particulièrement lorsque l’on s’inscrit à un site. Qui ne s’est jamais créé un compte sur une page web lambda pour une petite activité, pour ensuite ne jamais se reconnecter ? On entre un pseudonyme, une adresse email, un mot de passe, et c’est parti. Éventuellement une date de naissance. Éventuellement une adresse physique. Etc. Cela ne poserait pas de problème, outre mesure, si l’on savait avec précision ce qui est fait des informations proposées. Or, la plupart du temps, on donne ces informations, gratuitement, sans lire la Politique de Confidentialité – vous savez, ce gros truc indigeste avec une petite case à cocher – et sans prendre connaissances des risques d’un tel acte.

La plupart du temps, cependant, les informations données ne sont pas importantes, ou ne permettent pas d’identifier quelqu’un avec précision. L’on donne même parfois de fausses informations, afin de brouiller les pistes. Mais imaginons un instant que toutes les informations collectées jusqu’à présent, séparément, soient mises en commun. Que l’on puisse construire une véritable base de donnée des informations sur votre personne. Cela serait plus problématique, n’est-il pas ? Car, par delà les informations que l’on obtient en se googlant, ils existe bien d’autres informations sur vous.

Seek and destroy

Cela m’a donné l’idée d’une petite expérience : à l’aide du site https://www.accountkiller.com/ , visiter un à un les sites Internet sur lesquels l’on est enregistré, et voir quel est notre « portrait » grâce à ces informations. Eventuellement, en profiter pour (re)lire les Politiques de Confidentialité des différents sites Internet, et, au besoin, fermer son compte. Simple comme palimpseste ! A dire vrai, j’avais déjà été tenté de faire une expérience identique lorsque Facebook a changé sa Politique de Confidentialité en Janvier ; dernièrement, c’est PayPal qui souhaite changer quelques petites choses, et qui m’a rappelé à la chose.

Pour cette expérience, j’ai pris comme cobaye ma pauvre personne, et je supposerais les choses suivantes :

  1. Toutes les bases de données sont recoupées entre elles
  2. Les liens entre mes différents pseudonymes sont connus

Pour la première hypothèse, il est aisé d’imaginer un conglomérat d’entreprises mettre en commun leurs informations quant à une personne précise. Pour la seconde, le cas d’un pseudonyme identique est assez trivial, même si plusieurs personnes peuvent avoir le même pseudonyme, mais l’on peut également imaginer un lien via la même adresse e-mail – déjà plus concret. De toute évidence, mon adresse e-mail apporte déjà pas mal d’informations, étant composée trivialement de mon nom, mon prénom et mon département d’origine. Mais considérons l’adresse e-mail comme un simple identifiant.

Ainsi, presque l’un après l’autre, je vais tenter de me connecter aux différents sites proposés. Chaque fois que j’ai un doute sur le fait d’avoir un compte ou non, je teste, simplement. Un peu long et fastidieux, d’autant plus que, sur certains sites, mon compte aura été supprimé en raison du temps, mais cela permet de faire le ménage, bien que cela ne permette pas de vérifier des petits sites moins connus. Un de mes bons amis des Interwebz a d’ailleurs réussi à retrouver mon identité en recoupant ce qu’il savait de moi sur Google, à savoir pas grand chose, et est tombé sur un vieux site de cartes à jouer sur lequel j’avais donné toutes mes coordonnées. Merci à lui pour m’avoir permis de nettoyer mes traces !

La partie drôle

Note : Cette partie sert davantage de résumé pour moi que de véritable élément intéressant. Vous pouvez la passer.

Le premier site Internet sur lequel je me (re)connecte est celui d’Adobe. Cela faisait tellement longtemps que j’ai dû redéfinir un mot de passe, donner ma date de naissance (fictive) et accepter la Politique de Confidentialité (ha ha). En fouillant mon profil, je trouve deux de mes pseudonymes, S███ et D███, ce qui est déjà pas mal. Un peu plus loin, je vois que j’ai renseigné un numéro de téléphone : 0000000000. Pas mal. Mais ô surprise, j’ai donné ma ville de l’époque ! Cela fait toujours trois points de données avec juste un seul site Internet. Pour supprimer éventuellement mon compte, je me dois d’envoyer un email à Adobe, et leur expliquer ma démarche.

Prochain site Internet, Aliexpress. Un site d’achat en ligne. Forcément, ici, les informations pullulent : prénom et nom, adresses précédentes et actuelles, etc. Même combat pour Amazon, eBay, etc. Cependant, ce sont des sites que j’utilise régulièrement, et qui font le lien avec mon identité IRL, cette diversité d’information est donc justifiée. Je vais tenter de m’axer davantage sur des sites Internet que je n’utilise que peu ou plus, et mettre de côté notamment mon compte Google.

Sur le suivant, Avast, absolument rien d’intéressant. Sur Battle.NET, je constate que pour réinitialiser mon mot de passe, je dois donner mon lycée d’origine. Chose aisée lorsque l’on possède mon adresse e-mail. Je n’y arrive cependant pas. Sur Deezer, mon pseudonyme S███, ma date de naissance (réelle), et d’autres informations bidons. J’en profite pour supprimer mon compte, vieux d’au moins une ou deux paires d’années. L’on passera le cas de Facebook, je pense. Bien que je sois quelque peu enclin à lui donner de quoi se repaître, il doit déjà savoir suffisamment de choses sur moi.

D’autres sites passent, je teste, j’observe, mais soit le compte a été supprimé entre temps, soit il n’existe tout simplement pas. Et là, surprise, je retombe sur mon compte Habbo : je dois accepter la mise à jour de la Politique de Confidentialité. Le TL;DR de celle-ci me dit que les informations sont stockées de manière éternelle (Oh.) et qu’elles peuvent se balader un peu partout. Dernière connexion de ma part, 1er Janvier 2012. Bonne année ma foi ! Mis à part le fait que je découvre que ce compte soit actif depuis 2009 (bientôt 6 ans !), il n’y a rien d’intéressant, si ce n’est mon pseudonyme S███. Mon compte LEGO, également, avec un pseudonyme, t███, que je ne me connaissais pas, également lié à S███. Dessus, date de naissance, pays, et c’est tout. En terme de jeu, j’ai également un compte Club Nintendo, mais je n’arrive pas à réinitialiser le mot de passe.

On passe à PayPal, qui connaît mon adresse, téléphone, etc. Cependant, je suis enregistré sous mon pseudonyme S███ (toujours lui). Sinon, j’ai retrouvé mon compte Prizee sous le pseudonyme M███, là encore je dois accepter la nouvelle Politique. Ce qui est amusant, cependant, c’est qu’il est précisé que le compte est supprimé au bout de 6 mois d’inactivité. Là, Jackpot : nom, prénom, date de naissance, adresse, tout ! Inscrit depuis 2007, ha ha. Là encore, supprimer le compte implique de les contacter. Je découvre également un compte Spreadshirt n’ayant que mon adresse e-mail. Je suis surpris de découvrir que j’ai un compte Vistaprint, sinon, avec mon pseudonyme S███. Egalement, un compte Wunderlist, avec juste mon e-mail – je n’arrive pas à le supprimer pour une raison obscure. Enfin, un compte Yahoo, que je gérais pour un parent, mais qui a expiré.

On passe à la suite ?

Après environ 4 heures de tri, de recherches, etc., j’ai finalement réussi à trier – et à supprimer ! – les comptes dont je ne me servais plus sur mon adresse e-mail principale. Repassons à quelque chose d’intéressant.

Ce que j’ai pu constater, c’est qu’à partir de comptes dont je ne me servais plus, et que j’avais crée à une époque bien plus ancienne pour certains, lorsque je n’étais encore qu’un tout petit jeunot, l’on pouvait, malgré certaines informations caduques, réaliser ma carte d’identité. Nom, prénom, adresse, date de naissance, autant d’éléments qui, dispersés dans la nature, peuvent devenir une véritable source complète lorsque rassemblés. J’ai observé ici le cas avec des informations dites privées, qui sont stockées dans des bases de données, mais la même idée s’applique aux informations disponibles sur Google. Un exemple avait d’ailleurs fortement fait parler de lui il y a quelques années, montrant que nos traces, toutes nos traces, si bien exploitées, peuvent en dire long sur nous.

Plus le compte est vieux et oublié, plus les informations disponibles sont importantes. Cela semble logique, en soi, car l’on prend davantage soin de ce que l’on utilise régulièrement que de ce que l’on n’utilise pas. De plus, les risques étaient, sinon moins présents, au moins davantage inconnus que plus récemment.

Arrêter de respirer

Comment est-il possible de ne pas se faire ainsi analyser via les informations ? Le plus simple : ne pas donner lesdites informations en premier lieu. Soyez toujours vigilant, et privilégiez les sites ne demandant pas trop d’informations – à défaut, fabriquez-vous une nouvelle identité, pour chaque site. Il faut bien avoir conscience que les informations peuvent être croisées, à tout moment, que ce soit en raison d’un piratage ou de par la loi. Si cependant vous divulguez des informations personnelles, n’interagissez qu’avec des sites fiables, tentez d’avoir une identité propre pour chaque site (une adresse e-mail différente, un identifiant différent, etc.), et lisez les politiques de confidentialité afin de comprendre pourquoi vos données personnelles sont recueillies, mais également savoir l’utilisation qui en sera faite et la façon dont elles sont protégées. C’est long, c’est barbant, mais très important !

N’oubliez pas ces deux choses :

Once on the Net, forever on the Net

Toute information, élément, donnée quelconque, une fois mise en ligne, même pour une poignée de minutes, est hors de contrôle et perdue à tout jamais. Vous ne savez jamais à quel moment une donnée peut ressortir !

Si c’est gratuit, c’est que c’est vous le produit

A partir du moment où un service est gratuit, c’est que le produit, c’est vous. Les données se vendent, très bien, très chères, et le meilleur moyen d’obtenir ces données, c’est de les chercher directement à leur source : les utilisateurs.

Lorsque vous cédez des informations sur Internet, n’oubliez jamais que ces dernières peuvent être réutilisées, et recoupées avec d’autres informations. Ces informations, véritables pièces d’un puzzle géant, forment au fur et à mesure une véritable carte d’identité de votre personne – offerte par vous-même. Ainsi, méfiez-vous de vous-même, et soyez rigoureux quant aux données que vous offrez en pâture à l’Internet !