Les plateformes de réseaux sociaux qui regroupe plus de monde et surtout de professionnels, ont connu un mois d’avril très intense en fuite de données. Malgré qu’ils ont tous nié le piratage informatique.
Le mois d’avril a été chargé en alertes pour les données personnelles : le 3 avril, une base de données contenant des données relatives à plus de 533 millions de comptes Facebook, dont les numéros de téléphone, était diffusée sur un forum fréquenté par des cybercriminels ; quelques jours plus tard, un membre de ce même forum a affirmé détenir des données relatives à des millions de comptes LinkedIn ; enfin, le 11 avril, un internaute a mis en ligne une base de données concernant 1,3 million de comptes Clubhouse, le réseau social vocal qui a suscité un certain intérêt en 2020.
Les réseaux sociaux Facebook, LinkedIn et Clubhouse ont tous assuré que ces bases de données ne provenaient pas de piratages, mais que des informations publiques avaient simplement été collectées et récupérées par des internautes. Une pratique que l’on appelle le « scraping » (« grattage »). Cela ne signifie pas, néanmoins, que des données en apparence anodines ne peuvent pas poser un problème pour les utilisateurs de ces réseaux.
La différence entre le piratage et le « scraping »
Quand on parle de « fuite de données », on a tendance à imaginer un piratage au cours duquel un ou plusieurs pirates parviennent à s’introduire dans les serveurs d’une entreprise, et à en exfiltrer des informations sensibles, comme des fichiers d’utilisateurs. C’est par exemple ce qui est arrivé à LinkedIn en 2012, lorsque le citoyen russe Yevgeniy Nikulin — condamné en 2020 — est parvenu à voler les adresses courriels et les mots de passe de plus de 117 millions de comptes.
Le but est de collecter des informations publiquement disponibles sur un site
Dans les cas récents concernant Facebook, LinkedIn et Clubhouse, les entreprises assurent qu’il n’y a pas eu d’intrusion. En fait, des internautes ont « scrapé » des données. Cette technique consiste le plus souvent à collecter des informations publiquement disponibles sur un site. Il est par exemple possible de coder un programme qui va parcourir toutes les pages d’un annuaire et collecter les informations à chaque fois qu’il rencontre les termes « nom », « prénom » et « numéro de téléphone ».
Dans le cas de Clubhouse, en utilisant l’API (interface de communication avec l’application), un internaute a « aspiré » les données publiques de 1,3 million de comptes, soit, pour l’essentiel, le nom et le prénom des utilisateurs, leur pseudonyme et les comptes Instagram et Twitter liés ou non à chaque membre.
Dans la récente affaire de la base de données issue de Facebook, le terme « scraping » est en revanche trompeur. Une ou plusieurs personnes ont exploité une vulnérabilité dans l’outil d’importation de contacts (une fonctionnalité qui permet, sur l’application mobile de Facebook, d’importer son carnet d’adresses pour trouver ses connaissances) pour importer des centaines de millions de numéros de téléphones et voir ensuite lesquels correspondaient à un compte Facebook.
Une information publique peut être une donnée personnelle
La provenance précise de ces informations issues de réseaux sociaux n’est, du reste, pas forcément le sujet principal au regard des droits des internautes. Qu’elles soient publiques ou non et obtenues à partir d’un scraping ou l’exploitation d’une vulnérabilité d’un outil, ces données d’utilisateurs diffusées restent des données personnelles au regard du droit français et européen. « Une donnée personnelle, c’est une donnée qui permet d’identifier une personne physique, ça peut être un simple couple nom-prénom », explique Raphaël Liotier, avocat au cabinet Lexing. Une donnée personnelle n’est pas nécessairement une information que le grand public considère comme privée ou sensible.
Le règlement général de la protection des données s’applique à la personne qui a collecté ces informations
« Si vous collectez des données sur les Pages jaunes, à la fin vous avez un traitement de données à caractères personnel », souligne Me Liotier, ce qui signifie que le règlement général de la protection des données (RGPD) s’applique à la personne qui a collecté ces informations. Ainsi, ce n’est pas parce que des informations sont publiques que l’on peut en faire ce que l’on veut. En France, la Commission nationale de l’informatique et des libertés (CNIL) a d’ailleurs contrôlé, en 2020, des entreprises qui utilisaient des données personnelles scrapées à des fins de prospection commerciale. Une société, par exemple, a été sanctionnée à hauteur de 20 000 euros pour avoir fait de la publicité pour des services de restauration, après avoir massivement extrait des données publiques sur le réseau social LinkedIn.
Le risque posé par des informations publiques collectées
Ce n’est pas parce que des informations sont publiques qu’elles ne peuvent pas représenter un risque pour les utilisateurs. Le forum de discussion sur lequel ont été publiés des fichiers relatifs à des comptes Facebook, LinkedIn et Clubhouse est régulièrement fréquenté par des cybercriminels. Ces informations y sont publiées parce qu’elles peuvent servir à toutes sortes d’activités illicites.
Les simples informations sur les noms, prénoms et comptes sur un réseau social peuvent être utilisées pour des tentatives de hameçonnage, dans lesquelles un pirate va tenter de se faire passer pour une entreprise ou un réseau social et essayer de récupérer l’accès à des services que vous utilisez. Une adresse courriel peut avoir le même usage.
Dans le cas de Facebook, ce sont des numéros de téléphone qui sont concernés. Là encore, ils peuvent être utilisés pour ce que l’on appelle du « smishing », du hameçonnage par SMS. Pire, dans certains cas des pirates peuvent détourner une ligne de téléphonie mobile pour tenter d’accéder, par exemple, à un compte en banque.
Avec lemonde