Dans le but de toujours améliorer l’ergonomie des sites, les principaux administrateurs Web publics font appel aux bons offices de scripts fournis par des sociétés spécialisées dans l’analyse comportementale des usagers : hésitations dans la frappe clavier, curseur de souris désorienté, passage de pages en pages volontaire ou stochastique… une collection de réactions humaines qui passe par l’enregistrement des séquences de touches et mouvements de souris dans le but de « rejouer » les scenarii de visite.
Seulement voilà … cette analyse « discrète et anonyme » n’est pas anonyme du tout, affirme Steven Englehardt, chercheur à l’Université de Princetown. Son premier article, No boundaries: Exfiltration of personal data by session-replay scripts , passe en revue les six outils les plus utilisés par les 400 plus gros serveurs web de la planète.
Dans bien des cas, et contrairement aux affirmations des administrateurs de sites, chaque enregistrement peut être directement lié à la personne (ou au compte utilisateur, ce qui revient au même) ayant effectué la navigation. En outre, il est fréquent que les données capturées soient stockées en clair. Et ce que le script « Full Story » accepte de ne pas recueillir, celui de SessionCam, HotJar ou Yandex le capturera, au moins partiellement.
La grande majorité de ces scripts gardent la trace du nom, email, téléphone, adresse, numéro de sécurité sociale, date de naissance, numéro de carte de crédit, son CVC et sa date d’expiration. Seul le mot de passe est soit ignoré, soit masqué. Que l’un des services requérant ces informations en vienne à utiliser l’un de ses outils, et toutes les mesures de politique de sécurité qu’il pourrait déployer seraient vaines, car les outils donnant accès aux données collectées se font sur une page http (donc via un échange non chiffré) quand bien même la session utilisateur aurait eu lieu sur une page https. C’est le cas de Yandex, Hotjar et Smartlook. Cette « déprotection by design» s’étend même aux données contenues dans la page avec Yandex et Hotjar. De ce fait, une attaque Man in the Middle en aval de la console d’administration se transformera en session « open bar » pour tout collectionneur de données sensibles.
Hélas, même les outils installés côté client et prétendant garantir un « do not track » échouent en partie dans leur mission de préservation des données personnelles conclut Englehardt à la fin de son premier chapitre. Les épisodes suivants seront-ils aussi dramatiques ?