Tor victime d’analyse d’empreinte

Actualités - Réseau - Posté on 31 Juil 2015 at 3:42 par Solange Belkhayat-Fuchs

crédit : (matt)

Un groupe de chercheurs du MIT et du Qatar Computing Research Institute (QCRI) sont parvenus, par simple analyse de l’empreinte du trafic établi, sans chercher à déchiffrer le contenu de l’information véhiculée, à déterminer avec une précision de 88% le service auquel est connecté un internaute utilisateur de l’Onion Router. Un article du MIT décrit en termes simples la manière dont se déroule l’opération.

Tor, réseau d’anonymisation, utilise une infrastructure qui met en œuvre une succession de routeurs, chacun ne connaissant que le numéro IP de son correspondant et de son destinataire. Alice expédie, par exemple, une requête http à destination d’un serveur Bob quelconque. Cette requête est tout d’abord chiffrée plusieurs fois consécutivement, puis récupérée par un serveur d’entrée –le « garde ». Lequel garde élimine la première couche de chiffrement, et transmet la requête au serveur suivant. Et ainsi de suite, chaque serveur « pelant » couche après couche les chiffrements successifs jusqu’à ce que la porte de sortie soit atteinte et puisse envoyer la requête totalement déchiffrée à Bob. Cette lasagne de chiffrements et de protocoles, cette succession de ruptures qui rend impossible toute comparaison de données entrantes et sortantes dans le trafic des routeurs, interdit toute remontée à la source d’une requête.

Mais un attaque « man in the middle » conduite par Eve demeure possible, expliquent les chercheurs. Si l’on installe un serveur « garde » sur Internet, et compte tenu de la densité du trafic qui caractérise Tor, on a toutes les chances pour que ledit serveur soit utilisé par plusieurs usagers. Il suffit alors d’analyser le volume de données que provoque une requête, d’analyser son flux –et non pas son contenu- le rythme et la vitesse de la réponse, pour établir une sorte de profile-type du service contacté. Un Web-FTP ne présente pas la même empreinte ni le même rythme que la consultation d’un site de vente aux enchères (légal ou non), qui eux-mêmes n’auront rien à voir avec les échanges de « seed » d’un réseau P2P. C’est donc en tâtant le pouls de la liaison, sans même avoir la moindre possibilité de lire le contenu, que le « garde » peut deviner si le requérant et en train de se plonger dans la lecture d’un magazine Web ou négocie l’intégrale des œuvres de Justin Bieber sur un dangereux site d’échange.

La parade est simple, expliquent les chercheurs. Il suffit de faire en sorte que les flux soient tous identiques, quitte à les « fourrer » avec des données sans signification dont le seul rôle sera de masquer les irrégularités de débit et ainsi supprimer toute possibilité d’analyse d’empreinte. Solution purement technique dont le principal inconvénient serait une nette augmentation du débit et une diminution sensible de la bande passante, du moins entre le garde et l’usager et le garde et le second nœud de routage. Notons également au passage que, s’il est possible de deviner qui Alice est en train de contacter, rien ne laisse supposer dans le principe de l’attaque que Eve soit capable de forcer une Alice précise à se connecter à son « garde » compromis. L’exercice de divination est donc d’un intérêt relativement limité.

Pour en revenir à la remédiation suggérée par le MIT, l’on peut préciser que cette technique du « texte vide » destiné à éliminer toute possibilité d’analyse des métadonnées est en usage depuis plus de 50 ans dans le secteur des transmissions radio militaires. Les « number stations » soviétiques ou les messages de Radio Londres par exemple, chargées généralement d’informer les agents en opération, émettaient en permanence, mélangeant messages vides et communications réelles, dans le seul but d’interdire toute association entre le volume de données transmises et un éventuel regain d’activité des agents de renseignement.