C’est sous le chapiteau principal de l’Ecole du Cirque Fratellini que s’est déroulée la 5ème édition de Hack in Paris, conférence sécurité organisée par Sysdream. Un cycle de conférence qui commençait très fort, avec la présentation de deux chercheurs de l’Anssi (si si !) Jose Lopes Esteves et Chaouki Kasmi, intitulée « Vous ne m’entendez pas, mais ce n’est pas le cas de votre interface vocale ».
Esteves et Kasmi sont parvenus à faire fonctionner silencieusement (donc à l’insu de son propriétaire) l’interface de reconnaissance vocale de plusieurs smartphones. Comment ? Le Poc est aussi alambiqué que le cycle de reproduction de la douve du mouton. Il faut, tout d’abord, que la future victime utilise le récepteur radio FM généralement intégré dans les téléphones de nouvelle génération (s’il préfère écouter France Culture en streaming, le hack est impossible). Et il est également nécessaire que l’interface vocale (Siri, Isis, Vlingo, Google Now etc.) soit activée. Ah, nous allions oublier… que ledit téléphone puisse posséder un accès à Internet, indispensable pour que ladite interface puisse fonctionner. Sans Internet, pas d’interprétation des phonèmes.
Bénéficiant de ces prérequis, les deux chercheurs ont tout tenté pour, à distance, prendre la main sur le terminal. Et c’est là qu’ils ont fait preuve d’un certain génie. Il faut savoir que ces récepteurs radio intégrés utilisent le fil du casque du téléphone (et plus spécifiquement le fil du microphone) en guise d’antenne. Pas de casque avec micro, pas de hack. Ce fil micro sert également à transporter le signal audio qui sera interprété par le logiciel de reconnaissance vocale. Un signal audio qui, avant d’être décortiqué par la partie « soft », doit tout d’abord passer par un filtre passe-bas, puis amplifié avant d’être utilisable. Or, en injectant, avec un simple émetteur en modulation d’amplitude, un signal radio, ce fameux filtre passe-bas élimine le la composante haute fréquence dudit signal (la « porteuse »), mais laisse passer son enveloppe. Et l’enveloppe n’est rien d’autre que l’information basse fréquence transportée, la voix en l’occurrence. Doit également se produire un phénomène de détection dans la partie amplification (le « miracle » des amplis audio qui diffusent FIP tant que l’on n’a pas appliquée une bonne réjection en mode commun)
Du coup, il est possible de déclencher vocalement, par exemple, la mise en marche des fonctions Bluetooth (ce qui facilitera une attaque BlueSnarfing, BlueStumbling, BlueJacking etc.) et l’accès aux données privées contenues dans l’appareil. Vol de contenu d’agenda, destruction des données à distance, injection de charges virales ou de logiciel-espion, à ce stade-là , tout devient possible.
Ce scénario est-il réaliste ? C’est très improbable. De l’aveu même des deux chercheurs, les moyens à mettre en œuvre sont relativement lourds. Afin de mener à bien leur preuve de faisabilité, Esteves et Kasmi ont dû travailler dans une cage de Faraday pour s’affranchir des bruits de bande et des produits d’intermodulation (particulièrement riches dans la bande broadcast 88-108 MHz). Il fallait également que dans cette cage puisse aboutir un signal Wifi, obligatoire pour offrir un accès Internet au logiciel de reconnaissance vocale. Enfin, le niveau de puissance HF nécessaire (près d’une cinquantaine de watts à quelques mètres) devient vite un handicap pour que l’exploit soit utilisable dans la vraie vie, à l’air libre et sur de grandes distances. Précisons, à la décharge des deux chercheurs de l’Anssi, que l’émetteur utilisé côté attaquant était une radio logicielle USRP, dont les performances en matière de pureté spectrale et de qualité d’émission en général (imd, stabilité etc.) sont inférieures à ce que pourrait fabriquer un enfant de 15 ans avec un oscillateur Colpitts, un bon amplificateur linéaire et un filtrage sérieux.
Alors, un PoC hype et sans conséquence ? Pas vraiment. Messieurs Jose Lopes Esteves et Chaouki Kasmi ont ouvert la voie à une nouvelle forme de compromission, celle reposant sur une injection de signal HF dans des étages qui ne sont pas du tout conçus pour ça. Il faut parfois bien peu de choses pour qu’une modulation AM « passe » un système basses fréquences. Tout utilisateur d’amplificateur HiFi ou d’enceintes asservies a un jour « entendu la radio » sans que soit connecté le moindre tuner. C’est ce phénomène, très courant, de démodulation quasi spontanée qui a été exploité dans ce cas précis. Il ne reste plus qu’à se livrer à un petit exercice de fuzzing radio pour découvrir de nouvelles victimes hertziennes.