Il y a deux ans, Chaouki Kasmi et José Lopes Esteves de l’Anssi démontraient combien il pouvait être facile d’activer les fonctions de reconnaissance vocale d’un smartphone en utilisant les capacités de détection des filtres d’entrée du terminal (la « prise micro ») en y injectant un signal HF modulé en amplitude. L’année suivante, le même genre d’intrusion était réalisé via les fils d’alimentation secteur, par induction électromagnétique. Cette année, les deux chercheurs s’attaquent avec succès à la reconnaissance vocale elle-même, ou plus exactement aux défauts des mécanismes de reconnaissance qui font qu’un Siri ou qu’un Google Assistant accepte un ordre et l’interprète quand bien même le locuteur ne serait pas le propriétaire légitime de l’appareil.
C’est là bien plus qu’un exploit au sens sécurité du terme, car ces travaux soulèvent une foultitude de questions. A commencer par la plus évidente : doit-on, peut-on considérer un assisant vocal comme une forme d’authentification biométrique ? Ce à quoi Apple répond par un « Siri n’est pas un mécanisme de sécurité (et le tandem Kasmi/Esteves par un « n’y pensez même pas »). Siri, et très probablement la majorité des produits concurrents, a été conçu pour répondre à des caractéristiques physiologiques imprécises par nature. La voix évolue dans le temps, d’une heure à l’autre, en fonction de l’environnement, de la fatigue, du bruit ambiant, de l’état de santé ou d’autres problèmes insoupçonnés. Et rien n’est plus consternant qu’un système de reconnaissance vocale qui tombe en panne parce qu’une voix est montée d’un demi-octave ou devient nasillarde. Siri doit être un système auto-adaptatif, capable d’évoluer.
… Ce qui a pour conséquence de lui faire accepter des voix proches mais différentes. D’autant plus aisément qu’il n’existe pas, dans ces systèmes de simili-authentification par reconnaissance vocale, de limites aux tentatives de déblocage. Un attaquant peut inlassablement répéter les essais de prise de contrôle sans que l’interface ne se bloque. Ergo, l’IHM vocale ne peut, dans l’état actuel de la science, être considérée comme un mécanisme de sécurité ou d’authentification.
« C’est là un point d’autant plus patent, précise José Lopes Esteves, que les fonctions de reconnaissance vocale sont dissociées de celles chargées de reconnaître l’empreinte vocale elle-même ». Lors des phases d’utilisation (reconnaissance vocale), il n’y a pas la moindre tentative pour comparer l’empreinte avec un signal original généré lors de l’apprentissage de la voix du propriétaire. Un contrôle permanent serait probablement trop consommateur de ressources et surtout de temps de calcul.
L’attaque d’un système vocal peut revêtir plusieurs aspects. A commencer par « voler » la voix d’une personne en enregistrant une conversation assez longue, puis en extrayant des phonèmes découpés et réassemblés avec Audigy, par exemple. Il peut être également envisageable de fabriquer de toutes pièces une fausse voix synthétisée qui présente plusieurs caractéristiques simultanément. De manière très simplifiée on peut considérer la voix comme un signal périodique accompagné d’une série de fréquences harmoniques. Les fonctions de reconnaissance ont besoin du message sonore principal, autrement dit de la fréquence fondamentale dépourvue des harmoniques. Moins il existe de signaux parasites à prendre en compte, plus simple est le travail de reconnaissance des phonèmes. L’authentification d’une personne par son empreinte, en revanche, est liée aux particularités physiologiques, et donc aux multiples harmoniques qui constituent la véritable « signature » vocale. Il ne peut y avoir de véritable authentification sans une modélisation à la fois temporelle et spectrale du signal. Reste que les codecs modernes sont de plus en plus capables de simuler ces signaux complexes et de faire prendre aux Siri et autres assistants les hahanements d’un concert de la StarAc pour la colorature de Teresa Berganza.