Un groupe de chercheurs de l’Université de Concordia a mis au point une méthode d’identification des courriels anonymes en se basant sur l’analyse des « combinaisons uniques de particularités récurrentes dans les courriels d’un suspect ». En gros, les tics stylistiques, les champs sémantiques, les fautes d’orthographe fréquemment commises, les barbarismes, les habitudes typographiques sont comptabilisés en engrangeant les courriers de toute une population. Cette base de connaissance une fois constituée, il suffit de trier les « coupables potentiels », la combinaison des différents critères finissant toujours par extraire un « profil stylistique » précis, une sorte d’empreinte digitale de l’écriture. La chasse au corbeau. Le communiqué précise « Afin de tester la précision de leur technique, le professeur Fung et ses collègues ont examiné le Enron Email Dataset, un ensemble de données de plus de 200 000 courriels réellement rédigés par 158 employés d’Enron Corporation. En analysant un échantillon de 10 courriels par sujet (avec 10 sujets au total, soit 100 courriels en tout) ils ont ainsi pu identifier leurs auteurs avec une précision allant de 80 % à 90 % ».
D’un point de vue technique, tout cela rappelle les outils d’analyse de documents ou de conversation mis au point par les « agences à trois lettres » d’outre atlantique, ainsi que, par certains aspects, aux algorithmes bayesiens utilisés par les logiciels antispam… en un peu plus perfectionné. La réelle valeur de la recherche, explique Benjamin Fung, coauteur de l’étude, professeur en ingénierie des systèmes d’information, se situe non pas au niveau des techniques de détermination des points remarquables ou dans le système de tri, mais dans la méthode utilisée tout au long du processus. C’est cette méthode et sa rigueur qui permet d’affirmer que la « preuve » ainsi constituée est recevable juridiquement parlant (du moins selon le cadre légal Canadien).