Des ingénieurs de l’université de Columbia ont conçu un nouveau modèle IA dont les conclusions pourraient faire vaciller l’un des grands préceptes de la médecine légale : il se trouve que nos empreintes digitales ne sont pas aussi uniques qu’on le pensait.
Les empreintes digitales, c’est un peu l’étalon-or de l’identification ; si l’on trouve deux empreintes laissées par le même doigt sur deux scènes de crime différentes, il s’agit généralement d’une preuve extrêmement solide que la personne était présente aux deux endroits.
Mais le problème devient beaucoup plus complexe lorsqu’un suspect laisse des empreintes de différents doigts. Dans ces conditions, il devient très difficile d’établir un lien solide. Et pour cause : règle générale, on considère donc que les empreintes des différents doigts d’une même personne — les empreintes intrapersonnelles — sont entièrement uniques. Mais les travaux de cette équipe dirigée par le doctorant Gabe Guo viennent remettre cet état de fait en question.
Nos empreintes ne sont pas complètement différentes
Ils ont créé un modèle IA qui rentre dans la catégorie des réseaux contrastifs profonds (ou DCN, pour Deep Contrastive Network). Leur particularité, c’est qu’ils permettent de donner du sens à des données non étiquetées. Cela signifie que contrairement aux réseaux de neurones classiques, les développeurs n’ont pas besoin d’indiquer spécifiquement à l’algorithme ce qu’il doit retenir de chaque élément des données qui servent à l’entraîner.
Par exemple, un modèle de reconnaissance d’image ne peut fonctionner que si on lui indique explicitement à quoi ressemble un chien, un chat, et ainsi de suite. À l’inverse, un DCN compare des paires pour faire ressortir des similitudes et des différences entre les différents éléments sans information préalable.
Les chercheurs ont appliqué cette technique à une base de données publique américaine qui contient environ 60 000 empreintes digitales. La moitié de ces paires appartenaient aux mêmes personnes, mais provenaient de doigts différents. L’autre moitié appartenait à des individus différents.
Au fil des itérations, le système est devenu de plus en plus doué pour déterminer si la première empreinte provenait de la même personne que la seconde, ou à quelqu’un d’autre. En comparant ses résultats aux informations contenues dans la base de données, ils ont déterminé que l’IA arrivait à faire la distinction dans 77 % des cas avec une seule paire d’empreintes, et dans 88 % des cas avec plusieurs paires.
Cela signifie que l’IA a réussi à identifier des motifs qui sont récurrents d’une empreinte à l’autre. En d’autres termes, l’empreinte de votre index n’est pas totalement différente de celle de votre majeur. Il existe des similitudes très subtiles entre les deux.
Une approche différente des systèmes actuels
Le problème, c’est que comme l’archimajorité des modèles IA actuels, ce DCN est une sorte de boîte noire. On connaît la nature des données qu’on lui donne à manger, on obtient un résultat à la sortie, mais il est très difficile de déterminer sur quoi l’algorithme s’est basé pour arriver à sa conclusion. Dans ce cas précis, cela signifie qu’on ne sait pas exactement ce qui a permis au modèle de déterminer que certaines paires d’empreintes appartenaient à la même personne.
Ils se sont donc embarqués dans un long travail d’investigation empirique où ils ont minutieusement analysé la méthodologie de leur programme, point par point. Et contre toute attente, ils pensent avoir trouvé la réponse. Selon eux, si l’algorithme s’est montré aussi performant, c’est parce qu’il a trouvé une approche radicalement différente des méthodes de comparaison d’empreintes actuelles.
Aujourd’hui, ces techniques reposent en grande partie sur l’analyse de ce que les spécialistes appellent des minuties — les points où les crêtes des empreintes bifurquent, se terminent ou se chevauchent. À la place, le DCN s’est concentré sur l’angle et la courbure des crêtes au niveau de la singularité, c’est-à-dire au centre de l’empreinte.
Un système pas encore mature, mais très prometteur
Ces travaux pourraient avoir des retombées significatives. En exploitant ces motifs que les systèmes actuels ne savent pas reconnaître, les forces de l’ordre pourraient par exemple conclure de vieilles enquêtes qui n’ont jamais été résolues par manque d’empreintes laissées par les mêmes doigts.
Pourtant, le papier de recherche a été refusé par une grande revue de médecine légale. L’expert qui a examiné les travaux des chercheurs leur a répondu qu’il était « de notoriété publique que chaque empreinte est unique ». Il en a conclu que leur algorithme avait été victime d’une hallucination, un glitch d’un modèle IA convaincu d’avoir trouvé une relation qui n’existe pas dans la réalité.
Ils ont donc poussé l’entraînement encore plus loin en lui fournissant davantage d’empreintes, et ont obtenu des résultats toujours aussi convaincants. Leur étude a finalement été acceptée par une autre revue grâce à l’intervention d’un expert, qui a fait appel après un nouveau rejet. « Normalement, je ne débats pas des décisions éditoriales. Mais cette découverte était trop importante pour être ignorée », explique Hod Lipson, professeur d’ingénierie mécanique à Columbia.
Les chercheurs reconnaissent ouvertement que leur système n’est pas encore assez mature pour être utilisé dans de vraies enquêtes, avec des conséquences très importantes pour la vie des personnes concernées. Il n’y a d’ailleurs aucune garantie qu’il sera un jour suffisamment précis. Mais le potentiel de cette approche laisse songeur, et montre que cette piste mérite d’être explorée.
« Imaginez à quel point ce système pourrait être performant s’il était entraîné sur des millions plutôt que sur des milliers d’empreintes », explique Aniv Ray, co-auteur de l’étude. « Si cette information fait pencher la balance, on peut imaginer que de vieilles affaires pourraient être ouvertes à nouveau », suggère Lipson. « Peut-être même que des innocents pourraient être acquittés ».
Le texte de l’étude est disponible ici.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.