Wikipédia 2.0
Les ingénieurs qui travaillent sur ce projet depuis 2011 maintenant ont réalisé de belles avancées ces dernières années. À la fin du mois de janvier dernier, cette division du géant américain a annoncé avoir créé un programme qui était tout à fait capable de rédiger, de façon autonome, des articles pour Wikipédia.
C’est dans un long papier qu’ils ont récemment partagé que plusieurs ingénieurs du département Google Brain expliquent que les articles publiés sur l’encyclopédie universelle du web pouvaient être générés par leur intelligence artificielle. Selon eux, « les articles parus sur Wikipédia peuvent être perçus comme des résumés de plusieurs documents sources ». Ainsi, un programme a été fondé se basant sur deux types de sources pour un sujet donné :
- Dans un premier temps, il prend en compte les dix premières pages des résultats pour un mot clé sur le moteur de recherche Google.
- Ensuite, il s’attaque aux différents liens placés dans la partie « référence » des articles Wikipédia autour d’un sujet donné.
Ce processus en deux étapes est « inspiré de la façon dont les humains résument de longs documents, en mettant d’abord en évidence les informations importantes puis en générant un résumé fondé sur les informations retenues » explique le document. Bien évidemment, il arrive que la quantité de texte utilisée comme source soit très (trop) importante. C’est pour cela que l’IA sélectionne de façon indépendante un sous-ensemble de données parmi celles qui sont les plus importantes.
De bons retours
Dans une interview accordée au site The Register, Mohammad Saleh, ingénieur du département Google Brain, explique qu’il est nécessaire que leur outil soit capable de réaliser une « synthèse extractive ». En clair, le logiciel doit pouvoir générer des résumés à partir de longues séquences afin d’être réellement intéressant. Il devra également savoir reconnaître les informations qui ne sont pas assez intéressantes pour figurer sur la page Wikipédia. Néanmoins, les premiers résultats sont prometteurs :
Actuellement, la méthode d’écriture développée via Google Brain obtient des résultats plus que satisfaisants: 4,5 sur 5 pour la clarté et la précision, 4,2 pour l’absence de répétitions et la structure, et enfin 4,6 pour la grammaire. Mais il existe encore de nombreuses limites.
L’IA n’arrive pas à déceler les articles « non objectifs » des véritables sources d’informations tout comme elle ne sait pas encore reconnaitre les nombreuses fake news. De plus, le logiciel ne sait pas encore rédiger « seul » un article puisqu’il faut nécessairement qu’il s’appuie sur des résultats créés auparavant par des humains. Autant de problématiques sur lesquels comptent travailler les ingénieurs de Google Brain dans les prochains mois.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
C’est déjà le cas depuis longtemps !! Et pas seulement pour Wikipédia…😉
Article vraiment très intéressant !
Savez-vous dans le détail quels algorithmes sont à l’origine de ce travail de rédaction ? J’ai récemment lu dans un article que l’algo Universal Sentence Encoder était capable de réaliser plusieurs tâches dans la compréhension des contenus textuels complexes, mais pas sûr que ce soit celui-ci…