L’outil d’IA de traduction automatique de Meta aide à surmonter les barrières linguistiques

Aujourd’hui, Meta a annoncé l’élaboration du NLLB-200 « No Language Left Behind » en code source ouvert, un modèle d’IA unique, le premier à traduire 200 langues différentes, dont 55 langues africaines, avec des résultats probants. Meta utilise des techniques de modélisation et des enseignements issus de ce projet pour améliorer et élargir les traductions sur Facebook, Instagram et Wikipedia.

Dans le but de développer des capacités de traduction automatique de bonne qualité pour les langues à faibles ressources à travers le monde, ce modèle d’IA unique a été conçu en priorité pour les langues africaines. Elles sont considérées comme compliquées pour une traduction automatique. Les modèles d’IA nécessitent de nombreuses données pour les aider à décoder, sachant que pour ces langues, il existe peu de données de formation qui sont traduites par un humain. A titre d’exemple, il existe plus de 20 millions de personnes qui parlent et écrivent en Luganda, mais les exemples d’écrits en cette langue sont extrêmement rares sur Internet.

Nous avons collaboré avec plusieurs traducteurs professionnels pour chacune de ces langues afin de développer une référence fiable qui puisse automatiquement évaluer la qualité de la traduction de ces langues à faibles ressources. Nous travaillons également avec des traducteurs professionnels pour effectuer une évaluation humaine, impliquant des personnes natives de ces langues pour évaluer la traduction fournie par l’IA. Cependant la réalité est qu’une poignée de langues dominent le Web, ce qui signifie que seule une partie du monde peut accéder au contenu du Web et y participer dans leurs propres langues. Nous souhaitons changer cela en créant des systèmes de traduction automatique plus inclusifs – des systèmes qui déverrouillent l’accès au Web pour plus de 4 milliards de personnes à travers le monde qui se trouvent actuellement exclues sous prétexte qu’elles ne parlent pas l’une des rares langues dans laquelle le contenu est disponible.

« C’est impressionnant de voir à quel point l’IA améliore l’ensemble de nos services. Nous venons de développer et de mettre en place un modèle d’IA en code source ouvert qui peut traduire prés de 200 langues différentes, dont beaucoup ne sont pas prises en compte par les systèmes de traduction actuels. Nous avons nommé ce projet No Language Left Behind, et les techniques de modélisation de l’IA que nous avons utilisées permettent de réaliser des traductions de bonne qualité pour des langues parlées par des milliards de personnes dans le monde. Pour donner une idée de l’ampleur des choses, ce modèle en 200 langues compte plus de 50 milliards de paramètres, et nous l’avons formé à l’aide de notre nouveau Research SuperCluster, qui est l’une des super-machines de l’IA, les plus rapides au monde. Ces progrès permettront plus de 25 milliards de traductions chaque jour sur nos applications. La communication à travers les langues est une superpuissance fournie par l’IA, mais au fur et à mesure que nous évoluons dans nos projets d’IA, nous améliorons en même temps l’ensemble de nos travaux – de l’affichage des contenus les plus intéressants sur Facebook et Instagram, à la recommandation de publicités les plus pertinentes, en passant par la sécurité de nos services pour tous nos utilisateurs », a déclaré Mark Zuckerberg, PDG de Meta, dans un message sur son profil Facebook.

La langue est notre culture, notre identité et notre survie dans ce monde. Cependant, comme des outils de traduction de bonne qualité n’existent pas pour des centaines de langues, des milliards de personnes aujourd’hui ne peuvent pas accéder au contenu numérique ou participer pleinement aux échanges en ligne, et interagir avec les communautés d’internautes en parlant leur langue préférée ou leur langue maternelle. C’est une réalité qui concerne plus particulièrement les centaines de millions de personnes qui parlent les nombreuses langues d’Afrique.

« L’Afrique est un continent avec une grande diversité linguistique, cependant les barrières linguistiques font partie du quotidien. Nous sommes ravis d’annoncer que 55 langues africaines seront incluses dans cet outil de recherche de traduction automatique, ce qui représente une percée majeure pour notre continent », a déclaré Balkissa Ide Siddo, Directrice des Politiques Publiques pour l’Afrique chez Meta, en parlant du lancement du modèle d’IA. « Imaginez visiter votre groupe Facebook préféré à l’avenir et y retrouver un message en Igbo ou en Luganda, et être capable de le comprendre dans votre propre langue en cliquant simplement sur un bouton – c’est ce résultat que nous escomptons à travers des recherches comme celles-ci. Des traductions précises dans plusieurs langues pourraient également aider à identifier les contenus préjudiciables et la mésinformation, à protéger l’intégrité des élections, et à réduire les cas d’exploitation sexuelle et de trafic humain en ligne. »

Au sujet de l’accessibilité et l’inclusion dans le développement d’un Métavers équitable, Balkissa Ide Siddo a ajouté que « Chez Meta, nous travaillons aujourd’hui pour garantir à autant de personnes que possible l’accès aux nouvelles opportunités éducatives, sociales et économiques que la prochaine évolution de l’Internet apportera à la technologie future et à la vie quotidienne de demain. »

Afin de garantir une bonne qualité des traductions, Meta a également créé un nouvel ensemble de données d’évaluation, FLORES-200 et a mesuré les performances de NLLB-200 dans chaque langue. Les résultats ont révélé que NLLB-200 dépasse la performance de la précédente technologie la plus pointue en la matière de 44 % en moyenne.

Meta a également mis le modèle NLLB-200 en code source ouvert et a développé une multitude d’outils de recherche pour permettre à d’autres chercheurs d’étendre ce travail à d’autres langues et créer des technologies plus inclusives. Meta AI offre également jusqu’à 200 000 $ de subventions à des organisations à but non lucratif pour des applications réelles pour NLLB-200.

Il existe des versions de Wikipédia dans plus de 300 langues, mais la plupart de ces versions disposent de peu d’articles comparés à plus de 6 millions disponibles en anglais. Suite au partenariat de Meta avec la Wikimedia Foundation, l’organisation à but non lucratif qui héberge Wikipédia ainsi que d’autres projets de contenus gratuits, les techniques de modélisation et les enseignements retenus de la recherche NLLB sont désormais appliqués aux systèmes de traduction utilisés par les éditeurs de Wikipédia. À l’aide du Content Translation Tool de Wikimedia Foundation, les articles peuvent désormais être facilement traduits dans plus de 20 langues à faibles ressources (celles ne disposant pas d’assez de données pour former les systèmes d’IA), dont 10 qui auparavant n’étaient prises en compte par aucun outil de traduction automatique sur cette plateforme.

Pour visionner une démonstration de NLLB-200 montrant comment le modèle peut traduire des récits du monde entier, rendez-vous ici. Vous pouvez également lire le document de recherche ici.