Meta está decidida a que ningún idioma se quede atrás y así favorecer la comunicación de sus usuarios independientemente del idioma que hablen. Y es que la compañía, antes Facebook, fundada por Mark Zuckerberg, ha presentado su proyecto NLLB-200 (No Language Left Behind), un nuevo modelo que es capaz de traducir 200 idiomas diferentes con capacidad de primer nivel.
Los encargados de desarrollar este proyecto ha sido la división de Inteligencia Artificial de la compañía, Meta AI, y promete mejorar las traducciones en Facebook e Instagram, entre otras.
El NLLB-200 es capaz de traducir a 200 idiomas, entre ellos muchos idiomas que o no existían en los sistemas de traducción o que no funcionaban correctamente. De hecho, Meta ha incluido 55 idiomas africanos, cuando en otros traductores actuales sólo se encuentran unos 25 idiomas de ese continente.
Meta ha publicado en código abierto el modelo NLLB-200 y otras herramientas para que los investigadores puedan acceder a ellos y diseñar tecnologías más inclusivas.
Tal es su intención, que Meta quiere dar subvenciones de hasta 200.000 dólares a ONGs que quieran aplicar esta nueva tecnología en entornos reales.
El objetivo de Meta es que los avances que se realicen dentro de NLLB-200 se usen para proporcionar más de 25.000 millones de traducciones todos los días en la sección de noticias de Facebook, Instagram y otras plataformas, para que así cualquiera pueda entender lo que se publica en otro sitio, haciendo el acceso a la información aún más global.
Pero Meta se ha encontrado con algunos desafíos por el camino. Y es que los sistemas de traducción automática están entrenados en datos. Esto consiste en millones de oraciones cuidadosamente combinadas entre idiomas. El problema estriba en que no hay grandes volúmenes de oraciones paralelas en la combinación inglés y fula, por ejemplo. Los modelos actuales de traducción intentan superar esta barrera extrayendo datos de la web, pero los resultados suelen ser de mala calidad porque el texto de origen es diferente para cada uno de los idiomas. Además, a menudo está lleno de faltas de ortografía o les faltan acentos u otros signos característicos de ese idioma.
Para solventar estos desafíos, Meta anunció un modelo de traducción M2M-100 de cien idiomas que aprovechó nuevos métodos para adquirir datos de entrenamiento, nuevas arquitecturas para escalar el tamaño del modelo sin comprometer el rendimiento y nuevas formas de evaluar y mejorar los resultados. Para recopilar los textos paralelos se mejoró LASER, el conjunto de herramientas para la transferencia de disparo cero en el procesamiento del lenguaje natural.
Se mejoró su rendimiento mediante el uso de un procedimiento de capacitación de maestros y estudiantes y la creación de codificadores específicos para grupos de idiomas, lo que permitió escalar la cobertura de idiomas y producir cantidades masivas de pares de oraciones, incluso para idiomas de bajos recursos.
El grupo de investigación revisó también los datos para filtrar los resultados y eliminar el ruido para conseguir algo de mejor calidad.
Meta ha mencionado que se han asociado con Wikimedia Foundation para ayudar a mejorar sus sistemas de traducción, llevando los artículos a más de 20 idiomas de bajos recursos.
Lo positivo de utilizar tecnología de Inteligencia Artificial a la hora de traducir es que permite que idiomas similares puedan compartir datos durante su entrenamiento, mejorando así la calidad de su traducción.
Este proyecto también puede facilitar el avance de otras tecnologías, como crear asistentes que funcionen bien en idiomas menos populares, así como crear sistemas para añadir subtítulos en idiomas como swahili u oromo para las películas de Bollywood, ha indicado Meta en un comunicado.