Julio 06, 2022
Meta ha anunciado el desarrollo de NLLB-200, un modelo basado en Inteligencia Artificial (IA), capaz de traducir a 200 idiomas diferentes, entre los que se encuentran lenguas como el kambra, el lao o el igbo, que se hablan en distintos países de África.
Los investigadores de Meta AI han desarrollado este sistema como parte de la iniciativa ‘No Language Left Behind’ (NLLB), con la que busca crear funciones de traducción automática avanzadas para la mayoría de los idiomas del mundo.
En concreto, NLLB-200 puede traducir a 200 idiomas que o bien no existían hasta ahora en las herramientas de traducción más utilizadas o bien no funcionaban correctamente, según ha indicado la compañía en un comunicado remitido a Europa Press.
Meta ha puesto en evidencia estas carendias indicando que menos de 25 idiomas de África se incluyen en los traductores actuales, un problema que intenta resolver con este modelo, que incluye 55 idiomas africanos.
La compañía ha publicado en código abierto el modelo NLLB-200 y otras herramientas para que otros investigadores puedan ampliar este trabajo a más idiomas y diseñar tecnologías más inclusivas.
Con ello, ha anunciado que quiere conceder subvenciones de hasta 200.000 dólares a organizaciones sin ánimo de lucro (ONGs) que quieran aplicar esta nueva tecnología en entornos reales.
De ese modo, cree que estos avances podrán proporcionar más de 25 millones de traduciones al día en la sección de noticias de Facebook, Instagram y el resto de las plataformas que desarrolla.
Con esta apuesta por el modelo NLLB-200, Meta también espera ofrecer traducciones precisas que puedan ayudar a detectar contenido dañino e información errónea, así como proteger la integridad en procesos políticos como elecciones o frenar casos de explotación sexual y tráfico de personas en internet.
PROBLEMAS EN LOS SISTEMAS DE TRADUCCIÓN
Tras dar a conocer este modelo de IA, Meta ha mencionado cuáles son los retos a los que se han tenido que enfrentar para desarrollar su nuevo modelo NLLB-200.
En primer lugar, ha recordado que estos servicios se entrenan con datos, un entrenamiento que consiste en millones de oraciones emparejadas entre combinaciones de otras lenguas.
El problema reside en que hay muchas combinaciones para las que no existen oraciones paralelas que puedan servir como traducción, lo que hace que algunas de estas traducciones incluyan errores gramaticales o incoherencias.
Meta ha puntualizado que otra gran dificultad es optimizar un modelo único para que funciona con distintos idiomas sin que eso perjudique o comprometa la traducción.
Además, ha señalado que estos modelos de traducción producen errores difíciles de identificar y, al existir menos conjuntos de datos para lenguas con menos recursos, es complejo probarlos y mejorarlos.
A fin de solucionar estas dificultades, trabajó inicialmente en el modelo de traducción a 100 idiomas M2M-100, que impulsó la creación de nuevos métodos para recabar datos y mejorar los resultados.
Para poder llegar a los 200 idiomas que recoge NLLB-200, Meta AI tuvo que enfocarse principalmente en tres aspectos: la ampliación de los recursos de entrenamiento disponibles, el ajuste del tamaño del modelo sin renunciar al rendimiento y las herramientas de mitigación y evaluación para 200 idiomas.
En primer lugar, la compañía ha señalado que, para recopilar textos paralelos para las traducciones más precisos en otros idiomas, ha mejorado su herramienta de representacions de oraciones agnósticas del lenguaje (LASER). de transferencia ‘zero-shot’.
En concreto, la nueva versión de LASER utiliza un modelo Transformer entrenado con supervisión automática. Además, la compañía ha anunciado que ha mejorado el rendimiento utilizando un modelo basado en el aprendizaje profesor alumno y creando codificadores específicos para cada grupo de idiomas.
Asimismo, para crear formas gramaticales concretas y correctas, ha desarrollado listas de toxicidad para los 200 idiomas y las ha tulizado para evaluar y filtrar errores a fin de reducir el riesgo de la llamada ‘toxicidad por alucinaciones’. Esto ocurre cuando el sistema introduce, de manera errónea, contenido problemático durante las traducciones.
Por otra parte, la compañía ha reconocido que aún quedan «grandes retos por delante» para ampliar el modelo de 100 a 200 idiomas» y se ha centrado especialmente en tres aspectos: regularizaicón y aprendizaje curricular, aprendizaje de supervisión automática y diversficación de la retrotraducción (esto es, volver a traducir lo preciamente traducido al idioma de origen).
Finalmente, se ha presentado FLORES-200, un conjunto de datos de evaluació que permite a los investigadores evaluar el rendimiento de su último modelo basado en IA en más de 40.000 direcciones entre idiomas diferentes.
En concreto, FLORES-200 se puede utilizar en diferentes ámbitos, como folletos informatuivos de salud o contenido cultural (películas o libros) en países o regiones donde se hablen idiomas con pocos recursos.
«Creemos que NLLB puede contribuir a la preservación de las diferentes lenguas a la hora de compartir contenido, en lugar de usar una como intermediaria, lo que puede llevar a una idea errónea o transmitir un sentimiento que no era el que se pretendía», ha puntualizado Meta en este comunicado.
Para que otros investigadores puedan conocer el método de incrustación miltilingüe de LASER3, ha publicado en código abierto este programa, al igual que FLORES-200.
TRABAJO CON WIKIPEDIA
Con el objetivo de crear una herramienta accesible para todos los usuarios, la tecnológica ha anunciado que está colaborando con la Fundación Wikipedia, la organización sin ánimo de lucro que proporciona el servidor a Wikipedia y otros proyectos de acceso gratuito.
Meta considera que existe un gran desequilibrio en torno a la disponibilidad de los distintos idiomas que se hablan en todo el mundo que alberga este servicio. Para ello, ha puesto el ejemplo que existe entre los 3260 artículos de Wikipedia escritos en lingala (un idioma hablado por 45 millones de personas en países africanos) y los 2,5 millones de publicaciones escritas en sueco (una lengua que solo hablan 10 millones de personas en Suecia y Finlandia).
Asimismo, ha incidido en que los editores de Wikipedia están utilizando la tecnología NLLB-200 a través de la herramienta de traducción de contenidos de la Fundación Wikimedia para traducir sus entradas a más de 20 idiomas con pocos recursos.
Estos son los que no disponen de conjuntos de datos lo suficientemente abundantes para entrenar los sistemas de IA. Entre ellos, se incluyen 10 idiomas que anteriormente no estaban disponibles.
Con información de Europapress/portaltic