Archivos de Autor: Ana Lacasa

Meta presenta NLLB-200, la nueva IA capaz de traducir hasta 200 idiomas diferentes


Meta está decidida a que ningún idioma se quede atrás y así favorecer la comunicación de sus usuarios independientemente del idioma que hablen. Y es que la compañía, antes Facebook, fundada por Mark Zuckerberg, ha presentado su proyecto NLLB-200 (No Language Left Behind), un nuevo modelo que es capaz de traducir 200 idiomas diferentes con capacidad de primer nivel.

Los encargados de desarrollar este proyecto ha sido la división de Inteligencia Artificial de la compañía, Meta AI, y promete mejorar las traducciones en Facebook e Instagram, entre otras. 

El NLLB-200 es capaz de traducir a 200 idiomas, entre ellos muchos idiomas que o no existían en los sistemas de traducción o que no funcionaban correctamente. De hecho, Meta ha incluido 55 idiomas africanos, cuando en otros traductores actuales sólo se encuentran unos 25 idiomas de ese continente.

Meta ha publicado en código abierto el modelo NLLB-200 y otras herramientas para que los investigadores puedan acceder a ellos y diseñar tecnologías más inclusivas. 

Tal es su intención, que Meta quiere dar subvenciones de hasta 200.000 dólares a ONGs que quieran aplicar esta nueva tecnología en entornos reales.

El objetivo de Meta es que los avances que se realicen dentro de NLLB-200 se usen para proporcionar más de 25.000 millones de traducciones todos los días en la sección de noticias de Facebook, Instagram y otras plataformas, para que así cualquiera pueda entender lo que se publica en otro sitio, haciendo el acceso a la información aún más global.

Pero Meta se ha encontrado con algunos desafíos por el camino. Y es que los sistemas de traducción automática están entrenados en datos. Esto consiste en millones de oraciones cuidadosamente combinadas entre idiomas. El problema estriba en que no hay grandes volúmenes de oraciones paralelas en la combinación inglés y fula, por ejemplo. Los modelos actuales de traducción intentan superar esta barrera extrayendo datos de la web, pero los resultados suelen ser de mala calidad porque el texto de origen es diferente para cada uno de los idiomas. Además, a menudo está lleno de faltas de ortografía o les faltan acentos u otros signos característicos de ese idioma. 

Para solventar estos desafíos, Meta anunció un modelo de traducción M2M-100 de cien idiomas que aprovechó nuevos métodos para adquirir datos de entrenamiento, nuevas arquitecturas para escalar el tamaño del modelo sin comprometer el rendimiento y nuevas formas de evaluar y mejorar los resultados. Para recopilar los textos paralelos se mejoró LASER, el conjunto de herramientas para la transferencia de disparo cero en el procesamiento del lenguaje natural.

Se mejoró su rendimiento mediante el uso de un procedimiento de capacitación de maestros y estudiantes y la creación de codificadores específicos para grupos de idiomas, lo que permitió escalar la cobertura de idiomas y producir cantidades masivas de pares de oraciones, incluso para idiomas de bajos recursos. 

El grupo de investigación revisó también los datos para filtrar los resultados y eliminar el ruido para conseguir algo de mejor calidad. 

Meta ha mencionado que se han asociado con Wikimedia Foundation para ayudar a mejorar sus sistemas de traducción, llevando los artículos a más de 20 idiomas de bajos recursos. 

Lo positivo de utilizar tecnología de Inteligencia Artificial a la hora de traducir es que permite que idiomas similares puedan compartir datos durante su entrenamiento, mejorando así la calidad de su traducción.

Este proyecto también puede facilitar el avance de otras tecnologías, como crear asistentes que funcionen bien en idiomas menos populares, así como crear sistemas para añadir subtítulos en idiomas como swahili u oromo para las películas de Bollywood, ha indicado Meta en un comunicado.

Twitch permitirá a los creadores tener hasta cinco invitados en sus retransmisiones

Twitch está de estreno. Y es que la plataforma que ha cosechado un éxito rotundo por sus retransmisiones en directo de, sobre todo, videojuegos, ha presentado una nueva función que permitirá a sus creadores de contenido invitar hasta cinco personas diferentes en su retransmisión.

Esta función, bautizada como Guest Star, ha sido anunciada por Twitch en un nuevo episodio de Twitch Patch Notes, llamado Be our guest, en donde han dicho que se estrenará entre un grupo reducido de creadores de contenido a finales de verano, pero se espera que llegue antes de finales de año para los creadores con su número de teléfono verificado.

Guest Star permitirá a los creadores de contenido de Twitch invitar hasta a cinco personas a su retransmisión en vivo, independientemente de si son otros creadores o incluso espectadores del evento.

En este último caso, los espectadores que tengan la suerte de participar en la retransmisión de Twitch tendrán la oportunidad de solicitarlo al levantar la mano virtual para que así el creador sepa que quieren participar. 

Pero no será a ciegas, ya que los creadores tendrán la información necesaria para saber a quién invitan a su evento. En concreto, contarán con la información sobre la antigüedad del usuario en la plataforma, cuánto tiempo lleva siguiendo sus contenidos o si ha habido algún chat previo que pueda ser interesante.

Los invitados entrarán a una especie de backstage para que el creador pueda charlar con ellos y finalmente decidirá si entran o no en la retransmisión.

Parti, la nueva tecnología de Google que genera imágenes a partir de texto

La Inteligencia Artificial está siendo clave para el desarrollo de las nuevas tecnologías y puede hacer cosas fuera de lo normal. Google sabe usarla perfectamente y prueba de ello es la última tecnología que acaba de presentar: Parti (Pathways Autoregressive Text-to-Image), una herramienta capaz de convertir largos párrafos de texto en imágenes, gracias a modelos avanzados de lenguaje. Y con una interesante aplicación en el ámbito de la educación.

Parti es un modelo de generación de texto a imagen autorregresivo que logra la generación de imágenes fotorrealistas de alta fidelidad y que admite una síntesis rica en contenido que involucra composiciones complejas y conocimiento del mundo.

Hay que recordar que Google presentó hace no mucho Imagen, un modelo basado también en la Inteligencia Artificial que es capaz de crear imágenes de gran realismo a partir de breves descripciones de texto. Pero ahora, con Parti, la cosa va más allá y esta tecnología permite generar imágenes a partir de texto más elaborado, por lo que, según indica Google en la web de Parti, son complementarios en la exploración de dos familias diferentes de modelos generativos, autorregresivos y de difusión respectivamente, lo que abre interesantes oportunidades para las combinaciones de estos dos modelos.

Los resultados de destino de Parti son secuencias de tokens de imagen en lugar de tokens de texto en otro idioma. Para ello, Parti utiliza el tokenizador de imágenes Vit-VQGAN que es capaz de codificar imágenes con secuencias de tokens discretos y aprovecha su capacidad para reconstruir tales secuencias de tokens como imágenes visualmente diversas de alta calidad.

Los investigadores de Google realizaron comparaciones detalladas de cuatro escalas de modelos Parti (350M, 750M, 3B y 20B) y se observó que hay mejoras consistentes y sustanciales en las capacidades del modelo y la calidad de la imagen de salida. Asimismo, se observó que el modelo 20B sobresale en indicaciones que son abstractas, requieren conocimiento del mundo, perspectivas específicas o escritura y representación de símbolos.

De acuerdo con Google, con Parti se puede administrar indicaciones largas y complejas que lo requieren para reflejar con precisión el conocimiento del mundo, componer muchos participantes y objetos, con detalles e interacciones detallados y adherirse a un formato y estilo de imágenes específicos.

Para poder realizarlo, Google cuenta con PartiPrompts, que es un conjunto de más de 1.600 indicaciones en inglés que se puede utilizar para medir las capacidades del modelo en varias categorías y aspectos. 

Google ha informado que los modelos actuales como Parti están entrenados en grandes conjuntos de datos de imagen y texto, a menudo ruidosos, que se sabe que contienen sesgos con respecto a personas de diferentes orígenes. La compañía ha puesto un ejemplo de que Parti podría producir representaciones estereotipadas de, por ejemplo, abogados, amas de casa, o asistentes de vuelo, entre otras cosas. 

Por todo ello, desde Google han decidido no divulgar los modelos, códigos o datos de Parti para uso público sin medidas de seguridad adicionales. También proporcionan una marca de agua Parti en todas las imágenes que se publican y han prometido seguir trabajando en estrategias más cuidadosas de medición y mitigación del sesgo del modelo

Screencasts, la nueva herramienta de Google para grabar y transmitir vídeos en Chromebooks

El gigante tecnológico Google continúa trabajando para el sector de la educación, que se ha visto forzado a utilizar las nuevas tecnologías a raíz del confinamiento y la pandemia de coronavirus y que finalmente se han quedado tras la vuelta a la normalidad. Y es que la compañía de Mountain View acaba de presentar nuevas herramientas para su Chromebook, como su app Screencast a través de la cual los profesores pueden grabar, recortar, transcribir y compartir lecciones o demostraciones para crear una biblioteca personalizada de grabaciones.

Pero esta app, integrada en Chrome OS, no está sólo destinada a los profesores, sino que también los estudiantes pueden crear sus propios screencasts para compartir sus ideas y lo que han aprendido, sin olvidar la posibilidad de acceder a las lecciones que se han perdido por cualquier motivo.

Asimismo, los usuarios pueden dibujar o escribir en la pantalla usando una pantalla táctil o un lápiz óptico para diagramar o ilustrar conceptos clave.

Las grabaciones se almacenan en Google Drive y se puede acceder a ellas a través de un enlace en la app Screencast, independientemente de si se está en clase o en casa.

Ahora bien, Google ha señalado en un comunicado que se puede acceder a esta herramienta siempre y cuando se actualice a la versión M103 de su sistema operativo.

Otra de las novedades que ha presentado Google es el Cast Moderator, una herramienta que permite a los usuarios compartir su pantalla y llevar el contenido a una pantalla central. Eso sí, esta herramienta necesita una contraseña de acceso seguro para que sólo los alumnos que dispongan de la misma puedan acceder a la clase o el vídeo compartido por el profesor. Los alumnos necesitarán acceder a través de esa clave, aunque los profesores podrán tener anclada la clave para que sea más fácil conectarse.

Los profesores también podrán desactivar transmisiones de otros dispositivos a través del control remoto o bien desde su propio Chromebook, para así evitar comportamientos disruptivos durante las clases.

Esta nueva herramienta está todavía en proceso de pruebas en un programa que se está llevando a cabo en colegios de verano, y Google ha invitado a todos aquellos que quieran participar en estas pruebas a unirse a través de la web.

Google también ha informado de que están trabajando con desarrolladores como Figma, el software de diseño colaborativo basado en navegador líder, para optimizar sus productos para Chromebooks y ejecutar programas piloto en aulas reales. 

Google ha anunciado una versión beta gratuita de Figma para escuelas de Secundaria en Estados Unidos que utilizan Chromebooks.

Seis de cada diez españoles suspenden en ortografía

Las faltas de ortografía son el calvario de muchos estudiantes y también de muchas personas adultas. Y parece que esta tarea, que se enseña desde la educación Primaria, sigue dando dolores de cabeza a muchos. Y es que seis de cada diez españoles suspenden en ortografía y tampoco recuerdan las reglas morfológicas.

Así se desprende del informe Smartick 2022: Dominio de la comprensión lectora y gramática en la que han participado expertos de la Universidad de Málaga, Universidad de Oviedo y la Universidad Autónoma de Madrid, analizando las respuestas a un reto en el que han participado 18.555 personas, 10.000 de ellas en España, de diferentes edades y con distinto grado de formación.

Este informe establece que, a pesar de que España sólo ha conseguido un aprobado raspado, es el país con mejor nota, ya que ha sacado un 5,6, seguida de Chile, con un 5,2 y Perú, con un cinco. Por su parte, México y Colombia no consiguen aprobar el test, con un 4,9 y un 4,6 respectivamente.

Este test ha analizado diferentes áreas del conocimiento dentro del ámbito de la comprensión lectora, una habilidad que es fundamental en el proceso formativo de las personas independientemente de la edad o del nivel educativo y que parece que es la asignatura pendiente de muchas. 

En concreto, el informe habla de la comprensión lectora, habilidad en la que España destaca con un 83,6 por ciento de las respuestas correctas, seguida de Chile, con un 73,2 por ciento, Colombia, con un 71,1 por ciento, Mëxico, con un 70,7 por ciento y Perú, con un 65,9 por ciento.

En cuanto al perfil de los mejores en comprensión lectora, el informe establece que son las del rango de edad de entre los 40 y 49 y el de los 30 a los 39 años. En cambio, los niños de entre cuatro y once años tienen más dificultades en este ámbito, aunque tiene su explicación ya que están en pleno proceso de aprendizaje. 

En relación a la ortografía, el informe destaca que hay un suspenso generalizado en esta materia. Y es que todos los usuarios, independientemente del país de donde procedan, no han llegado a superar la prueba. De hecho, los españoles sólo consiguen el 45,1 por ciento de los aciertos, seguidos de los mexicanos, con un 43,7 por ciento, los peruanos, con un 41,9 por ciento, los chilenos, con un 40,8 por ciento y los colombianos, que están a la cola con un 36 por ciento.

La premisa de que los jóvenes tienen más faltas de ortografía debido al uso de las nuevas tecnologías se cumple en España. Y es que los jóvenes de entre 19 y 24 años logran sólo un 42,6 por ciento de las respuestas correctas, mientras que los mayores de 60 años consiguen el aprobado con un 54 por ciento de aciertos.

Otro de los aspectos analizados por el informe es la morfosintaxis. En este ámbito, el de la formación de las palabras y la relación entre ellas para formar oraciones, España sigue a la cabeza, con un 59,7 por ciento de aciertos, seguida de Perú, con un 52,9 por ciento y Chile, con un 52,7 por ciento.  Colombia y México no consiguen el aprobado, ya que sólo consiguieron un 48,5 por ciento y un 47 por ciento respectivamente.

En este aspecto, el perfil de los participantes de entre cuatro y once años obtuvieron los peores resultados, mientras que los mejores resultados los obtienen los participantes de entre 50 y 59 años.

Ahora bien, los peores resultados en el reto de lectura de Smartick se han obtenido en la categoría de morfología, donde ningún país aprueba. Eso sí, España sigue en cabeza con un 41,4 por ciento, seguido de Chile, con un 40,3 por ciento, Perú, con un 38,8 por ciento, México, con un 35,8 por ciento y en última posición Colombia con un 32,5 por ciento.

Al contrario que en otros aspectos, los participantes de entre cuatro y once años han conseguido los mejores resultados, con un 57,2 por ciento, seguidos de los de entre 12 y 19 años, con un 48,3 por ciento. 

Daniel González de Vega y Javier Arroyo, fundadores de Startick han indicado en un comunicado que “entender y comprender la lengua es importante para poder alcanzar objetivos académicos en todas las áreas”. Han añadido también que “es esencial que se cambie la forma que tenemos de enseñar”.

Meta dará información sobre los anuncios de campañas políticas a investigadores académicos

Conocer el impacto en la sociedad de los anuncios de las campañas políticas, electorales y de temática social. Ese es el objetivo que tiene Facebook, o mejor dicho Meta, ya que la compañía fundada por Mark Zuckerberg empezará a compartir más datos sobre este tipo de publicidad con investigadores académicos para conseguir esta finalidad.

Esta nueva manera de compartir los datos de los anuncios y su impacto en Facebook se realizará a través de la información detallada de orientación para anuncios electorales, políticos o de temas sociales. Y serán los investigadores académicos examinados a través del entorno de Investigación Abierta y Transparencia de Facebook, que se creó para permitir que investigadores cualificados estudien el impacto de las redes sociales en la sociedad.

Eso sí, desde Facebook han prometido en un comunicado que la privacidad de los usuarios está garantizada, ya que incluyen medidas para protegerla. 

Meta también ha recordado que esta es una expansión de un programa piloto que comenzó su andadura el año pasado y que brindó información de orientación para anuncios de esta temática previos a las elecciones de Estados Unidos de 2020.

Los investigadores podrán acceder a la información y datos de este tipo de campañas publicados a nivel mundial desde agosto de 2020.

Asimismo, Meta cuenta con una biblioteca de anuncios que estará disponible de manera pública y que incluirá un resumen de información de orientación para este tipo de anuncios que se publiquen después del lanzamiento, incluyendo los datos sobre la cantidad total de anuncios sociales, electorales y políticos que una página ejecutó utilizando cada tipo de orientación.

Meta también dará información sobre si una página usó audiencias personalizadas o similares.

La red social confía en que al dar a conocer todos estos datos se pueda ayudar a las personas a comprender mejor las prácticas utilizadas para llegar a los votantes potenciales a través de sus tecnologías.