Desarrollador chino lanza modelo multimodal que unifica video, imagen y texto



La Academia de Inteligencia Artificial de Beijing (BAAI, por sus siglas en inglés), lanzó el Emu3, un modelo de mundo multimodal que combina la comprensión y generación de modalidades de texto, imagen y video con la predicción del sucesivo token.

Emu3 válida con éxito que la predicción del siguiente token, puede servir como un poderoso paradigma para modelos multimodales, que van más allá de los modelos de lenguaje y brindan un rendimiento de vanguardia en tareas, dijo director de la BAAI, Wang Zhongyuan, en un comunicado de prensa.

«Al tokenizar imágenes, texto y videos en un espacio discreto, entrenamos un solo transformador desde cero en una mezcla de secuencias multimodales», explicó Wang, y agregó que Emu3 elimina por completo la necesidad de enfoques de difusión o composición.

Emu3 supera a varios modelos de tareas específicas bien establecidos, tanto en tareas de generación como de percepción. Profesionales de la tecnología han dicho que ha surgido una nueva oportunidad para explorar la multimodalidad a través de una arquitectura unificada, que elimina la necesidad de combinar modelos de difusión complejos con grandes modelos de lenguaje. «En el futuro, el modelo de mundo multimodal promoverá aplicaciones de escenarios como cerebros robóticos, conducción autónoma, diálogo multimodal e inferencia», dijo Wang.