Clicky

Meta lanza cuatro nuevos modelos de IA disponibles públicamente para uso de desarrolladores

IA texto a audio

Convierten texto en representaciones visuales

Un equipo de investigadores de IA del equipo de Investigación Fundamental de IA de Meta está poniendo a disposición del público cuatro nuevos modelos de IA para investigadores y desarrolladores que crean nuevas aplicaciones. El equipo publicó un artículo que describe uno de los nuevos modelos, JASCO, y cómo podría usarse.

A medida que crece el interés en las aplicaciones de IA, los principales actores en el campo están creando modelos de IA que otras entidades pueden utilizar para agregar capacidades de IA a sus propias aplicaciones. En este nuevo esfuerzo, el equipo de Meta ha puesto a disposición cuatro nuevos modelos: JASCO, AudioSeal y dos versiones de Chameleon.

JASCO ha sido diseñado para aceptar diferentes tipos de entrada de audio y crear un sonido mejorado. El modelo, dice el equipo, permite a los usuarios ajustar características como el sonido de la batería, los acordes de la guitarra o incluso las melodías para crear una melodía. El modelo también puede aceptar entrada de texto y lo usará para darle sabor a una melodía.

Un ejemplo sería pedirle al modelo que genere una melodía de blues con mucho bajo y batería. Luego seguirían descripciones similares sobre otros instrumentos. El equipo de Meta también comparó JASCO con otros sistemas diseñados para hacer prácticamente lo mismo y descubrió que JASCO los superó en tres métricas principales.

JASCO

Imagen: JASCO es un modelo de generación de texto a música controlado temporalmente que utiliza condiciones tanto simbólicas como basadas en audio.

AudioSeal se puede utilizar para agregar marcas de agua al habla generada por una aplicación de inteligencia artificial, lo que permite identificar fácilmente los resultados como generados artificialmente. Señalan que también se puede utilizar para marcar segmentos de voz de IA que se han agregado a la voz real y que vendrá con una licencia comercial.

Los dos modelos Chameleon convierten texto en representaciones visuales y se lanzan con capacidades limitadas. Las versiones, 7B y 34B, señala el equipo, requieren que los modelos adquieran una sensación de comprensión tanto del texto como de las imágenes. Por eso, pueden realizar procesamiento inverso, como generar títulos de imágenes.

Puedes probar JASCO en esta página de demostración.

El artículo se ja publicado en el servidor de preimpresión arXiv: Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation

Jesus_Caceres