Clicky

Microsoft no te permitirá utilizar su nueva herramienta IA de voz

Vall-E 2 es tan buena que no es seguro usarla

No es ningún secreto que la IA se está volviendo bastante realista: empresas como OpenAI están creando herramientas que pueden replicar imágenes, audio y vídeos de maneras que cada vez son más difíciles de identificar sobre la marcha como tales.

Pero si bien es bastante malo que algunos de estos programas ya estén disponibles para el público, es preocupante escuchar acerca de una herramienta que es tan buena que se nos está ocultando al resto de nosotros.

Vall-E 2 puede robarte la voz

Como informó TechSpot, Microsoft ha creado una nueva versión de su "modelo de lenguaje de códec neuronal", Vall-E, ahora apropiadamente llamado Vall-E 2. Microsoft detalló los avances de Vall-E 2 en una publicación de blog, destacando algunos hitos clave con este último modelo. Principalmente, Vall-E 2 logra la "paridad humana", lo que parece ser una forma elegante de decir: "Los resultados de nuestro modelo suenan como humanos reales". Da miedo.

Vall-E 2 aparentemente logra dos mejoras clave sobre Vall-E: el nuevo modelo no tiene un problema de "bucle infinito" que tenía el original al procesar tokens repetidos. El nuevo modelo tiene en cuenta tokens repetidos y, por lo tanto, puede decodificar una muestra que los contiene. Además, Vall-E 2 acorta la longitud de una secuencia determinada agrupando códigos de códec, lo que según Microsoft aumenta la velocidad de interferencia y evita problemas que surgen al modelar secuencias largas.

Si todo esto es un poco técnico, tal vez esto no lo sea: Vall-E 2 mejora a Vall-E en "robustez del habla, naturalidad y similitud del hablante" y, según Microsoft, es el primero de su clase en lograr la paridad humana en estas categorías. De hecho, dice la compañía, "VALL-E 2 puede generar un habla precisa y natural con la voz exacta del hablante original, comparable al desempeño humano".

No es solo teoría

No basta con leer sobre Vall-E 2 para creer lo bueno que es: Microsoft ofrece ejemplos de cómo Vall-E 2 puede tomar una grabación de muestra de una voz y replicarla cuando se le solicita con texto nuevo. La compañía también proporcionó ejemplos del modelo completando una oración después de recibir segmentos de una grabación de muestra, en fragmentos de tres, cinco y 10 segundos. Esto demuestra la capacidad del modelo para tomar un ejemplo muy breve de una voz y replicarlo con texto que no aparece en la grabación de muestra original.

Todavía hay muchas peculiaridades que esperarías encontrar con cualquier modelo de conversión de texto a vozconversión de texto a vozconversión de texto a voz (pronunciaciones incorrectas, habla tartamudeada, etc.) pero no hay duda de que los ejemplos de Vall-E 2 no sólo suelen ser realistas, sino que también coinciden bastante con la voz de la muestra original.

Funciona especialmente bien cuando se le da una grabación más larga de una voz: si se le dan tres segundos de una grabación, el resultado sigue siendo impresionante, pero cuando se le da una grabación de cinco o, especialmente, 10 segundos, el resultado puede ser notablemente realista.

Si haces clic en los ejemplos tu mismo, comprueba qué tan bien coincide Vall-E 2 con la grabación de 10 segundos cuando recita "Mi vida ha cambiado mucho (My life has changed a lot)" en "Muestras VCTK (VCTK Samples)". No tengo ninguna experiencia en el entrenamiento de sistemas de IA, pero en mi oído, el modelo capta la voz ronca del orador en la muestra, especialmente después de recibir el clip completo de 10 segundos. Es discordante escuchar al hablante original leer una determinada oración y luego escuchar al modelo pronunciar una nueva oración con una voz que esencialmente coincide con la del hablante.

Los riesgos del Vall-E 2

Pero si todo esto te asusta un poco, no estás solo. Microsoft es consciente de que su modelo podría ser peligroso si se usa maliciosamente: en una declaración de ética al final de la publicación, la compañía reconoce que, si bien Vall-E 2 podría usarse para una variedad de tareas positivas, también podría usarse para hacerse pasar por una persona específica.

Microsoft dice que el modelo está destinado a ser utilizado con usuarios que dan su consentimiento y entienden que su voz está siendo replicada, y que el modelo debe tener un protocolo para verificar el consentimiento antes de procesar una solicitud. Dicho esto, no parece que tal protocolo exista en este momento, lo que probablemente sea la razón por la que Microsoft actualmente "no tiene planes de incorporar VALL-E 2 en un producto o ampliar el acceso al público".

Los ejemplos aquí se basan en muestras de voz de los conjuntos de datos LibriSpeech y VCTK, no en muestras que Microsoft grabó ella misma. Como tal, como observador externo, no está claro cómo funcionaría realmente este modelo si se le dieran grabaciones de, digamos, el presidente Biden, Elon Musk o tu jefe.

Sin embargo, si asumimos que Vall-E 2 puede generar una salida realista cuando se le da una muestra de 10 segundos, imagina cuán realista podría ser su salida cuando se alimenta con horas de muestras. Si a esto le sumamos un sólido modelo de vídeo de IAvídeo de IA, tendremos la tormenta perfecta para generar información errónea, justo a tiempo para las temporadas electorales en todo el mundo.

Jesus_Caceres