Clicky

Tacotron 2: generación de voz humana a partir del texto

Categoría: Noticias de Internet
Visitas: 18309
Tacotron 2

Google ofrece actualizaciones sobre su sistema texto a voz similar a la humana

Google ha ofrecido esta semana a los interesados entusiastas de la tecnología una actualización de su sistema Tacotron de texto a voz a través de una publicación de blog. En la publicación, el equipo describe cómo funciona el sistema y ofrece algunas muestras de audio, que Ruoming Pang y Jonathan Shen, autores de la publicación, afirman que son comparables a las grabaciones profesionales según lo juzgado por un grupo de oyentes humanos.

Los autores también han escrito un documento con el resto de sus compañeros de equipo de Google describiendo sus trabajos, y lo han publicado en el servidor de preimpresión arXiv.

Durante muchos años, los científicos han estado trabajando para que el habla generada por computadora suene más humana y menos robótica. Una parte de esa misión es desarrollar aplicaciones de texto a voz (TTS), como señalan los autores. La mayoría de las personas ha escuchado los resultados de los sistemas TTS, como los sistemas de voz automatizados que utilizan muchas corporaciones para las llamadas de los clientes de campo.

En este nuevo esfuerzo, el grupo de Google ha combinado lo que aprendió de sus proyectos Tacotron y WaveNet para crear Tacotron 2, un sistema que lleva la ciencia a un nuevo nivel. Al escuchar las muestras proporcionadas, es bastante difícil y a veces imposible saber si una voz es una voz de un ser humano o un sistema TTS.

En los siguientes ejemplos, uno es generado por Tacotron 2, y uno es la grabación de un humano, pero ¿cuál es cuál? "That girl did a video about Star Wars lipstick (Esa chica hizo un vídeo sobre el lápiz labial Star Wars)". Crédito: Google



Para alcanzar este nuevo nivel de precisión, el equipo de Google utilizó un modelo de secuencia a secuencia optimizado para trabajar con TTS: asigna arreglos de letras a una serie de características que describen el audio. El resultado es un espectrograma de 80 dimensiones.

Ese espectrograma se usa luego como entrada a un segundo sistema que emite una forma de onda de 24 kHz utilizando una arquitectura basada en WaveNet. Ambas son redes neuronales formadas con ejemplos de habla (de aplicaciones de crowdsourcing como Amazon Mechanical Turk) y sus transcripciones correspondientes.

El nuevo sistema puede incorporar volumen, pronunciación, entonación y velocidad, lo que permite la creación de una voz mucho más humana.

El equipo también señala que todavía están trabajando para mejorar el sistema, sobre todo para superar problemas con palabras complejas y hacer que funcione en tiempo real. También les gustaría agregar más emoción a la voz para que los oyentes puedan escuchar la felicidad o la tristeza, por ejemplo, o para detectar el disgusto. Hacerlo no solo haría avanzar a la ciencia, sino que haría que las interacciones con los asistentes digitales fueran más íntimas.

Más información: Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions