Tacotron 2: generación de voz humana a partir del texto

Tacotron 2: generación de voz humana a partir del texto
Tacotron 2
Modificado por última vez en Sábado, 30 Diciembre 2017 01:44
(0 votos)

Google ofrece actualizaciones sobre su sistema texto a voz similar a la humana

Google ha ofrecido esta semana a los interesados entusiastas de la tecnología una actualización de su sistema Tacotron de texto a voz a través de una publicación de blog. En la publicación, el equipo describe cómo funciona el sistema y ofrece algunas muestras de audio, que Ruoming Pang y Jonathan Shen, autores de la publicación, afirman que son comparables a las grabaciones profesionales según lo juzgado por un grupo de oyentes humanos.

Los autores también han escrito un documento con el resto de sus compañeros de equipo de Google describiendo sus trabajos, y lo han publicado en el servidor de preimpresión arXiv.

Durante muchos años, los científicos han estado trabajando para que el habla generada por computadora suene más humana y menos robótica. Una parte de esa misión es desarrollar aplicaciones de texto a voz (TTS), como señalan los autores. La mayoría de las personas ha escuchado los resultados de los sistemas TTS, como los sistemas de voz automatizados que utilizan muchas corporaciones para las llamadas de los clientes de campo.

En este nuevo esfuerzo, el grupo de Google ha combinado lo que aprendió de sus proyectos Tacotron y WaveNet para crear Tacotron 2, un sistema que lleva la ciencia a un nuevo nivel. Al escuchar las muestras proporcionadas, es bastante difícil y a veces imposible saber si una voz es una voz de un ser humano o un sistema TTS.

En los siguientes ejemplos, uno es generado por Tacotron 2, y uno es la grabación de un humano, pero ¿cuál es cuál? "That girl did a video about Star Wars lipstick (Esa chica hizo un vídeo sobre el lápiz labial Star Wars)". Crédito: Google



Para alcanzar este nuevo nivel de precisión, el equipo de Google utilizó un modelo de secuencia a secuencia optimizado para trabajar con TTS: asigna arreglos de letras a una serie de características que describen el audio. El resultado es un espectrograma de 80 dimensiones.

Ese espectrograma se usa luego como entrada a un segundo sistema que emite una forma de onda de 24 kHz utilizando una arquitectura basada en WaveNet. Ambas son redes neuronales formadas con ejemplos de habla (de aplicaciones de crowdsourcing como Amazon Mechanical Turk) y sus transcripciones correspondientes.

El nuevo sistema puede incorporar volumen, pronunciación, entonación y velocidad, lo que permite la creación de una voz mucho más humana.

El equipo también señala que todavía están trabajando para mejorar el sistema, sobre todo para superar problemas con palabras complejas y hacer que funcione en tiempo real. También les gustaría agregar más emoción a la voz para que los oyentes puedan escuchar la felicidad o la tristeza, por ejemplo, o para detectar el disgusto. Hacerlo no solo haría avanzar a la ciencia, sino que haría que las interacciones con los asistentes digitales fueran más íntimas.

Más información: Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions


Comentarios (0)

No hay comentarios escritos aquí

Deja tus comentarios

  1. Publicar comentario como invitado. Regístrate o ingresaa tu cuenta
Archivos adjuntos (0 / 3)
Compartir su ubicación
close

Recibe gratis nuestros nuevos artículos!

Serás el primero en conocer las novedades y noticias que pasan en Internet, nuestros tutoriales, trucos y más.

Escribe tu email:

Se abrirá una nueva ventana deFeedBurner a la izquierda de la página y habrás de validar un Captcha.

Lee nuestras Política de privacidad & Política de cookies
Puedes darte de baja de la lista de correo electrónico en cualquier momento