Conversión de texto a voz con aprendizaje automático

La conversión de texto a voz  de forma natural es una vieja aspiración de los desarrolladores de software y apps que parece tendrá respuesta gracias al nuevo servicio de Google Cloud Text-to-Speech. Además, aprovechando los desarrollos previos de Google Cloud Platform, está previsto que disponga de aprendizaje automático.

La API presentada en el blog de Google Cloud habla de la posibilidad de crear interacciones con los usuarios, entre aplicaciones y dispositivos que pueden enviar una solicitud REST o gRPC. Eso incluye teléfonos, PC, tabletas y dispositivos IoT (por ejemplo, automóviles, televisores, altavoces).

Entre las aplicaciones más probables que aprovechen esta tecnología veremos la automatización del centro de llamadas y las respuestas interactivas de los dispositivos IoT. De hecho, clientes como Cisco o Dolphin ONE ya lo han integrado y sus usuarios prueban con experiencias reales en sus Call Centers.

Google Cloud Platform es un conjunto de servicios de computación en la nube que se ejecuta en la misma infraestructura que Google usa internamente para productos como la Búsqueda de Google y YouTube.

Cloud Text-to-Speechtambién incluye una selección de voces de alta fidelidad creadas con WaveNet, un modelo generativo para audio en bruto creado por DeepMind. WaveNet sintetiza un sonido más natural y, en promedio, produce audio de voz que las personas prefiera sobre otras tecnologías de texto a voz

Según quienes lo han probado, la investigación de Deep Mind en modelos de aprendizaje automático para generar un discurso que imita las voces humanas ha tenido éxito.

La clave está en que a diferencia de los esfuerzos anteriores, WaveNet no hace síntesis de voz basada en una colección de fragmentos de voz cortos, lo que tiende a crear el tipo de voces robóticas con las que seguramente está familiarizado. En cambio, WaveNet modela audio sin procesar usando un modelo de aprendizaje automático para crear un discurso mucho más natural »

WaveNet Permite a los desarrolladores sintetizar voz natural con 30 voces. Además, está disponible en múltiples idiomas y variantes. La web oficial asegura que admite 32 voces en 12 idiomas y variantes. los desarrolladores podrán personalizar el tono, la velocidad de conversación y la ganancia de volumen de los archivos MP3 o WAV que generará el servicio.

A finales de 2016, DeepMind presentó la primera versión de WaveNet, una red neuronal entrenada con un gran volumen de muestras de voz que es capaz de crear formas de onda de audio en bruto desde cero. Durante el entrenamiento, la red extrae la estructura subyacente del discurso, por ejemplo, qué tonos se suceden y qué forma debe tener una forma de onda de voz realista.

Ahora estan usando una versión actualizada de WaveNet que se ejecuta en la infraestructura Cloud TPU de Google. El nuevo y mejorado modelo WaveNet genera formas de onda en bruto 1000 veces más rápido que el modelo original, y puede generar un segundo de voz en solo 50 milisegundos. De hecho, el modelo no solo es más rápido, sino también de mayor fidelidad, capaz de crear formas de onda con 24,000 muestras por segundo. También hemos aumentado la resolución de cada muestra de 8 bits a 16 bits, produciendo audio de mayor calidad para un sonido más humano.

FUNCIONES DE TEXTO A VOZ EN LA NUBE

Fuente: GoogleBlog.com