MBROLA

De Guía Ubuntu
Saltar a: navegación, buscar

MBROLA es un sintetizador del habla humana basado en la concatenación de dífonos. Toma como entrada una lista de fonemas junto con la información prosódica (duración de los fonemas y una descripción del tono de los mismos) y produce una salida de audio a 16 bits. Por tanto no es un Conversor texto-voz (Text-To-Speech o TTS) dado que no acepta texto como entrada. Más abajo veremos como hacerlo.

La licencia es algo curiosa, ya que es libre para uso no comercial y no militar. O sea, que libre lo que se dice libre no es.

En la página del Proyecto MBROLA hay ejemplos que puedes escuchar en varios idiomas. Hay gran cantidad de bases de datos de dífonos para muchos idiomas en la sección de descargas.

Instalación

Tienes varias opciones: o bien te bajas los fuentes, o el binario ya compilado, o instalas los paquetes, que normalmente es la mejor opción. Por temas de licencia no están incluidos en los repositorios Ubuntu, pero te los puedes bajar de http://www.telefonica.net/web2/ircha/. Está el binario del programa y la base de datos de dífonos para español (voz castellana masculina). El otro paquete IrcHa tiene un programa que nos ayudará a leer texto con MBROLA, de modo que lo puedes instalar también.

Uso

Anteriormente dijimos que MBROLA no es un conversor de texto a voz realmente ya que no es capaz de leer un texto sino que necesita los fonemas. Pues IrcHa tiene un script llamado lee que hace eso mismo:

$ lee "Hola, mundo"

Ahora vamos a hacer el más difícil todavía, vamos a crear un MP3 con la frase hablada (en una sola línea):

$ echo "Niño, tienes hora?" | iconv -f utf-8 -t iso-8859-1 | lee | 
  mbrola -v 3 -t 0.8 /usr/share/ircha/es1/es1 - -.wav | lame - salida.mp3