dimanche 28 septembre 2003

La synthèse par concaténation de diphones

Les synthétiseurs par concaténation de diphones (un diphone est une unité acoustique qui commence au milieu de la zone stable d'un phonème et se termine au milieu de la zone stable du phonème suivant) procèdent au contraire par mise bout à bout de segments acoustiques déjà coarticulés, extraits d'une base de données de signaux de parole (et non pas modélisé par
un expert).
Il s'ensuit que, contrairement aux cibles phonétiques de l'approche précédente, la production de
parole fluide en synthèse par concaténation ne requiert qu'une étape de concaténation qui s’accompagne d’un lissage purement acoustique des discontinuités au droit
des points de concaténation.
Un problème supplémentaire apparaît cependant, du fait que les diphones utilisés ne respectent pas en général la prosodie que l’on cherche à produire. Il faut donc en modifier la durée et l’intonation avant de procéder à la concaténation, sans que ces opération ne dégradent la
qualité des unités.

Diverses techniques se sont succédées depuis 25 ans pour permettre ce type d’ajustement : synthèse basées sur le modèle LPC, synthèse PSOLA dans le domaine temporel, synthèse mixte
MBROLA.
Ce type de technique fournit une très bonne intelligibilité et un naturel acceptable pour de nombreuses applications, mais la parole est souvent hyper-articulée, et l’intonation (produite par règles) reste peu naturelle.
Un système de synthèse par diphones de bonne qualité nécessite entre 1 et 5 Moctets par voix (pour stocker les quelques 1500 diphones correspondants, soit environ 3 minutes de parole).