dimanche 28 septembre 2003

La synthèse par concaténation de diphones

Les synthétiseurs par concaténation de diphones (un diphone est une unité acoustique qui commence au milieu de la zone stable d'un phonème et se termine au milieu de la zone stable du phonème suivant) procèdent au contraire par mise bout à bout de segments acoustiques déjà coarticulés, extraits d'une base de données de signaux de parole (et non pas modélisé par
un expert).
Il s'ensuit que, contrairement aux cibles phonétiques de l'approche précédente, la production de
parole fluide en synthèse par concaténation ne requiert qu'une étape de concaténation qui s’accompagne d’un lissage purement acoustique des discontinuités au droit
des points de concaténation.
Un problème supplémentaire apparaît cependant, du fait que les diphones utilisés ne respectent pas en général la prosodie que l’on cherche à produire. Il faut donc en modifier la durée et l’intonation avant de procéder à la concaténation, sans que ces opération ne dégradent la
qualité des unités.

Diverses techniques se sont succédées depuis 25 ans pour permettre ce type d’ajustement : synthèse basées sur le modèle LPC, synthèse PSOLA dans le domaine temporel, synthèse mixte
MBROLA.
Ce type de technique fournit une très bonne intelligibilité et un naturel acceptable pour de nombreuses applications, mais la parole est souvent hyper-articulée, et l’intonation (produite par règles) reste peu naturelle.
Un système de synthèse par diphones de bonne qualité nécessite entre 1 et 5 Moctets par voix (pour stocker les quelques 1500 diphones correspondants, soit environ 3 minutes de parole).

jeudi 25 septembre 2003

La synthèse par règles

Les synthétiseurs par règles sont basés sur l’idée que, si un phonéticien expérimenté est capable de «lire» un spectrogramme, il doit lui être possible de produire des règles permettant de créer un spectrogramme artificiel pour une suite de phonèmes donnée.

Spectrogramme d’une phrase synthétisée par règles

Une fois le spectrogramme « dessiné », il ne reste plus alors qu’a générer le signal correspondant (à l’aide de générateurs et de résonateurs électriques) .
Cette technique a été en vogue entre 1965 et 1985, surtout sous l’impulsion du MIT.
Elle est fort peu gourmande en mémoire (à
peine 10 koctets pour les règles décrivant la coarticulation d’une voix).
Basée sur la seule expertise humaine, elle fournit très difficilement un signal naturel.

mardi 23 septembre 2003

Intro

La synthèse vocale a connu trois grandes étapes technologiques, qui coexistent aujourd’hui commercialement : la synthèse par règles, la synthèse par concaténation de diphones, et la synthèse par sélection d’unités dans une grande bases de données.
Ce sont ces trois méthodes que nous allons vous décrire.

Pourquoi ce blog ?

La synthèse vocale est une technologie relativement méconnue, au contraire de la reconnaissance vocale. Ce blog a pour but de vous faire découvrir ce qu'est la synthèse de la parole, en quoi elle consiste, de quelle manière elle est formalisée.

L’objectif de la synthèse de la parole est de produire un signal intelligible et naturel. Le principal problème pour y parvenir est de simuler correctement la coarticulation entre les sons, et de gérer naturellement la prosodie (intonation et durée) qu’on leur applique.