mercredi 1 octobre 2003

La synthèse par sélection d’unités dans une grande bases de données

On assiste depuis quelques années à un important bouleversement, avec l’arrivée de techniques de sélection d’unités dans une grande base de données.
Plutôt que de garder qu’un exemplaire de chaque diphone de la langue, on puise ici dans plusieurs heures de parole, préalablement segmentée phonétiquement.
Au moment de choisir les segments à mettre en oeuvre (souvent des diphones), plusieurs instances d'une même unité phonétique sont alors disponibles, avec des prosodies différentes et positionnées (dans le corpus) dans des contextes phonétiques différents.
Il faut donc, pour réaliser au mieux la synthèse, choisir les segments dont le contexte est le plus proche de la chaîne phonétique à synthétiser, dont la prosodie se rapproche également le plus de la prosodie à produire, et dont les extrémités ne présentent pas trop de discontinuité spectrale l'une par rapport à l'autre.
On procède donc en général par programmation dynamique (algorithme de Viterbi) dans le treillis des segments utilisables, de façon à minimiser un coût de synthèse global, qui tient
compte : du coût de représentation (dans quelle mesure les segments choisi correspondent-ils au contexte phonétique et prosodique dans lequel on les insère?) et d'un coût de concaténation (dans quelle mesure la juxtaposition des segments choisis amène-telle des discontinuités ?).


Sélection d’un exemplaire de diphone (unité i) pour représenter le diphone cible (j) et coûts afférents

Ces techniques ont permis récemment de produire de la parole dont l’intelligibilité et le naturel rendent possible la confusion avec une prononciation humaine.
Elle impliquent cependant un accès très rapide à plusieurs Goctets de données.
On constate donc qu’en synthèse de parole, la technologie a évolué d’une approche basée sur des
modèles (règles) vers une approche basée sur des exemples (diphones). Le paradigme gagnant semble être celui qui laisse le dernier mot aux données.

dimanche 28 septembre 2003

La synthèse par concaténation de diphones

Les synthétiseurs par concaténation de diphones (un diphone est une unité acoustique qui commence au milieu de la zone stable d'un phonème et se termine au milieu de la zone stable du phonème suivant) procèdent au contraire par mise bout à bout de segments acoustiques déjà coarticulés, extraits d'une base de données de signaux de parole (et non pas modélisé par
un expert).
Il s'ensuit que, contrairement aux cibles phonétiques de l'approche précédente, la production de
parole fluide en synthèse par concaténation ne requiert qu'une étape de concaténation qui s’accompagne d’un lissage purement acoustique des discontinuités au droit
des points de concaténation.
Un problème supplémentaire apparaît cependant, du fait que les diphones utilisés ne respectent pas en général la prosodie que l’on cherche à produire. Il faut donc en modifier la durée et l’intonation avant de procéder à la concaténation, sans que ces opération ne dégradent la
qualité des unités.

Diverses techniques se sont succédées depuis 25 ans pour permettre ce type d’ajustement : synthèse basées sur le modèle LPC, synthèse PSOLA dans le domaine temporel, synthèse mixte
MBROLA.
Ce type de technique fournit une très bonne intelligibilité et un naturel acceptable pour de nombreuses applications, mais la parole est souvent hyper-articulée, et l’intonation (produite par règles) reste peu naturelle.
Un système de synthèse par diphones de bonne qualité nécessite entre 1 et 5 Moctets par voix (pour stocker les quelques 1500 diphones correspondants, soit environ 3 minutes de parole).

jeudi 25 septembre 2003

La synthèse par règles

Les synthétiseurs par règles sont basés sur l’idée que, si un phonéticien expérimenté est capable de «lire» un spectrogramme, il doit lui être possible de produire des règles permettant de créer un spectrogramme artificiel pour une suite de phonèmes donnée.

Spectrogramme d’une phrase synthétisée par règles

Une fois le spectrogramme « dessiné », il ne reste plus alors qu’a générer le signal correspondant (à l’aide de générateurs et de résonateurs électriques) .
Cette technique a été en vogue entre 1965 et 1985, surtout sous l’impulsion du MIT.
Elle est fort peu gourmande en mémoire (à
peine 10 koctets pour les règles décrivant la coarticulation d’une voix).
Basée sur la seule expertise humaine, elle fournit très difficilement un signal naturel.

mardi 23 septembre 2003

Intro

La synthèse vocale a connu trois grandes étapes technologiques, qui coexistent aujourd’hui commercialement : la synthèse par règles, la synthèse par concaténation de diphones, et la synthèse par sélection d’unités dans une grande bases de données.
Ce sont ces trois méthodes que nous allons vous décrire.

Pourquoi ce blog ?

La synthèse vocale est une technologie relativement méconnue, au contraire de la reconnaissance vocale. Ce blog a pour but de vous faire découvrir ce qu'est la synthèse de la parole, en quoi elle consiste, de quelle manière elle est formalisée.

L’objectif de la synthèse de la parole est de produire un signal intelligible et naturel. Le principal problème pour y parvenir est de simuler correctement la coarticulation entre les sons, et de gérer naturellement la prosodie (intonation et durée) qu’on leur applique.