Jean-Paul Haton
Reconnaissance automatique de la parole Passé, présent et futur
Référence 7 Version 1 Date 18/07/2013
Texte / INTRODUCTION
INTRODUCTION

L'utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières décennies. Nous nous intéressons dans cet article à la reconnaissance automatique de la parole (RAP), c'est-à-dire à l'ensemble des techniques permettant de communiquer oralement avec une machine. La RAP présente un intérêt pratique dans certaines conditions d'utilisation (accès à distance, charge de travail importante, handicapés, etc.). Des produits commerciaux existent depuis plus de trente ans. La plupart sont fondés sur des algorithmes de programmation dynamique et des modèles stochastiques (sources de Markov). Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces systèmes et pour étendre leurs capacités de dialogue. Les recherches menées actuellement portent ainsi sur la reconnaissance de parole bruitée, le traitement d'énoncés incomplets ou incorrects, la définition de procédures de dialogue, etc.

ANALYSE DU SIGNAL DE PAROLE

Le traitement du signal vocal permet d'extraire des paramètres pertinents pour la reconnaissance. Par exemple, une voyelle peut être caractérisée par plusieurs zones de fréquences données, appelées formants. Les fréquences de formants de sons tels que les voyelles et certaines consonnes voisées correspondent au maximum d'énergie dans le spectre de ces sons, c'est-à-dire approximativement aux fréquences de résonance du conduit vocal dans la configuration correspondante.

On peut classer en deux grandes catégories les méthodes de traitement du signal :

  • les méthodes générales, valables pour tout signal évolutif dans le temps, en particulier les analyses spectrales (transformée de Fourier, analyses en ondelettes),

  • les méthodes se référant à un modèle de production du signal vocal ou d'audition.

Méthodes générales

La transformation de Fourier permet d'obtenir le spectre d'un signal, en particulier son spectre fréquentiel, c'est-à-dire sa représentation amplitude-fréquence. Ce spectre a été obtenu par un algorithme de transformation rapide de Fourier (FFT : Fast Fourier Transform) permettant un calcul des coefficients du spectre en temps réel.

La parole étant un phénomène non stationnaire, il importe de faire intervenir le temps comme troisième variable dans la représentation. La juxtaposition des spectres obtenus pour des tranches successives permet d'apprécier l'évolution du signal au cours du temps. On obtient un spectrogramme de parole.

Méthodes avec modélisation

Dans cette catégorie, les méthodes dites de codage prédictif linéaire (LPC) ont été largement utilisées pour l'analyse de la parole. Elles font référence à un modèle du système de phonation sous forme d’un tuyau sonore à section variable. L’idée sous-jacente revient à considérer que la valeur du signal vocal temporel à un instant n peut être prédite par une combinaison linéaire des valeurs du signal aux p instants précédents (p est l’ordre de prédiction, de 10 à 20).

L'ajustement des paramètres de ce modèle permet, en particulier, de déterminer à tout instant sa fonction de transfert ; cette fonction fournit une approximation de l'enveloppe du spectre du signal à l'instant d'analyse, sur laquelle il est plus aisé de repérer les fréquences formantiques car les pics secondaires dus au fondamental de la voix présents dans le spectre de Fourier sont éliminés. L'analyse par codage prédictif est utilisée essentiellement en codage et en synthèse de la parole.

La méthode d’analyse du signal vocal la plus répandue est l’analyse cepstrale. Cette méthode, appelée aussi analyse homomorphique, a pour but de séparer dans le signal vocal les contributions respectives de la source du signal (à savoir la vibration des cordes vocales) et du conduit vocal (dont les fréquences de résonance conduisent notamment aux formants des voyelles).

La plupart des systèmes actuels de reconnaissance de parole utilisent un ensemble de paramètres appelés MFCC (Mel Frequency Cepstrum Coefficients) dont le principe d’obtention repose sur l’analyse cepstrale. Une transformée de Fourier permet d’abord d’obtenir un spectre en fréquence du signal. Ce spectre est recalé en amplitude selon une échelle logarithmique, et en fréquence selon une échelle Mel (linéaire jusqu’à 1 000 Hz, puis logarithmique au-delà). Une transformée de Fourier inverse fournit les MFCC. Ces coefficients sont robustes car, d’une part, ils assurent comme il vient d’être dit une séparation entre la fonction de transfert du conduit vocal et les caractéristiques du fondamental de la voix, et, d’autre part, ils sont peu sensibles à la puissance acoustique du signal analysé.

L'adjonction des dérivées premières et secondes par rapport au temps des coefficients cepstraux rend ces derniers encore plus résistants aux fluctuations dues au locuteur ou à l'environnement et améliore ainsi la robustesse de la reconnaissance.

En présence de bruit important, les méthodes d’analyse traditionnelles ont du mal à extraire les caractéristiques représentatives de la parole. De nombreuses méthodes ont été proposées pour améliorer cette situation.

RECONNAISSANCE DE MOTSPrincipe général

La reconnaissance d'un mot isolé est un problème typique de reconnaissance de formes. Tout système de reconnaissance de formes comporte les trois parties suivantes :

  • un capteur permettant d'appréhender le phénomène physique considéré (dans notre cas un microphone),

  • un étage de paramétrisation des formes (par exemple, un analyseur spectral),

  • un étage de décision chargé de classer une forme inconnue dans l'une des catégories possibles.

Au cours d'une phase préalable dite d'apprentissage, un locuteur prononce l'ensemble du vocabulaire, souvent plusieurs fois, de façon à créer en machine le dictionnaire de références. Dans la phase suivante de reconnaissance, un locuteur prononce un mot du vocabulaire. Ce mot est comparé aux mots de références. L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, par calcul d'un taux de similitude – au sens d'une distance à définir – entre le mot prononcé et les diverses références. Ce calcul n'est pas simple, même pour un locuteur unique, car les mots, donc les formes, à comparer ont des durées et des rythmes différents. Il s'agit alors d'effectuer le recalage temporel des séquences acoustiques représentant les mots, afin de pouvoir les comparer.

Normalisation temporelle

Une solution au problème de recalage temporel fait appel aux techniques de programmation dynamique. Initialement développée dans les années 1970, cette méthode donne d'excellents résultats ; on démontre qu'elle fournit la solution optimale du problème. Le principe de comparaison dynamique revient à rechercher la mise en correspondance optimale entre deux formes.

Les méthodes de comparaison par programmation dynamique ont été largement utilisées jusqu’aux années 1980 pour la reconnaissance de mots isolés et elles ont été étendues à la reconnaissance de séquences de mots enchaînés sans pause entre eux (par exemple, une suite de chiffres prononcés continûment).

Modélisation stochastique

La variabilité inhérente à la reconnaissance de la parole (plus spécialement en multi-locuteurs) peut être approchée par une modélisation stochastique, en particulier sous forme de modèles markoviens. Dans ces approches, chaque entité à reconnaître est représentée par une source de Markov capable d'émettre le signal vocal correspondant à ce mot. Les méthodes stochastiques sont les méthodes les plus performantes actuellement disponibles.

Un modèle de Markov caché, MMC (en anglais Hidden Markov Model, HMM) est caractérisé par un double processus stochastique : un processus interne, non observable, X(t) et un processus externe observable Y(t). Ces deux chaînes se combinent pour former le processus stochastique.

La chaîne interne X(t) est une chaîne de Markov que l'on suppose à chaque instant dans un état où la fonction aléatoire correspondante engendre un segment élémentaire (de l’ordre de 10 ms environ), représenté par un vecteur de paramètres, de l’onde acoustique observée. Un observateur extérieur ne peut voir que les sorties de ces fonctions aléatoires, sans avoir accès aux états de la chaîne sous-jacente, d’où le nom de modèle caché.

En général, X(t) est modélisé par une chaîne de Markov d’ordre 1 dont l’état à l’instant t ne dépend que de l’état à l’instant précédent t-1. L’utilisation de modèles d’ordre 2 (avec une mémoire temporelle des deux instants précédents) a également été étudiée. Ces modèles permettent de mieux rendre compte des corrélations qui existent entre les segments élémentaires successifs dans la parole, mais ils ne sont pas utilisés car trop complexes à mettre en œuvre.

Apprentissage d’un MMC

Un des grands intérêts des MMC réside dans l’automatisation de l’apprentissage des différents paramètres et distributions de probabilités du modèle à partir de données acoustiques représentatives de l’application considérée, essentiellement les probabilités de transition d’un état du MMC à un autre état et surtout les lois d’émission B {bi(o)}. bi(o) est la probabilité d’émettre une certaine observation o, sachant que le processus markovien est dans l’état i. Ces probabilités sont en général représentées sous forme d’une somme de fonctions gaussiennes (parfois plusieurs centaines, permettant de mieux approcher la loi réelle du phénomène). Cet apprentissage est assuré par des algorithmes itératifs d’estimation des paramètres, notamment l’algorithme de Baum-Welch, cas particulier de l’algorithme EM (Expectation-Maximisation) fondé sur le principe de maximum de vraisemblance.

La taille du corpus de données nécessaires pour converger vers une valeur convenable des paramètres est très grande. Pour des applications de grande envergure (parole continue et très grands vocabulaires par exemple), il faut disposer de centaines d’heures de parole étiquetée phonétiquement pour obtenir des modèles de qualité.

RECONNAISSANCE ET COMPRÉHENSION DE LA PAROLE CONTINUE

La quasi-totalité des systèmes de reconnaissance de parole continue actuels se fondent sur une approche statistique et plus précisément sur la théorie de la décision bayésienne. Le principe peut être résumé comme suit.

Le signal de parole est analysé par une des méthodes présentées ci-dessus. Un mot ou une phrase en entrée du système est ainsi représenté comme une suite X de vecteurs de paramètres. La reconnaissance revient à trouver la suite de mots W, formée de n mots, n>1 n’étant pas connu a priori, dont la probabilité conditionnelle connaissant l’entrée X, P(W/X) est maximale.

D’après la formule des probabilités composées de Bayes :

P(W/X) = P(W) • P(X/W) / P(X)

  • P(X) est la probabilité de la suite de vecteurs de paramètres en entrée, pouvant être considérée comme indépendante de W, la suite de mots reconnue W est telle que : P(W/X) = Max {P(X/W) • P(W)}

  • P(X/W) est la probabilité d’observer la séquence de vecteurs X lorsque la suite de mots W est prononcée. Cette probabilité est donnée par un modèle acoustique, le plus souvent un modèle de Markov caché.

  • P(M) est la probabilité de la suite de mots M dans le langage utilisé. Elle est fournie par un modèle linguistique dont la forme peut être très diverse. Les modèles les plus courants sont des modèles locaux n-grammes qui donnent la probabilité d’occurrence d’un mot lorsqu’il est précédé de n mots donnés (probabilités de suites de n mots dans le langage) : modèles bi- ou tri-grammes utilisant les probabilités de suites de deux ou trois mots, parfois modèles 5-, voire 7-grammes, ce qui revient quasiment à mémoriser les probabilités d’occurrence de phrases complètes. Un modèle linguistique plus classique (sous forme d’un ensemble de règles syntaxiques) peut également être adjoint.

Ces deux types de modèles, acoustique et linguistique, doivent être ajustés au cours d’une phase préalable d’apprentissage dont les algorithmes sont bien au point. Ces apprentissages nécessitent de très grandes quantités de données acoustiques (signal de parole échantillonné) et linguistiques (exemples de textes du langage).

MÉTHODES ROBUSTES POUR LA RECONNAISSANCEPosition du problème

Les performances des systèmes de reconnaissance actuellement disponibles sont bonnes dans des conditions d’utilisation bien contrôlées. Ces performances sont fortement dépendantes de la complexité et de la difficulté de la tâche envisagée. Ainsi, en moyenne, les taux d’erreur mesurés en laboratoire, en mode indépendant du locuteur, peut aller de 0,3 % (pour des suites de chiffres) à 5 % (pour un vocabulaire de 20 000 mots en parole continue), puis à 8 % (pour des lettres épelées) et jusqu’à 55 % pour des conversations téléphoniques spontanées !

Par ailleurs, le taux d’erreur s’accroît de façon spectaculaire lorsque les conditions d’apprentissage et d’utilisation d’un système sont différentes (notamment en ce qui concerne le type et le niveau de bruit).

Les systèmes actuels sont donc dans l’ensemble très peu robustes aux variations même si celles-ci peuvent paraître assez faibles à l’oreille. Les sources de variabilité de la parole peuvent être classées en trois catégories, selon leur provenance :

  • l’environnement du locuteur : bruit corrélé à la parole (réverbération, réflexion) ou additif (bruit ambiant, etc.),

  • le locuteur lui-même, selon son état et son mode d’expression : essoufflement, stress, effet Lombard (qui amène un locuteur à modifier sa voix lorsqu’il est placé dans une ambiance très bruitée), rythme d’élocution, fatigue, etc.,

  • les conditions d’enregistrement : type de microphone, distance au microphone, canal de transmission (distorsion, écho, bruit électronique, etc.).

De nombreuses techniques ont été proposées pour augmenter la robustesse des systèmes, notamment en ce qui concerne leur résistance aux bruits. Ces techniques peuvent être classées en trois grandes approches :

  • prétraitement du signal bruité afin de réduire l’influence du bruit,

  • adaptation d’un système pour lui permettre de fonctionner dans des conditions différentes de celles de l’apprentissage,

  • paramétrisation de la parole à l’aide de méthodes robustes.

Méthodes de prétraitement du signal

Le filtrage du bruit dans un signal de parole peut être effectué de différentes façons. Parmi les nombreuses méthodes utilisables en RAP, on peut citer :

  • la soustraction spectrale qui consiste à retrancher du spectre fréquentiel d’une fenêtre de signal de parole une estimation du spectre du bruit qui entache ce signal.

  • l’annulation adaptative de bruit qui repose sur l’utilisation de deux microphones, l’un captant la parole bruitée et l’autre le bruit ambiant seul.

Adaptation de systèmes

Nous avons vu qu’une cause majeure des mauvaises performances d'un système de reconnaissance est la différence entre les conditions d'apprentissage et d'utilisation de ce système. Une solution simple initialement proposée a été de construire des modèles correspondant aux diverses conditions d’utilisation prévisibles. Initialement conçue pour représenter des classes de locuteurs, la méthode est difficilement applicable à la modélisation des environnements sonores.

Les méthodes de régression peuvent être utilisées pour adapter les paramètres d’un modèle de reconnaissance. Parmi les plus populaires se trouve la régression linéaire par maximum de vraisemblance (Maximum Likelihood Linear Regression, MLLR). Dans ce modèle, les moyennes du modèle sont exprimées comme des combinaisons linéaires des moyennes originales et d’un biais. La même méthode permet aussi d’adapter les variances des modèles. Un des inconvénients de la méthode provient du fait que les phénomènes considérés sont non linéaires. Diverses améliorations ont été apportées en ce sens.

PERSPECTIVES ET CONCLUSION

Après plus de soixante années de recherches et de développement industriel, les performances des systèmes de RAP se sont considérablement améliorées, permettant d’aborder des domaines d’application de complexité croissante. Les travaux actuels les plus avancés concernent des systèmes de dialogue via le téléphone, la reconnaissance de la parole spontanée ou la transcription d’émissions de radio ou télévision. Les performances obtenues dépendent beaucoup du type de tâche considérée (taille et difficulté du vocabulaire, locuteurs, conditions d’enregistrement).

Le traitement automatique de la parole a été dès l’origine fortement tributaire de l'évolution technologique. D’abord purement en électronique analogique, les systèmes de RAP ont ensuite été implantés sur ordinateur. Les progrès de la micro-électronique permettent la miniaturisation et l’implantation de systèmes complexes de RAP sous forme logicielle ou sur une puce et, de ce fait, leur utilisation dans des secteurs d’activité très variés, en particulier en lien avec le développement de la télématique vocale.

Malgré ces avancées, les systèmes actuels sont encore imparfaits. Les problèmes à résoudre représentent un des défis les plus difficiles posés à l'intelligence artificielle. Un important effort de recherche est nécessaire, notamment sur le plan de la robustesse des méthodes de reconnaissance et de la conception de systèmes de dialogue.

Les travaux à mener nécessitent un effort pluridisciplinaire de collecte de signal vocal, mais aussi de modélisation d'un ensemble de faits et de connaissances sur la langue naturelle et sur les mécanismes de la communication parlée. Nous avons vu qu'une modélisation stochastique permet de résoudre en partie le problème, mais il n’est pas exclu que l’utilisation de connaissances explicites revienne à l’ordre du jour à l’avenir.

Ainsi, la parole pourra devenir un des modes de communication privilégiés des futurs systèmes intelligents d’aide à l’utilisateur, dans des domaines d’activité variés.