Principes de la synthèse vocale

 Elle consiste à faire prononcer les phrases par la machine, contrairement à la reconnaissance vocale qui permet à l'aide d'un micro de dicter du texte à la machine.

  La synthèse vocale ne connaît pas les problèmes des erreurs du conjugaison ou de synonymes. Elle ne nécessite donc pas beaucoup de ressources machines et peut être directement implantées dans des cartes spécialisées, ce qui est généralement le cas des terminaux braille.

    a- Les machines ont la parole

  Un critère essentiel pour juger de la qualité d'un système de synthèse vocale est son intelligibilité, la voix synthétisée doit absolument être compréhensible pour son interlocuteur. Deuxième critère, le naturel de la voix.  

  La parole codée permet d'obtenir une voix naturelle. Un speaker enregistre l'ensemble des phrases qui sont ensuite numérisées.

  Une phrase articulée se compose d'une succession de portions de signal sonores, les diphones. Il s'agit de sortes d'unités phonétiques qui correspondent au son émis du milieu d'un phonème jusqu'au milieu du phonème suivant. Le français comporte environ 1200 diphones.

  Les diphones sont extraits d'enregistrements de parole d'un locuteur. Évidemment, la création d'une nouvelle voix nécessite de fastidieux enregistrements.

  La voix de synthèse doit encore être naturelle et agréable : les automates doivent tenir compte de la co-articulation, comme dans le cas de la reconnaissance vocale, sans quoi le timbre reste saccadé et mécanique. Le spectre acoustique est stable aux frontières des diphones, donc plus facile à raccorder, et le résultat est plus fluide. Les chercheurs travaillent actuellement sur des portions de mots plus longues afin d'augmenter encore la fluidité.

    b-  Les ordinateurs à l'école de la syntaxe

  Dans la synthèse à partir du texte, il y a d'abord un traitement pour passer du texte à la suite des phonèmes. Cette suite détermine alors les diphones à utiliser, et les portions de signal correspondant sont mises bout à bout.

  Pour aller au-delà de quelques mots et d'une adresse, toute la difficulté consiste à faire une réelle analyse linguistique du texte et toutes les langues ne sont pas aussi faciles à analyser. Parmis les plus simples, on compte l'allemand et le japonais. L'anglais est quant à lui un vrai casse-tête. Le français comporte des embûches : " les poules du couvent [couvan] couvent [couv]. " devenait " les poules du [couvan] [couvan] ".

  Résultat : le système doit disposer de solides connaissances grammaticales et syntaxiques. Si nous pensons à nos premières années d'école, nous comprenons vite que les choses ne sont pas si simples !

  Autre problème : traiter les erreurs grammaticales des autres. Les mails par exemple sont souvent mal rédigés : ils contiennent des sigles, des abréviations comme " A+ ", des fautes d'orthographes, des mots étrangers... La seule solution est d'apprendre au système les abréviations les plus courantes, mais certains symboles sont imprononçables...