Critères d'évaluation de la synthèse vocale

  Une synthèse vocale a pour but de vocaliser du texte, un message, etc... Le texte peut être seulement une lettre comme par exemple la vocalisation d'un clavier en lettre à lettre, un mot comme par exemple la vocalisation d'un clavier en mot à mot ou bien un texte de plusieurs lignes pour la lecture de documents, de livres, etc... L'objectif des synthèses vocales est de se rapprocher le plus possible de la voix humaine.

   A première vue, le premier critère pour l'évaluer serait donc la qualité de la voix. Il ne faut cependant pas s'arrêter au simple critère de la qualité de la voix, critère qui, de plus, peut être très subjectif. En effet, chaque individu a une perception différente des bruits qui l'entourent. Deux personnes peuvent donc apprécier différemment la voix d'une même synthèse vocale.

   Le deuxième critère d'évaluation d'une synthèse vocale est la prosodie. Lorsque nous parlons, nous effectuons différentes intonations suivant la ponctuation, le contexte, notre humeur, la reprise du souffle. Une synthèse vocale, peut et doit reproduire les intonations liées à la ponctuation. Le contexte, l'humeur, et la reprise du souffle sont plus difficiles à reproduire. La prosodie liée à la ponctuation ne doit pas être exagérée, ne doit pas avoir un rythme saccadé, et ne doit pas couper les fins de mots. De plus, les liaisons de mots doivent se faire correctement, et l'association des syllabes composant les mots doit être limpide, sans être saccadée ou décomposée.

Le troisième critère d'évaluation est le réglage de ses paramètres avec ses conséquences, et sa stabilité. Théoriquement, les synthèses vocales compatibles SAPI disposent de trois réglages : le ton, le débit, et le volume de la voix. La modification de ces trois paramètres doit modifier correctement le comportement de la synthèse vocale, et ne doit en aucun cas détériorer la qualité de la voix. La synthèse vocale doit être exempte de plantage dans la plupart des situations d'utilisation, et ne doit pas monopoliser les ressources du système d'exploitation lors de son utilisation.

Les synthèses vocales, afin d'être exploitables par d'autres logiciels, doivent répondre à la norme SAPI. Cette norme, définie par Microsoft, permet à un logiciel de piloter une synthèse vocale, par l'intermédiaire de différentes méthodes, définies dans le système d'exploitation Windows. Ces méthodes sont, par exemple, la lecture de texte, la pause en cours de lecture, l'arrêt de la lecture, le réglage du débit de la voix, etc... La norme SAPI est la norme de référence pour les applications s'exécutant sur le système d'exploitation Windows. Il est donc fortement conseillé, lorsque vous achetez une synthèse vocale, de vérifier sa compatibilité avec cette norme.