Critères d'évaluation de la synthèse vocale
Une
synthèse vocale a pour but de vocaliser du texte, un message, etc... Le texte
peut être seulement une lettre comme par exemple la vocalisation d'un clavier
en lettre à lettre, un mot comme par exemple la vocalisation d'un clavier en
mot à mot ou bien un texte de plusieurs lignes pour la lecture de documents,
de livres, etc... L'objectif des synthèses vocales est de se rapprocher le plus
possible de la voix humaine.
A première vue, le premier critère pour l'évaluer serait donc la
qualité de la voix. Il ne faut cependant pas s'arrêter au simple critère de
la qualité de la voix, critère qui, de plus, peut être très subjectif. En effet,
chaque individu a une perception différente des bruits qui l'entourent. Deux
personnes peuvent donc apprécier différemment la voix d'une même synthèse vocale.
Le deuxième critère d'évaluation d'une synthèse vocale est la prosodie.
Lorsque nous parlons, nous effectuons différentes intonations suivant la ponctuation,
le contexte, notre humeur, la reprise du souffle. Une synthèse vocale, peut
et doit reproduire les intonations liées à la ponctuation. Le contexte, l'humeur,
et la reprise du souffle sont plus difficiles à reproduire. La prosodie liée
à la ponctuation ne doit pas être exagérée, ne doit pas avoir un rythme saccadé,
et ne doit pas couper les fins de mots. De plus, les liaisons de mots doivent
se faire correctement, et l'association des syllabes composant les mots doit
être limpide, sans être saccadée ou décomposée.
Le troisième critère d'évaluation est le réglage de ses paramètres avec ses conséquences, et sa stabilité. Théoriquement, les synthèses vocales compatibles SAPI disposent de trois réglages : le ton, le débit, et le volume de la voix. La modification de ces trois paramètres doit modifier correctement le comportement de la synthèse vocale, et ne doit en aucun cas détériorer la qualité de la voix. La synthèse vocale doit être exempte de plantage dans la plupart des situations d'utilisation, et ne doit pas monopoliser les ressources du système d'exploitation lors de son utilisation.
Les synthèses vocales, afin d'être exploitables par d'autres logiciels,
doivent répondre à la norme SAPI. Cette norme, définie par Microsoft, permet
à un logiciel de piloter une synthèse vocale, par l'intermédiaire de différentes
méthodes, définies dans le système d'exploitation Windows. Ces méthodes sont,
par exemple, la lecture de texte, la pause en cours de lecture, l'arrêt de la
lecture, le réglage du débit de la voix, etc... La norme SAPI est la norme de
référence pour les applications s'exécutant sur le système d'exploitation Windows.
Il est donc fortement conseillé, lorsque vous achetez une synthèse vocale, de
vérifier sa compatibilité avec cette norme.