- Le mode d'élocution : le discours continu (langage naturel) est beaucoup plus complexe à modéliser que le discours isolé (pause après chaque mot)
- La dépendance au locuteur : les systèmes multi-locuteurs qui sont indépendants du locuteur sont beaucoup plus complexes à modéliser que les systèmes mono-locuteurs qui nécessitent un apprentissage préalable
- L'adaptation : les systèmes les plus récents sont fondés sur la reconnaissance d'unités plus petites que le mot, correspondant le plus souvent à ce qu'on appelle un triphone, qui représente la forme acoustique d'un phonème dans le contexte de ses phonèmes voisins immédiats. Il est alors demandé à tout nouvel utilisateur de prononcer un ensemble de phrases comportant l'ensemble des phonèmes d'une langue, afin d'adapter les références à sa voix. Le défi est de réduire au maximum la durée d'une telle adaptation, et même d'éliminer la nécessité d'une phase d'adaptation préalable pour permettre d'obtenir des performances satisfaisantes dès la première utilisation.
- La taille du vocabulaire reconnu : on vise le plus grand nombre de mots mais, dans ce cas, il y a plus de risques d'erreurs d'identification et le temps de traitement est plus long. Un vocabulaire volumineux est constitué de quelques milliers de mots, un moyen de quelques centaines et un petit de quelques dizaines.
- Le bruit environnant : son filtrage est essentiel mais difficile à faire pour une machine
- Les types de locuteurs : prononciations différentes d'un seul ou de plusieurs locuteurs
- Les ambiguïtés sur les homonymes : nécessité de reconnaître les contexte, par la syntaxe grammaticale et/ou sémantique, pour différencier des syllabes identiques ayant des prononciations différentes (ex: les poules du couvent couvent)