Résumé:
La reconnaissance du locuteur a suscité l'intérêt d'un certain nombre de
chercheurs, afin de concevoir le système le plus performant en termes de
détermination, avec exactitude, de l'identité d'une personne à travers sa voix. En
réalité, cette tâche de reconnaissance n'est pas toujours facile en présence de
différents types de variabilités, dues à l'environnement, aux moyens
d'enregistrement, ou à d'autres facteurs. Dans ces conditions, la reconnaissance du
locuteur devient entachée d'erreurs et le système de reconnaissance est peu
performant.
Notre travail de thèse s'inscrit dans le cadre de la compensation de la variabilité
de session, pour laquelle les conditions d'apprentissage et de test ne sont pas les
mêmes. Pour cela, les paramètres invariants ont été adoptés. Nous avons
commencé par étudier ces paramètres et le processus menant à les extraire. Nous
avons, ensuite procédé à quelques modifications de ces paramètres pour pouvoir les
utiliser dans notre contexte de reconnaissance de locuteurs.
Des expérimentations ont été effectuées afin de valider notre approche et tester ses performances en la comparant aux méthodes classiques comme les coefficients MFCC ou PLP. Les résultats obtenus nous ont permis de confirmer nos prédictions, puisque les paramètres invariants sont applicables dans les systèmes de reconnaissance du locuteur et sont plus performants que les méthodes classiques, dans les cas normaux (correspondance entre l'apprentissage et le test) ou en