Résumé:
La synthèse vocale est la technologie qui permet l'automatisation de la production
de la parole par une machine. Le rôle de la synthèse vocale à partir d'un texte donné
en entrée est d'assurer la lecture de ce texte à partir d'une transformation du texte
orthographique en une séquence de sons ou phonèmes. Ce travail se concentre sur
l'approche de production de la voix à partir d'un texte Arabe. Notre objectif est de
proposer une nouvelle approche qui intègre les avantages de l'apprentissage profond
dans le domaine de la synthèse vocale en utilisant les réseaux de neurones
spécialement les réseaux de neurones convolutifs (CNN).
Nous détaillons cette approche et nous décrivons les principales étapes de sa
réalisation en commençant par la préparation de la base de données puis le traitement
linguistique appliqué pour passer d'un graphème à un phonème et à la fin la production
acoustique du texte précédemment acquis.
A la fin, nous illustrons et nous expliquons les résultats obtenus par le biais d’un
rapport d'évaluation basé sur le MOS (Mean Opinion Score : le score moyen
d’opinion) pour calculer l’intelligibilité du discours et l'aspect naturel du texte parlé.
Mot Clés : systèmes de synthèse vocale à partir de texte, Transcription orthographique Phonétique (TOP), Intelligence Artificielle (IA), Arabe Standard (AS), Apprentissage profond (DL), Réseau de neurones convolutif (CNN), Score moyen d'opinion (MOS).