Résumé:
Speech is the most natural form of human communication and speech processing has been one of
the most exciting areas of the signal processing. Speech recognition technology has made it
possible for computer to follow human voice commands and understand human languages. The
main goal of speech recognition area is to develop techniques and systems for speech input to
machine and treat this speech to be used in many applications. As Arabic is one of the most widely
spoken languages in the world.
Statistics show that it is the first language (mother-tongue) of 295 million native speakers ranked
as fiveth after Mandarin, Spanish ,English and India. In spite of its importance, research effort on
Arabic Automatic Speech Recognition (ASR) is unfortunately still inadequate.
This thesis proposes and describes an efficient and effective framework for designing and
developing a speaker-independent continuous automatic Arabic speech recognition system based
on a phonetically rich and balanced speech corpus. The developing Arabic speech recognition
system is based on the Carnegie Mellon university Sphinx tools.
To build the system, we develop three basic components. The dictionary which contains all
possible phonetic pronunciations of any word in the domain vocabulary.
The second one is the language model such a model tries to capture the properties of a sequence
of words by means of a probability distribution, and to predict the next word in a speech sequence.
The last one is the acoustic model which will be created by taking audio recordings of speech, and
their text transcriptions, and using software to create statistical representations of the sounds that
make up each word. The system use the rich and balanced database that contains 620 sentences, a
total of 2863 words. The phonetic dictionary contains about 3720 definitions corresponding to the
database words. And the language model contains 2866 mono-gram and 4049 bi-grams and 4673
tri-grams. The engine uses 3-emmiting states Hidden Markov Models (HMMs) for tri-phone-based
acoustic models..
Keywords: Arabic automatic speech recognition, acoustic model, and language Model La parole est la forme la plus naturelle de communication humaine et le traitement de la parole a
été l’un des domaines les plus intéressants du traitement du signal La technologie de
reconnaissance vocale a permis à un ordinateur de suivre les commandes de la voix humaine et de
comprendre les langages humains. L'objectif principal de la zone de reconnaissance vocale est de
développer des techniques et des systèmes permettant à la parole d'entrer dans la machine et de
traiter cette parole dans de nombreuses applications. L’arabe est l’une des langues les plus parlées
au monde Les statistiques montrent qu’il s’agit de la première langue (langue maternelle) de 295
millions de locuteurs natifs classés cinquième après le mandarin, l’espagnol, l’anglais et l’Inde
Malgré son importance, les efforts de recherche sur la reconnaissance vocale automatique en arabe
sont encore insuffisants.
Cette thèse propose et décrit un cadre efficace pour la conception et le développement d'un système
de reconnaissance automatique de la langue arabe, continu et indépendant du locuteur, basé sur un
corpus de parole riche, riche et équilibré. Le système en cours de reconnaissance de la parole en
arabe est basé sur les outils Sphinx de l’Université Carnegie Mellon.
Pour construire le système, nous développons trois composants de base Le dictionnaire qui
contient toutes les prononciations phonétiques possibles de n’importe quel mot du vocabulaire du
domaine, Le second est le modèle de langage, Un tel modèle tente de saisir les propriétés d’une
séquence de mots au moyen d’une distribution de probabilité et de prédire le mot suivant dans une
séquence vocale Le dernier est le modèle acoustique qui sera créé en prenant des enregistrements
audio de la parole et leurs transcriptions de texte, et en utilisant un logiciel pour créer des
représentations statistiques des sons qui composent chaque mot. Le système utilise la base de
données riche et équilibrée qui contient 620 phrases, un total de 2863 mots. Le dictionnaire
phonétique contient environ 3720 définitions correspondant aux mots de la base de données. Le
modèle de langage contient 2866 mono-grammes et 4049 bi-grammes et 4673 tri-grammes. Le
moteur utilise des modèles de Markov cachés (HMM) à 3 états émetteurs pour les modèles
acoustiques à trois téléphones.
Mots clés : Reconnaissance automatique de la parole arabe, model de language,model acoustique