Reconnaissance automatique de la parole  arabe continu

Hammadeche, Abdelhakim; Taki, Mohamed

Reconnaissance automatique de la parole arabe continu

Hammadeche, Abdelhakim; Taki, Mohamed

URI: http://di.univ-blida.dz:8080/jspui/handle/123456789/3092

Date: 2019

Résumé:

Speech is the most natural form of human communication and speech processing has been one of the most exciting areas of the signal processing. Speech recognition technology has made it possible for computer to follow human voice commands and understand human languages. The main goal of speech recognition area is to develop techniques and systems for speech input to machine and treat this speech to be used in many applications. As Arabic is one of the most widely spoken languages in the world. Statistics show that it is the first language (mother-tongue) of 295 million native speakers ranked as fiveth after Mandarin, Spanish ,English and India. In spite of its importance, research effort on Arabic Automatic Speech Recognition (ASR) is unfortunately still inadequate. This thesis proposes and describes an efficient and effective framework for designing and developing a speaker-independent continuous automatic Arabic speech recognition system based on a phonetically rich and balanced speech corpus. The developing Arabic speech recognition system is based on the Carnegie Mellon university Sphinx tools. To build the system, we develop three basic components. The dictionary which contains all possible phonetic pronunciations of any word in the domain vocabulary. The second one is the language model such a model tries to capture the properties of a sequence of words by means of a probability distribution, and to predict the next word in a speech sequence. The last one is the acoustic model which will be created by taking audio recordings of speech, and their text transcriptions, and using software to create statistical representations of the sounds that make up each word. The system use the rich and balanced database that contains 620 sentences, a total of 2863 words. The phonetic dictionary contains about 3720 definitions corresponding to the database words. And the language model contains 2866 mono-gram and 4049 bi-grams and 4673 tri-grams. The engine uses 3-emmiting states Hidden Markov Models (HMMs) for tri-phone-based acoustic models.. Keywords: Arabic automatic speech recognition, acoustic model, and language Model La parole est la forme la plus naturelle de communication humaine et le traitement de la parole a été l’un des domaines les plus intéressants du traitement du signal La technologie de reconnaissance vocale a permis à un ordinateur de suivre les commandes de la voix humaine et de comprendre les langages humains. L'objectif principal de la zone de reconnaissance vocale est de développer des techniques et des systèmes permettant à la parole d'entrer dans la machine et de traiter cette parole dans de nombreuses applications. L’arabe est l’une des langues les plus parlées au monde Les statistiques montrent qu’il s’agit de la première langue (langue maternelle) de 295 millions de locuteurs natifs classés cinquième après le mandarin, l’espagnol, l’anglais et l’Inde Malgré son importance, les efforts de recherche sur la reconnaissance vocale automatique en arabe sont encore insuffisants. Cette thèse propose et décrit un cadre efficace pour la conception et le développement d'un système de reconnaissance automatique de la langue arabe, continu et indépendant du locuteur, basé sur un corpus de parole riche, riche et équilibré. Le système en cours de reconnaissance de la parole en arabe est basé sur les outils Sphinx de l’Université Carnegie Mellon. Pour construire le système, nous développons trois composants de base Le dictionnaire qui contient toutes les prononciations phonétiques possibles de n’importe quel mot du vocabulaire du domaine, Le second est le modèle de langage, Un tel modèle tente de saisir les propriétés d’une séquence de mots au moyen d’une distribution de probabilité et de prédire le mot suivant dans une séquence vocale Le dernier est le modèle acoustique qui sera créé en prenant des enregistrements audio de la parole et leurs transcriptions de texte, et en utilisant un logiciel pour créer des représentations statistiques des sons qui composent chaque mot. Le système utilise la base de données riche et équilibrée qui contient 620 phrases, un total de 2863 mots. Le dictionnaire phonétique contient environ 3720 définitions correspondant aux mots de la base de données. Le modèle de langage contient 2866 mono-grammes et 4049 bi-grammes et 4673 tri-grammes. Le moteur utilise des modèles de Markov cachés (HMM) à 3 états émetteurs pour les modèles acoustiques à trois téléphones. Mots clés : Reconnaissance automatique de la parole arabe, model de language,model acoustique