Veuillez utiliser cette adresse pour citer ce document :
https://di.univ-blida.dz/jspui/handle/123456789/601
Titre: | Simulation de la méthode de mel pour la reconnaissance automatique d’un locuteur |
Auteur(s): | Moulai, Amel Azine, Houria (promotrice) |
Date de publication: | 2018 |
Editeur: | Université Blida 01 |
Résumé: | Résumé Ce mémoire s'inscrit dans le domaine de la Reconnaissance Automat ique du Locuteur, un domaine riche d’applicat ions potentielles allant de la sécurisat ion d’accès à l’indexat ion de documents audio, dont l'object if est de reconnaît re une personne par l'analyse de sa voix. Cette authent ification peut être réalisée au moyen d'une application intégrée dans les systèmes d’enregistrement des communicat ions ATC/ATM dans le but d’atteindre un niveau de sécurité acceptable. Pour mettre en œuvre un tel système il faut passer par plusieurs étapes. On coupe le signal vocal en trames avec chevauchement. Le résultat obtenu est une matrice, où chaque colonne est une trame de N échant illons du signal de la parole originale. En appliquant ensuite le fenêtrage et la FFT pour transformer le signal dans le domaine fréquent iel, et enfin la dernière étape, qui est la conversion du spectre de puissance en coefficients cepstraux de la fréquence Mel (MFCC). Nous appliquerons la technique de reconnaissance de formes basée sur la quant ificat ion vectorielle QV pour construire des modèles de référence du locuteur. Abstract This thesis is part of the field of Automat ic Speaker Recognit ion, a rich domain of potential applicat ions ranging from securing access to the indexing of audio documents, the purpose of which is to recognize a person through analysis in his voice. This authent icat ion can be achieved by means of an applicat ion integrated into the ATC/ATM communicat ion recording systems in order to achieve an acceptable level of securit y. To implement such system, it is necessary to go through several steps. The voice signal is cut into overlapping frames. The result is a matrix where each column is a frame of N samples of the original speech signal. The applying windowing and FFT to transform the signal into the frequency domain, the final stage of speech processing is the conversion of the power spectrum into cepstral coefficients of the Mel frequency (MFCC). We will apply the QV vector quantizat ion based pattern recognition technique to build speaker reference models. |
Description: | 77 p.; ill.+1 cd rom.-Mémoire de Master option CNS/ATM .-Numéro de thèse 023 /2018 |
URI/URL: | http://di.univ-blida.dz:8080/xmlui/handle/123456789/601 |
Collection(s) : | Mémoires de Master |
Fichier(s) constituant ce document :
Fichier | Description | Taille | Format | |
---|---|---|---|---|
023-2018.pdf | 8,73 MB | Adobe PDF | Voir/Ouvrir |
Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.