Résumé:
Ce projet consiste à concevoir une méthode de reconnaissance des sons de
l’environnement en utilisant peu de données. Il s’agit d’un module important pour la
conception des systèmes de surveillance audio. Nous nous sommes intéressés à la
reconnaissance de trois catégories de sons : (i) cris humains, (ii) alarmes de voitures
et (iii) bris de glace. Le schéma de classification que nous proposons est basé sur la
déformation temporelle dynamique. Nous appliquons une méthodologie qui
consiste à utiliser une multitude de données de références (codebook) pour le calcul
des distances entre les séquences. Nous comparons les performances de la méthode
de reconnaissance en utilisant deux techniques d’extraction d’attributs : les MFCCs
(Mel-Frequency Cepstral Coefficients) et les LPCs (Linear Prediction Coefficients).
Nous avons trouvé que la méthode proposée a atteint un taux de reconnaissance de
83.33% en utilisant seulement 5 attributs LPCs. De plus, ce résultat a été obtenu en
exploitant seulement une durée égale à 0.2s du segment sonore. Cependant, pour les MFCCs, le même taux de reconnaissance a été atteint en
utilisant (i) une durée du segment sonore de 0.6s et (ii) 30 attributs (incluant les
dérivées des MFCCs). Nous concluons que les LPCs sont plus appropriés que les
MFCCs.