Veuillez utiliser cette adresse pour citer ce document : https://di.univ-blida.dz/jspui/handle/123456789/35839
Affichage complet
Élément Dublin CoreValeurLangue
dc.contributor.authorAzazi, Khalida-
dc.contributor.authorOurchane, Sara-
dc.contributor.authorKameche, Abdallah Hicham ( Promoteur)-
dc.date.accessioned2024-12-18T12:42:56Z-
dc.date.available2024-12-18T12:42:56Z-
dc.date.issued2024-
dc.identifier.urihttps://di.univ-blida.dz/jspui/handle/123456789/35839-
dc.descriptionill., Bibliogr. Cote:ma-004-1028fr_FR
dc.description.abstractL’Automated Audio Captioning (AAC) est une discipline émergente visant à générer automatiquement des descriptions textuelles précises à partir de contenus audio. Le Joint Embedding est une technique utilisée pour projeter des données de différentes modalités (par exemple, audio et texte) dans un même espace vectoriel partagé. L’objectif est de représenter les deux types de données de maniéré `a ce qu’ils soient directement comparables et que leurs relations sémantiques soient préservées dans cet espace commun. Dans ce travail , On propose une approche de Joint Embedding, qui projette les représentations audio et textuelles dans un espace vectoriel commun. Pour encoder les descriptions textuelles,on utilise SBERT, tandis que des architectures spécialisées comme le CNN14 Encoder sont utilisées pour extraire des caractéristiques audio pertinentes à partir des spectrogrammes Mel. On utilise le dataset Clotho, qui propose une variété de clips audio accompagnés de descriptions textuelles, pour développer et évaluer des modèles AAC. Le modèles AAC obtenu peut générer automatiquement des légendes audio de haute qualité à partir du dataset Clotho, ouvrant la voie à de nombreuses applications pratiques dans accessibilité et la recherche multimodale. Mots clés : Réseaux de neurones, traitement de signaux audios, génération automatique de légende pour audio, traitement de langage naturel, projection multimodale.. . .fr_FR
dc.language.isofrfr_FR
dc.publisherUniversité Blida 1fr_FR
dc.subjectRéseaux de neuronesfr_FR
dc.subjecttraitement de signaux audiosfr_FR
dc.subjectgénération automatique de légende pour audiofr_FR
dc.subjecttraitement de langage naturelfr_FR
dc.subjectprojection multimodalefr_FR
dc.titleArchitecture Encodeur-Encodeur pour la génération automatique de légendes textuelles des signaux audiofr_FR
dc.typeThesisfr_FR
Collection(s) :Mémoires de Master

Fichier(s) constituant ce document :
Fichier Description TailleFormat 
Azazi Khalida et Ourchane Sara.pdf5,7 MBAdobe PDFVoir/Ouvrir


Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.