Université Blida 1

Architecture Encodeur-Encodeur pour la génération automatique de légendes textuelles des signaux audio

Afficher la notice abrégée

dc.contributor.author Azazi, Khalida
dc.contributor.author Ourchane, Sara
dc.contributor.author Kameche, Abdallah Hicham ( Promoteur)
dc.date.accessioned 2024-12-18T12:42:56Z
dc.date.available 2024-12-18T12:42:56Z
dc.date.issued 2024
dc.identifier.uri https://di.univ-blida.dz/jspui/handle/123456789/35839
dc.description ill., Bibliogr. Cote:ma-004-1028 fr_FR
dc.description.abstract L’Automated Audio Captioning (AAC) est une discipline émergente visant à générer automatiquement des descriptions textuelles précises à partir de contenus audio. Le Joint Embedding est une technique utilisée pour projeter des données de différentes modalités (par exemple, audio et texte) dans un même espace vectoriel partagé. L’objectif est de représenter les deux types de données de maniéré `a ce qu’ils soient directement comparables et que leurs relations sémantiques soient préservées dans cet espace commun. Dans ce travail , On propose une approche de Joint Embedding, qui projette les représentations audio et textuelles dans un espace vectoriel commun. Pour encoder les descriptions textuelles,on utilise SBERT, tandis que des architectures spécialisées comme le CNN14 Encoder sont utilisées pour extraire des caractéristiques audio pertinentes à partir des spectrogrammes Mel. On utilise le dataset Clotho, qui propose une variété de clips audio accompagnés de descriptions textuelles, pour développer et évaluer des modèles AAC. Le modèles AAC obtenu peut générer automatiquement des légendes audio de haute qualité à partir du dataset Clotho, ouvrant la voie à de nombreuses applications pratiques dans accessibilité et la recherche multimodale. Mots clés : Réseaux de neurones, traitement de signaux audios, génération automatique de légende pour audio, traitement de langage naturel, projection multimodale.. . . fr_FR
dc.language.iso fr fr_FR
dc.publisher Université Blida 1 fr_FR
dc.subject Réseaux de neurones fr_FR
dc.subject traitement de signaux audios fr_FR
dc.subject génération automatique de légende pour audio fr_FR
dc.subject traitement de langage naturel fr_FR
dc.subject projection multimodale fr_FR
dc.title Architecture Encodeur-Encodeur pour la génération automatique de légendes textuelles des signaux audio fr_FR
dc.type Thesis fr_FR


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Chercher dans le dépôt


Recherche avancée

Parcourir

Mon compte