Résumé:
L’Automated Audio Captioning (AAC) est une discipline émergente visant à générer automatiquement des descriptions textuelles précises à partir de contenus audio. Le Joint Embedding est une technique utilisée pour projeter des données de différentes modalités (par exemple, audio et texte) dans un même espace vectoriel partagé. L’objectif est de représenter les deux types de données de maniéré `a ce qu’ils soient directement comparables et que leurs relations sémantiques soient préservées dans cet espace commun.
Dans ce travail , On propose une approche de Joint Embedding, qui projette les représentations audio et textuelles dans un espace vectoriel commun. Pour encoder les descriptions textuelles,on utilise SBERT, tandis que des architectures spécialisées comme le CNN14 Encoder sont utilisées pour extraire des caractéristiques audio pertinentes à partir des spectrogrammes Mel.
On utilise le dataset Clotho, qui propose une variété de clips audio accompagnés de descriptions textuelles, pour développer et évaluer des modèles AAC.
Le modèles AAC obtenu peut générer automatiquement des légendes audio de haute qualité à partir du dataset Clotho, ouvrant la voie à de nombreuses applications pratiques dans accessibilité et la recherche multimodale.
Mots clés : Réseaux de neurones, traitement de signaux audios, génération automatique de légende pour audio, traitement de langage naturel, projection multimodale.. . .