Architecture Encodeur-Encodeur pour la génération automatique de légendes textuelles des signaux audio

Azazi, Khalida; Ourchane, Sara; Kameche, Abdallah Hicham ( Promoteur)

Veuillez utiliser cette adresse pour citer ce document : https://di.univ-blida.dz/jspui/handle/123456789/35839

Affichage complet

Élément Dublin Core	Valeur	Langue
dc.contributor.author	Azazi, Khalida	-
dc.contributor.author	Ourchane, Sara	-
dc.contributor.author	Kameche, Abdallah Hicham ( Promoteur)	-
dc.date.accessioned	2024-12-18T12:42:56Z	-
dc.date.available	2024-12-18T12:42:56Z	-
dc.date.issued	2024	-
dc.identifier.uri	https://di.univ-blida.dz/jspui/handle/123456789/35839	-
dc.description	ill., Bibliogr. Cote:ma-004-1028	fr_FR
dc.description.abstract	L’Automated Audio Captioning (AAC) est une discipline émergente visant à générer automatiquement des descriptions textuelles précises à partir de contenus audio. Le Joint Embedding est une technique utilisée pour projeter des données de différentes modalités (par exemple, audio et texte) dans un même espace vectoriel partagé. L’objectif est de représenter les deux types de données de maniéré `a ce qu’ils soient directement comparables et que leurs relations sémantiques soient préservées dans cet espace commun. Dans ce travail , On propose une approche de Joint Embedding, qui projette les représentations audio et textuelles dans un espace vectoriel commun. Pour encoder les descriptions textuelles,on utilise SBERT, tandis que des architectures spécialisées comme le CNN14 Encoder sont utilisées pour extraire des caractéristiques audio pertinentes à partir des spectrogrammes Mel. On utilise le dataset Clotho, qui propose une variété de clips audio accompagnés de descriptions textuelles, pour développer et évaluer des modèles AAC. Le modèles AAC obtenu peut générer automatiquement des légendes audio de haute qualité à partir du dataset Clotho, ouvrant la voie à de nombreuses applications pratiques dans accessibilité et la recherche multimodale. Mots clés : Réseaux de neurones, traitement de signaux audios, génération automatique de légende pour audio, traitement de langage naturel, projection multimodale.. . .	fr_FR
dc.language.iso	fr	fr_FR
dc.publisher	Université Blida 1	fr_FR
dc.subject	Réseaux de neurones	fr_FR
dc.subject	traitement de signaux audios	fr_FR
dc.subject	génération automatique de légende pour audio	fr_FR
dc.subject	traitement de langage naturel	fr_FR
dc.subject	projection multimodale	fr_FR
dc.title	Architecture Encodeur-Encodeur pour la génération automatique de légendes textuelles des signaux audio	fr_FR
dc.type	Thesis	fr_FR
Collection(s) :	Mémoires de Master

Fichier(s) constituant ce document :

Fichier	Description	Taille	Format
Azazi Khalida et Ourchane Sara.pdf		5,7 MB	Adobe PDF	Voir/Ouvrir

Affichage abbrégé

DSpace JSPUI

DSpace préserve et permet l'accès à toute manière de contenu, y compris des documents texte, des images, des MPEG et des ensembles de données