Résumé:
La vidéo surveillance est un système de caméras et de transmission d’images utilisé pour
contrôler les conditions de respect et de la sécurité. Ces caméras capturent des images et des
vidéos qui présentent des événements différents, dont la plupart peuvent être classés moins
importants et moins significatifs que d’autres.
Afin de mettre en évidence seulement les événements pertinents, le résumé vidéo revêt
une grande importance car il permet d’extraire automatiquement les scènes considérées comme
essentiels pour former un résumé vidéo bref et informatif.
Les études précédentes se focalisent sur la génération d’un résumé vidéo d’une caméra
unique (une seule vue). Dernièrement plus d’études ont commencé à se centraliser sur les
problèmes de construction d’un résumé vidéo multi vues à cause des différentes contraintes et
éléments qui s’imposent, tel que la redondance de la même scène dans différentes vues.
Dans notre travail, nous proposons une solution qui consiste à développer une
application pour la génération de résumé vidéo multi vues basé sur l’apprentissage profond pour
l’extraction des vecteurs caractéristiques profondes en utilisant un réseau de neurone convolutif
suivi par l’utilisation d’un réseau de neurone récurrent lstm « long short terme memory » qui
prend les fonctionnalités spatiaux-temporelles présentes dans les images de la vidéo pour la
construction dynamique du résumé final. Mots clés : Résumé vidéo, multi vues, apprentissage profond, caractéristiques profondes, réseau de neurone récurrent, lstm, réseau de neurone convolutif.