Résumé:
Le système de surveillance vidéo utilises des caméras qui sont installées dans des espaces
publics afin de surveiller les divers risques qui peuvent se produire. Ces caméras capturent des
images et des vidéos qui présentent différents événements et changements se produisant dans
une scène donnée, toutefois, la plupart de ces événements sont sans grande importance. C’est
pourquoi le résumé des vidéos revêt une importance sans précédent, il permet d'extraire
automatiquement un résumé bref et informatif, met en évidence que les événements
pertinents.
Les précédentes études de synthèse vidéo sont conçus pour générer des résumés efficaces
pour les vidéos à vue unique, et les résultats ne seraient pas bons s'ils étaient appliqués
directement aux vidéos à vues multiples, car les vidéos contiennent des événements
inintéressants. La même scène est enregistrée dans différentes vues, ce qui entraîne des
dépendances entre les vues et une redondance dans les vues multiples.
Dans ce travail, nous proposons une solution qui consiste à développer une application
pour la génération de résumé vidéo multi vues basé sur l’apprentissage profond pour
l’extraction des vecteurs caractéristiques profondes et l’utilisation d’une architecture
neuronale basée sur les réseaux de neurones récurrents qui prend les fonctionnalités
spatiaux-temporelles présentes dans les images de la vidéo pour la génération dynamique du
résumé final.
Mots clé : Résumé vidéo, multi vues, apprentissage profond, réseaux de neurones
convolutifs, caractéristiques profondes, réseaux de neurones récurrents.