Résumé:
Apres l’évolution du TLN, la détection des titres et l’extraction de la table des
matières (TDM) sont devenus deux tâches indispensables pour cette première et
l’analyse de documents, en particulier dans le domaine des finances ou les rapports
sont généralement plus longs que dans d’autres domaines et qui ont un squelette
complexe, dont la plus part de ces documents en format PDF ne contiennent pas la
TDM à la création ce qui empêche l’obtention de l’information d’une manière rapide
et claire ,c'est dans ce contexte que notre mémoire prend place afin d'étudier, concevoir
et développer un système qui vise à extraire la TDM des documents PDF scannés et
non scannés.
Pour bien gérer notre travail nous avons collecter plusieurs corpus ensuite nous
avons utilisé des techniques d'extraction de l’information à partir des documents PDFs
dans lesquelles nous avons appliqué de nombreuses méthodes telles que poppler et
pyPDF2, pdfminer. Ces méthodes se concentrent sur le contenu textuel des documents
numérisés, pour la comparaison entre ces techniques nous avons utilisé des
algorithmes de la bibliothèque TextDistance, Les meilleurs résultats ont été obtenus
en utilisant l’algorithme de l’entropie de Shannon. Les résultats que nous avons obtenu
lors de nos expériences montre que poppler est le meilleur modèle utilisé pour notre
étude avec un taux de 68.833% en utilisant des mémoires en master2 en anglais.
Mot clé : table des matières, documents financiers, extraction d’information,
reconnaissance optique de caractères.