Résumé:
Ce projet s'inscrit dans le cadre de mise en oeuvre d'un outil d'analyse de données textuelles. Ce travail a été fait durant un stage pratique au niveau du département d'informatique à l'université SAAD DAHLAB Blida.
Administrer des données texte, afin de pouvoir prendre profit des informations qu'elles contiennent, est devenu très essentiel, à cause de leurs volumes importants et la quantité d'information qu'elles puissent contenir. Afin de permettre l'analyse de ce type de données, il est devenu plus que nécessaire d'adapter un modèle de représentation de données, permettant de décrire ces données textuelles de façon suffisamment formelle, pour qu'elles puissent être prêtes à l'analyse.
plusieurs modèles ont été proposes, ils servent à la représentation multidimensionnelle des données textuelles, on peut les classer en deux familles de modèles : modèles extensifs, et modèles à nouveaux concepts. Un nouveau modèle appelé MSMTO a été proposé, c'est un modèle à nouveaux concepts, il est puissant puisque il prend en compte la sémantique des données textuelles, il offre aussi la flexibilité, en tenant compte du contenu sémantique de données textuelles comme une mesure, un fait ou même une dimension.
Notre choix s'est porté sur l'implémentation d'un outil d'analyse de données texte, basé sur le modèle MSMTO.
Pour extraire des sujets (Topics) à partir d'un corpus de documents, on a opté l'approche statistique LDA (Latent Dirichlet Allocation). En ce qui concerne la sémantique, on a utilisé l'API puissant de TextWise. On a choisi aussi le format XML pour stocker les informations extraites (Les hiérarchies sémantiques).
Pour le développement on a utilisé le langage Java (Java SE), et concernant le SGBD Natif, on a choisi le logiciel eXist-db.