Résumé:
Aujourd’hui, les entreprises traitent des volumes de données de plus en plus importants.
Ces données sont souvent réparties dans différents systèmes hétérogènes. Dans un projet
décisionnel la collecte de ces données est nécessaire afin de les exploiter efficacement.
Cette phase d'extraction est de transformation préalable représente (selon les spécialistes
du milieu) à peu près les trois quarts du projet de création d'un Data Warehouse.
Un processus ETL est une suite d’opérations nécessaires à l’alimentation d’une base cible
avec des données réparties dans différentes bases sources hétérogènes : Extraction,
Transformation, Chargement, La mise en place de processus ETL dans l’entreprise est une tâche
lourde et complexe.
Le travail présenté dans ce mémoire a pour objectif la conception et l’implémentation
d’un système générique de collecte automatique de données à partir des sources de données
hétérogènes (un formulaire, un fichier Excel, une ou plusieurs bases de données) en utilisant des
fichiers XML comme support d’échange. Ce système n’est pas un concurrent des solutions
lourdes du marché mais se présente comme une alternative légère et plus accessible en termes
d’apprentissage, de mise en place et d’utilisation.
Mots-clés : Data Warehouse, Extraction, Base de données, Hétérogénéité, ETL, XML.