Résumé:
De nos jours, de larges volumes de données sont disponibles publiquement, les types de données sont divers, et les ressources très nombreuses. Souvent les données provenant de différentes ressources se complètent.
L'architecture d'un système d'intégration d'informations doit permellre leur intégration donnant ainsi l'impression à l'utilisateur qu'n utilise un système homogène, et de lui fournir une vue unifiée de ces données. Dans ce contexte, un problème essentiel de l'intégration est de gérer l'hétérogénéité et la répartition des différentes sources de données. L'intégration de sources de données nécessite des outils qui prennent en charge des problèmes et qui foumissent un accès efficace à un ensemble de sources de données.
On peut distinguer deux grandes approches pour l'intégration de sources d'information: L'approche virtuelle of L'approche matérialisé. L'approche virtuelle consiste à fondé l'intégration d'informations sur l'exploitation de vues abstraites décrivant le contenu des différentes sources d'information. Les données ne sont pas stockées et ne sont accessibles qu'au niveau des sources d'information L'approche matérialisé consiste à voir cette intégration comme la consiruction de bases de données réelles, regroupant les informations pertinentes pour les applications considérées.
Les systèmes d'intégration utilisent un format commun appelé le format sivat pour l'intégration, dans notre contexte, nous avons choisi le modèle relationnel. La raison pour ce choix est basée sur ses nombreux avantages et l'utilisation fréquente de ce modèle dans les systèmes d'informations et il propose un schéma facile à utiliser par rapport aux autres standards, Transact-SQL est le langage de requête utilisé pour interroger les bases de données relationnels est les documents XML il permet d'exprimer des requête très complexe sur le serveur local ou les serveurs distents
Dans ce mémoire nous avons présente une architecture d'intégration de données dans un entrepôt de données, elle repose sur l'approche fédérée fortement couple, Les niveaux de Sheth sont repris sauf que le premier et deuxidrive niveau (schéma local et schéma composant) sont combinés dans un seul niveau qui correspond au schéma pivot Notre système consiste à définir un schéma fédéré en fonction des schémas sources de données, a partir de se schéma l'administrateur devra cibler les données juge pertinentes pour construire le schéma externe d'un dalamart.
Dans ce travail, nous avons identifié trois points essentielles:
✓
L'utilisation des tables systèmes de SGBD SQL Server et PostgreSQL pour construire le schéma pivot, et l'utilisation des schémas XML XSD> pour définir le schéma des documents XML.
La définition d'un schéma fédéré en fonction des différentes sources de données, et la possibilité de modifier le schéma fédéré (ajout d'une source implique un ajout des relations dans le schéma fédéré) Le processus de traitement d'une requête d'alimentation des que la datamart sera planifié par l'administrateur de l'entrepot de données