Résumé:
Notre travail s'inscrit dans le cadre des systèmes d'information décisionnels (SID), plus particulièrement dans la phase d'intégration basée sur un processus ETL Plus précisément, notre objectif est de propose et d'implementer des techniques et des stratégies pour permettre à ce processos de faire face au nouveau phénomène des données massives connues sous le nom de Big Data: Des données de cette dimension (PetaBytes, HexaBytes, ...) mettent l'ETL en difficulté et celui-ci risque de s'exécuter pendant des heures voire des jours ou plutôt risque de ne pas aboutir.
En parallèle, de nouveaux environnements et paradigmes se développent tels que l'informatique dans les nuages (cloud computing) et MapReduce. Le modèle MapReduce est un modèle qui présente une grande cohérence avec le processus ETL et est destiné justement pour le traitement intensif à grande échelle des données massives sur un cluster d'ordinateurs.
Nous avons retenu de mettre en cuvre un framework ETL basé sur le paradigme MapReduce sous l'environnement Disco en partant des limites d'une approche existante (prototype ETLMR, 2011). Notre approche consiste en l'implémentation des stratégies et des techniques pour la parallélisation des données (partitionnement et distribution des données) et la parallélisation des tâches ETL sur un cluster grâce au Framework Disco et ce pour l'amélioration des performances. Mots clés
Systèmes d'information décisionnels, ETL, Données intensives, MapReduce, ETLMR, Performance, Parallélisation des données, Partitionnement et Distribution, Parallélisation des tâches, Disco