Résumé:
Ce mémoire consiste en la mise en oeuvre du processus ETL dans un environnement Hadoop Hive. Cet environnement est destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de noeuds et des pétaoctets de données.
Pour performer et accélérer les différentes tâches du processus ETL à savoir l'extraction, la transformation et le chargement des données dans un entrepôt, nous lui appliquons l'algorithme MapReduce qui est le plus adapté pour le calcul parallèle et distribué de données potentiellement très volumineuses. Notre environnement dispose d'une implementation complète du paradigme MapReduce.
Mots clés : Entrepôt de données, processus ETL, MapReduce, Cloud Computing, Hadoop, Hive, Sqoop, HDFS.