Résumé:
Les lacs de données (Data Lake) sont devenus une tendance et ont trouvé leur
popularité chez les entreprises à cause des avantages qu’ils offrent à savoir l’ingestion
des données basée sur le principe AS-IS et le processus ELT (Extract-Load-Transform)
au lieu du processus classique ETL (Extract-Transform-Load), qui rend les données dans
les Data Lake caractérisés par la préservation de leur format natif et la diversité des
structures (des données structurées, semi-structurées et non structurées). Nous présentons,
dans ce mémoire, la mise en œuvre d'un système d'analyse de données en ligne (OLAP)
dans un environnement big data où les données sont issues à partir d’un lac de données
(Data Lake).
L’objectif de ce travail est de construire des cubes de données OLAP à partir d’un
Data Lake. Pour ce faire, nous avons mis en œuvre une plate-forme d’analyse OLAP
constituée de trois couches principales à savoir (1) transformation des données, (2)
stockage des cubes de données dans un modèle NoSQL et (3) algèbre OLAP adaptée au
modèle NoSQL. La plate-forme OLAP proposée a été développée avec le langage python,
la plate-forme de distribution et de parallélisation d’Apache en l’occurrence Hadoop et
Spark et enfin le SGBD MongoDB pour le stockage des cubes OLAP dans un modèle
NoSQL orienté document.
Mots clés : Système décisionnel, Big Data, Data Lake, OLAP, NoSQL, ELT.