Résumé:
Ce sujet est à la croisée des entrepôts de données, des modèles de stockage NoSQL, et du
traitement de données massives (méga-données).
L’objectif principal étant de fournir un banc d’essai qui permet de simuler et d’évaluer un entrepôt de
données multidimensionnelles NoSQL orienté documents, avec les différentes manipulations OLAP
effectuées par un analyste.
Dans le domaine des entrepôts de données multidimensionnelles et l’analyse de données en ligne
(OLAP), les bancs d’essai références sont TPC-DS, TPC-H et le SSB. Cependant, ces solutions ne
sont pas définies dans un environnement BigData pour une utilisation dans un système distribué ou
des bases de données NoSQL. Leur processus de génération de données nécessite beaucoup plus de
temps lorsqu’il est question d’évaluer un large volume de données (Téraoctet voire plus). Comparer
les systèmes avec un volume de données important est devenu crucial. Plus le volume est important
plus nous sommes confrontés aux limites de mémoire lors d’une configuration avec une seule
machine.
Dans ce contexte, et en l’absence de benchmarks décisionnels conçus pour les systèmes NoSQL,
nous proposons de réaliser un outil graphique de génération de données synthétiques .En effet, il
offre l’opportunité de générer les données selon le modèle conceptuel de l’entrepôt de données en
étoile « SSB» (Star Schema Benchmark). Lors de la génération des données, plusieurs aspects sont
pris en charge par cet outil, tels que le format des données et le volume de données générées.
Mots clés : Entrepôt de données, NoSQL, banc d’essai, orienté documents, BigData, OLAP,
OLAP, benchmark décisionnel, système distribué, SSB.