Résumé:
La vulgarisation des données à grande échelle, tout particulièrement les données non
structurées et les environnements Big Data, a donné naissance à une nouvelle technologie
de stockage appelée Lac de données (Data Lake en anglais). Les lacs de données permettent
de stocker d'énormes quantités de données, qu'elles soient structurées, semi-structurées ou
non structurées, en les publiant à des fins d'analyse de données, de statistiques, de fouille
de données, etc.
Pour s’assurer que cette technologie de stockage ne se transforme en marécages,
la gouvernance du Data Lake basée sur un catalogue de métadonnées est considérée
comme la clé de voûte d’un environnement Data Lake. Le catalogue des métadonnées
permet de créer des passerelles sémantiques entres les différentes sources de données et
de prendre en charge les différentes opérations de base à savoir l’ingestion des données,
faciliter l’accès aux différentes sources quel que soit leur format, etc.
La " Data Provenance " ou " Data Lineage " étant l'un des éléments importants du
catalogue des métadonnées du système Data Lake, elle permet de définir le contenu des
sources de données, de décrire les liens entre les sources ainsi que l'historique des
changements effectués sur celles-ci. L'objectif de ce travail est la capture, le stockage,
l'interrogation et la visualisation des métadonnées décrivant le cycle de vie des sources
de données dans un environnement Data Lake.
Mots-clés: Data Provenance, Data Lineage, Métadonnées, Data Lake, Big Data, NoSQL.