Résumé:
L’émergence du Big Data a apporté de nombreux aspects et de bonnes pratiques qui
ont mis l’accent sur plusieurs technologies de l’information telles que les entrepôts de données (EDs), qui font face à de nouveaux défis pour développer leurs services en adéquation avec les nouvelles exigences des systèmes décisionnels. Aujourd’hui, les grandes entreprises doivent analyser leurs données agrégées et stockées au moyen de requêtes d’analyse
complexes. Pour satisfaire les exigences du décideur, une compréhension approfondie des
propriétés de ces requêtes est nécessaire. En plus de leur nombre élevé, ces requêtes sont
dynamiques et fortement interagies. Deux requêtes sont considérées comme interactives si
elles partagent des sous-expressions communes. L’exploitation des sous expressions communes est l’un des problèmes les plus importants de la base de données, largement étudié
au début des années 80 sous le nom de problème d’optimisation multi-requêtes (PMQO).
La littérature a rapporté que le PMQO a largement contribué à résoudre plusieurs instances
de la conception physique des EDs, en particulier dans la sélection des vues matérialisées.
La sélection du meilleur ensemble de vues matérialisées pour optimiser les performances
des requêtes est une tâche difficile. Compte tenu de leur importance et de la complexité de
leur sélection, plusieurs efforts de recherche tant du milieu universitaire que de l’industrie
ont été menés. Malgré leur importance, les études à ce jour n’ont pas réussi à gérer simultanément les trois propriétés des requêtes analytiques. Dans cette thèse, nous proposons un
hypergraphe dynamique comme structure de données pour gérer l’ensemble des trois propriétés mentionnées ci-dessus, et nous montrons sa grande contribution dans la corrélation
et le traitement des deux problèmes d’optimisation multi-requêtes et de sélection des vues
matérialisées. Cette structure de données exploite les modèles de coût que nous avons développés pour capturer les sous-expressions communes des requête et matérialiser les plus bénéfiques. Notre approche s’accompagne d’une stratégie proactive, qui oriente les premières
requêtes en fonction d’un seuil donné d vers la phase hors ligne qui sélectionne leurs vues
matérialisées appropriées. La phase en ligne exploite le pool de vues obtenu par la première
phase pour optimiser les nouvelles requêtes entrantes, et sélectionne de nouvelles vues en
supprimant les moins avantageuses. Pour valider notre approche, nous avons mené des expérimentations extensives pour évaluer l’efficacité de notre proposition ainsi que son intégration rentable dans un SGBD commercial.