Veuillez utiliser cette adresse pour citer ce document : https://di.univ-blida.dz/jspui/handle/123456789/5072
Titre: Summarization des documents dans les cubes de textes
Auteur(s): Lababou, Aicha
Mots-clés: Cube de textes
OLAP
Données textuelles
Fouille de texte
Summarization de documents
Date de publication: 2013
Editeur: univ-blida1.
Référence bibliographique: Blida
Résumé: Les systèmes décisionnels ont émergé dans la dernière décennie autour de l’utilisation des entrepôts de données (Data warehouses) et l’analyse en ligne (OLAP, On-Line Analytical Processing). Bien que ces technologies gagnent de plus en plus en populari-té au sein des organisations, seuls 20% des informations extraites des données, dites structurées, peuvent être traitées par un système OLAP. En effet, les 80% restants de l’information sont contenus dans des documents non structurés ou semi-structurés. Il est admis que les textes constituent l’essentiel de ces données, car il est le moyen le plus répandu pour exprimer les informations et les connaissances. Avec la croissance explosive des données textuelles, aussi bien dans les organisations que sur le web, il devient nécessaire d’aller au-delà de l’analyse en ligne des données structurées, pour prendre en charge également les données textuelles, non structurées, et couvrir ainsi les 100% des données d’un système d’information. Or, la prise en charge des données textuelles par les systèmes décisionnels constitue un défi pour deux principaux problèmes. Le premier est relatif à l’intégration et au stockage des informations issues de documents hétérogènes. Le second problème consiste à déterminer les informations à extraire des documents textuels pour servir aux différents processus de restitution, notamment l’analyse OLAP. L’agrégation des données textuelles constitue l’un des challenges que doit relever les processus OLAP. En effet, avec les outils OLAP classiques, il est impossible d’agréger des données textuelles selon des fonctions arithmétiques. L’environnement OLAP de données textuelles, a besoin de nouvelles techniques d'agrégation pour ce type de données. Nos propositions se résument en quatre fonctions de summarization, utilisant des techniques du domaine de la fouille de texte. L’objectif de la summarization est d’exploiter la mesure textuelle du cube de textes pour résumer le contenu des documents textuels sous une nouvelle forme appréhendable par le décideur. Ces fonctions sont : Classes, Clusters, Top_Keyphrases et Summary. La fonction Classes résume les documents textuels en offrant au décideur un ensemble d’agrégats sous forme de n classes. Pour obtenir ces classes, nous utilisons la technique de catégorisation de texte par le contenu. La fonction Clusters résume les documents textuels en k groupes, pour cela la classification non supervisée (clustering) est utilisée. La fonction Top_Keyphrases permet l’agrégation d’un ensemble de documents en les thèmes les plus représentatifs. Enfin, la fonction Summary fournit un résumé sous forme des phrases les plus pertinentes extraites des documents à agréger. Nos propositions ont pour objectif, d’aller au-delà des analyses quantitatives sur les documents textuels où un comptage des instances des documents est effectué, et permettre des analyses qualitatives et sémantiques sur le contenu textuel des documents.
Description: Bibliogr. - 4 CD-DOM, .142 p.; ill
URI/URL: http://di.univ-blida.dz:8080/jspui/handle/123456789/5072
Collection(s) :Thèse de Magister

Fichier(s) constituant ce document :
Fichier Description TailleFormat 
32-004-43-1.pdfThèse de Magister3,49 MBAdobe PDFVoir/Ouvrir


Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.