Summarization des documents dans les cubes de textes

Lababou, Aicha

Please use this identifier to cite or link to this item: http://localhost:8080/xmlui/handle/123456789/5072

Title:	Summarization des documents dans les cubes de textes
Authors:	Lababou, Aicha
Keywords:	Cube de textes OLAP Données textuelles Fouille de texte Summarization de documents
Issue Date:	2013
Publisher:	univ-blida1.
Citation:	Blida
Abstract:	Les systèmes décisionnels ont émergé dans la dernière décennie autour de l’utilisation des entrepôts de données (Data warehouses) et l’analyse en ligne (OLAP, On-Line Analytical Processing). Bien que ces technologies gagnent de plus en plus en populari-té au sein des organisations, seuls 20% des informations extraites des données, dites structurées, peuvent être traitées par un système OLAP. En effet, les 80% restants de l’information sont contenus dans des documents non structurés ou semi-structurés. Il est admis que les textes constituent l’essentiel de ces données, car il est le moyen le plus répandu pour exprimer les informations et les connaissances. Avec la croissance explosive des données textuelles, aussi bien dans les organisations que sur le web, il devient nécessaire d’aller au-delà de l’analyse en ligne des données structurées, pour prendre en charge également les données textuelles, non structurées, et couvrir ainsi les 100% des données d’un système d’information. Or, la prise en charge des données textuelles par les systèmes décisionnels constitue un défi pour deux principaux problèmes. Le premier est relatif à l’intégration et au stockage des informations issues de documents hétérogènes. Le second problème consiste à déterminer les informations à extraire des documents textuels pour servir aux différents processus de restitution, notamment l’analyse OLAP. L’agrégation des données textuelles constitue l’un des challenges que doit relever les processus OLAP. En effet, avec les outils OLAP classiques, il est impossible d’agréger des données textuelles selon des fonctions arithmétiques. L’environnement OLAP de données textuelles, a besoin de nouvelles techniques d'agrégation pour ce type de données. Nos propositions se résument en quatre fonctions de summarization, utilisant des techniques du domaine de la fouille de texte. L’objectif de la summarization est d’exploiter la mesure textuelle du cube de textes pour résumer le contenu des documents textuels sous une nouvelle forme appréhendable par le décideur. Ces fonctions sont : Classes, Clusters, Top_Keyphrases et Summary. La fonction Classes résume les documents textuels en offrant au décideur un ensemble d’agrégats sous forme de n classes. Pour obtenir ces classes, nous utilisons la technique de catégorisation de texte par le contenu. La fonction Clusters résume les documents textuels en k groupes, pour cela la classification non supervisée (clustering) est utilisée. La fonction Top_Keyphrases permet l’agrégation d’un ensemble de documents en les thèmes les plus représentatifs. Enfin, la fonction Summary fournit un résumé sous forme des phrases les plus pertinentes extraites des documents à agréger. Nos propositions ont pour objectif, d’aller au-delà des analyses quantitatives sur les documents textuels où un comptage des instances des documents est effectué, et permettre des analyses qualitatives et sémantiques sur le contenu textuel des documents.
Description:	Bibliogr. - 4 CD-DOM, .142 p.; ill
URI:	http://di.univ-blida.dz:8080/jspui/handle/123456789/5072
Appears in Collections:	Thèses de Magister

Files in This Item:

File	Description	Size	Format
32-004-43-1.pdf	Thèse de Magister	3,49 MB	Adobe PDF	View/Open

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets