Summarization des documents dans les cubes de textes

Lababou, Aicha

Please use this identifier to cite or link to this item: http://localhost:8080/xmlui/handle/123456789/5072

Full metadata record

DC Field	Value	Language
dc.contributor.author	Lababou, Aicha	-
dc.date.accessioned	2020-01-30T09:07:43Z	-
dc.date.available	2020-01-30T09:07:43Z	-
dc.date.issued	2013	-
dc.identifier.citation	Blida	fr_FR
dc.identifier.uri	http://di.univ-blida.dz:8080/jspui/handle/123456789/5072	-
dc.description	Bibliogr. - 4 CD-DOM, .142 p.; ill	fr_FR
dc.description.abstract	Les systèmes décisionnels ont émergé dans la dernière décennie autour de l’utilisation des entrepôts de données (Data warehouses) et l’analyse en ligne (OLAP, On-Line Analytical Processing). Bien que ces technologies gagnent de plus en plus en populari-té au sein des organisations, seuls 20% des informations extraites des données, dites structurées, peuvent être traitées par un système OLAP. En effet, les 80% restants de l’information sont contenus dans des documents non structurés ou semi-structurés. Il est admis que les textes constituent l’essentiel de ces données, car il est le moyen le plus répandu pour exprimer les informations et les connaissances. Avec la croissance explosive des données textuelles, aussi bien dans les organisations que sur le web, il devient nécessaire d’aller au-delà de l’analyse en ligne des données structurées, pour prendre en charge également les données textuelles, non structurées, et couvrir ainsi les 100% des données d’un système d’information. Or, la prise en charge des données textuelles par les systèmes décisionnels constitue un défi pour deux principaux problèmes. Le premier est relatif à l’intégration et au stockage des informations issues de documents hétérogènes. Le second problème consiste à déterminer les informations à extraire des documents textuels pour servir aux différents processus de restitution, notamment l’analyse OLAP. L’agrégation des données textuelles constitue l’un des challenges que doit relever les processus OLAP. En effet, avec les outils OLAP classiques, il est impossible d’agréger des données textuelles selon des fonctions arithmétiques. L’environnement OLAP de données textuelles, a besoin de nouvelles techniques d'agrégation pour ce type de données. Nos propositions se résument en quatre fonctions de summarization, utilisant des techniques du domaine de la fouille de texte. L’objectif de la summarization est d’exploiter la mesure textuelle du cube de textes pour résumer le contenu des documents textuels sous une nouvelle forme appréhendable par le décideur. Ces fonctions sont : Classes, Clusters, Top_Keyphrases et Summary. La fonction Classes résume les documents textuels en offrant au décideur un ensemble d’agrégats sous forme de n classes. Pour obtenir ces classes, nous utilisons la technique de catégorisation de texte par le contenu. La fonction Clusters résume les documents textuels en k groupes, pour cela la classification non supervisée (clustering) est utilisée. La fonction Top_Keyphrases permet l’agrégation d’un ensemble de documents en les thèmes les plus représentatifs. Enfin, la fonction Summary fournit un résumé sous forme des phrases les plus pertinentes extraites des documents à agréger. Nos propositions ont pour objectif, d’aller au-delà des analyses quantitatives sur les documents textuels où un comptage des instances des documents est effectué, et permettre des analyses qualitatives et sémantiques sur le contenu textuel des documents.	fr_FR
dc.language.iso	fr	fr_FR
dc.publisher	univ-blida1.	fr_FR
dc.subject	Cube de textes	fr_FR
dc.subject	OLAP	fr_FR
dc.subject	Données textuelles	fr_FR
dc.subject	Fouille de texte	fr_FR
dc.subject	Summarization de documents	fr_FR
dc.title	Summarization des documents dans les cubes de textes	fr_FR
dc.type	Thesis	fr_FR
Appears in Collections:	Thèses de Magister

Files in This Item:

File	Description	Size	Format
32-004-43-1.pdf	Thèse de Magister	3,49 MB	Adobe PDF	View/Open

Show simple item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets