Catégorisation automatique des textes arabes

Zeggada, Ahmed; Moulai, Rabah

Please use this identifier to cite or link to this item: http://localhost:8080/xmlui/handle/123456789/3524

Full metadata record

DC Field	Value	Language
dc.contributor.author	Zeggada, Ahmed	-
dc.contributor.author	Moulai, Rabah	-
dc.date.accessioned	2019-11-28T09:26:14Z	-
dc.date.available	2019-11-28T09:26:14Z	-
dc.date.issued	2019-10	-
dc.identifier.uri	http://di.univ-blida.dz:8080/jspui/handle/123456789/3524	-
dc.description	ill., Bibliogr.	fr_FR
dc.description.abstract	Notre travail décrit un système de classification des poèmes arabes en fonction des époques dans lesquelles ils ont été écrits. Nous avons utilisé des techniques d’apprent issage automat ique dans lesquelles nous avons appliqué de nombreux filtres et classificateurs. Les meilleurs résultats ont été obtenus en utilisant l'algorithme MNB (Multinomial Naïve Bayes), avec une exactitude de l’ordre de 70,21%, un score F1 de 68,8% et un Kappa égal à 0,398, cela sans extraire les mots vides. Nous avons observé que les mots vides peuvent avoir un impact positif sur la précision et inversement un impact négatif s’ils sont utilisés avec la technique de "Word Tokenizer" dans la phase de prétraitement. Mot clés : Classification des textes, Langue arabe, Poèmes, Identificat ion des ères, Mots vides, Word Tokenizer. Ngram Tokenizer This paper describes a system for classification of Arabic poems according to the eras in which they were written. We used machine learning techniques where we applied a bunch of filters and classifiers. The best results were achieved by using the Multinomial Naive Bayes (MNB) algorithm, with an accuracy equal to 70.21%, and F1-Score of 68.8% and a Kappa equal to 0.398, without filtering stop words. We observed that the stop words can have a positive impact on the accuracy but also a negative impact if it is used with word tokenizer pre-processing. Keywords: Text Classification, Arabic Language, Poems, Eras Identification, Stop words, Word Tokenizer Ngram Tokenizer.	fr_FR
dc.language.iso	fr	fr_FR
dc.publisher	Université Blida 1	fr_FR
dc.subject	Classification des textes	fr_FR
dc.subject	Langue arabe	fr_FR
dc.subject	Poèmes	fr_FR
dc.subject	Identificat ion des ères	fr_FR
dc.subject	Mots vides	fr_FR
dc.subject	Word Tokenizer	fr_FR
dc.subject	Ngram Tokenizer	fr_FR
dc.subject	Text Classification	fr_FR
dc.subject	Arabic Language	fr_FR
dc.subject	Poems	fr_FR
dc.subject	Eras Identification	fr_FR
dc.subject	Stop words	fr_FR
dc.title	Catégorisation automatique des textes arabes	fr_FR
dc.type	Thesis	fr_FR
Appears in Collections:	Mémoires de Master

Files in This Item:

File	Description	Size	Format
Zeggada Ahmed(Categorisation automatique....pdf		2,9 MB	Adobe PDF	View/Open

Show simple item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets