Université Blida 1

Catégorisation automatique des textes arabes

Afficher la notice abrégée

dc.contributor.author Zeggada, Ahmed
dc.contributor.author Moulai, Rabah
dc.date.accessioned 2019-11-28T09:26:14Z
dc.date.available 2019-11-28T09:26:14Z
dc.date.issued 2019-10
dc.identifier.uri http://di.univ-blida.dz:8080/jspui/handle/123456789/3524
dc.description ill., Bibliogr. fr_FR
dc.description.abstract Notre travail décrit un système de classification des poèmes arabes en fonction des époques dans lesquelles ils ont été écrits. Nous avons utilisé des techniques d’apprent issage automat ique dans lesquelles nous avons appliqué de nombreux filtres et classificateurs. Les meilleurs résultats ont été obtenus en utilisant l'algorithme MNB (Multinomial Naïve Bayes), avec une exactitude de l’ordre de 70,21%, un score F1 de 68,8% et un Kappa égal à 0,398, cela sans extraire les mots vides. Nous avons observé que les mots vides peuvent avoir un impact positif sur la précision et inversement un impact négatif s’ils sont utilisés avec la technique de "Word Tokenizer" dans la phase de prétraitement. Mot clés : Classification des textes, Langue arabe, Poèmes, Identificat ion des ères, Mots vides, Word Tokenizer. Ngram Tokenizer This paper describes a system for classification of Arabic poems according to the eras in which they were written. We used machine learning techniques where we applied a bunch of filters and classifiers. The best results were achieved by using the Multinomial Naive Bayes (MNB) algorithm, with an accuracy equal to 70.21%, and F1-Score of 68.8% and a Kappa equal to 0.398, without filtering stop words. We observed that the stop words can have a positive impact on the accuracy but also a negative impact if it is used with word tokenizer pre-processing. Keywords: Text Classification, Arabic Language, Poems, Eras Identification, Stop words, Word Tokenizer Ngram Tokenizer. fr_FR
dc.language.iso fr fr_FR
dc.publisher Université Blida 1 fr_FR
dc.subject Classification des textes fr_FR
dc.subject Langue arabe fr_FR
dc.subject Poèmes fr_FR
dc.subject Identificat ion des ères fr_FR
dc.subject Mots vides fr_FR
dc.subject Word Tokenizer fr_FR
dc.subject Ngram Tokenizer fr_FR
dc.subject Text Classification fr_FR
dc.subject Arabic Language fr_FR
dc.subject Poems fr_FR
dc.subject Eras Identification fr_FR
dc.subject Stop words fr_FR
dc.title Catégorisation automatique des textes arabes fr_FR
dc.type Thesis fr_FR


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Chercher dans le dépôt


Recherche avancée

Parcourir

Mon compte