Résumé:
Notre travail décrit un système de classification des poèmes arabes en fonction des époques dans lesquelles ils
ont été écrits. Nous avons utilisé des techniques d’apprent issage automat ique dans lesquelles nous avons
appliqué de nombreux filtres et classificateurs. Les meilleurs résultats ont été obtenus en utilisant l'algorithme
MNB (Multinomial Naïve Bayes), avec une exactitude de l’ordre de 70,21%, un score F1 de 68,8% et un Kappa
égal à 0,398, cela sans extraire les mots vides. Nous avons observé que les mots vides peuvent avoir un impact
positif sur la précision et inversement un impact négatif s’ils sont utilisés avec la technique de "Word Tokenizer"
dans la phase de prétraitement.
Mot clés : Classification des textes, Langue arabe, Poèmes, Identificat ion des ères, Mots vides, Word Tokenizer.
Ngram Tokenizer
This paper describes a system for classification of Arabic poems according to the eras in which they were
written. We used machine learning techniques where we applied a bunch of filters and classifiers. The best
results were achieved by using the Multinomial Naive Bayes (MNB) algorithm, with an accuracy equal to
70.21%, and F1-Score of 68.8% and a Kappa equal to 0.398, without filtering stop words. We observed that the
stop words can have a positive impact on the accuracy but also a negative impact if it is used with word
tokenizer pre-processing.
Keywords: Text Classification, Arabic Language, Poems, Eras Identification, Stop words, Word Tokenizer
Ngram Tokenizer.