Résumé:
Les réseaux sociaux, tels que Twitter, sont devenus des espaces propices à la propagation du discours de haine, y compris en langue arabe. Dans cette étude, nous avons développé un système de détection du discours offensant et haineux sur Twitter . Pour ce faire, nous avons constitué un ensemble de données en collectant des tweets en arabe standard et dialectal apartir deux ensemble de donnes open source, en nous concentrant sur deux tâches : l’offensivité et la haine. Nous avons exploré plusieurs approches de représentation vectorielle, notamment TF-IDF, Word2Vec et Sentence Transformers (SBERT), et nous avons comparé divers modèles d’apprentissage automatique tels que les machines à vecteurs de support (SVM), la régression logistique et les arbres de décision. En parallèle, nous avons également utilisé les modèles d’apprentissage profond, notamment AraBERT avec réseau neuronal entièrement connecté (FFNN) et à un réseau neuronal convolutif à une dimension (CNN-1D). Les résultats ont montré que lorsque AraBERT
était fine-tuné avec FFNN, il a obtenu des scores F1 de 88,18 % et 83,22 % pour les tâches "Offensive" et "Hate" respectivement. De même, l’utilisation d’AraBERT avec CNN1D a permis d’atteindre des scores F1 de 87,60 % et 84,83 % pour les mêmes tâches.
Mots clés : Détection des discours haineux, Apprentissage automatique, Apprentissage profonde, la classification des textes, AraBERT, SBERT, CNN-1D