Résumé:
Ces dernières années, les réseaux sociaux sont devenus le moyen le plus utilisé pour le partage des informations entre les internautes. Dans ce projet, nous présentons des approches d'exploration et d'apprentissage automatique pour la catégorisation des textes courts publiés sur les réseaux sociaux (Twitter), dans le but de réaliser un système de classification selon les thèmes et/ou selon les centres d'intérêt. Une autre application fort intéressante de cette étude est la découverte des propos raciste, menaçants, et les communautés cachées. Pour la réalisation de ce projet, des méthodes de classification classiques, et des approches d'apprentissage automatique ont été implémentées et adaptées pour traiter les textes de tweeter, afin de comparer leurs performances sur plusieurs jeux de données publiques. De plus, une nouvelle hybridation entre les approches promettantes a été proposée. Les expériences menées sur différents corpus ont abouti à des résultats satisfaisants dans la majorité des cas.
Mots clés : Text mining, Twitter, Apprentissage automatique, Segmentation, Topic modeling, Classification.