Résumé:
Nombreuses chercheuses et chercheurs ont recours à Twitter dans leur
activité scientifique. Inévitablement, ces courts messages jouent aujourd’hui
un rôle dans la dissémination de la science, Bien que Twitter fournisse une
liste des sujets les plus populaires tweetés connus sous le nom de sujets
tendance en temps réel sauf que la précision de la détection de tendances
n’est pas d’une précision élever.
Pour résoudre ce problème, on a recours aux méthodes d’apprentissage
automatique ; nous classons les sujets tendance sur Twitteren 20 catégories
dans le domaine scientifique ; Nous expérimentons 2 approches de
classification automatique pour classerles thèmes et obtenir la tendance ;
l’approche bien connue du sac de mots pour la classification des textes et
classification basée sur le réseau. Lors de la classification textuelle, nous
construisons des vecteurs de mots avec poids tf-idf qui sont classer à l'aide
de l’algorithme multinomial Naïve Bayes. Et une méthode de classification
basée sur le réseau, en utilisant un algorithme personnalisé.
Expérimenté sur une base de données extraite par le billet de l’API twitter
montrant qu'une précision de classification allant jusqu'à 75% et 85% peut
être réalisée en utilisant la classification basée sur le texte et sur le réseau
modélisation respectivement.
Mots clés : Réseaux sociaux, Twitter, classification des sujets, sujets
tendances