Résumé:
L’analyse des sentiments est l’utilisation de langage naturel pour automatiser la
classification de sentiment à partir d’un texte généralement non structuré.
L'extraction de l'opinion par l'analyse des ‘Big Social Data’ a connu une
croissance explosive en raison de leur nature interactive, en temps réel. C’est
donc dans ce contexte que nous nous intéressons particulièrement aux méthodes
d’analyse du Big data. La problématique qui se pose et qui a fait naissance à notre
recherche est comment peut-on analyser les données sociales massives car ces
données sont si grandes qu’elles en deviennent difficiles à gérer avec les outils
classiques.
Dans ce mémoire, nous expérimentons trois techniques d’apprentissage
automatique, à savoir Naïves Bayes, Régression Logistique et Machine à vecteurs
de support pour l’analyse des Tweets dans un grand ensemble de données en
anglais. Pour valider notre étude nous avons utilisé un très grand ensemble de
données contenant 1600000 Tweets partitionné en positif et négatif. Nous avons
utilisé apache Spark comme Framework et le système de fichier distribuer HDFS
de Hadoop pour le stockage et le traitement de l’ensemble de données.
Plusieurs expérimentations ont été effectuées pour avoir une meilleure
performance des algorithmes utilisés et ce, en introduisant différentes stratégies de
prétraitement. L’étude comparative avec d’autres systèmes de classification
existants dans la littérature a montré que nos algorithmes sont compétitifs. En
effet notre système est capable d’atteindre une moyenne de précision de 76.60%.
Mots clés : analyse des sentiments, donnes massives. apprentissage automatique,
réseaux social, donnée social massive.