Résumé:
Avec la croissance explosive des données sur les réseaux sociaux, la fouille sémantique des
statuts est devenue inéluctable pour la prise de decision. Dans ce projet, notre objectif est
d’analyser les publicat ions sur les réseaux sociaux en s’inspirant des techniques de
classification automatique de données textuelles. Ceci, afin de pouvoir filtrer les messages
comme ceux à propos racistes et violents, qui consiste souvent une minorité. De ce fait, cette
analyse doit notamment prendre en considération les corpus déséquilibrés.
Pour atteindre notre objectif, tout d'abord, différents algorithmes de classification sont testés
afin de comparer leurs performances. Nous proposons une analyse des tweets à travers une
combinaison de deux algorithmes d’apprent issage automat ique CNN et LSTM. De plus pour
répondre au problème des corpus déséquilibrés, nous proposons une technique de suréchantillonnage
appelée
«
Semantic-Oversampling
».
Les
expériences
menées
sur
les
solutions
proposées
ont
achevés
des
résultats
satisfaisants.
Mots clés : Classification supervisé, Classification non supervisé, Corpus de données
déséquilibré, Oversampling, Réseaux sociaux, Réseaux de neurones profond, LSTM, Twitter.
With the explosive growth of data on social networks, the semantic analysis of statutes has
become unavoidable for decision-making. In this project, our goal is to analyze publications on
social networks by using techniques of automatic classification of textual data. And this, in
order to be able to filter messages like those about racism and violence, which is often a
minority. As a result, this analysis must take into account the unbalanced corpora.
To achieve our goal, firstly, different classification algorithms are tested to compare their
performance. We propose an analysis of tweets through a combination of two machine learning
algorithms CNN and LSTM. Moreover, to answer the problem of unbalanced corpora, we
propose a technique of oversampling called "Semantic-Oversampling". The experiments
conducted on the proposed solutions have achieved satisfactory results.
Keywords: Supervised Classification, Unsupervised Classification, Unbalanced Data Corpus,
Oversampling, Social Networks, Deep neural networks, LSTM, Twitter.