Résumé:
Dans l'ère actuelle des réseaux sociaux, les plateformes de microblogging comme
Twitter, qui compte 238 millions d'utilisateurs actifs par mois et plus de 850 millions de
tweets envoyés par jour, constituent une source d'information massive. Cependant, le volume
considérable de ces publications complique l'accès à l'information pertinente. Les tweets sont
des documents courts, souvent rédigés dans un langage mal orthographié et contenant des
abréviations et des argots, ce qui pose un défi particulier pour les modèles de recherche
d'information actuels.
La recherche d'informations dans le corpus des tweets est complexe, en raison à la fois
du volume du corpus et des caractéristiques des tweets. Les défis comprennent l'absence
fréquente des termes de la requête dans le tweet et le fait que chaque terme n'apparaît
généralement qu'une seule fois dans le texte. Par conséquent, la sélection des meilleurs tweets
repose sur un appariement lexical entre la requête et les tweets, ce qui peut entraîner un
nombre élevé de tweets non pertinents dans le haut de la liste de résultats.
Pour améliorer le classement des tweets pertinents, nous avons proposé un système basé
sur une nouvelle approche de l'expansion de la requête via le Pseudo relevant feedback. Notre
modèle exploite à la fois l'aspect thématique et temporel des tweets. En utilisant le corpus
TREC 2011, nous avons détecté les grandes concentrations de tweets, identifié les sujets
principaux parmi ces concentrations à l'aide de l'approche du Biterm et utilisé leurs termes les
plus fréquents pour l'expansion de la requête.
Cette approche permet d'améliorer la qualité du classement des tweets pertinents,
fournissant ainsi une méthode plus efficace pour extraire des informations pertinentes de la
masse de données générées par Twitter
Mots clés : Twitter, expansion de la requête, recherche temporel, burst, modèle de topic.