Résumé:
De nos jours, les plates-formes de microblogging sont les réseaux sociaux les plus récents et les plus utilisés du Web 2.0. Elles présentent une masse volumineuse d'informations. Aujourd'hui Twitter est parmi les services de microblogging le plus populaire avec 320 millions d'utilisateurs actif par mois et plus de 500 millions de tweets envoyés par jour. Ce volume de publications complique l'opération d'accès à l'information par les Microblogeurs. Le tweet est un document court dont la longueur ne dépasse pas 140 caractères. Souvent écrit avec un langage mal orthographier, contenant des abréviations et des argots à fin de transcrire l'information avec un nombre de caractères minimum. La recherche d'informations dans le corpus des tweets présente un véritable défi pour les modèles de recherche d'informations actuelles, cela est dû au volume du corpus d'une part et aux caractéristiques des tweets d'autre part. En effet, quand l'utilisateur soumet une requête, le modèle de recherche sera confronté à deux problèmes : d'abord l'absence des termes de la requête dans le tweet, et le fait que chaque terme apparaît au plus une seule fois dans le texte. La sélection des meilleurs tweets se
base sur un appariement lexical entre la requête et les tweets. De ce fait, il y a une grande probabilité que dans le Top de liste figure des tweets non pertinents. Pour améliorer le classement des tweets pertinents beaucoup de travaux ont introduit les évidences temporelles dans leurs propositions en les combinant avec l'évidence lexicale pour le reclassement des tweets résultats de la première recherche. De notre tour, nous avons proposé un système qui se base sur un nouveau mécanisme pour générer des nouveaux classements des résultats à base temporelle, sémantique et leur combinaison avec la pertinence lexicale (le score de Lucene).
Mots clés : Twitter , microblogging, le corpus des tweets, requête, modèle de recherche, le reclassement des tweets, recherche sémantique, recherche temporelle, recherche lexicale.