Résumé:
Ce mémoire a pour objectif de proposer un système capable de réaliser une traduction
de contexte de et vers la langue arabe. Ce système est basé sur la Traduction Automatique
Statistiques, et est considéré comme un moteur de recherche qui cherche dans un grand
ensemble de données appelé « corpus parallèle ». Les corpus que nous avons utilisés sont des
ensembles de paires de langues, chaque paire contenant l'arabe et une autre langue. Dans notre
cas, nous avons concentré sur la paire de langues arabe-anglais et nous nous sommes appuyés
sur deux approches de recherche : la première utilisant ElasticSearch et la seconde utilisant TfIdf
de Spark. Nous avons obtenu une traduction contextuelle avec des résultats plutôt
satisfaisants, malgré les difficultés que nous avons rencontrées, notamment avec l'arabe, qui
présente des particularités différentes des autres langues.
Mots clés : Traduction de contexte, moteur de recherche, langue Arabe, corpus parallèle,
ElasticSearch, Spark TF-IDF.