dc.description.abstract |
La plupart d'entre nous, surtout les jeunes, connaissent la traduction automatique lorsque Google a lancé
son célèbre service (Google Translator). Mais ce concept existe depuis le milieu du siècle dernier et
constitue l’une des tâches les plus célèbres du traitement automatique de la langue.
Lorsque la traduction et la technologie sont mentionnées en même temps, les idées de beaucoup
de gens se tournent immédiatement vers la traduction automatique - le processus par lequel le
programme informatique traduit le texte d'une langue naturelle à une autre. La traduction
automatique existe depuis plus de 50 ans et la qualité de la traduction automatique s'est
considérablement améliorée au cours de cette période.
Le développement technologique a conduit à l’émergence de nouvelles méthodes de traduction
automatique statistique. Paradoxalement, ces modèles statistiques ont été développés pour la
première fois dans les années 1980, mais pas assez de données pour l'apprentissage et obtenir
des résultats satisfaisants.
Notre projet vise à réaliser des expériences sur la traduction automatique, à proposer un modèle
statistique de traduction automatique (anglais-arabe) basé sur des phrases, à améliorer la
traduction par le biais d'observations expérimentales et à proposer des solutions aux problèmes
auxquels nous sommes confrontés.
À cet égard, nous proposons l'utilisation de techniques de prétraitement pour la langue arabe en
raison de sa complexité morphologique, telle est la segmentation des mots qui vise à séparer les
clitiques attachés au mot et séquentiellement la tokenization des mots et des clitiques après la
segmentation. Cela a permis de créer un meilleur modèle de langage et de traduction en arabe
par rapport à nos expériences précédentes, ce qui a abouti à un modèle avec une traduction
relativement bonne. Nous avons également réalisé une amélioration significative de la métrique
WER (Word Error Rate) tout en expérimentant l’utilisation de la segmentation des mots dans
l’évaluation avec la métrique WER.
Mots-clés : Traduction Automatique, Traduction Automatique Statistique, Traitement
Automatique de la Langue, Linguistique Informatique. Most of us, especially young people, knew about machine translation when Google introduced
its famous service (Google Translator). But the concept has existed since the middle of the last
century and its one of the famous tasks in natural language processing.
When translation and technology are mentioned at the same time, many people's ideas
immediately turn to machine translation - the process by which the computer program translates
text from one natural language to another. Machine translation has existed for more than 50
years, and the quality of machine translation output has improved significantly during that
period.
The technological development has led to the emergence of new ways of statistical machine
translation. Paradoxically, these statistical models were developed for the first time in the
1980s, but did not have enough data to train for satisfactory results.
Our project aims to perform experiments on machine translation, propose a phrase-based
statistical machine translation model (English-Arabic) and try to improve the translation
through observations from experiments, and proposing solutions to the problems that we face.
In this regard we propose the use of preprocessing techniques for the Arabic language because
of its morphological complexity, such, is the word segmentation which aim to separate the
clitics attached to the word and sequentially the tokenization of both words and clitics after
segmentation. This has helped to create a better Arabic language and translation model
compared to our previous experiences, resulting in a model with a relatively good translation.
Also we achieved a significant improvement in WER (Word Error Rate) metric while
experimenting with the use of word segmentation in the evaluation with WER metric.
Keywords: Machine Translation, Statistical Machine Translation, Natural Language
Processing, Computational Linguistics, Arabic Morphological Complexity. |
fr_FR |