Résumé:
Notre projet de fin d’étude traite l’Ident ification automat ique des Langues qui est au centre
de tous les intérêts de ces dernières années. En effet, ce problème a trouvé des intérêts dans
diverses sous-disciplines du Traitement Automatique de la Langue, comme la Traduction
Automat ique, la Correction Orthographique, la Recherche d’Information etc.
Nous avons concentré sur les principaux défis comme la taille de fragment et la vitesse
d’exécution et les langues proches. Pour cela, nous avons utilisé un corpus des données
étiquetées qui met ensemble six langues (Français, Anglais, Allemand, Arabe, Ourdou, et
Persan). Le choix de ces langues a été motivé par la rareté des travaux qui se sont
intéressés à ces langues-ci dans le domaine de Détection de Langue.
Ce travail adopte les principales méthodes de classification utilisées en Machine Learning
pour s'attaquer à notre problémat ique. En l’occurrence, nous sommes intéressées aux
méthodes : Bayésienne, Machine à Vecteurs de Support, Régression Logistique, Forêts
aléatoires, Stimulation des gradients, Algorithme des plus Proches Voisins, Arbres de
Décision pour but de trouver la meilleure méthode pour identifier une langue. Nous avons
aussi testés des approches linguistiques basées sur les lettres et n-grammes des lettres.
Notre solution a atteint une précision de 99.98 % pour une phrase et de 81% pour un mot
de 3 caractères.
Mots clés : Identification de la langue, Classification supervisée, Catégorisation de texte,
Reconnaissance de la langue, machine Learning, N-gramme, identification linguistique.