Résumé:
Devant l'augmentation énorme du volume de documents arabe sur Internet, e-mail,
les bibliothèques numériques, Ce changement révolutionnaire présente de grands
défis, l'accès aux données d'une façon précise et rapide devient très difficile. La
catégorisation manuelle des textes dans ce cas est très difficile même s'il est possible
elle infect l'efficacité, la rapidité et le coût. Pour cela il est donc nécessaire de
développer des programmes de catégorisation automatique pour aider les utilisateurs
à rechercher de l'information d'une manière plus efficace voire mieux ciblée.
Dans ce projet, nous présentons le développement d'une approche contextuelle pour
l'indexation automatique de textes arabes non structurés en utilisant la pondération
TF-IDF.
Nous utilisons un corpus de trois catégories puis catégorisent les documents dans ces
trois et les ordonnent en fonction du document recherché. Tout cela est évalué en
utilisant les modèles "KNN" "SVM" qui nous donne les meilleurs résultats.
Mots clés:
TALA : traitement automatique de la langue arabe, indexation automatique,
apprentissage automatique supervisé, le modèle "KNN", le modèle "SVM".