Résumé:
Pour des langues comme l’Anglais, les ressources disponibles sont très larges,
variées et disponibles. Mais pour certaines langues, il existe peu de telles ressources. L'arabe
est un exemple approprié. Bien qu'il s’agisse d'une langue largement parlée, il a été
largement reconnu qu'elle dispose de peu d'outils et de ressources accessibles au public. En
particulier, le TAL Arabe manque de ressources telles que les corpus, les lexiques, les
dictionnaires, les jeux de données en plus des outils de fondamentaux entièrement
automatisés tels que les tokeniseurs, les marqueurs de partie du discours, les analyseurs, les
stemmers et les étiqueteurs de rôles sémantiques. Ce manque affecte de façon négatives les
recherches concernant la langue et l’empêche d’avancer correctement dans le traitement
automatique.
L’object if est de développer une plateforme de gestion des corpus et d’analyse
textuelle pour consolider les besoins du TAL en arabe.
Dans ce travail, nous proposons une plateforme pour de gestion de corpus qui
consolide les ressources du TAL en partant par les corpus et leur catégorisat ion jusqu’aux
différents analyses textuelles possibles, syntaxique et sémantique. Une plateforme qui
répond au manque de ressources public et aux limitations concernant l’assemblement et
l’analyse des données.
Mots clés : TAL, Corpus, l’Arabe, analyse textuelle, collection de données, manque
d’outils, développement d’une plateforme.