Résumé:
Ce projet rentre dans le cadre de l'utilisation des nouvelles technologies de l'information et de la communication dans la construction de corpus textuels en arabe. Ces corpus peuvent alors être utilisés dans plusieurs domaines dont la linguistique de corpus, la traductique et l'enseignement. L'objectif est de construire un corpus en profitant des données textuelles disponibles au niveau du web. Ce qui est nouveau dans ce travail est l'automatisation du processus. A partir de diverses sources de données disponibles en libre accès sur le web, un robot d'indexation récupère et encode d'une manière automatique du contenu textuel puis l'injecte dans un corpus noyau préalablement préparé sous la forme d'une base de données XML. Mots clés : Corpus , web, encodage, XML, robot d'indexation, parseur.