Résumé:
Le « E-Learning » est un mode d’apprentissage basé sur l’accès à des formations en
ligne. Son objectif principal est d’améliorer l’autonomie des apprenants. L’acquisition du
contenu pédagogique se concrétise par des tests sur les connaissances de l’apprenant. Nous
parlons donc de l’évaluation automatique. Les Système d’évaluation automatique des réponses
courte (ASAGS) évaluent la réponse de l’élève en la comparant aux réponses modèles de
l’enseignant. Plus la corrélation entre les réponses de l’élève et de l’enseignant est élevée, plus
le système de notation est efficace. Nous nous intéressons dans ce travail aux questions ouvertes
à réponses courtes (quelques mots à quelques phrases construites en langage naturel).
Notre travail englobe le développement d’un corpus de test qui va être utilisé comme
ressource d’évaluation des systèmes d’évaluation automatiques. Nous développons entre autres
un système qui intègre :
- Un outil de manipulation de dataset (le corpus de test) qui est basé sur un enseignement
pédagogique sur un contenu de programme diffusé en langue arabe suivi par un test
utilisant des questions aux réponses courtes. Pour une variété d’utilisation, le data set
est élaboré dans les cinq versions : Texte, Word, XML, Moodle XML et base de
données.
- Un outil de création automatique de corpus de domaine, à partir du web, par
interrogation automatique le moteur de recherche et nous avons intégré avec cet outil
l’outil de création d’espace sémantique.
- Un outil d’évaluation pour évaluer le dataset (le corpus de test) par rapport au corpus de
textes qui ont été construit de même domaine pour étudier l’impact du domaine commun
sur les résultats obtenus.
Mots clés : Corpus de test(Dataset), Corpus de textes, la langue arabe, Evaluation
automatique, Stem, traitement du langage naturel, espace sémantique, similarité sémantique.
"E-Learning" is a learning mode based on access to online training. Its main objective
is to improve the autonomy of learners. The acquisition of the educational content is
concretized by tests on the knowledge of the learner. We are talking about automatic
evaluation. Automatic short answer grading systems (ASAGS) evaluate the student's
response by comparing it to the teacher's model responses. The higher the correlation be
tween student and teacher responses, the more effective the rating system is. In this
work, we are interested in open questions with short answers (a few words to some
sentences built in natural language).
Our work includes the development of a test corpus that will be used as an evaluation
resource for automatic evaluation systems. We develop among others a system that
integrates:
- A dataset manipulation tool (the test corpus) which is based on pedagogical instruction on
Arabic-language program content followed by a test using short-answer questions. For a
variety of uses, the data set is developed in five versions: Text, word, XML, Moodle XML
and database.
- A tool for automatic creation of corpus domain, from the web, by automatic querying the
search engine and we integrated with this tool the semantic space creation tool.
- An evaluation tool to evaluate the dataset (the test corpus) against the body of texts that
have been constructed in the same domain to study the impact of the common domain on
the results obtained.
Key words: Test corpus (Dataset), Text corpus, Arabic language, Automatic
evaluation, Stem, Natural language processing, Semantic space, Semantic similarity.