Résumé:
Avec l'avènement de l'informatique et l'explosion de nombre de documents
stockés sur les supports électroniques et sur le web, qui sont à plus de 80% de type texte, l'utilisation de technologie facilitant leur traitement et leur analyse est devenu indispensable, pour aider les utilisateurs de ces masses de données à les explorer puis à les organiser. Ainsi, le Text Mining et précisément la classification automatique de textes, qui consiste à assigner un document à une ou plusieurs catégories , s'impose de plus en plus comme une technologie clé, les résultats obtenus sont utiles aussi bien pour la recherche d'information que pour l'extraction de connaissance aussi bien sur internet (moteurs de recherche), qu'au sein des entreprises (classement de documents internes, dépêches d'agences, etc.). A l'égard des différentes approches de classification automatique de textes, décrites dans l'état de l'art, nous avons utilisé l'approche non supervisée (algorithme Kmeans) pour étiqueter nos documents et l'approche supervisée (algorithme Naive Bayes) pour classer les nouveaux documents. L'objectif principal de notre travail, est d'offrir un modèle fiable de classification de documents médicaux. Nous utilisons MEDLINE comme corpus de textes, sur lequel nous menous nos expérimentations. Mots clés : Catégorisation, clustering, Classification, Texte, Apprentissage, Text Mining, Evaluation, Kmcans, Naïve Bayes, MEDLINE.