Résumé:
Dans cette thèse, nous nous intéressons à la caractérisation de grandes collections de documents afin de faciliter leur utilisation et leur exploitation par des humains ou par des outils informatiques.
Le clustering de textes est une méthode qui a pour objectif d'organiser un ensemble de données brut en groupes similaire. Plusieurs algorithme de clustering existent, dans notre recherche on s'intéresse particulièrement à l'algorithme k-means et ses variantes.
Nous avons ainsi étudie et comparé plusieurs variantes de l'algoritlure K-means afin de déterminer celle qui est la plus adaptée au clustering de textes en termes de rapidité et de qualité de clustering.
Mots clés :
Fouille de données, fouille de textee, segmentation, algorithme K-means classique, K-means sphérique, K-means harmonique, bisecting K-means.