Résumé:
Le développement explosif de l'information sur le web rend critique et indispensable l'élaboration de techniques et de modèles permettant de distinguer l'information importante et utile de celle qui est inutile. Pour répondre à ces besoins de découverte, un ensemble d'architectures, de démarches et d'outils, certains nouveaux, d'autres existant depuis longtemps, ont été regroupés sous le terme « Data Mining ». L'une des tâches les plus étudiées du Data Mining est sans doute la classification.
En effet le clustering (regroupement des documents) pièce maîtresse de data mining .Il vise à mettre les documents similaires ensemble dans des groupes (clusters). Le problème du clustering se résume en un problème de classification non supervisée. Ces clusters peuvent être classés dans une hiérarchie ou non : chaque fois un nouveau document arrive, il faut le mettre dans le ou les bons clusters.
L'objet de présent ouvrage est de faire une étude comparative de différents types et importantes méthodes du clustering, afin d'implémenter une méthode de classement appropriée. Cette méthode est utilisée dans le clustering hiérarchique des documents textuelles, elle est basée sur les «frequents itemsets » d'où son nom « Frequent Itemset Hierarchical Clus
Mots clés: Web mining, Data mining, Clustering, documents hiérarchiques, classification, Text mining, Les règles associatives, Frequent Itemset Hierarchical Clustering (FIHC).