Résumé:
Le développement explosif de l'information sur le web rend critique et indispensable le développement de techniques et de modèles permettant de distinguer l'information importante et utile de celle inutile. Aussi, il est prouvé que cette classification de l'information non structurée du web facilite considérablement la recherche et l'exploration des données sur le web.
Ce travail entre dans le cadre du web mining et représente une contribution primaire à l'élaboration d'un système d'exploration de données sur le web. Dans cette phase nous nous intéressons à la recherche d'un modèle permettant la segmentation et l'extraction du contenu sémantique d'une page web.
Les principaux travaux exposés dans ce mémoire concernent une étude de l'Etat de l'art sur le web mining et les techniques de représentation de l'information sur le net. Plusieurs méthodes de segmentation ont été prises en considération et la méthode VIPS (Vision-based Page Segmentation) a été choisie et implémentée vu ses performances basées sur l'aspect visuel.
Mots clés: web mining, data mining, segmentation, classification