Résumé:
Le web contient un grand nombre de données liées. La catégorisation automatique de ces données
fournit un avantage à tous types de personnes ou logiciels cherchant à les exploiter.
La plupart de ces données sont difficilement accessible avec une probabilité très faible d’obtenir
celles pertinentes. Le défi est de les structurer ce qui permettra d’extraire les connaissances
pertinentes et pouvoir ainsi préparer des raisonnements et exploiter ces données.
Nous avons développé un système de catégorisation sémantique des données liées dans le
but de contribuer à résoudre ce problème. Après avoir extrait les connaissances à partir de ces
données, notre système calcule les distances sémantiques entre les différentes ressources. Ces
distances sont ensuite classées en trois catégories, la distance terminologique, structurelle et
extensionnelle. En utilisant ces distances sémantiques, nous réduisons la dimensionnalité des
ressources, puis nous appliquons un algorithme de catégorisation automatique à base de densité
pour obtenir des clusters de ressources ainsi que des points de bruit. Pour démontrer l’efficacité
de notre système, nous avons réalisé une évaluation de notre système.
Mots clés :
RDF (Ressource Description Framework), Web de données, Données liées, Catégorisation,
Mesure de similarité, Sémantique.