Résumé:
Un nombre croissant de données liées sont publiées sur le web, les données du web sont
connues par leur grande hétérogénéité et leur volume croissant. La découverte des liens entre
les ressources du web consiste à découvrir la correspondance sémantique entre les éléments
similaires du web de données. Cependant, le nombre de plus en plus croissant des données
disponible sur le web, nécessite des outils automatiques de découverte des liens. Toutefois,
l’identification automatique des correspondances sémantiques entre les données est très difficile
en termes de qualité des liens extraits.
Pour contribuer à résoudre ce problème, nous proposons une solution pour effectuer la
découverte des liens entre deux datasets des données liées. Après l’extraction des différentes
ressources des dataset, le processus de découverte des liens est lancé pour trouver les ressources
équivalentes. Un filtrage est réalisé pour construire des catégories des données, afin de réduire
l’ensemble de recherche des données similaires. Par la suite, les mesures syntaxique, lexicale,
extensionnelle et structurelle sont combinées, ceci afin de définir une mesure de similarité globale
sémantique calculée en combinant ces mesures de similarités. Une validation est réalisée sur les
liens trouvés pour montrer l’efficace du système.
Mots clés : RDF (Ressource Description Framework), web données, données liées, découverte des liens,
mesure de similarité, sémantique.