Résumé:
En guise de conclusion, nous pouvons dire que notre moteur de recherche fonctionne de manière correcte. Son bilan est des plus satisfaisantes car il rapporte des meilleurs résultats, avec un processus ETL qui frise la perfection. Pour à bien mener notre travail, nous l'avons scindé en deux parties. En première lieu, nous
avons effectué une recherche approfondie concernant le fonctionnement des moteurs de recherches de par le monde , nous avons illustré les deux algorithmes les plus utilisé PageRank et Hits dont se sont inspiré tous les autres algorithme, nous avons de même constaté leur référencement sur un site web dynamique implémenté et référencé par nous http://www.casapro-dz.com . Nous nous sommes penchés sur les paradigmes de recherche et leur mise en application via algorithmes parfois gardés secrets. De la syntaxe à la sémantique
en passant par la personnalité et même en jumelage donnant des moteurs de recherches hybrides, nous avons passé en revue l'essentiel de la recherche actuelle afin d'élaborer le présent moteur de recherche.
Le volet pratique s'est déroulé après une sélection d'outils présentés précédemment au cours du mémoire. Pour récapitulatif, la méthode de fonctionnement se résume comme suit : L'Extraction s'effectue à partir d'api JAVA (HTTPCLIENT) qui implémenté dans un algorithme ordonnanceur, sillonne le web pour télécharger les pages HTML, après rapatriement des pages web en local, Une série d'algorithmes s'exécute pour nettoyer ces
données et les rendre indexables. Cette partie qui transforme le textmining, prend place très importante dans cette phase de transformation avec le nettoyage des mots vides. Cela permet un épurement du texte pour ne garder que les mos susceptibles de faire osciller la classification, après nettoyage. Toujours dans la transformation, une autre phase de vérification utilisant une approche NER (Named Entity Recognition) qui est responsable de déterminer les parties importantes du texte et de les identifier en éliminant le reste. Par la
suite, nous aurons quelques informations importantes à mettre en base de données.
Pour finir, l'indexation s'effectue grâce à des algorithmes de classification pour
regrouper chaque donnée dans la case appropriée. Les bases de données de mot déjà
existantes selon catégorie, vont servir à classifier un texte en calculant la distance avec chaque
base données. La distance la plus réduite identifiera la base de donné où il sera chargé est le
dernier texte avant d'aboutir à la dernière étape celle Load (chargement).
L'analyse de personnalité aura été des plus enrichissante, après deux phase d'analyse sur les
donné. L'une purement statistique, celle qui nous a permis de baliser les différents profils
susceptibles d'interroger notre moteur ; l'autre plus intelligente en datamining afin de
interpréter en projections futures les résultats.
En utilisant les données récoltées au cours de notre étude datamining, nous pouvons diriger un
client encore méconnu de notre moteur selon la wilaya d'où il se connecte. Ce qui est déjà une
personnalisation selon la majorité de sa wilaya.
Une solution adaptative est complémentaire à un bon moteur de recherche suivant les
démarches personnelles et selon les besoins de l'utilisateur. Une personne étant classifiée
comme agent immobilier se verra proposé que des résultats ayant une relation avec
l'immobilier, alors que cette personne un jour voudra surement explorer d'autre catégorie.
C'est pour cela qu'une approche adaptative selon clic est primordiale pour garder un résultat
cohérant. Dans le cas où cette même personne clique sur un sujet autre que l'immobilier, toute
les informations utilisées sur cette pérsonne, se verront oublié pour proposer des résultats
généralistes selon le profile générale auquel elle appartient. Toutefois, le clic sera enregistré
et la classification le prendra en compte pour la prochaine visite.
Les écueils que nous avons dû faire face lors de l'élaboration de ce genre de moteurs sont
divers. Des fautes orthographiques récurrentes faussent souvent les résultats des analyses.
Nous avons dû faire un recours à un algorithme correcteur afin d'atténuer les erreurs.
Egalement, les sites miroirs qui par leur courte durée de vie surchargent l'index et
l'alourdissent, induisant ainsi des erreurs malencontreuses.
Toutefois, ces obstacles ont pu être obviés par divers méthodes et solutions proposées au fil
de l'élaboration de notre moteur de recherche qui, au demeurant, offre un ration de succès
supérieur à beaucoup d'autres de ses émules.
Pour conclure, nous recommandons comme perspective une approche jumelé d'analyse et de
projection en même temps avec les algorithmes récent de datamining en direct (Online
Datamining) les moteur s'adapte en temps réel à la personnalité des gens et sans se faire une
étude en préalable.