Résumé:
Les logs générés par les différents composants d’un système d’information
sont souvent utilisés pour le contrôle du bon fonctionnement de ce même
système. Dans le domaine de la sécurité, les logs s’avèrent être une source
précieuse et incontournable pour la détection et la prévention d’éventuels
risques.
La gestion et l’exploitation de ce type d’informations s’avèrent délicates en
pratique en raison de la grande quantité et de l’hétérogénéité des logs
générés par les différents systèmes routeurs, pare-feu, SGBD, serveur web,
etc.
Notre travail se divise en deux parties
Dans la première partie nous avons conçu et réalisé un système robuste qui
est capable de gérer de grandes quantités de messages logs ayant des
formats différents en utilisant deux outils qui se complètent entre eux. syslogng
pour la collecte et le prétraitement des logs et Graylog pour la gestion et
l’analyse descriptive de ces messages, tout en définissant des alertes de
sécurité, pour aider le responsable de la dite sécurité à y identifier
d’éventuelles failles.
En ce qui concerne la deuxième partie nous avons effectué une
analyse basée sur l’apprentissage automatique, plus précisément avec
l’algorithme K-means. Cela a pour but de différencier un comportement
normal d’un comportement anormal.
Mots clés : gestion de logs, analyse de logs, apprentissage automatique,
Graylog, syslog-ng, K-Means.
The logs generated by the various components of an information system
are often used to check the proper functioning of the same system. In the field
of security, the logs prove to be a valuable and essential source for the
detection and the prevention of possible risks.
The management and exploitation of this type of information is tricky in
practice because of the large quantity and heterogeneity of the logs generated
by the various routers, firewalls, DBMS, web server, etc.
Our work is divided into two parts
In the first part we have designed and realized a robust system that is able
to handle large amounts of message logs having different formats using two
tools that complement each other. syslog-ng for the collection and
preprocessing of logs and Graylog for the management and the descriptive
analysis of these messages, while defining security alerts, to help the person
in charge of said security to identify any faults.
Regarding the second part we performed an analysis based on machine
learning, more precisely with the K-means algorithm. This is intended to
differentiate normal behavior from abnormal behavior.
Keywords : log management, log analysis, machine learning, Graylog,
syslog-ng, K-Means.