Résumé:
La protection des données personnelles est aujourd'hui une exigence juridique, éthique et technique majeure. Notre travail s'intéresse à la manière dont la conformité aux règlements juridiques et plus précisément au Règlement Général sur la Protection des Données (RGPD) est concrètement mise en œuvre dans les projets informatiques.
Pour répondre à cette problématique, nous avons adopté une approche empirique basée sur la fouille de données logicielles et l'analyse automatisée du code. Cette approche s'appuie sur plusieurs étapes: nous avons constitué un ensemble de projets en lien avec la protection des données personnelles. Ensuite, nous avons exploré l'utilisation des grands modèles de langage (LLM) pour analyser la conformité de ces projets en adoptant deux stratégies. La première consistait à analyser les messages de commits, mais cette approche s'est révélée peu concluante. Face à ces limites, notre démarche s'est ensuite orientée vers l'analyse des fichiers de documentation (README, fichiers de description), ce qui a permis d'obtenir de meilleurs résultats et de mieux cerner les pratiques des projets. Par la suite, nous avons exploré la structure du code source à l'aide de représentations syntaxiques abstraites (AST).Tous les résultats sont disponibles sur GitHub1.
Enfin, nous avons conçu un pipeline d'analyse des ASTs, basé sur l'architecture RAG (Retrieval- Augmented Generation) capable d'identifier les pratiques liées à la protection des données personnelles et de fournir une évaluation automatique du niveau de conformité RGPD des projets. Le système peut également accompagner les développeurs en leur suggérant des bonnes pratiques, à partir d'exemples tirés de projets déjà conformes.
Les résultats obtenus montrent que notre approche permet une première évaluation pertinente et automatisée de la conformité au RGPD dans le cadre de projets open source. Ouvrant la voie à de futures améliorations dans le domaine de l'audit logiciel assisté par l'intelligence artificielle.
Mots clés : Protection des données personnelles, RGPD, Mining, Code source, LLM, AST, RAG.