Résumé:
Actuellement avec l'évolution des performances de calcul des systèmes HPC et lors de la récupération des
composants défaillants une importante capacité et puissance de calcul sont perdues. Pour rendre ces
systèmes tolérants aux pannes des applications sont proposées et exploitées, ainsi que les approches de
récupération telles que les points de contrôle, le redémarrage et une meilleure compréhension des journaux
du système sont proposées et exploitées. Une solution alternative et désormais nécessaire est la prédiction
de la défaillance avec un délai défini et l'identification du nœud sur lequel elle va se produire.
L'objectif de ce travail est d'abord d'étudier/optimiser les journaux du
supercalculateur MIRA, puis de
développer une méthode générale de gestion des journaux.
Pour le faire, les journaux sont d'abord analysés et visualisés à l'aide de python3 et de pandas, puis la
mémoire LSTM est utilisée pour prédire les chaînes de défaillance.
Une analyse des journaux non étiquetés,
qui
peuvent
ou
non
conduire
à une chaîne de défaillance, est effectuée. Il existe une approche
d'apprentissage profond en trois phases, une formation est d'abord effectuée pour prédire les phrases
suivantes, puis un réapprentissage est effectué uniquement pour les séquences de phrases conduisant à des
chaînes d'échec augmentées par
les délais
d'exécution prévus et, enfin, le délai d'exécution pendant le test
est prédit pour prévoir quel nœud particulier échoue et en combien de minutes.
Mots Clé: Chaines de defaillances, délai d'attente, Intelligence Artificiel , Apprentissage profond,
Traitement du Langage Naturel, Skip-Gram, LSTM.