Université Blida 1

Application du Machine Learning à l'analyse et à la prédiction des défaillances dans les systèmes Calcul à Hautes Performances (HPC)

Afficher la notice abrégée

dc.contributor.author Allache, Youcef
dc.contributor.author Gueddoud, Seddik
dc.date.accessioned 2021-10-28T10:03:37Z
dc.date.available 2021-10-28T10:03:37Z
dc.date.issued 2021-10-04
dc.identifier.uri http://di.univ-blida.dz:8080/jspui/handle/123456789/12549
dc.description ill., Bibliogr. fr_FR
dc.description.abstract Actuellement avec l'évolution des performances de calcul des systèmes HPC et lors de la récupération des composants défaillants une importante capacité et puissance de calcul sont perdues. Pour rendre ces systèmes tolérants aux pannes des applications sont proposées et exploitées, ainsi que les approches de récupération telles que les points de contrôle, le redémarrage et une meilleure compréhension des journaux du système sont proposées et exploitées. Une solution alternative et désormais nécessaire est la prédiction de la défaillance avec un délai défini et l'identification du nœud sur lequel elle va se produire. L'objectif de ce travail est d'abord d'étudier/optimiser les journaux du supercalculateur MIRA, puis de développer une méthode générale de gestion des journaux. Pour le faire, les journaux sont d'abord analysés et visualisés à l'aide de python3 et de pandas, puis la mémoire LSTM est utilisée pour prédire les chaînes de défaillance. Une analyse des journaux non étiquetés, qui peuvent ou non conduire à une chaîne de défaillance, est effectuée. Il existe une approche d'apprentissage profond en trois phases, une formation est d'abord effectuée pour prédire les phrases suivantes, puis un réapprentissage est effectué uniquement pour les séquences de phrases conduisant à des chaînes d'échec augmentées par les délais d'exécution prévus et, enfin, le délai d'exécution pendant le test est prédit pour prévoir quel nœud particulier échoue et en combien de minutes. Mots Clé: Chaines de defaillances, délai d'attente, Intelligence Artificiel , Apprentissage profond, Traitement du Langage Naturel, Skip-Gram, LSTM. fr_FR
dc.language.iso fr fr_FR
dc.publisher Université Blida 1 fr_FR
dc.subject Chaines de defaillances fr_FR
dc.subject délai d'attente fr_FR
dc.subject Intelligence Artificiel fr_FR
dc.subject Apprentissage profond fr_FR
dc.subject Traitement du Langage Naturel fr_FR
dc.subject Skip-Gram fr_FR
dc.subject LSTM fr_FR
dc.title Application du Machine Learning à l'analyse et à la prédiction des défaillances dans les systèmes Calcul à Hautes Performances (HPC) fr_FR
dc.type Thesis fr_FR


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Chercher dans le dépôt


Recherche avancée

Parcourir

Mon compte