Résumé:
Ce mémoire s'inscrit sous le thème des processus stochastique, plus précisément des processus de décision markovien (markovien decision processes,MDP) issu de la théorie de la décision et de la théorie des probabilités.
Le modèle MDP peut être vu comme une chaine de Markov à la quelle on ajoute une composante décisionnelle,
Le but n'est pas d'optimiser une décision isolée, mais de déterminer la suite d'actions (politique) qui minimise une certaine fonction de coût. L'incertain est représenté sous forme de probabilités de transition supposées connues.
Parmi les méthodes utilisées, pour la recherche de politique optimale, nous allons découvrir deux algorithmes, « policy-iteration algorithm» et «value-iteration algorithm ». Nous allons également vérifier l'avantage et l'inconvénient de chacun deux à travers deux exemples : le problème de maintenance et le problème de la gestion d'une centrale électrique,