UTILITÉ ESPÉRÉE
THÉORIE DES JEUX ET DE LA DÉCISION
1. Représentatives
1.1. Forme extensive d'un jeu
1.2. Forme extensive d'une décision
1.3. Forme normale d'un jeu
1.3.1. Jeux répétitifs
1.1. Forme ensembliste d'un jeu
1.2. Forme graphique d'un jeu
2. Jeux coopératifs et non-coopératifs
2.1. Optimum de Pareto
2.2. Equilibre de Nash
2.3.1. Critère d'Hurwitz
2.3.2. Critère de Laplace
5. Chaîne de Markov
Soit le jeu non coopératif à somme nulle :
J1 / J2 |
S1 |
S2 |
S1 |
0 |
2 |
S2 |
3 |
1 |
qui ne comporte pas d'équilibre comme nous l'avons vu plus haut. Dans ce genre de jeu, toute recommandation à un joueur de choisir une tactique plutôt qu'une autre peut lui nuire, dès lors que l'adversaire en est informé, ou peut deviner cette recommandation.
Effectivement,
si
pense que
va choisir sa tactique 1, il a intérêt à
choisr sa tactique 2 (utilité 3 contre 0). Mais alors,
si
pense que
va choisir sa tactique 2, il a intérêt à
choisir sa tactique 2 (perte 1 au lieu de 3). Alors, si
pense que
va choisir sa tactique 2, il a intérêt à
choisir tactique 1 (utilité 2 contre 1). Mais alors,
si
pense que
va choisir sa tactique 1, il a intérêt à
chosir sa tactique 1 (perte 0 au lieu de 3). Et le boucle est
bouclée.
En définitive, la chose qui importe avant tout dans un jeu non coopératif c'est que la tactique d'un joueur ne puisse pas être devinée par son adversaire. Comme tout raisonnement pourrait être percé à jour, les adversaires étant parfaitement rationnelles et informés, la seule solution imaginable est de s'en remettre à un processus précis, appuyés sur des probabilités affectées aux diverses tactiques possibles. Ainsi, comme nous l'avons défini plus haut, le jeu comporte un aspect à "stratégie mixte".
Naturellement, le résultat obtenu par le joueur ne peut pas être garanti de façon certaine, puisque le processus de choix de la décisions fait intervenir des probabilités. Comparer des résultats revient donc à comparer des loteries. Nous imaginons la situations d'un amiral devant répondre devant un tribunal militaire de la perte d'un navire, et expliquant qu'il a pris sa décision en jouant aux dés (en supposant une bataille sans équilibre de Nash et non-coopérative) : même parfaitement conforme aux prescriptions de la théorie des jeux, cette explication aura peine à convaincre !
CRITÈRE D'HURWITZ
Il nous
faut donc introduire une utilité probabiliste (appelé
aussi parfois le "critère d'Hurwitz"). Considérons
un jeu à deux stratégies propres
et notons l'utilité respective :
(37)
qui permet
d'obtenir
avec une probabilité P et
avec une probabilité 1-P. Cette relation est s'écrit
avec des notations évidentes (cf.
chapitre de Probabilités)
:
(38)
avec E que nous appellerons "l'utilité espérée" (en similitude avec le concept d'espérance vu en probabilité et statistiques) ou "espérance de gain anticipée".
Nous pouvons déjà noter que, s'il existe une telle utilité (espérée), il en existe une infinité à un arbitraire près, obtenues à partir de U par une transformation affine strictement croissante, c'est-à-dire une relation de la forme :
avec
(39)
En effet, la relation :
(40)
entraîne
pour
:
(41)
qui, additionnée terme à terme à la relation évidente (nécessaire) :
(42)
conduit bien à :
(43)
Cela prouve
entre autres ce que nous avions énoncé plus haut
: nous pouvons toujours choisir une fonction d'utilité
(et ce même dans une optique de stratégie pure
où
ou
)
telle que les delta des gains de joueurs dans les jeux à
somme nulle soient égaux et opposés.


Voyons de suite un exemple en considérant le jeu à somme nulle suivant :
J1 / J2 |
b1 |
b2 |
a1 |
5 |
2 |
a2 |
3 |
4 |
Nous voyons
dans ce jeu qu'il n'a pas d'équilibre de Nash (et donc
pas de col). Effectivement, si
pense que
va décider
,
il a intérêt à choisir
(perte de 2 au lieu de 5). Mais
comprenant cela, va changer pour
(gain de 2 au lieu de 4). Mais
devinant cela va changer pour
(perte de 3 au lieu de 4), et
qui a tout compris va revenir à
(gain de 5 au lieu de 3).
Considérons
maintenant que le joueur
va choisir un nombre compris entre 0 et 1, soit x, et
prendra les décisions
avec la probabilité x et
avec la probabilité 1- x.
De même, le joueur
va choisir un nombre compris entre 0 et 1, soit y, et
prendra les décisions
avec la probabilité
et
avec la probabilité 1- y.
Les résultats de ces décisions conjointes sont alors :
- 5, résultant
de la conjonction de ,
obtenue avec la probabilité xy (les décisions
des deux joueurs étant indépendantes !)
- 2, obtenu
avec la probabilité
- 3, obtenu
avec la probabilité
- 4, obtenu
avec la probabilité
L'espérance
de
est donc :
(44)

S'il y a
équilibre entre les stratégies probabilistes,
n'aura aucune raison de modifier la valeur de x dans
l'espoir d'augmenter
.
Dès lors, la dérivée par rapport à
x doit être nulle tel que (maxima) :
(45)
Dans ces conditions :
(46)
Pour examiner
ce qui s'offre à ,
dont l'espérance, rappelons-le, sera dans un jeu à
somme nulle nécessairement opposée à celle
de
,
nous écrivons :
(47)
En appliquant le même raisonnement (mais implicitement en minima) :
(48)
Dans ce cas :
(49)
Ainsi, nous
avons déterminé les probabilités des stratégies
qui maximisent l'espérance des gains de ce jeu non-coopératif
! En les adoptant
est certain d'une espérance au moins égale à
(puisque
n'a rien à gagner à modifier sa stratégie)
et
est certain d'un espérance au moins égale à
.
Le nombre
est la "valeur du jeu".
Définition: Si la valeur du jeu d'un jeu non-coopératif à stratégie mixte est égale pour les deux joueurs, nous disons alors qu'il s'agit d'une "équilibre en stratégie mixte" (aucun des joueurs n'a intérêt à dévier unilatéralement).
Ce résultat est certainement le plus remarquable jusque là sur ce chapitre car les jeux non-coopératifs sont les plus nombreux sur le marché.
CRITÈRE DE LAPLACE
Le critère de Laplace est un critière qui affecte la même probabilité, en l'absence d'information, pour chaque décision (équiprobabilité). Il s'agira de calculer une espérance de gain pour chaque décision compte tenu de la probabilité affectée.
Autrement dit, le critière de Laplace consiste à déterminer pour chaque projet l'espérance mathématique en affectant la même probabilité à chaque état de la nature et retenant celui dont l'espérance est la plus élevée.
Voyons de suite un exemple en considérant à nouveau le jeu de somme nulle suivant :
J1 / J2 |
b1 |
b2 |
a1 |
5 |
2 |
a2 |
3 |
4 |
En appliquant l'équiprobabilité, nous avons le tableau suivant :
J1 / J2 |
E(b1) |
E(b2) |
E(a1) |
5/2+2/2=3.5,5/2+3/2=4 |
5/2+2/2=3.5,2/2+4/2=3 |
E(a2) |
3/2+4/2=3.5,5/2+3/2=4 |
3/2+4/2=3.5,2/2+4/2=3 |
Le jeu devient alors :
J1 / J2 |
E(b1) |
E(b2) |
E(a1) |
3.5 , 4 |
3.5 , 3 |
E(a2) |
3.5 , 4 |
3.5 , 3 |
Dans cet
exemple, où l'espérance est toujours égale
pour le joueur
quelque soit sa stratégie, le joueur 2 choisira la
stratégie où l'espérance de sa perte
est la plus faible soit
.
Nous avons donc ici une équilibre de Nash (sans optimum
de Pareto).
page suivante : 3. Jeux évolutionnaires