ゲーム理論入門/(4)囚人のジレンマのナッシュ均衡

囚人のジレンマナッシュ均衡

(自白、自白)の組み合わせがナッシュ均衡となる。
これはパレート最適(誰かの状態を改善する際に必ず他の誰かの状態を悪化させてしまう状態)ではない。(共に黙秘すれば、両者の状態を共に改善できるため)


証明)
今、囚人1の利得表を以下のように置く。

    囚人2  
    黙秘 自白
囚人1 黙秘 a b
  自白 c d

ここで、囚人2が自白する確率をp2、囚人1が自白する確率をp1とすると、囚人1の利得は
a(1-p1)(1-p2) + b(1-p1)p2 + cp1(1-p2) +dp1p2
= (a-b-c+d)p1p2 + (-a+c)p1 + (-a+b)p2 + a
= [ (a-b-c+d)p2 + (-a+c) ]p1 + (-a+b)p2 + a
= [ (d-b)p2 + (c-a)(1-p2) ]p1 + (-a+b)p2 + a
ここで、自白が支配戦略なので、c>a、d>b。また、0≦p2≦1なので、[]内の値は常にプラス。よってp1=1が常に囚人1の最適反応戦略。
囚人2についても同様なので、結局(自白、自白)がナッシュ均衡となる。