ゲーム理論入門／（４）囚人のジレンマのナッシュ均衡

囚人のジレンマのナッシュ均衡

（自白、自白）の組み合わせがナッシュ均衡となる。
これはパレート最適（誰かの状態を改善する際に必ず他の誰かの状態を悪化させてしまう状態）ではない。（共に黙秘すれば、両者の状態を共に改善できるため）

証明）
今、囚人１の利得表を以下のように置く。

		囚人２
		黙秘	自白
囚人１	黙秘	a	b
	自白	c	d

ここで、囚人２が自白する確率をp₂、囚人１が自白する確率をp₁とすると、囚人１の利得は
a(1-p₁)(1-p₂) + b(1-p₁)p₂ + cp₁(1-p₂) +dp₁p₂
= (a-b-c+d)p₁p₂ + (-a+c)p₁ + (-a+b)p₂ + a
= [ (a-b-c+d)p₂ + (-a+c) ]p₁ + (-a+b)p₂ + a
= [ (d-b)p₂ + (c-a)(1-p₂) ]p₁ + (-a+b)p₂ + a
ここで、自白が支配戦略なので、c>a、d>b。また、0≦p₂≦1なので、[]内の値は常にプラス。よってp₁=1が常に囚人１の最適反応戦略。
囚人２についても同様なので、結局（自白、自白）がナッシュ均衡となる。