コイントスゲームとケリー基準

作者: 藤本誠二 <fujimoto@ceptord.net>
更新: 2018年09月20日

この記事では、コイントスゲームを素材に、 ケリー基準から長期的に資金を最大化する戦略を導きます。 よく省略される、導関数から最大値を求める部分も、省略せずに解説を加えます。

本記事は、高校3年生程度の解析の知識を前提としています。 合成関数の微分ができれば、理解できるはずです。

問題設定

コインを一枚投げて「表が出たら勝ち、裏が出たら負け」という単純なゲームを考えます。

このコインは、確率 p で表が出て、確率 q = 1 - p で裏が出るものとします。 ゲームの参加者は手持ち資金から好きな金額を賭けることができ、 ゲームに勝ったら(もとの賭け金に加えて)賭けた金額の b 倍の配当を受けられ、 逆にゲームに負けたら、賭け金を没収されるものとします。

※ 例えば b=3 とすると、100円を賭けて表が出たら、 賭け金100円が戻ってくるのに加えて、配当として300円の支払いを受けます。 逆に裏が出た場合、賭け金の100円がそのまま没収されます。

このゲームを繰り返し行う場合の最適な戦略を考えなさい。

回答

問題の定式化

まず、ゲーム開始前の最初の資金を V0、 n回目のゲーム終了後の資金を Vn とおきます。 毎回、手持ちの資金から一定の割合 α (0 ≦ α ≦ 1) をゲームに投じるものとしましょう。

最初の一回目のゲームを例にとりましょう。 ゲーム開始時の資金は V0 なので、 初回の賭け金は αV0 になります。 勝った場合は、その b 倍の配当を受けるので、

逆に、負けた場合は、賭け金を失うので、

この操作を n 回繰り返すと V0 から Vn に到達します。 そこで n 回のゲームのうち、勝った回数を W とし、負けた回数を L とすると、

この両辺を V0 で割って n 乗根をとると、

これは n 回目のゲーム終了時点での資金の増加率(平均複利リターン)を表します。

ゲームの回数が非常に多くなった時の平均リターンを考察しましょう。 極限 n → ∞ をとると、W/n は表が出る確率 p に限りなく近づき、 L/n は裏が出る確率 q に限りなく近づくので、

したがって、長期における資金の増加率は 投下水準 α の関数となることが分かります。

この関数を G(α) とおきましょう。

関数 G(α) の最大値

最初に、α = 1 のケースを考察しておきます。 これは、毎回、手持ちの資金をすべて賭けることに相当しますが、

したがって、長期での資金の増加率は必ず0になります。

これは、毎回手持ちの資金をすべて賭けていれば、 長期的には必ずどこかで負けて、すべての資産を失うからです。 このため、毎回手持ち資金の全額を投じる戦略が最適な戦略となることはないので、 ここからは α ≠ 1 として(つまり 0 ≦ α < 1 の範囲で) 考察を進めます。

極大値を求めるために関数 G(α) を微分します。 積の微分と合成関数の微分の公式を当てはめれば、次の関数が得られます。

ここで、p - 1 = - q かつ q - 1 = - p なので、

通分して式を整理すると、

ここから、関数 G(α) の最大点を求めましょう。 導関数 G'(α) の分母は、0 ≦ α < 1 において正の値をとるので、 G'(α) 全体の符号は分子の式の符号によって決まります。 分子の式そのものは α の一次式で、かつ単調減少であることを踏まえると、 関数 G(α) はどこか一点で極大点(すなわち最大点)を持つと推論できます。

したがって、次の方程式を立てて、

α について式を整理すると、

これが長期での資金の増加率を最大にする α です。

補足解説

ゲームの期待値との関係

このコイントスゲームの一回あたりの期待値を考えてみましょう。 確率 p で b 倍の配当があり、確率 q で賭け金を失うので、 手持ち資金から1単位投下した時のゲームの期待値 E は、

ここで、最適解の式を改めて眺めてみると、

この式の分子がゲームの期待値に他ならないことがわかります。

なお、期待値がマイナスの場合、 (bp - q) / b も負になります。 しかし、α はゼロ未満にはならないので (0 ≦ α < 1) 、 この場合の G(α) の最大点は α = 0 です。 つまり、優位性がないゲームには資金を投下しないのが最適解となります。

プログラムによるシミュレーション

ここまでの議論を、シミュレーションで確かめてみましょう。

今回の検証では、60%の確率で表がでるコインを使い、 オッズは1対1とします (つまり、p = 0.6, b = 1 です)。 検証にあたって、5万人のギャンブラーを生成します。 このギャンブラーの集団を1万人ずつの5つの組に分け、 それぞれの組に α = 0.1, 0.2, 0.3, 0.4, 0.5 のパラメータを割り当てます。 すべてのギャンブラーに初期資金として1000円を持たせ、 コイントスゲームを100回連続でプレイさせます。

このシミュレーションの結果を箱ひげ図で表したのが次の図です。 ゲーム終了後のギャンブラーの資金分布を、 割り当てられた戦略ごとに示しています。 縦軸が対数であることに注意してください。

中央値(ボックスの分割線)を比べると、 確かに、ケリー基準から導かれる最適解 α=0.2 のときに、 もっとも分が良くなることが見て取れます。 また、それ以上に賭けだすと、急速にリターンが小さくなり、 とくに大胆に賭ける戦略 α=0.4, 0.5 は (本質的に有利なゲームにもかかわらず) 元本を損ねてしまうことが分かります。

参考文献

J. L. Kelly, A new interpretation of information rate. Bell System Technical Journal, 35 (1956), 917-926
https://scholar.google.com/scholar?cluster=1168172961337617776

L. M. Rotando; E. O. Thorp, The Kelly criterion and the stock market. The American Mathematical Monthly, 99 (1992 Dec), 922-31.
https://scholar.google.com/scholar?cluster=5004394924888882094


トップページ

この文書はパブリックドメインです。 本文および付属する画像に関する著者の著作権はすべて放棄します。