ポーカーアドベントカレンダー2025 14日目|tkok|ソルバーの正解が「現実の不正解」になる理由:BR管理の観点から

ポーカーアドベントカレンダーをお読みの皆さん、初めまして、あるいはお久しぶりです。

13日目のWagon_man(@wagonman53)さんに引き続き、14日目を担当させて頂くtkok(@PokerTkok)と申します。

2019年の12月1日からNLHを主としたポーカーで生計を立てており、気が付けばもう6年以上専業として生きています。

専業開始初期の2020年頭頃、新型コロナでロックダウンが始まる直前のバルセロナのポーカールームで、ポーカーアドベントカレンダー主宰メンバーのKotaくん(@KotaTakagi1326)と出会い、その縁で、この記事を書けていることに感慨深さを感じます。

今回は、そこそこの期間専業として生きてきた身として、長く専業をやっていく上で欠かせない、資金(BR)管理に関連するトピックについて皆さんにご紹介できればと思っています。

ポーカーで何を最大化するべきか

界隈でも不定期に上がる議題ですが、私たちは何を目的にポーカーをするのでしょう。

かわいいメイドディーラーと話せる幸福感?wizardを見て俺のプレイはGTOだったんだとわかる達成感?トロフィーを取って得られる承認?リバーで2アウツ引いてカードを叩きつけながらショウするときの高揚感?はたまた金銭でしょうか。

ポーカーにはレーキ(手数料)があり、高い割合の人々が長期的に負けるため、ほとんどのポーカープレイヤーにとっては金銭以外の何らかの満足度を最大化することが最適な行動です。

しかし、専業は、仕事としてポーカーをしているので、最大化を図るのは主として金銭であるはずです。(当然、人として失ってはいけないものは保つ制約の上でですが。)

ここで問題なのは、金銭以外の満足度は、概ね快不快の感情とリンクしているので、基本的に自らの心の反応に従うことが最大化を行うための最適な手段となることが多い一方で、金銭についてはあくまで数値であり、更には、不確実性を伴う数値であるため、何らかの理論的枠組みを基に扱い、最大化を考える必要があるということです。

期待値の限界

賢明なポーカープレイヤーの皆さんであれば『期待値(EV)』という言葉が頭に浮かんでいるはずです。

期待値は実際にかなり有用で、不確実性下の合理的意思決定を語る上で必須の概念です。

しかし、ここからお伝えしたいのは、専業として金銭について最大化する何かを求める場合、それは期待値ではない、ということです。

有名な問題にはサンクトペテルブルクのパラドックスなどがありますが、期待値最大化という基準は意思決定において問題を抱えてもいる基準です。

特に専業としてポーカーをやるとなると、期待値を追い求めた結果破産して無職空白期間激長の中年として路頭に迷ったり友人に借金をして飛んだりする確率は、オンラインゲームをしていて、私がゴマキ、となる確率程度に留めておく必要があります。

さもなくば、例えば資金が1,000万円しか無い人が年間収支の確率分布を「プラス1億円30%、マイナス1,000万円70%で期待年収2,300万円だ!」となるように稼働計画を調整してしまい、「アイドルと付き合える可能性あるなら期待値無限だから!」とオンラインゲーム中毒になるのと同様に困ることになります。

期待値よりも優れた指標

では、専業として金銭について最大化を目指したいとき、一体どんな基準を用いれば良いのでしょう。

それはJ.L.Kelly(1956)で提唱された、期待対数収益率の最大化を行う基準です。(ケリー基準と呼ばれることもあります)

⚠️ 説明を全部読むと長くなりそうなので、要旨だけ掴みたい方は、下線部および各計算式を読み飛ばしてください。

この基準は、数式で表すと \(EV[log(R)]\)を最大化する基準で、期待値 \(EV[X]\) を最大化する基準とは似て非なるものです。

*Rは収益率(資金がそのままなら1、10倍になれば10となるような確率変数)でXは収益(資金がそのままなら0、100増えれば100となるような確率変数)

なぜ対数を使うのか、理由の1つは、資産の収益率を扱いやすくするためです。

期待値は計算する際、独立事象に関して \(EX[A+B]=EX[A]+EX[B]\) となる便利な性質を持っています。

例えば、サイコロを1個振ったときの目の期待値は3.5であり、これにサイコロを1個加えると2個の目の合計値の期待値は7となりさらに3個目を加えると10.5となります。

しかし、2つのサイコロの目の積の期待値の計算でこれが成り立たないように、\(EX[A×B]\)にはそうした性質がありません。

そこで、対数をいったんかませてやり、\(EX[log(A×B)]\)とすると、対数の性質により\(EX[log(A)+log(B)]\)と足し算の形になり、収益率が扱いやすくなります。

また、対数関数は単調増加関数であるので、対数をかませたあとの収益率を最大化することが、そのまま収益率の最大化に繋がります。

つまり、対数を入れることで、掛け算を扱えるようになり、ある収益が自己資金の何%の増減になるのかを勘案出来るということです。

実際に、「現在の資金が1000万円で、プラス1億円30%、マイナス1,000万円70%で期待年収2,300万円だ!」の状況について、それぞれの数値を計算してみると、

期待対数収益率
$$EV[log(R)]=0.3 \times log( \frac{110,000,000}{10,000,000})+0.7 \times log( \frac{0} {10,000,000} )= -∞$$

期待値
$$EV[X]=0.3 \times 100,000,000-0.7 \times 10,000,000=23,000,000$$

となり、期待対数収益率最大化の基準は、この稼働計画が論外であることを捉えている一方、単純な期待値の方ではこの稼働計画が、低ステークスを打つ保守的な他の計画よりも優れたものであると判定してしまい、破産に導かれる危険があります。

このように破産リスクを極大に評価することで、海外カジノで破産して物乞いをしながら帰りのフライト費用を貯める未来を回避してくれるのは期待対数収益率を見る一つのメリットでしょう。

では、破産リスクを回避していることによって資金の増加ペースは鈍ってしまうのでしょうか。

実はその逆で、Breiman(1961)は期待対数収益率の最大化基準に則った戦略は次の二つのメリットを持つと示しています。

 ①試行回数を無限に行うと、他のどの戦略における資金量と比べても無限倍に大きくなる

 ②ある目標額に到達する時間の期待値が、他のどの戦略よりも小さい

①は、長期的には他のどのような最大化基準のもとに策定した稼働戦略よりも資金が大きくなる、ということを表しており、

②は、例えば「億り人」を目指した場合に期待される到達時間、あるいはハンド数が他のどのような戦略と比べても短くなることを表しています。

では、実際に期待対数収益率最大化基準を適用して、こうした望ましい性質の利益を享受しに行った場合、期待値最大化基準とどの程度アクション判断が変わるのかを確認していきましょう。

前提条件
資金4000bbで迎えたハンドにおいてエフェクティブスタック100bbで開始、リバーで100bbのポットに50bbのオールインを打たれ、自分はブラフキャッチャーを持っている。相手がブラフを持っている確率は \(p\) とする。

1.期待値基準

フォールド期待値

$$0$$

コール期待値

$$p \times 150-(1-p) \times 50$$

ここでフォールド期待値とコール期待値が等しくなるのは \(p=0.25\) のときであり、一般的なコールオッズの計算と当然同様の結果です。

2.期待対数収益率基準

フォールド期待対数収益率
$$log(\frac{3950}{3950})=0$$

コール期待対数収益率
$$p \times log(\frac{4100}{3950})+(1-p) \times log( \frac{3900}{3950})=0$$

こちらについてもフォールドとコールの期待対数収益率が等しくなるpを求めると、\(p≒0.25473\)となります。

結果、期待値基準で有れば相手レンジに25%ブラフが含まれていればコール出来る一方、期待対数収益率基準だと約25.473%が境界線になります。

さらに、25.473%の値をもとに、コールの期待値を計算すると約0.945bbとなり、これはかなり衝撃的な結果です。

100bbバイインで40バイインルールのバンクロール管理をした上でさえ、ソルバー解からすると無視できない大きさの期待値である0.9bbのブラフキャッチをすることが出来ないのです。

もし20バイインルールで管理していたり、リバーのサイズが50%ではなくもっと大きかった場合、この乖離幅はより大きくなるでしょう。

しかし、証明は割愛しますが、逆に資金の量を増やせば増やすほど乖離は0に近づいていきます。これについては、もしお時間があれば証明してみたり色々な数値を入れて計算で確認してみても面白いと思います。

また、資金量を無限にすれば期待値最大化基準と一致するということは、ポーカーを資金など関係ない単なるゲームとして見たときには、期待値最大化基準での優劣がゲームの上手さを測る指標として優れているでしょう。

そういった意味では、金銭よりも自分のゲームの上手さの方が大事だ、という主義であれば、例え専業であっても期待値最大化を目指してポーカーをするのも一つの選択だと思いますし、それこそが「ポーカープロ」なのかも知れないな、とも思います。

最後に、この記事の内容自体は、5年以上前から書きたいな、と思っていたものでしたが、筆不精ゆえに中々実現できませんでした。今回、このような機会を頂けたことで、なんとか形にすることが出来ましたので、主宰の方々に深く感謝申し上げます。

ただ、かなり説明が端的かつ厳密さにはこだわらない形になってしまいましたので、気力があれば、より詳細な説明やシミュレーション結果などを追加したいと思っています。その際にはまた是非お付き合い出来ると幸いです。

まとめ

  • 期待対数収益率最大化の基準を用いると期待値最大化基準に比べて
    • ①破産確率が下がる
    • ②長期的には資金が大きくなる
    • ③目標資金額に達するのが早くなる
    • ④資金によってはソルバー解よりもかなり損失回避の打ち方になる
  • 資金が十分に大きければ期待値最大化で良くなるが40バイイン管理だとまだダメ

明日の担当者はシークレットらしいですね。以前のシークレットゲスト同様凄い人が来るのではと楽しみです。

まだ他の方の記事を読んでない方は是非下のリンクから目次ページをご覧になってくださいね。

著者|tkok
NLHEキャッシュ専業

関連記事