Texas Hold'em

本文最后更新于：2025年4月1日下午

博弈论的基础建立在理性人假设之上：玩家是理性且自利的

参考

基础

VScode的Markdown preview enhanced（MPE）插件支持 Mathjax 和 Katex，可以实时预览Latex公式，完全没必要花两个小时装Texlive

牌型概率

虽然52取5对德扑来说没什么意义

牌型	翻牌后
Royal Flush	$\frac{4}{C^5_{52}} = \frac{1}{649740} \approx 0.00015\%$
Straight Flush	$\frac{1}{649740} \times 10 \approx 0.0015\%$
Four-of-a-Kind	$\frac{13*48}{C^5_{52}} = \frac{1}{4165} \approx 0.024\%$
Full House	$\frac{13412*6}{C^5_{52}} = \frac{1}{694} \approx 0.144\%$
Flush	$\frac{4*C^5_{13}}{C^5_{52}} \approx 0.2\%$
Straight	$\frac{10*4^5}{C^5_{52}} \approx 0.39\%$
Three-of-a-Kind	$\frac{134C^2_{12}*4^2}{C^5_{52}} \approx 2.1\%$
TwoPair	$\frac{C^2_{13}6^244}{C^5_{52}} \approx 4.75\%$
OnePair	$\frac{13C^2_{4}C^3_{12}*4^3}{C^5_{52}} \approx 42.3\%$
Single	$\frac{C^5_{13} * 4^5}{C^5_{52}} \approx 50.7\%$

四二法则

Flop后听N张牌，则最终成牌的概率约为4N%，Turn后听N张牌，则最终成牌的概率约为2N%

Flop后成牌概率为： $1 -(\frac{47-N }{47} \times \frac{46-N}{46} ) = \frac{93N-N^2}{47\times46}$
在Desmos中可以看出，当N在10以内时，四二法则的误差在 +1.6% 以内

Turn后成牌概率为： $\frac{N}{46}$
当N在10以内时，误差在 -1.7% 以内

位置

alt text

翻后策略求解

TexasSolver

期望价值

$EV = 正向收益 * 获胜概率 + 负向收益 * 失败概率$

即 $EV = Pot \times WinRate - Bet \times LoseRate$

$EV \geq 0 \Leftrightarrow Bet \leq Pot \times \frac{WinRate}{1 - WinRate}$

胜率	下注量(*Pot)
8%	0.09
16%	0.19
32%	0.47
50%	1
67%	2

策略

GTO和剥削

纳什均衡：在一个多人游戏中，各方在考虑到其他参与者的策略后，选择的最优策略组合。即，当所有参与者都无法通过单方面改变自己的策略来获得更好的结果时，这个策略组合就是一个纳什均衡。

一个很简单的例子，A与B各有一枚硬币，并可以决定自己每次出示硬币的正反。假如AB同正，B->A 3元，AB同反，B->A 1元，AB不同，A->B 2元，则该游戏公平吗

假设A出正的概率为p，B出正的概率为q，则A的总收益为 $EV = 3pq + 1(1-p)(1-q) - 2p(1-q) - 2(1-p)q = 8pq -3p -3q + 1 = (8p-3)q -3p +1$

显然，当A将自己出正的概率调整为3/8时，他可以完全无视B的出法策略，达到-1/8的最大收益

同理，B的最大收益为 $EV = 2p(1-q)+2(1-p)q-3pq-(1-p)(1-q) = 3p - 8pq + 3q - 1 =(3-8q)p + 3q - 1$ ，当B将自己出正的概率调整为3/8时，他可以完全无视A的出法策略，达到1/8的最大收益

显然当达到纳什均衡时，双方的期望收益并不为0，游戏并不公平

纳什均衡只是一个无限趋近的理想状态，在实际游戏中，玩家并不能做到完全理性。

剥削：有时你朝着远离纳什均衡的方向改变策略，可能在理想纳什均衡状态下你的收益会降低，但在实际情况中，由于对手往往不会及时根据你的策略调整他自己的，所以短期内他很可能会因此受损，而你反而获益

有一种两条线螺旋式逼近某个点的感觉。参考双人石头剪刀布，游戏初期双方只是随机出拳，但随着时间偏移，你可以根据对方出拳的频率来调整自己的频率，比如对方出石头多你就出布多，从而增加自己的收益。对方如果及时察觉到你的改变，他也应该改变自己的策略——降低石头，多出剪刀。最后达到的纳什均衡点就是双方都按1/3的概率出拳。但假若对方未能及时察觉，你的这种多出布的策略就成功的剥削了他

在实际扑克游戏中，每一场牌都远未达到纳什均衡，根据对方决策及时改变自己的决策，从而剥削对方，是极其必要的

玩家分类

VPIP：Voluntarily Put in Pot，翻前主动入池率，包括raise、call、limp，（即使后面raise导致你弃牌，只要你主动下注过，就算入VPIP），代表玩家的松紧程度
PFR：Preflop Raise，翻前加注率，代表玩家的凶弱程度

alt text

大数据显示VPIP在15-35，同时FPR与VPIP差距在15以内时，处于能盈利的范围

简而言之，VPIP过大代表范围广，成牌率低，适合满价值住；VPIP过小代表范围窄，成牌率高，适合翻前挤压

GAP过大时，说明翻前教被动，适合挤压，但尊重raise

interest

#德扑 #博弈论

Texas Hold'em

http://example.com/2023/09/25/德州扑克学习/

作者

Zhang Yix

发布于

2023年9月25日

更新于

2025年4月1日

许可协议

AI编译架构上一篇

Machine Learning Compilation 下一篇