【知乎收藏】一个有趣的统计学悖论问题

【写在前面:最近事情有点多,博客更新有点慢,见谅。不知道是不是因为年级增高,感觉每天要处理的事情变得多了起来,也越来越少有时间探索和打理自己的一方世界了qwq。但至少现在,博客还会一直更新下去。】

刷知乎时看见的一个很有趣的统计学问题,特此收藏和讨论。这道题目同时也体现出了贝叶斯理论的一个重要性:先验知识是如何影响结果的。

知乎原网页链接:

有哪些悖论一下子就吸引了你? - Les Miserables的回答 - 知乎

转载时有修改和补充。以下是全文

悖论描述

整个问题分为两个部分。第一部分是一个简化的场景,相信读者朋友可以很容易得出结论;第二部分则是一个更复杂的场景,悖论就出现于此。

第一部分

你观察到,当你的房间上亮绿灯的时候,你的房间失窃概率是0,当你的房间亮红灯时,你的房间失窃概率是1/3;与此同时,你可以在离开之前调整灯的颜色,如果你走的时候灯是红色,你回来的时候一定是红色;如果你走的时候灯是绿色,有一半的几率变红有一半几率是绿灯,请问你走的时候会把灯调成什么颜色?

第二部分

假设,A是一个粗心大意的雇主,他经常会在东西丢了之后一年才发现,但是他发现后可以准确知道是哪一天被偷的。

B是一名绝对不会偷东西的钟点工,被A雇佣来家里帮忙大扫除。二人并不认识,以后也不会再合作。

A绝对相信B的人品不会偷东西,但是A担心B会马虎,所以A给B提出了一个奇怪的条款:在正常的工钱之外,有3000块钱浮动工钱,这部分工钱的发放将取决于失窃的概率。

与此同时,A作为富家公子 缺乏常识 ,因此他计算失窃的概率只能基于以往的观察,而 没有正常的常识推理能力

与此同时,这个城市的小偷有一个惯例,就是它们很文明,只会进开着的房间,且进去偷完东西后一定会把门关上。 为了方便起见,我们假设门如果开着则有50%几率失窃,门关着当然是0%。

另外我们假设A作为一个马虎大王,忘记关门的概率是50%

现在是中午,B做完工作准备离开了,A要晚上才能回来,请问B此时应该把门关上还是留开着?

站在小偷视角,如果门关着则不会进,门开着则50%概率进去并关上,50%概率不会进。

站在A的视角,通过他观察的数据( 再次强调,他没有逻辑推理能力! ),如果他到家的时候门是开着的,那么房屋100%没有失窃;如果他到家的时候门是关着的,根据贝叶斯定理可以算出有1/3的几率失窃了。 (不知道贝叶斯定理的话,就假设有四天,A出门的时候门的状态分别是关关开开,小偷第三天来了第四天没有,因此他回来的时候看到的是关关关开,开的那天没有失窃,关的三天有一天失窃了)

因此站在A的视角,如果他回来发现门是关着的,则应该给B 2000元,开着则应该给他3000元

那么对B来说,如果走的时候把门关上,他一定只能拿2000元,如果走的时候门开着,他拿2000和3000概率一样,期望是2500 所以他会把门留开着。

也就是说,A为了防止失窃的措施导致了自己房屋有了失窃的风险。

问题分析(by DeepSeek)

你提的这个问题非常精彩,它揭示了同一个统计学结构可以包装成表面上结果相反的两个故事,而差异出在 “失窃概率的定义条件”“对方(小偷)的行为依赖什么” 上。

先一步步拆解。

1. 两个模型的结构一致性

第一部分(灯的颜色):

  • 走时绿灯 → 回来 绿灯0.5,红灯0.5
  • 走时红灯 → 回来 红灯 1
  • 回时看到绿灯 → 失窃概率 0
  • 回时看到红灯 → 失窃概率 1/3

第二部分(关门问题按A的信念):

  • 如果B走时开门 → A回家时可能开(0.5)或关(0.5),取决于小偷来不来(小偷进门必关门)
  • 如果B走时关门 → A回家必定关门(因为小偷不进关着的门)
  • A回家看到门开 → 失窃概率 0(因为小偷进来会关门,门开着就是小偷没来)
  • A回家看到门关 → 有 1/3 概率失窃(类似灯的红灯)

A观测后验概率 来看,两个的结构确实是数学同构的。

2. 为什么B(第二部分)会选择开门?(你算过:关门2000,开门期望2500)

这是对B最优的个人利益决策,不是对A的最优决策。
注意:故事里 A 给浮动工钱,B 最大化自己收入,不在意是否真的防盗。
但 A 的目标本来是防盗,A 用了有缺陷的概率思维,引发了 B 的反向激励。

3. 与“常识”的冲突点在哪?

常识:开门更容易招贼。
但在这个A的病态合约下:

如果 B 关上门 → A回来看到门关,会推断失窃概率 1/3,于是给 2000 元(少 1000 元)
如果 B 打开门 → 更可能让A回来就看到门开着(概率 0.5),此时A认为一定没失窃,给 3000 元;如果不幸关门(概率 0.5),拿 2000 元,平均 2500。

因此 B 愿意开门并不是因为开门真的降低失窃概率,而是因为 A 的偏差(缺乏常识推理,只依赖观察的后验概率)导致他错误地奖励开门行为

4. 真正的偏差来源

第一部分里,红绿灯的“实际失窃概率”是真实世界定律,没有 A 的错误信念。
第二部分里,“A 观察到的后验概率”不等于真实失窃概率,因为:

真实物理世界中

  • 你走时开门 → 小偷进来的概率 50%(进来→关门)
  • 你走时关门 → 小偷进来的概率 0

所以 开门真的让失窃风险从 0 升到 50%

但 A 因为缺少“小偷进来必关门”这个逻辑常识,只用看到门开/关的统计数据来推断,便产生了“看到门开更安全”的错觉。

5. 结论:为什么同一个统计学描述不同故事结论相反?

第一部分里,“你”是理性的决策者,知道绿灯真的对应 0 失窃,红灯真的对应 1/3 失窃,因此选绿灯。

第二部分里,“B”不是根据真实风险来行动,而是根据 A 的(错误)奖励机制 来行动。A 的奖励机制逆向激励了 B 开门,因为开门会让 A 更有概率看到门开,从而给全款。

数学结构一致,但 “谁定义失窃概率” 不同:

  • 灯的故事:失窃概率是真实客观的条件概率(已知灯色)
  • 门的故事:A 的失窃概率是用错误模型推断的后验概率(无推理能力),不反映真实世界

贝叶斯定理在这道题中的应用(by DeepSeek)

当然可以用贝叶斯框架来解释,而且这个例子恰好是 “错误先验 / 缺失因果结构” 导致悖论的典型案例。

1. 贝叶斯推理的正确做法(雇主 A 如果有推理能力)

真实物理因果模型(假设 A 知道世界如何运作):

  • 变量1:$D$(B 走时门的状态)
    • $D = \text{Open}$ 或 $D = \text{Closed}$
  • 变量2:$T$(小偷是否行动 → 失窃与否)
    • 已知事实:
      1. 如果 D = Closed → $P(\text{失窃} \mid D=\text{Closed}) = 0$
      2. 如果 D = Open → 小偷有概率 0.5 会进来(并关门) → $P(\text{失窃} \mid D=\text{Open}) = 0.5$
  • 变量3:$S$(A 回家时门的状态)
    • 规则:
      • 如果 D=Closed → $S = \text{Closed}$ 确定
      • 如果 D=Open 且 小偷没来 → $S = \text{Open}$
      • 如果 D=Open 且 小偷来了(失窃)→ $S = \text{Closed}$

正确的贝叶斯公式:

已知 $S = \text{Closed}$ 时,更新 $P(\text{失窃} \mid S)$:

$$
P(\text{失窃} \mid S=\text{Closed}) = \frac{P(S=\text{Closed} \mid \text{失窃}) P(\text{失窃})}{P(S=\text{Closed})}
$$

假设先验(基于长期出门习惯)$P(D=\text{Open}) = P(D=\text{Closed}) = 0.5$,且 $P(\text{失窃} \mid \text{Open}) = 0.5$,得:

$$
P(\text{失窃}) = P(D=\text{Open})\times 0.5 = 0.5 \times 0.5 = 0.25
$$

$$
P(S=\text{Closed} \mid \text{失窃}) = 1 \quad (\text{小偷必关门})
$$

$$
P(S=\text{Closed}) = P(\text{失窃}) \cdot 1+ P(\text{不失窃且 S=Closed})
$$

不失窃且 S=Closed 仅有 D=Closed 一种情况 → 概率 0.5

于是:
$$
P(S=\text{Closed}) = 0.25 + 0.5 = 0.75
$$

$$
P(\text{失窃} \mid S=\text{Closed}) = \frac{1 \times 0.25}{0.75} = \frac{1}{3}
$$

所以 这个的确没错,A 算出来的“回家看到关门时有 1/3 失窃”其实在这里是正确的,前提是他已经知道 D 的先验分布和规则。

那为什么 B 要开门?因为 这是 B 的奖励函数 造成的激励扭曲,不是 A 的概率算错。

2. A 错在哪里(导致不同结论)?

原故事里 A 没有逻辑推理能力,他的“观察数据推断”其实隐含了一个错误假设:

他认为的因果模型是:

$$
P(\text{失窃} \mid S=\text{Open}) = 0 \quad\text{(数据直接数出来)}
$$

$$
P(\text{失窃} \mid S=\text{Closed}) = 1/3 \quad\text{(数据数出来)}
$$

但他不知道小偷的行为依赖于 D,而 D 的分布又不是独立的。

如果他懂贝叶斯,他会做结构化因果模型,而不是直接用 $P(\text{失窃}|S)$ 做决策基准,因为他要预测的是“改变 D 会如何改变失窃概率”。

3. 正确的反事实推理(A 如果懂贝叶斯会如何定工资)

A 的目标是:让 B 选择 $D$ 来 最小化真实失窃概率

真实失窃概率:

  • $D=\text{Closed}$ → 0
  • $D=\text{Open}$ → 0.5

所以 关门好

那为什么故事里 A 反而会奖励开门?因为他的奖励方案固定为:

  • 看到 S=Open → 给 3000 元
  • 看到 S=Closed → 给 2000 元

直接用 S 决定工资,没考虑 S 本身是“D 与 T 共同作用”的结果。

如果他懂贝叶斯+因果推断,他会明白:设 $R$ 为基础工资,额外奖金应基于 D 的因果效应,而不是 S 的后验分布。

比如正确的奖励机制可以是:

  • 证明你 D=Closed(比如监控记录),就给你额外奖励,因为真实防盗。
  • 或者工资函数用反事实:

$$
\text{奖金} = E[, \text{奖金金额} \mid \text{employee’s action} ,]
$$

但这里不是概率式不确定,而是奖金直接依赖某个观测证据。真正贝叶斯 决策理论 下,A 应先定损失函数(失窃概率),然后选择行动让 B 按此奖励函数行动时激励相容。

4. 结论

这个“悖论”本质是 贝叶斯更新正确,但因果滥用错误

  • 若只做 观测更新(给定 S),1/3 没错。
  • 若要做 干预决策(设定 D),不能直接拿 $P(\text{失窃} \mid S)$ 当决策依据,而要用 反事实推理 来推断改变 D 对真实失窃概率的影响。

A 的傻,就在于 把后验概率 $P(\text{失窃}|S)$ 误当成 “我若改变 D,S 会怎么变” 的因果效应。