跳转到主要内容

C15

SEED共读共在读书会204期《贝叶斯的博弈》第五期C15
领读:@Yuan
日期:2025-11-16 21:00~23:00
录制文件:https://meeting.tencent.com/crm/lvWAX5jLdb
访问密码:BN2H

  • C15 不走运导致的错误

    • 2016: Donald Trump (28.6%) v.s. Hilary Clinton (71.4%)
      • 贝叶斯模型的失败?
        • No. 预测概率≠得票率,是未来谁是president的贝叶斯置信度
          • Trump当选的概率>连续生了两个同性别孩子的概率 (25%)
        • Additionally, 纯粹贝叶斯主义者从来不会尝试单独判断某个模型的有效性
    • 量子力学中的贝叶斯主义应用
      • 量子叠加态(上帝掷骰子) - 薛定谔的猫
        • 量子纠缠、超距作用
        • 上帝不仅掷骰子,而且有时候还把骰子掷到我们找不到的地方。[[Stephen Hawking霍金]]
      • 哥本哈根诠释 (世界是概率的)
        • 认为在被测量之前,量子系统的状态是不确定的,由一个“波函数”以概率的形式描述。当进行测量时,波函数会“坍缩”成一个确定的状态,这个结果的出现是概率性的,只能用波函数的绝对值平方来计算概率。
      • 多世界诠释MWI (Many-Worlds Interpretation) (平行宇宙,世界不是概率的,不确定性是认识论上的)
        • 将观察者纳入与观测结果相同的量子态。观察的不确定性实际上来自观察发生时开始相互作用的物体之间的量子纠缠。→ 量子信息茧房
        • 休·埃弗里特Hugh Everett III (1930~1982)
          • 量子力学领域的挫折 (1959年)

            • 1959年,埃弗雷特应邀访问哥本哈根,会见了“哥本哈根量子力学解释之父”尼尔斯·玻尔。
              • 访问结果: 这次访问是一场彻底的“灾难”。
              • 原因: 玻尔从整体上拒绝了埃弗雷特的方法,双方在概念上的鸿沟巨大,无法进行任何有效的思想交流。
              • 后续: 玻尔的追随者莱昂·罗森菲尔德(Léon Rosenfeld)甚至称埃弗雷特“愚蠢得难以形容”,认为他无法理解量子力学中最简单的东西。埃弗雷特后来将这段经历描述为“地狱”。
          • 坚持理论与开辟新径 (1959 - 1963年)

            • 尽管在哥本哈根遭遇了严重的学术打击,埃弗雷特在这一时期却做了两件重要的事情:
              • 开辟新方向(数学优化): 同样是在哥本哈根期间,埃弗雷特开始研究一个新想法——使用广义拉格朗日乘数进行数学优化。这项研究取得了成功。到1963年,他发表了一个定理,将拉格朗日对偶与原始问题联系起来。
              • 坚持量子理论(相对态): 他并未完全放弃自己的物理理论。1962年,他在泽维尔大学的一个会议上发表了“相对态公式”。他明确提出,波函数所有分支的观察者都是同样“真实的”,并同意这可能导向一个“不可估量的无限世界”。
          • 转向商业:从国防到民用 (1964 - 1973年及以后)

            • 埃弗雷特利用他在数学优化和运筹学上的发现(源于拉格朗日乘数的研究),将事业重心转向了商业和咨询:
              • 创办 Lambda Corp. (1964年): 埃弗雷特作为国防分析师和顾问,将其发现应用于商业上。1964年,他与几位同事创办了 Lambda Corp.,旨在将军事建模解决方案应用于民用问题。
              • 创办 DBS 公司 (1973年): 1970年代初,Lambda 被通用研究公司吸收。1973年,埃弗雷特与同事 Donald Reisler 离开,成立了 DBS 公司 (星展银行公司)。
                • DBS 的业务: 该公司一方面继续进行国防研究(如海军舰艇维护优化),另一方面,其主要业务是作为承包商,为美国司法部和卫生、教育和福利部等政府机构“分析政府平权行动计划的社会经济影响”
                • 其他角色: DBS 公司得到了美国管理系统公司 (AMS) 的部分支持,AMS 使用了埃弗雷特开发的算法。埃弗雷特本人也同时担任 AMS 的非行政副总裁,并经常为该公司提供咨询。
      • 贝叶斯主义者:没有对错,所有模型都是错的
        • 用[[奥卡姆剃刀]]分析MWI: 规则更简单,应该给予更高置信度?[C07 所罗门诺夫体系]
          • No. ∵量子分支之间可能产生干涉,我们似乎需要其他量子宇宙的描述才能做出预测。然而,这样的描述似乎极其耗费储存空间。∴ MWI的先验置信度会下降
      • 还有更多诠释
        • 德布罗意–玻姆理论、量子贝叶斯主义(quantum Bayesianism)……
    • 混沌理论 Chaos Theory (蝴蝶效应) [[洛伦兹]]
    • 自动机Automaton [[BOOK/Theory Of Self-reproducing Automata]]
      • 通过改变状态来处理输入,并根据当前状态和输入,遵循一定规则决定下一个状态。基本组成是状态和状态之间的转换。
      • 根据能力和复杂程度来区分
        • FSM有限状态机
        • 图灵机
        • 元胞自动机Cellular Automata
          • 基于微观个体相互作用的离散动态模型,用于模拟空间复杂系统的演变
          • [[Stephen Wolfram]] Automata=一维的elementary CA
            • 一维元胞自动机的演化可以通过第一行的初始状态(零代)开始,第二行从第一代开始,依此类推来说明。
            • 下图展示了一些自动机编号,这些数字在初始迭代中从单个黑胞开始,传播了 15 代,形成了特别有趣的模式。规则30特别有趣,因为它是混沌的。该规则被用作沃尔夫勒姆语言中用于大整数的随机数生成器
            • https://colab.research.google.com/drive/19m4PuaUy8IYef5A90ceHd0hMdtHR5Ogg
          • 生命游戏
          • 兰顿蚂蚁(Langton's ant)
      • 丘奇-图灵论题(Church-Turing Thesis)是一个关于可计算性的非形式化命题,它断言任何直观上“能行可计算”的函数或问题都可以由图灵机(Turing Machine)计算
        • [[BOOK/GEB集异璧]]
    • ^^**涌现 Emergence**^^
    • 热力学 & [[Entropy熵]]
      • [[玻尔兹曼]] 热力熵
        • 玻尔兹曼证明了时间不可逆转其实是一项涌现性质
          • 微观: 所有状态是可逆的
          • 宏观:事物总是从有序走向无序,单向的 → 时间
          • 为什么?
            • 如果组成世界的所有“零件”(原子)都遵守“时间可逆”的规则,为什么由这些零件组成的“宏观世界”却表现出如此严格的“时间不可逆”呢?
          • ∵ 有序状态是一种极其稀缺的状态,而无序状态实在是太多了。也就是说,一个系统从“有序”走向“无序”,并不是因为它“必须”这么做,而是因为“无序”的状态实在是太多了,系统随便一动,就会“掉”进一个无序的状态里。
            • 这就像你走进一个超级大的迷宫,只有一个入口(有序),但是有无数亿个出口(无序)。你只要开始走,你几乎100%会从某个出口出去,而几乎0%的可能(尽管不是0)会原路返回。
          • ∴ 我们所感觉到的“时间流逝”,只不过是我们亲眼目睹的、宇宙这个大系统从“有序”走向“更无序”的这个统计过程。它并不是一个写在最小尺度上的基本法则。它是一种统计学上的必然,是从微观世界的“简单规则”中涌现出来的宏观现象。
      • [[Shannon香农]] 信息熵
        • 消息中的信息量等同于在贝叶斯置信度的视角下这一消息的稀有性(你有多惊讶)
          • ∴ 一条消息中包含的信息只能相对于某个情景来衡量,更准确地说,是相对于某个用于评判信息出现概率的贝叶斯置信度体系而言。没有语境和质疑,概率检验就出问题。
            • 信息的价值并非绝对,而是相对于特定认知框架和先验信念的
          • [[BOOK/GEB集异璧]] 意义从何处来?
        • 信息量计算
          • $$h(x) = -\log_2(p(x))$$
            • 为什么用对数?
              • p(X and Y) = p(X) * p(Y)
              • h(X and Y) = h(X) + h(Y)
              • 两个完全独立事件同时发生的概率是相乘的,但两件事收到的信息量是相加的。
          • $$H = \mathbb{E}_{m} [h(m)] = \sum_{m} P(m) \log_2(1/p(m))$$
            • 香农推断出了信源的期望信息量的公式,也就是这个信源发出的消息的平均信息量
      • 双熵合一
        • 热力熵是信息熵的推广,在给定宏观量测量值的前提下,对于可能出现的不同微观状态,我们都拥有它的先验置信度
        • ∵ 微观态的概率相等(1/W) → 热力熵 $$H = -\log_2(W)$$
      • 信息编码
        • 猜头像
          • 如果一共有n个头像可以选择,而且对手以随机等概率的方式选择了其中一个,那么平均来说必须至少问出$$\log_2(n)$$道判断题才能确定对手选择的头像
            • → 二分法查找的时间复杂度
          • 香农熵对应着一种理想状态,其中对手给出的答案序列决定了他对头像选择的最优编码 → bit比特
        • 香农在更普遍的情况下证明了所有通信都可以归结为一串由0和1组成的序列,因此通信能够通过数字化获益良多
      • 如何通过不完美信道通信 (已知干扰→加冗余)
        • 引入贝叶斯置信度,用以推断消息可能受到的干扰。然后香农证明了,只要这些贝叶斯置信度是正确的,那么这个非完美信道就等价于另一个完美信道
        • 而这个完美信道的带宽等于非完美信道的带宽减去信道不完美性在某种意义上的熵
        • 只要加上足够多的冗余,任何信息都可以通过非完美信道传递。香农甚至对所需冗余进行了量化:消息在通过非完美信道传递时,所需冗余量应该大约等于消息受到的干扰的熵
      • 如何衡量预测/生成信息的有效性
        • KL散度 Kullback-Leibler Divergence
          • 如果世界的确是概率性的,而且符合某个概率分布的话,那么能够使罚分最小化的预测性模型就是预测的概率分布p等于q。已知概率性预测q可以使罚分最小,我们就可以判断预测p相对于最优预测q的表现(偏离程度)
          • $$D_{KL}(q||p) = \mathbb{E}_{m \sim q} \left[ \log_2 \frac{1}{p(m)} - \log_2 \frac{1}{q(m)} \right] = \sum_{m} q(m) \log_2 \frac{q(m)}{p(m)}$$
            • KL散度让我们能区分那些因不了解问题(即使其中没多少不确定性)而立场不确定的预测,与那些因知
              • KL散度就是你为你的“无知”或“错误信念”所付出的额外代价
                • 假设你在玩一个预测游戏,预测一枚硬币向上或向下的概率,但这是一枚有偏的硬币,真实概率q是:正面70%/反面30%。∴ $$q=-(0.7 \times \log_2(0.7) + 0.3 \times \log_2(0.3)) = 0.88$$(神预测)。
                • 你的预测:
                  • 你不知道它作弊了。你预测它是一枚公平的硬币:正面50%/反面50%,你的两个$$H=-\log_2(0.5)=1bit $$,∴你的平均惩罚是:70%*1bit+30%*1bit=1bit
                • ∴你的KL散度=1bit-0.88ibt=0.12bit,即你的预测p(50/50)相对于现实 q(70/30)的KL散度
        • 沃瑟斯坦度量Wasserstein Metric ((Earth Mover's Distance, EMD))
          • 沃瑟斯坦度量能让我们准确表达“你比我更正确”的直觉
          • 沃瑟斯坦度量的核心思想源自“最优传输”问题。直观地,可以将两个概率分布想象成两堆具有相同总质量的“土堆”。沃瑟斯坦度量衡量的就是将一个土堆精确地转化为另一个土堆所需的最小“工作量”,其中“工作量”定义为需要移动的质量乘以移动的距离。
          • 与传统的概率分布距离度量(如KL散度或JS散度)不同,沃瑟斯坦度量考虑了数据所在空间的几何结构。即使两个分布的支持区域(有质量的点)没有重叠,沃瑟斯坦度量也能提供一个有意义的距离值,因为它考虑了将质量从一个位置移动到另一个位置所需的实际距离。
          • 机器学习:在生成对抗网络(GANs)中被用作损失函数,以提高训练的稳定性和性能。
          • Limitation: 它需要预先取定数据之间相似性的度量。在我们的情况中,两颗沙砾的相似性可以通过它们之间的距离来衡量,然而在许多情况之中,找出恰当的相似性度量极其困难。
        • 生成式对抗网络GAN (2014~2020) (代表:deepfake)
          • 如何测定文字、声音和图像等复杂对象之间的相似性?
          • 实用贝叶斯主义者必须依靠某些方法来绕过对思想实验项的直接计算。人们也将其称为无似然方法(likelihood-free method)
          • GAN是一种聪明的“无似然方法”
            • GAN的“无似然”流程:
              1. 生成器 (模拟器):生成一张假照片$$D_{fake}$$。通过奖惩不断提高模拟能力。
              2. 鉴别器 (比较器):它的任务就是比较$$D_{fake}$$和 $$D_{real}$$,并说出哪个是假的。通过奖惩不断提高鉴别能力。
              3. 训练过程:“生成器”的目标是调整自己的参数 $$\theta$$,直到它“模拟”出的$$D_{fake}$$能完美骗过“鉴别器”,让“鉴别器”彻底混淆(给出50%的概率)。
        • 补充:Diffusion Models (2020+)
          • 核心:修复Denoising,not 对抗
          • 真实图像上一步步加噪点,直到完全变成一张噪点图。再逆向工程“去噪”。
          • 特点:更容易精确控制、质量更高
            • 通过Transformer理解文本(全局视野/self-attention,并行处理一个序列中所有部分之间的复杂关系和长期依赖) → 在去噪的每一步,根据文本调整 → 逐步接近需求(逐帧控制)
      • SUM: 对模型与预测的判断必须能量化不确定性。量化不确定性实在非常重要,这件事不能被随意决定。