跳转到主要内容

C13-C14

领读人:第202期
领读人:小明

日期:2025-11-02 21:00~22:30
录制文件:https://meeting.tencent.com/crm/NoyxAMj5cd
访问密码:AENP

C13 真相在撒谎

辛普森悖论:

你发现对于⾃⼰的疾病来说,你在公⽴医院的存活率是 50%,⽽在私⼈诊所的存活率能达到 80%。你应该选择去私⼈诊所还是公立医院?
90% - 10% 10%; 80%; 
统计数字揭示的实际上更偏向于获得统计的⽅式,⽽不是因果联系。要避免任何曲解的话,正确理解我们⾯前的这些统计数字是⾮常重要的。
如何在统计数据上撒谎? 忽视因果关系,影响数据的产生;
比如要得到犯罪率增加和某项因素的正相关,可以找能导致更多犯罪被发现的原因,比如增加了巡逻,增加了摄像头,简化了报案程序……

分层法VS贝叶斯

分层法的失效——均值回归的存在

如何对抗内生因素的存在:

随机双盲实验

C14 又快又足够好

如何求第10^100个素数?

逐个计算验证的方法需要的计算量无法实现;

使用近似计算,利用素数定理可以大概确定下一个数的位置;

更广泛的近似计算手段:近似展开

image.png

纯粹贝叶斯主义者的局限:无法接受近似计算;

P(problem)  = P(problem | theories) * P(theories) 

theory -> 0-1序列(0, 1, ... N->无穷大) 

实用贝叶斯主义者拥抱近似计算;

近似计算的几种方法:

1) 神经网络 ax+b ax2+b ... ->  cy1+d, cy2+d -->

2)次线性算法(时间复杂度低于线性)二分,快速傅里叶变换;

A  (A B C D E ... ); 

如何选取近似的算法:

1)限制候选模型的数量

2) 只计算置信度最高的模型

3) 忽略分配函数

4)平方和算法

5) 高斯混合模型,变分贝叶斯,期望传播