跳转到主要内容

C13-C14

C13 真相在撒谎

辛普森悖论:

你发现对于⾃⼰的疾病来说,你在公⽴医院的存活率是 50%,⽽在私⼈诊所的存活率能达到 80%。你应该选择去私⼈诊所还是公立医院?
统计数字揭示的实际上更偏向于获得统计的⽅式,⽽不是因果联系。要避免任何曲解的话,正确理解我们⾯前的这些统计数字是⾮常重要的。
如何在统计数据上撒谎? 忽视因果关系,影响数据的产生;
比如要得到犯罪率增加和某项因素的正相关,可以找能导致更多犯罪被发现的原因,比如增加了巡逻,增加了摄像头,简化了报案程序……

分层法VS贝叶斯

分层法的失效——均值回归的存在

如何对抗内生因素的存在:

随机双盲实验

C14 又快又足够好

如何求第10^100个素数?

逐个计算验证的方法需要的计算量无法实现;

使用近似计算,利用素数定理可以大概确定下一个数的位置;

更广泛的近似计算手段:近似展开

image.png

纯粹贝叶斯主义者的局限:无法接受近似计算;

实用贝叶斯主义者拥抱近似计算;

近似计算的几种方法:

1) 神经网络

2)次线性算法(时间复杂度低于线性)二分,傅里叶变换;

如何选取近似的算法:

1)限制候选模型的数量

2) 只计算置信度最高的模型

3) 忽略分配函数

4)平方和算法

5) 高斯混合模型,变分贝叶斯,期望传播