C13-C14
领读人:第202期
领读人:小明
日期:2025-11-02 21:00~22:30
录制文件:https://meeting.tencent.com/crm/NoyxAMj5cd
访问密码:AENP
C13 真相在撒谎
辛普森悖论:
你发现对于⾃⼰的疾病来说,你在公⽴医院的存活率是 50%,⽽在私⼈诊所的存活率能达到 80%。你应该选择去私⼈诊所还是公立医院?
90% - 10% 10%; 80%;
统计数字揭示的实际上更偏向于获得统计的⽅式,⽽不是因果联系。要避免任何曲解的话,正确理解我们⾯前的这些统计数字是⾮常重要的。
如何在统计数据上撒谎? 忽视因果关系,影响数据的产生;
比如要得到犯罪率增加和某项因素的正相关,可以找能导致更多犯罪被发现的原因,比如增加了巡逻,增加了摄像头,简化了报案程序……
分层法VS贝叶斯
分层法的失效——均值回归的存在
如何对抗内生因素的存在:
随机双盲实验
C14 又快又足够好
如何求第10^100个素数?
逐个计算验证的方法需要的计算量无法实现;
使用近似计算,利用素数定理可以大概确定下一个数的位置;
更广泛的近似计算手段:近似展开
纯粹贝叶斯主义者的局限:无法接受近似计算;
P(problem) = P(problem | theories) * P(theories)
theory -> 0-1序列(0, 1, ... N->无穷大)
实用贝叶斯主义者拥抱近似计算;
近似计算的几种方法:
1) 神经网络 ax+b ax2+b ... -> cy1+d, cy2+d -->
2)次线性算法(时间复杂度低于线性)二分,快速傅里叶变换;
A (A B C D E ... );
如何选取近似的算法:
1)限制候选模型的数量
2) 只计算置信度最高的模型
3) 忽略分配函数
4)平方和算法
5) 高斯混合模型,变分贝叶斯,期望传播
