终于有人把大数定律讲明白了

这篇具有很好参考价值的文章主要介绍了终于有人把大数定律讲明白了。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

导读:在一些情况下,概率是由频率推导而来的,要得到可信的概率,就要大量重复地试验。而且,重复试验的次数越多,结论就越让人信服。那么,为何人们直觉上更愿意相信从大数据中得到的统计结果,而不是从小数据中得到的经验呢?

作者:徐晟

来源:大数据DT(ID:hzdashuju)

终于有人把大数定律讲明白了

01 大数定律的概念和意义

要解释这一现象,统计学中有一个非常重要的理论——大数定律。该定律表明,样本数量越多,结论就越接近真实的概率分布。也就是说,在重复的试验中,随着试验次数不断增加,事件发生的频率会越来越趋于一个稳定的数值,即它的概率。

大数定律最早是由数学家伯努利在他的《推测术》中提出的。该书由4个部分组成,前3部分主要是对古典概率的系统性阐述,第4部分是这本书的精华,主要探讨了概率论在社会、道德和经济领域的应用,其中就提到了大数定律以及它的证明过程。

只有基于大量的统计数据,才能得到更为准确的统计结果。这个结论虽然直觉上好理解,但以前没有人证明过它。

伯努利的伟大之处就在于,他用数学严格证明和解释了这个直觉经验:只要通过大量试验,人们观察得到的频率和实际的概率之间的差距就会越来越小,而且只要重复次数足够多,这个误差就能够小于任意小的正数。这也是概率论历史上第一个极限定理。

由伯努利首先研究并推广的大数定律,已经成为整个统计学的基础。随后经过几百年的发展,大数定律的理论体系被不断完善,切比雪夫、辛钦、泊松、马尔可夫等一系列大数定理被提出和证明,它们都是基于大数定律的某种数学表达。

不过,人们仍然对伯努利大数定律的哲学意义给出了很高的评价。伯努利自己在《推测术》的最后说道:如果我们能把一切事件永恒地观察下去,那么我们终将发现,世间的一切事物都受到因果律的支配,而我们注定会在种种极其杂乱的现象中认识到某种必然。

大数定律告诉我们,随机事件重复发生后,其可能性结果会趋于一种稳定的状态。它揭示了随机事件发生频率的长期稳定性,体现了偶然之中包含的一种必然。

大数定律已经广泛应用到宏观经济学、量子热力学、空气动力学等各个领域。

生活中很多地方也能看到它的身影。比如你想换部手机,于是在网上搜索手机的相关信息,突然发现一个人对某品牌型号的手机赞不绝口,这时你该怎么做?轻易地相信对方?或选择再看看别人的评价?大数定律的建议是,如果评论人数很少,这些评论就不能很好地反映商品的真实价值。

那些在网站上排名靠前、评价极高的商品、视频、资讯,可能只是因为有少数人给出了极高的分数,或是商业广告推荐。它们仅仅是个案。只有参考大部分人的评价,才更接近真实情况,数据结论才更有价值。

02 蒙特卡洛方法

今天被人们经常提及和用到的蒙特卡洛方法,其理论依据就是大数定律。

蒙特卡洛方法是由数学家冯·诺伊曼、乌拉姆等人最早发明的,也称统计模拟方法。蒙特卡洛不是人名,而是摩纳哥的一座城市,它是世界上著名的赌城。蒙特卡洛方法是一种基于概率的计算方法,它将求解问题和概率模型关联起来,不断从总体中抽取随机样本,通过模拟和计算得到近似解。此方法随着计算机技术的发展被迅速普及。

蒙特卡洛方法的原理很朴实,简单来说就是不断抽样,逐渐逼近。比如要计算圆周率π,可以先让计算机模拟一个正方形和里面的一个圆,如图1-2所示。

终于有人把大数定律讲明白了

▲图1-2 用蒙特卡洛方法计算圆周率示意图

随后让计算机不断模拟向正方形中随机地“撒点”。统计落在圆内的点的数量和所有正方形中点的数量的比值,并将它近似看成是圆形和正方形的面积的比值,即π/4。只要模拟数据点足够多,就能近似计算出圆周率π。模拟的数据越多,计算结果就越逼近真正的π值。

蒙特卡洛方法别看原理简单,其实使用起来相当灵活。它能用于很多需要“枚举”的算法,比如下围棋、走迷宫,或计算任何不规则几何图形的面积。

关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

终于有人把大数定律讲明白了

《大话机器智能:一书看透AI的底层运行逻辑》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。

终于有人把大数定律讲明白了

划重点👇

干货直达👇

  • 一图看懂华为数字化转型规划的“三阶十二步法”,值得收藏!

  • 两条曲线,看透每一款互联网产品的兴衰

  • 元宇宙产业3年、10年、20年进化趋势预判

  • 盘点互联网大厂的元宇宙布局

更多精彩👇

在公众号对话框输入以下关键词

查看更多优质内容!

读书 | 书单 | 干货 讲明白 | 神操作 | 手把手

大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 数学 | 算法 数字孪生

据统计,99%的大咖都关注了这个公众号

👇文章来源地址https://www.toymoban.com/news/detail-413045.html

到了这里,关于终于有人把大数定律讲明白了的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云计算与数字化转型的关系,终于有人讲明白了

    导读: 云计算与数字化转型是相辅相成的关系。 作者:阿里云智能-全球技术服务部 来源:大数据DT(ID:hzdashuju) 01 云计算带来的重大变化 通过数据提升效率、降低成本、进行业务创新,这个想法不是第一天出现,在大型机、小型机时代就已经出现了这种观点。那个时候,

    2024年01月25日
    浏览(34)
  • 终于有人把大数据、云计算技术架构与实践技术讲明白了

    大数据云计算正在快速发展,相关技术热点也呈现百花齐放的局面,业界各大厂商纷纷制定相应的战略,新的概念、观点和产品不断涌现。 大数据和云计算作为新一代IT技术变革的核心,必将成为广大学生、科技工作者构建自身IT核心竞争能力的战略机遇。因而作为高层次IT人才,学

    2024年04月11日
    浏览(45)
  • 【概率论】大数定律

    概要:首先介绍了切比雪夫不等式,然后介绍大数定律概念和3种大数定律及证明。 切比雪夫不等式 已知随机变量X的期望EX和方差DX,对 ,可得 的一个上界。 解释: 不论X服从什么分布,X在E(x)的 ε 邻域内取值的概率不小于 1- D x ε2 。 证明: 本质: 随机变量X偏离E(X)越大,则

    2024年02月04日
    浏览(23)
  • 大数定律&中心极限定理

    切比雪夫不等式可以对随机变量偏离期望值的概率做出估计,这是大数定律的推理基础。以下介绍一个对切比雪夫不等式的直观证明。 对于随机事件A,我们引入一个示性函数 I A = { 1 , A发生 0 , A不发生 I_A=begin{cases} 1,text{A发生} \\\\ 0,text{A不发生} end{cases} I A ​ = { 1 0 ​ , A 发

    2024年02月04日
    浏览(71)
  • 第五章——大数定律和中心极限定理

    前言:极限定理是概率论的基本理论,在理论研究和应用中起着重要的作用,其中最重要的是称为大数定律和中心极限定理的一些定理。 大数定律是叙述随机变量序列的前一些项的算术平均值在某些条件下收敛到这些项的均值的算术平均值。也就是从总体中抽出一部分样本,

    2024年02月11日
    浏览(36)
  • 切比雪夫不等式,大数定律及极限定理。

    1.定理 若随机变量X的期望EX和方差DX存在,则对任意ε 0,有    P{ |X - EX| = ε } = DX/ε 2 或 P{ |X - EX| ε } = 1 - DX/ε 2 2.解析定理 ①该定理对 X 服从什么分布不做要求,仅EX DX存在即可。 ②“| |” 由于X某次试验结果可能大于期望值,也可能小于期望值,但总在其旁边波动,所 以加

    2024年02月06日
    浏览(47)
  • 终于有人将TWI(串行通讯接口)给讲通了!

    目录 TWI的特性 数据传输格式  时钟同步  数据仲裁 功能描述  总线接口单元 频率生成单元 地址匹配单元 控制单元 传输模式 主机发送模式  主机接收模式  从机发送模式  从机接收模式 两线模式,简单快捷; 支持主机模式和从机模式; 允许发送数据和接收数据; 支持多

    2024年02月13日
    浏览(27)
  • 终于有人把VMware虚拟机三种网络模式讲清楚了!

    你们好,我的网工朋友。 前段时间 VMware 更新了,你用上最新版了吗? 有几个网工朋友留言说,在操作中遇到过各种各样的问题。比如说由于公司服务器重启导致出现下面的问题: 在Xshell里连接虚拟机映射时连接失败;能够连接上虚拟机的映射地址,但git pull时报错无法解析

    2024年02月06日
    浏览(28)
  • 用了这么多年Rust终于搞明白了内存分布!

    Rust作为一门学习曲线十分陡峭的语言,掌握其核心基础数据结构的内存分布对学习Rust会有很大的帮助,即使对于已经熟悉Rust的同学,深入数据结构分布也能帮助到调优Rust程序。 接下来,我会由浅入深仔细介绍Rust的各个数据结构在内存中的分布情况,帮助大家学习Rust。 先

    2024年02月02日
    浏览(37)
  • Spring使用三级缓存解决循环依赖?终于完全弄明白了

    文章阅读前推荐 推荐先去看看源码,源码很短,但是对于我们在脑子里构建一个完整思路很重要。看起来非常简单,只需要双击shift,全局查找文件:AbstractAutowireCapableBeanFactory,找到550行左右的doCreateBean方法,重点看一下580行到600行这20行代码就行,包含了三级缓存、属性注

    2024年03月25日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包