内容提要
第一讲: 随机事件与概率
通过生活中的例子, 本讲介绍了与随机事件和概率的基本概念.
第二讲: 随机变量
随机变量是对随机事件的抽象描述, 本讲介绍了离散型随机变量及其对应的概率质量函数, 以及连续型随机变量及其对应的概率密度函数.
第三讲: 期望与方差
期望和方差是描述一个随机变量的重要指标, 本讲介绍了期望和方差的定义和计算.
第四讲: 条件概率
本讲通过具体的例子介绍了条件概率, 乘法准则和加法准则的基本概念, 稍微提了一下统计推断和贝叶斯公式. 这部分内容是机器学习和统计学中的核心内容.
Ol
生活中有各种各样我们无法准确预知结果的事件, 比如抛硬币, 掷骰子和明天的天气. 数学上我们用概率 (probability) 来描述这类随机事件 (random event).
对于一个随机事件 (如抛硬币), 该事件所有可能的结果称为样本空间, 样本空间是一个集合, 通常记作
我们再来看两个例子:
例
1.1
掷骰子
样本空间
随机事件
掷出的数字分别为: {1}, {2}, {3}, {4}, {5}, {6}
掷出奇数: {1, 3, 5}
掷出小数: {1, 2, 3}
掷出小数或奇数: {1, 2, 3, 5}
...
概率
Gn
例
1.2
明天的天气
样本空间
随机事件
明天天晴
明天多云
明天下雨
明天不下雨={晴,多云}
...
概率
Gn
Tip
概率可以看成是从随机事件到一个数之间的映射, 这个映射需要满足下面的一些条件, 这些条件都很容易从直观上理解:
非负性
, 即
归一性
, 即
对抛硬币有
例1.1
对掷骰子有
例1.2
对明天的天气有:
可加性
, 对于互斥的事件
例1.1
中, 骰子抛出 {1} 或 {3} 是互斥的, 因此
例1.1
中, 骰子抛出奇数或小数不是Rd互斥的, 因此
概率是个比较抽象的数学概念, 下面我们通过两个具象的方式来理解概率的意义. 首先是概率的计数模型, 一个形象的例子是抽签:
Tip
概率的计数模型给出了计算概率的一种方法: 当样本空间
我们来看两个通过计数模型计算概率的例子:
例
1.3
: 抛2次硬币得到2次正面朝上的概率抛两次硬币一共带来
种可能的结果, 且出现每一种的可能性都相等:
正-正
正-背
背-正
背-背
我们所关心的2次都正面朝上的结果只有第一种情况, 因此
, 从而 . Gn
例
1.4
: 掷2次骰子的数字加起来等于8的概率掷2次骰子一共带来
种可能的结果, 且出现每一种的可能性都相等. 在这36种结果种, 2次数字加起来恰好等于8的情形包括:
2+6
3+5
4+4
5+3
6+2
一共有
种情形. 因此
思考
: 请你算一算掷2次骰子的数字加起来等于2的概率是多少呢?Gn
接下来我们借助几何的观点将概率具象化. 我们先来看两个例子:
例
1.5
: 幸运大转盘获一等奖的概率
Gn
例
1.6
: 陨石砸到居民区的概率
![]()
Gn
Tip
在上面的例子中, 我们用一个几何度量(长度、面积 、体积)来表示事件发生的可能性, 此时我们感兴趣的事件
Note
上述公式成立的条件是长度, 面积或体积相等的任意区域都等可能发生, 如果我们把几何区域
变量
先来看几个离散型随机变量的例子.
例
2.1
: 用随机变量来表示抛硬币
Gn
例
2.2
: 用随机变量来表示掷骰子
, Gn
例
2.3
: 用随机变量来表示天气
Gn
例
2.4
: 用随机变量来表示盘子里苹果的数目对非负整数
:
这个分布也叫
泊松分布
.Gn
Tip
一个离散型随机变量的性质可以通过概率质量函数 (Probability Mass Function, PMF) 来刻画, 记作 2.1
, 例2.2
和 例2.3
中那样直接一一列出, 也可以像 例2.4
那样用通项表示.
Tip
概率质量函数
非负性
:
归一性
:
非负性
条件表明概率必须是一个非负数, 归一性
条件表明样本空间的总概率等于1 (即
Warning
验证一下上面几个例子中的 归一性
条件.
提示: 例2.4
的归一性条件需要用到结论:
我们再来看几个连续型随机变量的例子.
例
2.5
: 用随机变量来表示灯泡的寿命设
等于某种型号灯泡的使用寿命(单位为天), 则
. Gn
例
2.6
: 用随机变量来表示测量误差设
表示珠穆朗玛峰的真实高度, 表示一次测量得到的珠峰高度, 令 为测量误差(单位为米), 则
. Gn
连续型随机变量可以通过概率密度函数(Probability Density Function, PDF) 来描述, 通常记作
例2.5中的概率密度函数
在 例
2.5
中, 灯泡的寿命可以用指数分布 (exponential distribution)来描述, 指数分布对应的概率密度函数为其对应的函数图像如下图所示.
Gn
例2.6中的概率密度函数
在 例
2.6
中, 测量误差可以用峰值位于0点处的高斯分布 (Gauss distribution) 来描述, 其对应的概率密度函数为高斯分布也叫正态分布 (normal distribution), 其对应的函数图像如下图所示.
Gn
Tip
跟离散型随机变量的概率质量函数类似, 概率密度函数
非负性
:
归一性
:
这两个条件的意义跟概率质量函数所满足的非负性和归一性条件是一致的.
Note
注意
Warning
物理上的 质量Rd 和 密度Rd 有什么不同?
为什么概率质量必须要小于1, 而概率密度的取值则可以大于1?
我们可以用映射的观点来理解随机变量及其概率质量函数或概率密度函数:
随机变量
随机变量本质上是一个映射, 这个映射把样本空间Rd中的随机事件映射到一个数Rd
, 如
随机事件“抛硬币背面朝上”
随机事件"灯泡的寿命为165.2小时"
相比随机事件而言, 随机变量的描述方式更具准确性, 简单性和通用性.
Aq
概率质量函数和概率密度函数
概率质量函数和概率密度函数本质上也是映射, 而且是从数到数的映射, 即函数. 其中:
概率质量函数把离散型随机变量的值 (例如整数) 映射到
区间内, 其意义代表对应事件发生的概率Rd. 概率密度函数把随机变量的取值范围 (例如实数) 映射到非负实数
上, 的意义代表在 处的概率密度Rd. Aq
Tip
一般来说, 从样本空间到概率相当于2重映射, 如下图所示, 第一重映射是将样本空间映射到数, 第二重映射是从数到概率.
上一讲中我们介绍的概率质量分布和概率密度分布可以看作是对随机变量的完整细致的描述, 期望和方差是对概率质量分布的一个整体宏观上的描述. 我们举拿下面的员工工资单做一个类比.
例
3.1
你更喜欢哪份工作?有两份工作的月收入分别是
和 , 2023年的工资单如右边表格所示. 这份工资单记录了每个月的收入, 但很多时候我们并不关心这么详细的信息, 比如说我们只想知道谁的收入更高, 或者谁的收入更稳定.
谁的收入更高?
我们可以计算每个月的平均收入, 也就是把所有月份的收入加起来再除以月的数目, 这样的月平均收入能告诉我们每个月大致能有多少收入, 也就是每个月可以期望获得的收入. 从右表算出来
和 的期望分别是 34,396 和 26,058.
谁的收入更稳定?
方法一
计算最大月收入与最小月收入之间的差, 表示月收入变化的幅度. 但这个方法实际上只计算了最大和最小两个月的收入, 过于极端, 不能很好的反映收入的整体情况.
方法二
计算每个月收入与平均月收入的差, 然后把差额平方求和再除以月份数. 这样算出来的方差综合了所有月份的数据, 直观上要比方法一
更合理. 从右表算出来和 的方差分别是 723,910,000 和 2,876,000. 所以你更喜欢那份工作呢?
X 和 Y 两份工作的工资单
2023.01 28,000 25,400 2023.02 37,640 26,200 2023.03 21,000 25,750 2023.04 8,070 28,160 2023.05 27,000 25,120 2023.06 39,780 23,090 2023.07 78,230 26,320 2023.08 4,350 27,340 2023.09 23,370 25,880 2023.10 98,640 23,170 2023.11 9,890 28, 900 2023.12 36,780 27,360
基于上述动机, 我们引入概率质量分布期望(Expectation)和方差的(Variance)概念.
Tip
随机变量
离散型随机变量的期望
设离散型随机变量
的概率质量函数为 , 则 的期望等于 Aq
连续型随机变量的期望
设连续型随机变量
的概率密度函数 , 则 的期望等于 Aq
Tip
期望具有某种平均的含义, 下面来看几个计算期望的例子.
例2.2中随机变量的期望
例
2.2
中离散型随机变量的概率质量函数为 , . 的期望等于 Warning
也就是说, 掷很多次骰子, 每次的点数可大可小, 但平均下来每一次得到的点数大约在3.5附近.
Gn
例2.6中随机变量的期望
例
2.6
中连续型随机变量的概率密度函数为 注意到
是一个偶函数, 它的值关于 轴是左右对称的, 微积分中的一个结论是: 偶函数的积分一定为0, 因此 的期望 . Warning
也就是说, 做很多次测量, 误差可正可负, 但这些误差平均起来大约等于0.
Gn
Tip
随机变量
离散型随机变量的方差
设离散型随机变量
的概率质量函数为 , 则 的方差等于 Aq
连续型随机变量的方差
设连续型随机变量
的概率密度函数 , 则 的方差等于 Aq
Tip
方差描述的是随机变量取值的波动大小, 即值的分散程度. 例如在 例3.1
中, 第一份工作
例2.2中随机变量的方差
例
2.2
中离散型随机变量的概率质量函数为 , . 的期望等于3.5, 的方差为, Gn
例2.6中随机变量的方差
例
2.6
中连续型随机变量的概率密度函数为
的期望为0, 方差为 . 从图 4
中也可以看出, 方差越大, 的函数曲线也越宽, 表示 的值分布得更分散. Gn
前面几讲我们讨论的都是单个随机变量, 实际问题中我们经常需要同时考虑两个或多个随机事件, 这一讲我们将把两个随机变量放在一起分析.
例
4.1
: 小红帽与大灰狼小红帽在去外婆家的途中遇到了一个岔路口, 小红帽会从两条岔路中随机的挑一条路, 我们用随机变量
来表示小红帽选的岔路:
表示小红帽选择了左边的岔路;
表示小红帽选择了右边的岔路. 每条岔路小红帽都有一定概率会碰到大灰狼, 我们用随机变量
来表示小红帽是否会碰到大灰狼:
表示小红帽没碰到大灰狼;
表示小红帽碰到了大灰狼. 因为两条路看起来都一样, 所以小红帽选左边岔路或右边岔路的概率是相等的, 都等于0.5Pr. 然而小红帽所不知道的是, 左边的岔路碰到大灰狼的概率是0.6Pr, 右边的岔路碰到大灰狼的概率是0.2Pr. 条件概率能够告诉我们小红帽的命运如何.
Aq
Important
对两个随机事件
Note
在例4.1
中:
如果Rd小红帽选择左边岔路那么她碰到Rd大灰狼的概率
如果Rd小红帽选择左边岔路那么她没碰到Rd大灰狼的概率
如果Rd小红帽选择右边岔路那么她碰到Rd大灰狼的概率
如果Rd小红帽选择右边岔路那么她没碰到Rd大灰狼的概率
Warning
对于给定的 非负性
和归一性
. 非负性
很好理解, 对于归一性
, 我们举例说明:
如果Rd小红帽选择左边岔路, 那么她要么碰到大灰狼, 要么就没碰到大灰狼, 因此
如果Rd小红帽选择右边岔路, 她也是要么碰到大灰狼, 要么就没碰到大灰狼, 因此
Tip
对两个随机事件
Warning
注意这里
Tip
下面的等式称为**乘法准则:
事件A和事件B都发生的概率
= 事件A发生
且 事件A发生的条件下事件B发生
, 即
事件A和事件B都发生的概率
= 事件B发生
且 事件B发生的条件下事件A发生
, 即
Note
在例4.1
中:
小红帽选择左边岔路
且碰到大灰狼
的概率
小红帽选择左边岔路
且没碰到大灰狼
的概率
小红帽选择右边岔路
且碰到大灰狼
的概率
小红帽选择右边岔路
且没碰到大灰狼
的概率
上面的关系可以整理成下面的表格:
小红帽与大灰狼
0.2 0.3 0.4 0.1
联合概率质量函数
如果我们把样本空间
取成所有的 和 可能的取值组合, 那么 便是 上的一个概率质量函数, 我们称其为 和 的联合概率质量函数, 满足:
非负性
:.
归一性
:. 例如在表
2
中我们有:.
Warning
在例4.1
中, 我们不关心小红帽到底走的那条路, 而只想知道整个故事中小红帽碰到狼Rd或没碰到狼Rd的概率.
换句话说, 如何计算
Tip
如果已知
Note
在例4.1
中, 运用加法准则:
也就是说: 小红帽碰到狼的概率
=小红帽走左边
走左边碰到狼
+ 小红帽走右边
走右边碰到狼
同样是说: 小红帽没碰到狼的概率
=小红帽走左边
走左边没碰到狼
+ 小红帽走右边
走右边没碰到狼
Tip
通过这个例子可以看到, 为了计算
Warning
如果我们问, 小红帽走那条路
跟她碰没碰到大灰狼
有关系吗? 直观上感觉应该是有的, 选左边的岔路应该更危险. 那么在数学上有没有方法来判断事件
Important
对两个随机事件
Note
在例4.1
中:
小红帽选左边岔路
与 没碰到大灰狼
不是条件独立的, 也可以说二者是条件相关的.
Tip
随机事件
根据乘法准则:
根据条件独立:
从而
Warning
什么时候例
4.1
中的小红帽选哪条岔路
与碰到大灰狼
是Rd条件独立的? 这也就是说, 不管小红帽走哪条岔路, 碰到狼的概率都是一样的. 所以如果我们令条件概率, 对任意的常数 , 那么 小红帽选哪条岔路
与碰到大灰狼
是Rd条件独立的. 此时的概率质量函数如表2所示.
小红帽与大灰狼 (条件独立版本)
$a/2 $a/2
Warning
最后我们来看一个来源于实际的问题: 如果告诉你小红帽碰到了大灰狼 (4.1
来讨论如何求解这类统计推断问题.
Tip
我们首先给出一个公式:
这个公式的推导很简单, 根据乘法准则我们有
对上式中的第二个等式两边同时除以
Note
下面我们使用公式
也就是说, 如果我们知道小红帽碰到了狼, 这条额外的信息能够帮助我们推出小红帽更可能走的哪条路: 虽然无论小红帽走的是哪条路, 她都有可能碰到狼, 但是如果非要猜小红帽走的是哪条路的话, 我们会以0.75的概率猜左边的路, 以0.25的概率猜右边的路. 这就是概率的魅力.
Important
公式