内容提要

第一讲: 随机事件与概率

通过生活中的例子, 本讲介绍了与随机事件和概率的基本概念.

 

第二讲: 随机变量

随机变量是对随机事件的抽象描述, 本讲介绍了离散型随机变量及其对应的概率质量函数, 以及连续型随机变量及其对应的概率密度函数.

 

第三讲: 期望与方差

期望和方差是描述一个随机变量的重要指标, 本讲介绍了期望和方差的定义和计算.

 

第四讲: 条件概率

本讲通过具体的例子介绍了条件概率, 乘法准则和加法准则的基本概念, 稍微提了一下统计推断和贝叶斯公式. 这部分内容是机器学习和统计学中的核心内容.

Ol

随机事件与概率

生活中有各种各样我们无法准确预知结果的事件, 比如抛硬币, 掷骰子和明天的天气. 数学上我们用概率 (probability) 来描述这类随机事件 (random event).

概率的定义

对于一个随机事件 (如抛硬币), 该事件所有可能的结果称为样本空间, 样本空间是一个集合, 通常记作 Ω (如对抛硬币来说 Ω={,}). Ω 中的各种结果或结果的组合统称为随机事件, 对某个随机事件, 我们用一个 [0,1] 内的数字 P 来表示该随机事件发生的可能性, 并称其为概率 (如对抛硬币来说 P({0})=P({1})=0.5).

我们再来看两个例子:

1.1 掷骰子

样本空间

  • Ω={1,2,3,4,5,6}

随机事件

  • 掷出的数字分别为: {1}, {2}, {3}, {4}, {5}, {6}

  • 掷出奇数: {1, 3, 5}

  • 掷出小数: {1, 2, 3}

  • 掷出小数或奇数: {1, 2, 3, 5}

  • ...

概率

  • P({1})=P({2})=P({3})=P({4})=P({5})=P({6})=1/6

  • P()=P({1})+P({3})+P({5})=0.5

  • P()=P({1})+P({2})+P({3})=0.5

  • P()=P({1})+P({2})+P({3})+P({5})=2/3

Gn

1.2 明天的天气

样本空间

  • Ω={,,}

随机事件

  • 明天天晴

  • 明天多云

  • 明天下雨

  • 明天不下雨={晴,多云}

  • ...

概率

  • P()=0.6

  • P()=0.3

  • P()=0.1

  • P()=P()+P()=0.9

Gn

Tip

概率可以看成是从随机事件到一个数之间的映射, 这个映射需要满足下面的一些条件, 这些条件都很容易从直观上理解:

  1. 非负性, 即 P0. 当一个事件不可能发生时, 它所对应的概率为0.

  2. 归一性, 即 P(Ω)=1, 它表示无论随机事件的结果如何, 一定会包含在样本空间中, 必居其一. 如:

  • 对抛硬币有 P(Ω)=P(0)+P(1)=1.

  • 1.1 对掷骰子有 P(Ω)=P(1)+P(2)+P(3)+P(4)+P(5)+P(6)=1.

  • 1.2 对明天的天气有: P(Ω)=P()+P()+P()=1.

  1. 可加性, 对于互斥的事件 A,BΩ, P(AB)=P(A)+P(B). 例如:

  • 1.1中, 骰子抛出 {1} 或 {3} 是互斥的, 因此 P({1,3})=P({1})+P({3})=1/3.

  • 1.1中, 骰子抛出奇数或小数不是Rd互斥的, 因此 P()P()+P().

概率的计数模型

概率是个比较抽象的数学概念, 下面我们通过两个具象的方式来理解概率的意义. 首先是概率的计数模型, 一个形象的例子是抽签: N 个签中有 M 个上上签, 问抽到上上签的概率是多少?相信很多人一看就知道, P()=M/N, 不过需要注意的是, 上述结论的前提是每个事件(抽到 N 个签中的任何一个)的可能性都相等.

Tip
概率的计数模型给出了计算概率的一种方法: 当样本空间 Ω 由等可能的 N 个单位事件构成时,

P==MN

我们来看两个通过计数模型计算概率的例子:

1.3: 抛2次硬币得到2次正面朝上的概率

抛两次硬币一共带来 N=4 种可能的结果, 且出现每一种的可能性都相等:

  1. 正-正

  2. 正-背

  3. 背-正

  4. 背-背

我们所关心的2次都正面朝上的结果只有第一种情况, 因此 M=1, 从而 P(22)=1/4.

Gn

1.4: 掷2次骰子的数字加起来等于8的概率

掷2次骰子一共带来 N=6×6=36 种可能的结果, 且出现每一种的可能性都相等. 在这36种结果种, 2次数字加起来恰好等于8的情形包括:

  1. 2+6

  2. 3+5

  3. 4+4

  4. 5+3

  5. 6+2

一共有 M=5 种情形. 因此 P(28)=5/36

思考: 请你算一算掷2次骰子的数字加起来等于2的概率是多少呢?

Gn

概率的几何模型

接下来我们借助几何的观点将概率具象化. 我们先来看两个例子:


1.5: 幸运大转盘获一等奖的概率

幸运大转盘的中奖概率

P()=

Gn

1.6: 陨石砸到居民区的概率

陨石砸到居民区的概率

P()=

Gn

Tip
在上面的例子中, 我们用一个几何度量(长度、面积 、体积)来表示事件发生的可能性, 此时我们感兴趣的事件 A 所发生的概率就等于 A 的几何度量在样本空间 Ω 的几何度量中的占比, 即

P(A)=A,Ω,

Note
上述公式成立的条件是长度, 面积或体积相等的任意区域都等可能发生, 如果我们把几何区域 Ω 划分成许多大小相等的小区间, 并把每一个小区间看成是一个单位事件, 则概率的几何模型就跟概率的计数模型完全等价了. 因此, 概率的计数模型和几何模型本质上是相同的, 只不过前者更适合描述离散的随机事件, 而后者更适合描述连续的随机事件.

 

 

随机变量

变量 X 可以表示什么?X=5 可以表示盘子里有5个苹果, X=9.99 可以表示一千克苹果的价格. 既然我们可以用变量 X 来表示某种确定性的量, 很自然的我们也可以用 X 来表示随机的量, 用来表示随机事件的变量称为随机变量 (random variable). 数学上我们一般用大写字母如 X,Y,S,T 来表示随机变量. 用随机变量来表示随机事件很方便也很自然, 有些事件的结果是离散的, 比如盘子里苹果的数目一定是个整数, 而有些事件的结果是连续的, 比如苹果的价格可以是任意实数. 用来表示离散事件的随机变量称为离散型随机变量, 用来表示连续事件的随机变量称为连续性随机变量.

离散型随机变量

先来看几个离散型随机变量的例子.


2.1: 用随机变量来表示抛硬币
  • P()=0.5 P(X=1)=0.5

  • P()=0.5 P(X=0)=0.5

Gn

2.2: 用随机变量来表示掷骰子
  • P(k)=1/6 P(X=k)=1/6, k=1,2,3,4,5,6.

Gn


2.3: 用随机变量来表示天气
  • P()=0.6 P(X=1)=0.6

  • P()=0.3 P(X=2)=0.3

  • P()=0.1 P(X=3)=0.1

Gn

2.4: 用随机变量来表示盘子里苹果的数目

对非负整数 k0:

P(k)=λkeλk!P(X=k)=λkeλk!

这个分布也叫泊松分布.

Gn

Tip

一个离散型随机变量的性质可以通过概率质量函数 (Probability Mass Function, PMF) 来刻画, 记作 PX(k)=P(X=k), 表示随机变量 X 取值为 k 的概率. PX(k) 的取值可以像 2.1, 2.22.3 中那样直接一一列出, 也可以像 2.4 那样用通项表示.

Tip

概率质量函数 P(X) 需要满足两个条件:

  1. 非负性: P(X)0.

  2. 归一性: kP(X=k)=1.

非负性条件表明概率必须是一个非负数, 归一性条件表明样本空间的总概率等于1 (即 P(Ω)=1).

Warning

验证一下上面几个例子中的 PX(k) 是否满足归一性条件.

提示: 2.4 的归一性条件需要用到结论: ex=1+12++xkk!+.

连续型随机变量

我们再来看几个连续型随机变量的例子.


2.5: 用随机变量来表示灯泡的寿命

X 等于某种型号灯泡的使用寿命(单位为天), 则

  • P()=P(X<30).

Gn

2.6: 用随机变量来表示测量误差

L 表示珠穆朗玛峰的真实高度, L 表示一次测量得到的珠峰高度, 令 X=LL 为测量误差(单位为米), 则

  • P(±1)=P(1<X<1).

Gn

连续型随机变量可以通过概率密度函数(Probability Density Function, PDF) 来描述, 通常记作 pX(x) 或简记作 p(x).


例2.5中的概率密度函数

2.5 中, 灯泡的寿命可以用指数分布 (exponential distribution)来描述, 指数分布对应的概率密度函数为

p(x)=λeλx,   λ>0,   x0

其对应的函数图像如下图所示.

指数分布的图像

Gn

例2.6中的概率密度函数

2.6 中, 测量误差可以用峰值位于0点处的高斯分布 (Gauss distribution) 来描述, 其对应的概率密度函数为

p(x)=12πσex2σ2,   σ>0

高斯分布也叫正态分布 (normal distribution), 其对应的函数图像如下图所示.

高斯分布的图像

Gn

Tip
跟离散型随机变量的概率质量函数类似, 概率密度函数 p(x) 也需要满足两个条件:

  1. 非负性: p(x)0.

  2. 归一性: p(x)x 的积分等于 1(没有学过微积分的同学只需要把积分理解成求和就行了).

这两个条件的意义跟概率质量函数所满足的非负性和归一性条件是一致的.

Note

注意 p(x) 并不表示随机变量 X 取值 x 的概率 P(X=x). p(x) 表示的是随机变量在 x 附近的概率的密度. 例如, 当我们要求 X 落在一个小区间 (x,x+Δx) 内的概率 P(xXx+Δx) 的时候, 我们要把概率密度 p(x) 乘以区间长度 Δx 才能得到概率质量(质量 = 密度 × 长度), 即 P(xXx+Δx)p(x)Δx.

Warning

  • 物理上的 质量Rd密度Rd 有什么不同?

  • 为什么概率质量必须要小于1, 而概率密度的取值则可以大于1?

从映射角度来理解随机变量

我们可以用映射的观点来理解随机变量及其概率质量函数或概率密度函数:


随机变量

随机变量本质上是一个映射, 这个映射把样本空间Rd中的随机事件映射到一个Rd X, 如

  • 随机事件“抛硬币背面朝上” X=0

  • 随机事件"灯泡的寿命为165.2小时" X=165.2

相比随机事件而言, 随机变量的描述方式更具准确性, 简单性和通用性.

Aq

概率质量函数和概率密度函数

概率质量函数和概率密度函数本质上也是映射, 而且是从数到数的映射, 即函数. 其中:

  • 概率质量函数把离散型随机变量的值 (例如整数) 映射到 [0,1] 区间内, 其意义代表对应事件发生的概率Rd.

  • 概率密度函数把随机变量的取值范围 (例如实数) 映射到非负实数 [0,+) 上, p(x) 的意义代表在 x 处的概率密度Rd.

Aq

Tip

一般来说, 从样本空间到概率相当于2重映射, 如下图所示, 第一重映射是将样本空间映射到数, 第二重映射是从数到概率.

映射与概率

期望与方差

上一讲中我们介绍的概率质量分布和概率密度分布可以看作是对随机变量的完整细致的描述, 期望方差是对概率质量分布的一个整体宏观上的描述. 我们举拿下面的员工工资单做一个类比.

3.1 你更喜欢哪份工作?

有两份工作的月收入分别是 XY, 2023年的工资单如右边表格所示. 这份工资单记录了每个月的收入, 但很多时候我们并不关心这么详细的信息, 比如说我们只想知道谁的收入更高, 或者谁的收入更稳定.

 

谁的收入更高?

我们可以计算每个月的平均收入, 也就是把所有月份的收入加起来再除以月的数目, 这样的月平均收入能告诉我们每个月大致能有多少收入, 也就是每个月可以期望获得的收入. 从右表算出来 XY 的期望分别是 34,396 和 26,058.

 

谁的收入更稳定?

  • 方法一 计算最大月收入与最小月收入之间的差, 表示月收入变化的幅度. 但这个方法实际上只计算了最大和最小两个月的收入, 过于极端, 不能很好的反映收入的整体情况.

  • 方法二 计算每个月收入与平均月收入的差, 然后把差额平方求和再除以月份数. 这样算出来的方差综合了所有月份的数据, 直观上要比方法一更合理. 从右表算出来 XY 的方差分别是 723,910,000 和 2,876,000.

所以你更喜欢那份工作呢?

X 和 Y 两份工作的工资单

 XY
2023.0128,00025,400
2023.0237,64026,200
2023.0321,00025,750
2023.048,07028,160
2023.0527,00025,120
2023.0639,78023,090
2023.0778,23026,320
2023.084,35027,340
2023.0923,37025,880
2023.1098,64023,170
2023.119,89028, 900
2023.1236,78027,360

基于上述动机, 我们引入概率质量分布期望(Expectation)和方差的(Variance)概念.

期望

Tip
随机变量 X 的期望用 E(X) 表示, 其数学定义如下.


离散型随机变量的期望

设离散型随机变量 X 的概率质量函数为 PX(k), 则 X 的期望等于

E(X)=kkPX(k)

Aq

连续型随机变量的期望

设连续型随机变量 X 的概率密度函数 p(x), 则 X 的期望等于

E(X)=xxp(x)dx

Aq

Tip

期望具有某种平均的含义, 下面来看几个计算期望的例子.


例2.2中随机变量的期望

2.2中离散型随机变量 X 的概率质量函数为 P(X=k)=1/6, k=1,2,,6. X 的期望等于

E(X)=k=1616k=3.5.

Warning

也就是说, 掷很多次骰子, 每次的点数可大可小, 但平均下来每一次得到的点数大约在3.5附近.

Gn

例2.6中随机变量的期望

2.6中连续型随机变量 X 的概率密度函数为

p(x)=12πσex2σ2,   σ>0

注意到 p(x) 是一个偶函数, 它的值关于 y 轴是左右对称的, 微积分中的一个结论是: 偶函数的积分一定为0, 因此 X 的期望 E(X)=0.

Warning

也就是说, 做很多次测量, 误差可正可负, 但这些误差平均起来大约等于0.

Gn

方差

Tip

随机变量 X 的方差用 Var(X) 表示, 其数学定义如下.


离散型随机变量的方差

设离散型随机变量 X 的概率质量函数为 PX(k), 则 X 的方差等于

Var(X)=k(kE(X))2PX(k)

Aq

连续型随机变量的方差

设连续型随机变量 X 的概率密度函数 p(x), 则 X 的方差等于

Var(X)=x(xE(X))2p(x)dx

Aq

Tip

方差描述的是随机变量取值的波动大小, 即值的分散程度. 例如在 3.1 中, 第一份工作 X 的月收入有时候特别大, 有时候特别小, 这样 Var(X) 就会很大; 而第二份工作 Y 的月收入则相对集中在其平均值附近, 这样 Var(Y) 就会比较小. 下面再来看几个计算方差的例子.


例2.2中随机变量的方差

2.2中离散型随机变量 X 的概率质量函数为 P(X=k)=1/6, k=1,2,,6. X 的期望等于3.5, X 的方差为,

Var(X)=k=1616(k3.5)22.9167.

Gn

例2.6中随机变量的方差

2.6中连续型随机变量 X 的概率密度函数为

p(x)=12πσex2σ2,   σ>0

X 的期望为0, 方差为 σ2. 从4中也可以看出, 方差 σ2 越大, p(x) 的函数曲线也越宽, 表示 X 的值分布得更分散.

Gn

条件概率

前面几讲我们讨论的都是单个随机变量, 实际问题中我们经常需要同时考虑两个或多个随机事件, 这一讲我们将把两个随机变量放在一起分析.

4.1: 小红帽与大灰狼

小红帽在去外婆家的途中遇到了一个岔路口, 小红帽会从两条岔路中随机的挑一条路, 我们用随机变量 X 来表示小红帽选的岔路:

  • X=0 表示小红帽选择了左边的岔路;

  • X=1 表示小红帽选择了右边的岔路.

每条岔路小红帽都有一定概率会碰到大灰狼, 我们用随机变量 Y 来表示小红帽是否会碰到大灰狼:

  • Y=0 表示小红帽没碰到大灰狼;

  • Y=1 表示小红帽碰到了大灰狼.

因为两条路看起来都一样, 所以小红帽选左边岔路或右边岔路的概率是相等的, 都等于0.5Pr. 然而小红帽所不知道的是, 左边的岔路碰到大灰狼的概率是0.6Pr, 右边的岔路碰到大灰狼的概率是0.2Pr. 条件概率能够告诉我们小红帽的命运如何.

Aq

Important

对两个随机事件 AB, 我们把事件B发生的条件下事件A发生的概率称为条件概率, 记作 P(A|B).

Note

4.1中:

  • 如果Rd小红帽选择左边岔路那么她碰到Rd大灰狼的概率 =P(Y=1|X=0)=0.6.

  • 如果Rd小红帽选择左边岔路那么她没碰到Rd大灰狼的概率 =P(Y=0|X=0)=10.6=0.4.

  • 如果Rd小红帽选择右边岔路那么她碰到Rd大灰狼的概率 =𝑃(𝑌=1|𝑋=1)=0.2.

  • 如果Rd小红帽选择右边岔路那么她没碰到Rd大灰狼的概率 =𝑃(𝑌=0|𝑋=1)=10.2=0.8.

Warning

对于给定的 X, 可以把条件概率 P(Y|X) 看成是关于随机变量 Y概率质量函数, 因此也满足非负性归一性. 非负性很好理解, 对于归一性, 我们举例说明:

  • 如果Rd小红帽选择左边岔路, 那么她要么碰到大灰狼, 要么就没碰到大灰狼, 因此 P(Y=1|X=0)+P(Y=0|x=0)=1.

  • 如果Rd小红帽选择右边岔路, 她也是要么碰到大灰狼, 要么就没碰到大灰狼, 因此 P(Y=1|X=1)+P(Y=0|x=1)=1.

乘法准则

Tip

对两个随机事件 AB, 我们把事件A和事件B都发生的概率记作 P(A,B).

Warning

注意这里 A, B 可以随意交换顺序, 即 P(A,B)=P(B,A).

Tip

下面的等式称为**乘法准则:

  • 事件A和事件B都发生的概率 = 事件A发生事件A发生的条件下事件B发生, 即

    P(A,B)=P(A)P(B|A)
  • 事件A和事件B都发生的概率 = 事件B发生事件B发生的条件下事件A发生, 即

    P(A,B)=P(B)P(A|B)

Note

4.1中:

  • 小红帽选择左边岔路碰到大灰狼的概率 =P(X=0,Y=1)=P(X=0)P(Y=1|X=0)=0.5×0.6=0.3.

  • 小红帽选择左边岔路没碰到大灰狼的概率 =P(X=0,Y=0)=P(X=0)P(Y=0|X=0)=0.5×0.4=0.2.

  • 小红帽选择右边岔路碰到大灰狼的概率 =P(X=1,Y=1)=P(X=1)P(Y=1|X=1)=0.5×0.2=0.1.

  • 小红帽选择右边岔路没碰到大灰狼的概率 =P(X=1,Y=0)=P(X=1)P(Y=0|X=1)=0.5×0.8=0.4.


上面的关系可以整理成下面的表格:

小红帽与大灰狼

 Y=0Y=1
X=00.20.3
X=10.40.1

联合概率质量函数

如果我们把样本空间 Ω 取成所有的 XY 可能的取值组合, 那么 P(X,Y) 便是 Ω 上的一个概率质量函数, 我们称其为 XY联合概率质量函数, P(X,Y)满足:

  1. 非负性: P(X,Y)0.

  2. 归一性: x,yP(X=x,Y=y)=1.

    例如在2中我们有: 0.2+0.3+0.4+0.1=1.

加法准则

Warning

4.1中, 我们不关心小红帽到底走的那条路, 而只想知道整个故事中小红帽碰到狼Rd没碰到狼Rd的概率.

换句话说, 如何计算 Y 的概率质量函数 P(Y)?Gn

Tip

如果已知 P(X) 和条件概率 P(Y|X), 则可以通过下面的加法准则计算 P(Y):

P(Y)=XP(X)P(Y|X).

Note

4.1中, 运用加法准则:

  • P(Y=1)=P(X=0)P(Y=1|X=0)+P(X=1)P(Y=1|X=1)=0.5×0.6+0.5×0.2=0.4.

    也就是说: 小红帽碰到狼的概率=小红帽走左边×走左边碰到狼 + 小红帽走右边×走右边碰到狼

  • P(Y=0)=P(X=0)P(Y=0|X=0)+P(X=1)P(Y=0|X=1)=0.5×0.4+0.5×0.8=0.6.

    同样是说: 小红帽没碰到狼的概率=小红帽走左边×走左边没碰到狼 + 小红帽走右边×走右边没碰到狼

    Tip

    通过这个例子可以看到, 为了计算 P(Y=k), 加法准则把所有Rd的可能路径都考虑了一遍: 把每条路上的 P(Y=k) 乘以选取该路径的概率, 然后求和, 即得 P(Y=k).

 

条件独立性

Warning

如果我们问, 小红帽走那条路跟她碰没碰到大灰狼有关系吗? 直观上感觉应该是有的, 选左边的岔路应该更危险. 那么在数学上有没有方法来判断事件 A 和事件 B 在概率上是有关的还是独立的呢?

Important

对两个随机事件 AB, 如果 P(A,B)=P(A)P(B), 则称 AB 条件独立.

Note

4.1中:

  • P(Y=0,X=0)=0.2; P(Y=0)=0.6; P(X=0)=0.5. 从而 P(Y=0,X=0)P(Y=0)P(X=0), 因此事件 小红帽选左边岔路没碰到大灰狼 不是条件独立的, 也可以说二者是条件相关的.

Tip

随机事件 AB 条件独立的另一个等价表述是 P(A|B)=P(A). 这是因为

  • 根据乘法准则: P(A,B)=P(B)P(A|B)

  • 根据条件独立: P(A,B)=P(B)P(A)

从而 P(A|B)=P(A). 直观上这个结论很好理解, 如果 A,B 条件独立, 那么条件概率 P(A|B) 不会受到 B 的影响, 无论 B 如何取值, P(A|B) 总是 P(A).

Warning


什么时候4.1中的 小红帽选哪条岔路碰到大灰狼 Rd条件独立的? 这也就是说, 不管小红帽走哪条岔路, 碰到狼的概率都是一样的. 所以如果我们令条件概率 P(Y=1|X=0)=P(Y=1|X=1)=P(Y=1)=a, 对任意的常数 0a1, 那么小红帽选哪条岔路碰到大灰狼 Rd条件独立的. 此时的概率质量函数 P(X,Y) 如表2所示.

小红帽与大灰狼 (条件独立版本)

 Y=0Y=1
X=0(1a)/2$a/2
X=1(1a)/2$a/2

统计推断

Warning

最后我们来看一个来源于实际的问题: 如果告诉你小红帽碰到了大灰狼 (Y=1), 想让你判断小红帽选择的是哪条路, 也就是求条件概率 P(X|Y=1). 这类由已知的观测结果来反推物理过程的问题属于统计推断的范畴. 统计推断其实就像是在破案, 比如说发生了一起凶杀案, 警方发现受害人身上的伤口长度为5cm (Y=5), 而嫌疑犯可能用的武器有水果刀 (X=0) 和菜刀 (X=1), 那么侦探就需要估算 P(X|Y=5). 本质上这个例子和小红帽与大灰狼的例子是一样的, 所以下面我们还是回到 4.1 来讨论如何求解这类统计推断问题.

Tip

我们首先给出一个公式:

(1)P(X|Y)=P(Y|X)P(X)P(Y)

这个公式的推导很简单, 根据乘法准则我们有

P(X,Y)=P(Y)P(X|Y)=P(X)P(Y|X)

对上式中的第二个等式两边同时除以 P(Y) 即得到了公式 (1).

Note

下面我们使用公式 (1) 来计算条件概率 P(X|Y=1):

P(X=1|Y=1)=P(Y=1|X=1)P(X=1)P(Y=1)=0.6×0.50.4=0.75,P(X=0|Y=1)=P(Y=1|X=0)P(X=0)P(Y=1)=0.2×0.50.4=0.25.

也就是说, 如果我们知道小红帽碰到了狼, 这条额外的信息能够帮助我们推出小红帽更可能走的哪条路: 虽然无论小红帽走的是哪条路, 她都有可能碰到狼, 但是如果非要猜小红帽走的是哪条路的话, 我们会以0.75的概率猜左边的路, 以0.25的概率猜右边的路. 这就是概率的魅力.

Important

公式 (1) 叫做贝叶斯公式, 这个公式虽然非常简单, 但它却是整个统计学机器学习的核心, 建议大家在以后的学习中结合具体的例子反复理解其背后的思想.