机器学习(ML)就是让计算机从数据中进行自动学习,得到某种知识(或规律),通常指从观测数据(样本)中寻找规律,并利用学习的规律(模型)对未知或无法观测的数据进行预测,早期又称作模式识别(Pattern Recognition,PR)。
1.基本概念
例:一堆苹果,每个苹果都有自己的特征Feature
(重量、尺寸、颜色),最终还包含需要预测的标签Label
(目标值),标签本身可以是连续值 ,也可以是离散值 ,我们可以将一个标记好特征和标签 的苹果当做样本 (Sample),又称为实例 (Instance)。
一组样本构成的集合称为数据集 (Data Set),一般分:
训练集 (Training Set),用来训练模型,又称为训练样本 (Training Sample)。
测试集 (Test Set),用来验证模型好坏,又称为测试样本 (Testing Sample)。
通常使用一个D维向量x = [ x 1 , x 2 , . . . , x D ] T x = [x_1, x_2, ..., x_D]^T x = [ x 1 , x 2 , ... , x D ] T 表示这个苹果的所有特征集合,又称特征向量 (Feature Vector),每一个维度表示一个特征,苹果的标签则使用y y y 表示。
假设训练集 D D D 由N N N 个样本组成,每个样本都是独立同分布的 (Identically and Independently Distributed, IID),即独立从相同数据分布中抽取:D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } D = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , ... , ( x N , y N )} ,我们期望从一个函数集合F = { f 1 ( x ) , f 2 ( x ) , . . . } F = \{f_1(x),f_2(x),...\} F = { f 1 ( x ) , f 2 ( x ) , ... } 中找到一个最优解f ? ( x ) f^?(x) f ? ( x ) 来趋近特征向量x x x 和y y y 之间的真实映射关系,对这样的样本可通过f ? ( x ) f^?(x) f ? ( x ) 预测实际标签值:
y ^ = f ? ( x ) , p ^ ( y ∣ x ) = f y ? ( x ) \hat{y} = f^?(x), \hat{p}(y|x) = f_y^?(x) y ^ = f ? ( x ) , p ^ ( y ∣ x ) = f y ? ( x )
如何寻找这个“最优 ”的函数就是机器学习的关键,一般通过机器学习算法(Learning Algorithme)来完成,这个过程就称为学习 (Learning)和训练 (Training)过程,之后在测试集上计算结果并评估该函数的效果(精确率计算 ):
A c c ( f ? ( x ) ) = 1 D ′ ∑ ( x , y ) ∈ D ′ I ( f ? ( x ) = y ) Acc(f^?(x)) = \frac{1}{D^{'}} \sum\limits_{(x,y) \in D^{'}} I(f^?(x) = y) A cc ( f ? ( x )) = D ′ 1 ( x , y ) ∈ D ′ ∑ I ( f ? ( x ) = y )
2.三个基本要素
2.1.模型
对机器学习而言,先确定输入空间X X X 和输出空间y y y ,不同机器学习任务只是输出空间不同:
二分类 :y = { + 1 , − 1 } y=\{+1,-1\} y = { + 1 , − 1 } 或y = { 1 , 0 } y=\{1,0\} y = { 1 , 0 }
C分类 :y = { 1 , 2 , . . . , C } y=\{1,2,...,C\} y = { 1 , 2 , ... , C }
2.1.1.线性模型
线性模型的假设空间为参数与的线性函数表:
2.1.2.非线性模型
上述条件构成了神经网络模型。
2.2.学习准则
2.2.1.损失函数
常见的损失函数如下:
0-1损失函数(0-1 Loss Function)
模型在训练集上的错误率:
平方损失函数(Quadratic Loss Function)
交叉熵损失函数(Cross-Entropy Loss Function)
并满足如下条件
Hinge损失函数(Hinge Loss Function)
2.2.2.风险最小化准则
上述表达式就是经验风险最小化 (Empirical Risk Minimization,ERM )法则。
过拟合
训练样本往往是真实数据的一个很小的子集或包含噪声,不能反应真实分布。
ERM法则容易导致训练集错误率低,但在未知数据上错误率高,这就是过拟合 (Overfitting)。
为了解决过拟合问题,通常在经验风险最小化的基础上引入参数的正则化 (Regularization)来限制模型能力,使其不要过度地最小化经验风险,该准则为结构风险最小化 (Structure Risk Minimization, SRM ):
欠拟合
过拟合相反的一个概念是欠拟合 (Underfitting),即模型无法拟合训练数据,在训练集上的错误率比较高,欠拟合即模型能力不足 。
2.3.优化算法
如何找到最优的模型 就是一个之后的优化问题。
参数与超参数 :机器学习中的优化分为参数优化和超参数优化:
用来定义模型结构优化策略的,称为超参数(Hyper-Parameter),如:
超参数选取一般是组合优化问题,很难通过优化自动学习,因此超参数 要依赖经验,并通过一定手段探索最好的超参数组合。
2.3.1.梯度下降法
为了利用成熟的优化方法,如共轭梯度、拟牛顿法 ,很多机器学习方法都选择成熟模型寻找最好的优化目标。机器学习中,最简单、常用的优化算法是梯度下降法 ,先初始化参数,然后按照下边公式计算风险函数的最小值:
2.3.2.提前停止
在梯度下降训练的过程中,由于过拟合原因,在训练样本上收敛的参数,并不一定在测试集上最优,所以除了测试集和测试集 之外,有时候会使用验证集 (Validation Set)进行模型训练。如果在验证集上的错误率不再下降,就停止迭代,这种策略就是提前停止 (Early Stop)。
2.3.3.随机梯度下降
在下边公式的梯度下降中:
随机梯度下降vs批量梯度下降 :每次迭代的优化目标是对所有样本的平均损失函数还是对单个样本的损失函数,由于SGD比BGD收敛更快,所以使用更广泛,而随机梯度下降相当于在批量梯度下降中引入了随机噪声 。
2.3.4.小批量梯度下降
SGD随机梯度下降无法使用计算机的并行运算能力 。小批量梯度下降(Mini-Batch Gradient Descent,MBGD )是批量梯度下降和随机梯度下降的折中,每次迭代时,不是随机选取单个样本而是随机选取一小部分训练样本来计算梯度并更新参数。
小批量梯度优点:
3.线性回归
线性回归(Linear Regression)是机器学习和统计学中最基础和最广泛应用的模型,它主要用来对自变量和因变量之间关系进行建模的回归分析:
线性函数公式如下:
3.1.参数学习
3.1.1.经验风险最小化
这种方式平方损失函数 非常适合衡量真实标签和预测标签之间的差异,该训练集的经验风险定义为:
使用主成分分析等方法来预处理数据,消除不同特征之间相关性,然后再使用最小二乘法估计参数。
3.1.2.结构风险最小化
3.1.3.最大似然估计
机器学习任务两大类:
上述表达式中
缺点 :如果训练数据比较少容易过拟合,估计参数不准确。
3.1.4.最大后验估计
根据贝叶斯公式,后验分布 (Posterior Distribution)为:
采用贝叶斯估计的线性回归也称贝叶斯线性回归 (Bayesian Linear Regression)
如果希望得到一个最优的参数值(点估计 ),可使用最大后验估计 (Maximum A Posteriori Estimation, MAP),它表示最优参数为后验分布中概率密度最高的参数:
4.偏差-方差分解
在模型拟合能力和复杂度之间权衡:
偏差-方差分解 (Bias-Variance Decomposition)是一个不错的指导工具。
5.算法类型
监督学习 (Supervised Learning,SL):如果训练集中每个样本都有标签,通常称为监督学习,根据标签的不同又分:
分类(Classification),y是离散类别,模型此时称为分类器。
二分类(Binary Classification)
多分类(Multi-Class Classification)
结构化学习(Structured Learning),一种特殊分类问题,y是结构化的对象(序列、树、图)
监督学习中还包含弱监督学习 (Weakly Supervised Learning)和半监督学习 (Semi-Supervised Learning,SSL)。
无监督学习 (Unsupervised Learning, RL):从不包含目标标签的迅联样本中自动学习一些有价值的信息:聚类、密度估计、特征学习、降维 。
强化学习 (Reinforcement Learning,RL):一类通过交互来学习的机器学习算法,智能调整。
它们和学习准则的关系
6.数据特征表示
实际应用中,数据的类型多种多样,如文本、音频、图像、视频,不同类型数据的原始特征 (Raw Feature)空间也不相同。
词袋模型将文本看做词的集合,不考虑词序信息,不能精确表示文本信息。
N元特征 (N-Gram Feature),每N个连续词构成一个基本单元,然后用词袋模型表示,最简单的是二元特征 (2-Gram),实际应用中,N元特征维度一般很高。
表示学习 ——直接使用数据原始特征进行机器学习的问题:
特征比较单一,需要线性(非线性)组合才能发挥作用。
尝试大量的特征来寻找最佳特征——特征工程 (Feature Engineering);如何让机器自动地学习有效的特征——特征学习 (Feature Learning),又称为表示学习 (Representation Learning)。
6.1.传统特征学习
6.1.1.特征选择
从空集开始,每一轮添加最优特征,为向前搜索 (Forward Search)。
从原始特征集合,每一轮删除最无用的特征,为向后搜索 (Backward Search)。
子集搜索方法分类:
过滤式方法 (Filter Method),不依赖具体机器学习模型的方法,每次增加最有用信息特征或删除最没有用的信息特征,特征信息量用信息增益 (Information Gain)来衡量。
包裹式方法 (Wrapper Method),使用后续机器学习模型的准确率作为评价选择一个特征子集的方法,这种方法是将机器学习模型包裹到特征选择内部。
6.1.2.特征抽取
特征抽取 (Feature Extraction)是构造一个新的特征空间,并将原始特征投影在新的空间中得到新的表示。
有监督是抽取对一个特定预测任务最有用的特征,如线性判别分析 (Linear Discriminant Analysis, LDA)。
无监督和具体任务无关,主要是减少冗余信息,如主成分分析 (Principal Component Analysis, PCA)和自编码器 (Auto-Encoder, AE)
特征选择和特征抽取经常称为维度约减 或降维 (Dimension Reduction)。
6.2.深度学习方法
如果将特征的表示学习和机器学习有机地统一到一个模型中,建立一个端到端的学习算法,就可以有效地避免它们之间准则的不一致性,这种表示学习方法称为深度学习 (Deep Learning, DL),它的难点:如何评价表示学习对最终系统输出结果的贡献和影响——贡献度分配问题 。
7.评价指标
分类问题评价指标:
准确率 (Accuracy),最常用的一个指标:
错误率 (Error Rate)
精确率和召回率 :准确率是所有类别整体性能的平均,如果希望每个类都进行性能评估,则要计算精确率 (Precision)和召回率 (Recall),混淆矩阵中的四个格子的含义:
真正例(True Positive, TP):一个样本真实类别为c
,并且模型正确预测为c
,记为:
假负例(False Negative, FN):一个样本真实类别为c
,模型错误地预测为其他类,记为:
假正例(False Positive, FP):一个样本的真实类别为其他类,模型错误预测为c
,记为:
真负例(True Negative, TN):一个样本的真实类别为其他类,模型也预测为其他类——对类别c
来说,这种情况一般不用去关注。
最终的混淆矩阵如下:
精确率 (Precision),也叫精度或查准率,类别c
的查准率是所有预测为类别c
的样本中正确的比例:
召回率 (Recall),也叫查全率,类别c
的查全率是所有真实标签为类别c
的样本中预测正确的比例:
F值 (F Measure)是一个综合指标,精确率和召回率的调和平均:
微平均和宏平均 :为了计算分类算法在所有类别上的总体精确率、召回率和F1值,经常使用两种平均方法,分别为:
各种计算方法如:
微平均是每一个样本性能指标的算术平均值,对于单个样本而言,它的精确率和召回率是相同的,因此精确率的微平均和召回率的微平均也相同;实际应用中,可通过调整阈值来进行全面评价:
ROC:Receiver Operating Characteristic(曲线)
交叉验证 (Cross-Validation)是一种比较好的衡量机器学习模型的统计方法,可避免划分训练集和测试机的随机性对评价结果的影响。
8.理论/定理
8.1.PAC学习理论
希望通过一套理论能够分析问题难度、计算模型能力,为算法提供理论保证,并指导学习模型和算法设计——计算学习理论。计算学习理论 (Computational Learning Theory)是机器学习的理论基础,其中最基础的理论是可能近似正确 (Probably Approximately Correct, PAC)学习理论。
机器学习中很关键的问题是期望错误 和经验错误 之间的差异,称为泛化错误 (Generalization Error),泛化错误可衡量一个机器学习模型是否可泛化:
近似正确 (Approximately Correct)
最终的PAC公式如:
为提高模型泛化能力,通常需要正则化 (Regularization)限制模型复杂度。
8.2.没有免费午餐定理
没有免费午餐定理 (No Free Launch Theorem, NFL):对于基于迭代的最优算法,不存在某种算法对所有问题(有限的搜索空间内)都有效,所以:不存在一种机器学习算法适合于任何领域或任务。
8.3.奥卡姆剃刀原理
8.4.丑小鸭定理
丑小鸭定理 (Ugly Duckling Theorem):丑小鸭和白天鹅之间的区别和两只白天鹅之间区别一样大。
8.5.归纳偏置
机器学习中,很多学习算法会对学习的问题做一些假设,这些假设称为归纳偏置 (Inductive Bias),归纳偏置在贝叶斯学习中也经常称为先验(Prior)。
X + Y X + Y X + Y 就是一个样本空间,对于空间中( x , y ) ∈ X × Y (x,y) \in X \times Y ( x , y ) ∈ X × Y ,假设它们之间可通过下边两个函数来描述:
真实映射函数y = g ( x ) y = g(x) y = g ( x )
真实条件概率分布p r ( y ∣ x ) p_r(y|x) p r ( y ∣ x )
机器学习的目标就是找到一个模型和两个函数结果逼近 ,我们假设一个函数集合F F F (假设空间,Hypothesis Space),通过观测F F F 在D D D 上的表现,从中选择一个理想的假设F ? ∈ F F^?\in F F ? ∈ F ,最终如下:
F = { f ( x ; θ ) ∣ θ ∈ R D } F = \{f(x;\theta)|\theta \in R^D\} F = { f ( x ; θ ) ∣ θ ∈ R D }
f ( x ; θ ) f(x;\theta) f ( x ; θ ) 就是参数为θ \theta θ 的函数,即模型 (Modal),D D D 为参数数量。
f ( x ; θ ) = w T x + b f(x;\theta) = w^T x + b f ( x ; θ ) = w T x + b
参数θ \theta θ 包含了权重向量w w w 和偏置项b b b 。
广义非线性模型可以写成多个非线性基函数 (Φ ( x ) \Phi(x) Φ ( x ) )的线性组合:
f ( x ; θ ) = w T Φ ( x ) + b f(x;\theta) = w^T \Phi(x) + b f ( x ; θ ) = w T Φ ( x ) + b
其中Φ ( x ) = [ Φ 1 ( x ) , Φ 2 ( x ) , . . . , Φ K ( x ) ] T \Phi(x) = [\Phi_1(x),\Phi_2(x),...,\Phi_K(x)]^T Φ ( x ) = [ Φ 1 ( x ) , Φ 2 ( x ) , ... , Φ K ( x ) ] T 为K K K 个非线性基函数组成的向量,参数θ \theta θ 包含了权重向量w w w 和偏置项b b b ,而之中Φ K ( x ) \Phi_K(x) Φ K ( x ) 本身可以是一个学习的基函数,如:
Φ k ( x ) = h ( w k T Φ ′ ( x ) + b k ) , ∀ 1 ≤ k ≤ K \Phi_k(x) = h(w_k^T \Phi^{'}(x) + b_k), \forall1 \le k \le K Φ k ( x ) = h ( w k T Φ ′ ( x ) + b k ) , ∀1 ≤ k ≤ K
神经网络模型f ( x ; θ ) f(x;\theta) f ( x ; θ ) 的定义如下:
Φ ′ ( x ) \Phi^{'}(x) Φ ′ ( x ) 是另一组基函数
w k , b k w_k,b_k w k , b k 是学习的参数
训练集 D = { ( x n , y n ) } n = 1 N D = \{(x_n,y_n)\}_{n=1}^N D = {( x n , y n ) } n = 1 N 是N N N 个独立同分布的 (Identically and Independently Distributed, IID)样本组成,即每个样本是从X × Y X \times Y X × Y 中按照某个未知分布p r ( x , y ) p_r(x,y) p r ( x , y ) 独立随机产生。
此处p r ( x , y ) p_r(x,y) p r ( x , y ) 必须是固定的,不会随时间变化,如果本身可变,那么就无法进行学习了。
一个号的模型f ( x , θ ? ) f(x,\theta^?) f ( x , θ ? ) 应该在所有的( x , y ) (x,y) ( x , y ) 的可能取值都逼近下边两个函数:
真实映射函数 :y = g ( x ) y = g(x) y = g ( x )
∣ f ( x , θ ? ) − y ∣ < ϵ , ∀ ( x , y ) ∈ X × Y |f(x,\theta^?) - y| < \epsilon, \forall(x, y) \in X \times Y ∣ f ( x , θ ? ) − y ∣ < ϵ , ∀ ( x , y ) ∈ X × Y
真实条件概率分布 :p r ( y ∣ x ) p_r(y|x) p r ( y ∣ x )
∣ f ( x , θ ? ) − p r ( y ∣ x ) ∣ < ϵ , ∀ ( x , y ) ∈ X × Y |f(x,\theta^?) - p_r(y|x)| < \epsilon, \forall(x, y) \in X \times Y ∣ f ( x , θ ? ) − p r ( y ∣ x ) ∣ < ϵ , ∀ ( x , y ) ∈ X × Y
其中ϵ \epsilon ϵ 是一个很小整数,f ( x , θ ? ) f(x,\theta^?) f ( x , θ ? ) 为模型预测条件概率分布中y y y 对应的概率。
模型f ( x , θ ? ) f(x,\theta^?) f ( x , θ ? ) 的好坏通过期望风险 (Expected Risk)来衡量,其定义为:
R ( θ ) = E ( x , y ) ∼ p r ( x , y ) [ L ( y , f ( x ; θ ) ) ] R(\theta) = E_{(x,y) \thicksim p_r(x,y)}[L(y,f(x;\theta))] R ( θ ) = E ( x , y ) ∼ p r ( x , y ) [ L ( y , f ( x ; θ ))]
p r ( x , y ) p_r(x,y) p r ( x , y ) 为真实的数据分布
L ( y , f ( x ; θ ) ) L(y,f(x;\theta)) L ( y , f ( x ; θ )) 为损失函数
L ( y , f ( x ; θ ) ) = { 0 , ( y = f ( x ; θ ) 1 , ( y ≠ f ( x ; θ ) = I ( y ≠ f ( x ; θ ) ) L(y,f(x;\theta)) = \left\{ \begin{aligned} & 0, (y = f(x;\theta) \\ & 1, (y \neq f(x;\theta) \end{aligned} \right. = I(y \neq f(x; \theta)) L ( y , f ( x ; θ )) = { 0 , ( y = f ( x ; θ ) 1 , ( y = f ( x ; θ ) = I ( y = f ( x ; θ )) 其中I ( ⋅ ) I(\cdot) I ( ⋅ ) 是指示函数,它的缺点是数学性质不好,不连续且导数为0。
经常在预测y y y 为实数值中使用(不适用 于分类问题),定义如:
L ( y , f ( x ; θ ) ) = 1 2 ( y − f ( x ; θ ) ) 2 L(y,f(x;\theta)) = \frac{1}{2}(y - f(x;\theta))^2 L ( y , f ( x ; θ )) = 2 1 ( y − f ( x ; θ ) ) 2
一般用于分类问题 ,假设样本标签y ∈ { 1 , . . . , C } y \in \{1,...,C\} y ∈ { 1 , ... , C } 为离散类别,模型f ( x ; θ ) ∈ [ 0 , 1 ] C f(x;\theta) \in [0,1]^C f ( x ; θ ) ∈ [ 0 , 1 ] C 的输出类别标签的概率分布如
p ( y = c ∣ x ; θ ) = f c ( x ; θ ) p(y = c|x;\theta) = f_c(x;\theta) p ( y = c ∣ x ; θ ) = f c ( x ; θ )
f c ( x ; θ ) ∈ [ 0 , 1 ] , ∑ c = 1 C f c ( x ; θ ) = 1 f_c(x;\theta) \in [0,1], \sum\limits_{c=1}^C f_c(x;\theta) = 1 f c ( x ; θ ) ∈ [ 0 , 1 ] , c = 1 ∑ C f c ( x ; θ ) = 1
对于两个概率分布,一般可以用交叉熵来衡量它们的差异,标签的真实分布y y y 和模型预测分布f ( x ; θ ) f(x;\theta) f ( x ; θ ) 交叉熵如:
L ( y , f ( x ; θ ) ) = − y T log f ( x ; θ ) = − ∑ c = 1 C y c log f c ( x ; θ ) L(y,f(x;\theta)) = -y^T \log f(x;\theta) = -\sum\limits_{c=1}^C y_c \log f_c(x;\theta) L ( y , f ( x ; θ )) = − y T log f ( x ; θ ) = − c = 1 ∑ C y c log f c ( x ; θ )
其实f ( x ; θ ) f(x;\theta) f ( x ; θ ) 可以看做真实类别y y y 的似然函数,因此,交叉损失函数也就是负对数似然函数 (Negative Log-Likelihood)
一般用于二分类问题 ,假设y y y 的取值为{ − 1 , + 1 , } , f ( x ; θ ) ∈ R \{-1,+1,\}, f(x;\theta) \in R { − 1 , + 1 , } , f ( x ; θ ) ∈ R ,它的Hinge损失函数为
L ( y , f ( x ; θ ) = max ( 0 , 1 − y f ( x ; θ ) ) ≜ [ 1 − y f ( x ; θ ) ] + L(y,f(x;\theta) = \max(0, 1 - yf(x;\theta)) \triangleq[1 - yf(x;\theta)]_+ L ( y , f ( x ; θ ) = max ( 0 , 1 − y f ( x ; θ )) ≜ [ 1 − y f ( x ; θ ) ] +
其中[ x ] + = max ( 0 , x ) [x]_+ = \max(0,x) [ x ] + = max ( 0 , x )
一个好的模型f ( x ; θ ) f(x;\theta) f ( x ; θ ) 应当有一个比较小的期望错误,但由于不知道真实的数据分布和映射函数,实际上无法计算其期望风险R ( θ ) R(\theta) R ( θ ) ,给定一个训练集D = { ( x n , y n ) } n = 1 N D = \{(x_n,y_n)\}_{n = 1}^N D = {( x n , y n ) } n = 1 N ,根据训练集可计算经验风险 (Empirical Risk),即在训练集上的平均损失函数如:
R D e m p ( θ ) = 1 N ∑ n = 1 N L ( y n , f ( x n ; θ ) ) R_D^{emp}(\theta) = \frac{1}{N} \sum\limits_{n=1}^N L(y_n, f(x_n;\theta)) R D e m p ( θ ) = N 1 n = 1 ∑ N L ( y n , f ( x n ; θ ))
因此,一个切实可行的学习准则是找到一组参数θ ? \theta^? θ ? 使得经验风险最小,即:
θ ? = a r g min θ R D e m p ( θ ) \theta^? = arg \underset{\theta}{\min} R_D^{emp}(\theta) θ ? = a r g θ min R D e m p ( θ )
如果训练集大小∣ D ∣ |D| ∣ D ∣ 趋向于无穷大,经验风险就趋向于期望风险,但是:
过拟合 :给定一个假设空间F F F ,一个假设f f f 属于F F F ,如果存在其他的假设f ′ f^{'} f ′ 也属于F F F ,使得在训练集上f f f 的损失比f ′ f^{'} f ′ 的损失小,但在整个样本空间上f ′ f^{'} f ′ 的损失比f f f 的损失小,那么就说假设f f f 过度拟合训练数据。
= a r g min θ R D e m p ( θ ) + 1 2 λ ∣ ∣ θ ∣ ∣ 2 = a r g min θ 1 N ∑ n = 1 N L ( y n , f ( x n ; θ ) ) + 1 2 λ ∣ ∣ θ ∣ ∣ 2 = arg \underset{\theta}{\min} R_D^{emp}(\theta) + \frac{1}{2}\lambda||\theta||^2 \\ = arg \underset{\theta}{\min} \frac{1}{N} \sum\limits_{n=1}^N L(y_n, f(x_n;\theta)) + \frac{1}{2}\lambda||\theta||^2 = a r g θ min R D e m p ( θ ) + 2 1 λ ∣∣ θ ∣ ∣ 2 = a r g θ min N 1 n = 1 ∑ N L ( y n , f ( x n ; θ )) + 2 1 λ ∣∣ θ ∣ ∣ 2 上述表达式中∣ ∣ θ ∣ ∣ ||\theta|| ∣∣ θ ∣∣ 是l 2 l_2 l 2 范数的正则化项,用来减少参数空间,避免过拟合,λ \lambda λ 则用来控制正则化强度。正则化项还可使用其他函数,如l 1 l_1 l 1 范数,该范数的引入通常会有一定稀疏性——从贝叶斯角度,正则化是引入了先验分布,不依赖训练数据。
模型f ( x ; θ ) f(x;\theta) f ( x ; θ ) 中的θ \theta θ 称为模型参数,通过优化算法进行学习。
= θ t − α 1 N ∑ n = 1 N ∂ L ( y x , f ( x n ; θ ) ) ∂ θ = \theta_t - \alpha \frac{1}{N} \sum\limits_{n=1}^N \frac{\partial L(y_x, f(x_n;\theta))}{\partial \theta} = θ t − α N 1 n = 1 ∑ N ∂ θ ∂ L ( y x , f ( x n ; θ )) 其中θ t \theta_t θ t 是第t t t 次迭代时的参数值,α \alpha α 为搜索步长,在机器学习过程中,α \alpha α 就是学习率 (Learning Rate)。
θ t + 1 = θ t − α ∂ R D ( θ ) ∂ θ \theta_{t + 1} = \theta_t - \alpha \frac{\partial R_D(\theta)}{\partial \theta} θ t + 1 = θ t − α ∂ θ ∂ R D ( θ )
目标函数是整个训练集上的风险函数,这种方式称为批量梯度下降法 (Batch Gradient Descent, BGD ),批量梯度从真实数据分布中采集N N N 个样本,并由它计算出来的经验风险 的梯度近似期望风险 的梯度——为了减少每次迭代的计算复杂度,我们可以在每次迭代时只采集一个样本,计算这个样本损失函数的梯度并更新,即随机梯度下降法 (Stochastic Gradient Descent, SGD )。
第t t t 次迭代时,随机选取一个包含K K K 个样本的子集S t S_t S t ,计算该子集上每个样本损失函数梯度并且平均 ,然后更新参数:
θ t + 1 ← θ t − α 1 K ∑ ( x , y ) ∈ S t ∂ L ( y x , f ( x n ; θ ) ) ∂ θ \theta_{t+1} \leftarrow \theta_t - \alpha \frac{1}{K} \sum\limits_{(x,y) \in S_t} \frac{\partial L(y_x, f(x_n;\theta))}{\partial \theta} θ t + 1 ← θ t − α K 1 ( x , y ) ∈ S t ∑ ∂ θ ∂ L ( y x , f ( x n ; θ ))
f ( x ; w , b ) = w T x + b f(x;w,b) = w^Tx + b f ( x ; w , b ) = w T x + b
样本特征向量x ∈ R D x \in R^D x ∈ R D ,每一个维度对应的自变量
因变量标签y y y 是连续值(y ∈ R y \in R y ∈ R )
其中权重向量w ∈ R D w \in R^D w ∈ R D 和偏置项b ∈ R b \in R b ∈ R 是可学习的参数,该模型称为线性模型,在数学中公式简化后得到:
f ( x ; w ^ ) = w ^ T x ^ f(x;\hat{w}) = \hat{w}^T \hat{x} f ( x ; w ^ ) = w ^ T x ^
之后简写成f ( x ; w ) = w T x f(x;w) = w^T x f ( x ; w ) = w T x
给定一组包含了N N N 个训练样本的训练集D = { ( x n , y n ) } n = 1 N D = \{(x_n, y_n)\}_{n=1}^N D = {( x n , y n ) } n = 1 N ,我们希望学习一个最优的线性回归模型参数w w w ,此处有四种不同的优化方法:
R ( w ) = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 R(w) = \frac{1}{2}||y - X^Tw||^2 R ( w ) = 2 1 ∣∣ y − X T w ∣ ∣ 2
其中y = [ y 1 , . . . , y N ] T y = [y_1, ..., y_N]^T y = [ y 1 , ... , y N ] T 是样本真实结果组成的列向量
x ∈ R ( D + 1 ) × N x \in R^{{(D + 1)} \times N} x ∈ R ( D + 1 ) × N 是样本输入特征组成的矩阵
风险函数R ( w ) R(w) R ( w ) 是关于w w w 的凸函数,对于w w w 的偏导数如:
∂ R ( w ) ∂ w = 1 2 ∂ ∣ ∣ y − X T w ∣ ∣ 2 ∂ w = − X ( y − X T w ) \frac{\partial R(w)}{\partial w} = \frac{1}{2} \frac{\partial||y - X^Tw||^2}{\partial w} = -X(y - X^Tw) ∂ w ∂ R ( w ) = 2 1 ∂ w ∂ ∣∣ y − X T w ∣ ∣ 2 = − X ( y − X T w )
上述公式中,设∂ ∂ w R ( w ) = 0 \frac{\partial}{\partial w} R(w) = 0 ∂ w ∂ R ( w ) = 0 则可以得到最优参数。
这种求解线性回归参数的方法也叫最小二乘法 (Least Square Method, LSM)。最小二乘法中,X X T ∈ R ( D + 1 ) × ( D + 1 ) XX^T \in R^{(D + 1) \times (D + 1)} X X T ∈ R ( D + 1 ) × ( D + 1 ) 必须存在逆矩阵,即X X T XX^T X X T 是满秩的(r a n k ( X X T ) = D + 1 rank(XX^T) = D + 1 r ank ( X X T ) = D + 1 );也就是说,X X X 中的行向量之间是线性不相关,即每个特征都和其他特征相互独立。如果X X T XX^T X X T 不可逆,解法如:
使用梯度下降法估计参数,先初始化w = 0 w = 0 w = 0 ,然后使用公式迭代:w ← w + α X ( y − X T w ) w \leftarrow w + \alpha X(y - X^Tw) w ← w + α X ( y − X T w ) ,这种利用梯度下降方法求解称为最小均方 (Least Mean Squares, LMS)。
如果特征之间有较大的多重共线性 (Multicollinearity),会使得X X T XX^T X X T 的逆在数值上无法准确计算,如此操作会让最小二乘法的计算不稳定,——为解决这种问题,提出了岭回归 (Ridge Regression)。
为X X T XX^T X X T 的对角线元素都加上一个常数λ \lambda λ 使( X X T + λ I ) (XX^T + \lambda I) ( X X T + λ I ) 满秩,即行列式不为0,最优参数如:
w ? = ( X X T + λ I ) − 1 X y w^? = (XX^T + \lambda I)^{-1}Xy w ? = ( X X T + λ I ) − 1 X y
λ > 0 \lambda > 0 λ > 0 为预先设置超参数
岭回归的解w ? w^? w ? 可看做结构风险最小化准则下的最小二乘法估计,最终目标函数可写成:
R ( w ) = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 + 1 2 λ ∣ ∣ w ∣ ∣ 2 R(w) = \frac{1}{2}||y - X^Tw||^2 + \frac{1}{2}\lambda ||w||^2 R ( w ) = 2 1 ∣∣ y − X T w ∣ ∣ 2 + 2 1 λ ∣∣ w ∣ ∣ 2
样本的特征向量x x x 和标签y y y 之间存在未知函数关系y = h ( x ) y = h(x) y = h ( x ) (前文提到的最小二乘法)。
另一类是条件概率p ( y ∣ x ) p(y|x) p ( y ∣ x ) 服从某个未知分布
假设y y y 是一个随机变量,由f ( x ; w ) = w T x f(x;w) = w^Tx f ( x ; w ) = w T x 加上随机噪声ϵ \epsilon ϵ :
y = f ( x : w ) + ϵ = w T x + ϵ y = f(x:w) + \epsilon = w^Tx + \epsilon y = f ( x : w ) + ϵ = w T x + ϵ
ϵ \epsilon ϵ 服从均值0、方差为σ 2 \sigma^2 σ 2 的高斯分布
y y y 服从均值w T x w^Tx w T x 、方差为σ 2 \sigma^2 σ 2 的高斯分布
p ( y ∣ x ; w , σ ) = N ( y ; w T x , σ 2 ) = 1 2 π σ exp ( − ( y − w T x ) 2 2 σ 2 ) p(y|x;w,\sigma) = N(y;w^T x, \sigma^2) = \frac{1}{\sqrt{2 \pi} \sigma} \exp (- \frac{(y - w^Tx)^2}{ 2 \sigma^2}) p ( y ∣ x ; w , σ ) = N ( y ; w T x , σ 2 ) = 2 π σ 1 exp ( − 2 σ 2 ( y − w T x ) 2 )
似然函数 (Likelihood):p ( y ∣ X ; w , σ ) = ∏ n = 1 N p ( y n ∣ x n ; w , σ ) = ∏ n = 1 N N ( y n ; w T x n , σ 2 ) p(y|X;w,\sigma) = \prod\limits_{n=1}^N p(y_n|x_n;w,\sigma) = \prod\limits_{n=1}^N N(y_n; w^T x_n, \sigma^2) p ( y ∣ X ; w , σ ) = n = 1 ∏ N p ( y n ∣ x n ; w , σ ) = n = 1 ∏ N N ( y n ; w T x n , σ 2 )
「方便计算」对数似然函数 (Log Likelihood):log p ( y ∣ X ; w , σ ) = ∑ n = 1 N log N ( y n ; w T x n , σ 2 ) \log p(y|X;w,\sigma) = \sum\limits_{n=1}^N \log N(y_n; w^T x_n, \sigma^2) log p ( y ∣ X ; w , σ ) = n = 1 ∑ N log N ( y n ; w T x n , σ 2 )
最大似然估计 (Maximum Likelihood Estimation, MLE)表示找到一组参数w w w 使得似然函数结果最大(或对数函数最大):w M L = ( X X T ) − 1 X y w^{ML} = (XX^T)^{-1}Xy w M L = ( X X T ) − 1 X y
假设w w w 是一个随机向量,并服从一个先验分布p ( w ; v ) p(w;v) p ( w ; v ) ,为了简单,令它为各向同性的高斯分布:
p ( w ; v ) = N ( w ; 0 , v 2 I ) p(w;v) = N(w;0,v^2 I) p ( w ; v ) = N ( w ; 0 , v 2 I )
p ( w ∣ X , y ; v , σ ) = p ( w , y ∣ X ; v , σ ) ∑ w p ( w , y ∣ X ; v , σ ) ∝ p ( y ∣ X , w ; σ ) p ( w ; v ) p(w|X,y;v,\sigma) = \frac{p(w,y|X;v,\sigma)}{\sum_w p(w,y|X;v,\sigma)} \varpropto p(y|X,w;\sigma)p(w;v) p ( w ∣ X , y ; v , σ ) = ∑ w p ( w , y ∣ X ; v , σ ) p ( w , y ∣ X ; v , σ ) ∝ p ( y ∣ X , w ; σ ) p ( w ; v )
这种估计参数w w w 的后验概率分布的方法为贝叶斯估计 (Bayesian Estimation),是一种统计推断 问题。
w M A P = a r g m a x w p ( y ∣ X , w ; σ ) p ( w ; v ) w^{MAP} = arg \underset{w}{max} p(y|X,w;\sigma)p(w;v) w M A P = a r g w ma x p ( y ∣ X , w ; σ ) p ( w ; v )
最大后验概率等价于平方损失的结构风险最小化,正则化系数λ = σ 2 / v 2 \lambda = \sigma^2 / v^2 λ = σ 2 / v 2
当 v → ∞ v \rightarrow \infty v → ∞ ,先验分布$$p(w;v)退化成均匀分布,称无信息先验 (Non-Informative Prior),最大后验估计退化成最大似然估计。
单个样本,不同训练集D D D 得到的模型f D ( x ) f_D(x) f D ( x ) 和最优模型f ? ( x ) f^?(x) f ? ( x ) 的期望差距如:
E D [ ( f D ( x ) − f ? ( x ) ) 2 ] = ( E D [ f D ( x ) ] − f ? ( x ) ) 2 + E D [ ( f D ( x ) − E D [ f D ( x ) ] ) 2 ] E_D[(f_D(x) - f^?(x))^2] = (E_D[f_D(x)] - f^?(x))^2 + E_D[(f_D(x) - E_D[f_D(x)])^2] E D [( f D ( x ) − f ? ( x ) ) 2 ] = ( E D [ f D ( x )] − f ? ( x ) ) 2 + E D [( f D ( x ) − E D [ f D ( x )] ) 2 ]
( b i a s ) 2 = E x [ ( E D [ f D ( x ) ] − f ? ( x ) ) 2 ] (bias)^2 = E_x[(E_D[f_D(x)] - f^?(x))^2] ( bia s ) 2 = E x [( E D [ f D ( x )] − f ? ( x ) ) 2 ] ,偏差——一个模型在不同训练集上的平均性能和最优之间的差异,衡量拟合能力。
v a r i a n c e = E x [ E D [ ( f D ( x ) − E D [ f D ( x ) ] ) 2 ] ] variance = E_x[E_D[(f_D(x) - E_D[f_D(x)])^2]] v a r ian ce = E x [ E D [( f D ( x ) − E D [ f D ( x )] ) 2 ]] ,方差——一个模型在不同训练集上的差异,用来衡量模型是否过拟合。
图像特征 :M × N M \times N M × N 的图像直接使用M × N M \times N M × N 维的向量,每一维的值为像素灰度值。
文本特征 :类别y ∈ { + 1 , − 1 } y \in \{+1,-1\} y ∈ { + 1 , − 1 } 标记正面或负面评价,将样本x x x 从文本形式转换成向量形式。
词袋 (Bag-Of-Words, BoW):一种简单的转换,假设训练集中词都来源于一个词表V V V ,大小为∣ V ∣ |V| ∣ V ∣ ,每个样本都可以表示成∣ V ∣ |V| ∣ V ∣ 维的向量x ∈ R ∣ V ∣ x \in R^{|V|} x ∈ R ∣ V ∣ ,如:
我 喜欢 读书:x 1 = [ 1101 ] T x_1 = [1 1 0 1]^T x 1 = [ 1101 ] T
我 讨厌 读书:x 2 = [ 1011 ] T x_2 = [1 0 1 1]^T x 2 = [ 1011 ] T
特征选择 (Feature Selection)是选取原始特征的一个有效子集:保留部分特征,移除冗余或无关特征。子集搜索 ,一种直接特征选择方法(Subset Search),假设原始特征为D,则公有2 D 2^D 2 D 个候选子集,特征选择目的是找到最优的候选子集。
l 1 l_1 l 1 正则化——稀疏特征,因此可做特征选择。
这里W ∈ R K × D W \in R^{K \times D} W ∈ R K × D 为映射矩阵。特征抽取可分有监督和无监督
A = 1 N ∑ n = 1 N I ( y n = y n ^ ) A = \frac{1}{N} \sum\limits_{n=1}^N I(y_n = \hat{y_n}) A = N 1 n = 1 ∑ N I ( y n = y n ^ )
E = 1 − A = 1 N ∑ n = 1 N I ( y n ≠ y n ^ ) \Epsilon = 1 - A = \frac{1}{N} \sum\limits_{n=1}^N I (y_n \neq \hat{y_n}) E = 1 − A = N 1 n = 1 ∑ N I ( y n = y n ^ )
T P c = ∑ n = 1 N I ( y n = y n ^ = c ) TP_c = \sum\limits_{n=1}^N I ( y_n = \hat{y_n} = c ) T P c = n = 1 ∑ N I ( y n = y n ^ = c )
F N c = ∑ n = 1 N I ( y n = c ∧ y n ^ ≠ c ) FN_c = \sum\limits_{n=1}^N I ( y_n = c \land \hat{y_n} \neq c ) F N c = n = 1 ∑ N I ( y n = c ∧ y n ^ = c )
F P c = ∑ n = 1 N I ( y n ≠ c ∧ y n ^ = c ) FP_c = \sum\limits_{n=1}^N I ( y_n \neq c \land \hat{y_n} = c ) F P c = n = 1 ∑ N I ( y n = c ∧ y n ^ = c )
P c = T P c T P c + F P c P_c = \frac{TP_c}{TP_c + FP_c} P c = T P c + F P c T P c
R c = T P c T P c + F N c R_c = \frac{TP_c}{TP_c + FN_c} R c = T P c + F N c T P c
F c = ( 1 + β 2 ) × P c × R c β 2 × P c + R c F_c = \frac{(1 + \beta^2) \times P_c \times R_c}{\beta^2 \times P_c + R_c} F c = β 2 × P c + R c ( 1 + β 2 ) × P c × R c
表达式中β \beta β 用于平衡精确率和召回率的重要性。
P m a c r o = 1 C ∑ c = 1 C P c P_{macro} = \frac{1}{C} \sum\limits_{c=1}^C P_c P ma cro = C 1 c = 1 ∑ C P c
P m i c r o = 1 C ∑ c = 1 C R c P_{micro} = \frac{1}{C} \sum\limits_{c=1}^C R_c P mi cro = C 1 c = 1 ∑ C R c
F 1 m a c r o = 2 × P m a c r o × R m a c r o P m a c r o + R m a c r o F1_{macro} = \frac{2 \times P_{macro} \times R_{macro}}{P_{macro} + R_{macro}} F 1 ma cro = P ma cro + R ma cro 2 × P ma cro × R ma cro
G D ( f ) = R ( f ) − R D e m p ( f ) G_D(f) = R(f) - R_D^{emp}(f) G D ( f ) = R ( f ) − R D e m p ( f )
根据大数定律 ,训练集大小∣ D ∣ |D| ∣ D ∣ 趋向无穷大时,泛化错误趋向于0
:
l i m ∣ D ∣ → ∞ R ( f ) − R D e m p ( f ) = 0 \underset{|D| \rightarrow \infty}{lim} R(f) - R_D^{emp}(f) = 0 ∣ D ∣ → ∞ l im R ( f ) − R D e m p ( f ) = 0
由于p ( x , y ) p(x,y) p ( x , y ) 和g ( x ) g(x) g ( x ) 都未知,因此需要降低学习算法的期望,只要求学习算法可以以一定的概率学习到一个近似正确的假设,即PAC学习 (PAC Learning),一个PAC可学习 (PAC-Learnable)的算法是指该学习算法能在多项式时间内从合理数量的训练数据中学习到一个近似正确的值。PAC学习的两部分:
假设f ∈ F f \in F f ∈ F 是“近似正确”,即在泛化错误G D ( f ) G_D(f) G D ( f ) 小于一个界限值ϵ \epsilon ϵ
ϵ \epsilon ϵ 一般介于0到1/2之间:0 < ϵ < 1 2 0 < \epsilon < \frac{1}{2} 0 < ϵ < 2 1
如果G D ( f ) G_D(f) G D ( f ) 比较大,则模型不能用来正确预测
可能 (Probably):一个学习算法A A A 有可能以1 − δ 1 - \delta 1 − δ 的概率学习到一个近似正确 的假设,δ \delta δ 一般介于0到1/2之间,0 < δ < 1 2 0 < \delta < \frac{1}{2} 0 < δ < 2 1
P ( ( R ( f ) − R D e m p ( f ) ) ≤ ϵ ) ≥ 1 − δ P((R(f) - R_D^{emp}(f)) \le \epsilon) \ge 1 - \delta P (( R ( f ) − R D e m p ( f )) ≤ ϵ ) ≥ 1 − δ
其中参数ϵ , δ \epsilon, \delta ϵ , δ 是和样本数量N N N 以及假设空间 F F F 相关的变量,如果ϵ , δ \epsilon, \delta ϵ , δ 固定,则可计算需要的样本数量:
N ( ϵ , δ ) ≥ 1 2 ϵ 2 ( log ∣ F ∣ + log 2 δ ) N(\epsilon,\delta) \ge \frac{1}{2 \epsilon^2} (\log{|F|} + \log{\frac{2}{\delta}}) N ( ϵ , δ ) ≥ 2 ϵ 2 1 ( log ∣ F ∣ + log δ 2 )
奥卡姆剃刀 (Occam's Razor):如无必要,勿增实体。它的一种形式化是最小描述长度 (Minimum Description Length, MDL)原则,即对一个数据集D D D ,最好的模型f ∈ F f \in F f ∈ F 会使得数据集的压缩效果最好,即编码长度最小。最小描述长度可通过贝叶斯学习观点解释,它的后验概率为:
m a x f log p ( f ∣ D ) = m a x f log p ( D ∣ f ) + log p ( f ) = m i n f − log p ( D ∣ f ) − log p ( f ) \underset{f}{max} \log p(f|D) = \underset{f}{max} \log p(D|f) + \log p(f) = \underset{f}{min} - \log p(D|f) - \log p(f) f ma x log p ( f ∣ D ) = f ma x log p ( D ∣ f ) + log p ( f ) = f min − log p ( D ∣ f ) − log p ( f )
− log p ( f ) , − log p ( D ∣ f ) -\log p(f), -\log p(D|f) − log p ( f ) , − log p ( D ∣ f ) 可以分别看作模型f f f 的不编码长度和在该模型下数据集D D D 的编码长度。
{ ( x n , y n ) } n = 1 N \{(x_n,y_n)\}_{n=1}^N {( x n , y n ) } n = 1 N { x n } n = 1 N \{x_n\}_{n=1}^N { x n } n = 1 N y n ^ = c \hat{y_n} = c y n ^ = c y n ^ ≠ c \hat{y_n} \neq c y n ^ = c