【学习笔记、面试准备】机器学习西瓜书要点归纳和课后习题参考答案——第3章

这篇具有很好参考价值的文章主要介绍了【学习笔记、面试准备】机器学习西瓜书要点归纳和课后习题参考答案——第3章。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录地址

第3章 线性模型

3.1 基本形式

线性模型定义:
西瓜书第三章答案,机器学习,学习,人工智能
其中x是输入向量
西瓜书第三章答案,机器学习,学习,人工智能
优点:形式简单,易于建模,可解释性好。

3.2 线性回归

输入预处理:连续值可以直接用,离散值若有序,可以按序赋值变连续(如“高,中,低”变为“1,0.5,0”,否则可以单热点码编码。

回归常用MSE,要偏导数为0,当输入是一维时可以算出来:
西瓜书第三章答案,机器学习,学习,人工智能
西瓜书第三章答案,机器学习,学习,人工智能

当多元时,矩阵求导,
西瓜书第三章答案,机器学习,学习,人工智能

西瓜书第三章答案,机器学习,学习,人工智能

矩阵微分公式见南瓜书
西瓜书第三章答案,机器学习,学习,人工智能
原理可见:链接

X T X X^TX XTX满秩,即可逆,可解得:
西瓜书第三章答案,机器学习,学习,人工智能

当不满秩,有多解,常见是奥卡姆剃刀式引入正则化找简单的,具体根据学习算法偏好决定。

广义线性模型:
西瓜书第三章答案,机器学习,学习,人工智能
这样子,是拟合 g ( y ) g(y) g(y)

3.3 对数几率回归

用于二分类任务。
西瓜书第三章答案,机器学习,学习,人工智能
二分类,理想的函数是红线的二分类函数,但是不可导,

所以要找替代函数(surrogate function),例如黑线:
对数几率函数(logistic function):
西瓜书第三章答案,机器学习,学习,人工智能
此时的形式为:
西瓜书第三章答案,机器学习,学习,人工智能
也可以为闭式解。

可以理解为, y y y是正例概率, 1 − y 1-y 1y是反例概率,y/(1-y)就是正例比反例更可能的概率。

绿线是给定y的y/(1-y),蓝线是给定y的ln[y/(1-y)],
期望输入一个x,线性模型可以得到一个合适的y。
西瓜书第三章答案,机器学习,学习,人工智能

求解时,可以用极大似然估计,也就是把每个样本的标签对应的预测求和,让这个和尽可能大。
每个样本都是让下式尽可能接近于1:
西瓜书第三章答案,机器学习,学习,人工智能
β \beta β是要优化的参数,
则是最小化:
西瓜书第三章答案,机器学习,学习,人工智能

西瓜书第三章答案,机器学习,学习,人工智能

西瓜书第三章答案,机器学习,学习,人工智能

二阶导大于0,这是个凸函数,可以梯度下降法或牛顿法等求和。

3.4 线性判别分析

线性判别分析(Linear Discriminant Analysis, LDA):一种二分类方法。

LDA思想:对训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,不同类样例的投影点尽可能远离;对测试集,投影到该直线,根据投影点的位置确定新样本的类别。

西瓜书第三章答案,机器学习,学习,人工智能
具体方法:
直线就是 y = w x y=wx y=wx,x是输入w是参数。
要让正例 y 0 y_0 y0和反例 y 1 y_1 y1的平均值尽可能大,让正反例内的方差尽可能小:
西瓜书第三章答案,机器学习,学习,人工智能
也就是让J尽可能大, μ \mu μ是平均值向量, Σ \Sigma Σ是协方差矩阵。

定义
类内散度矩阵(within-class scatter matrix):
西瓜书第三章答案,机器学习,学习,人工智能
类间散度矩阵(between-class scatter matrix):
西瓜书第三章答案,机器学习,学习,人工智能

西瓜书第三章答案,机器学习,学习,人工智能
J恰好是 S b , S w S_b,S_w Sb,Sw的广义瑞利商(generalized Rayleigh quotient)。

优化方法:
该商只与w方向有关,与w大小无关。
则不妨让分母为1,优化分子:

西瓜书第三章答案,机器学习,学习,人工智能
拉格朗日乘子法(具体见南瓜书)得:
西瓜书第三章答案,机器学习,学习,人工智能
注意, λ \lambda λ只是希望约束和值相切,即垂线平行的,取值不重要,
又由于 S b w S_bw Sbw的方向是 μ 0 − μ 1 \mu_0-\mu_1 μ0μ1(因为后面的 ( μ 0 − μ 1 ) T w (\mu_0-\mu_1)^Tw (μ0μ1)Tw是标量),所以只要数乘该方向向量 λ ( μ 0 − μ 1 ) \lambda(\mu_0-\mu_1) λ(μ0μ1)即可了。
可得:
西瓜书第三章答案,机器学习,学习,人工智能
S w S_w Sw常用奇异值分解表示,为了追求数值稳定性。

可从贝叶斯决策理论角度阐述,可以证明,数据同先验、满足高斯分布且协方差相等,LDA可达最优分类。

推广到多分类任务:
定义:
西瓜书第三章答案,机器学习,学习,人工智能
Sb变为
西瓜书第三章答案,机器学习,学习,人工智能
(和之前N=2时的定义相比,只会差一个权重系数 m 1 m 2 / ( m 1 + m 2 ) m_1m_2/(m_1+m_2) m1m2/(m1+m2),不影响优化结果)

优化目标可为:
西瓜书第三章答案,机器学习,学习,人工智能
tr是各对角线元素之和,最后 W T X W^TX WTX是一个 N − 1 N-1 N1维的向量,N是类别数。


西瓜书第三章答案,机器学习,学习,人工智能

这次的推导也是看南瓜书,原理看链接

W的解是 S w − 1 S b S_w^{-1}S_b Sw1Sb的前N-1个最大的广义特征值对应的特征向量,是最小化损失的有损压缩。

d维变成N-1维的向量,也可以作为降维的方法,可以把维度改为任意的d’而不必是N-1,但是 d ′ ≤ N − 1 d'\le N-1 dN1因为Sb的秩就是N-1。
原因可参考链接,也可以在n=2时验证,理解了2个类别秩为1可以数学归纳法。

之后还是做投影,看和哪个类的距离最近。

3.5 多分类学习

本节介绍了3种模式,通过二分类器达到多分类的目的。
一对一(One vs. One,OvO)
一对其余(One vs. Rest,OvR)
多对多(Many vs. Many,MvM)

OvO和OvR:
西瓜书第三章答案,机器学习,学习,人工智能
MvM之一:纠错输出码(Error Correcting Output Codes,ECOC)
西瓜书第三章答案,机器学习,学习,人工智能
C是类别的编码,f是分类器。

还有DAG形式的MvM等。

3.6 类别不平衡问题

对于二分类,因为y/(1-y)是正例/负例出现的概率。
令m+、m-分别是正负例样本数,那么期望概率是m+/m-的时候,要有以m+/m-为阈值而不是原来的1,即:
西瓜书第三章答案,机器学习,学习,人工智能
具体做法除了以上的“阈值移动(threshold-moving)”,还有反例“欠采样(undersampling)”(这常常结合集成模型防止丢失主要信息),正例“过采样(oversampling)”(这常常使用插值等方法数据增强缓解过拟合)。

此外,令期望出现正例的概率是cost-/cost+也可以作为代价敏感学习的方法,当cost-小时多预测为负,反之亦然。

3.7 阅读材料

习题

西瓜书第三章答案,机器学习,学习,人工智能
西瓜书第三章答案,机器学习,学习,人工智能

当全0向量输入时输出应该是0时。

西瓜书第三章答案,机器学习,学习,人工智能
西瓜书第三章答案,机器学习,学习,人工智能
反证法:当b=0,x=1,就是sigmoid函数,显然非凸。
西瓜书第三章答案,机器学习,学习,人工智能
在书中二阶导>0。
西瓜书第三章答案,机器学习,学习,人工智能
牛顿迭代法:

import numpy as np
import pandas as pd

Set = pd.read_csv("data.csv")

# 数据集
X = np.array(Set[['密度','含糖率']])
# 标签
Y = np.where(np.array(Set[['好瓜']])=='是',1,0)
N,Dy = Y.shape
X = np.append(X,np.ones(N).reshape(N,1),axis=1)
_,Dx = X.shape
X=X.T
Y=Y.T
Beta = np.random.random(size=(Dx,1))

T = 10

for t in range(T):
    p1=np.exp(Beta.T@X)/(1+np.exp(Beta.T@X))
    f1=(-np.sum(X*(Y-p1),axis=1)).reshape(3,1)
    f2=(X*p1*(1-p1))@X.T
    Beta = Beta - np.linalg.inv(f2)@f1
    print('t:',t)
    print('Beta:',Beta)
    print('p1:',p1)

# 可视化
import matplotlib.pyplot as plt

plt.scatter(X[0], X[1], s=10, marker='o')
plt.xlabel('x0')
plt.ylabel('x1')
plt.title('Title')

for i in range(N):
    plt.text(X[0][i], X[1][i], "{},{:.3f}".format(Y[0][i],p1[0][i]))

x=np.array([0.2,0.9])
a = -Beta[0][0]/Beta[1][0]  # 直线斜率
b = -Beta[2][0]/Beta[1][0]  # 直线截距
y_line = a * x + b  # 直线方程
plt.plot(x, y_line, 'r--')

plt.show()

西瓜书第三章答案,机器学习,学习,人工智能
线右上是预测1,左下是预测0.

西瓜书第三章答案,机器学习,学习,人工智能

西瓜书第三章答案,机器学习,学习,人工智能

西瓜书第三章答案,机器学习,学习,人工智能
参考SVM的核函数。

西瓜书第三章答案,机器学习,学习,人工智能
目标是 m a x ( h ( c 0 , c 1 ) + h ( c 0 , c 2 ) + h ( c 0 , c 3 ) + h ( c 1 , c 2 ) + h ( c 1 , c 3 ) + h ( c 2 , c 3 ) ) max(h(c0,c1)+h(c0,c2)+h(c0,c3)+h(c1,c2)+h(c1,c3)+h(c2,c3)) max(h(c0,c1)+h(c0,c2)+h(c0,c3)+h(c1,c2)+h(c1,c3)+h(c2,c3))

h ( c i , c j ) = s u m ( a b s ( c i − c j ) ) h(ci,cj)=sum(abs(ci-cj)) h(ci,cj)=sum(abs(cicj))

不失一般性,任意固定c0,其他进行搜索,运算次数O(227)=O(134,217,728),可以暴力枚举。

西瓜书第三章答案,机器学习,学习,人工智能

之所以要满足这个条件,是因为,如果不是,都会带来更加偏好某一个类的效果。
是否满足该条件?
这个要取决于编码的具体方式,不是二分类能决定的。
但是二分类的分类效果也会影响概率,比如数据不均等。
当编码长度冗余,会影响独立性。
西瓜书第三章答案,机器学习,学习,人工智能
因为期望上影响相互抵消。
西瓜书第三章答案,机器学习,学习,人工智能
多分类都可以是二分类的直接套用。
能获得理论最优解,那么"训练集是真实样本总体的无偏采样"要满足。文章来源地址https://www.toymoban.com/news/detail-717052.html

到了这里,关于【学习笔记、面试准备】机器学习西瓜书要点归纳和课后习题参考答案——第3章的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【大厂AI课学习笔记】【2.2机器学习开发任务实例】(3)数据准备和数据预处理

    项目开始,首先要进行数据准备和数据预处理。 数据准备的核心是找到这些数据,观察数据的问题。 数据预处理就是去掉脏数据。 缺失值的处理,格式转换等。 延伸学习: 在人工智能(AI)的众多工作流程中,数据准备与预处理占据着举足轻重的地位。这两个步骤不仅影响

    2024年02月19日
    浏览(31)
  • 机器学习-神经网络(西瓜书)

    在生物神经网络中,神经元之间相互连接,当一个神经元受到的外界刺激足够大时,就会产生兴奋(称为\\\"激活\\\"),并将剩余的\\\"刺激\\\"向相邻的神经元传导。 神经元模型 模型中 x i x_i x i ​ 表示各个神经元传来的刺激,刺激强度有大有小,所以 w i w_i w i ​ 表示不同刺激的权重

    2024年02月11日
    浏览(23)
  • [机器学习西瓜书]3.线性回归

    介于看完之后老是不知道看了些啥,所以开这么一部分blog对看到的内容进行记录整理 当然知识介绍肯定没有书上写的详细,仅限于自己对内容的整理 试图学习一个通过属性的线性组合来进行预测的函数 这里学到的主要内容 线性回归——最小二乘法 局部加权线性回归 对数几

    2023年04月26日
    浏览(24)
  • 西瓜书习题 - 10.机器学习初步考试

    1、当学习器在训练集上把训练样本自身的一些特征当作了所有潜在样本都具有的一般性质时,泛化性能可能会因此下降,这种现象一般称为 ____。(过拟合/欠拟合) 过拟合 2、对于两个样本点 ( 0 , 0 ) , ( 1 , 1 ) (0,0),(1,1) ( 0 , 0 ) , ( 1 , 1 ) ,若我们将其投影到与拉普拉斯核函数

    2024年02月06日
    浏览(21)
  • 机器学习西瓜书之线性回归

    目的:仅仅通过一个变量预测因变量 举个例子:仅仅通过发量判断程序员水平 此时表示函数: y = ω omega ω x + b 1.2.1 最小二乘估计 目的:基于军方误差最小化来进行模型求解的方法: 对于函数 y = ω omega ω x + b ,我们定义如下公式求解误差: E ( w , b ) = ∑ i = 1 m ( y i − f (

    2024年01月21日
    浏览(27)
  • 机器学习西瓜书之决策树

    从逻辑角度:通过一系列if-else语句进行多重判断,比如白富美的判断条件(“白”“富”“美”)。 从几何角度:根据定义的标准进行样本空间的划分。 以二分类问题为例,我们希望通过一系列的条件进行分类。 以下是算法原理的伪代码图: 比较形象的图: 输入中的训练

    2024年02月20日
    浏览(34)
  • 机器学习西瓜书期末复习(2022HENU)

    选择题 10 * 2 填空题 10 * 1 判断题 10 * 2 简答题 4 * 5 计算题 2 * 15 机器学习的定义 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。 经验在计算机系统中通常以 数据 的形式存在。 机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法

    2024年02月08日
    浏览(25)
  • 【一起啃西瓜书】机器学习-期末复习(不挂科)

    马上西瓜书期末考试,为了不挂科,需要有针对复习,内容来自专业各个学霸及老师的重点划分。 推荐: 【一起啃西瓜书】机器学习总览 卷面共100分,含5种题型,考试时间120分钟。 判断题,8道,每题2分,共16分; 填空题,7道,每题2分,共14分; 简答题,5道,每题4分,共20分; 演

    2024年02月08日
    浏览(36)
  • YOLOV7详细解读(三)技术要点归纳

    继美团发布YOLOV6之后,YOLO系列原作者也发布了YOLOV7。 YOLOV7主要的贡献在于: 1. 模型重参数化 YOLOV7将模型重参数化引入到网络架构中,重参数化这一思想最早出现于REPVGG中。 2. 标签分配策略 YOLOV7的标签分配策略采用的是YOLOV5的跨网格搜索,以及YOLOX的匹配策略。 3. ELAN高效网

    2024年02月05日
    浏览(23)
  • 2023年软考要点归纳-信息系统项目管理

    项目可行性研究报告包含以下内容 :项目概述,项目建设单位概况,需求分析和项目建设的必要性,总体建设方案,本期项目建设方案,项目招标方案,环保、消防、职业安全,项目组织机构和人员培训,项目实施进度,投资估算和资金来源,效益与评价指标分析,项目风险

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包