机器学习算法入门与编程实践

这篇具有很好参考价值的文章主要介绍了机器学习算法入门与编程实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第一章 机器学习概述

1.无监督学习的两个主要任务是(多选)BD

A 回归                                        B 降维

C 分类                                        D 聚类

2.下列对无监督学习描述错误的是  C  

A 无标签                                                B 核心是聚类

C 不需要降维                                        D 具有很好的可解释性

3.下列对有监督学习描述错误的是 D 

A 有标签                                                              B 核心是分类

C 分类分类原因不透明                                        D 所有数据都相对独立分布

4.在以下学习策略中,使用的训练数据只有部分存在标签的是  C  

A 监督学习                                        B 深度学习

C 半监督学习                                    D 无监督学习

5.下面符合特征选择标准的是  A   

A 能够反映不同事物差异的特性                                  B 越多越好

C 越少越好                                                                  D 数值型的必定性数据好

6.给定一定数量的红细胞和白细胞图像及它们对应的标签,设计出一个红细胞和白细胞分类器,这属于   C    问题。

A 半监督学习                                      B 无监督学习

C 监督学习                                         D 以上都可以

7.给定一定数量的红细胞和白细胞图像,但并不知道图像与标签的对应关系,设计出一个红细胞和白细胞分类器,这属于   B    问题。

A 半监督学习                                      B 无监督学习

C 监督学习                                         D 以上都可以

8.机器学习可以用于以下哪些情形?  ABCD  

A 人类无法解释的专业知识                                          B 模型需要基于大量数据

C 当人类专业知识不存在时                                         D 模型必须定制

9.以下哪些领域应用机器学习需要考虑样本不平衡问题?  ABCD  

A 医学诊断                                                    B 预测罕见事件

C 检测信用卡欺诈                                         D 预测故障和失效

10.以下说法正确的是   B   

A 特征的个数越多,机器学习的效果越好                                       

B 样本的数量越多,机器学习的效果越好 

C “过拟合”只在监督学习中出现,在无监督学习中没有“过拟合”                                         

D 特征的个数应该和样本的数量相匹配

11.泛化误差是指  C  

A 训练误差                                                    B 测试误差

C 学习误差                                                   D 测量误差

12.与有监督学习相比,下面那些属于半监督学习的优势?  BD  

A 半监督学习模型训练时间更短                                                    

B 在标注数据量有限时,采用半监督学习有望训练得到更有优的机器学习模型

C 半监督学习 的数学优化问题更容易求解                                                  

D 能够节约大规模数据标注带来的时间和费用的开销

13.简述机器学习的主要步骤。

  1. 收集相关样本
  2. 特征提取
  3. 构建模型
  4. 评估模型的有效性
  5. 使用模型预测新样本

14.简述机器学习中验证集和测试集的区别。

答:验证集:是在模型训练的过程中评估模型,评估之后模型还会继续被修改

        测试集:是在模型训练好之后评估模型,评估之后模型不会再被修改。

15.什么是泛化能力?

答:所谓泛化能力是指模型对未知类别的新鲜样本正确分类的能力。

16.评价机器学习模型优劣的重要指标是什么?

答:泛化能力是评价机器学习模型优劣的最根本的指标

17.简述监督学习和无监督学习的区别。

监督学习:监督学习是从带有类别标签的训练数据中学得一个模型,并基于此模型来预测新样本的标签。

无监督学习:无监督学习是在无标签的训练集中发现数据规律。

两者区别:无监督学习和监督学习的主要区别在于无监督学习的样本没有标签,这使得无监督学习更具有挑战性。

18.特征选择和数据降维有何区别?

数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。

而特征选择,是从 n 个特征中选择 d (d<n) 个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。

注意:数据降维不可以作为特征选择的一种手段。

第二章 Python机器学习与可视化

1、关于Python语言的语法,下列哪项是错误的?(B)

A.python程序中的代码缩进不能随意删除

B.import语句必须写在程序的开始位置

C.print('Hey')输出Hey后会自动换行

D.python语句是区分大小写的

2、下列不属于NumPy数组属性的是(D)

A ndim                        B shape                        C size                        D add

3、创建一个3x3维的数组,下列代码中错误的是(C)
A np.arange(0,9).reshape(3,3)                        B np.eye(3)

C np.random.random([3,3,3])                          D np.mat(np.zeros((3,3)))

4、以下关于绘图标准流程说法错误的是(B)

A 绘图最简单的图形可以不用创建画布

B 添加图例可以在绘制图形之前

C 添加x轴、y轴的标签可以在绘制图形之前

D 添加图的标题可以在ply.show()方法之后

5、下列代码中能够绘制出散点图的是(A)

A plt.scatter(x,y)                                                B plt.plot(x,y)

C plt.legend(x,y)                                                D plt.figure(x,y)

6、下列字符串表示plot线条颜色、点的形状和类型为红色五角星短虚线的是(D)

A 'bs-'                B 'go-.'                C 'r+-.'                D 'r*:'

7、train_test_split()函数的返回值有(D)个。

A 1                     B 2                        C 3                      D 4

8、数据(B)要求知道样本的最大值和最小值。

A  标准化                B 归一化                C 二值化                D 正则化

9、要设置x轴的坐标范围需要用到(B)

A xlabel                B xlim                        C xticks                 D hlines

10、使用Pandas不能读取下列哪种文件(D)

A xlsx                  B txt                        C CSV                        D MDB

11、NumPy提供的两种基本对象是 多维数组对象ndarray    和 通用函数对象ufunc

12、将NumPy一维数组a中的所有元素反转,方法是   a[::-1]   

13、提取NumPy数组中除了最后一列的所有列,方法是 data[:, 0:-1] 

14、创建一个范围在(0,1)之间长度为12的等差数列,方法是  np.linspace(0,1,12)

15、、在Matplotlib中,要绘制多个子图,需要使用  subplot()   函数。

16、train_test_split()函数能将样本划分为  训练集     测试集 

17、数据的  规范化  需要计算样本数据的标准差和均值。

18、在sklearn中,需要训练数据拟合模型,需要使用   fit()   方法。

19、数据的维度是指样本  特征属性 的个数。

20、主成分分析一般用来实现数据的  降维 

21、元组与列表的主要区别是什么?S=(9,6,5,1,55,7)能添加元素吗?

元组中的元素不能修改,但能添加和删除。

S=(9,6,5,1,55,7)能添加元素

22、读取鸢尾花数据集,使用循环和子图绘制各个特征之间的散点图。

import numpy as  np
import matplotlib.pyplot as plt
iris = np.load('d:/tmp/iris.npz',allow_pickle=True)['data'][:, :-1]
name = np.load('d:/tmp/iris.npz',allow_pickle=True)['features_name']
plt.rcParams['font.sans-serif'] = 'SimHei'
p = plt.figure(figsize=(16, 16))
plt.title(“鸢尾花散点图矩阵”)
for i in range(4):
    for j in range(4):
        p.add_subplot(4, 4, (i * 4) + (j + 1))
        plt.scatter(iris[:, i], iris[:, j])
        plt.xlabel(name[i])
        plt.ylabel(name[j])        
plt.savefig(“E:/data.png”)       
plt.show()

23、创建一个长度为10、一个维全为0的ndarray对象,然后让第5个元素等1。

import numpy as np
t1 = np.zeros(10,dtype=int)
print(t1)
t1[4]=1
print(t1)



运行结果:
[0 0 0 0 0 0 0 0 0 0]
[0 0 0 0 1 0 0 0 0 0]

第三章 关联规则与推荐算法

1、下列哪一项不是一个集合?(A)

A 项                        B 项集                        C 事物                        D 事物数据库

2、对于同一个事物数据库中的两条关联规则:A=>C和C=>A,可知(A)

A 它们的支持度一定相等                         B 他们的置信度一定相等

C 它们的支持度不一定相等                     D 他们的置信度不一定相等

3、设{A,B,C}不是频繁项集,则可知(B)
A {A.B}一定不是频繁项集                        B {A,B,C,D}一定不是频繁项集

C {A.B}一定是频繁项集                           D {A,B,C,D}一定是频繁项集

4、若已知{A,B,C}的支持度是50%,C的支持度是75%,则可知(B)

A A,B=>C的置信度是66.6%                        B C=>A,B的置信度是66.6%

C  A,B=>C的置信度是150%                       D C=>A,B的置信度是150% 

5、设N(a)={A,B,E}表示对物品a感兴趣的用户有A、B和E,N(b)={A,C,D}表示对物品b感兴趣的用户有A、C和D,每个用户对各物品的感兴趣程度均为1,则物品a、b之间的相似度为 (A)

A 1/3                        B1/9                           C 1/2                                D 1/6

6、寻找关联规则可分为两步,第一步是着    频繁项集 

7、协同过滤推荐算法使用  余弦相似度   作为指标来评价项与项之间的相似度。

8、经典的关联规则挖掘算法是  Apiori      ,为了提高关联规则的计算效率,改进的关联规则算法是  FP-Growth     

9、假设事物集只有6个项,对于频繁项集3-项集的集合{1,2,3},{1,2,4},{1,2,5},{1,3,4},{2,3,4},{3,4,6}:

(1)列出由Apriori算法得到的所有候选集4-项集。

所有候选四项集

{1,2,3,4},{1,2,3,5},{1,2,3,6},{1,2,4,5},{1,2,5,6},{1,3,4,5},{1,3,4,6},{2,3,4,5},{2,3,4,6},{2,3,5,6},{3,4,5,6}

(2)列出剪枝后剩下的候选4-项集。

剪枝后的候选四项集

{1,2,3,4},{1,2,3,5},{1,2,4,5},{2,3,4,5},{2,3,4,6},{2,3,5,6}

第四章 聚类

 1、在统计学中,数据的类型有3种,不包括(B)

A 定类数据                                                                B 定性数据

C 定距数据                                                                D 定序数据

2、下列那一列不属于聚类算法(B)
A K-中心点                                                                B K近邻

C K-means                                                                D DNSCAN

3、下列那种距离是两点之间的直线距离?(A)
A 欧氏距离                                                                B 曼哈顿距离

C 切比雪夫距离                                                        D 闵科夫斯基距离

4、从性能角度上看,(C)聚类算法的速度是最快的。

A K-中心点                                                                B 层次聚类法

C K-means                                                                D DNSCAN

5、在DBSCAN中,一个簇是一个(C)的区域。

A 密度可达                                                                B 直接密度可达

C 密度相连                                                                D 直接密度相连

6、聚类算法可分为   基于划分的方法       基于层次的方法     、基于密度的方法和基于模型的方法。

7、在聚类算法中是通过   距离     度量相似度的。

8、在sklearn提供的聚类模块中,参数n_clusters用于设置    簇的个数    

9、DBSCAN算法中定义的3类点分别是核心点、    边界点       噪声点    

第五章 分类

1、以下哪种算法生成的决策树一定是二叉树?(C)

A.ID3                     B.C4.5                         C.CART                        D.都不一定

2、在C4.5算法中,若特征属性A的取值只有两种,两种取值的样本数都是5个,则属性A的分裂信息split_info(A)的值为(A)。

A.1                                  B.2                                          C.3                                          D.5

3、以下哪个sklearn函数的参数为训练集?(A)

A.fit()                             B.predict()                          C.fit_predict()                         D.transform(x)

4、如果要在大型数据集上训练决策树,为了花费更少的时间来训练这个模型,下列哪种做法是正确的?(C)

A.增加树的深度                                                          B.增加学习率

C.减小树的深度                                                          D.减少树的数量

5、朴素贝叶斯分类是通过比较各个类别的哪个值的大小进行分类的?(A)

A.P(cⱼ|x)                            B.P(x|cⱼ;)                           C.P(cⱼ)/P(x)                                   D.P(cⱼ;)

6、混淆矩阵的真负率公式是(A)。

A.TP/(TP+FN)                                                             B.FP/(FP+TN)                  

C.FN/(TP+FN)                                                            D.TN/(TN+FP)

7、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是(B)。

A.4/13                         B.8/13                          C.4/7                          D.2/3

8、若某个消息出现的概率是0.25,则该消息的自信息量是___2___。

9、ID3算法选取  信息增益  最大的节点作为根节点;C4.5算法选取  信息增益率  最大的节点作为根节点。

10、在K-近邻算法中,K的含义是  近邻点的个数    ;在K-均值算法中,K的含义是   聚类的类别数 

11、对于分类模型,fit()函数的参数为    训练集的特性    ;对于聚类模型,fit()函数的参数为特征属性集

12、给定贝叶斯公式p(cj|x)=(p(x|cj)p(cj))/p(x)公式中的p(cj|x)称为   后验概率     (填写先验概率、后验概率或全概率)。朴素贝叶斯分类的依据是要求上式中   p(x|cj)p(cj)     的值最大。

13、在决策树分类中,属性的信息增益等于   无条件熵     与   有条件熵     的差。

14、决策树是用样本的属性作为节点,用    属性的取值    作为分支的树结构。

15、CART算法是选择基尼指数    小    (填大或小)的节点作为根节点。

16.只能对离散型数据进行决策树分类的算法是    ID3    

17、Bootstrap重采样技术采用   有放回     (填有放回或无放回)抽样。

18、在sklearn中,fit()函数的返回值是   模型     ,predict()函数的返回值是   标签     

19、什么是训练集?聚类的训练集和分类的训练集有何区别?

训练集是样本集的一部分,在机器学习中用于建立模型和评估模型参数。

聚类的训练集无类别属性(或无标签),而分类的训练集有类别属性(或有标签)。

20、简述分类的一般步骤。

特征提取→特征选择→分类→使用此模型预测新样本→评估效果.分类模型预测结果。            

20、简述什么是集成学习。集成学习的精确率一定比单个学习器的精确率更高吗?

(1)集成学习:多个性能一般的普通模型进行有效集成,形成一个性能优良的集成模型的过程

(2)若学习器的分类准确率较低,则组合生成的集成学习模型的分类准确率会更低,故集成学习准确率不一定比单个学习器的准确率高。

22、设有甲、乙、丙三个车间生产同一种产品,已知各车间的产量分别占全厂产量的25%、35%和40%,各车间的产品次品率依次为5%、4%和2%。现从待出厂的产品中检查出一个次品,试用朴素贝叶斯分类预测该次品最有可能是由哪个车间生产的,并指出该分类的特征属性和类别属性。

次品、车间

第六章 回归与逻辑回归

1、关于逻辑回归模型,以下说法错误的是(D)。

A.逻辑回归属于有监督学习

B.逻辑回归是回归分析的一种

C.逻辑回归使用最大似然估计来训练回归模型

D.逻辑回归的损失函数是通过最小二乘法来定义的

2、hθ(x)=θTX可作为(A)模型的公式

A.逻辑回归                                                           B.多元线性回归

C.多重线性回归                                                   D.神经网络

3.要实现非线性分类,可以使用(B)。

A.多元逻辑回归                B.多项式逻辑回归

C.多重共线性回归            D.非线性逻辑回归

4、对于一个测试样本,逻辑回归模型的输出值     等于   样本属于该类别的概率值。(填等于、小于或大于)

5、回归与分类的区别是,   回归   的预测值是连续值。(填回归或分类)                                   

6、逻辑回归使用   sigmoid     函数对线性回归进行变换。

7、如果直接用线性回归进行分类,会存在什么问题?

无法确定分类的阈值取多少合适。

8、回归与分类的区别是什么?

        分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量的预测;定性输出称为分类,或者说是离散变量的预测。

9、简述使用逻辑回归进行分类的步骤。

①建模;②估计逻辑回归系数;③解释回归系数;④检验模型整体;⑤检验特征变量

第八章 支持向量机

1、使用支持向量机进行非线性分类,需要用到的关键技术是(C)。

A.拉格朗日函数                                                 B.SMO算法

C.核函数                                                           D.软间隔方法

2、松弛变量惩罚项系数在sklearn中用哪个参数进行设置?(A)

A.C                                                                   B.degree

C.tol                                                                 D.coef0

3、如果要对环形分布的数据集进行分类,使用哪种核函数的效果最好?(C)

A.Linear                                                           B.poly

C.RBF                                                             D.Sigmoid

4、下列哪种核函数只能设置gamma参数?(C)

A.linear                                                            B.poly

C.RBF                                                             D.Sigmoid

5、SVM分类的目标是    分类间隔d    最大。

6、SVM间隔的计算公式为   d=2/||w||   

7.所谓支持向量是指距离间隔    最近     (填写远或近)的点

8.如果多项式核函数的   degree     参数设置为1,则相当于线分类。文章来源地址https://www.toymoban.com/news/detail-761660.html

到了这里,关于机器学习算法入门与编程实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习——SMO算法推导与实践

    明天再说,啊。。。。感觉天空明朗了很多,即使现在已经很晚了 还是要打开柯南,看看电视,等待天气预报所说的台风天吧! 一时之间,忽然失去了用markdown语法写下推导过程的勇气。。。以上只是自己在线性可分的情况下,推导的smo算法但实际书本上给出的smo算法,是增

    2024年02月14日
    浏览(38)
  • 机器学习入门--门控循环单元(GRU)原理与实践

    随着深度学习领域的快速发展,循环神经网络(RNN)已成为自然语言处理(NLP)等领域中常用的模型之一。但是,在RNN中,如果时间步数较大,会导致梯度消失或爆炸的问题,这影响了模型的训练效果。为了解决这个问题,研究人员提出了新的模型,其中GRU是其中的一种。

    2024年02月20日
    浏览(34)
  • 《Python编程从入门到实践》学习笔记03列表

    [‘trek’, ‘cannondale’, ‘redline’, ‘specialized’] trek cannondale redline specialized specialized redline ada lovelace My first bicycle was a Trek. [‘honda’, ‘yamaha’, ‘suzuki’] [‘ducati’, ‘yamaha’, ‘suzuki’] [‘honda’, ‘yamaha’, ‘suzuki’, ‘ducati’] [‘honda’, ‘yamaha’] [‘honda’, ‘yamaha’, ‘

    2024年02月07日
    浏览(38)
  • 《Python编程从入门到实践》学习笔记05If语句

    Audi BMW Subaru Toyota True False False True ‘Audi’ Hold the anchovices! True This is not the correct answer. True False False True True False True False Marie,you can post a response if you wish. you are old enough to vote! you are old enough to vote! Have you registered to vote yet? Sorry,you are too young to vote Please register to vote as soon as you

    2024年02月07日
    浏览(39)
  • 【零基础入门学习Python---Python网络编程之django快速入门实践】

    🚀 Python 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,CSDN-Java领域优质创作者🏆,保研|国家奖学金|高中学习JAVA|大学完善JAVA开发技术栈|面试刷题|面经八股文|经验

    2024年02月16日
    浏览(39)
  • 编程探秘:Python深渊之旅-----机器学习入门(七)

    团队决定在他们的项目中加入一些机器学习功能。瑞宝,对新技术充满好奇,跃跃欲试地想了解更多。 瑞宝 (兴奋地):我一直想学习机器学习,现在终于有机会了! 龙 (微笑着):机器学习是一个很广阔的领域,让我们从基础开始。我们可以使用 Python 的 scikit-learn 库来

    2024年01月20日
    浏览(57)
  • 【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战,适合新人入门

    项目链接合集(必看) 项目专栏合集https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc 必看 A.机器学习系列入门系列[一]:基于鸢尾花的逻辑回归分类预测: 逻辑回归(Logistic regression,简称LR)虽然其中带有\\\"回归\\\"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领

    2023年04月17日
    浏览(86)
  • python编程从入门到实践(第2版)学习笔记(变量,字符串)

    变量是一种可以赋给值的标签。每一个变量都指向一个相关联的值,下列代码中 message 即为变量,指向的值为“Hello Python world !” 第二行的 print() 函数用于打印输出这个 message 变量所关联的值。 且变量的值是可以修改的,python中只有变量的最新值有效如下列代码。     变量

    2024年02月12日
    浏览(50)
  • 利用 Apache Spark 和 Databricks 进行企鹅种类预测的机器学习实践入门

    这里演示使用 Apache Spark 和 Databricks 平台进行企鹅物种预测的完整机器学习流程。首先,通过 Databricks 笔记本下载关于企鹅的特征数据,包括岛屿、喙的长度和深度、鳍状肢长度、体重和种类。然后进行数据清洗,包括删除缺失数据和数据类型转换。随后,数据被分为70%的训

    2024年01月19日
    浏览(40)
  • Python 机器学习入门 - - 决策树算法学习笔记

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 ChatGPT一问世就给整个社会带来巨大的震撼和冲击,不禁让人惊叹现在AI的强大,我们好像离通用人工智能更近一步。在过去十几年人工智能领域的蓬勃发展中,扮演着主导地位的算法基本都是神经网络和

    2023年04月08日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包