python机器学习——机器学习相关概念 & 特征工程

这篇具有很好参考价值的文章主要介绍了python机器学习——机器学习相关概念 & 特征工程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


机器学习

python机器学习——机器学习相关概念 & 特征工程
python机器学习——机器学习相关概念 & 特征工程
python机器学习——机器学习相关概念 & 特征工程
监督学习:输入数据有特征有标签,即有标准答案

  • 分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

  • 回归:线性回归、岭回归

  • 标注:隐马尔可夫模型 (不做要求)

无监督学习:输入数据有特征无标签,即无标准答案

  • 聚类:k-means

python机器学习——机器学习相关概念 & 特征工程
python机器学习——机器学习相关概念 & 特征工程

特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性

python机器学习——机器学习相关概念 & 特征工程

1.特征抽取

通过演示得出结论:
• 特征抽取针对非连续型数据
• 特征抽取对文本等进行特征值化
字典特征抽取:对字典数据进行特征值化
One—hot编码

python机器学习——机器学习相关概念 & 特征工程

# 特征抽取
# 导入包
from sklearn.feature_extraction import DictVectorizer

def dictves():
    """
    字典数据处理
    :return:小王
    """
    #实例化
    dict=DictVectorizer(sparse=False)
    #调用fit_transform
    data=dict.fit_transform([{'city': '北京','temperature':100},{'city': '上海','temperature':60},{'city': '深圳','temperature':30}])
    print(data)
    return None
if __name__ == '__main__':
    dictves()

文本特征抽取:对文本数据进行特征值化

python机器学习——机器学习相关概念 & 特征工程
流程:

python机器学习——机器学习相关概念 & 特征工程

# 特征抽取
# 导入包
from sklearn.feature_extraction.text import CountVectorizer
def dictves():
    """
    字典数据处理
    :return:小王
    """
    #实例化
    dict=CountVectorizer()
    #调用fit_transform
    data=dict.fit_transform(["life is short,i like python","life is too long,i dislike python"])
    print(data.toarray())#sprase矩阵转换成数组
    print(dict.get_feature_names())
    return None

if __name__ == '__main__':
    dictves()

Jieba结巴分词:对三段话进行特征值化——流程

python机器学习——机器学习相关概念 & 特征工程

# 特征抽取# 导入包
from sklearn.feature_extraction.text import CountVectorizer
import jieba

def cutword():
    c11=jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。")
    c21=jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。")
    c31=jieba.cut("如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")
    #转换成列表
    content1 = list(c11)
    content2 = list(c21)
    content3 = list(c31)
    #列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)
    return c1,c2,c3

def hanzivec():
    """
    中文特征值化
    :return:小王
    """
    #实例化
    c1,c2,c3=cutword()
    dict=CountVectorizer()
    #调用fit_transform
    data=dict.fit_transform([c1,c2,c3])
    print(dict.get_feature_names())
    print(data.toarray())#sprase矩阵转换成数组
    return None

if __name__ == '__main__':
    hanzivec()

python机器学习——机器学习相关概念 & 特征工程
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

python机器学习——机器学习相关概念 & 特征工程

# 特征抽取# 导入包
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import jieba

def cutword():
    c11=jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。")
    c21=jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。")
    c31=jieba.cut("如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")
    #转换成列表
    content1 = list(c11)
    content2 = list(c21)
    content3 = list(c31)
    #列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)
    return c1,c2,c3

def hanzivec():
    """
    中文特征值化
    :return:小王
    """
    #实例化
    c1,c2,c3=cutword()
    dict=TfidfVectorizer()
    #调用fit_transform
    data=dict.fit_transform([c1,c2,c3])
    print(dict.get_feature_names())
    print(data.toarray())#sprase矩阵转换成数组
    return None

if __name__ == '__main__':
    hanzivec()

2.特征处理

python机器学习——机器学习相关概念 & 特征工程
python机器学习——机器学习相关概念 & 特征工程

2.1 归一化:传统精确小数据

python机器学习——机器学习相关概念 & 特征工程

from sklearn.preprocessing import MinMaxScaler
def mm():
    """
    归一化处理
    :return: None
    """
    mm = MinMaxScaler(feature_range=(2, 3))
    data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])
    print(data)
    return None
if __name__ == '__main__':
    mm()

注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。

python机器学习——机器学习相关概念 & 特征工程

2.2 标准化:大多数情况

python机器学习——机器学习相关概念 & 特征工程
python机器学习——机器学习相关概念 & 特征工程
在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

3.数据降维

维度:特征的数量

3.1特征选择

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。

python机器学习——机器学习相关概念 & 特征工程python机器学习——机器学习相关概念 & 特征工程

from sklearn.feature_selection import VarianceThreshold

def seltz():
    """
       特征选择
       :return: None
       """
    mm = VarianceThreshold()
    data = mm.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
    print(data)
    return None

if __name__ == '__main__':
    seltz()

3.2主成分分析PCA

本质:PCA是一种分析、简化数据集的技术
目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。
作用:可以削减回归分析或者聚类分析中特征的数量

python机器学习——机器学习相关概念 & 特征工程

from sklearn.decomposition import PCA

def pcaz():
    """
       PCA
       :return: None
       """
    mm = PCA(n_components=0.94)
    data = mm.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
    print(data)
    return None

if __name__ == '__main__':
    pcaz()

案例:超市订单分析

python机器学习——机器学习相关概念 & 特征工程
python机器学习——机器学习相关概念 & 特征工程文章来源地址https://www.toymoban.com/news/detail-501226.html

import pandas as pd
prior=pd.read_csv("F:\python\data\order_products__prior.csv")
products=pd.read_csv("F:\python\data\products.csv")
orders=pd.read_csv("F:\python\data\orders.csv")
aisles=pd.read_csv("F:\python/data/aisles.csv")
#合并四张表到一张表(用户——物品类别)
data1=pd.merge(prior,products,on=["product_id","product_id"])
data2=pd.merge(data1,orders,on=["order_id","order_id"])
data=pd.merge(data2,aisles,on=["aisle_id","aisle_id"])
#交叉表(特殊的分组工具)
cross=pd.crosstab(data["use_id"],data["aisles"])

到了这里,关于python机器学习——机器学习相关概念 & 特征工程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习:特征工程之特征预处理

    目录 特征预处理 1、简述 2、内容 3、归一化 3.1、鲁棒性 3.2、存在的问题 4、标准化 ⭐所属专栏:人工智能 文中提到的代码如有需要可以私信我发给你😊 什么是特征预处理:scikit-learn的解释: provides several common utility functions and transformer classes to change raw feature vectors into a r

    2024年02月12日
    浏览(34)
  • 机器学习重要内容:特征工程之特征抽取

    目录 1、简介 2、⭐为什么需要特征工程 3、特征抽取 3.1、简介 3.2、特征提取主要内容 3.3、字典特征提取 3.4、\\\"one-hot\\\"编码 3.5、文本特征提取 3.5.1、英文文本 3.5.2、结巴分词 3.5.3、中文文本 3.5.4、Tf-idf ⭐所属专栏:人工智能 文中提到的代码如有需要可以私信我发给你噢😊 特

    2024年02月12日
    浏览(28)
  • 机器学习特征工程学习笔记(一)

            机器学习特征工程是指在机器学习任务中对原始数据进行转换、提取和选择,以创建更有效、更具有表征能力的特征的过程。良好的特征工程可以显著提升模型的性能,并帮助解决数据中存在的各种问题。         以下是一些常见的机器学习特征工程技术:

    2024年02月11日
    浏览(31)
  • 机器学习基础之《特征工程(4)—特征降维》

    一、什么是特征降维 降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 1、降维 降低维度 ndarry     维数:嵌套的层数     0维:标量,具体的数0 1 2 3...     1维:向量     2维:矩阵     3维:多个二维数组嵌套     n维:继续嵌套

    2024年02月13日
    浏览(29)
  • 机器学习-特征工程

    1.1 什么是特征 数值特征(连续特征)、文本特征(离散特征) 1.2 特征的种类  1.3 特征工程 特征是机器学习可疑直接使用的,模型和特征之间是一个循环过程; 实际上特征工程就是将原始数据处理成机器学习可以直接使用数据的过程; 特征工程,降噪、将特征转化为数字

    2024年02月06日
    浏览(28)
  • 机器学习7:特征工程

    在传统的软件工程中,核心是代码,然而,在机器学习项目中,重点则是特征——也就是说,开发人员优化模型的方法之一是增加和改进其输入特征。很多时候,优化特征比优化模型带来的增益要大得多。 笔者曾经参与过一个“商品推荐”的项目,在项目中,笔者发现商品的

    2024年02月11日
    浏览(33)
  • 机器学习——特征工程

    对于机器学习特征工程的知识,你是怎样理解“特征” 在机器学习中,特征(Feature)是指从原始数据中提取出来的、用于训练和测试机器学习模型的各种属性、变量或特点。特征可以是任何类型的数据,例如数字、文本、图像、音频等等。 特征工程是机器学习中非常重要的

    2024年02月05日
    浏览(25)
  • 机器学习 特征工程

    特征工程就是将原始数据空间映射到新的特征向量空间,使得在新的特征空间中,模型能够更好地学习数据中的规律。如果特征工程做的足够好,即使是简单的模型,也能表现出非常好的效果。而复杂的模型可以在一定程度上减少特征工程的工作量。例如,对于线性模型,我

    2023年04月19日
    浏览(26)
  • 机器学习基础之《特征工程(3)—特征预处理》

    一、什么是特征预处理 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程 处理前,特征值是数值,处理后,进行了特征缩放 1、包含内容 数值型数据的无量纲化: 归一化 标准化 2、特征预处理API sklearn.preprocessing 3、为什么我们要进行归一化/标准化 特征

    2024年02月14日
    浏览(22)
  • [机器学习]特征工程:主成分分析

    目录 主成分分析 1、简介 2、帮助理解 3、API调用 4、案例 本文介绍主成分分析的概述以及python如何实现算法,关于主成分分析算法数学原理讲解的文章,请看这一篇: 探究主成分分析方法数学原理_逐梦苍穹的博客-CSDN博客 https://blog.csdn.net/qq_60735796/article/details/132339011 感谢大

    2024年02月12日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包