聊聊基于Alink库的特征工程方法

这篇具有很好参考价值的文章主要介绍了聊聊基于Alink库的特征工程方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

独热编码

OneHotEncoder 是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式,特别适用于处理类别型特征,将其转换为数值型特征。
对于每个类别型特征,OneHotEncoder 将其编码成一个长度为类别数量的向量。
每个类别对应一个维度,如果样本的该特征值为该类别,则对应维度置1,其他维度置0。

示例:

List <Row> df = Arrays.asList(
        Row.of("a", 1),
        Row.of("b", 1),
        Row.of("c", 1),
        Row.of("e", 2),
        Row.of("a", 2),
        Row.of("b", 1),
        Row.of("c", 2),
        Row.of("d", 2),
        Row.of(null, 1)
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "query string, weight int");
OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setEncode(Encode.VECTOR);
// 或者单独设置输出列
// OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setOutputCols("output");
one_hot.fit(inOp).transform(inOp).print();

输出结果如下所示:

query weight
$5$0:1.0 1
$5$1:1.0 1
$5$2:1.0 1
$5$ 2
$5$0:1.0 2
$5$1:1.0 1
$5$2:1.0 2
$5$3:1.0 2
$5$4:1.0 1

向量聚合

VectorAssembler 是用于将多列特征合并为单列特征向量的类。它将多个特征列的值合并为一个特征向量,通常用于特征工程的最后阶段,以准备机器学习模型的输入特征。
对于每个样本,VectorAssembler 将选定的特征列的值合并成一个特征向量。特征向量的维度等于选定的特征列数,每个维度对应一个特征列的值。

合并的特征列仅支持数值类型。

示例:

List <Row> df = Arrays.asList(
        Row.of("0", "$6$1:2.0 2:3.0 5:4.3", "3.0 2.0 3.0"),
        Row.of("1", "$8$1:2.0 2:3.0 7:4.3", "3.0 2.0 3.0"),
        Row.of("2", "$8$1:2.0 2:3.0 7:4.3", "2.0 3.0 2.2")
);
MemSourceBatchOp data = new MemSourceBatchOp(df, "id string, c0 string, c1 string");
VectorAssembler res = new VectorAssembler()
        .setSelectedCols("c0", "c1")
        .setOutputCol("table2vec");
res.transform(data).print();

输出结果如下所示:

id c0 c1 table2vec
0 $6$1:2.0 2:3.0 5:4.3 3.0 2.0 3.0 $9$1:2.0 2:3.0 ... 8:3.0
1 $8$1:2.0 2:3.0 7:4.3 3.0 2.0 3.0 $11$1:2.0 2:3.0 ... 10:3.0
2 $8$1:2.0 2:3.0 7:4.3 2.0 3.0 2.2 $11$1:2.0 2:3.0 ... 10:2.2

特征哈希

FeatureHasher 是用于将多列特征进行哈希映射,将特征合并成特征向量的类。
对于每个样本,将选定的特征列的值进行哈希映射,得到特征向量的维度。每个特征列的值经过哈希函数映射到特征向量的对应维度,形成一个特征向量。
这种方式可以降低特征维度,减少内存和计算资源的消耗,尤其适用于高维稀疏特征。

不限于数值类型的数据

示例:

List<Row> df1 = Arrays.asList(
        Row.of(1.1, true, 2, "A"),
        Row.of(1.1, false, 2, "B"),
        Row.of(1.1, true, 1, "B"),
        Row.of(2.2, true, 1, "A")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df1, "double double, bool boolean, number int, str string");
FeatureHasher binarizer = new FeatureHasher().setSelectedCols("double", "bool", "number", "str").setOutputCol("output").setNumFeatures(3);

输出结果如下所示:

double bool number str output
1.1000 true 2 A $3$0:3.0 1:1.1 2:1.0
1.1000 false 2 B $3$0:3.0 1:1.1 2:1.0
1.1000 true 1 B $3$0:2.0 1:1.1 2:1.0
2.2000 true 1 A $3$0:2.0 1:2.2 2:1.0

文本特征生成

DocCountVectorizer 用于将文本数据转换为文本特征向量。它主要适用于文本数据的特征抽取和处理,以便进一步用于机器学习模型的训练和预测。主要用于自然语言处理(NLP)任务,如文本分类、情感分析、主题建模等。

特征抽取过程:

  • 对于每个文本数据,DocCountVectorizer 统计每个词汇在文本中的出现次数,作为特征向量的值。

  • 每个文本对应一个特征向量,特征向量的维度为词汇表的大小。

Alink库封装的DocCountVectorizer支持生成多种类型的特征向量,支持IDF/WORD_COUNT/TF_IDF/Binary/TF。默认是WORD_COUNT特征类型,即单词出现的频率。

示例:

List <Row> df = Arrays.asList(
        Row.of(0, "二手旧书:医学电磁成像"),
        Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"),
        Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),
        Row.of(3, "二手中国糖尿病文献索引"),
        Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline()
        .add(new Segment().setSelectedCol("text")) // 分词
        .add(new DocCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec"));
pipeline.fit(inOp).transform(inOp).print();

输出结果如下所示:

id text vec
0 二手 旧书 : 医学 电磁 成像 $37$10:0.1831020481113516 14:0.1831020481113516 ... 34:0.1831020481113516
1 二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969 $37$0:0.04077336356234972 1:0.04077336356234972 ... 35:0.06462425227459469
2 二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社 $37$5:0.0915510240556758 6:0.0915510240556758 ... 36:0.1831020481113516
3 二手 中国 糖尿病 文献 索引 $37$8:0.21972245773362198 9:0.21972245773362198 ... 32:0.21972245773362198
4 二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书 $37$0:0.046209812037329684 1:0.046209812037329684 ... 30:0.07324081924454065

文本哈希特征生成

DocHashCountVectorizer 将文本数据中的每个词汇通过哈希函数映射到特征向量的维度,得到特征向量。
特征向量的维度由用户设置的参数 numFeatures 决定,通常较小以减少维度。

示例:

List <Row> df = Arrays.asList(
        Row.of(0, "二手旧书:医学电磁成像"),
        Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"),
        Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),
        Row.of(3, "二手中国糖尿病文献索引"),
        Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline()
        .add(new Segment().setSelectedCol("text"))
        .add(new DocHashCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec").setNumFeatures(3));
pipeline.fit(inOp).transform(inOp).print();

输出结果如下所示:

id text vec
0 二手 旧书 : 医学 电磁 成像 $3$0:-0.7331685343967134 1:-0.5207269374140805
1 二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969 $3$0:-0.776296095243579 1:-0.24504797054780258 2:-0.21559781926450705
2 二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社 $3$0:-0.7331685343967134 1:-0.17357564580469348 2:-0.30543024395805163
3 二手 中国 糖尿病 文献 索引 $3$0:-0.2932674137586854 1:-0.4165815499312644 2:-0.366516292749662
4 二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书 $3$0:-0.5865348275173707 1:-0.34715129160938696 2:-0.24434419516644132

Word2Vec

Word2Vec是Google在2013年开源的一个将词表转为向量的算法,其利用神经网络,可以通过训练,将词映射到K维度空间向量,它主要用于将单词表示成高维空间中的向量,以便能够在计算机上更好地处理自然语言文本。Word2Vec 提供了一种有效的方式来捕获单词之间的语义关系,这对于自然语言处理任务非常有用。

Word2Vec有两种主要模型:Skip-gram和Continuous Bag of Words (CBOW)。
Skip-gram模型是预测上下文单词,而CBOW模型是预测中心单词。

示例:

List <Row> df = Arrays.asList(
        Row.of("A B C")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "tokens string");
Word2Vec word2vec = new Word2Vec().setSelectedCol("tokens").setMinCount(1).setVectorSize(2).setOutputCol("vec");
word2vec.fit(inOp).transform(inOp).print();

输出结果如下所示:

tokens vec
A B C 0.7309789158041142 0.40841706187852966

我的博客即将同步至腾讯云开发者社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=11e2afjwefnzt文章来源地址https://www.toymoban.com/news/detail-711019.html

到了这里,关于聊聊基于Alink库的特征工程方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人口普查数据集独热编码转换

    在机器学习中,数据的表示方式对于模型算法的性能影响很大,寻找数据最佳表示的过程被称为“特征工程”,在实际应用中许多特征并非连续的数值,比如国籍、学历、性别、肤色等,这些特征被称为离散特征(或分类特征),对于多数模型来说,需要预先对离散特征进行

    2023年04月15日
    浏览(26)
  • 05 神经网络语言模型(独热编码+词向量的起源)

    博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看 配套 github 链接:https://github.com/nickchen121/Pre-training-language-model 配套博客链接:https://www.cnblogs.com/nickchen121/p/15105048.html 统计+语言模型–》用统计的方法去完成以下两个和人说的话相关的任务 语言模

    2024年02月14日
    浏览(25)
  • 机器学习之独热编码(One-Hot)

    一、背景 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等。这些特征值并不是连续的,而是离散的,无序的。通常我们需要对其进行特征数字化。那什么是特征数字化呢?例子如下:     性别特征:[\\\"男\\\",\\\"女\\\"] =[0,1]    

    2024年01月23日
    浏览(38)
  • FPGA中有限状态机的状态编码采用格雷码还是独热码?

            有限状态机是由寄存器组和组合逻辑构成的硬件时序电路,其状态(即由寄存器组的1和0的组合状态所构成的有限个状态)只可能在同一时钟跳变沿的情况下才能从一个状态转向另一个状态,究竟转向哪一状态还是留在原状态不但取决于各个输入值,还取决于当前

    2024年02月05日
    浏览(62)
  • 数据特征工程 | 基于PCA算法(Python)

    随着数据量的不断增加和数据维度的不断扩展,如何进行高效的数据降维处理成为了一个热门话题。在数据分析领域,PCA算法作为一种常用的数据降维方法,可以对多个特征进行降维,提高计算效率和降低存储空间需求。本文以波士顿房价数据集为例,探讨如何利用PCA算法对

    2024年02月08日
    浏览(30)
  • 【AI读论文】CAAFE:基于大模型的自动特征工程

    Title:Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering Paper: https://arxiv.org/pdf/2305.03403.pdf GitHub: https://github.com/automl/CAAFE PS:该论文已被NeurIPS 2023接收! 本文介绍了一种名为Context-Aware Automated Feature Engineering (CAAFE)的方法,该方法利用大型

    2024年02月01日
    浏览(27)
  • 【大厂AI课学习笔记】【2.1 人工智能项目开发规划与目标】(7)特征工程的基本方法

    今天来学习特征工程的基本方法。 基本方法包括:特征选择(Feature Selection)、特征提取(Feature Extraction)和特征构建(Feature Construction)。 从给定的特征集合中选出相关特征子集的过程。 去除无关特征,降低特征学习难度,让模型简单,降低计算复杂度。 抛弃这部分特征

    2024年02月22日
    浏览(37)
  • 【机器学习】数据清洗——基于Pandas库的方法删除重复点

    🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 引言 在机器学习领域,高质量的数据是构建强大模型的基石。而数据清洗作为数据预处理的关键

    2024年02月20日
    浏览(30)
  • 【Linux拓展】ncurses库的安装和使用 {ncurses库的安装方法,ncurses库的使用手册,基于终端的贪吃蛇游戏}

    ncurses库是一个用于创建基于终端的交互式应用程序的库。它提供了一套API,用于处理终端界面的输入和输出,以及控制终端的光标位置、颜色、窗口等。 使用ncurses库,您可以在终端中创建复杂的文本界面,包括窗口、菜单、按钮、文本框等。您可以使用函数来控制光标的位

    2024年02月08日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包