常见三种编码方式

这篇具有很好参考价值的文章主要介绍了常见三种编码方式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


最近复习一些书,记录一下。在特征工程中,数据集经常会出现分类变量,这时候的分类变量可能是字符型,通常不能直接用于训练模型,这时需要对分类变量进行编码,用编码后的结果代入训练模型。下面以房子朝向为例:
import pandas as pd
df = pd.DataFrame({'房子编号':[1, 2, 3, 4, 5],
                  '朝向':['东', '南', '西', '北', '南']})
df

常见三种编码方式
这里介绍三种常见的编码方式,直接编数字没有放进来。这三种分别是 one-hot 编码、虚拟编码、效果编码。编码方式可以从 one-hot 编码开始,也就是对于一个有 n n n 个种类的分类变量,通过 0 , 1 0,1 0,1 构造出 n n n 个特征,对应特征就用 1 1 1 表示,其余特征用 0 0 0 表示;虚拟编码就是用 n − 1 n-1 n1 列表示 n n n 个特征,相比于 one-hot 编码,这里有一个类别会用全 0 0 0 来表示;效果编码相比于虚拟编码,就是将全 0 0 0 表示的类别用全 − 1 -1 1 表示。

编码方式 n n n 个类别的特征数 特点
one-hot n n n 每一类都有 n − 1 n-1 n1 0 0 0 1 1 1 1 1 1
虚拟编码 n − 1 n-1 n1 其中一类全是 0 0 0
效果编码 n − 1 n-1 n1 其中一类全是 − 1 -1 1
数值编码 1 1 1 直接给类别标序号,无实际意义

1. one-hot 编码

df_one_hot = pd.get_dummies(df, columns=['朝向'])
df_one_hot

常见三种编码方式

2. 虚拟编码

df_xn = pd.get_dummies(df, columns=['朝向'], drop_first=True)
df_xn

常见三种编码方式

3. 效果编码

df_xg = df_xn.copy().astype('int')
df_xg.iloc[0,1:4] = -1.0
df_xg

常见三种编码方式
参考书籍:
【1】爱丽丝 ⋅ \cdot 郑,阿曼达 ⋅ \cdot 卡萨丽.《精通特征工程》文章来源地址https://www.toymoban.com/news/detail-432781.html

到了这里,关于常见三种编码方式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • (淘宝/天猫/1688等)电商数据采集的方式有多种。以下是一些常见的方式♀

    电商数据采集的方式有多种。以下是一些常见的方式: ✔1. 爬虫技术:使用编程语言(如Python)编写网络爬虫程序,通过模拟浏览器行为访问电商网站,并从网页中提取所需的数据。这种方式需要具备一定的编程和网络知识。 ✔2. API接口 :很多电商平台都提供了开放API接口

    2024年03月14日
    浏览(52)
  • 【工作记录】mysql中实现分组统计的三种方式

    前言 实际工作中对范围分组统计的需求还是相对普遍的,本文记录下在mysql中通过函数和sql完成分组统计的实现过程。 数据及期望 比如我们获取到了豆瓣电影top250,现在想知道各个分数段的电影总数. 表数据如下: 期望结果: 实现方案 主要思路是根据score的范围设置别名,然

    2024年02月13日
    浏览(56)
  • 使用MFC && CAD 的一些使用方式记录【追加ing】

    1. 项目调试:由于项目很大,因此,我们调试的时候,不应该编译整个软件而是应该只编译对应的 类去做处理  2. debug 设置断点方面: 以往我们的操作都是在.exe直接执行文件上进行操作,但是,现在,由于我是对arx进行的二次开发,相当于生成的是 dll 动态链接库,那么,

    2024年02月16日
    浏览(38)
  • R语言实操记录——获取包的三种渠道及安装包的三种方式

    R语言实操记录——获取包的三种渠道及安装包的三种方式 渠道1 、CRAN:R语言的官网,里面包含有绝大多部分领域的大部分包。 渠道2 、Bioconductor:生物专业的相关网页,包含有大部分的专业数据分析包。 渠道3 、Github:一部分还未被官网收录的包或者比较新的包会被发布在

    2024年02月07日
    浏览(52)
  • 还原Sql Server数据库BAK备份文件的三种方式及常见错误

    这是演示的是Sql Server 2008R2版本,不同版本可能有细微差别 右键点击数据库→还原数据库    在还原的源中选择源设备→点击选择框  在指定备份中点击添加→选择具体文件→确定→确定  勾选用于还原的备份集→这时目标数据库中会自动生成目标数据库名,在此选择即可→

    2023年04月08日
    浏览(71)
  • 【踩坑记录】字节流数据按照string的方式读取然后按照string的方案存储,编码导致二进制数据发生变化,原理记录

    ​ 目录   问题缘由 背后原理 C#代码示例 总结           由于公司需求,需要读取游戏Redis数据做内外网数据迁移,没有与游戏组过多的沟通。  使用的数据类型是Hash, key是string,value是byte[]。以前对于编码的理解是:计算机底层存储的永远是01的二进制数据,编码是一种

    2024年02月07日
    浏览(55)
  • 我最近的练习一些全栈项目

    嘿,大家好!作为一个程序员,我突然出现在这里,就像程序里的一个Bug一样突兀。我知道我很久没有发博客了,你们一定在想,这家伙是被代码迷宫困住了还是被Bug们抓走了?实际上,我一直忙于处理一些琐碎的事情,比如寻找丢失的分号和与花括号的恶战。但是,我发现

    2024年02月06日
    浏览(37)
  • 小白最近比较闲,于是整理了一些日常使用的VUE组件

        VUE中,给 Dom 元素动态添加样式。     比如判断通过页面传递过来的值和env文件中配置的值是否一致,来动态添加元素的类,同时类的样式在 Style 中已经写好。  此时动态类名需要在 Dom 元素加载完成前添加上,否则样式可能添加不上。  这种情况下可以在   computed

    2024年02月10日
    浏览(41)
  • 最近网络上的移动手机大流量卡,三种坑让你避免中招!

    小伙伴们都知道,移动手机流量卡在信号上比较于联通电信是有一定的优势的,移动基站多,自然信号就会更好些,所以,一般选择手机流量卡的小伙伴们都会优先考虑移动手机流量卡。 不过现在并不是入手移动手机流量卡的好时机,因为现在4大运营商还在竞合之中,只有

    2024年02月14日
    浏览(44)
  • 最近给shopify跨境电商网站搞google搜索引擎的seo优化,整理了一些内容

     接到一个网站,首先要做一些工作,然后按照这个步骤做好每一步,网站的搜索排名会有明显的效果。 对网站进行技术审核,以确保它符合搜索引擎的技术要求。 研究并确定目标。 优化网站内容,以便更好地针对目标。 建立高质量的外部链接,以提高

    2024年02月10日
    浏览(80)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包