【工程实践】np.loadtxt()读取数据

这篇具有很好参考价值的文章主要介绍了【工程实践】np.loadtxt()读取数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

        机器学习中可使用np.loadtxt()可以高效的导入数据,np.loadtxt()适合.txt文件和.csv文件。但是它默认读取float类型的值。

1.np.loadtxt()读取txt文件

1-1 基础参数

numpy.loadtxt(
    fname, dtype=, comments='#', 
    delimiter=None, converters=None, 
    skiprows=0, usecols=None, 
    unpack=False, ndmin=0)

1-2 参数详解 

fname要读取的文件、文件名、或生成器。
dtype数据类型,默认float。
comments注释。
delimiter分隔符,默认是空格。
skiprows跳过前几行读取,默认是0,必须是int整型。
usecols要读取哪些列,0是第一列。例如,usecols = (1,4,5)将提取第2,第5和第6列。默认读取所有列。
unpack如果为True,将分列读取。

1-3 应用示例

        文件的存储路径为:'./data.txt', 文件内容如下:

【工程实践】np.loadtxt()读取数据

 1-3-1 fname

        fname可以是文件的路径也可以是要读取的文件。 

#根据文件名直接读取
data = np.loadtxt('./data/data.csv')

【工程实践】np.loadtxt()读取数据

 1-3-2 dtype

        dtype默认为np.float32类型,也可以设置为其他类型,比如int。设置为其他dtype时需要考虑数据本身的类型。

#设置dtype
data = np.loadtxt('./data/data.csv',dtype=np.float32)
#设置dtype
data = np.loadtxt('./data/data.csv',dtype=int)

【工程实践】np.loadtxt()读取数据

  1-3-3 comments

        comment的是指, 如果行的开头为comment的值,那在读取时就会跳过该行。示例代码中comment  = '1',则在读取数据时,会跳过开头为1的行。

data = np.loadtxt('./data.txt',dtype = int,comments='1')

【工程实践】np.loadtxt()读取数据

1-3-4 delimiter 

        delimiter是分隔符,默认是空格。

data = np.loadtxt('./data.txt',dtype = int,comments='1',delimiter=' ')

【工程实践】np.loadtxt()读取数据

        我们改变一下数据,将数据中的分隔符改为','之后再重新读取。

data = np.loadtxt('./data.txt',dtype = int,delimiter=',')

【工程实践】np.loadtxt()读取数据

 1-3-5 skiprows

        skiprows跳过前几行读取,默认是0,必须是int整型。skiprows = 2则表示跳过前两行读取数据。

data = np.loadtxt('./data.txt',dtype = int,delimiter=',',skiprows=2)

        读取数据时,设定 skiprows = 2,则将前两行跳过,从第三行开始读取。

【工程实践】np.loadtxt()读取数据

1-3-6 usecols

        usecols要读取哪些列,0是第一列。例如,usecols = (1,4,5)将提取第2,第5和第6列。默认读取所有列。

        读取第2列数据。

data = np.loadtxt('./data.txt',dtype = int,delimiter=',',usecols = 1)

【工程实践】np.loadtxt()读取数据

        读取第2,6,9列数据。 

data = np.loadtxt('./data.txt',dtype = int,delimiter=',',usecols =(1,5,8))

【工程实践】np.loadtxt()读取数据

1-3-7 unpack

        unpack如果设置为Ture,将分列读取,类似于矩阵的转置。

        未设置之前,数据读取时是以行为单位进行读取。

【工程实践】np.loadtxt()读取数据

         设置unpack=Ture之后再次读取,矩阵的列变为了行。

【工程实践】np.loadtxt()读取数据

2 np.loadtxt()读取csv文件 

        读取csv文件与读取txt文件的参数一致,需要注意的是csv文件的分隔符一般是“,”并且含有表头,所以需要使用delimiter=','作为分隔符,以及使用skiprows=1跳过表头。

        原始csv文件内容:

【工程实践】np.loadtxt()读取数据

#根据data_path读取文件内容
train_XY  = np.loadtxt(data_path, delimiter=',', skiprows = 1,dtype=np.float32)

【工程实践】np.loadtxt()读取数据文章来源地址https://www.toymoban.com/news/detail-414504.html

到了这里,关于【工程实践】np.loadtxt()读取数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习:数据处理与特征工程

    机器学习中的数据处理和特征工程是非常关键的步骤,它们直接影响模型的性能和泛化能力。以下是一些常见的数据处理和特征工程技术: 数据处理: 缺失值处理: 处理数据中的缺失值,可以选择删除缺失值、填充均值/中位数/众数,或使用插值方法。 异常值处理: 检测和

    2024年01月16日
    浏览(40)
  • 软件工程实践第二次作业---文件读取

    这个作业属于哪个课程 软件工程-23年春季学期 这个作业要求在哪里 软件工程实践第二次作业—文件读取 这个作业的目标 完成对澳大利亚网球公开赛相关数据的收集,并实现一个能够对赛事数据进行统计的控制台程序 其他参考文献 《构建之法》《源代码管理》 0.Gitcode项目

    2024年03月15日
    浏览(64)
  • 机器学习基础之《特征工程(1)—数据集》

    一、数据集 1、目标 知道数据集分为训练集和测试集 会使用sklearn的数据集 2、可用数据集 公司内部,比如百度、微博 数据接口,花钱 政府拥有的数据集 3、在学习阶段用到的数据集 scikit-learn特点: (1)数据量较小 (2)方便学习 UCI特点: (1)收录了360个数据集 (2)覆盖

    2024年02月12日
    浏览(52)
  • 机器学习24:《数据准备和特征工程-II》收集数据

    构建数据集常用的步骤如下所示:   收集原始数据。 识别特征和标签来源。 选择抽样策略。 拆分数据。 这些步骤在很大程度上取决于你如何构建 ML 问题。本文主要介绍——数据收集-Collecting Data。 目录 1. 数据集的大小和质量 1.1 数据集的大小

    2024年02月12日
    浏览(43)
  • 机器学习25:《数据准备和特征工程-III》采样和分隔

    目录 1.采样和分割数据 1.1 抽样简介 1.2 过滤 PII(个人身份信息) 2.数据不平衡 2.1 下采样和增加权重

    2024年02月12日
    浏览(36)
  • Titanic 泰坦尼克数据集 特征工程 机器学习建模

    以下内容为讲课时使用到的泰坦尼克数据集分析、建模过程,整体比较完整,分享出来,希望能帮助大家。部分内容由于版本问题,可能无法顺利运行。 1   经典又有趣的 Titanic问题 1.1   目标 1.2   解决方法 1.3   项目目的 2   导入模块 3   加载数据 4   探索性数据分析

    2024年02月04日
    浏览(51)
  • 供应链 | 大数据报童模型:基于机器学习的实践见解

    论文解读:李欣 马玺渊 作者:Gah-Yi Ban, Cynthia Rudin 引用:Ban, Gah-Yi and Cynthia Rudin. The big data newsvendor: Practical insights from machine learning. Operations Research 67.1 (2019): 90-108. 文章链接:https://doi.org/10.1287/opre.2018.1757 文章研究了大规模数据驱动的报童问题(包括 p p p 个关于需求的特征和

    2024年02月12日
    浏览(38)
  • 机器学习基础 数据集、特征工程、特征预处理、特征选择 7.27

    无量纲化 1.标准化 2.归一化 信息数据化 1.特征二值化 2. Ont-hot编码 3.缺失数据补全 1.方差选择法 2.相关系数法

    2024年02月14日
    浏览(52)
  • 【岗位】IT行业岗位知识图谱--大数据工程师、机器学习、嵌入式、架构师

    **点赞、关注、评论、收藏哦**

    2024年02月15日
    浏览(42)
  • 基于Pandas+余弦相似度+大数据智能护肤品推荐系统——机器学习算法应用(含Python工程源码)+数据集

    本项目结合了Pandas数据处理工具和机器学习技术,旨在构建一个智能的护肤品推荐系统。该系统不仅会考虑用户的肤质特征,还会考虑过敏反应等因素,并筛选出相互禁忌的产品,以便为不确定如何选择护肤品的用户提供个性化的推荐。 首先,项目会收集用户的肤质信息,包

    2024年02月07日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包