DataFrame中按某字段分类并且取该分类随机数量的数据

这篇具有很好参考价值的文章主要介绍了DataFrame中按某字段分类并且取该分类随机数量的数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

最近有个需求,把某个df中的数据,按照特定字段分类,并且每个分类只取随机数量数据,这个随机数量需要有范围限制。写出来记录下。 

def randomCutData(self, df, startNum):
     grouped = df.groupby('classify_label')
     df_sampled = pd.DataFrame()
     for _, group in grouped:
         num_samples = len(group)
         num_random_samples = random.randint(min(startNum, num_samples),num_samples)
         sampled_group = group.sample(n=num_random_samples, random_state=42)
         df_sampled = pd.concat([df_sampled, sampled_group])
     return df_sampled.copy()

self.randomCutData(df, 50).copy().reset_index(drop=True).to_csv('xxxxx.csv', index=False)

这里面的startNum是起始数量,如果该分类都没达到起始数量的话,就直接取该类的全部数据。文章来源地址https://www.toymoban.com/news/detail-625435.html

到了这里,关于DataFrame中按某字段分类并且取该分类随机数量的数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python Pandas:DataFrame 一列切分成多列、分隔符切分选字段

    创建一个复杂又简单的数据集 split expand:这个参数直接将分列后的结果转换成 DataFrame drop axis 是指处哪一个轴 columns 是指某一列或者多列 inplaces 是否替换原来的 dataframe

    2024年02月12日
    浏览(54)
  • Python数据分析实战-提取DataFrame(Excel)某列(字段)最全操作(附源码和实现效果)

    实现功能: Python数据分析实战-提取DataFrame(Excel)某列(字段)最全操作,代码演示了单列提取和多列提取两种情况,其中单列提取有返回series格式和dataframe两种情况,在日常数据分析中经常会出现混淆和使用错误,本文对此都做了对比和说明。读者可以自行编码,感受一下

    2024年02月15日
    浏览(37)
  • golang实现es根据某字段分组,统计每组某一字段的数量,过滤空值并去重

    需求: 索引:dna 需求:根据app.Id分组,统计每组的OwnerBid数量,过滤空值并去重 dna索引结构 es查询语句 es查询结果 goalng实现 models.EsCountAgg 【面向校招】全力备战2023Golang实习与校招 欢迎进群交流:1007576722

    2024年02月17日
    浏览(38)
  • 用ES搜索关键字并且返回模糊字段高亮

       一般来说,各个网站,首页的搜索,都会有进行全文搜索的示例,并且把模糊匹配的多个数据进行标记(高亮),这样便于全局检索关键的数据,便于客户进行浏览。基于此,本文简单介绍这种功能基本java 的 实现    由于公司页面此功能隐藏了,本文就以接口调用返回看具

    2024年02月14日
    浏览(41)
  • Python数据分析实战-dataframe筛选某字段包含(模糊匹配)某些值的记录(附源码和实现效果)

    实现功能 Python利用df[\\\'\\\'].str.contains()对dataframe筛选某字段包含(模糊匹配)某些值的记录 实现代码 实现效果  本人读研期间发表5篇SCI数据挖掘相关论文,现在某研究院从事数据挖掘相关科研工作,对数据挖掘有一定认知和理解,会结合自身科研实践经历不定期分享关于pytho

    2024年02月15日
    浏览(25)
  • oracle批量导出字段注释,并且相同字段注释为空的情况取有数据的第一行赋值

    SELECT ‘comment on column ‘|| t.table_name||’.’||t.colUMN_NAME||’ is ’ || ‘’‘’ || (CASE WHEN T1.COMMENTS IS NULL THEN (SELECT T2.COMMENTS FROM User_Col_Comments T2 WHERE T1.colUMN_NAME=T2.colUMN_NAME AND T2.COMMENTS IS NOT NULL and rownum=1) ELSE NULL END) ||‘’‘’|| ‘;’ FROM User_Tab_Cols t, User_Col_Comments t1 WHERE t.table_n

    2024年02月10日
    浏览(27)
  • 如何统计DataFrame中各列数据分类的各个不同数据出现的次数

    可以使用 value_counts 函数来统计每个不同数据在数据列中出现的次数。 例如,假设有一个名为 df 的 DataFrame,其中包含一列名为 \\\'col\\\' 。 要统计 \\\'col\\\' 列中各个不同数据的出现次数,可以使用以下代码: 此代码将返回一个由各个数据和它们在 \\\'col\\\' 列中出现的次数组成的 Series。

    2024年02月05日
    浏览(67)
  • 【解惑】当处理同一个字段的并发问题时,使用乐观锁来处理库存数量

    以下是一个使用乐观锁处理库存数量并发问题的c#示例代码: 上述示例代码使用乐观锁来处理并发问题,确保库存数量在更新过程中不受影响。通过使用数据库事务来保证更新的原子性,并且在更新数据之前检查版本号是否一致,以避免潜在的并发冲突。 乐观锁是一种乐观的

    2024年02月13日
    浏览(25)
  • 关于图像分类任务中划分数据集,并且生成分类类别的josn字典文件

    在做图像分类任务的时候, 数据格式是文件夹格式,相同文件夹下存放同一类型的类别 不少网上的数据,没有划分数据集,虽然代码简单,每次重新编写还是颇为麻烦,这里记录一下 如下,有的数据集这样摆放: 可以看出这是个三分类任务,不过没有划分测试集、验证集

    2024年02月02日
    浏览(27)
  • mysql统计所有分类下的数量,没有的也要展示

    要求统计所有分类下的数量,如果分类下没有对应的数据也要展示。这种问题在日常的开发中很常见,每次写每次忘,所以在此记录下。 这种统计往往不能直接group by,因为有些类别可能没有对应的数据 这里有两个思路(如果您有更好的方法,请一定要告诉我,求求了):

    2024年03月28日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包