最近有个需求,把某个df中的数据,按照特定字段分类,并且每个分类只取随机数量数据,这个随机数量需要有范围限制。写出来记录下。 文章来源:https://www.toymoban.com/news/detail-625435.html
def randomCutData(self, df, startNum):
grouped = df.groupby('classify_label')
df_sampled = pd.DataFrame()
for _, group in grouped:
num_samples = len(group)
num_random_samples = random.randint(min(startNum, num_samples),num_samples)
sampled_group = group.sample(n=num_random_samples, random_state=42)
df_sampled = pd.concat([df_sampled, sampled_group])
return df_sampled.copy()
self.randomCutData(df, 50).copy().reset_index(drop=True).to_csv('xxxxx.csv', index=False)
这里面的startNum是起始数量,如果该分类都没达到起始数量的话,就直接取该类的全部数据。文章来源地址https://www.toymoban.com/news/detail-625435.html
到了这里,关于DataFrame中按某字段分类并且取该分类随机数量的数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!