国内AI大语言模型写代码的能力比预期好多了,准确且出错率低。本次用的AI大语言模型为智谱清言。活动链接:DateWhale微信公众号
一、详细处理内容如下:
1.将四个Excel进行合并
2.在合并的文件中提取湖南地区的数据
3.将湖南地区的数据中,部分指标分别加总求该地区的和。指标包括:销售额、数量、利润
二、Prompt参考教程如下:
假设你是最懂数据处理的专家,take the breath,let’s think step by step。帮我写一个python脚本来执行以下两个任务:
1.汇总:脚本应该遍历当前文件夹中的所有Excel文件,并将它们的内容汇总到一个新的Excel文件中。第一行需要在汇总的表格中,每行数据需要添加一个新列“表格名”,以标识该数据来自哪个原始表格。完成后,请将这个新的Excel文件保存在当前目录下,并命名为“汇总”。
2.统计:在“汇总”文件中,除了上述汇总内容,还请添加一个新的工作表。在这个新工作表中,我需要统计湖南地区办公用品类别的总销售额、总数量和总利润。为您参考,我上传了一个示例表格,其中包含了类似的数据格式和内容。
当前文件夹中其中一个表格数据如下所示:
行 ID 订单 ID 订单日期 发货日期 邮寄方式 客户 ID 客户名称 细分 城市 省/自治区 国家/地区 地区 产品 ID 类别 子类别 产品名称 销售额 数量 折扣 利润
11 CN-2018-4195213 2018/12/22 2018/12/24 二级 谢雯-21700 谢雯 小型企业 榆林 陕西 中国 西北 技术-设备-10000001 技术 设备 爱普生 计算器, 耐用 434.28 2 0 4.2
44 CN-2018-2932548 2018/5/17 2018/5/22 二级 唐婉-21385 唐婉 小型企业 南昌 江西 中国 华东 办公用-收纳-10004212 办公用品 收纳具 Fellowes 锁柜, 蓝色 1935.08 2 0 0
文章来源:https://www.toymoban.com/news/detail-768095.html
三、具体Python代码如下:文章来源地址https://www.toymoban.com/news/detail-768095.html
import pandas as pd import os #将18-21年订单合并 os.chdir('D:\\hebing\\pythonProject') excel_files = [file for file in os.listdir() if file.endswith('.xlsx')] frames = [] for file in excel_files[:4]: df = pd.read_excel(file) frames.append(df) combined_df = pd.concat(frames, ignore_index=True) combined_df.to_excel('combined_file.xlsx', index=False) #对合并后湖南地区的数据进行处理 # 加载Excel文件 file_path = 'combined_file.xlsx' try: df = pd.read_excel(file_path) except FileNotFoundError: print(f"未找到文件:'{file_path}'。") exit() except Exception as e: print(f"读取Excel文件时发生错误:{e}") exit() # 找到列名为“省/自治区”的列 if '省/自治区' in df.columns: region_column = df['省/自治区'] else: print("未找到名为'省/自治区'的列。") exit() # 筛选出“地区”这一列填写的是“湖南”的所有行 hunan_rows = region_column == '湖南' # 删除“地区”不为“湖南”的所有行 df = df[hunan_rows] # 保存处理后的数据到新的Excel文件 output_file_path = 'processed_file.xlsx' try: df.to_excel(output_file_path, index=False) print(f"处理后的数据已保存到'{output_file_path}'。") except Exception as e: print(f"保存Excel文件时发生错误:{e}") #对湖南地区的销售额、数量、利润进行汇总计算 # Excel文件路径 file_path = 'processed_file.xlsx' # 读取Excel文件 df = pd.read_excel(file_path) # 确保“销售额”、“数量”和“利润”列存在 required_columns = ['销售额', '数量', '利润'] missing_columns = [col for col in required_columns if col not in df.columns] if missing_columns: print(f"缺少以下列:{missing_columns}") exit() # 计算每列的总和 summary = df[['销售额', '数量', '利润']].sum() # 将总和添加到最后一行 df.loc[len(df.index)] = summary # 保存处理后的数据到新的Excel文件 output_file_path = 'homework1.xlsx' # 可以修改为新的文件名 try: df.to_excel(output_file_path, index=False) print(f"处理后的数据已保存到'{output_file_path}'。") except Exception as e: print(f"保存Excel文件时发生错误:{e}")
到了这里,关于AI写Python代码进行数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!