Python爬取商品评价-京东

这篇具有很好参考价值的文章主要介绍了Python爬取商品评价-京东。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.数据采集逻辑

在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。

Python爬取商品评价-京东
2.数据Schema
Python爬取商品评价-京东
3.数据爬取

抓取平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。

评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。

目标URL地址:

Python爬取商品评价-京东

通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(商品评价页只显示前100页,所以page最大值为99)

  1. 导入库

import random
import requests
import json
import re
import csv
import time
import pymysql
  1. 对爬虫程序进行伪装

header = {
        'refer': 'https: // item.jd.com /',
        'cookie': '',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
    }
  1. 抓取商品评论信息

将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。

Python爬取商品评价-京东

4.防止反爬,每爬取一页数据后,设置程序休眠环节

# 程序休眠
time.sleep(random.randint(40, 80) * 0.1)
print('第%d页正在爬取' % (page + 1))
 
  爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。
  使用正则对数据进行提取,返回字符串。
  字符串转换为json格式数据。
 
res.encoding = 'gb18030'
html = res.text
data = re.findall('fetchJSON_comment98\((.*?)\);', html)
data = json.loads(data[0])  # 将处理的数据进行解析
comments = data['comments']
print(data['comments'])
4.数据存储
  1. 存储到csv

# 写入csv文件
f = open("evalution_data.csv", "a", newline='', encoding='gb18030')
header = ["id", "content", "creationTime", "score", "productColor", "productSize"]
# 创建一个DictWriter对象,第二个参数就是上面创建的表头
writer = csv.DictWriter(f, header)
writer.writeheader()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        writer.writerow(
            {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,
             "productSize": productSize})
f.close()
  1. 存储到数据库文章来源地址https://www.toymoban.com/news/detail-505887.html

# 写入数据库
conn = pymysql.connect(host='', user='', password='', port=, db='')
cursor = conn.cursor()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')"
        cursor.execute(sql)
        conn.commit()
 
cursor.close()
conn.close()

到了这里,关于Python爬取商品评价-京东的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Selenium实战之Python+Selenium爬取京东商品数据

    实战目标:爬取京东商品信息,包括商品的标题、链接、价格、评价数量。 代码核心在于这几个部分: 其一:使用元素定位来获取页面上指定需要抓取的; 其二:将页面上定位得到的数据永久存储到本地文件中。 具体来梳理一下从访问URL开始到爬取数据整个流程下来

    2023年04月13日
    浏览(42)
  • 【Python爬虫】基于selenium库爬取京东商品数据——以“七夕”为例

    小白学爬虫,费了一番功夫终于成功了哈哈!本文将结合本人踩雷经历,分享给各位学友~ 用写入方式打开名为data的csv文件,并确定将要提取的五项数据。 上面第一行代码值得一提,driver =  webdriver.Edge()括号内为Edge浏览器驱动程序地址,需要在Edge浏览器设置中查找Edge浏览器

    2024年02月06日
    浏览(57)
  • 用Python采集电商平台商品数据进行可视化分析

    前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! 环境使用: python 3.8 解释器 pycharm 编辑器 模块使用: 第三方模块 需要安装 requests — 发送 HTTP请求 内置模块 不需要安装 csv — 数据处理中经常会用到的一种文件格式 第三方模块安装: win + R 输入cmd 输入安装命令 pip install 模块名 (如果你

    2024年02月17日
    浏览(59)
  • 大数据毕业设计:基于python商品数据采集分析可视化系统 淘宝数据采集 大数据 大屏可视化(附源码+论文)✅

    博主介绍:✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久,选择我们就是选择放心、选择安心毕业✌感兴趣的可以先收藏起来,点赞、关注不迷路✌ 毕业设计:2023-2024年计算机专业毕业设计选题汇总(建议

    2024年02月03日
    浏览(54)
  • 基于python商品数据采集分析可视化系统 淘宝数据采集 大数据 大屏可视化(附源码+论文)大数据毕业设计✅

    毕业设计:2023-2024年计算机专业毕业设计选题汇总(建议收藏) 毕业设计:2023-2024年最新最全计算机专业毕设选题推荐汇总 🍅 感兴趣的可以先收藏起来,点赞、关注不迷路,大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助同学们顺利毕业 。

    2024年02月02日
    浏览(58)
  • Python接入API接口技术开发商品详情原数据api接口采集商品app端数据,发货时间,优惠券等数据api接入示例

    要获取淘宝、京东、拼多多、1688商品详情、发货时间、优惠券等数据,可以通过淘宝的API接口来实现。以下是一个简单的接入示例: 注册一个api账号并获取Api Key和Api Secret 。 使用淘宝的API接口,如taobao.item.get(获取单个商品的详细信息)和taobao.shop.get(获取店铺信息)等

    2024年04月28日
    浏览(70)
  • 抓取电商产品数据的方法|电商平台商品详情数据|批量上架|商品搬家|电商封装API数据采集接口更高效安全的数据采集

    大量级电商数据采集时使用电商API接口有以下优势: 1. 数据准确性:通过电商API接口获取数据,可以保证数据的准确性和实时性,避免了手动采集可能出现的错误和延迟。 2. 自动化采集:API接口可以实现自动化的数据获取和更新,大大减少了人工操作的时间成本,提高了数

    2024年04月27日
    浏览(43)
  • Python如何运用爬虫爬取京东商品评论

    打开京东商品网址(添加链接描述) 查看商品评价 。我们点击评论翻页,发现网址未发生变化,说明该网页是动态网页。 我们在 浏览器右键点击“检查” ,,随后 点击“Network” ,刷新一下,在搜索框中 输入”评论“ ,最终找到 网址(url) 。我们点击Preview,发现了我们需要

    2024年02月07日
    浏览(47)
  • 某多多商品平台数据采集

    本文章中所有内容仅供学习交流,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者 无关,若有侵权,请私信我立即删除! Anti-Content 参数 先在控制台全局搜索参数名字 返回两个结果 发现相关打上断点刷新,成功断住 跟栈逐

    2024年02月10日
    浏览(47)
  • 当我用Python爬取了京东商品所有评论后发现....

    不知道各位网购的时候,是否会去留意商品评价,有些小伙伴是很在意评价的,看到差评就不想买了,而有些小伙伴则是会对差评进行理性分析,而还有一类人不在乎这个。 当然这都是题外话,咱们今天主要的目的是使用Python来爬取某东商品的评价,并保存到CSV表格。 在进

    2024年02月11日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包