当我用Python爬取了京东商品所有评论后发现....

这篇具有很好参考价值的文章主要介绍了当我用Python爬取了京东商品所有评论后发现....。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

不知道各位网购的时候,是否会去留意商品评价,有些小伙伴是很在意评价的,看到差评就不想买了,而有些小伙伴则是会对差评进行理性分析,而还有一类人不在乎这个。

当然这都是题外话,咱们今天主要的目的是使用Python来爬取某东商品的评价,并保存到CSV表格。

1、数据采集逻辑

在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。

当我用Python爬取了京东商品所有评论后发现....

2、数据Schema

当我用Python爬取了京东商品所有评论后发现....

3、数据爬取

抓取平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。

评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。

目标URL地址:

当我用Python爬取了京东商品所有评论后发现....

通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(商品评价页只显示前100页,所以page最大值为99)

导入库

import random
import requests
import json
import re
import csv
import time
import pymysql

 

对爬虫程序进行伪装

header = {
        'refer': 'https: // item.jd.com /',
        'cookie': '',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
    }

 

抓取商品评论信息

将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。

当我用Python爬取了京东商品所有评论后发现....

防止反爬,每爬取一页数据后,设置程序休眠环节。

# 程序休眠
time.sleep(random.randint(40, 80) * 0.1)
print('第%d页正在爬取' % (page + 1))
'''
  爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。
  使用正则对数据进行提取,返回字符串。
  字符串转换为json格式数据。
''' 
res.encoding = 'gb18030'
html = res.text
data = re.findall('fetchJSON_comment98\((.*?)\);', html)
data = json.loads(data[0])  # 将处理的数据进行解析
comments = data['comments']
print(data['comments'])

 

4、数据存储

存储到csv

# 写入csv文件
f = open("evalution_data.csv", "a", newline='', encoding='gb18030')
header = ["id", "content", "creationTime", "score", "productColor", "productSize"]
# 创建一个DictWriter对象,第二个参数就是上面创建的表头
writer = csv.DictWriter(f, header)
writer.writeheader()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        writer.writerow(
            {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,
             "productSize": productSize})
f.close()

 

存储到数据库

# 写入数据库
conn = pymysql.connect(host='', user='', password='', port=, db='')
cursor = conn.cursor()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')"
        cursor.execute(sql)
        conn.commit()
# 我还专门录制了视频讲解,以及进行可视化分析,完整代码和视频讲解都在这个扣裙了:708525271
 
cursor.close()
conn.close()

 

 

好了,今天的分享就到这里结束了,咱们下次见!文章来源地址https://www.toymoban.com/news/detail-505916.html

到了这里,关于当我用Python爬取了京东商品所有评论后发现....的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Selenium实战之Python+Selenium爬取京东商品数据

    实战目标:爬取京东商品信息,包括商品的标题、链接、价格、评价数量。 代码核心在于这几个部分: 其一:使用元素定位来获取页面上指定需要抓取的; 其二:将页面上定位得到的数据永久存储到本地文件中。 具体来梳理一下从访问URL开始到爬取数据整个流程下来

    2023年04月13日
    浏览(42)
  • 【Python爬虫】基于selenium库爬取京东商品数据——以“七夕”为例

    小白学爬虫,费了一番功夫终于成功了哈哈!本文将结合本人踩雷经历,分享给各位学友~ 用写入方式打开名为data的csv文件,并确定将要提取的五项数据。 上面第一行代码值得一提,driver =  webdriver.Edge()括号内为Edge浏览器驱动程序地址,需要在Edge浏览器设置中查找Edge浏览器

    2024年02月06日
    浏览(57)
  • 京东API接口解析,实现获得JD商品评论

    要获取京东商品评论,需要使用京东的开放平台API接口。以下是一个基本的示例,解析并实现获取JD商品评论的API接口。 首先,你需要访问京东开放平台并注册一个开发者账号。注册完成后,你需要创建一个应用并获取到API的权限。 在获取到API权限后,你可以在开发者的控制

    2024年02月10日
    浏览(39)
  • 多语言对接电商平台api接口获取京东商品评论数据代码展示示例

    商品评论接口的意义: 确认消费者关注与产品卖点是否一致; 洞察用户对价格、促销、直播的敏感度;发现产品质量、客服、物流等方面的问题;找到品牌宣称与用户预期、实际场景之间差异化;挖掘消费者偏好的差异性,进行用户分群偏好研究;还原客户故事,分析其购

    2024年02月11日
    浏览(41)
  • Selenium介绍--实例爬取京东商品信息与图片

    目录 一、Selenium简介 二、Selenium组成 三、Selenium特点 四、Selenium的基本使用 1.下载所用浏览器需要的驱动 2.创建项目并导入依赖 3.入门 3.代码演示 五、实例爬取京东商品信息与图片 _ 5.1 执行效果 操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chr

    2023年04月08日
    浏览(37)
  • 爬取b站任意视频下的所有评论【附完整代码】

    今天花了一上午探究如何用selenium获取b站视频下面的评论,一开始只是想用一个视频来练练手,后面逐渐改成了所有视频都适用的完整代码。 话不多说,直接上源码: 因为我是用的jupyter,所以整个代码包括两个部分。下面这段代码用于完成获取自动登录b站所需的cookie。 下

    2024年02月04日
    浏览(40)
  • 当我学会了Python之后,某文库所有文档轻松下载,确定不来薅羊毛吗?

    前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! 本账号也发了很多关于python相关的案例教程文章, 这里很感谢各位粉丝一直以来的关注, 这里也单独为各位粉丝开设一个特别专栏! 🧡 关注 🧡 点赞 🧡 收藏 🧡 评论 评论留下你需求, 下一期的文章内容, 由你来定! 今天就教大家如何实

    2024年02月13日
    浏览(52)
  • Python爬虫—爬取微博评论数据

    今日,分享编写Python爬虫程序来实现微博评论数据的下载。 具体步骤如下👇👇👇: Step1 :电脑访问手机端微博_https://m.weibo.cn/_ Step2 :打开一条微博_https://m.weibo.cn/detail/4907031376694279_ Step3 :URL地址中的_49070__31376694279_就是需要爬取的微博ID Step4 :将ID填写到_main_下即可,也支

    2024年03月21日
    浏览(59)
  • 【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

    您好,我是 @马哥python说,一枚10年程序猿。 之前,我分享过一些B站的爬虫: 【Python爬虫案例】用Python爬取李子柒B站视频数据 【Python爬虫案例】用python爬哔哩哔哩搜索结果 【爬虫+情感判定+Top10高频词+词云图】\\\"谷爱凌\\\"热门弹幕python舆情分析 但我学习群中小伙伴频繁讨论

    2024年02月08日
    浏览(45)
  • 使用python爬取淘宝商品信息

    要使用Python爬取淘宝商品信息,您可以按照以下步骤: 安装必要的库 您需要安装Python的requests库和BeautifulSoup库。 发送请求并解析HTML页面 使用requests库发送HTTP请求,然后使用BeautifulSoup库解析HTML页面。在这里,我们将以淘宝的\\\"蚊帐\\\"为例。 提取所需的信息 通过分析HTML页面,

    2024年02月15日
    浏览(89)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包