【python】采集每日必看黄色软件数据~

这篇具有很好参考价值的文章主要介绍了【python】采集每日必看黄色软件数据~。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

【python】采集每日必看黄色软件数据~

环境使用:

  • Python 3.8

  • Pycharm

模块使用:

  • requests >>> pip install requests

  • re

  • csv

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

基本思路:

  1. 明确需求:

    采集网站以及数据是什么?

    店铺数据

    PS: 一定要清楚, 数据是请求那个链接可以获取

    通过开发者工具进行抓包分析

    • 打开开发者工具: F12 / fn+F12 / 鼠标右键点击检查选择network

    • 点击第二页, 第一个数据包就是我们要的链接地址

      <通过关键词进行搜索,找到对应的数据包 [请求链接] >

代码怎么实现?

  1. 发送请求, 模拟浏览器对url地址发送请求 <为了得到数据>

  2. 获取数据, 获取服务器返回响应数据 --> response <得到所有数据>

  3. 解析数据, 提取我们想要的数据内容 <得到想要的数据>

  4. 保存数据, 保存表格文件

代码展示

导入模块

# 导入数据请求模块 --> 第三方模块, 需要安装 pip install requests
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入csv模块
import csv

创建文件

f = open('烤肉.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '店名',
    '评分',
    '评论',
    '店铺类型',
    '商圈',
    '人均',
    '最低消费',
    '经度',
    '纬度',
    '详情页',
])
csv_writer.writeheader()

“”"
1. 发送请求

模拟浏览器对url地址发送请求 <为了得到数据>

<Response [403]>

403 状态码 没有访问权限 一定要加防盗链

模拟浏览器 为了防止被反爬

cookies host referer UA

“”"
请求链接

url = 'https://*****/group/v4/poi/pcsearch/70?uuid=1191c166b23545adaef7.1679637144.1.0.0&userid=266252179&limit=32&offset=32&cateId=-1&q=%E7%83%A4%E8%82%89&token=AgEcI8MGJ-mKhr9oT4VY_zjPV_oFYDXfbo9sEAaWhz5Ud0ZxeKhBNbm--AOvOEMZfMX1X8atA5u22QAAAABsFwAA631DsS1KNwy05foi_83hOjAmFHyzNkrbtWhFRpR9MOAObuDNmNMpKOe8SdRaRJ_n'

伪装模拟 --> 请求头

headers = {
    # Referer 防盗链, 告诉服务器请求链接, 是从哪里跳转过来
    'Referer': 'https://*****/',
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

发送请求

response = requests.get(url=url, headers=headers)
# <Response [403]>
print(response)

“”"

2. 获取数据

获取服务器返回响应数据 --> response <得到所有数据>

response.json() 获取响应json字典数据

3. 解析数据

提取我们想要的数据内容 <得到想要的数据>

字典取值 get

键值对取值 --> 根据冒号左边的内容[键], 提取冒号右边的内容[值]

Json字典数据, 一层一层提取

print(index) --> json数据, 呈现一行

pprint(index) --> json数据, 呈现多行 展开效果

“”"

for循环遍历, 把列表里面元素一个一个提取出来

for index in response.json()['data']['searchResult']:

详情页链接:

    link = f'https://*****/meishi/{index["id"]}/'

创建字典 --> 方便后续保存数据

    dit = {
        '店名': index['title'],
        '评分': index['avgscore'],
        '评论': index['comments'],
        '店铺类型': index['backCateName'],
        '商圈': index['areaname'],
        '人均': index['avgprice'],
        '最低消费': index['lowestprice'],
        '经度': index['longitude'],
        '纬度': index['latitude'],
        '详情页': link,
    }
    csv_writer.writerow(dit)
    print(dit)

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

【python】采集每日必看黄色软件数据~

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇文章来源地址https://www.toymoban.com/news/detail-419892.html

到了这里,关于【python】采集每日必看黄色软件数据~的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 上位机软件wincc通过工业网关采集plc数据实现组态监控

    WinCC是一个组态软件,可以用于数据采集与监控、自动化控制、工业物联网等领域。WinCC可以帮助用户实现工厂自动化和过程自动化的解决方案,提供可视化的监控界面和数据采集分析功能,支持多种协议和设备,如Siemens、Modbus、OPC等。 如何使用WinCC采集PLC数据?工业网关可

    2024年02月15日
    浏览(49)
  • 在STM32上实现一个数据采集和存储系统(单片机软件与硬件)

    1. 硬件选择: 选择合适的STM32系列微控制器,根据采集数据的要求选择处理器型号和性能。同时,根据需要考虑外设模块,如ADC、SPI、I2C等。 2. 连接传感器: 根据需要选择合适的传感器,并将传感器与STM32的相应引脚连接。注意检查引脚的电平和电流要求,确保接口匹配。

    2024年02月03日
    浏览(54)
  • 【Python数据结构与算法】——(线性结构)精选好题分享,不挂科必看系列

    🌈个人主页:  Aileen_0v0 🔥系列专栏:Python数据结构与算法专栏 💫个人格言: \\\"没有罗马,那就自己创造罗马~\\\" 1.time complexity of algorithm A is O(n^3) while algorithm B is O(2^n). Which of the following statement is TRUE?  A.For any problem in any scale, the alogorithm A is more efficient than alogrithm B. B.For any problem

    2024年02月05日
    浏览(45)
  • FPGA采集AD7606数据UDP网络传输 提供工程源码和技术支持 附带上位机接收软件

    目前网上的fpga实现udp基本生态如下: 1:verilog编写的udp收发器,但不带ping功能,这样的代码功能正常也能用,但不带ping功能基本就是废物,在实际项目中不会用这样的代码,试想,多机互联,出现了问题,你的网卡都不带ping功能,连基本的问题排查机制都不具备,这样的代

    2023年04月24日
    浏览(68)
  • 必看!银行业软件测试岗位需求暴增的原因解密!

    根据2023年3月中共中央、国务院印发《党和国家机构改革方案》,要求统筹推进中国人民银行分支机构改革。包括:撤销中国人民银行大区分行及分行营业管理部、总行直属营业管理部和省会城市中心支行,在31个省(自治区、直辖市)设立省级分行,在深圳、大连、宁波、青

    2024年02月10日
    浏览(38)
  • 【Python实战】Python采集二手车数据——超详细讲解

    今天,我们将采集某二手车数据,通过这个案例,加深我们对xpath的理解。通过爬取数据后数据分析能够直观的看到二手车市场中某一品牌的相对数据,能够了解到现在的二手车市场情况,通过分析数据看到二手车的走势,车商就可以利用这些数据进行定价,让想买二手车却

    2024年02月01日
    浏览(37)
  • 大数据毕业设计:基于python商品数据采集分析可视化系统 淘宝数据采集 大数据 大屏可视化(附源码+论文)✅

    博主介绍:✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久,选择我们就是选择放心、选择安心毕业✌感兴趣的可以先收藏起来,点赞、关注不迷路✌ 毕业设计:2023-2024年计算机专业毕业设计选题汇总(建议

    2024年02月03日
    浏览(54)
  • 基于python商品数据采集分析可视化系统 淘宝数据采集 大数据 大屏可视化(附源码+论文)大数据毕业设计✅

    毕业设计:2023-2024年计算机专业毕业设计选题汇总(建议收藏) 毕业设计:2023-2024年最新最全计算机专业毕设选题推荐汇总 🍅 感兴趣的可以先收藏起来,点赞、关注不迷路,大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助同学们顺利毕业 。

    2024年02月02日
    浏览(58)
  • 服务器数据恢复—存储硬盘坏道,指示灯亮黄色的数据恢复案例

    服务器数据恢复环境故障: 一台某品牌EqualLogic PS系列某型号存储,存储中有一组由16块SAS硬盘组建的RAID5磁盘阵列,RAID5上划分VMFS文件系统存放虚拟机文件。存储系统上层一共分了4个卷。 raid5阵列中磁盘出现故障,有2块硬盘的指示灯显示黄色,存储不可用,存储设备已经过

    2024年04月26日
    浏览(44)
  • 简单的用Python采集股票数据,保存表格后分析历史数据

    字节跳动如果上市,那么钟老板将成为我国第一个世界首富 趁着现在还没上市,咱们提前学习一下用Python分析股票历史数据,抱住粗大腿坐等起飞~ 好了话不多说,我们直接开始正文 环境使用 Python 3.10 解释器 Pycharm 编辑器 模块使用 requests — 数据请求模块 csv - 保存csv表格

    2024年02月05日
    浏览(67)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包