ChatGPT实战100例 - (04) 自动化爬虫

这篇具有很好参考价值的文章主要介绍了ChatGPT实战100例 - (04) 自动化爬虫。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ChatGPT实战100例 - (04) 自动化爬虫

一、需求与思路

需求:解析网页元素太复杂,要让他自动解析

操作步骤

  • ChatGPT编写相关脚本
  • python跑起来

需要的前置技能:听说过python爬虫库requests和bs4
没听过?简单:

  • requests是一个Python HTTP请求库,用于获取网页数据。
  • bs4是BeautifulSoup的缩写,是一个HTML/XML解析库,用于从网页数据中提取信息。

二、油猴子脚本

问题:
写一段python的bs4库解析,试着从这段html中解析如下结构化信息:
图标 类别 标题 网址 简介
并使用json表示,使用英文字段

<div class="url-card io-px-2 col-6 col-2a col-sm-2a col-md-2a col-lg-3a col-xl-5a col-xxl-6a ">
    <div class="url-body default "> <a href="/sites/4661.html?menu-id=2331&amp;mininav-id=4543"
            target="\_blank" data-id="4661" data-url="https://murf.ai" class="card no-c mb-4 site-4661" title="Murf AI">
            <div class="card-body url-content d-flex align-items-center">
                <div class="url-img rounded-circle mr-2 d-flex align-items-center justify-content-center"> <img
                        class="lazy unfancybox loaded" src="https://api.iowen.cn/favicon/murf.ai.png"
                        data-src="https://api.iowen.cn/favicon/murf.ai.png" height="auto" alt="Murf AI"
                        data-was-processed="true"> </div>
                <div class="url-info flex-fill">
                    <div class="text-sm overflowClip\_1"> <strong>Murf AI</strong> </div>
                    <p class="overflowClip\_1 m-0 text-muted text-xs">
                        AI语音生成器在20种语言。120+逼真的文本到语音的声音,创造完美的AI画外音。轻松地从文字转换为语音。</p>
                </div>
            </div>
        </a> <a href="/go/?url=aHR0cHM6Ly9tdXJmLmFpLw%3D%3D" target="\_blank"
            rel="external nofollow noopener" title="" class="togo text-center text-muted is-views" data-id="4661"
            data-toggle="tooltip" data-placement="right" data-original-title="直达"><i class="iconfont icon-goto"></i></a>
    </div>
</div>

回答:

英文的
Here’s a Python code to extract the structured information from the HTML and represent it in JSON format:

import requests
from bs4 import BeautifulSoup
import json

url = "页面的url"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

results = []
for card in soup.find_all("div", class_="url-card"):
    icon = card.find("img")["data-src"]
    category = card.find("a", class_="card")["data-id"]
    title = card.find("strong").text
    website = card.find("a", class_="card")["data-url"]
    description = card.find("p", class_="overflowClip_1").text

    result = {
        "icon": icon,
        "category": category,
        "title": title,
        "website": website,
        "description": description
    }
    results.append(result)

json_result = json.dumps(results)
print(json_result)

This code extracts the icon, category, title, website, and description of each tool listed on the page and saves them in a list of dictionaries. Finally, it converts the list to a JSON string and prints it.

三、部署

pip install requests
pip install bs4

脚本跑起来就好

四、总结

关键是给他html,给目标,剩下就是喝枸杞红茶和等待了。文章来源地址https://www.toymoban.com/news/detail-417930.html

到了这里,关于ChatGPT实战100例 - (04) 自动化爬虫的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬虫实战——Lazada商品数据(selenium自动化爬虫,xpath定位)

            在此说明,这个项目是我第一次真正去爬的一个网站,里面写的代码我自己都看不下去,但是已经不想花时间去重构了,所以看个乐呵就好,要喷也可以(下手轻一点)。这篇文算是记录我的学习中出现的一些问题,不建议拿来学习和真拿我的代码去爬Lazada的数据,

    2024年02月02日
    浏览(63)
  • ChatGPT办公自动化实战

    ChatGPT从入门到精通,一站式掌握办公自动化/爬虫/数据分析和可视化图表制作 全面AI时代就在转角 道路已经铺好了 “局外人”or“先行者” 就在此刻 等你决定 让ChatGPT帮你高效实现职场办公!行动起来吧 。。。。。 还有更多。。。。,可以沟通一起交流,行动起来吧 如何

    2024年02月11日
    浏览(38)
  • 【ChatGPT实战】6.使用ChatGPT自动化生成PPT

    如果需要使用ChatGPT生成PPT,我相信看了上一篇Excel教程的读者,就会想到也通过ChatGPT生成VBA代码,再通过运行VBA代码的方式来自动生成PPT。 理论上是可以的,但是当你实际操作的时候会发现很难实现。因为PPT包含的元素实在是太多了,每张幻灯片都有标题和正文、都有不同

    2024年02月08日
    浏览(48)
  • 爬虫实战(一)Python+selenium自动化获取数据存储到Mysql中

      行话说得好,“爬虫学得好,牢饭吃到饱!”哈哈博主是因这句话入的坑,不为别的就为邀大家一起铁窗泪(bushi),本人虽小牛一只,但是喜爱捣鼓技术,有兴趣的小伙伴们可以共同探讨,也欢迎各位大佬们的指点,愿共同进步!   这次计划是翻墙爬取外网某网站

    2024年01月17日
    浏览(48)
  • ChatGPT从入门到精通,一站式掌握办公自动化/爬虫/数据分析和可视

    课程名称 适应人群 ChatGPT从入门到精通,一站式掌握办公自动化/爬虫/数据分析和可视 点击上述名称,学习完整视频 全面AI时代就在转角,道路已经铺好了“局外人”or“先行者”就在此刻等你决定 1、对ChatGPT感兴趣并希望有人手把手教学的新手 2、希望了解GPT各类应用抓住未

    2024年02月10日
    浏览(53)
  • ChatGPT从入门到精通,引入AIGC时代变更,一站式掌握办公自动化/爬虫/数据分析和可视

    课程名称 适应人群 ChatGPT从入门到精通,一站式掌握办公自动化/爬虫/数据分析和可视 点击上述名称,学习完整视频 全面AI时代就在转角,道路已经铺好了“局外人”or“先行者”就在此刻等你决定 1、对ChatGPT感兴趣并希望有人手把手教学的新手 2、希望了解GPT各类应用抓住未

    2024年02月12日
    浏览(48)
  • 自动化测试实战篇(8),jmeter并发测试登录接口,模拟从100到1000个用户同时登录测试服务器压力

    进程是资源分配最小单位,线程是程序执行的最小单位; 每个进程内部会有N个线程,但至少要有1个线 程。 比如公司就是一个进程,公司的员工就是线程。 线程占用的资源要⽐进程少很多。 线程之间通信比进程更方便 并发是指在一个时间段内有多个进程在执行 并行指的是

    2024年02月16日
    浏览(47)
  • 爬虫 — 自动化爬虫 Selenium

    用 Selenium 爬取网页时,当前访问的 url 就是爬虫当中的目标 url,获取内容只要是页面上可见的,都可以爬取( 可见即可爬 )。 步骤 Selenium + 浏览器 + 浏览器驱动 1、导入 2、url(找动态 url,抓取到的数据是加密的) 3、获取内容,做解析 Selenium 是一个用于 Web 应用 程序测试

    2024年02月07日
    浏览(51)
  • 自动化测试介绍、selenium用法(自动化测试框架+爬虫可用)

    1、什么是自动化测试? 程序测试程序、代码代替思维、脚本代替人工 核心:质量和效率 作用:降低成本、节省人力时间、推动CI和DevOps、准确性和可靠性、模拟人工难以实现的手段、快速持续迭代发布能力、衡量产品的质量、提升测试效率、提高测试覆盖率 2、手工测试

    2024年03月08日
    浏览(81)
  • 爬虫-9-selenium自动化

    #所谓自动化,就是模拟人。去操作... #自动化需要浏览器驱动器,那么这个浏览器需要停止一下自动更新(减少麻烦)。 #以下都以谷歌浏览器为例。 #谷歌浏览器禁止更新详见: https://blog.csdn.net/weixin_48337566/article/details/123242827      

    2024年01月19日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包