爬取诗词网站中的文章

这篇具有很好参考价值的文章主要介绍了爬取诗词网站中的文章。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

实战准备:要爬取的url:https://www.shicimingju.com/book/sanguoyanyi.html

实战要求:爬取诗词名句网站中的三国演义文章,将每章的标题和内容写入自己的项目文件(sanguo.txt)

(本次爬取使用bs4)

 1 import requests
 2 # 实例化BeautifulSoup对象
 3 from bs4 import BeautifulSoup
 4 if __name__ == "__main__":
 5     #设置User-Agent将爬虫伪装成用户通过浏览器访问
 6     header = {
 7         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.55'
 8     }
 9     #要访问的网页url地址
10     url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
11     #发起请求
12     respond = requests.get(url=url,headers=header)
13     #通过实例化获取网页源码
14     soup1 = BeautifulSoup(respond.content,'lxml')
15     #select返回列表,找到连接标签
16     title = soup1.select('.book-mulu a')
17     #打开sanguo.txt文件,设置字节码格式避免乱码
18     fp = open('./sanguo.txt','w',encoding='utf-8')
19     #循环title列表里的链接
20     for i in title:
21         #通过.string获取a链接下的直系文本作为标题
22         title = i.string
23         #补全a连接,获取特定的href属性
24         data_url = "https://www.shicimingju.com"+i['href']
25         #对a连接的url进行请求,进一步获取链接里的文章
26         soup2 = BeautifulSoup(requests.get(url=data_url,headers=header).content,'lxml')
27         #找到文章所在的标签
28         content = soup2.find('div',class_='chapter_content')
29         #将文章标题及其文章的内容获取到写入刚刚打开的文件
30         fp.write(title+":"+content.text+"\n")
31         print(title+"爬取成功")
32     print("Over")

*bas4知识梳理在博客中Python知识梳理中文章来源地址https://www.toymoban.com/news/detail-711454.html

到了这里,关于爬取诗词网站中的文章的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python应用-爬虫实战-求是网周刊文章爬取

    任务描述 本关任务:编写一个爬虫,并使用正则表达式获取求是周刊 2019 年第一期的所有文章的 url 。详情请查看《求是》2019年第1期 。 相关知识 获取每个新闻的 url 有以下几个步骤: 首先获取 2019 年第 1 期页面的源码,需要解决部分反爬机制; 找到目标 url 所在位置,观

    2024年02月04日
    浏览(38)
  • python爬虫如何写,有哪些成功爬取的案例

    编写Python爬虫时,常用的库包括Requests、Beautiful Soup和Scrapy。以下是三个简单的Python爬虫案例,分别使用Requests和Beautiful Soup,以及Scrapy。 1. 使用Requests和Beautiful Soup爬取网页内容: 2. 使用Requests和正则表达式爬取图片: 3. 使用Scrapy爬取网站: 首先,确保已安装Scrapy: 创建一个

    2024年01月19日
    浏览(85)
  • 数据分析4 -- 将爬取的数据保存成CSV格式

    什么是 CSV 文件 CSV(Comma-Separated Values) 是一种使用逗号分隔来实现存储表格数据的文本文件。 我们都知道表格有多种形式的存储,比如 Excel 的格式或者数据库的格式。CSV 文件也可以存储表格数据,并且能够被多种软件兼容,比如 Excel 就能直接打开 CSV 文件的表格,很多数

    2024年02月11日
    浏览(29)
  • Socks IP轮换:为什么是数据挖掘和Web爬取的最佳选择?

            在数据挖掘和Web爬取的过程中,IP轮换是一个非常重要的概念。数据挖掘和Web爬取需要从多个网站或来源获取数据,而这些网站通常会对来自同一IP地址的请求进行限制或封锁。为了避免这些问题,数据挖掘和Web爬取过程中需要使用Socks IP轮换技术。在本文中,我们

    2024年02月14日
    浏览(31)
  • 【爬虫系列】Python爬虫实战--招聘网站的职位信息爬取

    1. 需求分析 从网上找工作,大家一般都会通过各种招聘网站去检索相关信息,今天利用爬虫采集招聘网站的职位信息,比如岗位名称,岗位要求,薪资,公司名称,公司规模,公司位置,福利待遇等最为关心的内容。在采集和解析完成后,使用 Excel 或 csv 文件保存。 2. 目标

    2024年02月02日
    浏览(39)
  • 【腾讯云 TDSQL-C Serverless 产品体验】基于TDSQL-C 存储爬取的QQ音乐歌单数据

    最近有幸参与了腾讯云举办的 腾讯云 TDSQL-C 产品体验活动。在这个过程中,通过了解 TDSQL-C 的产品和实践,让我受益非浅,原来数据库还能这么玩! 也让我真正体会到了降本增效这个词的意义。 在看到活动的介绍和微信群的讲解后,我马不停蹄地开始了自己摸索。首先是跟

    2024年02月12日
    浏览(36)
  • 一篇文章搞定《实战中的设计模式之Android版》

    其实大多数可能和我一样,在开发项目的累积经验下,和对设计模式隐约的记忆下。 在开发项目的过程中其实已经使用到了设计模式,但是不能自知。 比如:之前开发的基于AI的一个对话IM,里面涉及到了很多的设计模式。但是都是下意识的去使用,甚至连他是那种设计模式

    2024年02月10日
    浏览(35)
  • asdTools-爬取WordPress文章并获得Markdown文本

    文章首发见博客:https://mwhls.top/4824.html。 无图/格式错误/后续更新请见首发页。 更多更新请到mwhls.top查看 欢迎留言提问或批评建议,私信不回。 Github - 开源代码及Readme Blog - 工具介绍 摘要:爬取我的WordPress博客,并以markdown格式输出。 场景 想快速以带水印的markdown格式转发

    2024年02月10日
    浏览(22)
  • 关于文章《爬取知网文献信息》中代码的一些优化

    哈喽大家好,我是咸鱼   之前写了一篇关于文献爬虫的文章 Python爬虫实战(5) | 爬取知网文献信息   文章发布之后有很多小伙伴给出了一些反馈和指正,在认真看了小伙伴们的留言之后,咸鱼对代码进行了一些优化   优化的代码在文末,欢迎各位小伙伴给出意见和指正   p

    2023年04月27日
    浏览(41)
  • 使用Selenium和bs4进行Web数据爬取和自动化(爬取掘金首页文章列表)

    2024软件测试面试刷题,这个小程序(永久刷题),靠它快速找到工作了!(刷题APP的天花板)_软件测试刷题小程序-CSDN博客 文章浏览阅读2.9k次,点赞85次,收藏12次。你知不知道有这么一个软件测试面试的刷题小程序。里面包含了面试常问的软件测试基础题,web自动化测试、

    2024年03月18日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包