爬虫之牛刀小试(九):爬取小说

这篇具有很好参考价值的文章主要介绍了爬虫之牛刀小试(九):爬取小说。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

今天爬取的是一本小说
爬虫之牛刀小试(九):爬取小说,爬虫,爬虫,python,开发语言
代码如下:


from selenium import webdriver
from selenium.webdriver.common.proxy import Proxy, ProxyType
import random
import time
from selenium.webdriver.common.by import By

def check():
    option = webdriver.ChromeOptions()
    option.add_argument('--ignore-certificate-errors')
    driver = webdriver.Chrome(options=option)
    url="https://www.fd80.com/305/305890/2099286.html"
    for i in range(267,445):  
        print("正在爬取第"+str(i)+"章")
        driver.get(url)
        time.sleep(1)
        url=get_text(driver)
        print("爬取完成")

def get_text(driver):
    element = driver.find_element(By.XPATH, '//*[@id="novelcontent"]/div')
    title=driver.find_element(By.XPATH, '//*[@id="chaptertitle"]')
    nexthtml=driver.find_element(By.XPATH, '//*[@id="next_url"]')
    # 获取下一章的链接
    next_url = nexthtml.get_attribute('href')
    # 将结果写入文件
    with open('无敌六皇子.txt', 'a', encoding='utf-8') as f:
        f.write(title.text + '\n')
        f.write(element.text + '\n\n')
    return next_url
    


if __name__ == '__main__':
    check()

接着写一个网页来表示出文本内容(此段代码由陈同学提供,不方便展示),效果如下:
爬虫之牛刀小试(九):爬取小说,爬虫,爬虫,python,开发语言
最近新开了公众号,请大家关注一下。
爬虫之牛刀小试(九):爬取小说,爬虫,爬虫,python,开发语言文章来源地址https://www.toymoban.com/news/detail-822276.html

到了这里,关于爬虫之牛刀小试(九):爬取小说的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 牛刀小试 - C++ 实现2048(可存档)

    牛刀小试 - C++ 实现2048(可存档)

    借助了这位大佬的开发思路, 开发过程中学到了很多 C语言实现《2048游戏》 system调整控制台大小的问题 unsigned and 符号位 C++对齐输出(左对齐和右对齐) C++ goto语句详解

    2024年01月25日
    浏览(20)
  • 工欲善其事必先利其器--CMake牛刀小试

    这里假设用户已经安装好MinGW编译套件!并配置好环境变量!具体怎么下载和配置网上教程非常多,这里贴上一个链接:不仅教你安装MinGW还教你安装VScode配置 1、学习c plus plus编码为什么要学习CMake? 在Windows下使用集成开发环境(IDE)开发项目时,一般会使用IDE自带的构建工

    2024年02月06日
    浏览(10)
  • 爬虫小试牛刀(爬取学校通知公告)

    完成抓取并解析DGUT通知公告12页数据,并提交excel文件格式数据,数据需要包含日期标题,若能够实现将详情页主体内容与发布人信息数据也一并抓取更佳 提交内容:Excel数据文件 首先看到页面呈现规则的各个方框,这意味着它们之间的一定是一样的 此处该有图 我们点开后

    2024年02月09日
    浏览(9)
  • python爬虫实战——小说爬取

    python爬虫实战——小说爬取

    基于 requests 库和 lxml 库编写的爬虫,目标小说网站域名http://www.365kk.cc/,类似的小说网站殊途同归,均可采用本文方法爬取。 目标网站 :传送门 本文的目标书籍 :《我的师兄实在太稳健了》 “渡劫只有九成八的把握,和送死有什么区别?” 网络爬虫的工作实际上主要分为

    2024年02月06日
    浏览(11)
  • Python网页爬虫爬取起点小说——re解析网页数据

    Python网页爬虫爬取起点小说——re解析网页数据

    !!注意:我们获取到的网页响应数据,可能会与网页源代码中呈现的格式不同。因为有些网页文件是用JavaScript加载的,浏览器会自动将其解析成html文档格式,而我们获取到的内容是JavaScript格式的文档。所以获取到响应数据之后先要查看内容是否与网页源码中的一致,不一

    2024年02月04日
    浏览(17)
  • 爬虫源码---爬取自己想要看的小说

    爬虫源码---爬取自己想要看的小说

    小说作为在自己空闲时间下的消遣工具,对我们打发空闲时间很有帮助,而我们在网站上面浏览小说时会被广告和其他一些东西影响我们的观看体验,而这时我们就可以利用爬虫将我们想要观看的小说下载下来,这样就不会担心广告的影响了。 Python版本:3.7.3 IDE:PyCharm 所需库

    2024年02月09日
    浏览(12)
  • 网页学习-小试牛刀

    网页学习-小试牛刀

    分为三大部分: HTML 、 CSS 和 JavaScript 。 HTML(Hyper Text Markup Language,即超文本标记语言),网页骨架。 CSS(Cascading Style Sheets,层叠样式表),使页面变得美观、优雅,网页皮肤。 JavaScript(简称JS,是一种脚本语言),实现实时、动态、交互的页面功能,网页肌肉。 学习目的

    2023年04月22日
    浏览(35)
  • Mapreduce小试牛刀(1)

    Mapreduce小试牛刀(1)

    1.与hdfs一样,mapreduce基于hadoop框架,所以我们首先要启动hadoop服务器 --------------------------------------------------------------------------------------------------------------------------------- 2.修改hadoop-env.sh位置JAVA_HOME配置,在JAVA_HOME前面加上export,重启主虚拟机,最好也把另外两个节点同位置的

    2024年02月04日
    浏览(11)
  • 运维Shell脚本小试牛刀(一)

    运维Shell脚本小试牛刀(一)

    运维Shell脚本小试牛刀(一) 运维Shell脚本小试牛刀(二) 运维Shell脚本小试牛刀(三)::$(cd $(dirname $0); pwd)命令详解 运维Shell脚本小试牛刀(四): 多层嵌套if...elif...elif....else fi_蜗牛杨哥的博客-CSDN博客 Cenos7安装小火车程序动画 运维Shell脚本小试牛刀(五):until循环 运维Shell脚本小试牛刀

    2024年02月11日
    浏览(14)
  • 快速上手kettle(二)小试牛刀

    快速上手kettle(二)小试牛刀

    目录 一 、前言 二 、两个小目标 三、 kettle核心概念介绍 3.1 转换 3.1.1 步骤(Step) 3.1.2 跳(Hop) 3.1.3 元素据 3.1.4 数据类型 3.1.5 并发执行 3.2 作业 四、实践操作 4.1 案例1 将csv文件转换成excel文件 4.1.1 在kettle中新建一个转换 4.1.2选择输入控件并设置 4.1.3 选择输出控件并设置 4.

    2024年02月06日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包