11.网络爬虫—多线程详讲与实战

这篇具有很好参考价值的文章主要介绍了11.网络爬虫—多线程详讲与实战。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言
🏘️🏘️个人简介:以山河作礼。
🎖️🎖️:Python领域新星创作者,CSDN实力新星认证
📝​📝第一篇文章《1.认识网络爬虫》获得全站热榜第一,python领域热榜第一
🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》全站热榜第八
🧾 🧾第八篇文章《8.网络爬虫—正则表达式RE实战》全站热榜第十二
🧾 🧾第十篇文章《10.网络爬虫—MongoDB详讲与实战》全站热榜第八,领域热榜第二
🎁🎁《Python网络爬虫》专栏累计发表十篇文章,上榜四篇。欢迎免费订阅!欢迎大家一起学习,一起成长!!
💕💕悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。

在第一章节我们讲过,每个爬虫都是你的分身,我们本章节就教大家怎么使用分身。
11.网络爬虫—多线程详讲与实战

程序

🧾 🧾程序是一系列指令或代码的集合,用于指导计算机执行特定的任务或操作

程序可以是计算机程序应用程序脚本程序等,可以用不同的编程语言编写。程序通过计算机的处理和执行,实现了人类所需要的各种功能和应用。

进程

🧾 🧾进程是计算机中正在运行的程序的实例
它是计算机为了完成某个任务而创建的一个执行单元,包含程序代码数据执行状态等信息。

  • 每个进程都有自己的内存地址空间文件句柄网络连接等资源。
  • 进程可以与其他进程进行通信和协作,也可以被操作系统调度和管理。
  • 多任务操作系统中,多个进程可以同时运行,共享计算机的资源,提高计算机的效率和性能。

线程

🧾 🧾线程是进程中的一个执行单元,是计算机执行程序时的最小单位

  • 一个进程可以包含多个线程,每个线程都有自己的执行路径、堆栈和局部变量等
  • 不同的线程可以同时执行不同的任务,共享进程的资源,提高计算机的效率和性能。
  • 线程可以被操作系统调度和管理,也可以通过同步机制来协调各自的执行。
  • 线程的优点是可以充分利用多核处理器的并行性,提高程序的响应速度和并发处理能力
    11.网络爬虫—多线程详讲与实战

线程常用方法

🧾 🧾线程常用方法包括:

  1. start():启动线程,开始执行线程的run()方法。

2.run():线程的主体方法,包含线程要执行的代码。

  1. join():等待线程结束,让主线程等待子线程执行完毕。

  2. sleep():使线程暂停执行一段时间,以便其他线程有机会执行。

  3. interrupt():中断线程,通知线程停止运行。

  4. isAlive():判断线程是否还在运行。

  5. setDaemon():将线程设置为守护线程,当主线程结束后,守护线程会自动结束。

  6. yield():让出CPU,让其他线程有机会执行。

  7. wait():使线程进入等待状态,直到其他线程调用notify()notifyAll()方法唤醒它。

  8. notify()和notifyAll():唤醒等待中的线程,使其继续执行。

多线程的优点

🧾 🧾多线程的优点主要有以下几点:

  1. 提高爬取速度使用多线程技术可以同时处理多个任务,从而提高爬取速度。在单线程模式下,程序需要一个一个地处理每个任务,而在多线程模式下,程序可以同时处理多个任务,从而节省了大量的时间。

  2. 提高效率在处理大量数据时,使用多线程技术可以大大缩短程序的运行时间,从而提高效率。这对于需要处理大量数据的应用场景非常有用,比如搜索引擎、数据挖掘等。

  3. 降低资源占用率使用多线程技术可以将任务分配到不同的线程中执行,从而降低了单个线程对资源的占用率,比如CPU、内存等。这样可以避免单个线程因为资源占用过高而导致程序崩溃或者运行缓慢的问题。

  4. 提高程序的可扩展性使用多线程技术可以将任务分配到不同的线程中执行,从而方便程序的扩展和升级。如果需要增加新的功能或者处理更多的数据,只需要增加更多的线程即可。

join() 案例

🧾 🧾为了方便理解,代码注释放在了代码片中。


from time import sleep, time  # 导入需要使用的模块和函数
import threading  # 多线程模块,内置模块


def main1():
    print('开始运行main1')
    sleep(3)
    print('运行完成main1')


def main2():
    print('开始运行main2')
    sleep(3)
    print('运行完成main2')


#  定义两个函数main1和main2,分别打印开始运行和运行完成的信息,并在函数中使用sleep函数模拟函数执行时间。

start = time()  # 使用time函数记录程序开始运行的时间。

t1 = threading.Thread(target=main1)
t1.start()

t2 = threading.Thread(target=main2)
t2.start()

#  使用Thread函数创建两个线程t1和t2,分别执行main1和main2函数。

t1.join()  # 阻塞主线程 等待t1线程运行完成
t2.join()

# 使用join方法阻塞主线程,等待t1和t2线程运行完成后再继续执行主线程
stop = time()  # 使用time函数记录程序结束运行的时间。
print(stop - start)  # 输出程序运行时间。

11.网络爬虫—多线程详讲与实战

整体来说,就是创建了两个线程t1和t2,分别执行main1和main2函数。在主线程中,使用join方法阻塞主线程,等待t1和t2线程运行完成后再继续执行主线程。最后输出程序运行时间。

使用多线程模块threading实现并发执行多个函数的效果,提高程序的运行效率。

共享全局变量资源竞争

🧾 🧾全局变量是在模块级别定义的,因此在多个线程或进程中访问全局变量可能会发生资源竞争
为了避免这种情况,可以使用线程锁进程锁来同步对全局变量的访问。

🧾 🧾在使用多线程的情况下,可以使用Python的threading模块中的Lock类来实现线程锁。在访问全局变量之前,线程可以调用acquire()方法来获取锁,并在完成后调用release()方法来释放锁。这样,只有一个线程可以同时访问全局变量,从而避免了资源竞争。

以下是一个使用线程锁来避免全局变量资源竞争的示例代码:

import threading

# 定义全局变量
count = 0

# 定义线程锁
lock = threading.Lock()

# 定义线程函数
def increment():
    global count
    # 获取线程锁
    lock.acquire()
    try:
        # 访问全局变量
        count += 1
    finally:
        # 释放线程锁
        lock.release()

# 创建多个线程
threads = []
for i in range(10):
    t = threading.Thread(target=increment)
    threads.append(t)

# 启动线程
for t in threads:
    t.start()

# 等待所有线程完成
for t in threads:
    t.join()

# 输出结果
print("count = ", count)

11.网络爬虫—多线程详讲与实战

在上面的代码中,我们定义了一个全局变量count和一个线程锁lock。然后,我们定义了一个increment()`函数,该函数通过获取线程锁来访问全局变量count,并将其递增。最后,我们创建了10个线程,并在每个线程中调用increment()函数。在访问全局变量之前,每个线程都会获取线程锁,并在完成后释放它。这样,我们可以确保只有一个线程可以同时访问全局变量count,从而避免了资源竞争。最后,我们输出count的值,以验证它是否正确地递增了。

互斥锁&死锁

互斥锁

🧾 🧾互斥锁(Mutex)是一种同步机制,用于保护共享资源不被并发访问。在Python中,可以使用threading模块中的Lock类来实现互斥锁。

下面是一个简单的例子,说明如何使用互斥锁来保护共享变量:

import threading

x = 0
lock = threading.Lock()

def increment():
    global x
    for i in range(100000):
        lock.acquire()
        x += 1
        lock.release()

t1 = threading.Thread(target=increment)
t2 = threading.Thread(target=increment)

t1.start()
t2.start()

t1.join()
t2.join()

print(x)

11.网络爬虫—多线程详讲与实战

🧾 🧾上述代码中,我们定义了一个全局变量x,然后创建了两个线程t1t2,每个线程都会对x进行100000次加1操作。为了避免并发访问导致数据出错,我们使用了Lock类来保护x。具体来说,当一个线程获取到锁时,其他线程就不能获取锁,直到该线程释放锁为止

死锁

🧾 🧾死锁指的是两个或多个线程在等待对方释放资源的状态,从而导致程序无法继续执行。
在Python中,死锁通常发生在多个线程同时获取多个锁的情况下。为了避免死锁,我们应该尽量避免使用多个锁。

下面是一个简单的死锁例子:

import threading

lock1 = threading.Lock()
lock2 = threading.Lock()

def func1():
    lock1.acquire()
    lock2.acquire()
    print("Func1")

    lock2.release()
    lock1.release()

def func2():
    lock2.acquire()
    lock1.acquire()
    print("Func2")

    lock1.release()
    lock2.release()

t1 = threading.Thread(target=func1)
t2 = threading.Thread(target=func2)

t1.start()
t2.start()

t1.join()
t2.join()

11.网络爬虫—多线程详讲与实战

🧾 🧾上述代码中,我们定义了两个锁lock1lock2,然后创建了两个线程t1t2,每个线程都需要获取两个锁才能继续执行。由于t1t2同时获取了一个锁,然后又试图获取另一个锁,导致两个线程都陷入了等待状态,无法继续执行,从而引发了死锁。

多线程实战

某果多线程实战

👉👉本次实战目的是使用多线程获取网站前十页数据的菜·标题作者观看人数收藏人数

🧾 🧾在这里,我们使用之前学过的知识,用最常用的方式先获取网站前十页的数据。如果有什么问题,可以阅读专栏之前的文章帮助理解学习。👉👉《Python网络爬虫》,累计阅读6w+。

获取数据完整代码如下:

import requests
from lxml import etree
from tabulate import tabulate
import time

for j in range(0, 217, 24):
    url = f'https://www.douguo.com/jingxuan/{j}'
    res = requests.get(url)

    # print(res.text)
    html = etree.HTML(res.text)

    for i in range(1, 25):
        name = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/a[1]/text()')
        author = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/a[2]/text()')[1].strip()
        watch = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/div/span[1]/text()')
        Collection = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/div/span[2]/text()')
        result = tabulate([[name, author, watch, Collection]],
                          headers=['Name', 'Author', 'Watch', 'Collection'], tablefmt='orgtbl')
        print(result)

    time.sleep(1)


运行结果展示部分,因为内容较多:11.网络爬虫—多线程详讲与实战

🧾 🧾我在这里大概讲解一下代码的含义

  1. 使用requests库向指定的网址发送请求,并获取网页的源代码。
  2. 使用lxml库中的etree类将源代码解析成HTML文档对象
  3. 使用for循环遍历每一页上的所有菜谱,通过xpath表达式提取出菜谱的名称、作者、浏览量和收藏量等信息。
  4. 使用tabulate库将提取出来的信息以表格形式打印出来。
  5. 为了防止爬取速度过快被网站封禁,代码中使用了time库中的sleep函数,每爬取一页后暂停1秒钟。

我们先计算一下,获取每一页数据需要多少时间和总体需要多少时间:
11.网络爬虫—多线程详讲与实战
11.网络爬虫—多线程详讲与实战

接下来我们使用多线程来操作,多线程运行的部分需要是一个函数,所以我们把主体部分封装成一个函数:


def save_data(url):
    with codecs.open('douguo5.csv', 'a', 'utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        res = requests.get(url)
        html = etree.HTML(res.text)
        for i in range(1, 25):
            name = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/a[1]/text()')
            author = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/a[2]/text()')[1].strip()
            watch = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/div/span[1]/text()')
            Collection = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/div/span[2]/text()')
            writer.writerow([name, author, watch, Collection])
            print([name, author, watch, Collection])

🧾 🧾然后我们使用多线程技术加速爬取数据的速度。

  1. 先定义了一个名为t_list的列表,用于存储线程对象。
  2. 使用一个for循环遍历所有需要爬取的网页,将每个网页的爬取任务分配给一个线程,并将该线程对象添加到t_list列表中。
  3. 使用threading.Thread方法创建一个名为t1的线程对象,将save_data函数作为target参数传入,并将url作为args参数传入。
  4. 调用t1.start()方法启动线程,并将t1添加到t_list列表中。
  5. 使用另一个for循环遍历t_list列表中的所有线程对象,并调用i.join()方法等待所有线程执行完毕。
  6. join方法会阻塞当前线程,直到被调用的线程执行完毕。

在这个for循环中,主线程会等待所有子线程都执行完毕后再继续执行下面的代码

最后,代码计算并输出了程序的运行时间,即stop - start的值。这个值表示程序从开始执行到结束所用的时间,可以用来评估程序的效率和性能。

完整代码如下:

import codecs
import csv
import time

import requests
from lxml import etree

def save_data(url):
    with codecs.open('douguo5.csv', 'a', 'utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        res = requests.get(url)
        html = etree.HTML(res.text)
        for i in range(1, 25):
            name = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/a[1]/text()')
            author = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/a[2]/text()')[1].strip()
            watch = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/div/span[1]/text()')
            Collection = html.xpath(f'//*[@id="jxlist"]/li[{i}]/div/div/span[2]/text()')
            writer.writerow([name, author, watch, Collection])
            print([name, author, watch, Collection])

import threading

start = time.time()
t_list = []

for j in range(0, 217, 24):
    url = f'https://www.douguo.com/jingxuan/{j}'
    # save_data(url)
    t1 = threading.Thread(target=save_data, args=(url,))
    t1.start()
    t_list.append(t1)


for i in t_list:
    i.join()

stop = time.time()
print(stop - start)


我们可以看到,运行时间大大缩短。
提高爬取速度和效率。11.网络爬虫—多线程详讲与实战

写在最后
👉 👉本专栏所有文章是博主学习笔记,仅供学习使用,爬虫只是一种技术,希望学习过的人能正确使用它。博主也会定时一周三更爬虫相关技术更大家系统学习,如有问题,可以私信我,没有回,那我可能在上课或者睡觉,写作不易,感谢大家的支持!!🌹🌹🌹文章来源地址https://www.toymoban.com/news/detail-408409.html

到了这里,关于11.网络爬虫—多线程详讲与实战的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 22.网络爬虫—APP数据抓取详讲

    前言 : 🏘️🏘️个人简介:以山河作礼。 🎖️🎖️: Python领域新星创作者,CSDN实力新星认证,阿里云社区专家博主 📝​📝第一篇文章《1.认识网络爬虫》获得 全站热榜第一,python领域热榜第一 。 🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》 全站热榜第八 。

    2024年02月04日
    浏览(54)
  • 多线程爬虫实战-思路

    前言 最近有很多小伙伴找到我,说想要王者荣耀所有英雄皮肤的照片,但是又不想自己去下载,正好借这个机会给大家讲解一下多线程的爬虫实战 由于线程爬虫会对任何服务器都有一定的影响,本文仅供学习交流使用,切勿拿去做什么不好的事情,要做一个合法的爬虫写手

    2024年02月11日
    浏览(28)
  • Python实战:用多线程和多进程打造高效爬虫

    在网络爬虫的世界里,效率是关键。为了快速地获取大量数据,我们需要运用一些高级技巧,如多线程和多进程。在本篇博客中,我们将学习如何使用Python的多线程和多进程来构建一个高效的网络爬虫,以便更快速地获取目标网站上的信息。 在单线程爬虫中,我们按照顺序一

    2024年02月07日
    浏览(40)
  • (十四)python网络爬虫(理论+实战)——爬虫利器selenium详解

    目录 6 selenium的介绍和使用      6.1 爬虫遇到的难点

    2023年04月08日
    浏览(48)
  • 〖Python网络爬虫实战㉗〗- Selenium案例实战(一)

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                  python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2024年02月14日
    浏览(48)
  • 〖Python网络爬虫实战㉙〗- Selenium案例实战(三)

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                  python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2024年02月07日
    浏览(59)
  • 18.网络爬虫—Scrapy实战演示

    前言 : 🏘️🏘️个人简介:以山河作礼。 🎖️🎖️: Python领域新星创作者,CSDN实力新星认证 📝​📝第一篇文章《1.认识网络爬虫》获得 全站热榜第一,python领域热榜第一 。 🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》 全站热榜第八 。 🧾 🧾第八篇文章《8

    2023年04月22日
    浏览(37)
  • Python网络爬虫入门到实战

    💂 个人网站:【工具大全】【游戏大全】【神级源码资源网】 🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】 💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 网络爬虫(Web Scraping)是一种自动化从网页上获取信息的技术,它通过模拟浏览器

    2024年02月12日
    浏览(48)
  • Python3网络爬虫开发实战

    1.1 URI和URL URI:统一资源标识符(Uniform Resource Identifier) URL:统一资源定位符(Uniform Resource Locator) URN:统一资源名称(Uniform Resource Name) 1.2 HTTP和HTTPS HTTP:超文本传输协议(Hypertext Transfer Protocol) HTTPS:以安全为目标的HTTP通道(Hypertext Transfer Protocol) 1.3 请求(Requset) 1.3.1 请求方式 函数

    2024年02月04日
    浏览(48)
  • 16.网络爬虫—字体反爬(实战演示)

    前言 : 🏘️🏘️个人简介:以山河作礼。 🎖️🎖️: Python领域新星创作者,CSDN实力新星认证 📝​📝第一篇文章《1.认识网络爬虫》获得 全站热榜第一,python领域热榜第一 。 🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》 全站热榜第八 。 🧾 🧾第八篇文章《8

    2023年04月26日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包