使用 Python3 获取网页源代码

这篇具有很好参考价值的文章主要介绍了使用 Python3 获取网页源代码。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        爬虫的数据爬取量非常大,显然不可能对每个页面都手动复制源代码,因此就有必要使用自动化的方式来获取网页源代码。requests是Python的一个第三方HTTP(Hypertext Transfer Protocol,超文本传输协议)库,它比Python自带的网络库urllib更加简单、方便和人性化。使用requests可以让Python实现访问网页并获取源代码的功能。使用requests获取网页的源代码,最简单的情况下只需要两行代码:

      #使用requests获取源代码
      import requests
      source = requests.get('https://www.baidu.com').content.deocde()

一、Python的第三方库

        在Python开发的过程中,常常需要将一些功能比较通用的代码抽离出来作为一个单独的模块,从而被多个工程调用。这种公共的模块称为Python的库(Library,Lib)。Python在发布时会自带一些由官方开发的常用的库,例如正则表达式“re”、时间“time”等。这些库称为“官方库”。而由非官方发布的库,则称为“第三方库”。Python之所以如此强大,正是由于它拥有非常多的第三方库。使用第三方库,可以轻易实现各种各样的功能。以获取网页内容为例,Python其实自带了两个模块,分别是urllib和urllib2。使用这两个模块也可以获取网页内容。但是这两个模块使用起来非常麻烦。而requests这个第三方库,让获取网页内容变得极其简单。requests这个库的作者给这个库取了一个副标题“HTTP for humans”,直接翻译过来就是“这才是给人用的HTTP库”。

        Python的第三方库需要手动安装。如果系统只有一个Python版本,那么手动安装第三方库时需要在Mac OS/Linux的终端或者Windows的CMD中执行以下命令:

pip install第三方库的名字

        需要注意的是,如果系统同时有Python 2和Python 3,并且Python 3是后安装的,那么要为Python 3安装第三方库,就需要使用如下命令:

pip3 install第三方库的名字

        安装完第三方库以后,就可以在Python中使用了。使用第三方库,就像使用Python自带的库一样,首先需要使用“import”关键字将它导入,然后才能使用。还有一点需要特别强调,开发者自己写的.py文件的名字绝对不能和Python自带的模块或者已经安装的第三方库的名字相同,否则会产生问题。例如,内容涉及requests和正则表达式,那么开发在测试代码的时候绝对不能自行创建名为“requests.py”或者“re.py”的文件官方的或第三方库名字一样。一旦创建,代码必定报错。

二、requests介绍与安装

        使用pip安装requests,代码如下:

pip install requests

        pip在线安装时可能会受到防火墙的干扰,因此也可以使用源代码安装。打开网页https://github.com/kennethreitz/requests,单击“Clone or download”按钮,再单击“Download ZIP”按钮下载源代码,如图所示。

使用 Python3 获取网页源代码

        解压源代码,找到setup.py,并打开CMD窗口或者终端,在放置这个setup.py文件的文件夹中执行以下代码:

python3 setup.py install

使用 Python3 获取网页源代码

         安装完成以后打开CMD或者终端,进入Python交互环境,输入以下代码

>>>import requests

        如果不报错,则表示requests已经成功安装,如图所示:
使用 Python3 获取网页源代码

 

 

三、使用requests获取网页源代码

        使用浏览器来访问网页,看起来只需要输入网址就可以。但其实网页有很多种打开方式,最常见的是GET方式和POST方式。在浏览器里面可以直接通过输入网址访问的页面,就是使用了GET方式。还有一些页面,只能通过从另一个页面单击某个链接或者某个按钮以后跳过来,不能直接通过在浏览器输入网址访问,这种网页就是使用了POST方式。

1.GET方式

        对于使用GET方式的网页,在Python里面可以使用requests的get()方法获取网页的源代码:

import requests
html = requests.get(’网址’)
html_bytes = html.content
html_str = html_bytes.decode()

        在这4行代码中,第1行导入了requests库,这样代码里面才能使用。第2行使用GET方法获取了网页,得到一个Response对象。此时如果直接打印HTML变量,得到的是:

<Response [200]>

        第3行使用.content这个属性来显示bytes型网页的源代码。第4行代码将bytes型的网页源代码解码为字符串型的源代码。对于上面的4行代码,可以将后3行合并,缩减为两行代码:

import requests
html_str = requests.get(’网址’).content.decode()

        之所以需要把bytes型的数据解码为字符串型的数据,是因为在bytes型的数据类型下,中文是无法正常显示的。这个“解码”对应的英文为“decode”,因而我们需要使用.decode()这个方法。

html = requests.get(’网址’).content.decode('GBK')
html = requests.get(’网址’).content.decode('GB2312')
html = requests.get(’网址’).content.decode('GB18030')

        编码格式有几十种,但最常见的是“UTF-8”“GBK”“GB2312”和“GB18030”。具体使用哪一种编码格式,需要根据实际情况来选择。大多数情况下使用“UTF-8”,但也有一些网站会使用“GBK”或者“GB2312”。可以每一种编码格式都测试一下,通过打印出网页的源代码,查看里面的中文是否显示正常,以中文可以正常显示为准。

2.POST方式网页的访问方式

        除了GET方式以外,还有POST方式。有一些网页,使用GET和POST方式访问同样的网址,得到的结果是不一样的。还有另外一些网页,只能使用POST方式访问,如果使用GET方式访问,网站会直接返回错误信息。

        此时就需要使用requests的post()方法来获取源代码。post()方法的格式如下:

import requests
data = {'key1': 'value1','key2': 'value2'}
html_formdata = requests.post(’网址’, data=data).content.decode()
#用formdata提交数据

        其中,data这个字典的内容和项数需要根据实际情况修改,Key和Value在不同的网站是不一样的。而做爬虫,构造这个字典是任务之一。还有一些网址,提交的内容需要是JSON格式的,因此post()方法的参数需要进行一些修改:

html_json = requests.post(’网址’, json=data).content.decode() 
#使用JSON提交数据

        这样写代码,requests可以自动将字典转换为JSON字符串。

四、结合requests与正则表达式

        以GET方式为例,通过requests获得了网页的源代码,就可以对源代码字符串使用正则表达式来提取文本信息。

        现在需要把标题和两段中文提取下来,可以通过正则表达式来实现。

1、 提取标题。

title = re.search(‘title>(.*? )<', html, re.S).group(1)

2、提取正文,并将两段正文使用换行符拼接起来。

content_list = re.findall(‘p>(.*? )<', html, re.S)
content_str = ‘\n'.join(content_list)

--------------------------------------

版权声明:本文为【PythonJsGo】博主的文章,同步在【猿小猴子】公众号平台,转载请附上原文出处链接及本声明。文章来源地址https://www.toymoban.com/news/detail-415465.html

到了这里,关于使用 Python3 获取网页源代码的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • UniApp中获取手机通话记录的方法及源代码实现

    UniApp中获取手机通话记录的方法及源代码实现 近期有用户在UniApp开发中询问如何获取Android手机的通话记录,这里将介绍一种使用plus.android接口的方法,并提供相应的源代码示例。 UniApp是一种基于Vue.js的跨平台开发框架,可以同时开发iOS和Android应用。在UniApp中,我们可以通过

    2024年01月17日
    浏览(35)
  • Apache HTTP Server(简称Apache)是Apache软件基金会的一个开放源代码的网页服务器

    Apache HTTP Server(简称Apache)是Apache软件基金会的一个开放源代码的网页服务器,可以在大多数电脑操作系统中运行,由于其具有的跨平台性和安全性,被广泛使用,是最流行的Web服务器端软件之一。它快速、可靠并且可通过简单的API扩展,Perl/Python解释器可被编译到服务器中

    2024年02月19日
    浏览(32)
  • Python背单词记单词小程序源代码,背单词记单词小游戏源代码

    背单词小游戏,要有多界面交互,界面整洁、美观,可调节游戏等级难度,可配置游戏信息。 有游戏分数,游戏时间,动画特效,背景音乐,不同游戏等级的历史最高分记录。 拼写成功的英文单词显示中文意思。支持长按回删键[backspace],快速删除单词字母。 多种游戏困难

    2024年02月15日
    浏览(41)
  • QT6 C++获取Window系统计算机的主机BIOS序列号源代码

    这是自己用QT6 C++编程语言开发的获取主机BIOS序列号的程序。经过调试,可以在Window10系统和Win7系统运行。

    2024年02月09日
    浏览(31)
  • 邮差之死--python源代码

    初学python 代码量还挺大,幸好同学找到了结构。感谢同学。 信息课上的分组作业,自己一个人写了600多行吧。结构大概是正确的,但是中间的文字可能有问题,因为没有源文档全是手敲,有的地方同学觉得比较幼稚就删了。 中间停顿如果太长了或者太短了的话抱歉,我不太

    2024年02月05日
    浏览(30)
  • python爱心源代码集锦(18款)

            本文目录: 一、代码效果预览索引图 二、爱心源代码集锦 (1)、爱心图形1(弧线型)(显示的文字写在代码里) (2)、爱心图形2(直线型)(显示的文字写在代码里) (3)、爱心图形3(弧线型)(通过输入方式显示文字) (4)、用python绘制爱心树 (5)、粒

    2023年04月15日
    浏览(25)
  • Python绘图——漂亮的玫瑰(源代码)

        2022-12-26发的“Python用turtle库绘制图形——漂亮的玫瑰”一文,比较受网友关注,反映良好,由于代码发的是源代码截图,不少网友私信我反映自己输入的代码不能正常运行,有的来信索要源代码,有的希望“分享一下代码”,故今天直接贴源代码,以满足网友的要求,来

    2024年02月07日
    浏览(37)
  • python简单小游戏代码教程,python小游戏程序源代码

    大家好,小编来为大家解答以下问题,python简单小游戏代码教程,python小游戏程序源代码,今天让我们一起来看看吧! 哈喽铁子们 表弟最近在学Python,总是跟我抱怨很枯燥无味,其实,他有没有认真想过,可能是自己学习姿势不对? 比方说,可以通过打游戏来学编程! 今天

    2024年02月02日
    浏览(48)
  • 用python写的新年快乐的代码,python节日祝福源代码

    这篇文章主要介绍了用python写的新年快乐的代码,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。 import os import time import random import pygame import colorama ‘‘‘一些变量‘‘‘ BGMPATH = ‘bgm.mp3‘ colorama.init

    2024年02月03日
    浏览(40)
  • python简单小游戏代码100行,python小游戏程序源代码

    大家好,本文将围绕python简单小游戏代码100行展开说明,python小游戏代码能用的是一个很多人都想弄明白的事情,想搞清楚python小游戏程序源代码需要先了解以下几个事情。 这次用Python实现的是一个接球打砖块的小游戏,需要导入pygame模块,有以下两条经验总结: 1.多父类的

    2024年02月06日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包