Python 爬虫之简单的爬虫(一)

这篇具有很好参考价值的文章主要介绍了Python 爬虫之简单的爬虫(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

爬取网页上所有链接



前言

最近也学了点爬虫的东西。今天就先给大家写一个简单的爬虫吧。循序渐进,慢慢来哈哈哈哈哈哈哈哈哈哈哈


一、基本内容

主要是以下几部分(下文基本会按照这个步骤来写):

  • 导入需要的库
  • 要测试的网页
  • 生成代理,请求网页
  • 请求成功,解析网页,找到并保存想要的东西
  • 请求失败,返回相应状态码

二、代码编写

1.引入库

代码如下:

import requests
from bs4 import BeautifulSoup

requests: 这是一个非常流行的 Python 库,用于发送 HTTP 请求。它可以方便地让我们获取网页内容、下载文件、提交表单等网络操作。

BeautifulSoup: 这是一个用于解析 HTML 和 XML 文档的 Python 库。它能够将复杂的HTML文档转换成树形结构,使得我们可以轻松地搜索、遍历和修改文档中的元素。


2.测试网页

代码如下:

# 目标网页地址
url = 'http://www.santostang.com/'

3.请求网页

代码如下:

# 定义请求头的浏览器代理,伪装成浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome'
                  '/114.0.5735.289 Safari/537.36',
    'host': 'www.santostang.com'}

# 请求网页
response = requests.get(url, headers=headers)
print(response.text)

请求头header提供了关于请求、相应或其他发送实体的信息。总之一句话,这个很重要不能少。

不清楚这个请求头怎么搞的不要担心,下面我会另起一章节告诉大家怎么弄。

response.text 的内容如下图(下面会从这个里面检索获取我们想要的信息):

Python 爬虫之简单的爬虫(一),Python 爬虫,python,爬虫,开发语言


4.解析网页并保存

代码如下:

# 状态码为200,请求成功
if response.status_code == 200:

    # 打印状态码
    print('Status Code: ', response.status_code)

    # 解析 HTML 文档
    soup = BeautifulSoup(response.text, 'html.parser')

    # 找到所有的 <a>, <img> 和 <form> 标签
    elements = soup.find_all(['a', 'img', 'form'])

    # 打开一个文本文档并写入
    with open('url.text', 'w', encoding='utf-8') as f:

        # 打印每个元素的 href、src 或 action 属性
        for element in elements:
            if element.name == 'a':
                link = element.get('href')
            elif element.name == 'img':
                link = element.get('src')
            elif element.name == 'form':
                link = element.get('action')

            if link is not None:
                # 每写入一个链接另起一行
                f.write(link + '\n')
 else:
    # 请求未成功,返回相应的状态码
    print(f'Failed to fetch the page with status code {response.status_code}')               

第一步:判断是否请求成功,成功则进行下一步,失败则返回相应的状态码。
第二步:先解析解析 HTML 文档(response.text)。
第三步:找到所有链接前面的标签都有啥。
第四步:根据标签定位到相应的链接,获取它们。
第五步:判定标签后面的不为空,写入这些链接。

下面是本人测试的效果图:

Python 爬虫之简单的爬虫(一),Python 爬虫,python,爬虫,开发语言


三、如何定义请求头?

很简单。首先,随便打开一个网页。然后按一下F12,接着按照下图上的步骤一步一步来,就可以得到想要的东西。
Python 爬虫之简单的爬虫(一),Python 爬虫,python,爬虫,开发语言


总结

这样,一个简单的爬虫小程序就搞定了。慢慢来吧,后续教大家爬一些有用的东西(# ^ . ^ #)。文章来源地址https://www.toymoban.com/news/detail-786248.html

到了这里,关于Python 爬虫之简单的爬虫(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python简单实现网络爬虫

            在这一篇博客中,我会用python来实现一个简单的网络爬虫。简单的爬取一下一些音乐网站、小说网站的标题、还有摘要!所以这个爬虫并不是万能爬,只针对符合特定规则的网站使用。(只使用于爬标题、和摘要的,所以只能爬在head标签中这三个信息都

    2024年02月05日
    浏览(35)
  • python简单网页爬虫

    正则匹配:难度较大,不建议 BeautifulSoup或者xpath:文档结构清晰【推荐】 实际使用常常是:BeautifulSoup或者xpath匹配到对应的dom节点,然后正则提取想要的数据 (1)BeautifulSoup : 安装: pip install lxml pip install bs4 使用: 爬取国家重点保护野生植物的信息,网站:中国珍稀濒危

    2024年02月08日
    浏览(28)
  • Python爬虫市场简单分析

    Python爬虫是目前互联网行业中最重要的组成部分之一。Python作为一门易学易懂的编程语言,不需要过多的软件环境和部署条件,基本覆盖了爬虫开发的大部分需求,是网络数据爬取和处理的首选技术之一。Python通过一系列优秀的爬虫框架和库的支持,例如Scrapy、BeautifulSoup、

    2024年02月08日
    浏览(33)
  • python实现简单的爬虫功能

    前言 Python是一种广泛应用于爬虫的高级编程语言,它提供了许多强大的库和框架,可以轻松地创建自己的爬虫程序。在本文中,我们将介绍如何使用Python实现简单的爬虫功能,并提供相关的代码实例。 如何实现简单的爬虫 1. 导入必要的库和模块 在编写Python爬虫时,我们需要

    2024年02月14日
    浏览(35)
  • Python爬虫简单入门教程

    这篇 Python 爬虫教程主要讲解以下 5 部分 了解网页结构; 使用 requests 库抓取网站数据; 使用 Beautiful Soup 解析网页; 清洗和组织数据; 爬虫攻防战; 网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。 HTML 负责定义网页

    2024年02月06日
    浏览(207)
  • Python爬虫实战——爬取新闻数据(简单的深度爬虫)

            又到了爬新闻的环节(好像学爬虫都要去爬爬新闻,没办法谁让新闻一般都很好爬呢XD,拿来练练手),只作为技术分享,这一次要的数据是分在了两个界面,所以试一下深度爬虫,不过是很简单的。  网页url 1.先看看网站网址的规律  发现这部分就是每一天的新闻

    2024年02月11日
    浏览(31)
  • 使用 Python 实现简单的爬虫框架

    爬虫是一种自动获取网页内容的程序,它可以帮助我们从网络上快速收集大量信息。在本文中,我们将学习如何使用 Python 编写一个简单的爬虫框架。 一、请求网页 首先,我们需要请求网页内容。我们可以使用 Python 的 requests 库来发送 HTTP 请求。在使用之前,请确保已安装该

    2024年02月03日
    浏览(29)
  • Python爬虫—requests模块简单应用

    requests的作用与安装 作用:发送网络请求,返回响应数据 安装:pip install requests requests模块发送简单的get请求、获取响应 需求:通过requests向百度首页发送请求,获取百度首页的数据 response的常用属性: response.text 响应体str类型 response.encoding 从HTTP header中猜测的响应内容的编

    2024年01月24日
    浏览(41)
  • 【Python爬虫01】Selenium简单认识

    在现代的Web开发中,自动化测试是不可或缺的一环。而Selenium是一个强大的Python库,用于自动化Web浏览器的操作和测试。本篇博文将为您介绍Selenium的基础知识和使用方法,并通过案例说明如何进行Web自动化测试。 Selenium是一个开源的自动化测试框架,主要用于模拟用户与We

    2024年02月16日
    浏览(29)
  • 一个简单的Python网络爬虫教程

    网络爬虫是一种自动获取网页内容的程序,它可以从互联网上的网站中提取数据并进行分析。本教程将带您逐步了解如何使用 Python 构建一个简单的网络爬虫。 注意:在进行网络爬虫时,请遵守网站的使用条款和法律法规,避免对目标网站造成不必要的负担。 步骤 1:设置环

    2024年02月10日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包