Python爬虫快速入门

这篇具有很好参考价值的文章主要介绍了Python爬虫快速入门。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Python 爬虫Sutdy

1.基本类库

request(请求)

  • 引入
from urllib import request
  • 定义url路径
url="http://www.baidu.com"
  • 进行请求,返回一个响应对象response
response=request.urlopen(url)
  • 读取响应体read()以字节形式打印网页源码
response.read()
  • 转码

    • 编码 文本–byte encode

    • 解码 byte–文本 decode

      • #将上方转为文本
        text=response.read().decode("utf-8")
        # 打印为源码文本显示
         print(text)
        
  • 写入

  • 语法:with open (‘文件名’,‘w’,设定编码格式) as fp: fp.write(文本) w代表写入

  • with open ('命名.html','w',encoding='utf-8') as fp:
    	 	fp.write(text)
    
  • 读取

    • 读取响应体内容并转为utf-8格式

      • response.read().decode("utf-8")
        
      • 读取状态
  • response.getcode()
    
  • 读取请求路径

 response.geturl()
  • 读取响应头
response.getheaders()

parse(url编码)

在开始网页请求之前需保证编码格式~

  • 引入
from urllib import parse

  • 使用测试

    • quote(编码)

    • #编码
      result=parse.quote("小鲁班")
      
  • unquote(解码)

#解码
result1=parse.unquote("%E9%E1%3E")
  • 给多个参数编码方式1 变量名.format()
url2="http://www.baidu.com?name={}&pwd={}"
url1=url2.format(parse.quote('用户名'),parse.quote('密码'))
  • 给多个参数编码方式2 urlencode
obj={
"name":"肖",
"password":"213123丽华",
"age":"五十岁"
}
base_url="http://www.baidu.com/s?"
params=parse.urlencode(obj)
url=base_url+params

urlretrieve(便捷的下载方式)

request.urlretrieve('图片路径','保存路径')

伪装成浏览器访问的样子

封装一个请求对象

请求对象可以携带除了url之外的一切服务器感兴趣的信息,例如cookie、UA等等…

url="http://www.baidu.com/"
# 定义headers
headers={
 'User-Agent':"Mozilla/5.0 (Linux; Android 11; Pixel 5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.91 Mobile Safari/537.36"
}
req=request.Request(url=url,headers=header)

# 将请求对象传入
response=request.urlopen(req)

2.爬取各种常见的URL

如何找到正确的URL

  • 直接获取浏览器的地址栏url

  • 地址栏url不是固定,需要手动配置

  • 有效地址不在地址栏中,而在Network(网络)中后台加载

  • 等等…

URL分为GET POST

返回值分为XML(HTML),JSON

处理post/get请求

案例:抓取百度翻译

找到URL

post_url="https://fanyi.baidu.com/sug"

POST请求表单参数

data_dict={
	"kw":"sogreat"
}

请求前需要做一次url编码

data=parse.urlencode(data_dict)

参数必须是bytes

data=data.encode("utf-8")

封装请求对象

rq=erquset.Request(url=post_url,headers={},data=data)

response=requset.urlopen(rq)
text=response.read().decode('utf-8')

最终结果是个符合JSON格式的字符串

  • json格式字符串用json解析
  • xml格式字符串用xml解析

进一步解析它转JSON

# 引入
import json
json_obj=json.loads(text,encoding='utf-8')
# 打印结果为json格式的数据
print(json_obj)
# 并且可进行遍历 for...in
for s in json_obj["data"]	# data为json数据中的一个属性
print(s) #循环打印出data的每个值

案例:抓取KFC餐厅地址信息

找到请求地址与post请求参数

实现:

#   肯德基店铺位置 http://www.kfc.com.cn/kfccda/storelist/index.aspx
#请求头优先级 UA-->cookie--->Refer--->其他
headers1={
 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"
}
newaddr=input("请输入地址:")
KFCurl="http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
pageindex=1
# 使用循环查出所有的数据~
while True:
 datas={
     "cname":"",
     "pid":"",
     "pageIndex": pageindex,
     "pageSize": 10,
     "keyword": newaddr
 }
 #编译转码
 data=parse.urlencode(data)
 data=data.encode(encoding="utf-8")
 req1=request.Request(url=url,headers=headers,data=data)
 
	response1=request.urlopen(req1)
 address=response1.read().decode('utf-8')
 address1=json.loads(address)    #转json
 if len(address1['Table1']) == 0:
     break   #表示没数据了
 for addr in address1['Table1']:
     print(addr)
 pageindex+=1

优化:使用模块化管理 def 模块名(参数名): 可把它看作封装方法–相当于js的函数文章来源地址https://www.toymoban.com/news/detail-821098.html

#请求头优先级 UA-->cookie--->Refer--->其他
headers1={
 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"
}
newaddr=input("请输入地址:")
#url对象准备模块
def prepare_url(url,headers,data):
 #编译转码
 data=parse.urlencode(data)
 data=data.encode(encoding="utf-8")
 req1=request.Request(url=url,headers=headers,data=data)
 return req1
#请求数据模块
def request_with_url(reqs):
 response1=request.urlopen(reqs)
 address=response1.read().decode('utf-8')
 return address
#对响应内容解析模块
def pare_data(text):
 address1=json.loads(text)    #转json
 if len(address1['Table1']) == 0:
     return 'null'   #表示没数据了
 for addr in address1['Table1']:
     print(addr)
KFCurl="http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
pageindex=1
# 使用循环查出所有的数据~
while True:
 datas={
     "cname":"",
     "pid":"",
     "pageIndex": pageindex,
     "pageSize": 10,
     "keyword": newaddr
 }
 reqs=prepare_url(KFCurl,headers1,datas)

 text=request_with_url(reqs)

 if(pare_data(text)=="null"):
     break
 pageindex+=1


案例:抓取百度贴吧信息(get)

headers1={
 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"
}
#第一页	https://tieba.baidu.com/f?kw=%E6%96%97%E7%BD%97%E5%A4%A7%E9%99%86&ie=utf-8&pn=0
#第二页	https://tieba.baidu.com/f?kw=%E6%96%97%E7%BD%97%E5%A4%A7%E9%99%86&ie=utf-8&pn=50
#第三页	https://tieba.baidu.com/f?kw=%E6%96%97%E7%BD%97%E5%A4%A7%E9%99%86&ie=utf-8&pn=100
#规律:pn=(page-1)*50
start_page=1
end_page=5
input_name="%E6%96%97%E7%BD%97%E5%A4%A7%E9%99%86"#斗罗大陆
for page in range(start_page,end_page+1):
    url="https://tieba.baidu.com/f?kw{}=&ie=utf-8&pn={}".format(input_name,(page-1)*50)
    request=urllib.request.Request(url=url,headers=headers1)
    response=urllib.request.urlopen(request)
    text=response.read().decode('utf-8')
    
    file_path="page{}.html".format(page)
    with open(file_path,'w',encoding="utf-8") as fp:
        fp.write(text)
    print(file_path,"下载完毕")
print("所有内容下载完毕")

处理Ajax请求

案例:爬取豆瓣电影动画排行榜

# 定义headers
headers={
 'User-Agent':"Mozilla/5.0 (Linux; Android 11; Pixel 5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.91 Mobile Safari/537.36"
}

# 1 0----2 20----3 40----得出:(p-1)*20

# page=input("请输入你要查询动画类型的排行榜前几页")
# print(page)
base_url="https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start={}&genres=%E5%8A%A8%E7%94%BB"
for p in range(0,4):
 total=p*20
 url=base_url.format(total)
 req=request.Request(url=url,headers=headers)
 response=request.urlopen(req)
 text=response.read().decode('utf-8')
 #转json
 json_obj=json.loads(text)
 #只打印部分属性
 for val in json_obj['data']:
     title=val['title']
     rate=val['rate']
     print("title:{},rate:{}".format(title,rate))

到了这里,关于Python爬虫快速入门的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【100天精通python】Day41:python网络爬虫开发_爬虫基础入门

    目录  专栏导读  1网络爬虫概述 1.1 工作原理 1.2 应用场景 1.3 爬虫策略

    2024年02月12日
    浏览(46)
  • python爬虫入门(1)-开发环境配置

          所谓的爬虫,就是通过模拟点击浏览器发送网络请求,接收站点请求响应,获取互联网信息的一组自动化程序。 也就是,只要浏览器(客户端)能做的事情,爬虫都能够做。       现在的互联网大数据时代,给予我们的是生活的便利以及海量数据爆炸式的出现在网络中。

    2024年02月08日
    浏览(44)
  • 【Python爬虫开发】selenium从入门到精通

    1、概述 selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能。 帮助我们完成数据的抓取。 2、学习目标 掌握 selenium发送请求,加载网页的方法 掌握 selenium简单的元素定位的方法 掌握 s

    2024年02月03日
    浏览(40)
  • 【零基础入门学习Python---Python中Web开发基础之快速入门实践】

    🚀 零基础入门学习Python🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,CSDN-Java领域优质创作者🏆,保研|国家奖学金|高中学习JAVA|大学完善JAVA开发技术栈|面试刷题

    2024年02月12日
    浏览(63)
  • 使用Python进行网站页面开发——Django快速入门

    目录 一、项目的创建与运行 1.创建项目 2.运行  二、应用的创建和使用 1,创建一个应用程序 2.编写我们的第一个视图  三、项目的模型 1.连接MySQL数据库设置 2.创建模型 3.激活模型  4.使用(两种) (1)现在进入交互式的Python shell,并使用Django提供的免费API (2)在myapp应用的

    2023年04月08日
    浏览(48)
  • 入门Python编程:了解计算机语言、Python介绍和开发环境搭建

    计算机语言是用来控制计算机行为的一种语言,通过它可以告诉计算机该做什么。计算机语言和人类语言在本质上没有太大区别,只是交流的对象不同。 计算机语言发展经历了三个阶段: 1. 机器语言 机器语言使用二进制编码来编写程序。 执行效率高,但编写起来麻烦。 2

    2024年02月09日
    浏览(65)
  • 快速上手Python爬虫:网络爬虫基础介绍及示例代码

    网络爬虫,又称为 Web 爬虫、网络蜘蛛、网络机器人,在英文中被称为 web crawler,是一种自动化程序,能够在互联网上自动获取数据、抓取信息,并将其存储在本地或远程数据库中。它可以帮助我们自动化处理大量数据,提高工作效率,更好地利用互联网资源。 现代互联网上

    2024年02月09日
    浏览(40)
  • 自然语言处理从入门到应用——LangChain:快速入门-[快速开发聊天模型]

    分类目录:《大模型从入门到应用》总目录 LangChain系列文章: 基础知识 快速入门 安装与环境配置 链(Chains)、代理(Agent:)和记忆(Memory) 快速开发聊天模型 模型(Models) 基础知识 大型语言模型(LLMs) 基础知识 LLM的异步API、自定义LLM包装器、虚假LLM和人类输入LLM(

    2024年02月15日
    浏览(41)
  • LLMOps快速入门,轻松开发部署大语言模型

    大家好,如今我们能够与ChatGPT进行轻松互动:只需输入提示,按下回车,就能迅速得到回应。然而,这个无缝互动的底层,是一系列复杂而有序的自动执行步骤,即大型语言模型运营(LLMOps),确保用户的提示有效传递和处理,并在几秒内生成精准、可靠的回答。 本文将分

    2024年04月09日
    浏览(36)
  • 以太坊智能合约开发:Solidity 语言快速入门

    在本文中,我们从一个简单的智能合约样例出发,通过对智能合约源文件结构的剖析与介绍,使大家对Solidity语言有一个初步的认识。最后,我们将该智能合约样例在 Remix 合约编译器中编译、部署,观察其执行结果。 在开始之前,我们先对Solidity有个初步的了解,即Solidity是

    2023年04月09日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包