【爬虫学习】1、利用get方法对豆瓣电影数据进行爬取

这篇具有很好参考价值的文章主要介绍了【爬虫学习】1、利用get方法对豆瓣电影数据进行爬取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

♥️作者:白日参商
🤵‍♂️个人主页:白日参商主页
♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!!
🎈🎈加油! 加油! 加油! 加油
🎈欢迎评论 💬点赞👍🏻 收藏 📂加关注+!

学习目标:能够利用python对一些科研中需要用到的数据进行爬取


一、步骤总览

1、导入python库
2、获取豆瓣电影的第一页的数据 并保存起来
3、请求对象的定制
4、模拟浏览器向服务器发送请求
5、获取响应的数据
6、把数据下载到本地


二、代码示例

import urllib.request
#  get请求
# 1、获取豆瓣电影的第一页的数据 并保存起来
url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
# 2、请求对象的定制
request = urllib.request.Request(url=url,headers=headers)

# 3、模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 4、获取响应的数据
content = response.read().decode('utf-8')


# 5、把数据下载到本地
# open方法默认使用的是gbk的编码,如果我们想保存汉字,那么需要在open方法中指定编码格式为utf-8,下面有两种方法可以自己选择
# 方法一
# fp = open('douban.json','w',encoding='utf-8')
# fp.write(content)
# 方法二
with open('douban1.json','w',encoding='utf-8') as fp:
    fp.write(content)

三、通俗代码解读:

当拿到整个代码的时候,首先是导入请求包import urllib.request,紧接着是url,URL就是我们要读取的数据的地址接口,下面以chrome为例:
【爬虫学习】1、利用get方法对豆瓣电影数据进行爬取,爬虫专栏,爬虫,学习,人工智能,开发语言,python,pycharm
接下来就是User-Agent的获取,直接在上面那演示的位置就可以找到:
【爬虫学习】1、利用get方法对豆瓣电影数据进行爬取,爬虫专栏,爬虫,学习,人工智能,开发语言,python,pycharm
拿到自己的上面两步以后,就是对请求对象的定制了:

# 2、请求对象的定制
request = urllib.request.Request(url=url,headers=headers)

# 3、模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 4、获取响应的数据
content = response.read().decode('utf-8')

因为爬取的数据是json格式的,我们需要创建一个json文件并保存我们爬取的内容:文章来源地址https://www.toymoban.com/news/detail-525565.html

# 5、把数据下载到本地
# open方法默认使用的是gbk的编码,如果我们想保存汉字,那么需要在open方法中指定编码格式为utf-8,下面有两种方法可以自己选择
# 方法一
# fp = open('douban.json','w',encoding='utf-8')
# fp.write(content)
# 方法二
with open('douban1.json','w',encoding='utf-8') as fp:
    fp.write(content)
  • CSDN 技术博客 1 篇
    ♥️作者:白日参商
    🤵‍♂️个人主页:白日参商主页
    ♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!!
    🎈🎈加油! 加油! 加油! 加油
    🎈欢迎评论 💬点赞👍🏻 收藏 📂加关注+!

到了这里,关于【爬虫学习】1、利用get方法对豆瓣电影数据进行爬取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python】爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据

    目录 前言 一、配置环境 1.1、 安装Python 1.2、 安装Requests库和BeautifulSoup库 1.3.、安装Matplotlib 二、登录豆瓣网(重点) 2.1、获取代理 2.2、测试代理ip是否可用 2.3、设置大量请求头随机使用 2.4、登录豆瓣网 三、爬取某一部热门电影数据 3.1、爬取全部长、短评论 3.2、获取用户

    2024年02月09日
    浏览(31)
  • Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

    1.1 查看原页面信息 首先打开豆瓣Top250电影页面,其网址是:https://movie.douban.com/top250。 可以发现,该页面展示的电影信息有中英文电影名、导演、主演、上映年份、国籍、电影类型、评分等。 下滑到页面底部,发现第一页有25部电影的数据,并且可以点击页码数实现页面跳转

    2024年02月05日
    浏览(37)
  • 【爬虫实战】用python爬豆瓣电影《热烈》短评

    目录 一、爬虫对象-豆瓣电影短评 二、爬取结果 三、爬虫代码讲解 三、演示视频 四、获取完整源码 您好!我是@马哥python说,一名10年程序猿。 今天分享一期爬虫案例,爬取的目标是:豆瓣上任意一部电影的短评(注意:是短评,不是影评!),以《热烈》这部电影为例:

    2024年02月09日
    浏览(29)
  • 【爬虫实战】用python爬豆瓣电影《热烈》的短评!

    您好!我是@马哥python说,一名10年程序猿。 今天分享一期爬虫案例,爬取的目标是:豆瓣上任意一部电影的短评(注意:是短评,不是影评!),以《热烈》这部电影为例: 爬取以上6个段,含: 页码, 评论者昵称, 评论星级, 评论时间, 评论者IP属地, 有用数, 评论内容

    2024年02月03日
    浏览(25)
  • Python爬虫案例分享【爬取豆瓣电影排行榜的电影名称和评分】

    注意:在运行此代码之前,请确保已安装 requests 和 beautifulsoup4 库

    2024年01月19日
    浏览(38)
  • python爬虫小练习——爬取豆瓣电影top250

    将爬取的数据导入到表格中,方便人为查看。 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 https://www.bilibili.com/video/BV1CY411f7yh/?p=15

    2024年01月17日
    浏览(32)
  • Python爬虫实战-批量爬取豆瓣电影排行信息

    大家好,我是python222小锋老师。 近日锋哥又卷了一波Python实战课程-批量爬取豆瓣电影排行信息,主要是巩固下Python爬虫基础 视频版教程: Python爬虫实战-批量爬取豆瓣电影排行信息 视频教程_哔哩哔哩_bilibili Python爬虫实战-批量爬取豆瓣电影排行信息 视频教程作者:小锋老师

    2024年02月05日
    浏览(34)
  • 基于爬虫和Kettle的豆瓣电影的采集与预处理

    将豆瓣电影网上的电影的基本信息,比如:电影名称、导演、电影类型、国家、上映年份、评分、评论人数爬取出来,并将爬取的结果放入csv文件中,方便存储。     图1豆瓣网网站结构详情 此次实验爬取豆瓣网中电影页面中的电影的基本信息。 每一个电影包括电影名称、

    2024年02月02日
    浏览(33)
  • Python爬虫:一个爬取豆瓣电影人像的小案例

    从谷歌浏览器的开发工具进入 选择图片右键点击检查 翻页之后发现网址变化的只有start数值,每次变化值为30 Python代码 把爬取的图片全部放到新建的文件夹中存放

    2024年02月10日
    浏览(47)
  • python爬取豆瓣电影排行前250获取电影名称和网络链接[静态网页]————爬虫实例(1)

    目录 1.算法原理: 2.程序流程: 3.程序代码: 4.运行结果(部分结果展示): 5.结果分析: (1)利用import命令导入模块或者导入模块中的对象; ①利用requests库获取数据; ②用BeautifulSoup库将网页源代码转换成BeautifulSoup类型,以便于数据的解析和处理; ③用time库进行时间延时

    2023年04月16日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包