爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据

这篇具有很好参考价值的文章主要介绍了爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

以豆瓣当下实时热门电影《热烈》作为分析对象

环境:
Python3(Anaconda3)
PyCharm
Chrome浏览器
主要模块:
BeautifulSoup
requests
pymysql
一.概括
目标:获得电影《热烈》的用户观影习惯数据
代码概括:
1.使用requests和bs4爬取电影《热烈》所有短评长评及其用户                                                       2.爬取所有用户的观影数据并使用pymysql存入mysql数据库
3.对数据进行分析
二、(重点)登录豆瓣网(带有反爬虫)

 豆瓣网使用一定的反爬虫技术,根据我的实验经验,主要是针对用户ID、用户IP和请求头的过滤
解决方案:
1携带登陆成功的cookie去请求get登陆
2.使用代理IP
3大量请求头随机使用
2.1使用小象代理IP
爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫
2.2大量请求头随机使用

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 2.3测试IP是否可用

 爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 2.4 登录豆瓣网

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 三.电影《热烈》全部长评reviews
以五星长评为例,遍历五星长评的网页,使用bs4爬取所需网页ontent,再读出所需信息得到信息list。

根据前文获得的headers和proxies,发出get请求,获取response。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 使用bs4做网页解析,获取所需要的content

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 将提取的content提炼得到list

 爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 成功得到5星长评的第一页的用户list。

四.电影《热烈》全部短评comments
以五星短评为例,遍历短评的网页,使用bs4爬取所需网页content,筛选出五星短评content,再读出所需信息得到信息list。
根据前文获得的headers和proxies,发出get请求,获取response。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 使用bs4做网页解析,获取所需要的content。

 爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 提取的content,过滤出五星短评,并提炼得到list

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 成功得到短评的第一页的五星用户list
五.存入数据库
以上内容经过去重,可以获得电影《热烈》的全部五星用户,现将这些五星用户list存入mysql数据库。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 同样的方法可以获得全部的4星、3星、2星、1星用户,并都存入数据库或数据表
六.获取用户观影数据
已知用户主页链接,可以获得用户的观影数据。
以下代码是根据用户user_id 获取用户观影页面一页的数据。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 已获取 list 数据,后续数据库操作和数据处理操作,就不详细展开了。

下面展示分析成果,对表格部分内容进行截取,将用户id做了打码处理。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 生成条形图展示。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

 文章来源地址https://www.toymoban.com/news/detail-621231.html

到了这里,关于爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬虫案例分享【爬取豆瓣电影排行榜的电影名称和评分】

    注意:在运行此代码之前,请确保已安装 requests 和 beautifulsoup4 库

    2024年01月19日
    浏览(62)
  • 【爬虫学习】1、利用get方法对豆瓣电影数据进行爬取

    ♥️作者:白日参商 🤵‍♂️个人主页:白日参商主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!! 🎈🎈加油! 加油! 加油! 加油 🎈欢迎评论 💬点赞👍🏻 收藏 📂加关注+! 1、导入python库 2、获取豆瓣电影的第一页的数据 并

    2024年02月12日
    浏览(45)
  • Python爬虫:一个爬取豆瓣电影人像的小案例

    从谷歌浏览器的开发工具进入 选择图片右键点击检查 翻页之后发现网址变化的只有start数值,每次变化值为30 Python代码 把爬取的图片全部放到新建的文件夹中存放

    2024年02月10日
    浏览(78)
  • python爬虫——爬取豆瓣top250电影数据(适合初学者)

    爬取豆瓣top250其实是初学者用于练习和熟悉爬虫技能知识的简单实战项目,通过这个项目,可以让小白对爬虫有一个初步认识,因此,如果你已经接触过爬虫有些时间了,可以跳过该项目,选择更有挑战性的实战项目来提升技能。当然,如果你是小白,这个项目就再适合不过

    2024年02月07日
    浏览(77)
  • python爬取豆瓣电影排行前250获取电影名称和网络链接[静态网页]————爬虫实例(1)

    目录 1.算法原理: 2.程序流程: 3.程序代码: 4.运行结果(部分结果展示): 5.结果分析: (1)利用import命令导入模块或者导入模块中的对象; ①利用requests库获取数据; ②用BeautifulSoup库将网页源代码转换成BeautifulSoup类型,以便于数据的解析和处理; ③用time库进行时间延时

    2023年04月16日
    浏览(60)
  • 爬虫项目实战:利用基于selenium框架的爬虫模板爬取豆瓣电影Top250

    👋 Hi, I’m @货又星 👀 I’m interested in … 🌱 I’m currently learning … 💞 I’m looking to collaborate on … 📫 How to reach me … README 目录(持续更新中) 各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、

    2024年02月04日
    浏览(45)
  • Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

    1.1 查看原页面信息 首先打开豆瓣Top250电影页面,其网址是:https://movie.douban.com/top250。 可以发现,该页面展示的电影信息有中英文电影名、导演、主演、上映年份、国籍、电影类型、评分等。 下滑到页面底部,发现第一页有25部电影的数据,并且可以点击页码数实现页面跳转

    2024年02月05日
    浏览(50)
  • 爬虫入门指南(7):使用Selenium和BeautifulSoup爬取豆瓣电影Top250实例讲解【爬虫小白必看】

    在本篇博客中,我们将使用 Python 的 Selenium 和 BeautifulSoup 库来实现一个简单的网页爬虫,目的是爬取豆瓣电影TOP250的数据,并将结果保存到Excel文件中。 Selenium 是一个自动化测试工具,可以模拟用户在浏览器中的交互操作。我们将使用 Selenium 来打开网页、获取网页源码。 B

    2024年02月12日
    浏览(50)
  • 详解爬虫基本知识及入门案列(爬取豆瓣电影《热辣滚烫》的短评 详细讲解代码实现)

    目录 前言什么是爬虫? 爬虫与反爬虫基础知识 一、网页基础知识  二、网络传输协议 HTTP(HyperText Transfer Protocol)和HTTPS(HTTP Secure)请求过程的原理? 三、Session和Cookies Session Cookies Session与Cookies的区别与联系  四、Web服务器Nginx 五、代理IP 1、代理IP的原理 2. 分类 3. 获取途

    2024年04月29日
    浏览(60)
  • Python爬虫——urllib_ajax的get请求爬取豆瓣电影前十页

    ajax: 就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: 一定会有 url,请求方法(get, post),可能有数据 一般使用 json 格式 打开豆瓣电影,F12打开控制台(我这里是科幻类排行榜) 这是第一页 第二页 第

    2024年02月16日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包