爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据

9月前作者：码农小KK 分类：Toy博客阅读(43) 违法举报

这篇具有很好参考价值的文章主要介绍了爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

以豆瓣当下实时热门电影《热烈》作为分析对象

环境:
Python3(Anaconda3)
PyCharm
Chrome浏览器
主要模块:
BeautifulSoup
requests
pymysql
一.概括
目标:获得电影《热烈》的用户观影习惯数据
代码概括:
1.使用requests和bs4爬取电影《热烈》所有短评长评及其用户 2.爬取所有用户的观影数据并使用pymysql存入mysql数据库
3.对数据进行分析
二、(重点)登录豆瓣网(带有反爬虫)

豆瓣网使用一定的反爬虫技术，根据我的实验经验，主要是针对用户ID、用户IP和请求头的过滤
解决方案:
1携带登陆成功的cookie去请求get登陆
2.使用代理IP
3大量请求头随机使用
2.1使用小象代理IP
爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫
2.2大量请求头随机使用

2.3测试IP是否可用

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

2.4 登录豆瓣网

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

三.电影《热烈》全部长评reviews
以五星长评为例，遍历五星长评的网页，使用bs4爬取所需网页ontent，再读出所需信息得到信息list。

根据前文获得的headers和proxies，发出get请求，获取response。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

使用bs4做网页解析，获取所需要的content

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

将提取的content提炼得到list

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

成功得到5星长评的第一页的用户list。

四.电影《热烈》全部短评comments
以五星短评为例，遍历短评的网页，使用bs4爬取所需网页content，筛选出五星短评content，再读出所需信息得到信息list。
根据前文获得的headers和proxies，发出get请求，获取response。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

使用bs4做网页解析，获取所需要的content。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

提取的content，过滤出五星短评，并提炼得到list

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

成功得到短评的第一页的五星用户list
五.存入数据库
以上内容经过去重，可以获得电影《热烈》的全部五星用户，现将这些五星用户list存入mysql数据库。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

同样的方法可以获得全部的4星、3星、2星、1星用户，并都存入数据库或数据表
六.获取用户观影数据
已知用户主页链接，可以获得用户的观影数据。
以下代码是根据用户user_id 获取用户观影页面一页的数据。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

已获取 list 数据，后续数据库操作和数据处理操作，就不详细展开了。

下面展示分析成果，对表格部分内容进行截取，将用户id做了打码处理。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

生成条形图展示。

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据,爬虫

文章来源地址https://www.toymoban.com/news/detail-621231.html

到了这里，关于爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Python爬虫案例分享【爬取豆瓣电影排行榜的电影名称和评分】

注意：在运行此代码之前，请确保已安装 requests 和 beautifulsoup4 库

2024年01月19日
浏览(62)
【爬虫学习】1、利用get方法对豆瓣电影数据进行爬取

♥️作者：白日参商 🤵‍♂️个人主页：白日参商主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识，和大家一起努力呀！！！ 🎈🎈加油！加油！加油！加油 🎈欢迎评论 💬点赞👍🏻 收藏 📂加关注+！ 1、导入python库 2、获取豆瓣电影的第一页的数据并

2024年02月12日
浏览(45)
Python爬虫：一个爬取豆瓣电影人像的小案例

从谷歌浏览器的开发工具进入选择图片右键点击检查翻页之后发现网址变化的只有start数值，每次变化值为30 Python代码把爬取的图片全部放到新建的文件夹中存放

2024年02月10日
浏览(78)
python爬虫——爬取豆瓣top250电影数据（适合初学者）

爬取豆瓣top250其实是初学者用于练习和熟悉爬虫技能知识的简单实战项目，通过这个项目，可以让小白对爬虫有一个初步认识，因此，如果你已经接触过爬虫有些时间了，可以跳过该项目，选择更有挑战性的实战项目来提升技能。当然，如果你是小白，这个项目就再适合不过

2024年02月07日
浏览(77)
python爬取豆瓣电影排行前250获取电影名称和网络链接[静态网页]————爬虫实例（1）

目录 1.算法原理： 2.程序流程： 3.程序代码： 4.运行结果(部分结果展示)： 5.结果分析：（1）利用import命令导入模块或者导入模块中的对象； ①利用requests库获取数据； ②用BeautifulSoup库将网页源代码转换成BeautifulSoup类型，以便于数据的解析和处理； ③用time库进行时间延时

2023年04月16日
浏览(60)
爬虫项目实战：利用基于selenium框架的爬虫模板爬取豆瓣电影Top250

👋 Hi, I’m @货又星 👀 I’m interested in … 🌱 I’m currently learning … 💞 I’m looking to collaborate on … 📫 How to reach me … README 目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、

2024年02月04日
浏览(45)
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

1.1 查看原页面信息首先打开豆瓣Top250电影页面，其网址是：https://movie.douban.com/top250。可以发现，该页面展示的电影信息有中英文电影名、导演、主演、上映年份、国籍、电影类型、评分等。下滑到页面底部，发现第一页有25部电影的数据，并且可以点击页码数实现页面跳转

2024年02月05日
浏览(50)
爬虫入门指南(7):使用Selenium和BeautifulSoup爬取豆瓣电影Top250实例讲解【爬虫小白必看】

在本篇博客中，我们将使用 Python 的 Selenium 和 BeautifulSoup 库来实现一个简单的网页爬虫，目的是爬取豆瓣电影TOP250的数据，并将结果保存到Excel文件中。 Selenium 是一个自动化测试工具，可以模拟用户在浏览器中的交互操作。我们将使用 Selenium 来打开网页、获取网页源码。 B

2024年02月12日
浏览(50)
详解爬虫基本知识及入门案列(爬取豆瓣电影《热辣滚烫》的短评详细讲解代码实现)

目录前言什么是爬虫？爬虫与反爬虫基础知识一、网页基础知识二、网络传输协议 HTTP（HyperText Transfer Protocol）和HTTPS（HTTP Secure）请求过程的原理？三、Session和Cookies Session Cookies Session与Cookies的区别与联系四、Web服务器Nginx 五、代理IP 1、代理IP的原理 2. 分类 3. 获取途

2024年04月29日
浏览(60)
Python爬虫——urllib_ajax的get请求爬取豆瓣电影前十页

ajax：就是一段js代码，通过这段代码，可以让页面发送异步的请求，或者向服务器发送一个东西，即和服务器进行交互对于ajax：一定会有 url，请求方法(get, post)，可能有数据一般使用 json 格式打开豆瓣电影，F12打开控制台（我这里是科幻类排行榜）这是第一页第二页第

2024年02月16日
浏览(54)