python爬虫爬取电影数据并做可视化

这篇具有很好参考价值的文章主要介绍了python爬虫爬取电影数据并做可视化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

思路:

1、发送请求,解析html里面的数据

2、保存到csv文件

3、数据处理

4、数据可视化

需要用到的库:

import requests,csv  #请求库和保存库
import pandas as pd  #读取csv文件以及操作数据
from lxml import etree #解析html库
from pyecharts.charts import *  #可视化库

注意:后续用到分词库jieba以及词频统计库nltk 

 文章来源地址https://www.toymoban.com/news/detail-732406.html

环境:

解释器: python  3.10.5

编辑器:VsCode -jupyter-notebook

使用ipynb文件的扩展名 vscode会提示安装jupyter插件

 

一、发送请求、获取html

#请求的网址
url='https://ssr1.scrape.center/page/1'

#请求头
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
}

#发起请求,获取文本数据  
reponse=requests.get(url,url,headers=headers)
print(reponse)

二、使用xpath提取html里面的数据并存到csv

#创建csv文件
with open('电影数据.csv',mode='w',encoding='utf-8',newline='') as f:
    #创建csv对象
    csv_save=csv.writer(f)

    #创建标题
    csv_save.writerow(['电影名','电影上映地','电影时长','上映时间','电影评分'])



    for page in range(1,11):  #传播关键1到10页的页数

        #请求的网址
        url='https://ssr1.scrape.center/page/{}'.format(page)
        print('当前请求页数:',page)

        #请求头
        headers={
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
        }


        response=requests.get(url,url,headers=headers,verify=False)
        print(response)

        html_data=etree.HTML(response.text)



        #获取电影名
        title=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/a/h2/text()')


        #获取电影制作地
        gbs=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/div[2]/span[1]/text()')

        #获取电影时长
        time=html_data.xpath('//div[@class="m-v-sm info"]/span[3]/text()')

        #获取电影上映时间
        move_time=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/div[3]/span/text()')

        #电影评分
        numder=html_data.xpath('//p[@class="score m-t-md m-b-n-sm"]/text()')



        for name,move_gbs,times,move_times,numders in zip(title,gbs,time,move_time,numder):
            print('电影名:',name,'  电影上映地址:',move_gbs,'   电影时长:',times,'   电影上映时间:',move_times,'   电影评分:',numders)
            #name,move_gbs,times,move_times,numders


            #写入csv文件
            csv_save.writerow([name,move_gbs,times,move_times,numders])

效果:

python爬虫爬取电影数据并做可视化,python,爬虫,信息可视化

 

三、使用pandas打开爬取的csv文件

data=pd.read_csv('电影数据.csv',encoding='utf-8')
print(data)

 

四、对电影名进行分词以及词频统计

注意:使用jieba分词,nltk词频统计

这里的停用此表.txt可以自己创建一个  里面放无意义的字,比如:的、不是、不然这些

每个字独占一行即可

import jieba

title_list=[]

for name in data['电影名']:

    #进行精准分词
    lcut=jieba.lcut(name,cut_all=False)
#     print(lcut)
    
    for i in lcut :
#         print(i)
        
        
        #去除无意义的词

        #打开停用词表文件
        file_path=open('停用词表.txt',encoding='utf-8')

        #将读取的数据赋值给stop_words变量
        stop_words=file_path.read()
        
        
        #遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面
        if i not in stop_words:
            title_list.append(i)
# print(title_list)


#计算词语出现的频率
from nltk import FreqDist #该模块提供了计算频率分布的功能

#FreqDist对象将计算net_data中每个单词的出现频率,,并将结果存储在freq_list中
freq_list=FreqDist(title_list)
print(freq_list)  #结果:FreqDist 有1321个样本和5767个结果 

#该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。
most_common_words=freq_list.most_common()
print(most_common_words)  #结果:('The这个词',出现185次)

效果:python爬虫爬取电影数据并做可视化,python,爬虫,信息可视化

 

五、词云可视化


  # 创建一个 WordCloud类(词云) 实例  
word_cloud = WordCloud()  
  
# 添加数据和词云大小范围    add('标题', 数据, word_size_range=将出现频率最高的单词添加到词云图中,并设置单词的大小范围为 20 到 100。)  
word_cloud.add('词云图', most_common_words, word_size_range=[20, 100])  
  
# 设置全局选项,包括标题  
word_cloud.set_global_opts(title_opts=opts.TitleOpts(title='电影数据词云图'))  
  
# 在 Jupyter Notebook 中渲染词云图  
word_cloud.render_notebook()

#也可以生成html文件观看
word_cloud.render('result.html')

运行效果:

python爬虫爬取电影数据并做可视化,python,爬虫,信息可视化

 

六、对电影时长进行统计并做柱形图可视化

#电影时长   去除分钟和,号这个 转为int  然后再转为列表  只提取20条数据,总共100条
move_time=data['电影时长'].apply(lambda x: x.replace('分钟', '').replace(',', '')).astype('int').tolist()[0:20]
# print(move_time)

#电影名   只提取20条数据
move_name=data['电影名'].tolist()[0:20]
# print(move_name)

#创建Bar实例
Bar_obj=Bar()

#添加x轴数据标题
Bar_obj.add_xaxis(move_name)
    
#添加y轴数据
Bar_obj.add_yaxis('电影时长数据(单位:分钟)',move_time)

#设置标题
Bar_obj.set_global_opts(title_opts={'text': '电影时长数据柱形图可视化'})


# 显示图表
Bar_obj.render_notebook()

效果:

python爬虫爬取电影数据并做可视化,python,爬虫,信息可视化

 

七、电影时长折线图可视化


#去除分钟和,号这个 转为int  然后再转为列表  只提取25条数据
move_time=data['电影时长'].apply(lambda x: x.replace('分钟', '').replace(',', '')).astype('int').tolist()[0:25]
# print(move_time)
 
#电影名   只提取25条数据
move_name=data['电影名'].tolist()[0:25]
# print(move_name)

#创建Bar实例
Bar_obj=Line()

#添加x轴数据标题
Bar_obj.add_xaxis(move_name)
    
#添加y轴数据
Bar_obj.add_yaxis('电影时长数据(单位:分钟)',move_time)

#设置标题
Bar_obj.set_global_opts(title_opts={'text': '电影时长数据折线图可视化'})


# 显示图表
Bar_obj.render_notebook()

效果:

python爬虫爬取电影数据并做可视化,python,爬虫,信息可视化

 

八、统计每个国家电影上映的数量

import jieba

title_list=[]

#遍历电影上映地这一列
for name in data['电影上映地']:

    #进行精准分词
    lcut=jieba.lcut(name,cut_all=False)
#     print(lcut)
    
    for i in lcut :
#         print(i)
        
        
        #去除无意义的词

        #打开停用词表文件
        file_path=open('停用词表.txt',encoding='utf-8')

        #将读取的数据赋值给stop_words变量
        stop_words=file_path.read()
        
        
        #遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面
        if i not in stop_words:
            title_list.append(i)
# print(title_list)



#计算词语出现的频率
from nltk import FreqDist #该模块提供了计算频率分布的功能

#FreqDist对象将计算net_data中每个单词的出现频率,,并将结果存储在freq_list中
freq_list=FreqDist(title_list)
print(freq_list)  #结果:FreqDist 有1321个样本和5767个结果 

#该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。
most_common_words=freq_list.most_common()
print(most_common_words)  #结果:('单人这个词',出现185次)


#电影名 使用列表推导式来提取most_common_words中每个元素中的第一个元素,即出现次数,然后将它们存储在一个新的列表中
map_data_title = [count[0] for count in most_common_words]  
print(map_data_title)

#电影数
map_data=[count[1] for count in most_common_words]  
print(map_data)

效果:

python爬虫爬取电影数据并做可视化,python,爬虫,信息可视化

 

九、对每个国家电影上映数量饼图可视化

#获取map_data_title的长度,决定循环次数,赋值给遍历i 在通过下标取值 
result = [[map_data_title[i], map_data[i]] for i in range(len(map_data_title))]
print(result)

# 创建Pie实例
chart=Pie()

#添加标题和数据   radius=['圆形空白处百分比','色块百分比(大小)'] 可不写
chart.add('电影上映数饼图(单位:个)',result,radius=['50%','60%'])

#显示
chart.render_notebook()

效果:

python爬虫爬取电影数据并做可视化,python,爬虫,信息可视化

 

觉得有帮助的话,点个赞!

 

 

到了这里,关于python爬虫爬取电影数据并做可视化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬取猫眼电影票房 + 数据可视化

    对猫眼电影票房进行爬取,首先我们打开猫眼 接着我们想要进行数据抓包,就要看网站的具体内容,通过按F12,我们可以看到详细信息。 通过两个对比,我们不难发现 User-Agent 和 signKey 数据是变化的(平台使用了数据加密) 所以我们需要对User-Agent与signKey分别进行解密。 通

    2024年04月24日
    浏览(37)
  • 用Python爬取电影数据并可视化分析

      🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 一、获取数据 1.技术工具 2.爬取目标 3.字段信息 二、数据预处理 1.加载数据 2.异常值

    2024年02月06日
    浏览(40)
  • 【Python爬虫+数据分析】采集电商平台数据信息,并做可视化演示(带视频案例)

    随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。 接下来就让我来教你 如何使用Python编写爬虫程序,抓取电商平台的

    2024年02月11日
    浏览(49)
  • 毕业设计-基于大数据的电影爬取与可视化分析系统-python

    目录 前言 课题背景和意义 实现技术思路 实现效果图样例     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学

    2024年01月21日
    浏览(52)
  • 基于Python的网络爬虫爬取天气数据可视化分析

    目录 摘 要 1 一、 设计目的 2 二、 设计任务内容 3 三、 常用爬虫框架比较 3 四、网络爬虫程序总体设计 3 四、 网络爬虫程序详细设计 4 4.1设计环境和目标分析 4 4.2爬虫运行流程分析 5 爬虫基本流程 5 发起请求 5 获取响应内容 5 解析数据 5 保存数据 5 Request和Response 5 Request 5

    2024年02月08日
    浏览(38)
  • 【Python】实现爬虫(完整版),爬取天气数据并进行可视化分析

    ✌️✌️✌️大家好呀,你们的作业侠又轰轰轰的出现了,这次给大家带来的是python爬虫,实现的是爬取某城市的天气信息并使用matplotlib进行图形化分析✌️✌️✌️ 要源码可私聊我。 大家的关注就是我作业侠源源不断的动力,大家喜欢的话,期待三连呀😊😊😊 往期源码

    2024年02月05日
    浏览(37)
  • 【Python数据分析案例】——中国高票房电影分析(爬虫获取数据及分析可视化全流程)

    案例背景 最近总看到《消失的她》票房多少多少,《孤注一掷》票房又破了多少多少… 于是我就想自己爬虫一下获取中国高票房的电影数据,然后分析一下。 数据来源于淘票票:影片总票房排行榜 (maoyan.com) 爬它就行。 代码实现 首先爬虫获取数据: 数据获取 导入包 传入网

    2024年01月20日
    浏览(167)
  • Python爬取豆瓣电影Top 250,豆瓣电影评分可视化,豆瓣电影评分预测系统

    博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅 文末获取源码联系 🍅 👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟 2022-2024年最全的计算机软件毕业设计选

    2024年03月21日
    浏览(61)
  • Python数据分析案例30——中国高票房电影分析(爬虫获取数据及分析可视化全流程)

    最近总看到《消失的她》票房多少多少,《孤注一掷》票房又破了多少多少..... 于是我就想自己爬虫一下获取中国高票房的电影数据,然后分析一下。 数据来源于淘票票:影片总票房排行榜 (maoyan.com) 爬它就行。 不会爬虫的同学要这代码演示数据可以参考:数据   首先爬虫

    2024年02月08日
    浏览(34)
  • Python网络爬虫爬取招聘数据(利用python简单零基础)可做可视化

    身为一个求职者,或者说是对于未来的职业规划还没明确目标的大学生来说,获取各大招聘网上的数据对我们自身的发展具有的帮助作用,本文章就简答零基础的来介绍一下如何爬取招聘数据。 我们以东莞的Python数据分析师这个职位来做一个简单的分析,页面如下图所示:

    2024年02月03日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包