基于Python的电影影片数据分析

这篇具有很好参考价值的文章主要介绍了基于Python的电影影片数据分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘 要
数据分析与可视化是当今数据分析的发展方向。大数据时代,数据资源具有海量特征。数据分析和可视化主要通过Python数据分析来实现。基于Python的数据分析可视化和技术实现是目前Python数据分析的主要目的,Python可以为数据分析可视化提供思路,在体现数据价值方面发挥着重要作用。因此,在研究数据分析、可视化的过程中,我们可以看到Python具有重要的应用价值。
BeautifulSoup 基于Python 的设计让您可以快速高效地抓取网站数据,Pandas 工具提供简单灵活的数据清理和分析,Python Matplotlib 工具包可以轻松将数据分析结果以图形方式可视化。在本文中,您将阅读Python中功能齐全的标准库,一个强大的第三方库请求,以编程方式使用Beautiful Soup和正则表达式从film.csv文件中读取电影信息数据,对读取的数据进行清理和组织,并使用Bar函数对节目电影的周平均票房输出(周平均票房代表该文件所包含的所有城市的整体周平均票房),Y轴代表以万元为单位的票房收入。 X 轴代表电影名称。通过Matplotlib 图形库,将数据结果以图形方式展示并分析得出相关结论。本论文的研究为培养学生的数据处理能力和可视化分析能力奠定了基础。
关键词:Python;爬虫;电影数据;数据分析;可视化
Movie data crawl and data analysis based on Python
XXXX
(XXXXXXXXXX,XX XXXXXX)
Abstract
Data analysis and visualization is the development direction of data analysis today.In the era of big data, data resources have massive characteristics.Data analysis and visualization are achieved primarily through Python data analysis.Python-based data analysis visualization and technical implementation are the main purpose of Python data analysis. Python can provide ideas for data analysis visualization and play an important role in reflecting the value of data.Therefore, in the process of studying data analysis and visualization, we can see that Python has an important application value.
BeautifulSoup’s Python-based design allows you to quickly and efficiently grab website data, Pandas tools provide simple and flexible data cleaning and analysis, and the Python Matplotlib toolkit can easily visualize data analysis results graphically.In this article, you will read the fully functional standard library in Python, a powerful third-party library request, programmatically read movie information from film.csv files using Beautiful Soup and regular expressions, clean and organize the read data, and use the Bar function to output the weekly average box office represents the overall weekly box office of all cities included in the file). The Y axis represents revenue in ten thousand yuan.The X-axis represents the movie name.Through the Matplotlib graphics library, the data results are graphically displayed and analyzed to draw relevant conclusions.The research in this paper lays the foundation for cultivating students’ data processing ability and visual analysis ability.
Key words: Python; crawler; movie data; data analysis; visualization
目 录
1绪论 1
1.1 选题背景及意义 1
1.2 国内外研究现状 1
1.2.1 爬虫技术概述 1
1.2.2 爬虫设计者面临的问题与反爬虫技术现状 3
2 相关理论及技术 6
2.1 robot协议对本设计的影响 6
2.2 爬虫 6
2.2.1 工作原理 6
2.2.2 工作流程 7
2.2.3 抓取策略 7
2.3 Python及Pycharm简介 8
2.4运行环境和系统结构 8
3 系统设计 9
3.1环境搭建 9
3.2设计思路 9
3.3 第三方类库的简介和安装 10
3.3.1 Scarpy简介及安装 10
3.3.2 Numpy简介及安装 11
3.3.3 Pandas简介及安装 11
3.3.4 JieBa简介及安装 12
3.3.5 WordCloud简介及安装 12
3.3.6 Matplotlib简介及安装 12
3.3.7 Pygal简介及安装 12
3.3.8 re简介 12
3.3.9 json简介 13
3.3.10 os简介 13
3.3.11 shutil简介 13
3.3.12 pathlib简介 13
3.3.13 random简介 13
3.3.14 math简介 14
3.3.15 PIL简介 14
3.4 Scrapy详解 14
3.4.1 架构介绍 14
3.4.2 数据流 15
4 电影基本数据爬取 17
4.1爬取 17
4.2数据分析 19
4.2.1评分星级 19
4.2.2性别比例 21
4.2.3位置分布 22
4.2.4时评数量 25
4.2.5主要演员 27
4.2.6电影单元 29
4.3词云展示 30
4.3.1整体词云 30
4.3.2热评词云 32
4.4小结 34
5 总结 35
致 谢 36
参考文献 37
数据分析
评分星级
首先,我们看一下爬取数据中每个评分星级的比例情况,主要实现代码如下:

评分星级

rates = []for s in df.iloc[:, 3]:
rates.append(s)
sx = [“五星”, “四星”, “三星”, “二星”, “一星”]
sy = [
str(rates.count(5.0) + rates.count(4.5)),
str(rates.count(4.0) + rates.count(3.5)),
str(rates.count(3.0) + rates.count(2.5)),
str(rates.count(2.0) + rates.count(1.5)),
str(rates.count(1.0) + rates.count(0.5))
]
(
Pie(init_opts=opts.InitOpts(theme=ThemeType.CHALK, width=‘700px’, height=‘400px’))
.add(“”, list(zip(sx, sy)), radius=[“40%”, “70%”])
.set_global_opts(title_opts=opts.TitleOpts(title=“评分星级比例”, subtitle=“数据来源:猫眼电影”, pos_left = “left”))
.set_series_opts(label_opts=opts.LabelOpts(formatter=“{b}:{d}%”, font_size=12))
).render_notebook()
效果如下:
基于Python的电影影片数据分析

从图中我们可以看出:有接近 9 成的人给了该片 5 星,1、2、3 星总共占比只有 5% 左右,说明该片的质量得到了大部分人的认可。
性别比例
我们接着看评论人中的性别情况,主要实现代码如下:

性别比例

rates = []for s in df.iloc[:, 8]:
if s != 1 and s != 2:
s = 3
rates.append(s)
gx = [“男”, “女”, “未知”]
gy = [
rates.count(1),
rates.count(2),
rates.count(3)
]
(
Pie(init_opts=opts.InitOpts(theme=ThemeType.CHALK, width=“700px”, height=“400px”))
.add(“”, list(zip(gx, gy)))
.set_global_opts(title_opts=opts.TitleOpts(title=“性别比例”, subtitle=“数据来源:猫眼电影”, pos_left = “left”))
.set_series_opts(label_opts=opts.LabelOpts(formatter=“{b}:{d}%”, font_size=12))
).render_notebook()
效果如下:
基于Python的电影影片数据分析

通过上图我们可以发现:大部分人是比较注重自己的隐私的,没有显示自己的性别,通过性别可见的数据,我们可以发现男人和女人在评论区的活跃程度比较接近,女人略高一些。
位置分布
我们再接着看评论人位置分布情况,先看下评论数量前 100 名的位置坐标情况,主要代码实现如下:
cities = []for city in df.iloc[:, 1]:
if city != “”:
cities.append(city)
data = Counter(cities).most_common(100)
gx1 = []
gy1 = []for c in data:
gx1.append(c[0])
gy1.append(c[1])
geo = Geo(init_opts=opts.InitOpts(width=“700px”, height=“400px”, theme=ThemeType.DARK, bg_color=“#404a59”))
(
geo.add_schema(maptype=“china”, itemstyle_opts=opts.ItemStyleOpts(color=“#323c48”, border_color=“#111”))
.add(“评论数量”, list(zip(gx1, gy1)))
.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
.set_global_opts(
toolbox_opts=opts.ToolboxOpts,
title_opts=opts.TitleOpts(title=“位置分布地理坐标”, subtitle=“数据来源:猫眼电影”, pos_left = “left”),
visualmap_opts=opts.VisualMapOpts(max_=500, is_piecewise=True)
)
).render_notebook()
效果如下:
基于Python的电影影片数据分析

下面再通过柱状图来展示一下评论数量前 15 名的城市,主要代码实现如下:
data_top15 = Counter(cities).most_common(15)
gx2 = []
gy2 = []for c in data_top15:
gx2.append(c[0])
gy2.append(c[1])
(
Bar(init_opts=opts.InitOpts(theme=ThemeType.CHALK, width=“700px”, height=“400px”))
.add_xaxis(gx2)
.add_yaxis(“”, gy2)
.set_global_opts(
title_opts=opts.TitleOpts(title=“城市来源 TOP15”, subtitle=“数据来源:猫眼电影”, pos_left = “center”)
)
).render_notebook()
效果如下:
基于Python的电影影片数据分析

通过以上两图,我们可以直观的看出哪些城市的人在该片下的评论数量多少,进而可以相应的了解到其对该片的感兴趣程度。
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析
基于Python的电影影片数据分析文章来源地址https://www.toymoban.com/news/detail-474686.html

到了这里,关于基于Python的电影影片数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 分享一个Python Django影片数据爬取与数据分析系统源码

    💕💕 作者:计算机源码社 💕💕 个人简介:本人七年开发经验,擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等,大家有这一块的问题可以一起交流! 💕💕 学习资料、程序开发、技术解答、文档报告 💕💕JavaWeb项目 💕💕微信小程序项目 💕💕Python项目 💕💕

    2024年02月09日
    浏览(31)
  • python基于python的豆瓣电影数据分析可视化系统论文

    近些年来,随着科技的飞速发展,互联网的普及逐渐延伸到各行各业中,给人们生活带来了十分的便利,商家利用计算机网络实现信息化管理,使整个豆瓣电影数据分析可视化管理的发展和服务水平有显著提升。 本文拟采用Python技术和Django 搭建系统框架,后台使用MySQL数据库

    2024年01月23日
    浏览(41)
  • 大数据可视化——基于Python豆瓣电影数据可视化分析系统

    本项目旨在通过对豆瓣电影数据进行综合分析与可视化展示,构建一个基于Python的大数据可视化系统。通过数据爬取收集、清洗、分析豆瓣电影数据,我们提供了一个全面的电影信息平台,为用户提供深入了解电影产业趋势、影片评价与演员表现的工具。项目的关键步骤包括

    2024年01月21日
    浏览(40)
  • 基于python电影票房数据分析可视化系统 毕业设计开题报告

     博主介绍 :《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,免费 项目配有对应开发文档、开题报告、任务书、PPT、论文模版

    2024年02月05日
    浏览(46)
  • 基于Python的豆瓣电影数据分析可视化系统的设计与实现-可视化分析大屏

    收藏关注不迷路 本文拟采用Python技术和Django 搭建系统框架,后台使用MySQL数据库进行信息管理,设计开发基于python的豆瓣电影数据分析可视化系统。通过调研和分析,系统拥有管理员和用户两个角色,主要具备个人中心、电影管理、用户管理、系统管理等功能模块。将纸质管

    2024年02月03日
    浏览(44)
  • 毕设分享 基于Python大数据的电影可视化分析系统(源码+论文)

    今天学长向大家介绍一个机器视觉的毕设项目 毕设分享 基于Python大数据的电影可视化分析系统(源码+论文) 项目获取: https://gitee.com/sinonfin/algorithm-sharing 使读者能够了解MOVA项目的概况 电影行业从业人员、电影爱好者 项目名称:Movie Visualization Analysis system (MOVA) 用户单位

    2024年01月18日
    浏览(47)
  • 大数据可视化项目—基于Python豆瓣电影数据可视化分析系统的设计与实现

    本项目旨在通过对豆瓣电影数据进行综合分析与可视化展示,构建一个基于Python的大数据可视化系统。通过数据爬取收集、清洗、分析豆瓣电影数据,我们提供了一个全面的电影信息平台,为用户提供深入了解电影产业趋势、影片评价与演员表现的工具。项目的关键步骤包括

    2024年02月04日
    浏览(37)
  • 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    项目介绍 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主!!!!!!!!!! 本文基于Python的网络爬虫手段对豆瓣电影网站进行数据的抓取,通过合理的分析豆瓣网站的网页结构,并设计出规则来获取电影数据的JSON数据包,采用正态分布的延时措施

    2024年02月12日
    浏览(38)
  • 毕业设计-基于大数据的电影爬取与可视化分析系统-python

    目录 前言 课题背景和意义 实现技术思路 实现效果图样例     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学

    2024年01月21日
    浏览(48)
  • 基于Python flask的猫眼电影票房数据分析可视化系统,可以定制可视化

    猫眼电影票房数据分析可视化系统是基于Python Flask框架开发的一款用于分析和展示猫眼电影票房数据的Web应用程序。该系统利用Flask提供了一个简单而强大的后端框架,结合Request库进行网络爬虫获取猫眼电影票房数据,并使用Pyecharts进行可视化展示,同时借助Pandas进行数据分

    2024年01月18日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包