电影票房之数据分析(Hive)--第5关

这篇具有很好参考价值的文章主要介绍了电影票房之数据分析(Hive)--第5关。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

电影票房之数据分析(Hive)

第5关:统计2020年元旦节与国庆节放假后7天的观影人数

本关任务

基于EduCoder平台提供的初始数据集,统计 2020 年元旦节与国庆节放假后 7 天的观影人数。

编程要求

本实验环境已开启Hadoop服务

  1. 在 hive 中创建数据库 mydb

注意:在开始要求2之前,建议您提前查看数据库中是否存在 moviecleaned 表(在环境没销毁的情况下,第一关的导入的数据可以持续使用)。如果不存在请按要求2执行,同时注意数据不要重复插入,否则可能影响后续统计的准确性。

  1. 在 mydb 中创建 moviecleaned 表,将数据集movies.txt导入 moviecleaned 表中。注意:数据集所在位置:/data/workspace/myshixun/data/movies.txt,数据集文件字段之间以\t分割,文件部分数据展示如下:
  2. 天气之子 6676.11 21.2% 92616 25.4% 24 19.9% 11300.0 上映2天 2019-11-02 2019-11-01
  3. 天池水怪 1.14 <0.1% 57 <0.1% 6 -- 84.4 2020-10-09 往期电影
  4. 太空狗之月球大冒险 3.58 <0.1% 333 <0.1% 4 4.5% 270.7 上映14天 2019-12-27 2019-12-14
  5. 夺冠 2985.81 60.4% 133808 50.3% 6 4.0% 22900.0 上映5天 2020-09-29 2020-09-25
  6. 在 hive 数据库 mydb 中,创建 festival_boxoffice 表,使用 Hive SQL 来统计 2020 年元旦节与国庆节放假后 7 天的观影人数(元旦假期为 2020 年 1 月 1 日到 2020 年 1 月 7 日,国庆假期为 2020 年 10 月 1 日到 2020 年 10 月 7 日,计算规则为:观影人数=排片场次∗场均人次),并插入到festival_boxoffice 表。

查询结果样例如下:

  1. dates festival num
  2. 01 new_year_day 6985987
  3. 02 new_year_day 2225843

相关数据及结构说明

数据集对应字段说明:

字段名 说明 类型
movie_name 电影名 string
boxoffice 当日综合票房 string
box_rate 票房占比 string
sessions 排片场次 string
show_count_rate 排片占比 string
avg_number 场均人次 string
attendance 上座率 string
total_boxoffice 当前总票房 string
movie_days 上映天数 string
current_time 当前日期 string
releaseDate 上映日期 string

festival_boxoffice 表结构:

字段名 类型 说明
dates string 日期(日,例如:2020-10-07 即为 07)
festival string 节日,默认为 new_year_day 或者 national_day
num bigint 当天人数

注意事项

  • 如果实验环境已经创建了 mydb 数据库和 moviecleaned 表,假如环境没有重启或者环境没有过期,可以跳过创建 mydb 数据库和 moviecleaned 表的步骤。否则需要重新开始。

  • 任务完成后请点击"评测"按钮,系统验证 festival_boxoffice 表是否存在并查询表内容,程序未通过的情况下,可以点击测试集查看具体问题;

  • 本任务设置了多个测试集,通过其中任一测试集将可获得对应分数。

考核点说明

从 mydb 数据库中的 festival_boxoffice 表查询出来的内容是否正确。


开始你的任务吧,祝你成功!

AC文章来源地址https://www.toymoban.com/news/detail-474670.html

#创建movie_boxoffice表,用来存放数据查询的结果
create table festival_boxoffice(dates string,festival string, num int) row format delimited fields terminated by '\t' stored as textfile;
#查询,并将结果导入movie_boxoffice表中
insert overwrite table festival_boxoffice 
select split(current_time,'-')[2],case 
when  t.current_time  between '2020-10-01' and '2020-10-07' then 'national_day' 
when  t.current_time between '2020-01-01' and '2020-01-07' then 'new_year_day' 
else 'other' END as festival ,
cast(sum(num) as bigint) 
from (select current_time,avg_number*sessions as num from moviecleaned 
WHERE current_time between '2020-10-01' and '2020-10-07' or current_time between '2020-01-01' and '2020-01-07') t 
GROUP BY current_time;

到了这里,关于电影票房之数据分析(Hive)--第5关的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Python flask的猫眼电影票房数据分析可视化系统,可以定制可视化

    猫眼电影票房数据分析可视化系统是基于Python Flask框架开发的一款用于分析和展示猫眼电影票房数据的Web应用程序。该系统利用Flask提供了一个简单而强大的后端框架,结合Request库进行网络爬虫获取猫眼电影票房数据,并使用Pyecharts进行可视化展示,同时借助Pandas进行数据分

    2024年01月18日
    浏览(43)
  • 基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化

    项目介绍 有需要整个项目的可以私信博主,提供部署和讲解,对相关案例进行分析和深入剖析 环境点击顶部下载 = 本研究旨在利用Python的网络爬虫技术对豆瓣电影网站进行数据抓取,并通过合理的数据分析和清洗,将非结构化的数据转化为结构化的数据,以便于后续的大数

    2024年02月11日
    浏览(32)
  • 20亿票房但不好看?Python分析《孤注一掷》豆瓣评论数据

    环境使用 Python 3.8 解释器 Pycharm 编辑器 所需模块 一. 数据来源分析: 明确需求: 采集的网站是什么? 采集的数据是什么? 评论相关数据 抓包分析相关数据来源 通过浏览器自带开发者工具进行抓包分析 重点 打开开发者工具: F12 或者 鼠标右键点击检查选择network 刷新网页: 让本网

    2024年02月09日
    浏览(37)
  • 【爬虫JS混淆分析】某网站票房响应数据加密(含JS补环境调用与Python解密算法)

    【作者主页】: 吴秋霖 【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作! 【作者推荐】:对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》,对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建

    2024年02月04日
    浏览(39)
  • 基于hadoop豆瓣电影数据分析

    《 Hadoop大数据技术 》测试 试题 题    目:          基于hadoop豆瓣电影数据分析                 学生姓名:                               学    号:                               学    院:                               专业班级:          

    2024年02月02日
    浏览(62)
  • Python爬取猫眼电影票房 + 数据可视化

    对猫眼电影票房进行爬取,首先我们打开猫眼 接着我们想要进行数据抓包,就要看网站的具体内容,通过按F12,我们可以看到详细信息。 通过两个对比,我们不难发现 User-Agent 和 signKey 数据是变化的(平台使用了数据加密) 所以我们需要对User-Agent与signKey分别进行解密。 通

    2024年04月24日
    浏览(32)
  • 电影数据可视化综合分析

    1.1 沈腾参演电影数据获取 1.2 电影数据可视化分析 大家好✨,这里是bio🦖。点赞+关注不迷路。数据可视化在数据科学和数据分析中非常重要,例如论文中配色精美的结果图、PPT汇报中突出数据差异数据分析图等。通过可视化,我们可以直观地观察和理解数据的分布、趋势、

    2024年02月12日
    浏览(33)
  • 毕设 大数据电影数据分析与可视化系统

    今天学长向大家介绍一个机器视觉的毕设项目 🚩基于大数据的电影数据分析与可视化系统 项目运行效果(视频): 毕业设计 大数据电影评论情感分析 项目获取: https://gitee.com/sinonfin/algorithm-sharing 研究中国用户电影数据,有助于窥探中国电影市场发展背后的规律,理解其来龙去

    2024年02月04日
    浏览(41)
  • 基于Python的电影影片数据分析

    摘 要 数据分析与可视化是当今数据分析的发展方向。大数据时代,数据资源具有海量特征。数据分析和可视化主要通过Python数据分析来实现。基于Python的数据分析可视化和技术实现是目前Python数据分析的主要目的,Python可以为数据分析可视化提供思路,在体现数据价值方面

    2024年02月08日
    浏览(51)
  • 【大数据基础】基于 TMDB 数据集的电影数据分析

    https://dblab.xmu.edu.cn/blog/2400/ 环境搭建 数据预处理 本次项目使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-metadata 电影数据集,该数据集包含大约 5000 部电影的相关数据。本次实验使用数据集中有关电影的数据表 tmdb_5000_movies.csv 进行实验。数据包含以下字段: 由于数据中某

    2024年02月08日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包