基于hadoop豆瓣电影数据分析

这篇具有很好参考价值的文章主要介绍了基于hadoop豆瓣电影数据分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Hadoop大数据技术》测试试题

题    目:         基于hadoop豆瓣电影数据分析              

学生姓名:                             学    号:                            

学    院:                             专业班级:                              

完成日期:       年    月    日

成绩(百分制):                  

授课教师:                     

试题题目:基于hadoop豆瓣电影数据分析

试题内容及要求

试题说明:

豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。

为了分析电影产业的发展趋势,你需要对这些信息做统计分析。

豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。

文件的内容如下:

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

待分析指标如下:

1、什么类型的电影平均评分最高。

要求输出:类型  平均分

2、哪个国家是烂片之王(平均评分小于6分的国家)。

要求输出:国家  平均分

各项统计指标需要添加到hbase,以方便查询,分别添加2个表(一个指标一个表),且在hbase shell中显示你写入的结果数据。

另外,本次操作需要留下日志,在hdfs 的 /log 下 上传自己的操作记录。

操作记录的格式为:

学号     姓名  操作时间     

2019xx   xxx   2020-12-21 10:52:12    

试题说明:

  1. 独立完成,可查阅教材及参考书籍,不准交头接耳,抄袭0分。
  2. 此题要求使用分布式文件系统,文件描述信息存放在列式数据库。
  3. 操作过程需要截图,如启动 hdfs ,启动hive
  4. 请将列式数据库中表名加上学生姓名的拼音首字母缩写_xxx+学号,例如:

列式数据库中有文件描述这个表那么‘张三’同学的表应该命名为zs_201902003

  1. 报告中详细贴出考试内容操作语句(不是截图程序运行结果截图贴在报告中。
  2. 考试报告文档提交的格式为PDF,不能提交word文档和图片

评分标准:

任务

权重

评分标准

任务一

导入数据到hive

30%

内容

分值

 等级

评分

区间

实际得分

综合应用基础和专业知识的能力

30分 

优秀:过程完整严谨逻辑清晰,命令正确 ,选择的方法可以实现全自动

30-25

良好:过程完整严谨逻辑清晰,命令正确,但不能实现全自动

24-19

中等:过程完整,逻辑不清晰,命令基本正确,按要求完成目标

18-13

合格:过程混乱,命令勉强正确,未按要求完成

12-7

不合格:过程混乱,命令错误,未按要求完成

6-0

任务二

分析数据

40%

内容

分值

 等级

评分

区间

实际得分

综合应用基础和专业知识的能力

40分 

优秀:数据库和表正确创建,sql语句正确,且高效

40-33

良好:数据库和表正确创建,sql语句正确

32-25

中等:数据库和表正确创建,sql语句部分正确

24-17

合格:数据库和表正确创建,sql语句不正确

16-9

不合格:数据库和表错误创建,sql语句不正确

8-0

任务三

分析数据

30%

内容

分值

 等级

评分

区间

实际得分

导出数据,并保留操作日志

综合应用基础和专业知识的能力

30分 

优秀:过程完整严谨逻辑清晰,命令正确  

30-25

良好:过程完整严谨逻辑清晰,命令正确

24-19

中等:过程完整,逻辑不清晰,命令基本正确,按要求完成目标

18-13

合格:过程混乱,命令勉强正确,未按要求完成

12-7

不合格:过程混乱,命令错误,未按要求完成

6-0

任务一:

操作过程:

  1. 打开hdfs

代码:start-all.sh

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

  1. 打开hive

代码:hive;

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

3、将数据粘贴进主目录中

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

4、打开自己的数据库

代码:use liuxuanting;

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

5、新建一个表,表名为:lxt_2021900406

代码:

create external table lxt_2021900406(id int,name string,people int,stype string,country string,atime string,timelong int,year int,score double,here string)

row format delimited fields terminated by ','

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

6、导入数据

代码:load data local inpath "/home/liuxuanting/douban_movie-1686527723744.txt" into table lxt_2021900406;

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

7、查看数据导入情况

代码:select * from lxt_2021900406;

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

任务二:

1、什么类型的电影平均评分最高。

要求输出:类型  平均分

代码:SELECT stype,AVG(score) as scores

FROM lxt_2021900406

GROUP BY stype order by scores DESC;

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

输出结果:

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

2、哪个国家是烂片之王(平均评分小于6分的国家)。

要求输出:国家  平均分

代码:

SELECT country,avg(score) FROM lxt_2021900406 GROUP BY country having avg(score)<6;

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

输出结果:

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

任务三:

1、打开hbase

代码:start-hbase.sh

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

2、进入hbase shell

代码:hbase shell

 基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

3、在hbase中创建表lxt_2021900406

代码:creat 'lxt_2021900406','info'

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

4、在表lxt_2021900406中手动插入数据

代码:put ‘lxt_2021900406’,’1’,’info:moxige,bolan’,’5.8,5.7’

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

5、查看hbase表的插入情况

代码:scan ‘lxt_2021900406’

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

6、在hdfs中新建表/log

代码:hdfs dfs -mkdir /log

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

6、编辑日志

代码:vi liuxuanting1

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

7、上传操作日志在/log中

代码:hdfs dfs -copyFromLocal /home/liuxuanting/liuxuanting1 /log/

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据

8、查看日志上传情况

代码:hdfs dfs -cat /log/liuxuanting1

基于hadoop的电影数据分析,hadoop,大数据,hadoop,大数据文章来源地址https://www.toymoban.com/news/detail-781758.html

到了这里,关于基于hadoop豆瓣电影数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Hadoop的豆瓣影视数据分析

           网络电影平台拥有大量的影片库资源,每天数千万用户活跃在平台上,拥有数亿人次的用户点击试看、收藏等行为。在影视作品方面,更是拥有数万的影视作品形成作品库,如此庞大的数据资源库对于电影及电视剧流行趋势的把握有着极为重要的指引作用。通过设计

    2024年02月01日
    浏览(55)
  • 基于Python的豆瓣电影数据分析可视化系统的设计与实现-可视化分析大屏

    收藏关注不迷路 本文拟采用Python技术和Django 搭建系统框架,后台使用MySQL数据库进行信息管理,设计开发基于python的豆瓣电影数据分析可视化系统。通过调研和分析,系统拥有管理员和用户两个角色,主要具备个人中心、电影管理、用户管理、系统管理等功能模块。将纸质管

    2024年02月03日
    浏览(60)
  • 大数据可视化项目—基于Python豆瓣电影数据可视化分析系统的设计与实现

    本项目旨在通过对豆瓣电影数据进行综合分析与可视化展示,构建一个基于Python的大数据可视化系统。通过数据爬取收集、清洗、分析豆瓣电影数据,我们提供了一个全面的电影信息平台,为用户提供深入了解电影产业趋势、影片评价与演员表现的工具。项目的关键步骤包括

    2024年02月04日
    浏览(49)
  • 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    项目介绍 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主!!!!!!!!!! 本文基于Python的网络爬虫手段对豆瓣电影网站进行数据的抓取,通过合理的分析豆瓣网站的网页结构,并设计出规则来获取电影数据的JSON数据包,采用正态分布的延时措施

    2024年02月12日
    浏览(58)
  • 基于Python的电影影片数据分析

    摘 要 数据分析与可视化是当今数据分析的发展方向。大数据时代,数据资源具有海量特征。数据分析和可视化主要通过Python数据分析来实现。基于Python的数据分析可视化和技术实现是目前Python数据分析的主要目的,Python可以为数据分析可视化提供思路,在体现数据价值方面

    2024年02月08日
    浏览(76)
  • 【大数据基础】基于 TMDB 数据集的电影数据分析

    https://dblab.xmu.edu.cn/blog/2400/ 环境搭建 数据预处理 本次项目使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-metadata 电影数据集,该数据集包含大约 5000 部电影的相关数据。本次实验使用数据集中有关电影的数据表 tmdb_5000_movies.csv 进行实验。数据包含以下字段: 由于数据中某

    2024年02月08日
    浏览(45)
  • 基于python大数据的电影可视化分析及电影推荐

    随着信息技术和互联网技术的快速发展,利用数据采集技术实现用户感兴趣的数据收集分析成为很多互联网公司研究讨论的热门话题。通过对基于Python的大数据的电影可视化分析与电影推荐,采集进行电影热度动态变化的需求进行调查分析,发现作为研究电影热度波动变化的

    2023年04月23日
    浏览(56)
  • 爬虫+数据分析+可视化大作业:基于大数据的高质量电影分析报告

    主要目的是为了学习Scrapy与Sklearn而不是写论文,结论是瞎扯的,轻喷求求了 在我们的日常生活中,电影已经成为了我们娱乐放松活动所不可缺少的元素。然而,自电影诞生以来,人们每天都在生产着电影,却又生产着质量良莠不齐的电影。在这些几乎是无穷无尽的电影洪流

    2024年02月03日
    浏览(49)
  • 基于python电影票房数据分析可视化系统 毕业设计开题报告

     博主介绍 :《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,免费 项目配有对应开发文档、开题报告、任务书、PPT、论文模版

    2024年02月05日
    浏览(73)
  • 毕设分享 基于Python大数据的电影可视化分析系统(源码+论文)

    今天学长向大家介绍一个机器视觉的毕设项目 毕设分享 基于Python大数据的电影可视化分析系统(源码+论文) 项目获取: https://gitee.com/sinonfin/algorithm-sharing 使读者能够了解MOVA项目的概况 电影行业从业人员、电影爱好者 项目名称:Movie Visualization Analysis system (MOVA) 用户单位

    2024年01月18日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包