【大数据实训】基于当当网图书信息的数据分析与可视化(八)

这篇具有很好参考价值的文章主要介绍了【大数据实训】基于当当网图书信息的数据分析与可视化(八)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

温馨提示:文末有 CSDN 平台官方提供的博主 的联系方式,有偿帮忙部署

基于当当网图书信息的数据分析与可视化

一、实验环境

(1)Linux: Ubuntu 16.04
(2)Python: 3.5
(3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3
(6)可视化工具:Echarts
(7)开发工具:Visual Studio Code

二、小组成员及分工

(1)成员:林海滢,王惠玲,陈嘉怡,郭诗念

(2)分工:xxx负责xxxx部分,xxx负责xxxx部分,xxx负责xxxx部分。

三、数据采集

3.1数据集说明

爬取网站:http://search.dangdang.com/?key=java,是当当网的java图书的信息网站。数据文件:java_books.xlsx。其中包含了1661条与java图书信息有关的数据。

数据格式为:

图书订购表可视化分析,大数据,数据分析,数据挖掘

图 3. 1 采集数据格式

数据中包含的内容如下:
(1)book_name: 图书的标题

(2)introduction:图书的简介

(3)author: 图书的作者
(4)price: 图书的价格(元/本)

(5)press: 图书出版社
(6)comment: 图书的评论

3.2.爬取数据集以及将其保存到本地D盘文件中的流程

(1)选取所需要爬取的页面进行遍历爬取

(2)通过正则表达式抓取所需要的数据

(3)将爬取出的数据转化为dataframe格式并保存为xlsx文件存放在D盘

四、数据清洗与预处理

4.1预处理中提取的数据

图书订购表可视化分析,大数据,数据分析,数据挖掘图书订购表可视化分析,大数据,数据分析,数据挖掘

图 4.1 数据处理前的数据格式及存在问题的特征列

4.2 清洗预处理后的数据格式

图书订购表可视化分析,大数据,数据分析,数据挖掘图书订购表可视化分析,大数据,数据分析,数据挖掘

图 4.2 数据处理后的数据格式及特征列

4.3 清洗与预处理的流程

(1)首先检查数据的结构以及是否有数据缺失。

(2)发现book_name特征列的数据格式不对,于是处理转换为了整数类型。

(3)发现price特征列的数据格式不对,于是处理转换为了浮点类型。

(4)内容简介列数据清洗 删除异常值。

(5)保存清洗与预处理后的数据集。

五、spark数据分析

5.1 数据分析目标

(1)图书的售价分布情况(观察图书价格大体集中在哪个分段得出图书价格趋势)

图书订购表可视化分析,大数据,数据分析,数据挖掘

(2)部分图书出版社的出书数量统计

图书订购表可视化分析,大数据,数据分析,数据挖掘

(3)图书的作者出书(观察哪个作者出的书最多)

(4)图书的评论分布情况(观察图书评论大体集中在哪个分段得出图书评论趋势)

图书订购表可视化分析,大数据,数据分析,数据挖掘

(5)图书的部分作者数量统计

图书订购表可视化分析,大数据,数据分析,数据挖掘

(6)分析价格的最大值、最小值、均值、方差和中位数

图书订购表可视化分析,大数据,数据分析,数据挖掘

六、数据可视化

本实验的可视化基于mutplotlib实现。

6.1.可视化环境

利用和anaconda里面的jubiter和vscode进行可视化操作,最后的代码结构如下。

6.2 图表展示与结论分析

(1)图书的售价分布情况(观察图书价格大体集中在哪个分段得出图书价格趋势)

图书订购表可视化分析,大数据,数据分析,数据挖掘

图6.2.1图书的售价分布情况

分析结论:通过这个柱状图可以看出图书售卖价格集中在2060这里。说明了大多数人购书倾向于中端价格。比如2040这里,售价比较便宜图书的销量就会多。而6080这里的价格上升了购买的人就相对少了,销量也随之减少。我们也可以从中得出2060的销量有1841,而20一下和60以上的销量有1159。所以大胆推测出我国中层收入人数是低高层收入人数的1.6倍左右。

(2)部分图书出版社的出书数量统计

图书订购表可视化分析,大数据,数据分析,数据挖掘

图6.2.2部分图书出版社的出书数量统计

(3)图书的作者出书(观察哪个作者出的书最多)

(4)图书的评论分布情况(观察图书评论大体集中在哪个分段得出图书评论趋势)

图书订购表可视化分析,大数据,数据分析,数据挖掘

图6.2.4图书的评论分布情况

分析结论:通过这个图我们可以看出92%的图书评论都是在0~100之间。也就是说92%的人不爱对图书做出评论,其余少部分人会对图书做出评论。所以我们可以大胆推测现在大多数人都不爱对看过的书发布之间的看法。

(5)图书的部分作者数量统计进行数据可视化图表分析

图书订购表可视化分析,大数据,数据分析,数据挖掘

图6.2.5部分作者数量统计

分析结论:通过这个图我们可以看出我们找出来的部分作者54%左右的作者写的书都在65本以下(这就与第五部分的数据分析相对应),也侧面说明了这个数据里面50%左右的作者写的java的书不多即50%以下的作者可能不是专门做java这个领域的,可能还包括别的领域,大多数关于java的图书都是专攻这个专业的组织和作者写的。

(5)分析价格的最大值、最小值、均值、方差和中位数

图书订购表可视化分析,大数据,数据分析,数据挖掘

图6.2.6分析价格的最大值、最小值、均值、方差和中位数

分析结论:通过这个图我们可以看出图书价格的中位数和均值在55块钱左右,方差在50左右,证明了图书的价格波动不是很大,从最大值、最小值中可以看出最便宜的图书是10元左右,最贵的图书是120元左右,所以表明了买一本java图书总体的均价为55元左右。文章来源地址https://www.toymoban.com/news/detail-763413.html

代码部分:略

到了这里,关于【大数据实训】基于当当网图书信息的数据分析与可视化(八)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Doris构建亿级数据实时数据分析系统

    转载至我的博客 https://www.infrastack.cn ,公众号:架构成长指南 随着公司业务快速发展,对业务数据进行增长分析的需求越来越迫切,与此同时我们的业务数据量也在快速激增、每天的数据新增量大概在30w 左右,一年就会产生1 个亿的数据,显然基于传统MySQL数据库已经无法支

    2024年02月19日
    浏览(35)
  • 【爬虫】4.5 实践项目——爬取当当网站图书数据

    目录 1. 网站图书数据分析 2. 网站图书数据提取 3. 网站图书数据爬取 (1)创建 MySQL 数据库 (2)创建 scrapy 项目 (3)编写 items.py 中的数据项目类 (4)编写 pipelines_1.py 中的数据处理类 (5)编写 pipelines_2.py 中的数据处理类 (6)编写 Scrapy 的配置文件 (7)编写 Scrapy 爬虫程

    2024年02月07日
    浏览(36)
  • 大数据实训

    1、Hadoop集群框架搭建(学过,但是没有现成的) 2、python(机器学习) 3、Spark(没有) 4、Flume(没有) 5、Sqoop(没有接触) 6、编程语言: SpringBoot(有)+echarts(数据可视化框架) 1.1 百度百科:大数据,短期无法运用常规一些手段去及时处理海量数据,需要使用新型的技术

    2024年02月02日
    浏览(29)
  • 泰迪大数据实训平台产品介绍

          大数据产品包括: 大数据实训管理平台、大数据开发实训平台、大数据编程实训平台 等      大数据实训管理平台      泰迪大数据实训平台从课程管理、资源管理、实训管理等方面出发,主要解决现有实验室无法满足教学需求、传统教学流程和工具低效耗时和内部

    2024年02月11日
    浏览(28)
  • 大数据实验三-HBase编程实践

    目录 一.实验内容 二.实验目的 三.实验过程截图及说明 1、安装HBase 2、配置伪分布式模式: 3、使用hbase的shell命令来操作表: 4、使用hbase提供的javaAPI来编程实现类似操作: 5、实验总结及心得体会 6、完整报告在文章开头,挂载。 HBase编程实践: 1)在Hadoop基础上安装H

    2024年04月12日
    浏览(53)
  • 【大数据实训】—Hadoop开发环境搭建(一)

    本关任务:配置JavaJDK。 相关知识 配置开发环境是我们学习一门IT技术的第一步,Hadoop是基于Java开发的,所以我们学习Hadoop之前需要在Linux系统中配置Java的开发环境。 下载JDK 前往Oracle的官网下载JDK:点我前往Oracle的官网下载JDK 我们可以先下载到本地,然后从Windows中将文件传

    2024年02月06日
    浏览(35)
  • 【大数据实验五】 MapReduce初级编程实践

    1实验目的 1.通过实验掌握基本的MapReduce编程方法; 2.掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。 2实验平台 已经配置完成的Hadoop伪分布式环境。 (1)操作系统:Linux(Ubuntu18.04) (2)Hadoop版本:3.1.3 3实验内容和要求 1.编程实现文件

    2024年02月03日
    浏览(129)
  • 大数据实验 实验二:熟悉HDFS常用操作

    附件中有word版本的实验报告 理解HDFS在Hadoop体系结构中的角色。 熟练使用HDFS操作常用的Shell命令。 熟悉HDFS操作常用的Java API。 Oracle VM VirtualBox虚拟机 系统版本centos7 JDK1.8版本 Hadoop-3.1.3 Windows11 Java IDE:IDEA 1.向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户

    2024年04月12日
    浏览(25)
  • 云计算与大数据实验五 MapReduce编程

    一、实验目的 了解Mapper类,Reducer类和Job类 掌握什么是MapReduce及使用MapReduce进行运算 掌握挖掘父子辈关系,给出祖孙辈关系的表格 二、实验内容 使用Map/Reduce计算班级中年龄最大的学生 使用Map/Reduce编程实现文件合并和去重操作 对给定的表格进行信息挖掘 编写实现日期操作

    2023年04月24日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包