基于大数据的地域职位需求和薪资分析

这篇具有很好参考价值的文章主要介绍了基于大数据的地域职位需求和薪资分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目 录

摘 要 I
ABSTRACT II
第 1 章 项目引言 1
1.1项目背景 1
1.2国内研究现状 1
1.3研究内容 2
1.4论文结构 2
第 2 章 项目框架 3
2.1HADOOP 框架 3
2.2HBASE 框架 4
2.3HIVE 框架 5
2.4SPARK 框架 6
第 3 章 项目设计 7
3.1数据采集 7
3.1.1爬虫简介 7
3.1.2爬虫设计 7
3.2数据清洗 10
3.1.1 数据清洗简介 10
3.2.2 数据清洗设计 11
3.3数据存储 11
3.3.1数据存储简介 11
3.3.2数据存储设计 12
3.4预测算法 12
3.1.1 预测算法简介 12
3.4.2 预测算法设计 13
3.5分词算法 13
3.5.1分词简介 13
3.5.2分词设计 14
3.6数据呈现 15
3.6.1数据呈现简介 15
3.6.2数据呈现设计 15
第 4 章 项目实现 16
4.1数据采集 16
4.1.1爬虫实现 16
4.1.2爬取结果 18
4.2数据清洗 19
4.2.1数据清洗实现 19
4.2.2数据清洗结果 20
4.3数据存储 22
4.3.1数据存储实现 22
4.3.2数据存储结果 24
4.4预测算法 24
4.4.1预测算法实现 24
4.4.2预测算法结果 26
4.5分词算法 26
4.5.1分词实现 26
4.5.2分词结果 27
4.6数据呈现 28
4.6.1数据呈现实现 28
4.6.2数据呈现结果 29
第 5 章 项目结论 31
参考文献 31
致 谢 33
本系统主要完成的是基于大数据的地域职位需求和薪资分析的设计和实现,主要实现了以下几个功能,分别是数据爬取、数据清洗、数据存储、预测薪资、分词统计和数据呈现等功能。数据爬取采用 Python 语言,主要使用的模块有 requests、bs4 和 re 数据清洗系统使用 Hive 框架,代码放在.hql 的脚本中。数据存储系统使用 Hbase 框架,使用
Java 语言先从 Hive 读取数据,然后把读取到的数据存储到 Hbase 上。预测薪资算法采用 Java 语言实现,分词统计采用 Spark 框架,然后使用 Java 语言实现。数据呈现是使用 Java Web 搭建网站,后台使用 SSM 框架调用预测算法和分词算法,前端使用 EChars 呈现出使用预测算法和分词算法得到的结果。
1.3研究内容
首先需要选择合适的招聘网站进行研究。由于 Robots 协议和网站爬虫的限制,选取猎聘网和前程无忧网最为研究对象。通过爬虫爬取岗位信息,从互联网上抓取有价值的信息。由于 Python 语言爬取网站具备简单、高效的特点,因此选择 Python 语言进行数据爬取。通过 Hive 进行数据清洗,Hive 是基于 Hadoop 的一个数据仓库工具,提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。将爬取得到的数据存储到 Hbase 上,Hbase 是一个分布式的、面向列、基于 Hadoop 存储的数据库。使用 Spark 进行技能分词统计,Spark 的源生语言是 Scala,它使用 Scala 作为其应用程序框架。使用 ECharts 数据可视化,提供数据可视化图表。使用 Java Web 搭建网站,同时利用 SSM 框架,简化系统结构的设计。最后利用 Shell 脚本,将整个系统架构搭建起来。
1.4论文结构
本文根据猎聘网站和前程无忧网站,发布的网络招聘信息来研究岗位的薪资水平和技能要求。先通过关键字搜索,搜索到有关关键字的职位,进而选择爬虫进行爬取这些岗位的职位名称、公司、薪资和技能要求。利用 Hive 清洗掉不含关键字的职位,将数据存储到 Hbase 当中。利用 Python 语言对薪资进行数据分析,利用线性规划,预测岗位的工资。利用 Spark 分词统计,统计出岗位的技能要求有那些。接下来利用 Java Web 搭建网站,使用 Java 连接 Hbase 从而读取数据,以及读取 Python 对薪水分析和预测的结果和 Spark 分词统计后的结果,EChars 呈现出这些数据。
第一章:介绍项目研究的内容、目的和意义。查阅文献,然后对本课题的文献进行综合评述。
第二章:项目框架,对使用的 Hadoop、Hive、Spark、Hbase、Java Web 框架进行介绍和搭建。
第三章:项目设计,对使用的爬虫、数据清洗、数据存储、数据处理算法进行介绍和设计。
第四章:项目实现,实现爬虫、数据清洗、数据存储、数据处理和项目网站。第五章:对全文进行总结,简述怎么做的,项目的有缺点和自己的工作展望。

from liepinwang.liepin import Liepin
from qianchengwuyouwang.qianchengwuyou import Qianchengwuyou
import time

def main():

    # 从文件中读取要爬取的职位
    with open("position.txt", "r") as f:
        position = f.read()
    # 要保存的信息,文件路径
    positionFilePath = position + ".txt"
    # 记录下搜索记录  如果记录存在则忽略
    with open("positionHistory.txt", "r") as f:
        positionHistory = f.read()
        if positionHistory.find(position) == -1:
            with open("positionHistory.txt", "w") as f:
                f.write(positionHistory + "," + position)

    lp = Liepin()
    # 从文件中读取要爬取的城市列表
    with open("./liepinwang/citys.txt", "r") as f:
        citysLiepinwang = f.read()
    citysLiepinwang = citysLiepinwang.strip().split(",")

    # 创建类对象
    qcwy = Qianchengwuyou()
    # 从文件中读取要爬取的城市列表
    with open("./qianchengwuyouwang/citys.txt", "r") as f:
        citysQianchengwuyouwang = f.read()
    citysQianchengwuyouwang = citysQianchengwuyouwang.strip().split(",")

    #读取城市的键和值 爬取的城市数量都是一样的  所以选择以谁为循环都是可以的
    for iCity in range(len(citysQianchengwuyouwang)):

        #爬取前程无忧网
        cityListQianchengwuyouwang = citysQianchengwuyouwang[iCity].split(":")
        qcwy.run(qcwy, position, positionFilePath, cityListQianchengwuyouwang[0], cityListQianchengwuyouwang[1])
        print("前程无忧网","关键字",position,cityListQianchengwuyouwang[0],"爬取完毕")
        #睡眠
        time.sleep(10)
        #爬取猎聘网
        cityListLiepinwang = citysLiepinwang[iCity].split(":")
        lp.run(lp,position,positionFilePath,cityListLiepinwang[0], cityListLiepinwang[1])
        print("猎聘网", "关键字", position, cityListLiepinwang[0], "爬取完毕")
        #睡眠
        time.sleep(10)

if __name__ == '__main__':
    main()


基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端
基于大数据的地域职位需求和薪资分析,大数据,Hive,Hbase,线性规划,分词统计,Python爬虫,java后端文章来源地址https://www.toymoban.com/news/detail-821858.html

到了这里,关于基于大数据的地域职位需求和薪资分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据分析实战】基于python对酒店预订需求进行分析

    🙋‍♂️作者简介:生鱼同学,大数据科学与技术专业硕士在读👨‍🎓,曾获得华为杯数学建模国家二等奖🏆,MathorCup 数学建模竞赛国家二等奖🏅,亚太数学建模国家二等奖🏅。 ✍️研究方向:复杂网络科学 🏆兴趣方向:利用python进行数据分析与机器学习,数学建模竞

    2023年04月08日
    浏览(77)
  • 基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)

    Hive介绍: Hive是建立在Hadoop之上的数据仓库基础架构,它提供了类似于SQL的语言(HQL),可以对大规模数据集进行查询和分析。通过Hive,我们可以在分布式存储系统中进行复杂的数据处理和分析。 Sqoop简介: Sqoop是一个用于在Apache Hadoop和关系型数据库之间传输数据的工具。

    2024年04月13日
    浏览(37)
  • 2023年数据分析的就业薪资水平情况

    2023年数据分析的就业薪资水平情况 数据已经成为我们工作生活不可缺少的一部分,也成为企业提高竞争力的有效支撑。随着越来越的企业进行数字化转型,对于数据的需求也将越来越大,那么对于正在学习数据分析或者想学习数据分析的小伙伴来说,是一个非常好的机会,

    2024年02月05日
    浏览(35)
  • 毕设:《基于hive的音乐数据分析系统的设计与实现》

    启动hadoop图形化界面 启动hive 1、配置免密登录 vim core-site.xml hdfs-site.xml 1、关闭防火墙 2、初始化 3、配置启动用户 4、启动 5、访问 6、配置环境变量方便启动 卸载Centos7自带mariadb 配置文件 初始化表 1、拉取sqoop 2、配置 3、加入mysql的jdbc驱动包 修改yarn-site.xml 重启 1、hive创建数

    2024年02月04日
    浏览(31)
  • Hive、HBase对比【相同:HDFS作为底层存储】【区别:①Hive用于离线数据的批处理,Hbase用于实时数据的处理;②Hive是纯逻辑表,无物理存储功能,HBase是物理表,放非结构数据】

    1. Hive是hadoop数据仓库管理工具,严格来说,不是数据库,本身是不存储数据和处理数据的,其依赖于HDFS存储数据,依赖于MapReducer进行数据处理。 2. Hive的优点是学习成本低,可以通过类SQL语句(HSQL)快速实现简单的MR任务,不必开发专门的MR程序。 3. 由于Hive是依赖于MapRed

    2024年04月17日
    浏览(37)
  • hive中的数据同步到hbase

    工作中遇到了这个工作,就是将hive中的数据同步到hbase中,然后java通过hbase相关的API来访问hbase中的数据。 关于hadoop,hive,hbase这三个技术栈我写了两篇博客简单的分享了我对这三个技术栈的一些看法,在我目前的认知里,hadoop提供hdfs这个组件来存储大数据量的数据(相比于

    2024年04月15日
    浏览(32)
  • 基于Hadoop和Hive的聊天数据(FineBI)可视化分析

    目录 1. 准备工作 2. 新建数据库连接 3. 在Hive数据库中创建存放数据的表 4. ETL数据清洗 5. 指标 ​6. 进入Fine BI数据中心 参考内容https://www.bilibili.com/read/cv15490959/ 数据文件、jar包、插件 https://pan.baidu.com/s/1Mpquo0EgkyZtLHrCPIK2Qg?pwd=7w0k 在FineBI6.0webappswebrootWEB-INFlib下放置jar包 启动

    2024年04月17日
    浏览(79)
  • hive基于新浪微博的日志数据分析——项目及源码

    有需要本项目的全套资源资源以及部署服务可以私信博主!!! 该系统的目的是利用大数据技术,分析新浪微博的日志数据,从而探索用户行为、内容传播和移动设备等各个层面的特性和动向。这项研究为公司和个人在制定营销战略、设计产品和提供用户服务时,提供了有价

    2024年02月13日
    浏览(48)
  • 基于hive的安顺旅游景点数据分析的设计与实现

    博主介绍 : ✌ 全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流 ✌ 主要内容: SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、P

    2024年03月12日
    浏览(43)
  • 大数据:Hadoop基础常识hive,hbase,MapReduce,Spark

    Hadoop是根据Google三大论文为基础研发的,Google 三大论文分别是: MapReduce、 GFS和BigTable。 Hadoop的核心是两个部分: 一、分布式存储(HDFS,Hadoop Distributed File System)。 二、分布式计算(MapReduce)。 MapReduce MapReduce是“ 任务的分解与结果的汇总”。 Map把数据切分——分布式存放

    2024年04月25日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包