简单的用Python采集招聘数据内容,并做可视化分析!

这篇具有很好参考价值的文章主要介绍了简单的用Python采集招聘数据内容,并做可视化分析!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

哈喽大家好,现在刚毕业,很多小伙伴因为找不到工作或者找了很多也不喜欢,再有懒一点的,太热了根本不想出门到处找。

所以今天给大家分享使用Python批量采集招聘数据,进行可视化分析,轻松找到心仪工作!

话不多说,我们直接开始~

准备工作

软件工具

  • Python 3.8
  • Pycharm
  • 谷歌浏览器
  • 谷歌驱动

selenium --> 自动化测试模块
模拟人的行为去操作浏览器

手动操作

  1. 打开浏览器
  2. 输入网址
  3. 找到我们需要的数据内容
  4. 手动复制粘贴放到表格文件

模块使用

selenium  # pip install selenium==3.141.0 自动化测试 操作浏览器
csv  # 保存数据 保存csv文件

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

文章不理解的话,我还准备了视频讲解,和代码一起打包好了,文末名片自取

数据获取部分代码

打开浏览器

浏览器驱动选择以及下载:

  • 查看浏览器版本
  • 驱动版本选择和你浏览器版本最相近的
  • 驱动文件<不需要双击安装>, 直接放到你python安装目录里面

主要代码

driver = webdriver.Chrome()
# 访问网站
driver.get(
    'https://www.***.com/zhaopin/?inputFrom=www_index&workYearCode=0&key=python&scene=input&ckId=rn8762mqhk78fi3d9fiqzzoobk7f66u9&dq=')
"""
找到我们需要的数据内容
    前提 -> 你要让网页元素<数据>加载出来
    通过元素定位, 获取数据内容 <通过标签提取数据> 
"""
# 设置延时, 让网页元素加载完整
driver.implicitly_wait(10)  # 隐式等待, 只要网页加载出来就运行下面的代码
time.sleep(1)  # 死等, 一定要等够
# 获取所有招聘信息对应div标签
divs = driver.find_elements_by_css_selector('.job-list-box div .job-card-left-box')
# print(driver) # webdriver.Chrome() 返回selenium对象
# print(divs)  # 返回列表, 列表里面元素是selenium对象
for div in divs:
    """
    提取具体数据内容, 提取每个div标签里面所包含的数据内容
        .job-title-box div.ellipsis-1
    """
    # 职位
    title = div.find_element_by_css_selector('.job-title-box div.ellipsis-1').text
    # 城市
    city = div.find_element_by_css_selector('.job-title-box span.ellipsis-1').text
    salary = div.find_element_by_css_selector('.job-salary').text
    # 列表推导式
    info_list = [i.text for i in div.find_elements_by_css_selector('.job-labels-box .labels-tag')]
    print(info_list)
    exp = info_list[0]
    edu = info_list[1]
    labels = ','.join(info_list[2:])
    company = div.find_element_by_css_selector('.company-name').text
    company_type = div.find_element_by_css_selector('.company-tags-box span').text
    company_num = div.find_element_by_css_selector('.company-tags-box span:last-of-type').text
    href = div.find_element_by_css_selector('.job-detail-box a').get_attribute('href')
    dit = {
        '职位': title,
        '城市': city,
        '薪资': salary,
        '经验': exp,
        '学历': edu,
        '技术点': labels,
        '公司': company,
        '公司领域': company_type,
        '公司规模': company_num,
        '详情页': href,
    }
    csv_writer.writerow(dit)
    print(dit)

保存表格

f = open('python.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '职位',
    '城市',
    '薪资',
    '经验',
    '学历',
    '技术点',
    '公司',
    '公司领域',
    '公司规模',
    '详情页',
])
csv_writer.writeheader()

可视化展示

读取文件

import pandas as pd

df = pd.read_csv('data.csv')
df.head()

python职位学历需求分布

from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                edu_type,
                edu_num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="python职位学历需求分布"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    
)
c.load_javascript()

python职位学历需求分布

edu_num = df['经验'].value_counts().to_list()
edu_type = df['经验'].value_counts().index.to_list()
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                edu_type,
                edu_num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="python职位经验需求分布"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    
)
c.render_notebook()

python职位城市分布

edu_num = df['城市'].str[:2].value_counts().to_list()
edu_type = df['城市'].str[:2].value_counts().index.to_list()
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                edu_type,
                edu_num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="python职位城市分布"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    
)
c.render_notebook()

python公司领域分布

edu_num = df['公司领域'].value_counts().to_list()
edu_type = df['公司领域'].value_counts().index.to_list()
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                edu_type,
                edu_num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="python公司领域分布"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    
)
c.render_notebook()

好了今天的分享就到这结束了,咱们下次再见!文章来源地址https://www.toymoban.com/news/detail-606526.html

到了这里,关于简单的用Python采集招聘数据内容,并做可视化分析!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python爬虫+数据分析】采集电商平台数据信息,并做可视化演示(带视频案例)

    随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。 接下来就让我来教你 如何使用Python编写爬虫程序,抓取电商平台的

    2024年02月11日
    浏览(49)
  • 简单的用Python采集股票数据,保存表格后分析历史数据

    字节跳动如果上市,那么钟老板将成为我国第一个世界首富 趁着现在还没上市,咱们提前学习一下用Python分析股票历史数据,抱住粗大腿坐等起飞~ 好了话不多说,我们直接开始正文 环境使用 Python 3.10 解释器 Pycharm 编辑器 模块使用 requests — 数据请求模块 csv - 保存csv表格

    2024年02月05日
    浏览(51)
  • 简单的用Python抓取动态网页数据,实现可视化数据分析

    一眨眼明天就周末了,一周过的真快! 今天咱们用Python来实现一下动态网页数据的抓取 最近不是有消息说世界首富马上要变成中国人了吗,这要真成了,可就是历史上首位中国世界首富了! 那我们就以富豪排行榜为例,爬取一下2023年国内富豪五百强,最后实现一下可视化分

    2024年02月05日
    浏览(39)
  • 简单的用Python实现一下JS逆向解密,采集空气质量数据

    最近天气降温厉害,咱们用 Python 来分析一下空气质量如何~ 话不多说,我们直接开始上手。 环境使用 Python 3.8 Pycharm nodejs 模块使用 import requests import execjs import json requests 和 execjs 都是第三方模块,需要手动安装,直接pip install 加上模块名字即可。 明确需求: 明确采集的网站

    2024年02月05日
    浏览(44)
  • Python网络爬虫爬取招聘数据(利用python简单零基础)可做可视化

    身为一个求职者,或者说是对于未来的职业规划还没明确目标的大学生来说,获取各大招聘网上的数据对我们自身的发展具有的帮助作用,本文章就简答零基础的来介绍一下如何爬取招聘数据。 我们以东莞的Python数据分析师这个职位来做一个简单的分析,页面如下图所示:

    2024年02月03日
    浏览(37)
  • python爬取天气数据并做可视化分析

    历史天气数据schema { ‘当日信息’:\\\'2023-01-01 星期日\\\', \\\'最高气温\\\': 8℃\\\'\\\', \\\'最低气温\\\': \\\'5℃\\\', ‘天气’: \\\'多云\\\', \\\'风向信息\\\':\\\'北风 3级\\\' } 1.导入库 2.对程序进行伪装 3.抓取天气数据 在数据存储前,对数据进行处理,便于后期的数据分析。将上面的“当天信息”字段拆分为“日期”

    2024年02月04日
    浏览(32)
  • python爬虫爬取电影数据并做可视化

    1、发送请求,解析html里面的数据 2、保存到csv文件 3、数据处理 4、数据可视化 需要用到的库: 注意:后续用到分词库jieba以及词频统计库nltk    解释器: python  3.10.5 编辑器:VsCode -jupyter-notebook 使用ipynb文件的扩展名 vscode会提示安装jupyter插件 效果: 注意:使用jieba分词,

    2024年02月07日
    浏览(28)
  • Python教你一招,爬取链家二手房并做数据可视化分析

    发送请求, 模拟浏览器对于url地址发送请求 获取数据, 获取网页数据内容 -- 请求那个链接地址, 返回服务器响应数据 解析数据, 提取我们需要的数据内容 保存数据, 保存本地文件 win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源

    2024年02月08日
    浏览(55)
  • Python 基于招聘数据可视化系统

    Python 基于招聘数据可视化系统,视频效果如下: 基于Python的招聘信息可视化系统,附源码 随着国内的经济不断的快速发展,现在学生的就业压力也在逐年增加,网络上的招聘信息非常的丰富,但是对于学生而言岗位是否适合,自身技能是否满足企业需要等仍然需要进一步的

    2024年02月09日
    浏览(46)
  • 基于python重庆招聘数据爬虫采集系统设计与实现(django框架)

     博主介绍 :黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,免费 项目配有对应开发文档、开题报告、任务书、

    2024年01月23日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包