大数据工程师的日常工作内容是干嘛?

这篇具有很好参考价值的文章主要介绍了大数据工程师的日常工作内容是干嘛?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文来源:知乎

大家好,我是脚丫先生 (o^^o)

最近小伙伴们,有问到大数据工程师岗位平常的日常工作都是干嘛的?

大数据工程师的日常工作内容是干嘛?

大数据或者说想入门大数据,技术肯定是第一重要的,不会大数据的技术谈什么大数据。那么大数据的技术怎么学,要知道大数据是依赖Java的,首先要保证Java得会。

一个项目一般包含:前端,后端,后后端,大数据属于后后端,是在项目开发完成之后有了数据之后才到大数据这一步。从上帝视角看张图:

大数据工程师的日常工作内容是干嘛?

大数据工作分为图上这几种,和后端接触的是ETL工程师,负责将数据拿到大数据平台,然后供数仓开发工程师使用,大数据开发负责大数据平台的建设,后面还有数据分析师,AI工程师等。

一、数仓工程师 (全称:数据仓库工程师)

数仓工程师日常工作一般是不写代码的,主要以写 SQL 为主!

数仓工程师是大数据领域公司招聘较多的岗位,薪资也较高,需要重点关注!数据仓库分为离线数仓和实时数仓,但是企业在招聘时大多要求两者都会,进入公司之后可能会专注于离线或实时其中之一。

就目前来说,大多数的企业还是以离线数仓为主,不过未来趋势肯定是实时数仓为主,所以学习时,为了现在能找到工作,需要学习离线数仓,为了以后的发展,需要学习实时数仓。

所以,离线和实时都是我们重点掌握的!需要掌握的技能:

不管离线还是实时,重中之重就是:SQL

SQL 语法及调优一定要掌握,这里说的SQL包括mysql中的 sql,hive中的 hive sql,spark中的spark sql,flink中的 flink sql。

在企业招聘的笔记及面试中,一般问的关于 sql 的问题主要是以 hive sql 为主,所以请重点关注!

除sql外,还需要重点掌握以下技能,分为离线和实时

离线数仓需要重点掌握的技能:

  • Hadoop(HDFS,MapReduce,YARN)
  • Hive(重点,包括hive底层原理,hive SQL及调优)
  • Spark(Spark 会用及了解底层原理)
  • Oozie(调度工具,会用即可)离线数仓建设(搭建数仓,数仓建模规范)维度建模(建模方式常用的有范式建模和维度建模,重点关注维度建模)

实时数仓需要重点掌握的技能:

  • Hadoop(这是大数据基础,不管离线和实时都必须掌握)
  • Kafka(重点,大数据领域中算是唯一的消息队列)
  • Flink(重中之重,这个不用说了,实时计算框架中绝对王者)
  • HBase(会使用,了解底层原理)
  • Druid(会用,了解底层原理)
  • 实时数仓架构(两种数仓架构:Lambda架构和Kappa架构)

二、大数据开发工程师

数据开发工程师一般是以写代码为主,以 Java 和 Scala 为主。
大数据开发分两类,第一类是编写Hadoop、Spark、Flink 的应用程序,第二类是对大数据处理系统本身进行开发,如对开源框架的扩展开发,数据中台的开发等!
需要重点掌握的技能:

  • 语言:Java 和 Scala(语言以这两种为主,需要重点掌握)
  • Linux(需要对Linux有一定的理解)
  • Hadoop(需理解底层,能看懂源码)
  • Hive(会使用,能进行二次开发)
  • Spark(能进行开发。对源码有了解)
  • Kafka(会使用,理解底层原理)
  • Flink(能进行开发。对源码有了解)
  • HBase(理解底层原理)

通过以上技能,我们也能看出,数据开发和数仓开发的技能重复率较高,所以很多公司招聘时 大数据开发和数仓建设分的没有这么细,数据开发包含了数仓的工作!

三、ETL工程师

ETL是三个单词的首字母,中文意思是抽取、转换、加载从开始的图中也能看出,ETL工程师是对接业务和数据的交接点,所以需要处理上下游的关系对于上游,需要经常跟业务系统的人打交道,所以要对业务系统比较熟悉。

比如它们存在各种接口,不管是API级别还是数据库接口,这都需要ETL工程师非常了解。

其次是其下游,这意味着你要跟许多数据开发工程师师、数据科学家打交道。比如将准备好的数据(数据的清洗、整理、融合),交给下游的数据开发和数据科学家。

需要重点掌握的技能。

  • 语言:Java/Python(会基础)
  • Shell脚本(需要对shell较为熟悉)
  • Linux(会用基本命令)
  • Kettle(需要掌握)
  • Sqoop(会用)
  • Flume(会用)
  • MySQL(熟悉)
  • Hive(熟悉)
  • HDFS(熟悉)
  • Oozie(任务调度框架会用其中一个即可,其他如 azkaban,airflow)

四、数据分析工程师

在数据工程师准备好数据维护好数仓后,数据分析师就上场了。

分析师们会根据数据和业务情况,分析得出结论、制定业务策略或者建立模型,创造新的业务价值并支持业务高效运转。
同时数据分析师在后期还有数据爬虫、数据挖掘和算法工程师三个分支。

需要重点掌握的技能:

  • 数学知识(数学知识是数据分析师的基础知识,需要掌握统计学、线性代数等课程)
  • 编程语言(需要掌握Python、R语言)
  • 分析工具(Excel是必须的,还需要掌握 Tableau 等可视化工具)
  • 数据敏感性(对数据要有一定的敏感性,看见数据就能想到它的用处,能带来哪些价值)

总结:

1 写 SQL (很多入职一两年的大数据工程师主要的工作就是写 SQL )。

2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)

3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)

4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)

5 应用迁移(有部分公司需要把应用从传统的数据库 Oracle、MySQL 等数据库的存储过程程序或者SQL脚本迁移到大数据平台上,这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)

6 数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是 Flume 和 Logstash)

7 数据处理

7.1 离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和第一点有点重复了)

7.2 实时数据处理(这个涉及到消息队列,Kafka,Spark,Flink 这些,组件,一般就是 Flume 采集到数据发给 Kafka 然后 Spark 消费 Kafka 的数据进行处理)

8 数据可视化(这个我司是用 Spring Boot 连接后台数据与前端,前端用自己魔改的 echarts)

9 大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的 PaaS 平台)

10 数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)

11 搭建数据仓(离线数仓和实时数仓)

总之就是离不开写 SQL …

好了,今天就聊到这里,祝各位终有所成,收获满满!

更多精彩内容请关注 微信公众号 👇「大数据指北」🔥:


一枚热衷于分享大数据基础原理,技术实战,架构设计与原型实现之外,还喜欢输出一些个人私活案例。


更多精彩福利干货,期待您的关注 ~文章来源地址https://www.toymoban.com/news/detail-415602.html

到了这里,关于大数据工程师的日常工作内容是干嘛?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 软件测试人员每天的工作日常

    我现在每天9点左右从家里出发,9点半左右到公司,到公司之后,首先用养生壶煮一壶好茶,工作忙碌时也要记得多喝水,然后一边听着煮茶声一边写着当天的工作计划,工作计划主要包括当天工作内容、学习计划和总结。 计划并不是每天都能完成,在工作结束之后根据实际

    2024年02月12日
    浏览(36)
  • Shell在日常工作中的应用实践

    作者:京东物流 李光新 作为一名测试开发工程师,在与linux服务器交互过程中,大都遇到过以下这些问题: •一次申请多台服务器,多台服务器需要安装相同软件,配置相同的环境,同样的操作需要重复多次; •工作中经常会使用命令行命令来完成我们的一些操作,但是有

    2023年04月20日
    浏览(83)
  • 【主流技术】日常工作中关于 JSON 转换的经验大全(Java)

    目录 前言 一、JSON 回顾 1.1结构形式 二、其它类型 - JSON相关 2.1 JavaBean 转 JsonObject 2.2 JavaBean 转 Json 字符串 2.3 List 转 JsonArray 2.4 List 转Json 字符串 2.5Map 转 Json 字符串 三、JSON 相关 - 其它类型 3.1 Json 字符串转 JavaBean 3.2 Json 字符串转 JsonObject 3.3 Json 字符串转 List 3.4Json字符串转M

    2024年03月11日
    浏览(39)
  • 日常工作中常用的抓包工具都有哪些呢?

    大家好,今天我们一起来聊聊,在我们的日常工作中都有哪些抓包工具呢?你们平时工作中都在哪一款工具呢?一起学习交流。 一、Wireshark 这款抓包工具目前是使用最多的,分析网络交互非常方便 二、Fiddler,多数是使用在抓包手机的相关网络交互的网络包,目前也是非常流

    2024年01月20日
    浏览(47)
  • redis在日常开发工作中的常见用法

    redis是一款内存型数据库,在开发工作中经常用到,功能强大; 特别开一篇文章用来记录一下它的常见用法,算是一种总结; 它最主要的特点就是高可用的,速度快,分布式;有人说速度快,能有我本地的全局静态变量快?但是在大型的项目中,多个服务器部署时,其他服务

    2024年02月09日
    浏览(32)
  • 【AIGC提示词工程师、AI提示词工程师、Prompts工程师、Midjourney培训】电商行业AIGC图像生成与内容创作学习路线图

    导言 关注【元壤教育】公众号进入平台开始系统学习之路。 AIGC(Stable Diffusion、DALL-E 和 Midjourney)助力电商行业降本增效、提升10倍生产力 一门深入全面的课程,专为对AI图像生成在电商行业应用感兴趣的人士打造,旨在帮助他们从零基础迈向专家级别。无需拥有任何相关经

    2024年02月10日
    浏览(47)
  • IC验证工程师工作一周年的体会

    转眼之间自己已经工作一周年了,作为一名验证工程师,这一年里面感觉自己虽然有了一定的成长,但是成长的还是比较缓慢的,接下来从个人的角度说说我现在对从IC验证的一些体会。 一.要养成良好的工作习惯 (1)自己在工作中发现很多时候都是可以偷懒的,有时候写几

    2024年02月08日
    浏览(74)
  • web前端开发工程师工作的岗位职责(合集)

      web前端开发工程师工作的岗位职责1 职责: 1、根据设计图进行前端页面开发并设计编写业务交互脚本 2、优化前端页面,保证良好的用户体验以及不同浏览器的兼容性 3、web前沿技术研究和新技术调研,将主流的特效应用到业务场景中 4、配合后台开发人员实现网站界面和功

    2024年02月14日
    浏览(40)
  • 安全服务包括哪些内容,安服工程师需要哪些技能

    安全服务是一系列措施和程序,旨在保护组织和个人免受各种安全威胁。这些服务涵盖了从网络安全、数据保护、身份和访问管理,到应用程序安全、安全监控和响应、以及物理安全等多个方面。安全服务的目标是确保信息技术系统、数据以及物理环境的安全和完整性,同时

    2024年02月03日
    浏览(59)
  • 如何备考软考中级的网络工程师以及考试内容

    备考软考中级网络工程师需要具备以下步骤: 1.熟悉考试大纲:软考中级网络工程师的考试大纲是备考的重点,考生需要认真研读大纲,了解考试的知识点和考试形式。 2.系统学习基础知识:备考软考中级网络工程师需要具备网络基础知识,如网络拓扑结构、传输协议、网络

    2024年02月05日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包