双非生物医学硕士放弃研究院工作,零基础转型大数据开发

这篇具有很好参考价值的文章主要介绍了双非生物医学硕士放弃研究院工作,零基础转型大数据开发。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

点击上方 "大数据肌肉猿"关注, 星标一起成长

点击下方链接,进入高质量学习交流群

今日更新| 1052个转型案例分享-大数据交流群

双非生物医学硕士放弃研究院工作,零基础转型大数据开发

分享学习群一位同学的大数据求职转型经验,他本科是二本机械方向,研究生是一本生物医学方向,原本考研就是为了转到计算机方向,因为分数不够调剂了。随后家里人也给安排了相关医学院研究工作,但他放弃了,自学了大数据拿到米哈游58同城、比亚迪吉利、美的蓝月亮等offer。

个人背景:

本科是不知名的二本院校,研究生是东北一所一本院校,导师的方向是生物信息和医学图像处理。我本科的方向是机械工程,研究生的方向是医学图像处理,在2022年10月成功的发表了一篇sci二区的期刊论文。

在2022年7月,我收到了米哈游、第四范式等公司的实习offer。由于要在8月回复论文审稿人的意见,家里人安排了一所研究院进行实习。但是在研究生学习过程中、实习过程中,发现自己不太适合科研,学历也没有优势。

之前在考研二战期间,由于想转开发方向就认识了峰哥,后来也在峰哥的指导下,我学习了一系列大数据相关的知识,最终在秋招拿到了58等公司的offer。

学习过程:

我是2019年的时候偶然看到了峰哥的公众号,那时候在考研失利,有些迷茫,通过刷完峰哥的大数据转型案例,了解到众多同学在峰哥的指导下,进入到互联网大厂。那时候面临着春招,我十分迫切,找到峰哥了解了学习路径。

峰哥根据我的个人情况帮我规划了学习路径,我在学完hadoop后,家里人催着考研,于是重新进入到考研队伍中,然后被调剂到了东北一所一本院校。

在研一期间,对算法有些憧憬,甚至还有读博的念头,使得我没有坚持按照峰哥规划的学习路线继续学习。当我经历了研一的科研生活,了解到国内的科研状况和算法的就业形势,使得我失去了科研和算法的热情。

于是,我在研二重新开启了大数据的学习,前期由于在写论文,进度比较慢,在2022年才开启数仓项目、spark、以及spark项目的学习。(根据我的经验教训,这里建议大家不要战线拖太久,不要拖沓,持续学习)

实习简历投递:

我是4月份投稿的论文,所以我很晚才投实习岗位。4月11日开始准备实习的面经,然后找峰哥修改简历,5月底开始投实习岗位。(根据我的经验教训,这里建议大家提前准备面经,并且大多数的公司实习岗位是2月、3月就开始了,我投的时候已经没有几点公司招实习岗位了,大部分招聘的实习岗位还是外包。

要多进行面试,不要害怕面经没有背好,面经是背不完的,到了后期(包括秋招),我发现大部分公司问的问题都有点类似,在面试的过程中去丰富面经。)

大致情况:

offer:米哈游、华云慧通、华大基因、第四范式

面试挂:好未来、煜象科技、北明数科

(1)好未来(已挂)

① UDTF函数

② 维度建模

③ hive sql 窗口函数(有一个用户,计算每个月的累计薪资是多少?一月份赚了3000,二月份赚了6000,想二月份变成9000,每一次都是累加的)

④ 拉链表

(2)煜象科技(已挂)

① 自我介绍

② 介绍项目

③ 项目中使用了哪些算子函数

④ hive sql 使用了哪些函数

⑤ 数仓创建了哪些表

⑥ 使用了哪些action算子

⑦ spark、hive数据倾斜

⑧ hive表的类型

⑨ hive的存储格式

⑩ yarn的资源调度

(3)北明数科(已挂)

① 自我介绍

② 项目介绍

③ sqoop调度(数据迁移)

④ 如何从mysql中读取数据到hive中

⑤ 数仓每一层的表是如何体现的

⑥ hive 注册UDF的过程

⑦ 在哪操作hive sql的(定时shell)

⑧ 为什么要选择列式存储?

⑨ 列式存储的适用场景

⑩ yarn的job提交流程

⑪ java 中的集合——map接口和collection接口

⑫ java 树结构的应用(hashmap使用了红黑树)

⑬ 完全二叉树的概念——叶子结点只能出现在最下层和次下层,且最下层的叶子结点集中在树的左部。

秋招简历投递:

在7月和8月,我在修改论文,回复审稿人意见,错失了良机,没有及时的投递提前批。等到9月初才开始投正式批,一开始投的时候还挑三拣四,一天只投了一两家,导致我在九月中旬就面试完两三家后,到十月中旬都属于“空窗期”,没有任何笔试和面试。

在九月下旬,才开始着急,然后再疯狂的投递简历。根据我的经验教训,这里建议大家要把握住提前批和正式批一开始的时候,可以先投一些公司,不要全投也不要都不投。

正式批总共投了116家公司,笔试了39家公司(包括6家银行),面试了25家公司(包括4家银行,大部分是市级的分行,听说要轮岗几年,基本放弃了),收到10家公司的offer(58、比亚迪吉利等)。

大致情况:

loffer:58同城、比亚迪吉利汽车、蓝鸽蓝月亮美的,茄子科技,还有几家银行

(1)茄子科技

1)一面:

① 自我介绍

② 实习介绍

③ kafka消息丢失重复问题

④ kafka防止不丢失

⑤ 大数据行业,要解决什么问题?那么大的数据量,会给我们带来什么问题?——数据存储问题、分类问题、数据采集问题、数据仓库问题(结构化的数据)、数据计算问题(hadoop、mapreduce、hive、spark)

⑥ kafka在大数据领域的作用是什么——削峰和缓存

⑦ 什么场景需要会使用kafka——消息队列、数据采集、流式处理

⑧ 什么是数据湖——是一个集中式存储库,一个以原生格式存储各种大规模原始数据集的数据库,它允许以任何规模存储所有结构化和非结构化数据。

⑨ 实现一个数据湖,需要解决什么问题?——数据导入、数据消费、数据治理、数据安全、数据存储等

⑩ hive与mapreduce有什么区别

⑪ hive架构

2)二面:

① 自我介绍

② 数据仓库分哪些层

③ 为什么要对数据仓库分层

④ 数据量大小

⑤ hive与mysql有什么区别

⑥ hive的架构

⑦ 介绍一下spark,常用的算子(行动算子、转换算子)

⑧ rdd、dataframe、dataset的区别

⑨ 实习

(2)58同城

1)一面:

① 自我介绍

② mapreduce工作原理

③ shuffle过程

④ mapreduce中的reduce task数量、map task数量以及partition怎么计算出来的

⑤ 为什么对数仓进行分层

⑥ 维度建模

⑦ 星型模型与雪花模型的区别

⑧ spark数据倾斜遇到的场景

⑨ kafka消息挤压问题

⑩ 在项目中sparkStreaming实时做什么功能?

⑪ sparkStreaming计算完的数据是存放在什么地方?(mysql)

⑫ 建议学习flink

2)二面:

① 自我介绍

② 在实习、项目过程中遇到了什么困难

③ 对大数据哪一块比较了解?工作原理?

④ hive为什么要两个计划?物理计划和逻辑执行计划?这两个有什么区别?

⑤ kafka消息丢失和重复问题

⑥ 大数据中为什么会用kafka,不用其他消息队列的组件呢

⑦ 遇到的技术挑战(hive数据倾斜)

⑧ 业界最近的一些技术(数据湖)

(3)吉利

① 自我介绍

② 项目介绍

③ 数据量

④ hive sql执行了多少时间

⑤ hive 数仓分层,每层的含义

⑥ kafka消息挤压

⑦ kafka消息丢失与重复问题

⑧ spark数据倾斜问题

⑨ 小文件过多,文件分配不均与的问题(spark)

⑩ sql窗口函数以及之间的区别

⑪ 手撕spark代码:wordcount

⑫ 实习经历

⑬ 学校、实习团队沟通是否以接触老师为主,有木有除了导师以外的人

大家会发现,其实我的面试基本也是围绕着hive、spark、kafka等几个点来进行的,有些时候面试官会问一些发散性的问题,这些问题我也会往我知道的,背过的面经上靠。

并且,面试官主要是根据我们的简历来提问,所以,我们要根据简历中项目涉及到的知识点,然后根据面经来提前准备;hr面最好也要提前准备一下,准备一下hr经常会问的一些问题。

总结:

能在本科求职尽量在本科完成,目前市场来看经验比学历更重要。因为考研错过了好几年,大家不要像我这样拖沓,一定提早准备,越早越好,因为过程会有各种不确定因素影响学习,希望我的经历能对大家有所启发。

虽然我签的公司不属于互联网大厂,但还算比较满意。最后要感谢峰哥,我经常找峰哥咨询学习路线和面试问题。在峰哥的帮助下,我在大数据的学习过程中也没有走太多的弯路。

--end--文章来源地址https://www.toymoban.com/news/detail-401786.html

扫描下方二维码

添加好友,备注【交流】
可围观朋友圈,也可私信交流

到了这里,关于双非生物医学硕士放弃研究院工作,零基础转型大数据开发的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 嘶吼安全产业研究院发布《2023网络安全产业图谱》

    最近网络安全周,看到各种宣传,舆论上很热闹,实质上较模糊。研究网络生态多年,聊一下自己对网络安全、信息安全的看法,先从国内聊起,分几期聊。 我平时出去和大家聊互联网,用得最多的题目是《信息革命与网络生态》,最近,也会用《网络安全与信息安全》。前

    2024年02月15日
    浏览(47)
  • ThePASS研究院|以Safe为例,解码DAO国库管理

    本研究文章由ThePASS团队呈现。ThePASS是一家开创性的DAO聚合器和搜索引擎,在为DAO提供洞察力和分析方面发挥着关键作用。 随着去中心化自治组织(DAOs)的发展,它们被赋予了越来越多的角色和期望。在这种巨幅增长的背景下,资产管理成为一个至关重要的问题。随着DAO不断

    2024年02月10日
    浏览(42)
  • 中国联通软件研究院春招3场面试Offer面经

      本文介绍 2024届春招 中, 中国联通软件研究院广州分院 的 软件研发 岗位的 3 场面试基本情况、提问问题等。    2024 年 03 月投递了 中国联合网络通信有限公司 下属 软件研究院 的 软件研发 岗位,所在部门为 广州分院 。目前完成了一面、二面、三面,并有幸获得

    2024年04月10日
    浏览(78)
  • Python生物医学专业案例 - 细胞计数

    在上公共的编程基础课时,我们经常受到学生的质疑: 我们学这玩艺儿有什么用? 学生的疑问来自于“他没有从课程中得到通过程序设计来解决本专业问题的体验”。重庆大学的教学团队设计了很多与各专业紧密相关的程序设计案例,我们会陆续分享出来,供大家参考。 本文

    2024年02月07日
    浏览(38)
  • HTX研究院:坎昆升级完成,LRT(Liquid Restaking)赛道催化以太坊生态?

    随着坎昆升级的完成,以太坊及其相关生态代币价格在近期表现亮眼。同时,模块化概念项目和以太坊Layer2项目陆续推出主网,进一步推动了当前市场对以太坊生态的看好。流动性再质押(Liquid Restaking)叙事也因EigenLayer项目的爆火而开始吸引资本的关注。 但,从ETH - LST -

    2024年03月23日
    浏览(47)
  • 微软亚洲研究院推出AI编译器界“工业重金属四部曲”

    编者按:编译器在传统计算科学中一直是一个重要的研究课题。在人工智能技术快速发展和广泛应用的今天,人工智能模型需要部署在多样化的计算机硬件架构上。同时,训练和部署大型人工智能模型时又对硬件性能有着更高的要求,有时还需根据硬件定制化代码。这些都对

    2024年02月16日
    浏览(41)
  • 微软亚洲研究院多模态模型NÜWA:以自然语言创造视觉内容

    此前我们曾提出了一个问题:从文字脚本生成创意视频一共分几步?微软亚洲研究院的开放领域视频生成预训练模型给出了答案:只需一步。现在,我们追问:除了文字生成视频之外,还有哪些途径可以生成视频?我们能否使用自然语言对视觉内容进行编辑?微软亚洲研究院

    2024年02月04日
    浏览(35)
  • 欧科云链研究院:如何降低Web3风险,提升虚拟资产创新的安全合规

    在香港Web3.0行业,技术推动了虚拟资产投资市场的快速增长,但另一方面,JPEX诈骗案等行业风险事件也接连发生,为Web3行业发展提供了重要警示。在近期的香港立法会施政报告答问会上,行政长官李家超表示,与诈骗受害人同一阵线,将对任何罪犯穷追猛打。同时李家超也

    2024年02月05日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包