百度(已OC)
一面(12.20)
-
自我介绍:第一次面有点瓢嘴
-
介绍科研项目
- 如何使用的CLIP
- Open-vocab和zero-shot
-
介绍比赛项目——多模态行车数据视频
- 介绍任务是什么
- 自定义数据集?
- Yolo v8
-
介绍CLIP:
- 对比学习训练:一个batch的N张图片和文本进行对比;首先分别进行编码->再投影到相同特征维度->计算相似度;对角线为标签,计算交叉熵损失
-
如何判断和缓解过拟合?
原因:数据样本单一,数量不足;训练数据噪声大;模型过于复杂
防止:- 数据增强
- L1、L2正则化,对模型参数作罚
- dropout
- 提前终止训练
- 采用合适模型:降低模型复杂度、降低特征数量
-
BN是什么?BN层的作用?(对样本同一通道不同batch计算均值和方差进行归一化)
- 加快收敛
- 防止过拟合,防止朝着一个方向学习,会学到每个batch的特征
- 防止梯度爆炸和梯度消失
-
batch_size对模型训练有什么影响?应该如何设置?(答的跑到GPU内存上限)
- 训练速度
- 模型性能:较小batch_size迭代更多次,可能会更快收敛,但可能更不稳定;大的梯度更加稳定
- 泛化能力:较小的batch_size会有更好的泛化能力和优化效果
LR Warmup:开始使用小batch和学习率,预热阶段线性或者余弦增大学习率,过了预热阶段在减小
- 代码题
给定单调数列有正有负,要求输出平方之后的单调数列;
面试官人很好,开始实现了nlogn的时间复杂度,没想出来O(n);面试官带着做出来了 - 实习时间
- 反问
具体业务
进来工作:可以发论文和专利,有点心动
点评面试 - 对扩散模型的了解和看法?
- pytorch和tf的区别(没用过tf不会)
- 主要区别是计算图:pytorch是动态计算图不需要预定义,而tf是静态计算图在计算之前需要预先设定计算式子
- 用过BLIP吗(没有)介绍下BLIP :说了captioner和filter
二面(30分钟)
隔壁部门来面的,说还有一次面试,大无语,本来以为两次就结束了
- 自我介绍
- 项目挑重点说
- 你觉得大模型能够在你这个科研任务上应用吗?怎么应用?
- 了解GPT-4吗?
- 反问:业务、几次面试
无Code、无八股
三面
- 自我介绍
- 项目中最有挑战的事情?
- 如何解决这个挑战的?
- 自己在项目中的贡献?
- 跟组员和老师遇到分歧时怎么解决的?
- 实习时间
- 知不知道如何控制图片生成边框?不知道,跟我说ControlNet
- 知不知道SAM?不知道,有点心凉
- 反问:
- 进来之后的工作?
- 能不能做research发论文?你想做纯research?
OC
旷世
面试官人太好了55,最后给我说我运气好在池子里被他捞了;还说他们团队主要做科研
一面(1222)
- 自我介绍
- 项目介绍
问是否知道VQ-GAN
- 了解哪些多模态模型(说了blip)
面试官说现在基本不用BLIP用BLIP V2比较多;llama了解嘛?(不了解)
- 有做过数据清洗工作吗?(没有)
- 问研究兴趣:多模态相关的都OK
- 反问:
- 可以发论文嘛?(这边人不缺一作,贡献大可以一作或者共一)
- 研究领域:现在做多模态大模型在机器人上的运用,主要是文本视频,说图像做得差不多了
- 进来做哪方面工作?
- 可能有数据清洗工作(跟我说现在写forward循环那种代码都比较少,大模型架构大差不差,主要在数据集工作上)
- 编程题:两数相加(mid难度)
https://leetcode.cn/problems/add-two-numbers/description/(没有用最优方法,做了好多次while循环hhhh)
凉了,估计是算法题没写好,并且问的多模态很多答不上来
美团-到店 计算机视觉与多模态实习生
- 项目:被说没让他听懂,简历全程压力了,最后说让我可以做一页PPT来讲解
- 项目完了就是做题:
- 一道根据前序和中序遍历重建二叉树
- 一道利用梯度下降算法求解:
import numpy as np
def sigmoid(x):
return 1 / (1 + np.exp(-x))
def sigmoid_derivative(x):
return sigmoid(x) * (1 - sigmoid(x))
def gradient_descent_sigmoid(target, learning_rate=0.01, epochs=10000):
# 初始值
x = 0.0
for _ in range(epochs):
# 计算当前点的sigmoid值和导数值
current_sigmoid = sigmoid(x)
current_derivative = sigmoid_derivative(x)
# 计算误差
error = current_sigmoid - target
# 更新x值
x = x - learning_rate * error * current_derivative
return x
target_value = 0.4 # 设定目标值
result = gradient_descent_sigmoid(target_value) # 使用梯度下降算法求解
print("通过梯度下降算法求解 sigmoid(x) = 0.4 的 x 值为:", result, sigmoid(result))
- 反问:进来做什么?是否在训练行业大模型
字节懂车帝
一面(1227)
聊了得有一个半小时,面试官虽然迟到了5分钟,但是人真的好好
- 自我介绍
- 项目
- anchor based和anchor free的方法:
- anchor based方法,有预定义的anchor,会对这些候选区域进行分类和回归;eg.yolo,faster-rcnn
- 优点:使得召回率更高
- 缺点:需要设置很多超参数,产生了很多冗余的框NMS等后处理操作会降低整个检测算法的速度
- anchor free方法,分为两个子问题,即确定物体中心和对四条边框的预测
- 优点:不需要预设anchor,减小耗时和算力,可以避免anchor设置不合理带来的漏检和重复检测问题
- 缺点:每个位置之预测一个框,导致重叠或者遮挡区域无法被检测
- anchor based方法,有预定义的anchor,会对这些候选区域进行分类和回归;eg.yolo,faster-rcnn
- Centernet(Anchor Free)
- 首先有一个hourglass结构抽取特征,有FPN设计
- heatmap用来预测中心点,维度为CHW,C为类别数量,即每一个类别有一个特征图;heatmap由GT box投影过来取整确定中心点,并且采用高斯核方法计算一个下界半径R,对IOU大于0.7的物体box对应的中心点设置为高斯分布的柔和的数值;最后计算一个heatmap损失:Focal loss
- offset分支用来预测池化后的heatmap上的点映射到原图的像素误差:L1 Loss
- sizes计算长宽损失:L1 Loss
-
ChatGLM模型
- 编码器-解码器相结合的结构:编码器采用双向bert;有Pretrain、SFT
- chatgpt采用仅解码器的结构;有Pretrain、SFT、RLHF
-
Stable Diffusion = DDPM模型 + CLIP
stable diffusion训练用ddpm, 采样用ddim(从训练好的扩散模型中高效生成样本、利用重要性采样)
-
Transformer模型和CNN的区别
- CNN局部链接、权值共享,有归纳偏置;可以处理图像语音等信息,抽取特征
- Transformer没有归纳偏执,需要用位置编码;可以处理序列信息,建模能力比较强
-
DALLE2:DDIM
-
instructblip
- RQ:以往的指令微调主要是在LLM上进行,没有在视觉语言上进行过
- 跟BLIP2很像,就是在Q-fromer和LLM上加入了instruction的设计;指令调整模型接收一对输入和输出,描述引导模型的任务。例如,Instruction:写一个周末有趣的活动清单;Output:徒步旅行,去公园度过一天,野餐,看电影晚上;根据不同的instruction,我们可以得到基于instruction偏好更强的视觉特征
- 主要还是训练Q-FORMER,通过自注意力与Queries交互,通过交叉注意力与Image Embedding交互
- 两个训练任务:
- 视觉语言表征任务:不用LLM,冻住Image encoder,训练Q-former使得query能够结合文本(instruction)提取视觉信息:ITC\ITM\ITG(通过图像生成caption)
- 语言建模任务:冻住Image encode和LLM,训练Q-former完成语言建模
-
CLIP的温度系数的作用
- 如果温度系数设的越大,logits分布变得越平滑,那么对比损失会对所有的负样本一视同仁,导致模型学习没有轻重。
- 如果温度系数设的过小,则模型会越关注特别困难的负样本,但其实那些负样本很可能是潜在的正样本,这样会导致模型很难收敛或者泛化能力差。
- 温度系数的作用就是它控制了模型对负样本的区分度。
-
CLIP的文本端encoder是什么?
代码题:
最大子序列的和,感觉是暴力出来的。。。。
真得刷刷题了,每次代码环节都尴尬的要死
反问:
- 表现:说基础比较好,但是工业界了解比较少
- 几轮面试?他不知道
- 业务进来做什么?介绍了业务部门,说我应该会去做多模态的内容,结合多模态大模型做一些内容理解和生成。
约二面
二面(1229)
- VAE和VQ-VAE的区别
- VAE公式推导了解吗
- KL散度的概念?
- 对比损失怎么计算的?
- 代码:IOU计算
- 代码:深度优先遍历,不用递归来做
反问:
7. 面试表现?总体都挺不错的,看你一面表现不错,理论上知识很不错,代码能力有待提升
8. 会做文生视频吗?不会
9. 提到文生图,具体在业务场景中是怎么去做?用预训练模型,训练Q-former进行微调
10. 有没有机会科研?支持
11. 实习生进来是做工程还是技术研发?看兴趣,应该是技术研发文章来源:https://www.toymoban.com/news/detail-843370.html
约三面文章来源地址https://www.toymoban.com/news/detail-843370.html
三面(0102)
- 百度那边的一个优势和劣势?
- 项目中遇到的一个困难?
- 最近的一个科研项目说一下
- 对于这个职位来说自己的优势和劣势
- 反问:
- 到岗时间?
- 目前的一个工作重心?2024年在AI上
- 实习生的一个日常?早上10点晚上10点,中午休息两个小时(12点到14:30)
- 实习生能多大程度的参与到研发上面去?第一个月会先熟悉业务,后面有机会参与到研发上去
- 实习生的一个期望?对工作能力上面的一个要求?看部门
到了这里,关于计算机视觉&多模态算法实习面试记录的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!