计算机视觉&多模态算法实习面试记录-Toy模板网

这篇具有很好参考价值的文章主要介绍了计算机视觉&多模态算法实习面试记录。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

百度(已OC)

一面（12.20）

自我介绍：第一次面有点瓢嘴
介绍科研项目
- 如何使用的CLIP
- Open-vocab和zero-shot
介绍比赛项目——多模态行车数据视频
- 介绍任务是什么
- 自定义数据集？
- Yolo v8
介绍CLIP：
- 对比学习训练：一个batch的N张图片和文本进行对比；首先分别进行编码->再投影到相同特征维度->计算相似度；对角线为标签，计算交叉熵损失
如何判断和缓解过拟合？
原因：数据样本单一，数量不足；训练数据噪声大；模型过于复杂
防止：
- 数据增强
- L1、L2正则化，对模型参数作罚
- dropout
- 提前终止训练
- 采用合适模型：降低模型复杂度、降低特征数量
BN是什么？BN层的作用？（对样本同一通道不同batch计算均值和方差进行归一化）
- 加快收敛
- 防止过拟合，防止朝着一个方向学习，会学到每个batch的特征
- 防止梯度爆炸和梯度消失
batch_size对模型训练有什么影响？应该如何设置？（答的跑到GPU内存上限）
- 训练速度
- 模型性能：较小batch_size迭代更多次，可能会更快收敛，但可能更不稳定；大的梯度更加稳定
- 泛化能力：较小的batch_size会有更好的泛化能力和优化效果

LR Warmup：开始使用小batch和学习率，预热阶段线性或者余弦增大学习率，过了预热阶段在减小

代码题
给定单调数列有正有负，要求输出平方之后的单调数列；
面试官人很好，开始实现了nlogn的时间复杂度，没想出来O(n)；面试官带着做出来了
实习时间
反问
具体业务
进来工作：可以发论文和专利，有点心动
点评面试
对扩散模型的了解和看法？
pytorch和tf的区别（没用过tf不会）
- 主要区别是计算图：pytorch是动态计算图不需要预定义，而tf是静态计算图在计算之前需要预先设定计算式子
用过BLIP吗（没有）介绍下BLIP ：说了captioner和filter

二面（30分钟）

隔壁部门来面的，说还有一次面试，大无语，本来以为两次就结束了

自我介绍
项目挑重点说
你觉得大模型能够在你这个科研任务上应用吗？怎么应用？
了解GPT-4吗？
反问：业务、几次面试
无Code、无八股

三面

自我介绍
项目中最有挑战的事情？
如何解决这个挑战的？
自己在项目中的贡献？
跟组员和老师遇到分歧时怎么解决的？
实习时间
知不知道如何控制图片生成边框？不知道，跟我说ControlNet
知不知道SAM？不知道，有点心凉
反问：
- 进来之后的工作？
- 能不能做research发论文？你想做纯research？

OC

旷世

面试官人太好了55，最后给我说我运气好在池子里被他捞了；还说他们团队主要做科研

一面(1222)

自我介绍
项目介绍

问是否知道VQ-GAN
了解哪些多模态模型（说了blip）

面试官说现在基本不用BLIP用BLIP V2比较多；llama了解嘛？（不了解）
有做过数据清洗工作吗？（没有）
问研究兴趣：多模态相关的都OK
反问：
- 可以发论文嘛？（这边人不缺一作，贡献大可以一作或者共一）
- 研究领域：现在做多模态大模型在机器人上的运用，主要是文本视频，说图像做得差不多了
- 进来做哪方面工作？
  - 可能有数据清洗工作（跟我说现在写forward循环那种代码都比较少，大模型架构大差不差，主要在数据集工作上）
编程题：两数相加（mid难度）

https://leetcode.cn/problems/add-two-numbers/description/（没有用最优方法，做了好多次while循环hhhh）

凉了，估计是算法题没写好，并且问的多模态很多答不上来

美团-到店计算机视觉与多模态实习生

项目：被说没让他听懂，简历全程压力了，最后说让我可以做一页PPT来讲解
项目完了就是做题：
- 一道根据前序和中序遍历重建二叉树
- 一道利用梯度下降算法求解：

import numpy as np
def sigmoid(x):
    return 1 / (1 + np.exp(-x))
def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))
def gradient_descent_sigmoid(target, learning_rate=0.01, epochs=10000):
    # 初始值
    x = 0.0

    for _ in range(epochs):
        # 计算当前点的sigmoid值和导数值
        current_sigmoid = sigmoid(x)
        current_derivative = sigmoid_derivative(x)

        # 计算误差
        error = current_sigmoid - target

        # 更新x值
        x = x - learning_rate * error * current_derivative

    return x

target_value = 0.4	# 设定目标值
result = gradient_descent_sigmoid(target_value)	# 使用梯度下降算法求解

print("通过梯度下降算法求解 sigmoid(x) = 0.4 的 x 值为:", result, sigmoid(result))

反问：进来做什么？是否在训练行业大模型

字节懂车帝

一面(1227)

聊了得有一个半小时，面试官虽然迟到了5分钟，但是人真的好好

自我介绍
项目
anchor based和anchor free的方法：
- anchor based方法，有预定义的anchor，会对这些候选区域进行分类和回归；eg.yolo,faster-rcnn
  - 优点：使得召回率更高
  - 缺点：需要设置很多超参数，产生了很多冗余的框NMS等后处理操作会降低整个检测算法的速度
- anchor free方法，分为两个子问题，即确定物体中心和对四条边框的预测
  - 优点：不需要预设anchor，减小耗时和算力，可以避免anchor设置不合理带来的漏检和重复检测问题
  - 缺点：每个位置之预测一个框，导致重叠或者遮挡区域无法被检测
Centernet(Anchor Free)
- 首先有一个hourglass结构抽取特征，有FPN设计

heatmap用来预测中心点，维度为CHW，C为类别数量，即每一个类别有一个特征图；heatmap由GT box投影过来取整确定中心点，并且采用高斯核方法计算一个下界半径R，对IOU大于0.7的物体box对应的中心点设置为高斯分布的柔和的数值；最后计算一个heatmap损失：Focal loss
- offset分支用来预测池化后的heatmap上的点映射到原图的像素误差：L1 Loss
- sizes计算长宽损失：L1 Loss

ChatGLM模型
- 编码器-解码器相结合的结构：编码器采用双向bert；有Pretrain、SFT
- chatgpt采用仅解码器的结构；有Pretrain、SFT、RLHF
Stable Diffusion = DDPM模型 + CLIP

stable diffusion训练用ddpm, 采样用ddim(从训练好的扩散模型中高效生成样本、利用重要性采样)
Transformer模型和CNN的区别
- CNN局部链接、权值共享，有归纳偏置；可以处理图像语音等信息，抽取特征
- Transformer没有归纳偏执，需要用位置编码；可以处理序列信息，建模能力比较强
DALLE2：DDIM
instructblip
- RQ：以往的指令微调主要是在LLM上进行，没有在视觉语言上进行过
- 跟BLIP2很像，就是在Q-fromer和LLM上加入了instruction的设计；指令调整模型接收一对输入和输出，描述引导模型的任务。例如，Instruction：写一个周末有趣的活动清单；Output：徒步旅行，去公园度过一天，野餐，看电影晚上；根据不同的instruction，我们可以得到基于instruction偏好更强的视觉特征
- 主要还是训练Q-FORMER，通过自注意力与Queries交互，通过交叉注意力与Image Embedding交互
- 两个训练任务：
  - 视觉语言表征任务：不用LLM，冻住Image encoder，训练Q-former使得query能够结合文本(instruction)提取视觉信息：ITC\ITM\ITG（通过图像生成caption）
  - 语言建模任务：冻住Image encode和LLM，训练Q-former完成语言建模
CLIP的温度系数的作用
- 如果温度系数设的越大，logits分布变得越平滑，那么对比损失会对所有的负样本一视同仁，导致模型学习没有轻重。
- 如果温度系数设的过小，则模型会越关注特别困难的负样本，但其实那些负样本很可能是潜在的正样本，这样会导致模型很难收敛或者泛化能力差。
- 温度系数的作用就是它控制了模型对负样本的区分度。
CLIP的文本端encoder是什么?
代码题：
最大子序列的和，感觉是暴力出来的。。。。

真得刷刷题了，每次代码环节都尴尬的要死

反问：

表现:说基础比较好，但是工业界了解比较少
几轮面试？他不知道
业务进来做什么？介绍了业务部门，说我应该会去做多模态的内容，结合多模态大模型做一些内容理解和生成。

约二面

二面（1229）

VAE和VQ-VAE的区别
VAE公式推导了解吗
KL散度的概念？
对比损失怎么计算的？
代码：IOU计算
代码：深度优先遍历，不用递归来做

反问：
7. 面试表现？总体都挺不错的，看你一面表现不错，理论上知识很不错，代码能力有待提升
8. 会做文生视频吗？不会
9. 提到文生图，具体在业务场景中是怎么去做？用预训练模型，训练Q-former进行微调
10. 有没有机会科研？支持
11. 实习生进来是做工程还是技术研发？看兴趣，应该是技术研发

约三面文章来源地址https://www.toymoban.com/news/detail-843370.html

三面（0102）

百度那边的一个优势和劣势？
项目中遇到的一个困难？
最近的一个科研项目说一下
对于这个职位来说自己的优势和劣势
反问：
- 到岗时间？
- 目前的一个工作重心？2024年在AI上
- 实习生的一个日常？早上10点晚上10点，中午休息两个小时（12点到14：30）
- 实习生能多大程度的参与到研发上面去？第一个月会先熟悉业务，后面有机会参与到研发上去
- 实习生的一个期望？对工作能力上面的一个要求？看部门