计算机视觉&多模态算法实习面试记录

这篇具有很好参考价值的文章主要介绍了计算机视觉&多模态算法实习面试记录。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

百度(已OC)

一面(12.20)

  1. 自我介绍:第一次面有点瓢嘴

  2. 介绍科研项目

    • 如何使用的CLIP
    • Open-vocab和zero-shot
  3. 介绍比赛项目——多模态行车数据视频

    • 介绍任务是什么
    • 自定义数据集?
    • Yolo v8
  4. 介绍CLIP:

    • 对比学习训练:一个batch的N张图片和文本进行对比;首先分别进行编码->再投影到相同特征维度->计算相似度;对角线为标签,计算交叉熵损失
    • 多模态实习,计算机视觉,算法,人工智能
  5. 如何判断和缓解过拟合?
    原因:数据样本单一,数量不足;训练数据噪声大;模型过于复杂
    防止:

    • 数据增强
    • L1、L2正则化,对模型参数作罚
    • dropout
    • 提前终止训练
    • 采用合适模型:降低模型复杂度、降低特征数量
  6. BN是什么?BN层的作用?(对样本同一通道不同batch计算均值和方差进行归一化)

    • 加快收敛
    • 防止过拟合,防止朝着一个方向学习,会学到每个batch的特征
    • 防止梯度爆炸和梯度消失
  7. batch_size对模型训练有什么影响?应该如何设置?(答的跑到GPU内存上限)

    • 训练速度
    • 模型性能:较小batch_size迭代更多次,可能会更快收敛,但可能更不稳定;大的梯度更加稳定
    • 泛化能力:较小的batch_size会有更好的泛化能力和优化效果

LR Warmup:开始使用小batch和学习率,预热阶段线性或者余弦增大学习率,过了预热阶段在减小

  1. 代码题
    给定单调数列有正有负,要求输出平方之后的单调数列;
    面试官人很好,开始实现了nlogn的时间复杂度,没想出来O(n);面试官带着做出来了
  2. 实习时间
  3. 反问
    具体业务
    进来工作:可以发论文和专利,有点心动
    点评面试
  4. 对扩散模型的了解和看法?
  5. pytorch和tf的区别(没用过tf不会)
    • 主要区别是计算图:pytorch是动态计算图不需要预定义,而tf是静态计算图在计算之前需要预先设定计算式子
  6. 用过BLIP吗(没有)介绍下BLIP :说了captioner和filter

二面(30分钟)

隔壁部门来面的,说还有一次面试,大无语,本来以为两次就结束了

  1. 自我介绍
  2. 项目挑重点说
  3. 你觉得大模型能够在你这个科研任务上应用吗?怎么应用?
  4. 了解GPT-4吗?
  5. 反问:业务、几次面试
    无Code、无八股

三面

  1. 自我介绍
  2. 项目中最有挑战的事情?
  3. 如何解决这个挑战的?
  4. 自己在项目中的贡献?
  5. 跟组员和老师遇到分歧时怎么解决的?
  6. 实习时间
  7. 知不知道如何控制图片生成边框?不知道,跟我说ControlNet
  8. 知不知道SAM?不知道,有点心凉
  9. 反问:
    • 进来之后的工作?
    • 能不能做research发论文?你想做纯research?

OC

旷世

面试官人太好了55,最后给我说我运气好在池子里被他捞了;还说他们团队主要做科研

一面(1222)

  1. 自我介绍
  2. 项目介绍

    问是否知道VQ-GAN

  3. 了解哪些多模态模型(说了blip)

    面试官说现在基本不用BLIP用BLIP V2比较多;llama了解嘛?(不了解)

  4. 有做过数据清洗工作吗?(没有)
  5. 问研究兴趣:多模态相关的都OK
  6. 反问:
    • 可以发论文嘛?(这边人不缺一作,贡献大可以一作或者共一)
    • 研究领域:现在做多模态大模型在机器人上的运用,主要是文本视频,说图像做得差不多了
    • 进来做哪方面工作?
      • 可能有数据清洗工作(跟我说现在写forward循环那种代码都比较少,大模型架构大差不差,主要在数据集工作上)
  7. 编程题:两数相加(mid难度)

https://leetcode.cn/problems/add-two-numbers/description/(没有用最优方法,做了好多次while循环hhhh)

凉了,估计是算法题没写好,并且问的多模态很多答不上来

美团-到店 计算机视觉与多模态实习生

  1. 项目:被说没让他听懂,简历全程压力了,最后说让我可以做一页PPT来讲解
  2. 项目完了就是做题:
    • 一道根据前序和中序遍历重建二叉树
    • 一道利用梯度下降算法求解:
      多模态实习,计算机视觉,算法,人工智能
import numpy as np
def sigmoid(x):
    return 1 / (1 + np.exp(-x))
def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))
def gradient_descent_sigmoid(target, learning_rate=0.01, epochs=10000):
    # 初始值
    x = 0.0

    for _ in range(epochs):
        # 计算当前点的sigmoid值和导数值
        current_sigmoid = sigmoid(x)
        current_derivative = sigmoid_derivative(x)

        # 计算误差
        error = current_sigmoid - target

        # 更新x值
        x = x - learning_rate * error * current_derivative

    return x

target_value = 0.4	# 设定目标值
result = gradient_descent_sigmoid(target_value)	# 使用梯度下降算法求解

print("通过梯度下降算法求解 sigmoid(x) = 0.4 的 x 值为:", result, sigmoid(result))
  1. 反问:进来做什么?是否在训练行业大模型

字节懂车帝

一面(1227)

聊了得有一个半小时,面试官虽然迟到了5分钟,但是人真的好好

  1. 自我介绍
  2. 项目
  3. anchor based和anchor free的方法:
    • anchor based方法,有预定义的anchor,会对这些候选区域进行分类和回归;eg.yolo,faster-rcnn
      • 优点:使得召回率更高
      • 缺点:需要设置很多超参数,产生了很多冗余的框NMS等后处理操作会降低整个检测算法的速度
    • anchor free方法,分为两个子问题,即确定物体中心和对四条边框的预测
      • 优点:不需要预设anchor,减小耗时和算力,可以避免anchor设置不合理带来的漏检和重复检测问题
      • 缺点:每个位置之预测一个框,导致重叠或者遮挡区域无法被检测
  4. Centernet(Anchor Free)
    多模态实习,计算机视觉,算法,人工智能
    • 首先有一个hourglass结构抽取特征,有FPN设计
  • heatmap用来预测中心点,维度为CHW,C为类别数量,即每一个类别有一个特征图;heatmap由GT box投影过来取整确定中心点,并且采用高斯核方法计算一个下界半径R,对IOU大于0.7的物体box对应的中心点设置为高斯分布的柔和的数值;最后计算一个heatmap损失:Focal loss
    • offset分支用来预测池化后的heatmap上的点映射到原图的像素误差:L1 Loss
    • sizes计算长宽损失:L1 Loss
  1. ChatGLM模型

    • 编码器-解码器相结合的结构:编码器采用双向bert;有Pretrain、SFT
    • chatgpt采用仅解码器的结构;有Pretrain、SFT、RLHF
  2. Stable Diffusion = DDPM模型 + CLIP

    stable diffusion训练用ddpm, 采样用ddim(从训练好的扩散模型中高效生成样本、利用重要性采样)

  3. Transformer模型和CNN的区别

    • CNN局部链接、权值共享,有归纳偏置;可以处理图像语音等信息,抽取特征
    • Transformer没有归纳偏执,需要用位置编码;可以处理序列信息,建模能力比较强
      多模态实习,计算机视觉,算法,人工智能
  4. DALLE2:DDIM

  5. instructblip

    • RQ:以往的指令微调主要是在LLM上进行,没有在视觉语言上进行过
    • 跟BLIP2很像,就是在Q-fromer和LLM上加入了instruction的设计;指令调整模型接收一对输入和输出,描述引导模型的任务。例如,Instruction:写一个周末有趣的活动清单;Output:徒步旅行,去公园度过一天,野餐,看电影晚上;根据不同的instruction,我们可以得到基于instruction偏好更强的视觉特征
    • 主要还是训练Q-FORMER,通过自注意力与Queries交互,通过交叉注意力与Image Embedding交互
    • 两个训练任务:
      • 视觉语言表征任务:不用LLM,冻住Image encoder,训练Q-former使得query能够结合文本(instruction)提取视觉信息:ITC\ITM\ITG(通过图像生成caption)
      • 语言建模任务:冻住Image encode和LLM,训练Q-former完成语言建模
        多模态实习,计算机视觉,算法,人工智能
  6. CLIP的温度系数的作用

    • 如果温度系数设的越大,logits分布变得越平滑,那么对比损失会对所有的负样本一视同仁,导致模型学习没有轻重。
    • 如果温度系数设的过小,则模型会越关注特别困难的负样本,但其实那些负样本很可能是潜在的正样本,这样会导致模型很难收敛或者泛化能力差。
    • 温度系数的作用就是它控制了模型对负样本的区分度。
  7. CLIP的文本端encoder是什么?
    代码题:
    最大子序列的和,感觉是暴力出来的。。。。

真得刷刷题了,每次代码环节都尴尬的要死

反问:

  1. 表现:说基础比较好,但是工业界了解比较少
  2. 几轮面试?他不知道
  3. 业务进来做什么?介绍了业务部门,说我应该会去做多模态的内容,结合多模态大模型做一些内容理解和生成。

约二面

二面(1229)

  1. VAE和VQ-VAE的区别
  2. VAE公式推导了解吗
  3. KL散度的概念?
  4. 对比损失怎么计算的?
  5. 代码:IOU计算
  6. 代码:深度优先遍历,不用递归来做

反问:
7. 面试表现?总体都挺不错的,看你一面表现不错,理论上知识很不错,代码能力有待提升
8. 会做文生视频吗?不会
9. 提到文生图,具体在业务场景中是怎么去做?用预训练模型,训练Q-former进行微调
10. 有没有机会科研?支持
11. 实习生进来是做工程还是技术研发?看兴趣,应该是技术研发

约三面文章来源地址https://www.toymoban.com/news/detail-843370.html

三面(0102)

  1. 百度那边的一个优势和劣势?
  2. 项目中遇到的一个困难?
  3. 最近的一个科研项目说一下
  4. 对于这个职位来说自己的优势和劣势
  5. 反问:
    • 到岗时间?
    • 目前的一个工作重心?2024年在AI上
    • 实习生的一个日常?早上10点晚上10点,中午休息两个小时(12点到14:30)
    • 实习生能多大程度的参与到研发上面去?第一个月会先熟悉业务,后面有机会参与到研发上去
    • 实习生的一个期望?对工作能力上面的一个要求?看部门

到了这里,关于计算机视觉&多模态算法实习面试记录的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • SLAM面试笔记(8) — 计算机视觉面试题

    目录 问题1:目标检测的算法分类 问题2:卷积神经网络的组成 问题3:输入层的作用 问题4:卷积层作用  问题5:卷积核类型 问题6:1×1卷积核作用 问题7:卷积核是否越大越好 问题8:棋盘效应及解决办法 问题9:如何减少卷积层参数 问题10:神经网络可视化工具 问题11:池

    2024年02月07日
    浏览(39)
  • 计算机视觉(北邮鲁鹏)学习记录

    基本题型: 题型:选择、填空、简答、分析 绝大多数内容参考自PPT 基本了解内容:每个过程都有些啥 图像表示 :二进制图像、灰度图像、彩色图像。( 将矩阵转为列向量 )3072维 分类模型 : 线性分类模型。是神经网络和支持向量机的基础。。 线性分类模型是一种线性映

    2024年02月03日
    浏览(50)
  • 【人工智能124种任务大集合】-集齐了自然语言处理(NLP),计算机视觉(CV),语音识别,多模态等任务

    大家好,我是微学AI,今天给大家介绍一下人工智能124种任务大集合,任务集合主要包括4大类:自然语言处理(NLP)、计算机视觉(CV)、语音识别、多模态任务。 我这里整理了124种应用场景任务大集合,每个任务目录如下: 句子嵌入(Sentence Embedding):将句子映射到固定维

    2024年02月13日
    浏览(76)
  • 图像处理与计算机视觉算法

    图像处理与计算机视觉算法是实现对图像和视频内容分析、理解和操作的一系列技术。这些算法可以分为多个类别,包括但不限于以下几个主要方面: 预处理 : 像素操作:灰度化、二值化、直方图均衡化等,用于改善图像的对比度和亮度分布。 去噪:高斯滤波、中值滤波、

    2024年02月22日
    浏览(53)
  • 计算机视觉--距离变换算法的实战应用

    前言: Hello大家好,我是Dream。 计算机视觉CV是人工智能一个非常重要的领域 。 在本次的距离变换任务中,我们将使用 D4距离度量方法 来对图像进行处理。通过这次实验,我们可以更好地理解距离度量在计算机视觉中的应用。希望大家对计算机视觉和图像处理有了更深入的

    2024年02月15日
    浏览(54)
  • 深入探究计算机视觉库OpenCV:开源视觉算法与应用详解

    计算机视觉作为人工智能领域的重要分支,为我们提供了丰富的工具和技术,帮助我们处理图像和视频数据。而OpenCV(Open Source Computer Vision Library)作为最受欢迎的开源计算机视觉库之一,为开发人员提供了丰富的功能和工具,用于处理图像和视频数据。本文将深入探讨Open

    2024年03月13日
    浏览(57)
  • 计算机视觉中各种归一化算法

    归一化算法是对激活函数的输入进行归一化 将feature map shape设为[N,C,H,W],其中N表示batch size,C表示通道数,H、W分别表示特征图的高度、宽度 在batch上,对N、H、W做归一化,保留通道C的维度。对较小的batch size效果不好,BN适用于固定深度的前向神经网络,如CNN,不适用于RNN;

    2024年04月16日
    浏览(56)
  • 计算机竞赛 - 基于机器视觉的图像拼接算法

    图像拼接在实际的应用场景很广,比如无人机航拍,遥感图像等等,图像拼接是进一步做图像理解基础步骤,拼接效果的好坏直接影响接下来的工作,所以一个好的图像拼接算法非常重要。 再举一个身边的例子吧,你用你的手机对某一场景拍照,但是你没有办法一次将所有你

    2024年02月13日
    浏览(73)
  • 【计算机视觉】目标检测 |滑动窗口算法、YOLO、RCNN系列算法

    首先通过前面对计算机视觉领域中的卷积神经网络进行了解和学习,我们知道,可以通过卷积神经网络对图像进行分类。 如果还想继续深入,会涉及到目标定位(object location)的问题。在图像分类的基础上(Image classification)的基础上,除了判断图像中的物体类别是什么,还需要给

    2024年02月20日
    浏览(53)
  • 【计算机视觉】图像处理算法(形态学滤波篇)

    来源:《OpenCV3编程入门》,怀念毛星云大佬🕯️ 说明: 本系列重点关注各种图像处理算法的原理、作用和对比 数学形态学的概念: 数学形态学(Mathematical morphology)是立在格论和拓扑学基础之上的图像分析学科,足数学形态学阁像处现的基本理论。其基本的运算包括:二值腐

    2024年03月10日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包