音视频技术开发周刊 | 302

这篇具有很好参考价值的文章主要介绍了音视频技术开发周刊 | 302。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

音视频技术开发周刊 | 302

ChatGPT神器Code Interpreter终于开放,到底怎么用?这里有一份保姆级教程

Code Interpreter 已经正式开放。

上海世界AI大会:MidJourney名字的来源是庄子?

MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言,认为AI将成为创造和想象力的新的载体和引擎。通过AI,我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney,霍尔兹表明它来自于道教著作《庄周》中的中道概念,他认为中国古典文学带来了很多最美丽的,最深沉的思想。

音视频技术开发周刊 | 302

生成式AI时代的AI Infra—从DevOps->MLOps->LLMOps

这篇文章想要从AI Infra的角度出发,从更宏观的角度看Generative AI对AI Infra生态产生的变化,本文不局限于LLM,文中提到的LLM泛指一切Generative AI或者Foundation Models。

华为大模型登Nature正刊!比传统方法预测天气,快1万倍

盘古气象大模型或使人类得以重新审视气象预报模型的未来。

音视频技术开发周刊 | 302

CIS制造工艺回顾与展望

CMOS图像传感器由于能够集成到具有高图像质量的智能手机中,因而正经历着巨大的增长。图像传感器发展的主要贡献之一是其制造工艺的创新。这篇文章详细回顾了CMOS图像传感器的不同制造工艺及其对智能手机图像质量的影响。讨论了使用硅通孔和Cu-Cu混合键合等技术制造CMOS图像传感器及其实验结果。

卖一颗芯片亏 23 万,自动驾驶芯片创业有多难

国内车载芯片创业公司黑芝麻智能向港交所递交上市申请材料,计划在港股主板挂牌。黑芝麻智能是仅有的两家实现量产上车的国产大算力芯片公司之一,其量产节奏和出货量仅次于地平线。

音视频技术开发周刊 | 302

通过诱导和限制表示的等变单视角姿态预测

该研究探讨了计算机视觉中的一个基本问题,即如何从二维图像中学习关于三维世界的信息。研究人员提出了一种理想的神经网络架构,该架构利用物体在三维空间中的旋转和平移特性,对新的图像进行预测。然而,将SO(3)的等变性应用于二维输入是具有挑战性的。为了解决这个问题,研究人员引入了SO(2)-等变性约束,并利用SO(2)在SO(3)上诱导和限制的表示来构建满足几何一致性约束的架构。

https://arxiv.org/abs/2307.03704

香港科技大学提出视角不变的场景图循环检测方法:迈向场景感知的机器视觉

针对室内场景中的视觉SLAM,这篇论文提出了一种基于增量生成场景图的回环检测方法。它综合考虑宏观视图拓扑、微观视图拓扑和语义实例的占有率,找出正确的对应关系。使用手持RGB-D序列进行的实验表明,该方法能够准确地检测出变化剧烈的视点中的环路。它在观察具有相似拓扑和外观的对象时保持了高精度。

音视频技术开发周刊 | 302

从神经辐射场中移除物体

神经辐射场(NeRFs)是一种能够合成新视图的场景表示方法。现有的 NeRF 编辑框架很难实现这种指定物体的移除。本文提出一个框架,可以从 RGB-D 序列创建的 NeRF 表示中删除对象。NeRF inapinting 的方法利用了最近在 2D 图像 inpainting 方面的工作,并由用户提供的 mask 作为指导。该算法通过基于置信度的视图选择过程,选择使用哪些 inpainted 2D 图像来创建 NeRF,使生成的 NeRF 是 3D 一致的。本文所提出的NeRF编辑方法对以多视图一致的方式生成修复是有效的,并在一个全新的数据集上验证了所提出的方法。

图像压缩对视觉识别的鲁棒性分析

这篇文章的发现有助于在资源和带宽有限的情况下为用户部署视觉识别。在未来的工作中,希望探索在互联网规模的数据集上训练视觉识别模型时,本文的发现可以用于减少 I/O 绑定延迟。特别是,探索直接在潜在压缩图像表示上训练识别模型,而不是通过通常的 RGB 表示。

室内场景的凸分解(Convex Decomposition)

这篇文章关于三维图形的分割和重建。该研究描述了一种将复杂、杂乱的室内场景解析为简化的凸结构的方法。该团队使用简单的凸多边形作为基本元素来对场景结构进行抽象。利用学习到的回归过程,从RGBD输入中将场景解析为固定数量的凸多边形,并可选择使用分割信息来改善分解结果。

https://arxiv.org/abs/2307.04246

你不知道的分光测色仪结构

通过颜色的测量工具(统称为测色仪)可以轻松地得到被测物体在不同光源及各种条件下的色度数,甚至光谱曲线;有利于进行色彩的管理、控制及研发,方便不同厂家间的色彩交流和沟通;可以避免人为或环境因素造成的色彩判断偏差;无论室内室外,都可以做到更精准、客观地评判色彩。

音视频技术开发周刊 | 302

音视频工具--Onvif设备管理器

ONVIF 设备管理器 (ODM) 是一款免费的开源软件实用程序,旨在管理符合 ONVIF 标准的网络视频设备,例如 IP 摄像机、视频编码器和网络录像机 (NVR)。ONVIF 代表开放网络视频接口论坛,是基于 IP 的物理安全产品的全球标准化倡议,旨在促进不同制造商设备之间的互操作性。

直播道具高可用建设

根据2022年第四季度的财报数据显示,B站在跨年晚会期间的直播人气峰值达到了3.3亿。直播业务对于B站来说是一个重要的增长点,而道具投喂(赠送礼物,后面统称为道具投喂,礼物统称为道具)在直播业务中扮演着重要的角色。在这篇文章中,介绍了如何确保直播道具相关系统的高可用性,以实现99.99%的稳定性目标。文章将分为三个部分,分别是道具面板,道具投喂和多活。

音视频技术开发周刊 | 302

Meta最新开源图形库IGL,star近2k,支持游戏开发、3D建模

IGL 是一个可直接调用 GPU 的跨平台图形库,通过底层跨平台接口封装了常见的 GPU 功能。Meta 称 IGL 的特性包括:跨平台兼容、高性能渲染、易于使用的 API、可扩展、完全开源、可用于任何项目,并且没有任何许可限制。

音视频技术开发周刊 | 302

“Hey Siri”要成为历史了。

今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?

达摩院FunASR离线文件转写SDK发布,完成工业落地“最后一公里”

FunASR是由达摩院语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。

语音合成中的Lora,插件式speaker开发

语音合成中的Lora,插件式speaker开发,语音克隆的未来。

音视频技术开发周刊 | 302

苹果Vision Pro中文开发教程汇总

这篇文章介绍了将Unity VR应用带入完全沉浸式空间、开始构建空间计算应用等7个教程。

手持移动设备上凝视估计及其交互应用的全面综述

近年来,我们见证了越来越多的手持移动设备上采用凝视作为单一或辅助交互方式的互动系统。这一趋势是由这些设备的增强计算能力、更高分辨率和相机容量以及先进的机器学习技术(尤其是深度学习)所带来的凝视估计精度的提高驱动的。这篇文章旨在通过呈现一个端到端的综合视角来实现这一目标,从凝视捕捉传感器、凝视估计工作流程、深度学习技术到凝视交互应用的全面综述。

https://dl.acm.org/doi/10.1145/3606947

谷歌还能撑得起XR的野心吗?

苹果推出了有着划时代意义的Vision Pro,科技圈为此兴奋不已。Vision Pro公布数日后,谷歌CEO桑达尔·皮查伊(Sundar Pichai)在一次采访中还表达过对Vision Pro的看法:“我对这项技术的潜力感到兴奋。” 

但几周后却传来谷歌停止开发AR眼镜项目“Iris”的消息,回想近些年谷歌在AR方面的投入,令人唏嘘。

音视频技术开发周刊 | 302

EPIQ 2020 | SHVC based HTTP Adaptive Streaming over QUIC

这篇文章研究了QUIC和HTTP/2对ABR算法性能的影响。此外,提出了一种有效的方法,结合了传统的视频流传输方法(基于非可扩展视频编码格式)和一种重传技术,以利用可扩展视频编码格式进行自适应视频流传输。实验结果表明,在丢包和重传的情况下,QUIC从这种方法中获得了显著的好处。与HTTP/2相比,它提高了平均视频质量,并提供了更平滑的自适应行为。最后,本文证明了最初针对非可扩展视频编解码器设计的方法在可扩展视频(如可扩展高效视频编码,SHVC)上也能有效地工作。

音视频技术开发周刊 | 302

B站“横竖”都要

被短视频“冲击”一年后,中长视频能否如愿“逆天改命”?

音视频技术开发周刊 | 302

对话中科深智成维忠:数字人的关键是交互,交互的关键是大模型

成维忠一直相信,人是未来 3D 交互的重中之重,而这种与“人”的交互,则必须通过 AI 和大模型来完成。

音视频技术开发周刊 | 302

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题,除了探索音视频技术在不同场景下的融合与发展外,还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里,你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战,与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂,与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会,你将有机会亲自与他们面对面,从他们丰富的经验中获得宝贵的技术心得。

扫描图中二维码或点击“阅读原文 

查看更多LveVideoStackCon 2023上海站精彩话题文章来源地址https://www.toymoban.com/news/detail-575904.html

到了这里,关于音视频技术开发周刊 | 302的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 音视频技术开发周刊 | 284

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 Google联合多加巨头推出ML基础设施:OpenXLA 阿里巴巴,AWS,AMD,Apple,Arm,NVIDIA都在其中。 https://opensource.googleblog.com/2023/03/openxla-is-ready-to-accelerate-and-simplify-ml-development.html 万字长文,探讨关于ChatGP

    2023年04月09日
    浏览(68)
  • 音视频技术开发周刊 | 304

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了 Meta 终于发布了大家期待已久的免费可商用版本 Llama 2。 6000份问卷透露出AI时代的职业焦虑与机遇 |附报告下载 AI大模型的发展日新月异

    2024年02月14日
    浏览(57)
  • 音视频技术开发周刊 | 297

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 Geenee AR为品牌商和零售商提供虚拟试穿应用 这意味着Geenee AR的虚拟试穿解决方案能够与品牌商现有的销售渠道无缝集成。 谁说苹果掉队了?WWDC上只字未提AI,却已低调入场大模型 尽管苹果没有在

    2024年02月08日
    浏览(50)
  • 音视频技术开发周刊 | 298

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 AI艺术在北京798,展望人工智能与环境的未来 本文很有意思的提出了个假设,通过人工智能和艺术家协作与实践产生环绕地球的叙事,去开启置身于AI时代与生态之中的想象。在这种协作中,如何重

    2024年02月09日
    浏览(49)
  • 音视频技术开发周刊 | 305

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 大神回归学界:何恺明宣布加入 MIT 「作为一位 FAIR 研究科学家,我将于 2024 年加入麻省理工学院(MIT)电气工程与计算机科学系 EECS 担任教职。」 AI 领域的著名学者,ResNet 发明人何恺明,最近在

    2024年02月14日
    浏览(51)
  • 音视频技术开发周刊 | 317

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 MIT惊人再证大语言模型是世界模型!LLM能分清真理和谎言,还能被人类洗脑 MIT等学者的「世界模型」第二弹来了!这次,他们证明了LLM能够分清真话和假话,而通过「脑神经手术」,人类甚至还能

    2024年02月07日
    浏览(49)
  • 玩赚音视频开发高阶技术——FFmpeg

    随着移动互联网的普及,人们对音视频内容的需求也不断增加。无论是社交媒体平台、电商平台还是在线教育,都离不开音视频的应用。这就为音视频开发人员提供了广阔的就业机会。根据这些年来网站上的音视频开发招聘需求来看,音视频开发人员的需求量大,且薪资待遇

    2024年02月13日
    浏览(66)
  • 5G时代音视频开发前景怎么样?音视频开发需要掌握哪些技术?(1),手把手教你5G时代Webview的正确使用姿势

    你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你

    2024年04月11日
    浏览(59)
  • 抖音视频批量智能剪辑/智能一键成片功能如何技术开发源头?

     抖音seo,视频剪辑,批量发布,账号矩阵管理,无人直播自动询盘锁定客户,想实现以上功能都要有正规的接口权限,这个权限接口已经在前面文章发过。 智能剪辑:咱们研发公司自主研发的,包括算法,算法是阶乘算法,无限产出,六大剪辑模式已经满足当下需求了,当

    2024年02月09日
    浏览(48)
  • 【音视频SDK测评】线上K歌软件开发技术选型

    在线K歌软件的开发有许多技术难点,需考虑到音频录制和处理、实时音频传输和同步、音频压缩和解压缩、设备兼容性问题等技术难点外,此外,开发者还应关注音乐版权问题,确保开发的应用合规合法。 前面写了几期关于 直播 SDK 技术选型 的文章,主要是从RTC实时音视频

    2024年02月14日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包