音视频技术开发周刊 | 273

这篇具有很好参考价值的文章主要介绍了音视频技术开发周刊 | 273。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。


音视频技术开发周刊 | 273

「紧急通知」LiveVideoStackCon 2022 音视频技术大会北京站改期
各位LVSer们:
因疫情影响,北京近期不再允许举办大型线下活动,我们无奈且抱歉的通知大家LiveVideoStackCon 2022音视频技术大会北京站大会将暂停举办,延期至2023年第一季度召开,具体时间待疫情稳定允许后再另行通知。我们感谢所有为此次大会付出时间和努力的伙伴们,相见是肯定的,非常情况下,好事更多磨吧!因此给大家带来的不便,我们深表歉意。

LiveVideoStack会务组

2022年11月24日

音视频技术开发周刊 | 273

流媒体服务新手入门教程01--什么是流媒体服务及m7s介绍
流媒体是指采用流式传输的方式传播多媒体文件。比如现在常见的直播应用抖音、快手以及视频网站,它们的背后都是流媒体服务支撑着。
https://juejin.cn/post/6988659336457240590

一看就懂的 OpenGL 基础概念(3):各种 O 之 VBO、EBO、VAO丨音视频基础
在前面的文章里,我们介绍了 OpenGL 在图形渲染应用中的角色,OpenGL 的渲染架构、状态机、渲染管线,以及 OpenGL 要在设备上实现渲染的桥梁 EDL 等内容,接下来我们来介绍一下在 OpenGL 开发中帮助我们提升渲染性能的几种数据对象。

一种自适应边缘增强的颜色插值处理器的VLSI实现
这篇文章介绍了一种面向实时视频应用的、基于自适应边缘增强的去马赛克模块的VLSI实现,在保持低复杂度的同时,提高了图像质量。

使用 OpenCV 和 Python 在直播中模糊人脸
本文将学习如何使用 OpenCV 和 Python 在直播中模糊人脸。这将是一个非常有趣的博客,让我们开始吧!

FFmpeg filter浅析--下篇
在之前的两篇文章中,我们熟悉了FFmpeg filter的基本概念,命令行用法和关键结构体、API使用流程,本篇文章我们在之前的Demo演示工程中通过调用libavfilter相关API来实现drawgrid filter效果。

音视频开发之旅(39)- 高斯模糊实现与优化
我们在平时开发中模糊是非常常用的技能,在android中有java的开源方案,也有RenderScript方案,今天我们来学习实践通过OpenGL如何实现高斯模糊。

音视频技术开发周刊 | 273

语音前处理技术在会议场景中的应用及挑战
随着在线会议的普及,用户已经不再满足于能听到,而是要有更为极致的听感体验,如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。

INTERSPEECH 2022|FS-CANet: 基于全带子带交叉注意力机制的语音增强
本文提出了一个全带-子带交叉注意模块来交互融合全局信息和局部信息,并将其应用于FullSubNet,提出了新的语音增强方法FS-CANet。通过FS-CANet,我们在全带-子带语音增强模型内有效交互融合全带与子带信息,在降低参数量的情况下进一步提升了原有语音增强模型在复杂声学环境下的降噪性能。

流式语音识别的大厦已经落成,天空中只漂浮着两朵乌云
在本文中,我们发现了解决尖峰漂移还有一种新的视角:那就是“ 数据 ”。深度学习的奥秘,绝大部分隐藏在数据中,我们深信:模型的潜能上限不在于模型结构/训练技巧,而在于数据。

苹果AirPods Max新专利 | 用于隐私的骨传导换能器
近日,美国专利和商标局正式授予苹果一项专利,该专利与保护隐私的骨传导换能器有关。更具体地说,该专利涵盖了一种在苹果AirPods Max等无线头戴式耳机上执行的方法。

Dirac Virtuo音频解决方案概览
Dirac Virtuo通过精确的声音定位,打造一个宽敞、自然的声景,超越用户音响系统的物理限制,以实现具有空间感的沉浸式声音体验。

音视频技术开发周刊 | 273


被“白嫖”拖垮的开源维护者,缺的从来就不只是钱......
在开源领域,有一个存在很久但始终难以解决的问题——开源维护者全力维护开源项目,却没有稳定资金来源,而“用爱发电”注定难以为继,各种开源项目开始 Bug 频出。对此,很多人呼吁要对开源维护者提供资助,但这真的能彻底解决问题吗?

BEV常见的开源算法系列一 | BEV空间的生成
本篇将从BEV空间的生成算法开始,介绍BEV算法的发展历史,并且重点介绍基于Transformer的BEV空间生成算法。这些算法开创性地使用Transformer更高效,更精确地生成BEV空间。

声纹识别开源工具 ASV-Subtools
今天我分享的主要有5个部分的内容,分别是背景介绍、工具介绍、实验结果、Subtools工程化、总结与展望。其中Subtools工程化是我这次报告的一个重点。

这个懂中文的 AI 高手,画出的高山明月太惊艳!中英双语 AltDiffusion 模型已开源
日前,智源研究院大模型研究团队开源最新双语 AltDiffusion 模型,为中文世界带来专业级 AI 文图创作的强劲动力。AltDiffusion 和 AltCLIP 模型均为多语言模型,中英双语为第一阶段工作,代码与模型已开源。

开源大盘点 | 各国车牌识别开源数据集汇总
本文整理了11个车牌检测识别相关的开源数据集资源,一起来看看吧。

音视频技术开发周刊 | 273

CVPR 2022 | CLIP-NeRF: 文字-图像驱动的 NeRF 操作
本文提出了 CLIP-NeRF,一种用于神经辐射场的多模态 3D 对象操作方法。通过利用最近的对比语言-图像预训练 (CLIP) 模型的联合语言-图像嵌入空间提出了一个统一的框架,允许使用短文本提示或示例图像以用户友好的方式操作 NeRF。

数字图像处理:边缘检测
在之前的文章中,我介绍了傅里叶变换,这次我将介绍另一种图像处理方法,边缘检测。在openCV中,有很多函数可以让我们找到图像的边缘,在这篇文章中,我将挑选出比较有代表性的Sobal算子和Laplacian算子进行介绍。

12个常用的图像数据增强技术总结
本文总结了图像增强常用的一些方法,并附相关实现代码。图像本身的变化将有助于模型对未见数据的泛化,从而不会对数据进行过拟合。

深度学习在图像处理中的应用一览
计算机视觉的底层,图像处理,根本上讲是基于一定假设条件下的信号重建。这个重建不是3-D结构重建,是指恢复信号的原始信息,比如去噪声。

淘宝拍立淘iOS相册架构设计小结
这篇文章从系统权限、API 调用、架构设计等角度,生动演示了一个设计友好、模块独立、易拓展以及用户体验优秀的相册是如何开发出来的。除此之外,作者针对各种小细节也做了优化和解析,使得功能实现更加的丰满。


音视频技术开发周刊 | 273

【RTSCon 2022】实时通信与价值赋能
初雪将至,万众期待的一年一度RTSCon再次来袭,本次RTSCon 2022由RTS社区和LiveVideoStack社区联合出品。本次大会主题围绕“实时通信与价值赋能”开展,届时我们为大家准备了业内大咖主题演讲以及圆桌会议两个模块,欢迎报名参会收看。

⏰ 时间:2022年12月3日 9:00-19:00
🌏 地点:线上免费直播


音视频技术开发周刊 | 273

入门必读系列(七)Batch Size对神经网络训练的影响
这篇文章非常全面细致地介绍了Batch Size的相关问题。结合一些理论知识,通过大量实验,文章探讨了Batch Size的大小对模型性能的影响、如何影响以及如何缩小影响等有关内容。

差分卷积在计算机视觉中的应用
文章主要介绍由Oulu大学主导的几个差分卷积(Difference Convolution)工作及其在图像、视频领域中的应用。

首个目标检测扩散模型,比Faster R-CNN、DETR好,从随机框中直接检测
近日,来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDet,将扩散模型应用于目标检测。据了解,还没有研究可以成功地将扩散模型应用于目标检测,可以说这是第一个采用扩散模型进行目标检测的工作。

三维点云深度学习技术综述
点云学习因其在计算机视觉、自动驾驶、机器人等领域的广泛应用而受到越来越多的关注。本文是对<Deep Learning for 3D Point Clouds:A Survey>的解读,欢迎大家一起进行技术交流。

NeurIPS 2022 | 姿态估计也开始玩最优传输分配了
NeurIPS 2022 的一篇工作,思想很简单,也非常契合我一直以来关于 Pose 和 Detection 大一统的思路,在此做一下简单的记录与分享。

音视频技术开发周刊 | 273

像背单词一样搞定机器学习关键概念!机器学习通关(5)
“如何高效学习机器学习关键概念?”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念,并彩笔手绘,制作了这份精美的小抄。

像背单词一样搞定机器学习关键概念!机器学习通关(6)
“如何高效学习机器学习关键概念?”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念,并彩笔手绘,制作了这份精美的小抄。

机器学习特征选择方法总结
在本文中,我将介绍如何使用 python 减少 kaggle Mushroom Classification 数据集中的特性数量。本文中使用的所有代码在 kaggle 和我的 github 帐号上都有。

不拽术语,如何通俗地讲解机器学习?
我决定写一篇酝酿已久的文章,对那些想了解机器学习的人做一个简单的介绍。不涉及高级原理,只用简单的语言来谈现实世界的问题和实际的解决方案。不管你是一名程序员还是管理者,都能看懂。那我们开始吧!

万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
最近,来自南京大学、澳大利亚国立大学、中山大学、帝国理工学院和腾讯的研究者们全面回顾并总结了基于深度学习的人脸复原技术的研究进展,对人脸复原方法进行了分类,讨论了网络架构、损失函数和基准数据集,并对现有SOTA方法进行了系统性性能评测。

用PS的照片申请理赔,保险公司能过吗?——基于人工智能的影像管理在智能理赔中的实践
如何做好影像资料的自动识别、真假判定等成为保险公司降本增效、风险防范的重要课题。本文就保险行业的影像资料技术和应用给出探讨。

音视频技术开发周刊 | 273

最全自动驾驶数据集分享系列六 | 定位与地图数据集
目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列六:定位与地图数据集,共包括7个数据集。

五万字读懂汽车线控制动系统(BBW)
介绍线控制动是怎么回事,分析线控制动技术类型、结构和优缺点及研究现状,阐述其功能特点和工作原理。简述在当前新形势下线控制动系统面临的主要需求和未来发展趋势。

实现自动驾驶的车路协同规划决策障碍和挑战是什么?
要想解释清楚这个问题,必须要先对车辆协同自动驾驶的技术架构有基本统一的认识。概括起来讲就是车-路-云-图-网四个方面发挥的作用拆解,四者之间的联系还要考虑信息的传输,也就是网端。

全景环视系统:自动泊车之AVM算法框架
作者在工作中搭建了一套AVM算法框架,有一些效果还不错的demo。撰写本文,主要是想将AVM算法框架中每个算子讲述清楚,与大家共同进步。本博文的风格为理论与实践结合,含有部分代码,适合有一些计算机视觉基础的同学。

BEV和单目图像车道线检测方法总结
本文主要对主流的车道线检测(包括BEV视角和图像视角)方法进行总结。由于基于深度学习的方法性能远超传统方法,所以本文只总结了基于学习的方法。

4D毫米波成像雷达在智能汽车中的应用研究
新一代4D毫米波成像雷达不仅可实现4D点云输出,还可以使用神经网络技术,根据呈现的点云图像信息,对道路的使用者和障碍物进行目标检测及分类。

音视频技术开发周刊 | 273

VR负面影响专题(下)
抑制沉浸式内容传播的一个主要原因是 VR 体验引起的不适感。在 VR 体验中,会引发一种与虚拟场景的视觉运动相对应的自我运动感觉。在本文中,运动由 360° 视频视觉诱导,并用 GVS 设备刺激前庭。

高通发布第一代骁龙AR2平台,旨在变革AR眼镜
2022骁龙峰会期间,高通技术公司推出第一代骁龙AR2平台,该平台提供开创性AR技术,将助力打造新一代功能强大的轻薄AR智能眼镜。

啥是AR?啥是VR?如果西游路上有AR,结局会……
混知公众号以漫画的形式普及AR、VR知识,十分生动有趣。

元宇宙的前世今生,业内大佬带你一遍过!
本篇文章讲述了元宇宙从业者从(1)元宇宙是什么(2)元宇宙需要的要素以及(3)元宇宙如何步入主流社会的观点,带你清晰地认识元宇宙的当下存在的问题以及未来发展的趋势。


阅读推荐

程序员上手 Rust 2年后感悟:它的确强大,但想要取代C还远着呢
接触 Rust 开发快两年了。我觉得,回顾下自己在这个过程中的一些感想和汲取的经验教训,应该会很有趣。

“我让 AI 来处理我 24 小时的音频信息——这会是未来吗?”
当 AI 逐渐融入我们的生活,你是否设想过,我们的未来会如何发展?会像许多科幻电影和赛博朋克类小说中说的那样,让 AI 管理和安排我们的日常?

2022年,中国汽车行业“打脸”报告
距离2023年已经不到50天了,对于一贯喜欢立flag的车企来说,也到了该交作业的时候。事实上,2022年可能是过去十年中黑天鹅最多的一年。所以对于车企来说,今年完不成KPI是常态,完成才是意外。

自动驾驶十年风云:寒冬过后,曙光初现
完全无人驾驶何时商业落地虽然没有统一共识,但路径中形成的技术能力正进入大规模商业应用的前夜,诱因则是中国智能电动汽车销量激增带来的高阶辅助驾驶商用需求。对于怀揣自动驾驶梦想的创业者们来说,曙光已经出现。


课程推荐

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

  1. 紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合

  2. 熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础

  3. 课程包含图文、代码、视频,降低学习门槛

  4. 李超精准讲解,及时详细解答

识别上图二维码点击上图立即订阅文章来源地址https://www.toymoban.com/news/detail-421108.html

到了这里,关于音视频技术开发周刊 | 273的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 音视频技术开发周刊 | 297

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 Geenee AR为品牌商和零售商提供虚拟试穿应用 这意味着Geenee AR的虚拟试穿解决方案能够与品牌商现有的销售渠道无缝集成。 谁说苹果掉队了?WWDC上只字未提AI,却已低调入场大模型 尽管苹果没有在

    2024年02月08日
    浏览(51)
  • 音视频技术开发周刊 | 298

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 AI艺术在北京798,展望人工智能与环境的未来 本文很有意思的提出了个假设,通过人工智能和艺术家协作与实践产生环绕地球的叙事,去开启置身于AI时代与生态之中的想象。在这种协作中,如何重

    2024年02月09日
    浏览(50)
  • 音视频技术开发周刊 | 284

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 Google联合多加巨头推出ML基础设施:OpenXLA 阿里巴巴,AWS,AMD,Apple,Arm,NVIDIA都在其中。 https://opensource.googleblog.com/2023/03/openxla-is-ready-to-accelerate-and-simplify-ml-development.html 万字长文,探讨关于ChatGP

    2023年04月09日
    浏览(69)
  • 音视频技术开发周刊 | 306

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 人工智能研究人员声称,通过Zoom音频检测击键的准确率为93% 通过记录按键并训练深度学习模型,三位研究人员声称,基于单个按键的声音特征,他们在解释远程按键方面的准确率达到了90%以上。

    2024年02月12日
    浏览(60)
  • 音视频技术开发周刊 | 302

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 ChatGPT神器Code Interpreter终于开放,到底怎么用?这里有一份保姆级教程 Code Interpreter 已经正式开放。 上海世界AI大会:MidJourney名字的来源是庄子? MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发

    2024年02月16日
    浏览(43)
  • 音视频技术开发周刊 | 317

    每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 MIT惊人再证大语言模型是世界模型!LLM能分清真理和谎言,还能被人类洗脑 MIT等学者的「世界模型」第二弹来了!这次,他们证明了LLM能够分清真话和假话,而通过「脑神经手术」,人类甚至还能

    2024年02月07日
    浏览(50)
  • 玩赚音视频开发高阶技术——FFmpeg

    随着移动互联网的普及,人们对音视频内容的需求也不断增加。无论是社交媒体平台、电商平台还是在线教育,都离不开音视频的应用。这就为音视频开发人员提供了广阔的就业机会。根据这些年来网站上的音视频开发招聘需求来看,音视频开发人员的需求量大,且薪资待遇

    2024年02月13日
    浏览(66)
  • 5G时代音视频开发前景怎么样?音视频开发需要掌握哪些技术?(1),手把手教你5G时代Webview的正确使用姿势

    你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你

    2024年04月11日
    浏览(59)
  • 抖音视频批量智能剪辑/智能一键成片功能如何技术开发源头?

     抖音seo,视频剪辑,批量发布,账号矩阵管理,无人直播自动询盘锁定客户,想实现以上功能都要有正规的接口权限,这个权限接口已经在前面文章发过。 智能剪辑:咱们研发公司自主研发的,包括算法,算法是阶乘算法,无限产出,六大剪辑模式已经满足当下需求了,当

    2024年02月09日
    浏览(48)
  • 【音视频SDK测评】线上K歌软件开发技术选型

    在线K歌软件的开发有许多技术难点,需考虑到音频录制和处理、实时音频传输和同步、音频压缩和解压缩、设备兼容性问题等技术难点外,此外,开发者还应关注音乐版权问题,确保开发的应用合规合法。 前面写了几期关于 直播 SDK 技术选型 的文章,主要是从RTC实时音视频

    2024年02月14日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包