与声音计算研究相关的挑战赛——DCASE和L3DAS-Toy模板网

这篇具有很好参考价值的文章主要介绍了与声音计算研究相关的挑战赛——DCASE和L3DAS。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言：在本专栏的系列博文中，我将包含声学场景识别、声音事件检测、声源位置估计等利用机器学习或深度学习技术进行研究的、基于声音信号的相关工作成为“声音计算”。

本篇博文主要介绍与声音计算相关的两个近些年持续跟进的挑战赛：DCASE和L3DAS。

一、DCASE

声音携带着大量关于我们日常环境和发生在其中的物理事件的信息。我们可以感知我们所处的声音场景(繁忙的街道、办公室等)，并识别单个声源(路过的汽车、脚步声等)。研究自动提取、识别这些信息的信号处理方法具有广泛的应用场景，例如基于音频内容搜索多媒体，制造情境感知移动设备、机器人、汽车等，以及智能监测系统，利用声学信息识别环境中的活动。然而，要可靠地识别真实声景中的声音场景和单个声源，仍然需要大量的研究。在真实声景中，多个声音经常同时出现，并且极易受到环境的干扰。这些因素都导致了基于声音信号进行广泛的场景应用还存在诸多的难题。

DCASE: detection and classification of acoustic scenes and events

地址： DCASE

DCASE 为该领域内的权威挑战赛，包含多个子任务，包括声学场景分类（Acoustic Scene Classification）、异常声音检测（Anomalous Sound Detection）、声音事件检测与定位（Sound Event Localization and Detection）、带有弱标签的声音事件检测（ Sound Event Detection with Weak Labels ）、生物声学事件检测（Bioacoustic Event Detection）、音频字幕和基于语言的音频检索（Automated Audio Captioning and Language-Based Audio Retrieval）、拟音合成（Foley Sound Synthesis）——DCASE2023，该挑战赛每年的任务设置基本一致，而在数据集丰富度和难度上持续迭代。

dcase,机器学习与声音计算,音频,挑战赛,声音事件检测与定位

二、L3DAS

L3DAS23: Learning 3D Audio Sources for Audio-Visual Extended Reality

Signal Processing Grand Challenge at IEEE ICASSP 2023

地址：L3DAS - Learning 3D Audio Sources

该挑战赛依托于 IEEE ICASSP (声音计算领域内的旗舰会议，CCF-B，相对而言DCASE现没有依附任何会议，仅有小范围的一个workshop)，从2021年开始每年举办一次。

L3DAS项目旨在为开发用于3D音频分析的深度学习算法提供新的3D音频数据集和软件工具包。为此，该项目将专注于各种沉浸式音频任务，如声音事件检测和定位、声源分离、语音识别、语音增强、音频超分辨率、声学场景分类、声学回声消除和降噪等。使用3D录音麦克风收集的数据将通过Python开发的用户友好框架提供给音频研究社区。

该挑战赛氛围两个子任务：语音增强（Speech Enhancement）、声音事件检测与定位（3D Sound Event Localization and Detection）。

该项挑战赛第二个任务(SELD)与DCASE2022及以前的SELD任务有所不同，其面向的是声音事件的三维定位，即球坐标表示下的方向角-俯仰角-声源距离，而DCASE仅关注声源角度估计。但是，在最新一轮的挑战赛中(DCASE2023)，其子任务3（SELD）也提供了除角度外的距离信息，但是在评估模型表现时，暂时还是仅关注角度估计的表现。

dcase,机器学习与声音计算,音频,挑战赛,声音事件检测与定位