企业资讯-弈桔

ICME 2025 音频编码器能力挑战赛正式开启

发布时间：2025/02/06

返回列表

音频编码器是多模态大模型的重要组件，，，优秀的音频编码器在构建多模态系统中至关重要。。。。在此背景下，，小米集团、、、、萨里大学、、、弈桔共同主办了 IEEE International Conference on Multimedia & Expo (ICME) 2025 Audio Encoder Capability Challenge。。

IEEE ICME 2025 会议将于今年7月在法国南特举办，，，，聚焦人工智能驱动的多媒体技术，，涵盖图像与视频处理、、多媒体分析与生成、、、社交媒体分析等AI相关主题。。本挑战赛依托于会议平台，，旨在评估音频编码器在丰富的多样性任务中的表征能力。。。届时，，，，我们将在会议现场举办线下workshop，，，邀请优秀参赛队伍做技术报告。。。

挑战赛受 HEAR benchmark 启发，，，引入了多项增强，，，，包括多样化的任务集、、、、面向真实世界的应用、、、、微调和 zero-shot 评估相结合，，，，以及一个新的高效的开源评估系统。。。。参赛者需提交输入为波形、、、输出为连续嵌入向量的音频编码器，，，我们将采用带参数和无参数两种评估方法，，，，在语音、、、环境声音和音乐等多个任务上衡量编码器的性能。。。

挑战赛不限制模型尺寸和训练数据规模，，并且允许基于任何公开的预训练模型，，，，只需最终模型能够在 Google Colab 上推理、、、、训练数据中不包含指定测试集。。。

挑战赛介绍

1.1 数据集

和大多数挑战赛不同，，本挑战赛不仅重视模型设计和训练，，，，也同样重视数据的收集和利用。。。。主办方不规定具体的训练数据集。。

参赛者可以使用任何数据训练，，包括在网络上抓取的数据，，，，但要满足以下条件：

• 所有训练数据必须是可公开访问的

• 不得包含表 1 中的数据和基于表 1 数据的派生数据

基于预训练模型训练，，，，比如微调或蒸馏，，是允许的，，但要确保所基于的模型的训练数据不包含表 1 数据。。

表1：测试数据集

表中的“Hidden”列表示该数据集对参赛者隐藏。。。主办方可能只选择表 1 中的一部分作为评估数据集。。

1.2 赛道设置

我们设置了两个赛道，，，，从不同视角评估预训练音频编码器的性能。。赛道 A 关注预训练模型在特定任务上的适配性与有效性，，，，而赛道 B 则评估音频表征的内在能力，，，不做任何微调，，，评价嵌入表征的内在能力。。。参赛者无需选择赛道。。所有提交作品将同时接受两个赛道的评估。。。

赛道 A：基于任务数据的线性微调

使用参赛者提供的编码器，，，通过预定义的超参数外接一个任务相关的线性层。。。。该方法评估模型通过一个额外的线性层适配到特定任务的能力，，同时不改变原始模型的参数。。。。

赛道 B：无参数评估

直接进行 K 近邻分类（K-NN），，，，不做训练。。。虽然这种方法在实际应用中可能无法达到最佳性能，，但它提供了对声音表征内在能力测试。。。。

1.3 基线

我们提供了四个公开的音频编码器的测试结果作为基线，，供参赛者参考。。参赛者允许利用任何已有的预训练模型辅助开发自己的模型，，，包括这些基线模型，，，只要该模型的训练数据不在表 1 内。。。。

表2：赛道 A 基线

Weighted Average 是按照测试集尺寸对分数做的加权平均。。

表3：赛道 B 基线

报名参赛

2.1 时间节点

2025 年 2 月 7 日：挑战赛启动

2025 年 4 月 1 日：报名截止

2025 年 4 月 30 日：提交截止

2025 年 5 月 27 日：结果公布

2025 年 7 月初：workshop 展示

2.2 如何报名

2025 年 4 月 1 日前，，，登陆报名（网络环境需能访问 Google）https://forms.gle/VGgRQdPLs9f72UM8A

注意：并不需要等到 4 月 1 日才开始参赛，，现在就可以开始训练你的声音编码器。。。。

2.3 提交方式

从 GitHub 仓库克隆音频编码器模板代码。。。

https://github.com/jimbozhang/xares-template

按照仓库中README.md的说明实现自己的音频编码器。。并按照说明，，，，通过仓库中提供的audio_encoder_checker.py的检查。。。。

在 2025 年 4 月 30 日提交截止日期之前，，，，将以下文件通过邮件发送至 2025icme-aecc@dataoceanai.com：

￮包含完整代码仓库的 ZIP 文件

￮一份不超过 6 页的技术报告（PDF格式）

预训练模型的权重既可以包含在 ZIP 文件中，，也可以在运行时从外部来源（例如 Hugging Face）自动下载。。。如果选择后者，，，，请在编码器实现中加入自动下载的机制。。。。尽管对模型大小没有限制，，，，但提交的模型必须能够在 Google Colab T4 环境中成功运行推理，，，该运行环境配备了 16 GB NVIDIA Tesla T4 GPU。。。

更多详情

有关挑战赛的详细说明，，请参阅挑战赛网站和 ICME 2025 Audio Encoder Capability Challenge 论文

￮挑战赛网站：https://dataoceanai.github.io/ICME2025-Audio-Encoder-Challenge/

￮论文网址：https://arxiv.org/abs/2501.15302

挑战赛相关问题，，，，请发送邮件至 2025icme-aecc@dataoceanai.com 进行咨询，，，，也可直接联系挑战赛组织者

￮小米集团：张俊博（zhangjunbo1@xiaomi.com）

￮萨里大学：王文武（w.wang@surrey.ac.uk）

￮弈桔：Helen Wang（wangxiaoman@dataoceanai.com）

上一篇：弈桔受邀参加中国移动产投协同彩虹桥活动（杭州场）下一篇：湖南日报：AI普惠时代已来看长沙数据标注产业如何奔涌在春天里