企业资讯

    首页 关于我们

    企业资讯

    Interspeech 2026 第二届音频编码器能力挑战赛正式启动
    发布时间:2025/12/15
    返回列表

    国际语音顶级会议 Interspeech 2026 将于2026年9月在澳大利亚悉尼举行。。。。由小米、、萨里大学、、清华大学、、、、弈桔联合发起的第二届 Audio Encoder Capability Challenge(AECC)音频编码器能力挑战赛将同步亮相 Interspeech 2026,,目前已正式开放报名。。。。

    当前,,音频大语言模型(LALMs)发展迅速,,,,但大多数主流模型在音频前端编码器上选择非常单一,,,,几乎均基于 OpenAI Whisper Encoder。。。这种对单一技术的依赖不利于模型架构的多样化探索,,,也限制了 LALMs 整体能力的进一步提升。。。。为应对音频理解能力不断增长的需求,,,,本次挑战赛将聚焦于音频编码器这一核心模块,,,重点评估其在复杂真实场景下的理解与特征表示能力。。。。

     

    评测方法

    本次挑战赛采用统一的端到端训练和评估框架。。。参赛者只需提交预训练的编码器模型,,,,下游任务的训练和评估由主办方完成。。。主办方提供了开源的评估系统 XARES-LLM (https://github.com/xiaomi-research/xares-llm)。。。。该系统基于用户提供的音频编码器自动训练一个典型的 LALM。。。。该系统会自动下载训练数据,,训练模型,,,,然后测试各种下游任务,,,,并为每个任务提供分数,,,,如下图所示。。。

    参赛者并不需要自己运行 XARES-LLM,,,而只需把音频编码器按照一个简单的接口说明和示例封装,,,,通过邮件发送给主办方即可,,大模型的训练和评估由主办方完成。。当然,,,,由于 XARES-LLM 是开源的,,,且只需 GTX4090 即可完成训练和评估,,,,参赛者也可以自行使用该系统训练大模型、、、、评估待提交的编码器的性能,,,,并和主办方提供的基线系统比较。。。。

     

    训练数据

    和大多数比赛不同,,本挑战赛不仅重视模型设计和训练,,,,也同样重视数据的收集和利用。。主办方不规定具体的训练数据集。。参赛者使用的训练数据必须是公开可访问的,,,不得使用私有保密数据。。。参赛的模型既可以基于任何开源的预训练模型参数,,,,也可以从头训练。。

    同时,,弈桔公司为比赛提供了一个补充数据集,,,供参赛者免费使用。。该数据集从八个商用数据集(King-ASR-457、、、、King-ASR-958 等)提取构建而成。。其内容涵盖了丰富的日常环境噪声,,,具体包括书店、、、健身房、、地铁、、、餐厅等多种室内外场景的背景噪声,,,以及家庭环境下的不同距离背景噪声。。。。此外,,数据集还收录了水流、、、、脚步声、、、户外窗边等特定非语音干扰声,,以及地铁车厢在不同时段的运行噪声。。啸叫类数据则包含了通话、、、、游戏和直播场景下的纯净啸叫声。。车辆相关环境噪声也是其重要组成部分,,,如机械噪声、、、空调运行声和开窗风噪,,,,还有咖啡馆、、、医院、、、市场、、步行街等生活场景的实录环境声。。

    报名参赛者可以免费访问该数据集,,,细节详见 :

    https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/King_NonSpeech-Dataset_en_20h.html

     

    赛道设置

     

    大赛设置了两个赛道,,赛道 A 关注大模型处理传统分类任务、、、输出分类标签的能力,,,,赛道 B 关注大模型的理解和表达能力。。。。参赛者无需选择赛道。。。。所有提交作品将同时接受两个赛道的评估,,两个赛道独立排名。。

     

    报名和提交方法

    1. 2026.01.25 11:59 PM AoE 前填写报名链接:https://docs.google.com/forms/d/1oaTnhh0HVX8K2oRdHKXsnyZfBWb7F6Oj8xZ6yAiMI74/viewform?edit_requested=true

    2. 参考 https://github.com/xiaomi-research/xares-llm/tree/main/example 封装自己的编码器,,,,并通过 https://github.com/xiaomi-research/xares-llm/tree/main/scripts/audio_encoder_checker.py 工具的检查。。。。

    3. 在 2026.02.12 11:59 PM AoE 前,,,把编码器代码和模型文件打成 zip 包,,通过邮件发送给主办方。。。

    4. 在 2026.02.25 11:59 PM AoE 前,,,,把技术报告 PDF 文件邮件发送给主办方。。。。技术报告可以同时在 Interspeech 官方提交系统作为会议论文投稿。。。。

     

     

    联系方式

    主办方邮箱:2026interspeech-aecc@dataoceanai.com

    挑战赛官网:https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/

     

    分享到微信朋友圈

    打开微信,,,,点击底部的"发现"

    使用“扫一扫”即可将网页分享至朋友圈。。

    站点地图