企业资讯-弈桔

由弈桔支持，，，全球多领域英语开源数据集发布

发布时间：2021/07/09

返回列表

日前，，，，由陈果果、、、、都家宇、、、、张卫强等发起的语音社区志愿者组织SpeechColab和清华语音与音频技术实验室，，，，联合语音社区的8个团队，，在语音界大神Daniel Povey, Sanjeev Khudanpur, Shinji Watanabe等的大力支持下（详见下图），，，，发布了全球多领域英语开源数据集—GigaSpeech,介绍该数据集的论文已被国际语音顶会InterSpeech2021接收。。。

GigaSpeech参与人员及团队，，，完整论文下载见下文

弈桔很荣幸参与了本次开源数据集的工作，，，为部分数据集提供了标注以及全部数据集的镜像下载支持，，，也为全球语音识别技术的探索贡献了自己的力量。。。。

语音识别的性能，，很大程度上取决于训练数据集的规模和覆盖性。。。现有的语音开源数据集适用领域狭窄，，缺少难度挑战，，准确率接近饱和。。。。学术界和工业界研究开始分道扬镳，，碎片化严重。。作为目前全球多领域英语开源数据集，，，，GigaSpeech致力于推动学术界和产业界的共同进步。。。

以下文章来源于THUsatlab ，，，，作者THUsatlab

概述

GigaSpeech是一个不断发展的、、、、多领域英语语音识别语料库。。。。它拥有10000小时的高质量标注音频，，，适用于有监督训练任务；以及33000小时的总音频，，适用于半监督和无监督训练任务。。。。

数据来源及质量控制

从发音风格和覆盖主题入手，，，GigaSpeech从有声读物、、、、播客和YouTube上收集了约33000小时的转录音频，，以及对应的人工转录文本、、、人工字幕等，，涵盖诵读和自发口语等一系列不同风格，，以及艺术、、、科学、、体育等多种主题。。。。

图1.png

在质量控制上，，，，GigaSpeech提供一种新的强制对齐和分段处理pipeline工具，，以创建适合ASR训练的句子段，，，并滤除低质量转录片段。。对于有监督训练任务，，，GigaSpeech提供了5个不同规模的子集。。。。在过滤验证环节，，较大训练子集的词错误率控制在4%以下；其它较小规模的子集的词错误率控制在0%。。。。

适用于有监督训练任务的数据子集详情

GigaSpeech提供了10小时、、、250小时、、1000小时、、2500小时和10000小时等5个不同规模的子集，，以适用于有监督训练任务。。详情如下表所示：

图2.png

使用申请入口

GigaSpeech数据集已开放，，欢迎大家使用。。。。

申请入口：

预印版论文地址（已被InterSpeech 2021接收）：

弈桔一直专注于为AI算法训练提供数据产品及解决方案，，，，近20年坚持不懈的研发投入以及在语言学领域的不断深耕，，实现了“以技术驱动数据生产”，，，，加速客户的AI产品在全球商业化落地进程。。。此外，，，，弈桔还积极投身于前沿技术的学术探索活动中，，，，坚持为学术研究提供各种形式的数据支持，，为人工智能在全球发展贡献自己的力量！！

上一篇：第四届“东方语种识别竞赛”圆满落幕下一篇：新年送礼，，，，快来领取优质免费数据吧！！