技术前沿|ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像
近日,,,, OpenAI 发布了名为 GPT-4V (ision) 的 ChatGPT 4 的多模态语音和图像升级版本。。OpenAI 公布了一份19页的GPT-4V (ision) 报告,,,,题目为「ChatGPT can now see, hear, and speak」并详细介绍了该模型的相关信息。。
此功使得 ChatGPT 不只是能够解析用户输入的文本,,,它还具备识别和理解语音、、、图像的功能。。其语音识别功能使 ChatGPT 具备了与Siri、、、、小爱同学相似的技能。。。此外,,,,ChatGPT 提供不同的语音选项供用户选择,,,,并能将语音音频转化为文本,,,,或将播客内容翻译成其他语言。。

GPT-4V (ision) 的开发完成于2022年,,,,并在2023年3月开始提供早期体验。。。GPT-4V的训练策略与GPT-4保持一致,,,,首先采用大量的文本和图像资料进行初步训练,,,,随后通过人类反馈的强化学习进行细化调整。。。9月底下,,,OpenAI正式官宣ChatGPT升级为多模态通用大模型。。
多模态 ChatGPT 的主要更新点包括:
• 图像分析:升级后的多模态 GPT3.5 和 GPT4 能够解读图片中的内容,,,并根据图像信息进行响应。。
• 语音处理:增加了语音交互功能。。。其语音识别采用OpenAI的Whisper模型。。。。对于语音合成功能,,,OpenAI采用新颖的“文本转语音模型”。。。。此功能发布后,,,,用户可以选择通过配置其应用程序设置进行语音交互来激活它。。。他们可以从五种不同的人工声音中进行选择,,,每种声音都有独特的名称,,,例如“Juniper”、、“Sky”。。OpenAI 强调,,,这些声音是与经验丰富的配音演员合作精心策划的。。
01 尝鲜多模态ChatGPT
下图是让ChatGPT描述图像的一个案例:

在ChatGPT APP上与ChatGPT进行对话,,,解释最近热火的超导问题:

下面是相关的实时转录字幕:

其英文语音理解和合成的能力非常流畅和准确。。此外,,,我还尝试用中文、、、、日语、、、、韩语与之交流,,发现大部分语种都能理解和合成,,,,小编此处实在比不过。。。。也只能让他自己介绍自己会的语种:

从他的回答可以看出,,,,他会很多语种,,,,但是对比普通常见的英文,,,汉语等大数据量的语种,,,其小语种的识别和合成准确率还是有差距,,,这也反应了一个事实:数据规模和质量决定 AI 模型的性能。。由于小语种数据短缺,,发音的特异性和语言标注较难等原因,,导致ChatGPT对于小语种的语音识别和合成并不是非常的准确。。。
02 如何优上更优
ChatGPT 已经非常优秀,,,但是针对上面的小语种情况,,,还是可以优化。。OpenAI官方宣布其ASR模型用的是Whisper,,Whisper的小语种识别范围广泛,,但是小语种ASR识别性能没有英语这类数据量多的常见语种好。。在特定小语种的使用场景下,,可以采用小语种的数据做域的自适应。。。
小语种识别ASR的 Domain Adaptation 是指将自动语音识别技术适应到小语种或特定领域的过程。。。小语种通常指的是那些相对于世界上主要语言(如英语、、、中文、、、、西班牙语等)使用人数较少的语言。。。。由于这些语言的数据资源有限,,,,直接训练高效的ASR模型会面临挑战。。。。
Domain Adaptation 在这里的目的是利用大量的已有资源(如大语种的预训练模型)来帮助小语种或特定领域的ASR性能提升。。。以下是一些常用的策略:
• 迁移学习:首先在大语种上预训练一个ASR模型,,然后使用小语种的数据进行微调。。。
• 多任务学习:同时训练模型处理多种语言的任务,,这样可以使模型从各种语言中学习到共同的特征。。
• 数据增强:通过技术手段如变速、、、变调、、、、添加噪声等方法增加小语种的训练数据量。。。。
• 模拟数据:使用文本到语音(TTS)技术为小语种生成模拟的语音数据。。。
• 自适应前端:设计能够适应不同语言特性的声学模型前端。。。。
• 多模型融合:结合多个模型的输出来提高识别准确性。。。
• 使用半监督学习:利用大量未标注的小语种数据与少量标注数据共同训练模型。。
无论采用上述哪种策略,,,都离不开少量但精确标注的小语种数据作为域内数据,,,,以适应预训练好的大型模型。。这强调了小语种数据的精确标注和采集的重要性。。。这些数据在语音识别领域具有无可替代的价值,,因为它们为模型提供了必要的“指导”,,,使其能够更好地理解和处理小语种。。
弈桔在语音识别领域已经拥有近20年的积累,,,覆盖全球超 200个主要语种及方言,,,,已积累近1500个自有知识产权的 AI 训练数据产品,,并每年持续投入研发并推出众多小语种数据。。。这些数据不仅能够为科研机构提供宝贵的资源,,,,也为工业界在大模型到小语种应用场景的迁移中提供了支持。。。
摩洛哥阿拉伯语识别语音库 King-ASR-908
该产品库通过单通道电话设备在较为安静的办公室/居住环境中录制了54人、、50小时的摩洛哥-阿拉伯语对话数据。。对话内容涉及明星、、、电脑及软硬件、、教育、、娱乐消遣、、家族、、、美食、、、交友、、、健康、、、、日常生活、、、婚姻恋爱、、电影、、、、音乐、、、新闻、、、宠物、、、时尚购物、、、、社交、、、运动健身、、、、旅游、、、电视节目、、、、天气和工作。。。整个数据库包含录音、、、、转写、、、发音词典、、、发音人信息等数据库相关文件。。。
波斯尼亚语识别语音库 King-ASR-823
该产品库通过单通道手机设备在较为安静的办公室/居住环境中录制了177人、、100小时的波斯尼亚语数据。。。。语料领域涉及新闻、、、、旅游、、经济、、、娱乐、、运动、、、科技、、、、对话和单词。。整个数据库包含录音、、、校对、、、、发音词典、、、、发音人信息等数据库相关文件。。。。
印地语识别语音库 King-ASR-817
该产品库通过单通道手机设备在较为安静的办公室环境中录制了721人、、、1225小时的印度印地语造句数据。。。。语料领域涉及通用口语、、、旅游购物、、、数字时间、、、医疗新冠、、、、教育学习、、人名地名、、政治外交、、、、科技数码、、、、体育娱乐和社会经济。。整个数据库包含录音、、、校对、、、发音词典、、、发音人信息等数据库相关文件。。
了解更多语音识别数据集:https://www.dataoceanai.com/dsvoice/catid-52.htm