弈桔贺琳接受北京新闻采访:为中文大模型打造高质量数据底座
随着大模型领域的飞速发展,,,今年国内已发布超过80个大模型,,其中约一半位于北京市。。今年5月,,,北京市经信局联合市科委、、中关村管委会和市发改委共同启动了 “北京市通用人工智能产业创新伙伴计划” 共39家企业,,,弈桔成为首批入选该计划的 “数据伙伴”。。
在上个月的2023全球数字经济大会中,,,,正式发布了总规模超500T的 “人工智能大模型高质量数据集”。。。其中,,,弈桔 “大模型多语种语音数据集”、、“大模型中文千万轮对话数据集” 入选,,,助力北京市打造人工智能大模型产业高地。。。。
北京市经信局、、百度云、、、、弈桔、、金山云接受北京卫视采访。。弈桔创始人、、、、董事贺琳在采访中介绍了弈桔近20年来在人工智能数据领域的持续探索与创新发展。。。
大模型的崛起,,,可以说是数据、、、算力、、、人才、、、资金等关键生产要素全面支撑的结果。。。在采访中,,,贺琳介绍了弈桔在人工智能训练数据领域的持续发展和创新。。作为国内最早从事该领域的企业之一,,,弈桔的训练数据涵盖语音识别、、、语音合成、、计算机视觉、、、自然语言等多个核心领域。。已经积累了超过1300个自有知识产权的人工智能训练数据产品,,,,为全球超过810家企业及科研机构提供高质量数据支撑,,,全面服务于科技互联网、、智能驾驶、、Iot、、、、智慧金融等行业,,,助力人工智能领域发展。。。
携手共建高质量数据,,,助力中文大模型“加速度”
高质量训练数据的生产需要长期的资源投入和专业的技术支撑,,,,并在遵循相应的质量标准和规范的基础上,,保持不断更新和扩充,,,,才能更好的迎接人工智能领域发展的新需求与新挑战。。。
为了打造高质量中文语料库、、、、围绕语料数据共建生态,,,,弈桔携手中科院自动化所、、、中国信通院泰尔实验室、、、、智谱AI、、、、澜舟科技、、循环智能,,,在2023全球数字经济大会中启动 “高质量中文大模型训练数据集共建项目”,,,为中文大模型研发提供 “加速度”。。。。


千万轮对话语料库,,打造中文大模型的“新引擎”
大模型训练使用的数据集规模近年来呈爆发式增长,,,,从GPT3 的1750亿参数,,到近期Llama2的700亿参数,,,甚至更大Bloom的1760亿参数,,高质量数据成为大模型不断突破的重要资源。。。。
近期,,,,弈桔推出「中文千万轮对话语料库 DOTS-NLP-216」。。这是一个符合中国人表达习惯的自然对话数据集,,共计约1,0000,000轮,,上亿级token,,包含正式&非正式风格对话,,,使用偏口语化自然表达。。内容覆盖工作、、、生活、、校园等场景,,,,及金融、、、、教育、、、、娱乐、、、、体育、、、、汽车、、、科技等领域。。

弈桔肩负“做智能世界数据基石”的使命,,,,致力于成为人工智能数据领域的引领者,,,我们将以高质量训练数据为大模型发展提供源源不断的动力,,,推动人工智能领域不断取得突破。。。