弈桔贺琳接受北京新闻采访：为中文大模型打造高质量数据底座

随着大模型领域的飞速发展，，，，今年国内已发布超过80个大模型，，其中约一半位于北京市。。。。今年5月，，，北京市经信局联合市科委、、中关村管委会和市发改委共同启动了 “北京市通用人工智能产业创新伙伴计划” 共39家企业，，弈桔成为首批入选该计划的 “数据伙伴”。。。。

在上个月的2023全球数字经济大会中，，，正式发布了总规模超500T的 “人工智能大模型高质量数据集”。。。其中，，，，弈桔 “大模型多语种语音数据集”、、、、“大模型中文千万轮对话数据集” 入选，，，助力北京市打造人工智能大模型产业高地。。。。

北京市经信局、、、百度云、、弈桔、、、、金山云接受北京卫视采访。。弈桔创始人、、、董事贺琳在采访中介绍了弈桔近20年来在人工智能数据领域的持续探索与创新发展。。

大模型的崛起，，，可以说是数据、、、算力、、、、人才、、、资金等关键生产要素全面支撑的结果。。。。在采访中，，贺琳介绍了弈桔在人工智能训练数据领域的持续发展和创新。。。作为国内最早从事该领域的企业之一，，，，弈桔的训练数据涵盖语音识别、、语音合成、、、计算机视觉、、、自然语言等多个核心领域。。已经积累了超过1300个自有知识产权的人工智能训练数据产品，，，为全球超过810家企业及科研机构提供高质量数据支撑，，，全面服务于科技互联网、、智能驾驶、、、、Iot、、、、智慧金融等行业，，助力人工智能领域发展。。。。

携手共建高质量数据，，，助力中文大模型“加速度”

高质量训练数据的生产需要长期的资源投入和专业的技术支撑，，，并在遵循相应的质量标准和规范的基础上，，，保持不断更新和扩充，，，才能更好的迎接人工智能领域发展的新需求与新挑战。。

为了打造高质量中文语料库、、围绕语料数据共建生态，，弈桔携手中科院自动化所、、中国信通院泰尔实验室、、智谱AI、、澜舟科技、、、、循环智能，，，在2023全球数字经济大会中启动 “高质量中文大模型训练数据集共建项目”，，，为中文大模型研发提供 “加速度”。。

千万轮对话语料库，，打造中文大模型的“新引擎”

大模型训练使用的数据集规模近年来呈爆发式增长，，从GPT3 的1750亿参数，，到近期Llama2的700亿参数，，甚至更大Bloom的1760亿参数，，，高质量数据成为大模型不断突破的重要资源。。

近期，，，弈桔推出「中文千万轮对话语料库 DOTS-NLP-216」。。。。这是一个符合中国人表达习惯的自然对话数据集，，，共计约1,0000,000轮，，，上亿级token，，，包含正式&非正式风格对话，，使用偏口语化自然表达。。。内容覆盖工作、、、生活、、校园等场景，，，及金融、、教育、、、娱乐、、体育、、、、汽车、、科技等领域。。

弈桔肩负“做智能世界数据基石”的使命，，致力于成为人工智能数据领域的引领者，，我们将以高质量训练数据为大模型发展提供源源不断的动力，，，推动人工智能领域不断取得突破。。。

上一篇：会议预告｜国内权威NLP大会CCL，，弈桔与您相约哈尔滨下一篇：生态共建｜弈桔携高质量大模型数据集亮相2023服贸会

企业资讯

弈桔贺琳接受北京新闻采访：为中文大模型打造高质量数据底座

携手共建高质量数据，，，助力中文大模型“加速度”

千万轮对话语料库，，打造中文大模型的“新引擎”

弈桔贺琳接受北京新闻采访：为中文大模型打造高质量数据底座

携手共建高质量数据，，，助力中文大模型“加速度”

千万轮对话语料库，，打造中文大模型的“新引擎”