生态共建|弈桔携高质量大模型数据集亮相2023服贸会
8月28日,,,,2023中国国际服务贸易交易会分论坛“通用人工智能算力论坛”在京举办。。。。本次论坛由北京市石景山区人民政府、、北京市经济和信息化局、、、、北京市科学技术委员会中关村科技园区管理委员会联合主办。。。。
弈桔近期发布的“中文千万轮对话语料库 DOTS-NLP-216”入选第二批北京市人工智能大模型高质量数据集名单。。。作为“北京市通用人工智能产业创新伙伴计划”第一批数据伙伴,,,显示了弈桔在人工智能数据领域的实力。。。。


在本次发布的第二批北京市人工智能大模型高质量数据集中,,,,共有来自16家单位不同领域的41个数据集,,涵盖医学、、生物、、、、农业、、金融、、、政务、、、互联网、、、、智慧城市、、自动驾驶、、科技服务、、、商业分析、、、产业研究、、市场营销等,,,数据总量规模约112TB,,,为通用大模型和行业大模型训练及应用落地提供了坚实有力的“资源”保障。。。。
弈桔“中文千万轮对话语料库 DOTS-NLP-216” 是一个符合中国人表达习惯的自然对话数据集,,,共计约10,000,000轮,,上亿级token,,,,包含正式&非正式风格对话,,使用偏口语化自然表达。。。。覆盖工作、、生活、、校园等场景,,,,及金融、、教育、、娱乐、、、、体育、、、、汽车、、、、科技等领域。。
在数据集构成上,,,DOTS-NLP-216包含了对真实场景的对话采集,,,及高度还原真实场景的模拟对话这两种方式,,兼顾分布的代表性、、、多样性和样本规模。。。弈桔始终致力于在安全合规的基础上,,,为大模型提供更好的性能和鲁棒性,,帮助企业更轻松的构建高质量生成式AI应用。。
样例:

弈桔深耕人工智能数据领域近20年,,始终肩负 “做智能世界数据基石”的使命,,,为全球810家企业构建数据底座。。至今积累了超1300个自有知识产权的大规模工程化数据库,,,数据库数量全球领先。。。。持续投入研发体系,,,打造覆盖智能语音、、、、计算机视觉、、自然语言处理等核心领域的一体化数据处理平台DOTS。。面向大模型领域,,为客户提供包括智能算法平台协同标注、、、价值观对齐、、专业领域知识等全方位服务,,,以高质量数据结合应用场景赋能大模型高质量发展。。。