首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】序列猴子开源数据集1.0

序列猴子是出门问问提供的超大规模语言模型,序列猴子数据集是用于训练序列猴子模型的数据集合,现抽取部分数据集向公众开放。1.0 版本的数据集涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。其中中文通用文本语料是序列猴子训练集中抽取了1300万份数据面向公众开放。古诗今译开源数据集是古文和现代文翻译数据集,开放68万首。文本生成微调数据集开放了5千条问答数据,可用于字词错误检测、字词错误纠正及文本润色任务。

详情请参见五号雷达:https://www.5radar.com/

数据集地址: https://github.com/mobvoi/seq-monkey-data

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OENrN-hX4vpDT0IK0knVBmqg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券