格隆汇7月17日丨海天瑞声(688787.SH)接受特定对象调研时,有投资者问及:未来公司会做大模型相关的数据集产品吗?
公司回复:会做。标准化数据集产品是公司区别于其他竞争对手的特色商业模式,标准化数据集产品由于其一次性投入、未来可重复销售的特点,对公司的营收、毛利起着重要作用。公司本次定增计划的项目一的核心内容就是大模型数据集建设。该数据集建设项目将充分利用“北京市数据基础制度先行先试示范区”优势,在基础制度、数据供给等方面的先行先试政策,采用多元化的方式获取大规模原始数据;利用工程化的数据处理技术进行预训练阶段的数据清洗;采用人类反馈强化学习模式,基于微调和奖励模型训练的方法,以人类撰写少量的典型问题和标准答案与深度学习阶段基础性标注相结合的模式,生产出市场适用性较强的大模型训练数据集。
数据集建成后,将提供可供大模型训练和评测的不少于10个品类的专业数据集,显著提升行业内面向大模型训练数据集的类别和质量,协助实现公共数据、社会数据等各类高价值数据资源汇聚,实现基于大模型通用能力和垂直领域数据的训练学习。
领取专属 10元无门槛券
私享最新 技术干货