首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

星尘数据CEO章磊:训练一个大模型,数据处理占60%

6月16日,华映资本2023年度大会成功举办,星尘数据创始人章磊应邀与华映资本董事刘天杰、影眸联合创始人张启煊、金柚网CTO邬学宁、安领数据CEO郑耸、天云数据副总裁李从武展开圆桌对话,共同探索大模型爆发,产业拥抱AIGC的机遇与锚点。

章磊表示,训练一个大模型,数据处理占60%,模型训练占20%,工程化占20%。星尘数据是国内首家提供大模型数据一站式解决方案的公司,星尘COSMO大型模型数据金字塔有四层,包括预训练数据、通用能力数据、专有能力数据和企业私有化部署数据。未来大模型行业一定会出现“一超多强”的局面,数据能够赋予AI能力,使其理解世界,具备人类的思维和逻辑,拥有价值观,明辨善恶,同时输出内容健康、无害,最终迈向AGI。

谈到大模型是否真的具备逻辑推理能力,章磊称,大型语言模型的训练过程与我们学习乘法口诀的方式有相似之处。我们通过不断阅读和重复1×1、2×2等将基本逻辑铭记于脑海中,以至于在需要用到时能够自然而然地运用。大型语言模型也是通过阅读并重复学习来记住逻辑的表达过程,而不是逻辑的本身。这种思维过程与人类相似,需要一点一点地组织语言并思考。我们目前的大模型构建了大脑的system1,未来的大型语言模型可能会发展出类似于人类的system2,强调计算和逻辑处理的部分,以产生更精准的结果。

关于星尘数据

星尘数据是一家提供SaaS标注平台和数据管理服务的企业,成立于2017年5月,总部位于北京。公司通过应用机器学习算法开发出高效的自动化标注工具,为标注产业注入科技和创新基因,赋能AI企业算法迭代和数据闭环。目前星尘Stardust平台年处理数据量数亿,自动化水平达到60%以上,数据质量达到99.9%,达到国际领先水平。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OIvxxxZOVGO4BrGie9pj46Wg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券