前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DefinedCrowd筹集1180万美元为AI模型建立定制数据集

DefinedCrowd筹集1180万美元为AI模型建立定制数据集

作者头像
AiTechYun
发布2018-08-16 11:23:10
4240
发布2018-08-16 11:23:10
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

编译:chux

出品:ATYUN订阅号

收集用于训练机器学习模型的数据并不是简单的工作。算法需要标记良好的高质量源,这就是为什么整理数据集所花费的时间几乎与开发模型一样长,甚至更长。

这是DefinedCrowd旨在解决的问题。这家拥有三年历史的西雅图创业公司将自己描述为“智能”数据策划平台,为客户服务,汽车,零售,医疗保健和其他企业部门的客户提供定制的模型培训服务。今天它宣布它在Evolution Equity Partners,万事达卡,Kibo Ventures和Energias de Portugal(EDP)领导的融资轮融资中募集了1180万美元,并从现有投资者Sony,Portugal Ventures,Amazon和Busy Angels获得额外资金。

DefinedCrowd的首席执行官Daniela Braga在电话采访中表示,“数据需要高质量,如果不是这样,可能会损害品牌。简单地说,我们可以轻松收集和注释模型的高质量训练数据。”

Braga拥有博士学位。在语音技术方面,非常了解数据收集的Sisyphean性质。在创立DefinedCrowd之前,她管理者1400万美元以改善微软的人工智能语音助手小娜,她称这是一场艰苦的战斗。她说,每个产品开发周期大约需要18个月才能获得数据以刷新基础模型。

Braga在众包中找到了出路。DefinedCrowd的新颖方法采用了一个由超过45000名人类贡献者组成的社区(Neevo),他们完成了涉及标签,打字和说出单词和短语的工作。他们每天将超过500000单位的数据上传到填充DefinedCrowd的自然语言处理,语音识别和计算机视觉工具的数据集。

通过API和Web界面,所述工具为DefinedCrowd的客户提供了过滤人口统计数据的自由,他们可以指定贡献成员的年龄,位置和性别,甚至他们对特定语言的熟练程度。该平台支持高达46种语言,约占世界上使用最广泛语言的90%,准确率高达98%。

但它的真正价值主张是它的灵活性,客户使用DefinedCrowd平台不仅可以从头开始训练机器学习模型,还可以使用根据其特定需求量身定制的数据集来扩充现有模型。同时,那些具有更简单要求的人可以利用专门的工作流程,模板和现成的解决方案。

想象一下:亚马逊的Alexa平台上的新闻策划技术拥有大量的国际用户,因此其开发人员需要培养一种在市场上同样准确的语音识别模型。使用DefinedCrowd的工具,他们可以生成多个数据集以提高算法的性能。

DefinedCrowd已经增长了6倍,其中包括宝马,万事达卡,Nuance和雅虎日本等财富500强企业在其冗长的客户名单中名列前茅。其员工超过40人,分布在葡萄牙,西雅图和日本的办事处,并希望在今年年底之前再招聘40名员工。

该公司将利用这笔资金来扩展其产品,发展其开发人员和销售团队,并增加其全球业务。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档