AI说,可能的话,数据多多益善

人工智能应用,数据的重要性不言而喻,但是,实际的例子更能说明问题。

1995年,Yarowsky的一项语义识别研究中有一个问题,“plant”这个词,到底是指“植物”,还是“厂房”?以往的方法,是使用人工标记数据,即利用大量真人阅读上下文(国内已经出现大量人力密集的图片标注公司,大有“数据工厂”的趋势),标注出正确含义,然后使用机器学习算法进行学习。但是研究者发现,利用大量未标记数据(语料库-Corpus)和辞典释义,由算法自行即可达成超过96%的准确识别。

另外一个例子是,Hays和Efros在2007年讨论了一个图片应用,用PS抠除照片上的某个人,如何填补上合适的背景。他们构建了一个算法来完成这个工作,实际应用中发现,当使用1万张照片的时候,算法的表现非常差,超过2百万张照片后,同样的算法,表现极为优异。

以上的两个例子说明了AI的“知识瓶颈”,建立需要处理各种场景的知识和规则体系,与其使用人工定义的规则和知识库,不如采用机器学习的方法,与此同时,知识瓶颈,就变成了数据瓶颈。

当我们询问能够处理多少数据的时候,仿佛听到AI对我们说:

阁下读万卷书,行万里路,或可将数据20亿字节有余,

在下,多多益善。

*参考:《Artificial Intelligence. A mordern approach》

*题图来自网络

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181101G0AF0I00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励