前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每周学点大数据 | No.76 众包算法实践——认识 AMT

每周学点大数据 | No.76 众包算法实践——认识 AMT

作者头像
灯塔大数据
发布2018-04-03 15:39:13
1.7K0
发布2018-04-03 15:39:13
举报
文章被收录于专栏:灯塔大数据灯塔大数据

本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注

编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新

上期回顾&查看方式

在上一期,我们学习了Spark 实践案例——PageRank的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看

No.76

众包算法实践——认识 AMT

Mr. 王 :今天我们来讨论一下众包平台的实际使用。

小可 :嗯,在前面介绍时就觉得众包是一个非常有趣的算法思想,我也很想了解它的具体使用呢。

Mr. 王 :现在我们就以一个具体的众包平台为例,谈谈如何使用众包平台。

大多数时候,我们见到的众包平台都是以网站为表现形式的,在这里我们就以一个非常著名的众包平台——Amazon 的Mechanical Turk 为例,了解如何使用众包平台完成任务和发布任务。

Mechanical Turk 是 Amazon Web Service(AWS)的组成部分之一,是一个非常典型的众包平台,它的网址是 https://www.mturk.com/mturk/welcome,可以直接通过浏览器进行访问。

小可 :那我们就来试试吧。

小可迫不及待地打开电脑,输入了刚才的网址。

小可 :是一个英文网站。

Mr. 王 :没错,这就是 Amazon Mechanical Turk,一个非常典型的众包平台。从这个网站的主界面就可以非常清晰地看出它分为两个功能部分 ;左边写着 Make Money by working on HITs 的部分就是供 Worker 选择任务发布者提出的任务,并且完成它们获得相应回报的区域 ;右边的 Get Results from Mechanical Turk Workers 部分就是留给任务发布者去发布任务的区域。

成为众包工人

首先我们来看看作为工人去完成任务这一部分。网站使用了非常鲜明的图片来表示这一部分的使用过程。我们可以先到众多的任务中去找一个自己感兴趣的任务,然后选择工作时间,一般我们都是利用业余时间来完成众包任务,而且多数时候都是在家里完成的。在完成之后,我们可以得到任务发布者提供的报酬。在 AMT 上,一般报酬是以金钱的形式进行支付的,工人可以注册亚马逊的账户来收取报酬。

小可 :网站上还说 HIT 就是作为工人可以去完成的一项工作,后面的 Find HITs now 是不是能让工人直接去寻找这些 HIT 呢?

小可点击了链接,弹出了一个新的页面。

小可 :哇,弹出了好多个项目。

Mr. 王 :这些项目就是 HIT 的说明。

我们以其中的一个为例,简单地解释一下。从题目中不难看出,任务的提供者希望工人能从购物小票中提取出客户购买的商品。在下面我们可以看到这个任务的请求者名字、任务的截止日期等,并且还给出了完成一个 HIT 需要的时间。

小可 :Reward 一定就是任务的报酬了,看来该网站以美元结算。这个任务每完成一个HIT,就可以收到 9 美分的回报。

Mr. 王:嗯,众包任务的发布者可以以金钱形式作为回报来吸引工人投入到完成任务工作中。工人通过完成任务不仅消磨掉了自己的无聊时间,而且还有一定的收益。同时,任务的提供者也通过支付一点点报酬达到了完成任务的目的。

小可 :我点击 View a HIT in this group 链接试试看。

Mr. 王 :弹出的这个新页面是预览一个任务,一般用于给工人提供一个任务的例子,并且说明如何完成这个任务,并给出完成一个任务的要求等。

根据任务的标题我们可以推测出,它会给出一个购物小票的照片,这些照片往往是不太规整、字体较小或者字迹比较模糊的,总而言之,让计算机去处理这样的问题会遇到一些困难。

小可 :嗯,用肉眼来识别这上面的内容还是比较容易的。

Mr. 王 :看,这里任务的发布者也使用了我们前面提到过的奖励思想。每标注 20 个项目就会给回报给工人 0.09 美元的薪水,然后每完成 4 个项目就给予 0.01 美元的额外奖励。多看一些任务我们就能发现,发布者非常善于利用一些小的奖励机制来吸引工人更加认真和大量地完成的任务。

这里任务的发布者设计还是非常严密的。有时由于图片数据的选择不当,会导致一些非收据的图片混进来,或者即使所有的图片都是收据,有些收据也会因为时间和保存不当的原因,人的肉眼难以识别。所以在任务之前,任务的发布者设计了这个问题,以免内容无法识别或者不是收据而带来不必要的麻烦。

这里也给出了无法继续进行商品标注的原因,让工人选择,也便于任务的发布者进行分类。我们在进行众包任务设计时,也要将可能出现的各种情况都考虑到,这样就会为我们后期的整理减轻很多负担。

如果这是一个可以顺利识别的购物小票,工人就可以按照要求,对其中包含的商品进行标注。首先要标注小票中出现的那些商品,如类别、数量、商品描述、总价格等,其中有些部分会通过工人填进去的内容自动计算出来,比如通过商品的总价和数量计算商品的单价等。这个任务还要求工人来识别日期、总价、税额等。

小可 :嗯,任务的问题设计和交互界面还是非常友好易懂的,我觉得一般的普通用户看懂并完成这些任务还是非常容易的,只是会比较消耗时间,还真需要工人有耐心啊。

Mr. 王:毕竟是有报酬的,任务完成起来还是有一定的难度的。如果对这个任务比较感兴趣,对其报酬和工作难度都可以接受的话,点击下面的 Accept HIT 按钮就可以了。当然,为了能够顺利地进行身份认证和报酬收付,是需要进行登录的。

下期精彩预告

经过学习,我们研究了众包算法实践——认识 AMT涉及到的一些具体问题。在下一期中,我们将进一步了解成为众包工人的相关内容。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

文章作者:王宏志

文章编辑:天天

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档