每周学点大数据 | No.76 众包算法实践——认识 AMT

本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注

编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新

上期回顾&查看方式

在上一期,我们学习了Spark 实践案例——PageRank的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看

No.76

众包算法实践——认识 AMT

Mr. 王 :今天我们来讨论一下众包平台的实际使用。

小可 :嗯,在前面介绍时就觉得众包是一个非常有趣的算法思想,我也很想了解它的具体使用呢。

Mr. 王 :现在我们就以一个具体的众包平台为例,谈谈如何使用众包平台。

大多数时候,我们见到的众包平台都是以网站为表现形式的,在这里我们就以一个非常著名的众包平台——Amazon 的Mechanical Turk 为例,了解如何使用众包平台完成任务和发布任务。

Mechanical Turk 是 Amazon Web Service(AWS)的组成部分之一,是一个非常典型的众包平台,它的网址是 https://www.mturk.com/mturk/welcome,可以直接通过浏览器进行访问。

小可 :那我们就来试试吧。

小可迫不及待地打开电脑,输入了刚才的网址。

小可 :是一个英文网站。

Mr. 王 :没错,这就是 Amazon Mechanical Turk,一个非常典型的众包平台。从这个网站的主界面就可以非常清晰地看出它分为两个功能部分 ;左边写着 Make Money by working on HITs 的部分就是供 Worker 选择任务发布者提出的任务,并且完成它们获得相应回报的区域 ;右边的 Get Results from Mechanical Turk Workers 部分就是留给任务发布者去发布任务的区域。

成为众包工人

首先我们来看看作为工人去完成任务这一部分。网站使用了非常鲜明的图片来表示这一部分的使用过程。我们可以先到众多的任务中去找一个自己感兴趣的任务,然后选择工作时间,一般我们都是利用业余时间来完成众包任务,而且多数时候都是在家里完成的。在完成之后,我们可以得到任务发布者提供的报酬。在 AMT 上,一般报酬是以金钱的形式进行支付的,工人可以注册亚马逊的账户来收取报酬。

小可 :网站上还说 HIT 就是作为工人可以去完成的一项工作,后面的 Find HITs now 是不是能让工人直接去寻找这些 HIT 呢?

小可点击了链接,弹出了一个新的页面。

小可 :哇,弹出了好多个项目。

Mr. 王 :这些项目就是 HIT 的说明。

我们以其中的一个为例,简单地解释一下。从题目中不难看出,任务的提供者希望工人能从购物小票中提取出客户购买的商品。在下面我们可以看到这个任务的请求者名字、任务的截止日期等,并且还给出了完成一个 HIT 需要的时间。

小可 :Reward 一定就是任务的报酬了,看来该网站以美元结算。这个任务每完成一个HIT,就可以收到 9 美分的回报。

Mr. 王:嗯,众包任务的发布者可以以金钱形式作为回报来吸引工人投入到完成任务工作中。工人通过完成任务不仅消磨掉了自己的无聊时间,而且还有一定的收益。同时,任务的提供者也通过支付一点点报酬达到了完成任务的目的。

小可 :我点击 View a HIT in this group 链接试试看。

Mr. 王 :弹出的这个新页面是预览一个任务,一般用于给工人提供一个任务的例子,并且说明如何完成这个任务,并给出完成一个任务的要求等。

根据任务的标题我们可以推测出,它会给出一个购物小票的照片,这些照片往往是不太规整、字体较小或者字迹比较模糊的,总而言之,让计算机去处理这样的问题会遇到一些困难。

小可 :嗯,用肉眼来识别这上面的内容还是比较容易的。

Mr. 王 :看,这里任务的发布者也使用了我们前面提到过的奖励思想。每标注 20 个项目就会给回报给工人 0.09 美元的薪水,然后每完成 4 个项目就给予 0.01 美元的额外奖励。多看一些任务我们就能发现,发布者非常善于利用一些小的奖励机制来吸引工人更加认真和大量地完成的任务。

这里任务的发布者设计还是非常严密的。有时由于图片数据的选择不当,会导致一些非收据的图片混进来,或者即使所有的图片都是收据,有些收据也会因为时间和保存不当的原因,人的肉眼难以识别。所以在任务之前,任务的发布者设计了这个问题,以免内容无法识别或者不是收据而带来不必要的麻烦。

这里也给出了无法继续进行商品标注的原因,让工人选择,也便于任务的发布者进行分类。我们在进行众包任务设计时,也要将可能出现的各种情况都考虑到,这样就会为我们后期的整理减轻很多负担。

如果这是一个可以顺利识别的购物小票,工人就可以按照要求,对其中包含的商品进行标注。首先要标注小票中出现的那些商品,如类别、数量、商品描述、总价格等,其中有些部分会通过工人填进去的内容自动计算出来,比如通过商品的总价和数量计算商品的单价等。这个任务还要求工人来识别日期、总价、税额等。

小可 :嗯,任务的问题设计和交互界面还是非常友好易懂的,我觉得一般的普通用户看懂并完成这些任务还是非常容易的,只是会比较消耗时间,还真需要工人有耐心啊。

Mr. 王:毕竟是有报酬的,任务完成起来还是有一定的难度的。如果对这个任务比较感兴趣,对其报酬和工作难度都可以接受的话,点击下面的 Accept HIT 按钮就可以了。当然,为了能够顺利地进行身份认证和报酬收付,是需要进行登录的。

下期精彩预告

经过学习,我们研究了众包算法实践——认识 AMT涉及到的一些具体问题。在下一期中,我们将进一步了解成为众包工人的相关内容。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

文章作者:王宏志

文章编辑:天天

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2018-03-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏北京马哥教育

【运维故事】记一次系统重大升级的经历

1503
来自专栏FreeBuf

黑科技再现 | 黑客通过智能水壶窃取Wifi密码

The Pen Test Partners的研究员Ken Munro,在伦敦某场节目里他演示了如何连上目标的智能水壶,然后窃取你的Wifi密码。 轻松黑掉你的智...

2347
来自专栏Jerry的SAP技术分享

SAP数据中心概述

Jerry的前一篇文章企业数字化转型与SAP云平台介绍了SAP云平台在企业数字化转型中的重要地位和作用。作为一个平台即服务(PaaS)解决方案, SAP云平台实...

2312
来自专栏opengps

[置顶] 互联网定位技术小谈

今日小编在此为大家介绍一下互联网中所应用的定位技术。互联网的发展日新月异,技术迭代很快,各行各业的智慧在互联网这片蓝天下碰撞结晶,造福大众。今天要讲述的集中定位...

5046
来自专栏安智客

关于eID你需要了解的是?

公安部第三研究所在2017年国家网络安全宣传周上,展示了网络电子身份标识(eID),今天我们来聊一聊eID。 ? 什么是eID? 类似于FIDO联盟的干掉密码...

3356
来自专栏做全栈攻城狮

小工具必备,小众但实用的工具汇总(不断更新...)

写代码也要读书,爱全栈,更爱生活。每日更新原创IT编程技术及日常实用技术文章。我们的目标是:玩得转服务器Web开发,搞得懂移动端,电脑客户端更是不在话下。

1312
来自专栏FreeBuf

CNCERT 2018年1月我国DDoS攻击资源分析报告

本月重点关注情况 1、本月参与攻击较多的肉鸡地址大量归属于江苏省。其中,涉及江苏省移动多个地址段的肉鸡被反复多次利用,需要重点关注,详见2.2节。 2、本月包含...

2657
来自专栏视频加密

2018数字校园IPTV系统方案

随着宽带网络、数字电视技术和多媒体技术的发展,校园IPTV成为一种极具市场潜力的服务,受到越来越多的关注,甚至被视为现代传播界革命性的变化、三网合一的切入点。而...

1566
来自专栏知晓程序

不知道吃什么?来用小程序点个外卖吧!

1681
来自专栏玉树芝兰

我不改密码能怎样?

文章大意是:昨天某媒体爆料说国内某大型电子商务平台发生了用户信息外泄事件。黑市上该数据集被明码标价进行交易。今日凌晨,该平台已经作出回应,承认因2013年的系统...

1002

扫码关注云+社区

领取腾讯云代金券