每周学点大数据 | No.77 众包算法实践——成为众包工人

编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新

上期回顾&查看方式

在上一期,我们学习了众包算法实践——认识 AMT的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看

No.77

众包算法实践——成为众包工人

小可 :再来看一个任务。咦,为什么这个任务无法查看呢?

Mr. 王 :记得我们前面提到过,很多任务对精度和质量的要求是相对较高的,所以就需要用户具有一定的能力或者很强的责任心。为了验证这一点,很多任务的发布者会设置 Qualification,也就是资格认证,只有通过资格认证的人才能参与到任务的完成之中,获得相应的报酬。

在网站界面上方的第三个选项卡中,我们可以找到很多的资格测试,在完成那些要求相对较高的任务之前,就需要参加这些资格测试,感兴趣的话,你可以自己去尝试一下。

接下来我们看看如何来发布任务。回到首页,在右侧可以看到发布任务的流程。首先要建立一个自己的账户,然后将任务加载到网站上,等到工人完成这些任务时,我们就可以得到相应的结果了。

小可 :点击 Get Started 按钮试试。

Mr. 王 :我们就进入了众包平台的 Requester(请求者)页面。这里的操作需要我们先登录账户。虽然 AMT 第一年在一定范围内是免费使用的,但仍然需要我们注册并登记自己的信用卡信息等,以便在使用过程中超出免费范围时,网站可以向我们收取费用。

Mr. 王 :接下来看看如何使用 AMT 平台的任务发布者。在 AMT 中,任务的发布者也叫Requester。首先我们要注册一个账号成为 Requester。

Mr. 王:登录之后我们就可以看到 AMT 的Requester 主页面了,在这里我们可以发布任务,并寻找 Worker 来替我们完成任务。

小可 :通过“Create”就可以创建新的任务了吧?

Mr. 王 :是的,我们进入 Create 页面。

Mr. 王 :首先我们要为任务选择一个类型。AMT 平台已经替我们准备了很多的任务类型,比如分类、数据收集、调研、为图片打标签等,基本能满足我们对各种众包任务的需求。可以根据自己需要完成的任务来选择合适的类别,在这里我们以分类进行举例。

小可单击了一下分类,说 :这里已经给出了一个人效果图!给出了一张图片,并且提示Worker 给这张图片选择一个最佳分类,要求 Worker 选择是厨房、客厅、浴室、卧室、外面五种之一。

Mr. 王:没错,通过 AMT 平台,我们也可以很快地搭建一个这样的页面,以完成众包任务。现在我们点击“Create Project”按钮。

Mr. 王 :我们要为项目取一个名字,比如希望Worker 去判断我们给出的一段文字来自小说还是新闻,就可以给出如下的分类。

Mr. 王 :然后为项目给出一些提示,比如 Please choose the best category of the text.(请选择文本最合适的分类)。

Mr. 王 :接下来是一个关键的步骤,我们要上传需要分类的数据文件,文件的类型是 .csv。

小可 :csv 就是用逗号分割的数据文件吧?使用 Excel 也是可以打开的。

Mr. 王 :是的,只要把要进行分类的数据都输入进去就可以了。比如在这里我们创建一个csv 文件,并填入如下内容。

Mr. 王 :在 csv 文件中,我们用第一行表示数据所包含的字段名(列名)。不难看出,我们举例使用的表有两列,其中一列是文本的标题,这里暂时用 Text1 ~ 5 来表示 ;另一列就是文本的内容,为了简单起见,这里只使用一句话来作为文本的内容。如果用 Excel 软件打开它,则可以看到以表格表示的 csv 文件。注意,后面的文本要加上引号,否则文本中的逗号会干扰系统识别数据列,引起一些不必要的错误。

Mr. 王 :我们将这个文件上传至 AMT 平台上。

Mr. 王 :在文件上传完成之后,出现一个针对每一个字段的表格,其中 Show Workers 表明这个字段是否要展示给用户 ;Type of Data 是一个很重要的选项,我们打开看看。

Mr. 王 :可以看到,其中包括 3 个选项,即 Text、Link to a website 和 Link to an image。这里选择 Text 就好,因为我们需要工人分类的内容就是纯文本。如果需要分类的内容有图片的话,在这里就将对应的字段设为 Link to an image。同时,在 csv 文件中,我们要将对应的字段设为该图片所在的 URL 地址。

操作完成后,我们对任务已经有了一个基本的定义,接下来就可以查看到将会展示给工人的预览内容了。

小可 :嗯,页面已经按照我们预想的内容展现给工人了。工人看到文本,就可以选择相应的分类来完成任务了。

Mr. 王 :最后,我们还需要设置给工人的报酬。前面我们也提到过,报酬的多少会影响到参与到完成任务之中的工人数量和工人完成任务的质量,一定要根据一些统计数据或者同类任务的报酬情况进行认真的设计。

关于 AMT,其实还有很多深入的内容和机制,比如可以对前面的页面进行美化,使得Worker 完成任务的过程更加轻松和舒适,或者是引用 AMT 的一些接口、API 等来为我们设计的其他应用提供支持。更多详细的内容,可以访问 Amazon 公司提供的各种文档和帮助文件,里面有很丰富和翔实的解答。

结语

经过学习,我们研究了众包算法实践——成为众包工人涉及到的一些具体问题。

这本书的内容到今天就全部推送完啦,小灯塔猜你一定收获颇多,灯塔大数据会继续为您推送精彩的技术文章,敬请期待,谢谢您的支持!

文章作者:王宏志

文章编辑:天天

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2018-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

看我如何基于Python;Facepp打造智能监控系统

由于种种原因,最近想亲自做一个基于python&facepp打造的智能监控系统。 0x00:萌芽 1:暑假在家很无聊 想出去玩,找不到人。玩个lol(已卸载),...

5685
来自专栏ATYUN订阅号

【学术】厉害了我的哥,国外技术大咖仿造了谷歌的Arts &Culture,找到古代的“你”

当我激动的室友第一次向我展示肖像搜索功能时,我对结果感到很惊讶(也觉得有点受侮辱)。对于那些不熟悉它的人来说,谷歌Arts & Culture的这一功能让你可以...

3514
来自专栏木子昭的博客

PDF转Word 用谷歌文档进行在线OCR识别

博主最近被人问到了这个问题, 也做了一番研究, 最终找到两个靠谱的方法, 分享一下

2.6K2
来自专栏鹅厂网事

可视化网络路径探测HashTrace

引子 长期以来,探究网络质量和探索网络路径是广大网络工作者监控网络的必备工作,ping用于探究网络质量和traceroute用于探索路径。对于探测结果似...

6718
来自专栏玉树芝兰

如何免费云端运行Python深度学习框架?

想运行TuriCreate,却没有苹果电脑,也没有Linux使用经验,怎么办?用上这款云端应用,让你免安装Python运行环境。一分钱不用花,以高性能GPU,轻...

3881
来自专栏生信技能树

【直播】我的基因组 32:使用annovar注释vcf

ANNOVAR软件用法看我以前的博客: 1.Annovar使用记录 (http://www.bio-info-trainee.com/641.html) 2.用...

5018
来自专栏FreeBuf

极客DIY:制作一款智能家用温控器(PART 2)

引文 在上一部分,我主要是对于外壳以及如何利用树莓派完成了一些简单的计划任务,下面将会对其余的计划任务进行制作。 写在前面 这里主要是需要了解作者用到了两个部分...

2248
来自专栏北京马哥教育

知乎美女挖掘指南--Python实现自动化图片抓取、颜值评分

声明:文中所有文字、图片以及相关外链中直接或间接、明示或暗示涉及性别、颜值分数等信息全部由相关人脸检测接口给出。无任何客观性,仅供参考。 1 数据源 知乎 话题...

5066
来自专栏人工智能LeadAI

深度学习训练时GPU温度过高?几个命令,为你的GPU迅速降温。

新买回来的不带水冷公版GPU,在满负载运行的时候,温度从室温马上飙升到85度,而且模型训练不是几分钟完事,很有可能要长期保持在高温状态下运行,让如此昂贵的GPU...

6607
来自专栏xingoo, 一个梦想做发明家的程序员

我的AI之路 —— OCR文字识别快速体验版

还记得前一阵某小盆友拿过来一个全是图片的ppt,让我把里面的文字给抠出来(我当时很震惊!!!),随后在网上随便找了个OCR的在线文档转换软件,就给转过来了——这...

7382

扫码关注云+社区

领取腾讯云代金券