前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每周学点大数据 | No.77 众包算法实践——成为众包工人

每周学点大数据 | No.77 众包算法实践——成为众包工人

作者头像
灯塔大数据
发布2018-04-03 15:30:27
1.8K0
发布2018-04-03 15:30:27
举报
文章被收录于专栏:灯塔大数据

编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新

上期回顾&查看方式

在上一期,我们学习了众包算法实践——认识 AMT的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看

No.77

众包算法实践——成为众包工人

小可 :再来看一个任务。咦,为什么这个任务无法查看呢?

Mr. 王 :记得我们前面提到过,很多任务对精度和质量的要求是相对较高的,所以就需要用户具有一定的能力或者很强的责任心。为了验证这一点,很多任务的发布者会设置 Qualification,也就是资格认证,只有通过资格认证的人才能参与到任务的完成之中,获得相应的报酬。

在网站界面上方的第三个选项卡中,我们可以找到很多的资格测试,在完成那些要求相对较高的任务之前,就需要参加这些资格测试,感兴趣的话,你可以自己去尝试一下。

接下来我们看看如何来发布任务。回到首页,在右侧可以看到发布任务的流程。首先要建立一个自己的账户,然后将任务加载到网站上,等到工人完成这些任务时,我们就可以得到相应的结果了。

小可 :点击 Get Started 按钮试试。

Mr. 王 :我们就进入了众包平台的 Requester(请求者)页面。这里的操作需要我们先登录账户。虽然 AMT 第一年在一定范围内是免费使用的,但仍然需要我们注册并登记自己的信用卡信息等,以便在使用过程中超出免费范围时,网站可以向我们收取费用。

Mr. 王 :接下来看看如何使用 AMT 平台的任务发布者。在 AMT 中,任务的发布者也叫Requester。首先我们要注册一个账号成为 Requester。

Mr. 王:登录之后我们就可以看到 AMT 的Requester 主页面了,在这里我们可以发布任务,并寻找 Worker 来替我们完成任务。

小可 :通过“Create”就可以创建新的任务了吧?

Mr. 王 :是的,我们进入 Create 页面。

Mr. 王 :首先我们要为任务选择一个类型。AMT 平台已经替我们准备了很多的任务类型,比如分类、数据收集、调研、为图片打标签等,基本能满足我们对各种众包任务的需求。可以根据自己需要完成的任务来选择合适的类别,在这里我们以分类进行举例。

小可单击了一下分类,说 :这里已经给出了一个人效果图!给出了一张图片,并且提示Worker 给这张图片选择一个最佳分类,要求 Worker 选择是厨房、客厅、浴室、卧室、外面五种之一。

Mr. 王:没错,通过 AMT 平台,我们也可以很快地搭建一个这样的页面,以完成众包任务。现在我们点击“Create Project”按钮。

Mr. 王 :我们要为项目取一个名字,比如希望Worker 去判断我们给出的一段文字来自小说还是新闻,就可以给出如下的分类。

Mr. 王 :然后为项目给出一些提示,比如 Please choose the best category of the text.(请选择文本最合适的分类)。

Mr. 王 :接下来是一个关键的步骤,我们要上传需要分类的数据文件,文件的类型是 .csv。

小可 :csv 就是用逗号分割的数据文件吧?使用 Excel 也是可以打开的。

Mr. 王 :是的,只要把要进行分类的数据都输入进去就可以了。比如在这里我们创建一个csv 文件,并填入如下内容。

Mr. 王 :在 csv 文件中,我们用第一行表示数据所包含的字段名(列名)。不难看出,我们举例使用的表有两列,其中一列是文本的标题,这里暂时用 Text1 ~ 5 来表示 ;另一列就是文本的内容,为了简单起见,这里只使用一句话来作为文本的内容。如果用 Excel 软件打开它,则可以看到以表格表示的 csv 文件。注意,后面的文本要加上引号,否则文本中的逗号会干扰系统识别数据列,引起一些不必要的错误。

Mr. 王 :我们将这个文件上传至 AMT 平台上。

Mr. 王 :在文件上传完成之后,出现一个针对每一个字段的表格,其中 Show Workers 表明这个字段是否要展示给用户 ;Type of Data 是一个很重要的选项,我们打开看看。

Mr. 王 :可以看到,其中包括 3 个选项,即 Text、Link to a website 和 Link to an image。这里选择 Text 就好,因为我们需要工人分类的内容就是纯文本。如果需要分类的内容有图片的话,在这里就将对应的字段设为 Link to an image。同时,在 csv 文件中,我们要将对应的字段设为该图片所在的 URL 地址。

操作完成后,我们对任务已经有了一个基本的定义,接下来就可以查看到将会展示给工人的预览内容了。

小可 :嗯,页面已经按照我们预想的内容展现给工人了。工人看到文本,就可以选择相应的分类来完成任务了。

Mr. 王 :最后,我们还需要设置给工人的报酬。前面我们也提到过,报酬的多少会影响到参与到完成任务之中的工人数量和工人完成任务的质量,一定要根据一些统计数据或者同类任务的报酬情况进行认真的设计。

关于 AMT,其实还有很多深入的内容和机制,比如可以对前面的页面进行美化,使得Worker 完成任务的过程更加轻松和舒适,或者是引用 AMT 的一些接口、API 等来为我们设计的其他应用提供支持。更多详细的内容,可以访问 Amazon 公司提供的各种文档和帮助文件,里面有很丰富和翔实的解答。

结语

经过学习,我们研究了众包算法实践——成为众包工人涉及到的一些具体问题。

这本书的内容到今天就全部推送完啦,小灯塔猜你一定收获颇多,灯塔大数据会继续为您推送精彩的技术文章,敬请期待,谢谢您的支持!

文章作者:王宏志

文章编辑:天天

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档