前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每周学点大数据 | No.51 众包的特点

每周学点大数据 | No.51 众包的特点

作者头像
灯塔大数据
发布2018-04-04 14:53:23
1K0
发布2018-04-04 14:53:23
举报
文章被收录于专栏:灯塔大数据

NO.50

众包特点

Mr. 王:我们讨论了这么多众包的例子,现在来研究一下众包的一些特点。你先来说说,一个众包算法需要由哪些部分组成?

小可:首先要有一批请求任务的人;其次要有一群完成任务的人;还应该有一个管理任务的平台。请求任务的人把任务发布到平台上,平台会去搜寻有兴趣来做这些任务的人,然后这些工作者将答案返回给平台。平台收集了大量的答案之后,还要将答案交给提交任务的人。

Mr. 王满意地说:总结得不错,这些提交任务的人,我们一般称之为请求者。而这些完成任务的人,我们称之为工人。整个结构梳理得很清楚,不过,平台的工作还要多一点。首先,平台搜寻工人这项工作就非常需要深入研究——究竟什么样的人适合来完成这样的任务,怎么有效地吸引这些合适的人来完成任务。另外,更重要的是,返回结果的质量控制是平台的关键任务之一,因为众包会将任务交给大量不认识的,来自网络的一群人,这群人中有的真的了解任务的答案并且很负责任,他们给出的答案往往就比较好;反之,有些人并不知道答案,就给出了一些他们认为对的答案或者随便写的一些答案,甚至还会有人故意去破坏平台,给出一些错误的答案,这样得到的答案质量就可想而知了。

小可:确实,将任务交给一些不认识和不确定的人来做,质量控制真的很有必要。

Mr. 王:在众包中,任务的基本单位是HIT(Human Intelligent Task),一般也称作“智能任务”。比如一个工人完成了一个任务,我们称之完成了一个HIT。任务的请求者可以通过Web 服务的API 创建一些HIT 供工人去完成,工人会登录网站,选择自己感兴趣的HIT 来执行,然后平台和请求者对结果进行评价,给出反馈。据不完全统计,至少有来自100 个国家的1 000 000 以上的工人参与到以百万计的HIT 中。

Mr. 王:其实工人参与到众包任务中也是有相应回报的。比较直观的回报就是金钱,在有些众包平台上面,工人完成了任务之后会收到一定的资金报酬;而有些众包任务虽然并不能提供报酬,但是很多人依然乐此不疲,是因为这些众包任务设计得比较有趣,很多人为了打发时间,也会去完成众包任务。另外,做众包任务对用户来说也是有一定的社交需求的,同时可以建立自己的声望和好评,获得成就感。

小可:是不是就像百度知道这样的,回答问题赚取分数,就相应地证明了自己的能力?

Mr. 王:百度知道是一个很典型的例子。也有很多众包平台像我们前面提到的双重验证码一样,它并不直接地展现这是一个任务,而是表现为用户平常执行某项工作的一个副产品。当然,众包平台很多的是一种自服务资源,比如最典型的维基百科,也是人人为我、我为人人。大家一同创建这样一个平台,大家也一同使用这样一个平台。

Mr. 王:这里有一个很有意思的问题,假如完成任务的奖励是奖金的话,你觉得是给得越多越好吗?

小可:我觉得应该是吧,重赏之下必有勇夫嘛。

Mr. 王:事实上还真不是这样,在实际的应用中,如果钱给得太少了,会吸引不到相应的应用者;钱给得太多了,就会吸引到很多的垃圾发送者,付出过多反而构成了一个反激励效果。准确地说,不是给的钱越多越好,而是钱给得越多,就会吸引到越多的人参与到工作中来。

Mr. 王:在实际的众包任务中,需要考虑的问题还是不少的。比如当我们有任务要完成时,是选择交给现有的众包平台,还是自主开发搭建一个众包平台;而且在众包平台设计时,人机交互是很重要的,应如何激励用户参与到众包任务中;界面的设计是否吸引人、与工人间的交流通信,以及平台的信誉和工人挽留机制都要考虑。质量的检测也很重要,检测垃圾结果、平台可靠性等问题也要考虑。而且如果一个平台上搭载了多个任务,如何对这些任务进行管理,以及人和机器间的平衡,究竟什么任务要人来做、什么任务让机器来做都是众包设计者需要设计的问题。

Mr. 王:下面来说说上面谈到的几个话题。首先是人机交互,众包算法的人机交互非常重要,如果用户体验不够好,对众包任务的参与度和完成质量的影响是非常大的。这方面的解决办法和软件工程中的一些方法是相似的。比如调查、先做出一个原型系统,让一些测试用户进行试用,或者所谓的可用性测试、认知走查等。

Mr. 王:不仅是在完成任务方面,提供任务方面的人机交互也是要非常注意的。平常用搜索引擎时,后面的内容你会关注吗?

小可:对于一些匹配比较好的结果,我一般只看搜索引擎返回结果的第一页,即使是匹配效果不太好的,我也只看到第二页。

Mr. 王:众包平台上的任务也是如此,如果一个众包平台上堆积了大量的任务,统计发现第三页以后的HIT,基本不会有人来做,许多这样的任务放在那里一个月都不会有人来完成。设计得不好的提供任务界面,对工人和请求者来说都是非常不利的,任务得不到完成,工人找不到任务。一个任务提供平台一定要有效地将工人和任务进行很好的匹配。

小可:那么网站一般是怎么解决这个问题的呢?

Mr. 王:其实解决这个问题的方法非常多,你也发现了,这种任务交互平台和搜索引擎,甚至如淘宝网这种购物网站都是有相似之处的,很多用于搜索引擎和网购站点的推荐机制都可以用来解决众包任务交互问题。

小可:那么对于质量控制方面的问题,平台一般是怎么解决的呢?

Mr. 王:显然,工人完成任务的质量是众包极其重要的组成部分。但是质量控制并不仅仅是工人的责任,和购物网站一样,不好的卖家和买家都是存在的。众包平台也是一个双向评价的平台,请求者可能会认为工人做得不好,而工人也可能会认为任务是由一个糟糕的请求者发布的。

小可:那平台常用的质量控制方法有哪些呢?

Mr. 王:最典型的方法就是支持率。比如我提出一个问题,8 个人选A,2 个人选B,平台会倾向于认为A 是正确答案。当然,这也不是绝对的,比如统计发现,某些特定的工人经常存在于少数答案的群体中,这些人有可能是垃圾发送者或者破坏平台的人,也有可能他们给出的答案才是对的,请求者提出的问题确实比较困难,大多数人给出的答案都不够准确,而只有这些人给出的答案才是标准答案。不论是哪种情况,这样的群体都是一个特殊的群体,即使表决法不能确定这些人到底是哪类人,但至少可以通过统计发现这些特殊的答案,请求者可以介入,根据统计结果进行分析,进行更好的质量控制。

小可:嗯,单纯地凭借给出某一种答案的数量确实不能确定结果是不是真的准确,真理有时还掌握在少数人手中呢。

Mr. 王:有时众包平台也采用一种准入机制。比如想参与到众包任务的贡献中,先要经过一个资格考试来验证该工人是不是具有完成任务的资格。

小可:这个好麻烦啊,在参与任务之前还要参加考试,这会在很大程度上降低众包任务的完成效率。

Mr. 王:没错,资格考试的确具有这样的缺点,会影响到工人参与的热情,也会耽误任务完成的时间。最重要的是,对于一些主观性的任务,或者任务的主题比较分散,设计问题也会很麻烦,需要很大的成本。资格考试还是有很多优点的,很多时候资格考试使用和完成任务一样的方法,这里一方面是测试用户的资格;另一方面也是在教用户如何使用这个平台,用什么样的方法来完成任务,工人在开始任务之前可以很有效地通过资格考试来熟悉任务的完成流程。在解决工人兴趣的问题上,可以调整及格标准或者题量,当工人参与度不高时,可以适当让通过考试容易一点。

小可:如果资格考试或者质量测试发现了糟糕的工人,一般怎么办呢?

Mr. 王:这的确是个问题,对于一些做了不达标工作的工人,应不应该给予相应的奖励,很多众包设计者也有过激烈的讨论,有些人认为,用户提供的坏答案被采纳了,说明系统有问题;也有些人认为,如果对这些不好的工人都给予相应的奖励,岂不是在鼓励欺诈。这里其实有一个折中的方案,我们先用薪金来举个例子,在具体的情况下可能是分数或者其他的回报。我们可以设立1 个单位的工资和1 个单位的奖金,只要工人完成了任务,就支付1 个单位的工资;而对于那些做得好的工人,再额外支付1 个单位的奖金,这样做要比完全拒绝给工资和全给2个单位的工资效果好得多。

小可:嗯,因为很多工人并不是在故意破坏系统,而是确实对这个问题的理解不太好,很努力地完成了任务结果却不好,这样的工人还是要给一点点回报,别打消了他们的积极性。

Mr. 王:不过,对于那些真的在破坏系统的工人,一定要阻止其继续参与任务。

Mr. 王:至于系统的任务分配,也可以分为推方法和拉方法。在推方法中,系统进行任务的推送,完全由系统决定应该将任务发送给谁;而在拉方法中,系统只提供一个平台,工人自己到平台上去寻找任务。在实际的过程中,也要有推荐机制。平台要通过一些算法去衡量成本、衡量用户兴趣、衡量合适程度等,将合适的任务交给合适的人,又好又快地完成任务。

文章来源:灯塔大数据

文章编辑:秦革

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档