每周学点大数据 | No.50 众包应用举例

No.50期

众包应用举例

小可:那除了维基百科之外,众包还有哪些应用呢?

Mr. 王:其实众包在业界的应用还是非常广泛的。大量的公司和网站都使用了众包算法,

有些众包算法是显性的任务分配和任务处理,也有些众包算法是隐性的。比如这种特殊的验证码:

小可:哦,验证码还是很常用的,只是这个验证码中有两个单词。在登录网站时,为了防

止一些自动的脚本攻击网站,会将一个机器难以识别而人容易识别的图像文字放在登录窗口中,只要把相应的文字输进去就可以登录了。

Mr. 王:不错,但是这个验证码比较特殊,之所以使用了两个单词,是因为它有另一个用途。

在这两个单词中有一个是真的验证码,用于鉴别正在登录的是不是一个真正的人,这个真正的验证码和其他验证码并无两样;而另一个则是网站希望识别的一个模糊的或者字体比较特殊的单词,比如从古书上、破旧的文章中截取的文本片段。正由于它是比较迷糊的,如果用机器来做文本模式识别的话,就会比较困难,错误率会比较高;但是作为一个人来说,看清楚这个单词还是非常容易的。网站巧妙地利用了这一点,在用户输入验证码的同时,还帮助网站进行了图像文本识别。

小可:真是一举两得啊,而且其充分发挥了用户的力量,让用户不知不觉间就帮助网站完

成了文本识别工作。

Mr. 王:这是一个图像文本识别的例子。在机器翻译中,众包也有很好的应用。时下,机

器翻译的质量还没有达到一个非常高的水平,我们常用的翻译平台虽然能够将单词翻译对,但是句式结构往往处理得不够好,语序颠倒的情况时有发生。另外,对于一些意思很多的词汇来说,在特定的语境下识别一个词的意思就很困难了。目前,不仅机器翻译仍然面临着一些困难,而且用机器对人工或者机器翻译好的文章进行翻译质量评价也是很困难的。

小可:嗯,不仅翻译难,而且评价也难。所以,我们就要发挥人的力量,让人进行翻译和评估。

Mr. 王:没错,语言之间的翻译具有一个特点,就是翻译专家和母语的非专家对一个翻译

过来的句子的认识是差不多的,毕竟不是专家的人也可以凭借其对母语的了解和熟悉去评价一个句子是不是通顺等。所以不妨将机器翻译或者翻译评价的工作交给那些非专家、网络上的人来做,通过对母语的语感他们就能够很好地评价翻译效果,让人来执行通常会比机器来做好得多。

Mr. 王:其实在图像识别中,众包的例子也有很多。比如我在网上挂一个图,问这是不是“哈工大校园”。

这样的工作让机器来做其实很麻烦,因为哈工大校园里面有各种各样的风景,图像模式非

常多,甚至在天气阴晴、季节、相机曝光度和拍摄角度等不同的时候,完全相同的风景都会呈现出不同的效果,让机器来识别难度就非常大。但如果由人来做,就容易多了,不论是什么季节,不论是白天还是夜晚,只要是哈工大的学生或者是去过哈工大的人往往就可以非常容易地辨识出这个图景是不是属于哈工大校园,这种识别的准确度要比机器高很多。

Mr. 王:另外,还有一个很有趣的例子,如果让计算机来识别两张照片是不是同一个人,

可能难度就比较大。当今虽然人脸识别技术已经日趋成熟,但是由于光线角度不同、人所处的环境不同,或者是发型、妆容变化等,甚至一张是人年轻时的照片,另一张是中年时的照片,都会给计算机识别带来很大的麻烦。

小可:嗯,没错,看看两张照片是不是一个人,对人来说还是挺容易的。即使是年轻和年

长时的照片,我们也可以通过观察一些特征,分辨出他们是不是一个人。

Mr. 王:嗯,众包还可以应用在图片分类上。比如这张图片:

小可一眼就认出了图片中的车,说:这不是大众的迈腾嘛!

Mr. 王笑着说:你看,如果让计算机来识别这张图片的话,它可能充其量会告诉你这是一

辆汽车的图片,但是如果众包出去,比如交给你,你不仅能看出这是一辆轿车的图片,连它具体是什么品牌、什么型号都可以识别出来,识别的信息精确程度远大于计算机的能力。在实际应用中,众包分类系统可能就会问用户,这是不是一种交通工具啊?用户就会回答“是”;这是不是一辆汽车啊?用户回答“是”;是什么牌子的车啊?……,在这个过程中就像是一棵决

策树一样,通过非常简单的步骤,利用人的知识和识别能力,有效地完成了对图像的识别分类任务。

在计算机视觉方面,众包也是有很多应用的。比如给出两张绘画的图片,这两张图片的差

异很大,但是我们希望知道这两张图片的绘画风格是不是一样的。

对计算机来说,识别两张图片的颜色是不是一致、描述这两张图片里面的是不是同一件东

西或许做起来还可以,但是对于绘画风格这样的概念,是很难让计算机实现的,因为绘画风格这种东西的确很抽象,两张使用不同的色彩、完全不同的绘画,可能同属一个绘画风格,或者出自一位画家之手。

小可:的确,这样的工作由人来做的确可以相对轻松地完成,毕竟人对这种抽象概念的认

识还是要强于计算机很多的。如果这个人略懂艺术的话,那么对于绘画风格这样的抽象概念也就可以在很短的时间内进行很有效的分辨。

Mr. 王:其实在数据库中,也有众包的例子。比如模糊匹配问题。假如有一个人叫张三,

在有些数据库记录中,可能被记作“张三”“、Zhang San”“、San Zhang”“、S.Zhang”“、Zhang,San”等,即使两个名字是不同的形式,他们也可能是同一个人。在一些情况下让计算机来做匹配也是有难度的,计算机往往会通过一些形如字符串匹配这样的方法来判断两个名字是不是一个人,这样仍然不够准确。另外,很多名字相同的人,反而不是一个人,不过如果人参与识别的话,判断两条记录是不是一个人,就可以通过比较名字、在现实世界的一定范围内是不是有重名的人,或者是看看各关键字相关的记录,比如头衔、住址这样的信息进行匹配。这些内容有时也是模糊的,比如同一个地址的描述方式有很多,但人依然容易识别它们,可以通过各种模糊逻辑处理方法来解决匹配问题。所以有些系统会借助人的力量来完成这种工作,让人参与到数据库记录的匹配和连接中去,实现更高精度和更好效果的连接。在这方面典型的例子是CrowdDB,如果你感兴趣,可以查阅关于CrowdDB 的一些论文。

内容来源:灯塔大数据 文章编辑:柯一

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2017-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 《Deep Learning》中文印前版开放下载,让我们向译者致敬

选自GitHub 机器之心整理 参与:蒋思源 《Deep Learning》中文版(印前版)正式发布。这本书适合于各类读者,尤其是学习机器学习的本科或研究生、深...

39170
来自专栏磐创AI技术团队的专栏

热点 | 四月最佳Github项目库与最有趣Reddit热点讨论(文末免费送百G数据集)

14320
来自专栏PaddlePaddle

一周AI资讯|以后的视频解说,可能是AI写出来的?

刚刚过去的一周,AI不仅晋升为游戏赢家,还逐步掌握看视频写故事和看笔迹鉴定国籍的能力。更多精彩可来围观本周AI资讯,预计阅读时间4分钟。

12010
来自专栏AI科技评论

业界 | 一文看懂谷歌 NYC 算法与优化业务全景(附重点论文下载)

AI 科技评论消息,众所周知,谷歌的研究团队遍布世界各地,而纽约自然也是非常重要的一个地点,尤其是多个谷歌算法研究小组的孕育地。目前,谷歌算法优化团队为谷歌产品...

37660
来自专栏量子位

这个变态级难度的小游戏,只为证明:人类的聪明没那么简单

先别说话。 给自己几分钟的时间,玩一下这个游戏,看看是否能顺利通关。几分钟就好,别为难自己。因为普通人通关平均需要20分钟。 游戏地址:https://high...

36760
来自专栏机器学习算法与Python学习

报告 | 腾讯知文,从0到1打造下一代智能问答引擎【CCF-GAIR】

2018年7月1日上午自然语言处理专场中腾讯知文算法负责人钟黎就NLP、NLU、dialogue等面临的问题,做了其“从0到1打造下一代智能问答引擎”的报告。

19800
来自专栏AI科技大本营的专栏

AI 技术讲座精选: 数学不好,也可以学习人工智能(二)

【AI100 导读】本系列文章将陆续向大家推荐一些数学用书,今天这篇文章有针对性的介绍了数学不好的人,究竟该怎样学习人工智能。 ? 如果你已经看过本系列的第一篇...

38560
来自专栏机器人网

工业机器人的基本组成及技术参数

工业机器人的基本组成   工业机器人由3大部分6个子系统组成。 3大部分是机械部分、传感部分和控制部分。 6个子系统是驱动系统、机械结构系统、感受系统、机器人-...

46080
来自专栏玉树芝兰

如何用人工智能帮你找论文?

传统的关键词检索论文,浩如烟海的结果让你无所适从?试试人工智能检索引擎。根据你的研究兴趣和偏好,便捷而靠谱帮你找论文。

12610
来自专栏华章科技

17岁高中生都发AI论文了!OpenAI实习生提出分层强化学习新算法

OpenAI 成立近两年,发表了大量研究论文,而这周四的一篇论文却与众不同:其第一作者是名高中生。这位少年英才叫 Kevin Frans,就读于 Henry M...

11930

扫码关注云+社区

领取腾讯云代金券