验证码的故事 (2)

上次我们说到了路易斯·冯·安(Luis von Ahn)发明的,既能拦截网络垃圾 spam、又能顺便帮助进行古籍的数字化工作的验证码工具--reCAPTCHA。今天继续这个话题的后续故事。

reCAPTCHA 在 2009 年被 Google 收购。在其作为验证码本职工作之外,承担了数字化 Google Books 和 Google 新闻档案计划的部分任务。到了近两年,有很多使用 reCAPTCHA 服务的网站上,验证码的内容发生了变化:一半仍然是扭曲的单词,而另一半则是一张带有数字的照片。这其实是 Google 对于 reCAPTCHA 的一项新用途。

这些带有数字的照片来自于 Google 街景,多数是街景车所拍摄到的门牌和街道地址,也包括街道名称、甚至交通标志等。由于从街景里提取如街道地址和交通标志等数据,向地图里添加商铺地址和位置等有用信息是件极为庞大而繁琐的工作。因此 reCAPTCHA 的识别能力对解决这个问题可以起到很大的帮助。

当然 reCAPTCHA 不会只因为你输入正确第一个单词,就认为你对于门牌的输入同样正确。不然这个系统对于“聪明”的人类来说实在太不智能了,识别结果的准确性也会受到很大影响。

街景团队也并非完全依赖 reCAPTCHA 来进行门牌图像识别,他们自己也在不断开发新的算法来识别拍摄图像中的信息。据称,他们在去年ICLR(International Conference on Learning Representation)会议上发表的论文中,所采用的算法已经可以识别街景中 90% 以上的门牌信息。

那么问题来了:

如果用街景的识别算法去识别 reCAPTCHA 中的验证码,会怎样?

如果可行,那是不是意味着验证码防范机器的时代已经过去?

Google 方面表示,确实可以识别 99% 以上的文字验证码,这表示不能只依靠扭曲的文字图形来区分机器和人。实际上,他们已经开始采用更复杂的分析方式来进行区分,包括 IP、Cookie 甚至鼠标移动方式等数据。reCAPTCHA 对于识别出文字的判定依赖已经远远低于以前。输入验证码这个过程只是一个线索,Google 现在将它看作是“一种互动媒介,用以引出定义人类和机器人特征的各种各样的线索。”

原文发布于微信公众号 - Crossin的编程教室(crossincode)

原文发表时间:2015-01-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员维他命

《如何高效学习》- 读书笔记

本书介绍了整体性学习法:强调在学习过程中,需要通过比喻和抽象的方法,将新知识与旧知识相互联系,以提高学习效率和深度的学习方法。

4252
来自专栏AI研习社

能理解聊天记录的微信机器人 (三)

聊天机器人部署了一周了。花了几个小时的时间做了一些改动,有意思的部分主要有: 和 ElasticSearch 和 Kibana 连了起来,现在有了实时监控和可视...

3088
来自专栏机器之心

用自然语言教育人工智能:百度新算法发展出zero-shot学习能力

选自Baidu Research 机器之心编译 百度最新的研究使用监督学习和强化学习的组合开发了一个系统,该系统允许虚拟教师( virtual teacher)...

3039
来自专栏AI科技大本营的专栏

AI技术讲座精选:数学不好,也可以学习人工智能

【AI100导读】越来越多工程师想学习大热的深度学习,但深度学习技术需要数学功底,数学不好怎么办?这篇文章可以提供成为深度学习工程师的数学路径。 如果你像我一样...

3316
来自专栏数据科学与人工智能

【大规模机器学习】大规模机器学习流程的构建与部署

大规模机器学习流程的构建与部署 现在有许多的机器学习算法实现是可以扩展到大数据集上的(其中包括矩阵分解、SVM、逻辑回归、LASSO 等等)。实际上,机器学习专...

30510
来自专栏PPV课数据科学社区

TensorFlow产品经理:机器学习如何改变未来十年的软硬件?

本文为你分享Google产品经理关于机器学习工具的讲座概要。 最近,Google Brain员工,TensorFlow产品经理Zak Stone在硅谷创业者社群...

2934
来自专栏从流域到海域

机器学习自动化:警惕炒作!

原文地址:https://dzone.com/articles/machine-learning-automation-beware-of-the-hype

3016
来自专栏CSDN技术头条

谷歌邮件智能回复系统:基于循环神经网络构建

【编者按】Google将为其Gmail应用推出一项称为智能回复(Smart Reply)的新功能,这篇博文解析了Smart Reply的技术原理:建立在一对循环...

2155
来自专栏CDA数据分析师

9月机器学习开源项目Top10

【导读】我们从过去一个月近 250 个有关机器学习的开源项目中,精心挑选出了最热门的 10 个。在挑选过程中,我们始终在各个项目之间作比较。Mybridge A...

1064
来自专栏AI科技大本营的专栏

文因互联鲍捷:深度解析知识图谱发展关键阶段及技术脉络 | 公开课笔记

知识图谱是人工智能三大分支之一——符号主义——在新时期主要的落地技术方式。该技术虽然在 2012 年才得名,但它的历史渊源,却可以追溯到更早的语义网、描述逻辑、...

1505

扫码关注云+社区

领取腾讯云代金券