上次我们说到了路易斯·冯·安(Luis von Ahn)发明的,既能拦截网络垃圾 spam、又能顺便帮助进行古籍的数字化工作的验证码工具--reCAPTCHA。今天继续这个话题的后续故事。
reCAPTCHA 在 2009 年被 Google 收购。在其作为验证码本职工作之外,承担了数字化 Google Books 和 Google 新闻档案计划的部分任务。到了近两年,有很多使用 reCAPTCHA 服务的网站上,验证码的内容发生了变化:一半仍然是扭曲的单词,而另一半则是一张带有数字的照片。这其实是 Google 对于 reCAPTCHA 的一项新用途。
这些带有数字的照片来自于 Google 街景,多数是街景车所拍摄到的门牌和街道地址,也包括街道名称、甚至交通标志等。由于从街景里提取如街道地址和交通标志等数据,向地图里添加商铺地址和位置等有用信息是件极为庞大而繁琐的工作。因此 reCAPTCHA 的识别能力对解决这个问题可以起到很大的帮助。
当然 reCAPTCHA 不会只因为你输入正确第一个单词,就认为你对于门牌的输入同样正确。不然这个系统对于“聪明”的人类来说实在太不智能了,识别结果的准确性也会受到很大影响。
街景团队也并非完全依赖 reCAPTCHA 来进行门牌图像识别,他们自己也在不断开发新的算法来识别拍摄图像中的信息。据称,他们在去年ICLR(International Conference on Learning Representation)会议上发表的论文中,所采用的算法已经可以识别街景中 90% 以上的门牌信息。
那么问题来了:
如果用街景的识别算法去识别 reCAPTCHA 中的验证码,会怎样?
如果可行,那是不是意味着验证码防范机器的时代已经过去?
Google 方面表示,确实可以识别 99% 以上的文字验证码,这表示不能只依靠扭曲的文字图形来区分机器和人。实际上,他们已经开始采用更复杂的分析方式来进行区分,包括 IP、Cookie 甚至鼠标移动方式等数据。reCAPTCHA 对于识别出文字的判定依赖已经远远低于以前。输入验证码这个过程只是一个线索,Google 现在将它看作是“一种互动媒介,用以引出定义人类和机器人特征的各种各样的线索。”
本文分享自 Crossin的编程教室 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!