再见了,打码平台:对抗打码平台的验证码思路

某日,一朋友深夜微信上问我,如果打码平台盯上了你,你该咋整? 政治正确的回答方式是:加强风控策略,多维度判断使用者意图,减低对验证码的依赖。 显然这不是我或者朋友真正想要的,现在不少企业面对打码平台有时候束手无策,只能放弃对验证码的依赖,我觉着有点可惜。

我们先来回顾一下,验证码的学名是啥?

图灵测试。

图灵测试的目的是为了区分人与机器,而打码平台的加入使得这个过程立即无效——打码平台上活跃的对象还真是人。

但这样就没辙了么?

No。这“人”与“人”之间是有差别的。我们仔细想想,我们加入验证码的目的其实除了图灵测试之外还有一个重要的潜在期望——我需要知道你的确是你。

绝大部分需要部署验证码的地方其实都有具体和人或行为关联的信息,例如登录、下单、领券、支付等;少数部分信息可能和人没有那么强的关联,比如搜索、匿名评论等。可无论如何,验证码是对一个具体的动作进行“人”机识别需要时才产生的。这里指的“人”是某些信息本身的拥有者。

我们看看过去的验证码都有什么类型:

1、字符型验证码

这个太简单了,不再举例。

顺便吐槽一下,就算是个简单的字符型验证码,很多人却设计的像狗屎,这其中包括了一些安全公司或具有安全属性的产品。基本的字符黏连、形变都没有,光用夸张的混淆色、噪点,一个二值化就如同裸体相亲一样让人一见长短,实在垃圾。

2、短信验证码

这种类型的验证码分为两种(用户主动发送和用户被动接收),通常用在多因素认证中。

被动接受型的验证码对于验证码发起方(服务器)来说成本很高(短信收费)。有些情况下,短信验证码本身就是需要被保护的对象(短信轰炸)。

主动发送型验证码对于用户体验极差(需要用户进行大量操作,用户需要为你的风控策略付费),除非这项业务已被垄断(例如某购票系统),否则老板几乎不会同意你这么做的。

况且这两种验证码都有收码平台可以无缝覆盖,单纯用作图灵测试没啥意义。

3、问答验证码

这是一个大类,包括百度贴吧的看拼音选汉字的验证码、12306的看文字选图片验证码、Google norecaptcha的二次图片验证,或者网上爆料出来叫你展开傅里叶级数统统都是问答型验证码的一种。

这种验证码的前身是题库,题库本身存在中容易被穷举的弊端。其他“高级”问答型验证码的安全性,则除了依赖计算机视觉功能受限外,还依赖于人类的认识活动无法被机器模拟的大前提。

对于打码平台来说,问答型验证码还是轻而易举的(你要是用高数题作验证码算我没说)。

4、字符型行为验证码

常见的有Google norecaptcha第一次验证或者常见的一些拖动型的验证码。这些验证码每个都声称自己用了什么机器学习、大数据分析、人类行为建模等等一大堆听起来就很牛逼的技术。

5、语音验证码

语音验证码大多属于无障碍设施的一种,为的是视障人士也能正常通过验证,后来演化成对抗猫池的方向之一(需要接听来电)。之前还出现过Google recaptcha被Google自己的语音识别API干翻的趣事,这里也不再一一展开。

上面这些验证码呢,应该基本覆盖了日常能见到的绝大部分场景,也是打码平台或者收码平台存活下去的基础。

大家有没有发现,这些验证码有一个共同的特点:上下文无关。

这里我们定义一个概念:上下文无关验证码。

上下文无关验证码是一个问题与答案或规律一一对应的集合,对于任意给定问题,一定能通过问题本身得出答案。

同学们,划线部分是重点,打码平台要考啊!!!

用通俗一点的话说,就是任意的验证码都是完全独立和与具体场景的上下文无关的。比如说,我的这个验证码既可以在登录场景中能用到,也能在下单场景上使用,无论是对A用户还是对B用户,同样的验证码也能适用。甚至说,你把验证码随便截个图发给IM上的好友,他立马知道什么意思。某购票系统的验证码变态吧,但是你试试看把他截个图别人能答不能答?

既然验证码的应用有场景性,也有具体的上下文,那我们以前都没用到几个“参数”,我们是不是可以考虑用它一下?

我们再定义一个概念:上下文相关验证码。

上下文相关验证码是一个上下文、一个问题与一个答案对应的三元组,对于任意给定问题,能且仅能在具体上下文下得到对应答案。

这里的问题设计是有技巧的,它需要满足一个条件:上下文包含的内容中存在用户不愿或不宜公开的信息,且该信息服务器知晓。

用一句话来形容一下这一类的验证码:就算截图发给基友,他也不能给出正确答案。

怎么,这样的形容很模糊,不够形象?

那我举个具体的例子,场景是登录。

以前,当一个人的登录行为遇到风控策略时,往往会在输入账号密码的同时输入验证码。

现在,我们把验证码输入策略稍稍往后推一步——在用户提交完账号和密码后要求输入这样一个验证码:

我们设想一下,如果机器或打码平台需要识别出这个验证码要满足什么条件:

做题者需要是人,或具有相当精度的OCR工具(OCR识别几乎不能有错);

做题者需要知道这个提交者的账号和密码明文;

那么,这样一样来,先不说打码平台如果能实现后费用必须各种增加,光这第二点就会把打码者和攻击者之间的利益约束消灭:既然我已经知道了账号密码,要你攻击者何用?而对于做题者即是提交者来说,这样的设计不会带来什么问题。

我们显然可以推测——攻击者自身无法通过OCR识别这个验证码的话,也不愿意将这种类型的验证码往外众包。否则,打码平台或者打码者可以开展大型的黑吃黑活动(如果界面上有水印,做题者还知道这个验证码的来源),攻击者的风险与收益不再成比例,自然也没有人愿意搞事儿了。

除了登录场景之外,我们在下单、领券、加好友等等的时候也可以应用类似的策略:

请选择下图中您手机号【没有/有】包含的数字。

请选择下图中您地址中【包含/不包含】的【省份/县市/具体地址】。

请选择下图中您获取优惠券名称中【包含/不包含】的汉字。

请选择您要添加的好友名称。

可惜的是,这个验证码部署成本很高。因为它不在像之前的验证码一样,能够做到“一次设计处处可用”。上下文相关验证码则必须对具体场景的上下文设计一个具体策略,这点和风控与业务的高耦合很像。部分大厂也部署了类似的策略,只不过他们更多的把它定义为“安全验证”。

本文只是抛了块砖,希望给大家在设计验证码的时候可以有一个新的思路。标题可能有些夸张,还请海涵。

原文发布于微信公众号 - FreeBuf(freebuf)

原文发表时间:2017-04-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯大讲堂的专栏

这个月起,在这座城市没带身份证也能住酒店了!

1816
来自专栏大数据文摘

揭秘:对美国国安局(NSA),大多加密技术形同虚设

1505
来自专栏镁客网

三星Note 5外观大曝光,安兔兔跑分成绩不错

1665
来自专栏人人都是极客

10个轻松上手制作的Arduino项目,嵌友来试试!

创建Arduino项目可以给您带来很大的满足感,但很多时候初学者不知道从哪里开始。启动创建项目时需要考虑很多事情,如果您没有制作的经验,那可能会令人困惑。正是因...

2413
来自专栏大数据文摘

可视化脑洞|1896年以来奥运奖牌数据背后的故事

1698
来自专栏程序员宝库

用信鸽来解释 HTTPS

密码学是一门难以理解的学科,因为它充满了数学定理。但是除非你要实际开发出一套加密算法系统,否则你是没必要强制理解那些深奥的数学定理的。

1031
来自专栏java思维导图

用信鸽来解释HTTPS

链接:https://www.oschina.net/translate/https-explained-with-carrier-pigeons

1043
来自专栏java一日一条

程序员有哪些电脑技能让外行感到神奇?

大学的时候,系里的机子都是win 2k。晚上赶项目,我和一个哥们在楼下的平房里折腾数据,到了九点多,没什么进展,就出来看看,对面系楼一片漆黑,就一间屋亮着。

1503
来自专栏C/C++基础

WinKawaks加拳皇97rom包在PC搭建拳皇97

昨晚折腾到凌晨3点多才睡觉,本想下载一个拳皇97到自己的电脑玩玩,结果网上的各种资源都是暗含附带程序和各种广告,最终没有下载到满意的拳皇97。无奈之下,自己琢磨...

3662
来自专栏Vamei实验室

程序员电邮札记

“Across the Great Wall, we can reach every corner in the world”。 这是1987年从中科院计算机所...

1827

扫码关注云+社区

领取腾讯云代金券