前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >黑产用“未来武器”破解验证码,打码小工都哭了

黑产用“未来武器”破解验证码,打码小工都哭了

作者头像
FB客服
发布2018-02-28 16:10:23
2.9K0
发布2018-02-28 16:10:23
举报
文章被收录于专栏:FreeBufFreeBuf

当我们正讨论如何用AI推动产业升级、改变未来生活时,不法分子也在研究AI技术,并通过各种手段非法牟利。近日,腾讯守护者计划安全团队协助警方打掉市面上最大打码平台“快啊答题”,挖掘出一条从撞库盗号、破解验证码到贩卖公民信息、实施网络诈骗的全链条黑产。而在识别验证码这一关键环节,黑产竟已用上AI人工智能技术。该团伙运用AI技术训练机器,极大提升了单位时间内识别验证码的数量,2017年一季度打码量达到259亿次,且识别验证码的精准度超过80%。借此案件,我们也深入研究AI打码平台黑产领域,对其犯罪模式进行剖析。

打码平台:对抗验证码系统而生

对于“验证码”,大家并不陌生。在登录各网站、平台、APP时,经常见到。常见的“验证码”有“字符式”、“字符+点选式”、“滑块拼图式”和难度逆天的“12306式”。

代码语言:javascript
复制
             字符式                                 字符+点选式 
代码语言:javascript
复制
            滑块拼图式                             12306式

验证码(CAPTCHA ,Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自动区分计算机和人类的图灵测试),是区分计算机和人类的一种程序算法,简单解释是一个答题的验证。系统向请求发起方提问,能正确回答的即是人类,反之则为机器。从安全角度讲,CAPTCHA经过不断演化,已成为目前国内外各大互联网公司用于对抗网络黑产恶意行为(如恶意登录)的验证码安全策略,即我们现在俗称的验证码系统。

在网络黑产中,不法分子窃取网站数据库后,需要确认帐号对应的密码是否正确,将有价值的数据通过验证的方式筛选出来,这一过程黑话叫“晒密”,意即撞库。而“晒密”最核心的障碍就是互联网公司设置的验证码安全体系。每天面对数以亿计的“晒密”需求,黑产分子不可能人工逐个识别,而是需要提高“晒密”效率,批量识别。“打码平台”这一专业服务便应运而生。

“打码平台”会与“晒密”软件作者合作:

1) 黑产团伙把盗取的帐号密码信息导入到“晒密”软件,“晒密”软件模拟登录协议,向互联网公司服务器发送登录请求。 2) 服务器检测到登录异常时,会下发验证码,进行安全策略拦截。 3) “晒密”软件将收到的验证码图片发送给“打码平台”,请求将图片转化为字符。 4) 打码平台后台破解验证码,将字符结果返回“晒密”软件,完成“晒密”(撞库)流程。 5) 这些“晒密”后得到的用户信息,则可能被骗子直接用于实施诈骗犯罪。

下面这张图,可以看到“快啊答题”打码平台所涉及的从撞库到晒密再到打码的整个黑色产业链:

早期的打码平台,对验证码的识别基本是通过“人工+OCR降维识别图片”完成。但是,互联网公司的验证码安全策略升级后,包括出现像12306这样识别难度高的验证码体系,“人工+OCR”方式的识别效率降低、成本升高,一段时期内,确实降低了黑产犯罪。

但是,黑产人员并不会因为一条路被堵死,就放弃犯罪,他们又想出了更前沿的手法来应对。目前市面上最大的 “快啊答题” 打码平台就是典型代表,他们运用目前最流行的人工智能AI技术训练机器,大大提高了识别验证码的精准度,也极大提升了犯罪嫌疑人在单位时间内识别验证码的数量。通过这个打码平台管理后台的统计信息显示,2017年1-3月,其打码量达到259亿次,平台累计打码量超过1700亿次。这套AI系统识别验证码成功率非常高,以下图红框标识处为例,当天的整体识别率会输出成日志文件,通过随机调取某日的日志文件,该日整体验证码识别率高达83.4%。

AI技术破解“晒密”低效难题

“快啊答题”打码平台基于主流AI深度学习Caffe框架,使用vgg16卷积核神经网络模型,可以直接输入原始图像(避免了对图像的复杂前期预处理),并能通过深度的机器学习来获得较高的验证码识别率。

(分布式AI验证码识别系统简易流程介绍)

由于不同方式生成的验证码风格迥异,且经常变换,为了实现精准识别,提高准确度,“快啊答题”收集了大量不同风格的样本,并开发了验证码接收与分发模块,输入端对接打码平台,输出端根据验证码类型轮询选择并推送到相应的验证码识别模型,验证码识别完成,返回验证码字符串到打码平台,打码平台确认是否识别正确,并将结果反馈至该分布式AI验证码识别系统进行进一步优化。

(图为识别平台自身的管理界面)

1、生成方法

打码平台犯罪团伙通过以下步骤,迅速低成本地获得海量验证码训练数据:

(1)从互联网公开渠道获取字体样本,输出数字、字母、字母+数字、中文等不同类型验证码识别模型,获得的公开字体库,并且搜集背景图片,如壁纸/风景类图片。 (2)通过工具将不同字体的验证码进行加工处理(加干扰、变形等)后,写入到背景图片中,生成带标定的训练样本。

由于目标问题是不定长度的字符序列识别,生成的训练样本的字符个数也是不定长度的,可以是1-6个任意字符,最多支持6个标签的识别。黑产人员用一系列的验证码生成工具,来生成不同风格的验证码图片,如下图:

(作者通过工具生成的训练样本示例)

(3)打码平台犯罪团伙基于收集到的超过10000个字体库,通过网络采集和字库背景生成训练样本,针对验证码识别业务,积累超过5000万的样本库,覆盖常见验证码模型。由此训练得到的模型具有非常强的适用性,即便新型的验证码变种,也可达到较高识别率。

2、多标签训练

“快啊答题”打码平台的AI系统,能将一张验证码图片作为一个整体,将单字识别转换成单图多标签、端到端的识别出验证码中的所有字符。

针对网络上主流验证码图片一般不超过6个字符的特点,该AI系统设计6个标签的分类,对于少于6个字符的验证码图片,未含字符的标签会判定为负样本不予输出。因此,最终的输出结果只包含给定字符的有效标签。也就是,原本的OCR识别只能简单识别图形上的文字,而在文字变化后识别率就大大降低。而使用Caffe框架,就可以对图形内的局部特征进行分类提取。

“快啊答题”打码平台基于海量训练样本,建立了多标签分类网络来训练验证码的识别网络。汉字的网络训练周期为1个月左右,而英文+数字的网络训练周期则只需要1个星期。

另外,“快啊答题”打码平台还会通过搜集反馈回来的失败样本,以及人工打码的标定数据,来实时训练和更新识别网络,不断迭代训练进行优化,进一步提高神经网络模型的识别能力。

在以往的对抗黑产过程中,由于犯罪行为认定、法律适用等问题,即使对下游从事诈骗的团伙开展打击,但在针对“打码平台”这一犯罪上游环节上,能真正认定为共同犯罪,形成的实际判例非常少,无法实现全链条打击。下游团伙借助“打码平台”死灰复燃,也是多类网络黑灰产屡禁不止的原因之一。在市场上,“快啊答题”打码平台通过对接晒密软件,根据打码数量收取下游使用晒密软件的黑产犯罪团伙费用,而后再按比例进行分成。

像 “快啊答题” 这类的打码平台,不仅破坏了互联网公司的验证码安全体系,也直接或间接的为更多网络黑产提供了帮助。在腾讯守护者计划安全团队和警方的共同努力下, “快啊答题” 平台负责人及核心人员被公安机关以提供侵入、非法控制计算机信息系统程序工具罪批准逮捕。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 FreeBuf 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 打码平台:对抗验证码系统而生
  • “打码平台”会与“晒密”软件作者合作:
  • AI技术破解“晒密”低效难题
    • 1、生成方法
      • 2、多标签训练
      相关产品与服务
      验证码
      腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档