【Science】破解密码“AlphaGo”诞生,训练Gan破解27%LinkedIn测试集密码

【新智元导读】一项新的研究旨在使用生成对抗网络(GAN) 来加快密码破解的速度。斯蒂文斯理工学院的研究人员用类似“AlphaGo”的方法,利用超过 4300 万的LinkedIn 个人资料来训练模型,辅助 hashCat 这一目前最强大的密码猜测程序,破解了 LinkedIn 密码测试组中 27% 的密码。研究者确信,尽管在这次演示中,是PassGAN 在辅助hashCat ,但经过迭代的PassGan会超过HashCat。HashCat 使用了固定的规则,无法自己生成超过6.5 亿个密码。而自行产生规则的PassGan可以创建无限的密码。PassGAN 将在神经网络中增加更多层,并利用更多泄露的密码进行训练。“AlphaGo生成了一些专家从未见过的新策略,” 论文的合著者、斯蒂文斯理工学院的计算机科学家Giuseppe Ateniese 说,“我认为,如果你给PassGAN足够的数据,它就能提出人类无法理解的密码生成规则。”

此前 GAN 多用于图像任务,应用于文本还很少见

上周,信用报告机构 Equifax 宣布,有黑客恶意泄漏了其系统中1.43 亿人的个人信息。这很让人担心,如果黑客想要通过简单地猜测你的密码来访问你的在线数据,那么可能一个小时内就能搞定。现在更多的坏消息来了:研究人员创建了一个 GAN,结合现有工具,利用超过 4300 万的LinkedIn 个人资料来训练模型,猜对了其中四分之一的密码。

John Ripper 和 hashCat 是目前最强大的密码猜测程序,它们使用了几种技术。一种是暴力解码,随机尝试各种字符的组合,直到得到正确的那个。而其他方法则需要此前存在泄露的密码信息,然后通过概率方法,基于以前的密码来推测出现在密码中的每个字符。在一些网站上,这些程序能猜对90%以上的密码。但它们需要多年的人工编码来构建攻击计划。

新的研究旨在通过应用深度学习技术来加快这一进程。斯蒂文斯理工学院的研究人员构建了一个生成对抗网络(GAN),由生成器和鉴别器这两个人工神经网络组成。此前对于 GAN 的应用多集中于图像识别。生成器产生模仿实例(实际照片)的人工输出(如图像),而“鉴别器”努力剔除模仿者,检测出真实的照片。它们彼此完善,直到生成器和鉴别器都变得更好。

“GAN 已经被用于制作逼真的图像,但在文本上的应用还不多。”论文的合著者、斯蒂文斯理工学院的计算机科学家Giuseppe Ateniese 表示。从这一角度上说,将 GAN 应用于密码生成也是一项突破。

PassGan和hashCat结合,能够破解LinkedIn 密码组中27%的密码

斯蒂文斯研究团队创建了一个名为PassGAN 的GAN,并将其与hashCat 的两个版本和John Ripper 的一个版本进行了比较。科学家们为每个工具投喂了一个称作 RockYou 的游戏网站上泄露的上千万条密码,并要求它们自己生成数亿个新密码。然后,他们计算了这些新密码中有多少与LinkedIn 中一组泄露的密码相匹配,以衡量它们的破解成功率。

PassGAN 自行生成了LinkedIn 密码组中12%的密码,而其三个竞争对手的成绩则是6%至23%。但是最好的性能来自于PassGAN 和hashCat 的组合。它们结合在一起,能够破解LinkedIn 密码组中27%的密码。本月在arXiv 上发布的一份研究报告甚至指出, PassGan 生成的“失败”密码看上去都很真实,比如saddracula,santazone,coolarse18。

Gan 生成的唯一密码的数量,以及匹配 RockYou 测试集中密码的数量

“使用GAN来帮助猜测密码是一项新研究,”纽约大学研究这项技术的计算机科学家Martin Arjovsky表示,他这篇论文“证实了简单的机器学习解决方案能够带来关键的优势,但也存在着一些明显的问题。”

使用PassGan、HashCat 和 JTR生成密码的唯一性和创新性比较

纽约市 Cornell Tech 研究计算机安全的计算机科学家Thomas Ristenpart (他并未参与此项研究)说:“我不确定,是否有必要用GAN这样的‘重武器’来实现这样的效果。也许更简单的机器学习技术也可以帮助HashCat(Arjovsky同意)。他还表示,这项工作可以帮助用户和企业衡量密码的安全性。“这种新技术也可能用于生成假密码,以帮助检测违规行为。”

技术解读:PassGan 的输出质量相当于或超越密码生成规则

使用 PassGan、HashCat 和 JTR 在 RockYou 测试集上生成的密码数量比较

在PassGAN 中,研究人员探索了不同的神经网络配置、参数和训练流程,以确定学习和过度拟合之间的适当平衡。具体来说,研究者的贡献如下:(1)显示GAN 可以生成高质量的密码猜测。在实验中,对于RockYou 数据集来说,研究者能够匹配真实用户密码组成的测试集5,919,936个密码中的2,774,269个(46.86%),而匹配LinkedIn数据集43,454,871个密码中的4,996,980个(11.53%)。Pass-GAN生成的与测试集不符的绝大多数密码仍然“看起来像”人为密码;(2)研究展示出其技术与此前最先进的密码生成规则可以一较高下。尽管这些规则是针对评估中使用的数据集进行了专门调整的,但PassGAN的输出质量与密码生成规则相当(在HashCat 中),或者比密码生成规则更好(在John Ripper中);(3)研究结果还表明,PassGAN可用于补充密码生成规则。在实验中,研究者成功地使用了PassGAN 来生成匹配任何密码规则都无法生成的密码。当研究者将PassGAN 的输出与HashCat 的输出相结合时,与单纯使用HashCat 相比,能够匹配从18%到24%的额外唯一密码(4)与密码生成规则相反,PassGAN可以生成几乎无限数量的密码猜测。实验表明,新的(唯一)密码猜中的数量随GAN 生成的密码总数稳步增加。这很重要,因为目前使用规则生成的唯一密码的数量会受到这些规则的密码数据集大小的限制。

使用 PassGan、HashCat 和 JTR 在 LinkedIn 测试集上生成的密码数量比较

PassGan模型使用了下列超参数:

BatchSize ,表示在优化器的每个步骤中在GAN 中传播的训练集中的密码数。

•迭代次数,表示GAN 调用其 forward step 及其反向传播步骤的次数。在每次迭代中,GAN运行一次生成器迭代和一次或多次鉴别器迭代。

每次生成器迭代时鉴别器的迭代次数,表示生成器在每个GAN 迭代中执行的迭代次数。

•模型维数,表示每个卷积层的维数(权重)。

• Gradientpenalty coefficient(λ),其规定了针对其输入,对鉴别器梯度范数(the norm of thegradient of the discriminator)施加的 penalty。增加这个参数可以使得GAN训练的更稳定。

•输出序列长度,表示生成器生成的字符串的最大长度。

•输入噪声向量(seed)的大小,用于确定为了生成样本而将多少个随机 bits 作为输入馈送到G。

• 样本的最大数量,表示要加载的训练项目的最大数量(在PassGAN 中,指密码数量)。

•Adam优化器的超参数:

o学习率,即调整模型权重的频率

o系数β1,规定了梯度的运行平均值的衰减率。

o系数β2,表示梯度的平方的运行平均值的衰减率。

类似于密码破解任务中的“AlphaGo”,能够提出人类无法理解的规则

事实上,CMU 构建的高效神经网络此前已经引发了关注(关于这项研究我们稍后会介绍),而 Ateniese 准备在提交论文进行同行评议之前,先把它和 PassGAN 进行比较。

Ateniese 说,尽管在这次演示中,是PassGAN 在辅助hashCat ,但他“确信” 经过迭代的PassGan会超过HashCat。部分原因在于,HashCat使用了固定的规则,无法自己生成超过6.5 亿个密码。

而自行产生规则的PassGan可以创建无限的密码。Ateniese 说:“此时它正在生成数百万个密码。”Ateniese 还表示,PassGAN 将在神经网络中增加更多层,并利用更多泄露的密码进行训练。

他将PassGAN 与 DeepMind 的AlphaGo 进行了比较。“AlphaGo生成了一些专家从未见过的新策略,”Ateniese 说,“所以我个人认为,如果你给PassGAN足够的数据,它就能提出人类无法理解的规则。

CMU研究简介:用人工神经网络来模拟文本密码对猜测攻击的抵抗能力

现今最主要的验证方式,即人为设定文本格式的密码,面对密码猜测攻击变得处境岌岌可危。然而,现有的通过建模对抗性密码猜测来评估密码强度的方法要么不准确,要么数量级太大且速度太慢,无法进行实时的客户端密码检查。我们在此提出用人工神经网络来模拟文本密码对猜测攻击的抵抗能力,并探索不同的架构和训练方法对神经网络猜测效果的影响。我们证明,神经网络能够比时兴的密码破解方法,如概率上下文无关文法和马尔科夫模型等,更有效地猜测密码。该神经网络还可以被高度压缩到只有几百KB而不影响猜测效果。基于这些结果,我们在 JavaScript 中设置了首个包含原则的密码猜测客户端模型,该模型分析了密码对次秒级延时的任意时段猜测攻击的抵抗能力。总之,我们得到的结果使得密码检查比以前更准确和实用。

使用神经网络预测密码中下一个字符的示例

原文地址:http://www.sciencemag.org/news/2017/09/artificial-intelligence-just-made-guessing-your-password-whole-lot-easier

论文地址:1.https://arxiv.org/pdf/1709.00440.pdf

2.https://www.usenix.org/system/files/conference/usenixsecurity16/sec16_paper_melicher.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-09-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DHUtoBUAA

基于电子海图的水面无人艇全局路径规划

  该论文已经在ICMIR2017会议上发表,附上springer的文献地址 Research and Implementation of Global Pat...

31850
来自专栏智能算法

网页排序算法之PageRank

1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于...

49690
来自专栏PaddlePaddle

【AI核心技术】课程八:卷积网络简介

UAI与PaddlePaddle联合推出的【AI核心技术掌握】系列课程持续更新中!

9530
来自专栏机器之心

深度 | 基于TensorFlow打造强化学习API:TensorForce是怎样炼成的?

选自reinforce.io 机器之心编译 作者:Michael Schaarschmidt、Alexander Kuhnle、Kai Fricke 参与:Pa...

59690
来自专栏量化投资与机器学习

强化学习(Reinforcement Learning)应用于量化投资系列专题(一)——在交易中的应用

今天带来机器学习应用于量化投资系列之 强化学习(Reinforcement Learning)系列(一) 视频来自 YouTube 出自 DeepHack 时...

1.1K100
来自专栏机器学习算法与Python学习

大规模机器学习框架的四重境界

24640
来自专栏专知

无从下手落地问答系统?实用百度开源框架了解一下

【导读】智能问答系统,近两年被炒得热火朝天。然而,刨除花式 PPT以及论文里的各种黑科技,我们最想知道的其实是:这东西到底怎么落地?近日,百度开源了他们的主要面...

35100
来自专栏智能算法

网页排序算法之PageRank

1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于...

44280
来自专栏量子位

众筹项目能否成功?用机器学习预测可以早知道

安妮 编译自 Shrikar Archak 量子位出品 | 公众号 QbitAI Kickstarter是一家美国的众筹平台。自2009年成立至今,已经有36万...

38350
来自专栏ATYUN订阅号

NVIDIA发布了TensorRT 4,极大加速神经机器翻译

NVIDIA发布了TensorRT 4,其新功能可加速GPU上神经机器翻译(NMT)应用的推断。

15940

扫码关注云+社区

领取腾讯云代金券