专栏首页java架构1+1你敲键盘的声音,出卖了你,网友:像极了蔡徐坤
原创

你敲键盘的声音,出卖了你,网友:像极了蔡徐坤

没想到吧,有一天你会被键盘出卖。

对,就是你每日敲击的键盘。当指尖在键盘上跳跃,清脆的噼啪声此起彼落时,你输入的所有信息,包括那些情真意切的词句,那些不欲人知的心事,还有你的网络账户、银行密码……全都被它泄露了。

键盘,还能被黑???

今天,一个叫做Keytap的“黑科技”在国外火了。Keytap通过监听你敲击键盘的声音,就能还原出你输入的内容。

而且,只需要通过你电脑里的麦克风,就能完成声波采集的任务。

在一段发布于网上的Demo里,Keytap作者展示了在iMac+Filco机械键盘环境中,这个算法的优秀程度,请看:

四步偷窥大法

搭建这样一个“偷窥”打字的模型并不难,Keytap算法也已经开源了。跟着做,只要如下四步:

一是,收集训练数据; 二是,搭建预测模型,学习一下数据; 三是,检测出有人在敲键盘; 四是,检测出ta在打什么字。

收集训练数据

Keytap收集数据时,只保留每次敲击前后75-100毫秒的音频。

这就是说,并非连续取样,两次敲击之间有一部分是忽略的。

这种做法是会牺牲一些信息量的。

从敲下按键,到程序受到指令,这之间有随机延时,与硬件和软件都有关系。

比如,按下g键的完整波形长这样:

看图像可以发现,敲击时出现了一个峰值,而再过大约150毫秒,又有一个按键被抬起的小峰值。

这样说来,100毫秒之外的信息也可能有用,不过这里为了简便就忽略了。

最终,收集到的数据长这样:

除此之外,局限性还在于,如果两次按键之间相隔不久,后者落在前者的后75毫秒之内,那数据可能就有些混杂了。

搭个预测模型

这个部分是最能发挥创造力的部分。Keytap用了一个非常简单的方法,分为三步:

1.把收集到的波形的峰值对齐。这样可以避免延时带来的影响。

2.基于相似度指标 (Similarity Metric) ,更精细地对齐波形。

需要更精确的对齐方法,是因为有时候峰值未必是最好的判断依据。

那么,可不可以跳过峰值对齐呢?

之所以第2步之前要先做第1步,是因为相似度指标的计算很占CPU。而第1步可以有效缩小对齐窗口 (Alignment Window) ,减少计算量。

3.对齐后,做简单加权平均。权重也是用相似度指标来定义的。

完成第3步之后,每一个按键都会得出一个平均波形 (a Single Averaged Waveform) ,用来和实时捕捉的数据做比对

Keytap用的相似度指标互相关(Cross Correlation, CC) ,长这样:

这里,Ai和Bi都是某个按键的波形样本,比对就在它们之间进行。CC值越高,表示两者越相似。

当然,也可以用其他相似度指标来做。

顺便一说,两次按键之间的间隔时长,其实也可以用来预测的,但开发者怕麻烦就省略了,勇敢的少年可以去源代码基础上自行实验。

检测出在敲键盘

平均波形和比对标准都有了,可是麦克风实时收录的声音连绵不绝,该和哪一段来比对呢?

这就需要从连续的音频里,找到敲击键盘的声音。

Keytap用了一个非常简单的阈值方法,在原始音频里监测敲击动作:

按下去的时候,会有一个大大的峰值,这就是侦测目标。

不过,这个阈值不是固定的,是自适应 (Adaptive) 的:根据过去数百毫秒之内的平均样本强度来调整的。

检测打了什么字

当系统发现有人在敲键盘,就用相似度指标来测到底按了哪个键,CC值最高的就是答案。方法就像上文说的那样。

现在,代码实现已经开源了,传送门见文底。

不过,作者在博客中说,这个方法目前只有机械键盘适用。

“薯片间谍”

听音识字的研究不止这一个,去年一篇Don’t Skype & Type!Acoustic Eavesdropping in Voice-Over-IP的论文,也提出了Skype & Type(S&T)键盘声音识别算法。

和这个研究类似,根据网络电话Skepe中传出的打字按键声音,在了解了被测者的打字风格和设备类型后,系统能复原敲下了什么。

整个算法搭建过程只有三步:收集信息、数据处理与数据分类。

研究人员事先收集语音电话中键盘敲击声,将这些声音分为两类,即按下声与松开回弹声,随后提取它们的特征。

当听到键盘声时,算法先识别设备类型,再去识别为键盘中的哪个键。和Keytap不同的是,S&T也能适用于非机械键盘了。

研究人员表示,在预测的最可能的前5个字母中,包含正确字母的准确率达到了91.7%。

推测人类讲了什么,AI需要甚至只是一包薯片

什么,觉得太离谱了?Naive。

MIT、微软和Adobe开发的这种看似天方夜谭的算法,只需高速相机透过隔音玻璃,拍摄出薯片袋的振动,算法就会判断说话人是男是女,甚至还原出说了什么。

对,就是这种生活中随处可见的薯片

研究人员表示,声音传播时触碰到周围的物体,会震动形成一股微妙的视觉信号,肉眼无法识别,但高速相机(每秒帧数2000~6000 FPS)可以敏锐捕捉。

除了薯片袋子,研究人员还用铝箔、水杯甚至植物盆栽进行了试验,效果“一如既往的好”。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2019数字音乐市场年度回顾,QQ音乐全面领先

    在我们准备庆祝2020元旦之时,有很多人不知道的是,在2019年的最后一天,有两家粉丝在网上争得不亦乐乎,直到2019最后的一刻。网传华晨宇粉丝想为数字专辑《好...

    刘旷
  • 12万行代码堆出来个「蔡徐坤」

    这样的作品,来自B站UP主NyeJu。他利用代码编辑器为不同关键词显示不同的颜色的原理,生成代码,然后滑动形成视频。

    量子位
  • 你敲键盘的声音,出卖了你 | 附开源代码

    对,就是你每日敲击的键盘。当指尖在键盘上跳跃,清脆的噼啪声此起彼落时,你输入的所有信息,包括那些情真意切的词句,那些不欲人知的心事,还有你的网络账户、银行密码…...

    量子位
  • 你敲键盘的声音,出卖了你 | 附开源代码

    对,就是你每日敲击的键盘。当指尖在键盘上跳跃,清脆的噼啪声此起彼落时,你输入的所有信息,包括那些情真意切的词句,那些不欲人知的心事,还有你的网络账户、银行密码…...

    用户6543014
  • GitHub 上有什么好玩的项目?

    上个月有水友私信问我,GitHub 上有没有比较好玩的项目可以推荐?我跟他说:"有,过两天我整理一下"。

    GitHubDaily
  • GitHub 上有什么好玩的项目?

    上个月有水友私信问我,GitHub 上有没有比较好玩的项目可以推荐?我跟他说:"有,过两天我整理一下"。

    AI算法与图像处理
  • GitHub 上有什么好玩的项目?(附地址)

    上个月有水友私信问我,GitHub 上有没有比较好玩的项目可以推荐?我跟他说:"有,过两天我整理一下"。

    数据派THU
  • GitHub 上有什么好玩的项目?

    上个月有水友私信问我,GitHub 上有没有比较好玩的项目可以推荐?我跟他说:"有,过两天我整理一下"。

    lucifer210
  • GitHub 上有什么好玩的项目?

    上个月有水友私信问我,GitHub 上有没有比较好玩的项目可以推荐?我跟他说:"有,过两天我整理一下"。

    灵魂画师牧码
  • 周杰伦与蔡徐坤超话大战:微博即将取代贴吧?

    7月21日凌晨,在历经近一周的“被迫上岗做数据”后,周杰伦的“野生中老年”粉丝们终于将周杰伦送上新浪微博明星超话排行榜第一名,力压微博第一大流量明星蔡徐坤,一时...

    腾讯大讲堂
  • 蔡徐坤1亿转发量幕后推手被封,能否动摇饭圈文化?|数据会说话

    上周,利用粉丝给偶像刷流量的需求来疯狂牟利的“星援”app被查封,事件曝光后,国内粉丝的追星方式再次掀起热议。

    挖数
  • 蔡徐坤用户画像

    互联网行业经常会做用户调研,通过线下访谈和线上埋点等方式收集用户数据后,最终形成产品主流用户的性别、年龄、职业、喜好、城市等标签数据,这个过程称为“用户画像”。

    挖数
  • 大碗宽面VS律师函警告,爬取10万条微博数据分析吴亦凡自黑式圈粉

    “你看这个面它又长又宽,就像这个碗它又大又圆”。一直被网友们调侃的freestyle梗,没想到真的被说唱导师吴亦凡写成了自黑的歌——《大碗宽面》。由于时间点也挺...

    CDA数据分析师
  • 我试了下《复仇者联盟》AI换脸系列,当了英雄的我现在很慌...

    《复仇者联盟4:终局之战》上映已经有一段时间了,内地累计票房便已突破20亿。电影精彩之处离不开钢铁侠、雷神、美国队长等各位超级英雄的实力支撑。

    小小詹同学
  • 我试了下《复仇者联盟》AI换脸系列,当了英雄的我现在很慌...

    《复仇者联盟4:终局之战》上映已经有一段时间了,内地累计票房便已突破20亿。电影精彩之处离不开钢铁侠、雷神、美国队长等各位超级英雄的实力支撑。

    统计学家
  • 我试了下《复仇者联盟》AI换脸系列,当了英雄的我现在很慌...

    《复仇者联盟4:终局之战》上映已经有一段时间了,内地累计票房便已突破20亿。电影精彩之处离不开钢铁侠、雷神、美国队长等各位超级英雄的实力支撑。

    大数据文摘
  • Python 爬取吴亦凡的 10 万转发数据,扒一扒流量的真假!

    由于时间点也挺凑巧,刚好赶在蔡徐坤发律师函给哔哩哔哩之后,不禁让大家对他们进行一番对比。同为我们印象中的流量明星,吴亦凡跟蔡徐坤之间有什么不一样吗?大伙儿是怎么...

    诸葛青云
  • 爬取吴亦凡微博102118条转发数据,扒一扒流量的真假

    导读:“你看这个面它又长又宽,就像这个碗它又大又圆”。一直被网友们调侃的freestyle梗,没想到真的被说唱导师吴亦凡写成了自黑的歌——《大碗宽面》。由于时间...

    华章科技
  • 大数据解读 | B站火过蔡徐坤的“鬼畜”区巨头们

    近日,蔡徐坤一纸律师函发往B站,律师函内容显示,“B站上存在着大量侵害委托人的内容,且点击率高,传播范围广,影响十分恶劣。这些内容的制作、上传、散布、转载都已侵...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券