首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

网络写作,大数据让你无法隐身

不管我们写任何东西,都必定透露大量关于我们自己的个人信息,无论是你在微信发了一条朋友圈,或者是在网络新闻下面发表匿名评论。美国语言学家们向我们揭示了我们的“数字指纹”是怎样出卖我们的,同时,也教给我们一些隐藏自己的小窍门。

“中本聪”之谜

比特币如今是网络上炒作得最火热的货币,但它的创始人中本聪到底是谁,至今仍是个谜。我们所知道的就是,他是个天才、亿万富翁,善于隐藏自己,并且已经撼动了全球金融界。不过专家相信,这个世界上最难以捉摸的人已经被揭露出来了!而揭露他(他们)的正是其写作风格。

2014年,英国阿斯顿大学的一群学生在法医语言学家杰克·格里夫的带领下,分析了中本聪2008年发表的关于比特币的学术论文。他们从“仍然”“只有”这类可有可无的词的使用频率,“和”“但是”前的逗号的使用习惯等线索中,推断出“中本聪”可能是精通加密货币的美国计算机科学家尼克·萨博的笔名。2017年,美国企业和政治专家亚历山大·缪斯声称,美国国家安全局使用过类似的语言识别技术来寻找中本聪,不过,他们并没有公开结果是不是萨博。

虽然尼克·萨博并未承认自己就是中本聪,但这些试图找出中本聪的故事给我们提出了一些有趣的问题:我们每次写东西时是如何暴露自己的身份的?会暴露多少我们的个人信息呢?随着数字通信的激增,我们的微博、微信、邮件中隐藏的关于我们的线索是什么?随着大数据分析的兴起,我们还有什么方法可以隐藏自己吗?

事实上,几个世纪以来,侦探们一直在用书面语言习惯的特征来追捕罪犯。这种分析方法叫作“笔触分析”。现在,计算机笔触分析的应用其实更常见,它是大学计算机专业的必修课程,是大学和出版者检测剽窃的日常工具,也是专家们从罪犯的网络书写记录中划定嫌疑人范围的有效途径。

“魔鬼地带”勒索信

下面,我们来看一个著名的勒索信案例。绑匪绑架了受害人,用电脑打出了一封勒索信,要求其家人把钱留在“魔鬼地带”,否则就撕票。

于是,警察寻求了美国语言学家罗杰·舒易的帮助。舒易知道“魔鬼地带”是一个罕见的俚语,指人行道和街道之间的草地,而事实上,只有俄亥俄州阿克伦市的人会使用这个俚语。当舒易问警察是否有来自阿克伦市的嫌疑犯时,警察非常吃惊。最终,这名来自阿克伦市的嫌疑犯供认了自己的罪行。

这个案例告诉我们,如果你不想让你的语言暴露自己,就要避免使用地区性词汇或其他特殊词汇。可是,只要我们提笔落字,我们就有可能被出卖,举凡字母的大小写,标点后空格的距离,段落是否缩进,句子的长短等文本特征都有可能出卖我们,更不用说介词、连词、人称代词等的使用频率。

研究显示,有些看似毫无意义的语言可能会指向一个人的性格类型、健康状况,甚至是未来的自杀行为。这是由于语言具有非凡灵活性。语言学家认为,我们学会统一的语法之后,就会开始偏离它来表达我们的个性。而现在更普遍的观点是,我们每个人都有自己的语言的心智模型,这是由于我们所处的社会和情感环境不同造成的,所以,语言就像我们的指纹一样,每个人都有不同的语言指纹。

模仿中隐藏?

那么,怎样才能躲避那些试图用你的语言指纹找出你的人呢?有人说,假设有100位作者,每个人都提交了一篇文章,而你不希望被人认出哪篇是你写的,你所要做的就是:让你的文字看起来像其他99位作者之一。

这种方法在某些情况下很有效。在一项研究中,科学家让人们模仿美国著名作家科马克·麦卡锡的写作方式记录自己的早晨,结果,一个用来检测麦卡锡作品的电脑程序竟然被愚弄了:它认为这些文字都是麦卡锡写的!

然而,人们通常不能坚持这种“正确”的改变。在“魔鬼地带”案例中,罪犯故意拼错“警察”和“可以”这两个单词,以伪装成一个受教育程度较低的人,可惜的是,他同时也拼写对了一些很难的单词。事实上,当一个人故意伪装出和自己平时不同的写作手法时,他可能会暴露更多自己的特征。

语言指纹难以伪装,这对侦破刑事案件来说肯定是好事,但是,我们普通人的隐私该怎么办?毕竟,保持匿名是一种合理合法的需求。很多时候,只有匿名的情况下人们才能安心地表达自己的真实想法,例如学者们希望他们在同行的评审中保持匿名。另外,匿名也可能是攸关告密者、政治人士甚至是程序员生死的问题。这里,我们所讨论的程序员并不是指黑客,而是普通程序员——在一些国家或地区,别的地方能用的程序是被当地禁止的,所以有些程序员希望人们能使用一些公开软件,却不希望给自己带来麻烦。

这些情况下,单靠我们个人的模仿能力似乎很难完全隐藏自己。于是,有人提出了让高科技去对付高科技——既然有笔触分析软件,那肯定有反笔触分析软件吧?

事实上,许多支持匿名功能、反笔触分析的程序员正致力于保护匿名的研究。你所要做的就是上传你的文字,让电脑程序告诉你需要改变哪些细节,才不会被笔触分析软件检测出来。

反笔触分析软件

有一个叫“匿名嘴”的匿名软件,其目标就是降低笔触分析的准确性,使其变得像随机猜测。匿名嘴的内核是一个叫JStylo的笔触分析程序。据称,JStylo只需要6500个单词样本就可以创建一个作者的语言指纹,它将文本与作者进行匹配的准确率可以达到80%到85%。如此,匿名嘴就可以通过评估句子长度、单词选择和某些字母的使用频率等功能,建议作者如何修改文本,使其看起来不像是他自己写的。

类似的软件还有一个名为“艾玛身份”的人工智能程序,该程序需要8000个单词样本来建立一个作者的个人资料,匹配准确度是85%。

然而,现实中可以用来训练JStylo和艾玛的样本可能并不充足,而当匿名的文本是一封精心书写的信件或亟待发表的科学论文时,作者可能会跳过使用这些程序来修改的步骤。因此,有研究者设计了一款名为“作者网”的工具,可以给作者提供写作的目标风格,并用一个可视化的仪表盘来提供实时反馈,让作者知道自己写的东西和目标风格的匹配程度。这可以帮助作者更容易、更持久地隐藏他们自己本身的风格。

语言学家告诉我们,其实最具希望的反笔触分析方法很简单,那就是合作写作。一个人写,另一个人编辑,可以有效地互相抵消语言指纹。这可能正是中本聪长期隐瞒自己身份的策略——有些人认为,比特币背后隐藏着的是一个群体,而不是一个人,随着他们的语言指纹错综复杂地交织在一起,他们可能会继续安全地潜伏下去。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180421A07JBP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券