网络写作，大数据让你无法隐身

文章来源：企鹅号 - 大科技杂志社

不管我们写任何东西，都必定透露大量关于我们自己的个人信息，无论是你在微信发了一条朋友圈，或者是在网络新闻下面发表匿名评论。美国语言学家们向我们揭示了我们的“数字指纹”是怎样出卖我们的，同时，也教给我们一些隐藏自己的小窍门。

“中本聪”之谜

比特币如今是网络上炒作得最火热的货币，但它的创始人中本聪到底是谁，至今仍是个谜。我们所知道的就是，他是个天才、亿万富翁，善于隐藏自己，并且已经撼动了全球金融界。不过专家相信，这个世界上最难以捉摸的人已经被揭露出来了！而揭露他（他们）的正是其写作风格。

2014年，英国阿斯顿大学的一群学生在法医语言学家杰克·格里夫的带领下，分析了中本聪2008年发表的关于比特币的学术论文。他们从“仍然”“只有”这类可有可无的词的使用频率，“和”“但是”前的逗号的使用习惯等线索中，推断出“中本聪”可能是精通加密货币的美国计算机科学家尼克·萨博的笔名。2017年，美国企业和政治专家亚历山大·缪斯声称，美国国家安全局使用过类似的语言识别技术来寻找中本聪，不过，他们并没有公开结果是不是萨博。

虽然尼克·萨博并未承认自己就是中本聪，但这些试图找出中本聪的故事给我们提出了一些有趣的问题：我们每次写东西时是如何暴露自己的身份的？会暴露多少我们的个人信息呢？随着数字通信的激增，我们的微博、微信、邮件中隐藏的关于我们的线索是什么？随着大数据分析的兴起，我们还有什么方法可以隐藏自己吗?

事实上，几个世纪以来，侦探们一直在用书面语言习惯的特征来追捕罪犯。这种分析方法叫作“笔触分析”。现在，计算机笔触分析的应用其实更常见，它是大学计算机专业的必修课程，是大学和出版者检测剽窃的日常工具，也是专家们从罪犯的网络书写记录中划定嫌疑人范围的有效途径。

“魔鬼地带”勒索信

下面，我们来看一个著名的勒索信案例。绑匪绑架了受害人，用电脑打出了一封勒索信，要求其家人把钱留在“魔鬼地带”，否则就撕票。

于是，警察寻求了美国语言学家罗杰·舒易的帮助。舒易知道“魔鬼地带”是一个罕见的俚语，指人行道和街道之间的草地，而事实上，只有俄亥俄州阿克伦市的人会使用这个俚语。当舒易问警察是否有来自阿克伦市的嫌疑犯时，警察非常吃惊。最终，这名来自阿克伦市的嫌疑犯供认了自己的罪行。

这个案例告诉我们，如果你不想让你的语言暴露自己，就要避免使用地区性词汇或其他特殊词汇。可是，只要我们提笔落字，我们就有可能被出卖，举凡字母的大小写，标点后空格的距离，段落是否缩进，句子的长短等文本特征都有可能出卖我们，更不用说介词、连词、人称代词等的使用频率。

研究显示，有些看似毫无意义的语言可能会指向一个人的性格类型、健康状况，甚至是未来的自杀行为。这是由于语言具有非凡灵活性。语言学家认为，我们学会统一的语法之后，就会开始偏离它来表达我们的个性。而现在更普遍的观点是，我们每个人都有自己的语言的心智模型，这是由于我们所处的社会和情感环境不同造成的，所以，语言就像我们的指纹一样，每个人都有不同的语言指纹。

模仿中隐藏？

那么，怎样才能躲避那些试图用你的语言指纹找出你的人呢？有人说，假设有100位作者，每个人都提交了一篇文章，而你不希望被人认出哪篇是你写的，你所要做的就是：让你的文字看起来像其他99位作者之一。

这种方法在某些情况下很有效。在一项研究中，科学家让人们模仿美国著名作家科马克·麦卡锡的写作方式记录自己的早晨，结果，一个用来检测麦卡锡作品的电脑程序竟然被愚弄了：它认为这些文字都是麦卡锡写的！

然而，人们通常不能坚持这种“正确”的改变。在“魔鬼地带”案例中，罪犯故意拼错“警察”和“可以”这两个单词，以伪装成一个受教育程度较低的人，可惜的是，他同时也拼写对了一些很难的单词。事实上，当一个人故意伪装出和自己平时不同的写作手法时，他可能会暴露更多自己的特征。

语言指纹难以伪装，这对侦破刑事案件来说肯定是好事，但是，我们普通人的隐私该怎么办？毕竟，保持匿名是一种合理合法的需求。很多时候，只有匿名的情况下人们才能安心地表达自己的真实想法，例如学者们希望他们在同行的评审中保持匿名。另外，匿名也可能是攸关告密者、政治人士甚至是程序员生死的问题。这里，我们所讨论的程序员并不是指黑客，而是普通程序员——在一些国家或地区，别的地方能用的程序是被当地禁止的，所以有些程序员希望人们能使用一些公开软件，却不希望给自己带来麻烦。

这些情况下，单靠我们个人的模仿能力似乎很难完全隐藏自己。于是，有人提出了让高科技去对付高科技——既然有笔触分析软件，那肯定有反笔触分析软件吧？

事实上，许多支持匿名功能、反笔触分析的程序员正致力于保护匿名的研究。你所要做的就是上传你的文字，让电脑程序告诉你需要改变哪些细节，才不会被笔触分析软件检测出来。

反笔触分析软件

有一个叫“匿名嘴”的匿名软件，其目标就是降低笔触分析的准确性，使其变得像随机猜测。匿名嘴的内核是一个叫JStylo的笔触分析程序。据称，JStylo只需要6500个单词样本就可以创建一个作者的语言指纹，它将文本与作者进行匹配的准确率可以达到80%到85%。如此，匿名嘴就可以通过评估句子长度、单词选择和某些字母的使用频率等功能，建议作者如何修改文本，使其看起来不像是他自己写的。

类似的软件还有一个名为“艾玛身份”的人工智能程序，该程序需要8000个单词样本来建立一个作者的个人资料，匹配准确度是85%。

然而，现实中可以用来训练JStylo和艾玛的样本可能并不充足，而当匿名的文本是一封精心书写的信件或亟待发表的科学论文时，作者可能会跳过使用这些程序来修改的步骤。因此，有研究者设计了一款名为“作者网”的工具，可以给作者提供写作的目标风格，并用一个可视化的仪表盘来提供实时反馈，让作者知道自己写的东西和目标风格的匹配程度。这可以帮助作者更容易、更持久地隐藏他们自己本身的风格。

语言学家告诉我们，其实最具希望的反笔触分析方法很简单，那就是合作写作。一个人写，另一个人编辑，可以有效地互相抵消语言指纹。这可能正是中本聪长期隐瞒自己身份的策略——有些人认为，比特币背后隐藏着的是一个群体，而不是一个人，随着他们的语言指纹错综复杂地交织在一起，他们可能会继续安全地潜伏下去。

发表于: 2018-04-212018-04-21 08:00:30
原文链接：http://kuaibao.qq.com/s/20180421A07JBP00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

网络写作，大数据让你无法隐身

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐