互联网上的时光机器

溯游从之,宛在水中央。

困境

移动互联网时代,搞社会研究的人总是需要从网络采集各种数据。假设你本周的任务是搜集世界主流媒体对某一主题的报道。你好不容易学习并且掌握了搜索引擎的各种窍门后,辛辛苦苦搞到了相关链接。兴冲冲打开一看……

你的心情想必不会很好吧?

华盛顿邮报这样的报纸网站还属于比较稳定的。有的网站内容天生就不稳定

你能不能自己举个例子?

(停下来,给你10秒钟时间思考

……

时间到,我们继续!)

例如这个网站:

维基百科是一款在线的开放百科全书。因为人们都有权利去修改,于是关于某个话题的内容就可能会不断发生变化。有些内容你很感兴趣,一旦不及时存储,几天之后就被可能被某位耿直的仁兄给删掉了。

更要命的是,有的时候你甚至都还没来得及想明白自己该搜集哪些信息,它就已经被改得面目全非了。

例如2016年11月,这位老兄被选上了美国总统。

2016年12月28日,Trump的维基百科的页面是这个样子的。

这个页面显然是近期被编辑过的。因为提到了他当选的事实。

假如你是个研究者,打算分析一下Trump从参加竞选至今的维基百科内容变动情况,可能会对自己之前的懒惰追悔莫及——我要是一直持续检索并且存储了Trump维基页面的文本,该有多好啊!

我积攒了那么多Hillary Clinton的数据干嘛?!

你不用那么后悔。谁知道Trump会当选呢?连美国主流媒体都几乎没有一个预测准确的。

都说世界上没有后悔药。这个定律在互联网上嘛,可能还有些商量的余地。

这篇文章就给你介绍那么一种后悔药——互联网上的“时间机器”。

快照

这种工具可以帮助你回到之前的某个时点,看当时互联网上某个链接的内容和状态。工具的名称多种多样,但是本质上就是网页内容的快照。这就像是你小时候照了一张照片,今天再拿出来看,身高、体重都发生了变化,可是那张照片并不会变,忠实地记录了你当时的样子。

每隔一段时间,许多机构都会对互联网上内容进行快照,就是留存一份档案

对互联网进行快照是个很繁复的工作,而且成本很高,因此你不能指望自己能获得互联网每时每刻的状态存档。两次快照中间的间隔也许是几分钟、几天、几个月或者更久。不过,对于许多应用场景来说,这种快照已经很实用了。

很多互联网用户并不知道这些快照档案的存在,更不知道如何检索和使用它们。如果你恰巧就是其中之一,没关系,往下读。

检索

本文我们采用一款免费在线工具CachedView来举例说明互联网“时间机器”的使用方法。

首先你得把Trump的这个维基百科页面链接复制下来。

在CachedView里面,输入这条链接。

下面有4个按钮,分别是Google网页快照、Coral网页快照、Archive.org快照和当前版本。

点击绿色按钮,查看Google快照,结果是这个样子的。

看着怎么这么眼熟呢?

没错,因为就是你刚才在维基百科上面看到的那篇,一模一样。

为什么?仔细看看左上角显示的快照时间。

原来如此,快照是检索当天的凌晨拍的。

看来Google的快照对于我们的需求用处不大。我们试试第三个按钮,看Archive.org能否带来一些惊喜。

追溯

事实证明,惊喜确实可以有。

放大一下,图片上方提示了archive.org存储了Donald Trump页面的次数——1767次!

自2004年开始,每年维基百科上关于Trump的条目都会做许多次更新。2005年次数比较多,近两年更是创纪录地增长。猜猜为什么?

下面的日历上,用蓝色圆圈的大小来提示修改被存储的次数。

这是2016年全年的情况。可以看到一些很大的圆圈。代表一天之内,页面就被修改许多回。

2016年11月9日这一天,被存储下来的修改一共发生了20次。频繁的修改意味着什么?留作思考题。 :-P

我们打开一篇Trump当选之前的页面来看看。

这是2016年10月1日的页面。与我们之前看到的维基百科当前页面不同,那时候他还不是president-elect。不过照片与目前是一致的,而且介绍里面他已经被标为了政治家(或者政客?),谁知道politician这个词儿该怎么翻译?

如果你一路追踪回去,就能看见显著的差异。我们翻到了2004年7月的一天。当时Trump的页面落户维基百科时间不久,是这个样子的:

这页面里面还有维基百科募捐的广告呢。照片不知怎么找不到了。不过看到正文,我们会感觉明显的差异。那时候,他还只是被称为商人。

1700多个快照,慢慢浏览吧。 :-P

讨论

以上就是互联网“时光机器”——快照检索工具——的使用方法。相信你已经学会了,希望对你的学习、工作和科研能有些益处。

多说两句,也是我平时嘱咐自己学生的碎碎念——千万不要在网上发布一些自己10年甚至20年之后回看起来会后悔的东西。因为互联网这玩意儿有记忆

如果你以为删除键可以帮助你抹掉互联网的记忆,那你错了

本文读后你的感受是什么?你还知道哪些好工具,可以帮助你检索获得互联网额历史信息?欢迎留言,咱们一起讨论。

原文发布于微信公众号 - 玉树芝兰(nkwangshuyi)

原文发表时间:2016-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏携程技术中心

干货 | 关于反爬虫,看这一篇就够了

你被爬虫侵扰过么?当你看到“爬虫”两个字的时候,是不是已经有点血脉贲张的感觉了?千万要忍耐,稍稍做点什么,就可以在名义上让他们胜利,实际上让他们受损失。 一、为...

426110
来自专栏SDNLAB

OpenStack安全问题:缺乏自卫武器

大家可能还记得Alexander Adamov在2015年5月的一篇关于“云端检测针对性的网络攻击”的文章,现在他给我们带来了OpenStack东京安全峰会的一...

29160
来自专栏智能计算时代

物联网设备和应用程序涉及协议的概述

物联网设备和应用程序涉及协议的概述。 帮助澄清IoT层技术栈和头对头比较。 物联网涵盖了广泛的行业和用例,从单一受限制的设备扩展到大量跨平台部署嵌入式技术和实时...

56050
来自专栏Golang语言社区

HTML5对APP开发最终用户的三大优势

一、大幅降低使用门槛   为什么流媒体会替代下载视频成为主流?为什么页游会如此火爆?只因用户太“懒”。让用户更方便的满足需求,有时效果好于更多的满足需求。  用...

38560
来自专栏SAP梦心的SAP分享

记一次SAP新业务开发项目

       直到笔者写这篇博文的时候,这个开发项目名义上已经上线,但其实开发以及优化的工作还在继续,数据的修复也仍在继续...

14800
来自专栏小文博客

腾讯云年中大促,低至三折优惠

站长朋友们注意啦,最近腾讯云活动不断,新出活动腾讯云年中大促,部分热销商品限时5折,更有年付三折优惠,现在购买服务器再合适不过了。已有腾讯云服务器的站长朋友也不...

55640
来自专栏程序员互动联盟

【程序人生】糟糕的程序员你会做?

一个好程序员不好做,那么一个糟糕的程序应该不难吧! 秘籍一:让你看不懂我写的是什么 都说让人看不懂的代码,才是牛逼代码。一类是算法高深,一般人实在是看不懂。另一...

33180
来自专栏ThoughtWorks

再看API设计——从黑客的角度 | TW洞见

今日洞见 文章作者、部分图片来自ThoughtWorks:贺思聪。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体...

32440
来自专栏编程之旅

iOS漫谈——对于项目架构的思考

又一次的版本更新上架,心情容不得片刻舒缓,新的迭代任务又明白的摆在桌面上。今年上半年自己琢磨完ReactiveCocoa之后,对手上了项目做了MVVM架构的尝试...

14330
来自专栏小文博客

腾讯云年中大促,低至三折优惠

1.1K60

扫码关注云+社区

领取腾讯云代金券