前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >互联网上的时光机器

互联网上的时光机器

作者头像
王树义
发布2018-08-22 15:57:08
5820
发布2018-08-22 15:57:08
举报
文章被收录于专栏:玉树芝兰玉树芝兰

溯游从之,宛在水中央。

困境

移动互联网时代,搞社会研究的人总是需要从网络采集各种数据。假设你本周的任务是搜集世界主流媒体对某一主题的报道。你好不容易学习并且掌握了搜索引擎的各种窍门后,辛辛苦苦搞到了相关链接。兴冲冲打开一看……

你的心情想必不会很好吧?

华盛顿邮报这样的报纸网站还属于比较稳定的。有的网站内容天生就不稳定

你能不能自己举个例子?

(停下来,给你10秒钟时间思考

……

时间到,我们继续!)

例如这个网站:

维基百科是一款在线的开放百科全书。因为人们都有权利去修改,于是关于某个话题的内容就可能会不断发生变化。有些内容你很感兴趣,一旦不及时存储,几天之后就被可能被某位耿直的仁兄给删掉了。

更要命的是,有的时候你甚至都还没来得及想明白自己该搜集哪些信息,它就已经被改得面目全非了。

例如2016年11月,这位老兄被选上了美国总统。

2016年12月28日,Trump的维基百科的页面是这个样子的。

这个页面显然是近期被编辑过的。因为提到了他当选的事实。

假如你是个研究者,打算分析一下Trump从参加竞选至今的维基百科内容变动情况,可能会对自己之前的懒惰追悔莫及——我要是一直持续检索并且存储了Trump维基页面的文本,该有多好啊!

我积攒了那么多Hillary Clinton的数据干嘛?!

你不用那么后悔。谁知道Trump会当选呢?连美国主流媒体都几乎没有一个预测准确的。

都说世界上没有后悔药。这个定律在互联网上嘛,可能还有些商量的余地。

这篇文章就给你介绍那么一种后悔药——互联网上的“时间机器”。

快照

这种工具可以帮助你回到之前的某个时点,看当时互联网上某个链接的内容和状态。工具的名称多种多样,但是本质上就是网页内容的快照。这就像是你小时候照了一张照片,今天再拿出来看,身高、体重都发生了变化,可是那张照片并不会变,忠实地记录了你当时的样子。

每隔一段时间,许多机构都会对互联网上内容进行快照,就是留存一份档案

对互联网进行快照是个很繁复的工作,而且成本很高,因此你不能指望自己能获得互联网每时每刻的状态存档。两次快照中间的间隔也许是几分钟、几天、几个月或者更久。不过,对于许多应用场景来说,这种快照已经很实用了。

很多互联网用户并不知道这些快照档案的存在,更不知道如何检索和使用它们。如果你恰巧就是其中之一,没关系,往下读。

检索

本文我们采用一款免费在线工具CachedView来举例说明互联网“时间机器”的使用方法。

首先你得把Trump的这个维基百科页面链接复制下来。

在CachedView里面,输入这条链接。

下面有4个按钮,分别是Google网页快照、Coral网页快照、Archive.org快照和当前版本。

点击绿色按钮,查看Google快照,结果是这个样子的。

看着怎么这么眼熟呢?

没错,因为就是你刚才在维基百科上面看到的那篇,一模一样。

为什么?仔细看看左上角显示的快照时间。

原来如此,快照是检索当天的凌晨拍的。

看来Google的快照对于我们的需求用处不大。我们试试第三个按钮,看Archive.org能否带来一些惊喜。

追溯

事实证明,惊喜确实可以有。

放大一下,图片上方提示了archive.org存储了Donald Trump页面的次数——1767次!

自2004年开始,每年维基百科上关于Trump的条目都会做许多次更新。2005年次数比较多,近两年更是创纪录地增长。猜猜为什么?

下面的日历上,用蓝色圆圈的大小来提示修改被存储的次数。

这是2016年全年的情况。可以看到一些很大的圆圈。代表一天之内,页面就被修改许多回。

2016年11月9日这一天,被存储下来的修改一共发生了20次。频繁的修改意味着什么?留作思考题。 :-P

我们打开一篇Trump当选之前的页面来看看。

这是2016年10月1日的页面。与我们之前看到的维基百科当前页面不同,那时候他还不是president-elect。不过照片与目前是一致的,而且介绍里面他已经被标为了政治家(或者政客?),谁知道politician这个词儿该怎么翻译?

如果你一路追踪回去,就能看见显著的差异。我们翻到了2004年7月的一天。当时Trump的页面落户维基百科时间不久,是这个样子的:

这页面里面还有维基百科募捐的广告呢。照片不知怎么找不到了。不过看到正文,我们会感觉明显的差异。那时候,他还只是被称为商人。

1700多个快照,慢慢浏览吧。 :-P

讨论

以上就是互联网“时光机器”——快照检索工具——的使用方法。相信你已经学会了,希望对你的学习、工作和科研能有些益处。

多说两句,也是我平时嘱咐自己学生的碎碎念——千万不要在网上发布一些自己10年甚至20年之后回看起来会后悔的东西。因为互联网这玩意儿有记忆

如果你以为删除键可以帮助你抹掉互联网的记忆,那你错了

本文读后你的感受是什么?你还知道哪些好工具,可以帮助你检索获得互联网额历史信息?欢迎留言,咱们一起讨论。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 玉树芝兰 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 困境
  • 快照
  • 检索
  • 追溯
  • 讨论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档