首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据时代对传统文史研究产生的影响

大数据观察

了解大数据,关注大数据观察吧!

每个想了解最新大数据资讯的人,都关注了我

文 / 数据君

在国外,你要做研究,总要问几个问题:什么(what)、为什么(why)、在哪里(where)、怎么样(how)等等。首先要把这些问题搞清楚,才能展开研究。

说到大数据,它究竟是什么?对于研究历史,特别是中国历史有什么意义?怎么使用它来进行研究?要把这些问题搞清楚。

其次,我们还要回答:在历史研究中,大数据到底是万能的灵药还是江湖骗子?这是很多学者特别是人文学者心里始终存在的一个绕不过去的问题。不把这个问题搞清楚,就不会对用大数据研究历史有一个正确的看法。

首先,什么是大数据?若问什么是大数据,就先要问什么是数据。按许多人的理解这就是数字。

数据,在英文中是data,大家从我演示的PPT中可以看到学界对于这个概念的一些最普通的解释。简单来说,数据就是信息或知识经过表达、经过一定的加工或者变成编码。制作数据的目的是什么呢?是让你更好地使用。

数据包括各种字母、符号、语音、图像、图形等等,所以只要你做研究,你就一定要学会使用数据,哪怕你不叫它数据,它还是存在于你的研究当中。那么什么叫大数据呢?

从数据的来源可以看到,它包括各种各样的形式的材料。就这些材料自身来说,它们并没有意义,要对你的研究有用时,才成为一种有用的东西。道理很简单:一本古书放在那里,本身不会产生作用,当你把里面的资料提出来加工、使用时,才会有意义。

什么叫大数据?就是大的数据,但怎么大,大家可以看PPT上的这些解释。简单说来,就是大到靠你个人不可能来收集和加工的数据。靠过去的方法,一个人再聪明,再了不起,没有办法建立大数据来搞研究。大数据必须经过计算机来处理。

我们知道,有一些学者极了不起,例如陈寅恪先生,到晚年时,双目失明,他还可以完全靠记忆给学生讲课,哪一条史料在《新唐书》某卷某页,他都可以说出来。像这样的天才,全世界恐怕找不到几个。但是即使像陈先生这样的天才,他能够记住的信息还是有限的,因为人脑记忆是有限度的。更大量的信息,只有借助于现代技术,也就是说计算机才能够处理。

一般来说,大数据有五个特征,被称为5V特征,即volume(体量)、velocity(速度)、variety(种类)、value(价值)、veracity(真实)。也就是说,要体量大、速度快、种类多、价值高、真实可靠。有了这五个V的信息,才叫大数据。

刚才我说了,大数据是伴随着信息技术产业和互联网行业才出现的。在过去,计算机没有出现之前,是没有大数据的。那个时候在西方发达国家有统计学,统计学家也收集了很多数据,写在纸上,但是很难使用,有时甚至就不能使用。

我们中国有无数的古籍,有没有谁真正能够把它梳理一遍来使用呢?没有,因为这是不可能的。只有当计算机、通信技术、互联网出现之后,这些材料中所包含的信息才能够变成我们能够使用的信息。

扬弃既有研究成果

大数据时代对传统文史研究产生的影响,首先表现在资料上。近些年新推出的电子资源在内容上甚至有超越传统出版物之势,检索的快捷性和精确度,可以令学者省却翻检群书、游历访书之劳。在这样的学术环境下,探讨某些疑难问题可能只需简单检索,许多“悬案”的解决难度也相应大幅度降低。前人因资料局限而不得不大量运用的“理校”“推论”“悟证”诸方法,在大数据时代无疑要重新进行扬弃。

在学术史研究中,清人往往因所见善本不丰而大量运用“理校”法展开研究,其中有的结论或与善本相合或遭善本否定。今人既然已经能够在研究中大量占有善本供校勘,那么这种研究方法虽仍有学习的必要,但其实用性也难免会打些折扣。

大量新材料理应引发大量新结论,一些“常识”或“定论”必然也会随之遭到质疑甚至颠覆,这对于现有的研究自然会有相当明显的刺激作用。近年来学界对于近代学人的成就时有争论,原因之一就在于当时学者以一人之力所做的资料性工作,精度和效率都很容易被数据库所超越。

不少在民国时期“古史辨”中几乎成为公认的定论,随着出土文献的发现而被推翻(典型的例子如对《孙子兵法》的辨伪),足见新材料在某些研究领域确实处于相当核心的地位。

通过数据库重新打捞那些以往不被关注的文献,这实际上仍是发现新材料,其性质与考古相似,亦可称之为当下的“预流之学”(陈寅恪:《敦煌劫余录序》)。

与此相关的一个问题是,在超过120亿字的可检索的古典文本,以及各种不同类型的数据库中,还蕴藏无限问题可供发掘。而这些数据资源能否被学者使用,很大程度上取决于其所在单位购买的数据库数量。在高校间已有明显“数位落差”的现实条件下,学者个人的学术水准有可能受到所处文献环境的制约,而不同文献环境导致的信息素养的差异可能会进一步拉大这一差距。

数据库大量涌现,学术评判标准也会发生变化。出于“功利”眼光计算,当代学者费尽周折的考据工作,很可能被下一代学者轻易解决。其原因并非人的智力、才能有别,而是文献环境不断变化提供的巨大方便使然。一代有一代之学术,面对不同的环境,学术范式也应随之转移。所以,当下正是海量文献可供使用、可以大有作为的时代,也是考据研究缺乏亮点而趋于同质化的时代。换言之,即使是在数据仍未被充分电子化的当下,考据研究的合法性也正在受到冲击。一般性的文献挖掘仍然重要,但能够解决核心学术问题的研究更为重要。

引发学术伦理讨论

在电子检索受到学界瞩目的同时,一些批评尤其是对于学术伦理的讨论也随之热门起来。电子检索的高效快捷,令不少学者担忧其可能引发更严重的学术不端。

比如,有的研究者可能对相关领域了解有限,但在检索工具的助力下仍敢匆匆上马,轻易立说;有的研究者征引繁复,可谓博瞻,但实际上许多材料是脱离语境的“遥读”,经不起细加辨析;有的研究者过于迷信电子文本的全面性,但却因此而忽略了那些未被电子化的文献;有些电子文本存在错误,研究者未核查原书导致误引误断;等等。

对这些实际存在甚至时显泛滥的问题,我们可以尝试从以下几个方面来进一步认识。首先,技术本身是中立的,上述批评很大程度上是在针对研究者个人的文史素养和治学态度,并未否定技术能够令优秀学者如虎添翼。

而擅长检索的学者也能够认识到文史素养的重要性,并非一味依赖电子资源。从现实情况看,电子技术确实使那些曾经看上去遥不可及的一流学者(尤其是实证型学者),变得可以企及了,这至少是正在提升学术研究的平均水准。校勘、笺注、考据中的一些前期工作,可由计算机更精准地代劳,在人机结合的研究过程中,“高明子弟,自然沉潜”。

其次,当下的电子文本绝非完美,即使是扫描版也往往不能完全忠于原书,引用之前必须与原始文献核对,不能径用。但这恰好说明,现在的数据库还没有脱去以往“工具书”的性质。

前人做研究,亦会查阅类书、索引等,甚至常有转引、代查的现象,这证明“工具”本来也不被排斥。如将数据库理解为一种高级的“逐字索引”,则其学术价值自然彰显。此外,纸质文献(尤其是整理本)同样常常有误。古籍校勘中,也多有以“通行本”为底本的典范。事实上,核心问题不在于当下的电子文本有多少具体错误,而在于能否使注释具有可回溯性和规范性。如果一味排斥征引电子文本,很可能也会使数据库开发者缺乏将电子文本精确化的动力。

主题 |数据研究

插图 | 网络来源

作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删

我想给你一个理由 继续面对这操蛋的生活

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190117B0ZA8N00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券