首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

这个数位人文数据库,你值得一试!

CBETA是一个佛经文献相关的数据库及研究平台,由中国台湾菩提文教基金会、西莲教育基金会主办,中华电子佛典协会承办,中华佛学研究所、法鼓佛教学院协办。其目的为免费提供电子佛典数据库以供各界作非营利性使用。目前收录佛经文献约2亿字,并每个季度更新一次,是佛典研究的重要平台,其研发与开放获取,实在是一项功德无量的事业。此次有幸在法鼓文理学院了解到该数据库的具体操作方法,独乐何如众乐,因而希望介绍此研究平台,以利其所收录佛典语料的更多交流与应用。

CBETA包括阅览与分析两个子系统,我们分别介绍。

在浏览界面点击左上角的按钮,可打开经文选择菜单,并可根据部类、册别、经目、作译者、时间等查询。如图所示,部类即根据阿含、本缘、般若、法华等部类分类,点击某一部类后会进入次级目录,比如阿含部类下包括长阿含经、中阿含经、广义法门经、杂阿含经等。再选择次级目录。当然,其中的新编部类是还没有完成分类的部类,CBETA会不断完善。值得一提的是,对于一位作译者具有不同法号、别称时,CBETA是会整合在一起的,所以对于异称现象有较好的处理(比如窥基,又署名“基”,不做处理的话直接搜“窥基”就搜不全)。而对于同名却不同人的作者,则可以通过点击其背景信息,做出判断。

经文选择中的Goto查询是直接定位到具体行位的查询方式,其格式比如T01n0001_p0066c25,T01表示经号,n0001表示书号,p0066表示页数,c表示栏位(a、b、c分别表示上、中、下三栏),25表示行数。输入编号后就可以直接对应到纸本文献的位置阅读。

在具体经文后面点击“经录背景”按钮,可以查看该部经典的情况(作品、生平皆可超链接到相关信息汇总界面),例如:

在阅读器上侧,有一个“设定”按钮,点击后可调整换行方式(据古籍分行或自然段分行,这一功能看似简单,但想象一下数据标注时的工作量,实在令人叹服!)、是否出现行首信息(即页数、栏位、行数等数字代码),是否显示校勘信息、是否显示标点(经文标点为数据库整理者所加,不显示标点则恢复古籍文字原貌)以及外挂到其他功能(如扫描、汇出,或将文本导入DocuSky平台做进一步数位操作),并可调整文字大小。

在显示校勘状态下,点击经文中的数字按钮,会显示其校勘信息,比如:

表示“三藏沙门佛陀耶舍出律藏一分四十五卷”一句,大藏经版本作“一分四十五卷”,而宋本作“二分四十五卷”。

而用鼠标选定具体文本后,会自动弹出功能菜单:

点击“资料查询”界面,会在右侧自动弹出“经文资料检索”功能栏,检索到某关键词出现的经书信息:

在这一窗口下,可以缩小经书检索范围,或进行两个关键词的高级检索。高级检索时,and表示同一卷中,两个关键词同时出现;or一般用于检索同义词,比如“泥洹”与“涅槃”;not指检索前者但不要出现后者,如“泥洹~涅槃”即使用“泥洹”这个词汇而不使用“涅槃”的数据;而near是关键词位置相近(一般5个字以内)才被检索出来。检索出来的资料可通过“汇出”按钮,汇出为EXCEL或CSV文档。

若所选定的文本为人名、地名等,则可进入“辞典查询”提供进一步信息。“词汇统计资讯”则提供了一个简单的统计信息,包括词汇在部类的分布和词汇在各朝代的分布。当然,更多分析功能,则需要在词汇搜寻与分析平台中使用,下面会介绍。

CBETA在复制文献时也很人性化,直接点击“复制文字”,就是直接复制所选文本(没有字数限制),而点击“引用复制”则会在复制时同步出现引用文献的标识,如:

后面括号中就是文献出处,这里表示所引文献出自CBETA,一号经,卷一,第一页,上栏,第28-29行。而点击此窗口上面的“设定”按钮,更可选择是否同时复制校勘记等等。

至于选择文本后点击“复制链接地址网址”选项,则可复制此页面网址,便于与协作者共同交流。其便捷之处是复制的网址打开后,可以直接定位到所选择的行位,而非一般网址默认的首行,因此极为便利。

输入关键词后,就可以进入搜寻结果界面:

系统默认会显示关键词前后数个字符,而若使用者觉得提供的文本信息不足,只需点击每行前面的三角符号,则可以显示关键词前后三行的信息。相比于传统数据库需要点击进入原文才可看到上下文,这种处理显然更为快速简洁,也就更人性化。

点击垃圾箱的按钮,可以删除某条具体检索结果,比如检索到某些偶然相连,却并非需要的结果(举个大家常用的例子,检索李白时,若跳出桃李白华,则显然不是我们需要的数据)。为了之后进一步统计分析时,数据信息更为精准,我们就要阻止这些“噪音”进入下一步操作,这时就用到了这个删除功能,可以把无关的文本排除出样本范围。

界面首栏左上角有三个按钮,分别为高级检索、刷新和汇出。点击行首的汇出按钮,可以将检索结果汇出到EXCEL表格中。使用者可便捷地将其导入其他数位平台处理。而点击放大镜按钮,可根据部类、逻辑关系等进一步高级检索,Reset键则是取消二级检索,返回之前的检索结果。

CBETA平台比较吸引人的一点是对多个关键词的对比分析。使用者可以点击页面顶部的“增加新词”,输入新的关键词来检索另一个关键词,之后就可以在“统计分析”功能下,对多个输入的关键词进行比较分析了。而点击“资料选择”按钮则可进一步缩小检索范围:

统计分析功能是CBETA中最有趣的部分。比如上面输入了“泥洹”与“涅槃”两个关键词,这里就会依据其在不同部类、时代、作译者的文献中出现次数或比率,以折线图或柱状图的形式呈现统计结果:

对于研究者来说,出现次数可能不能完全反应某个词汇的使用情况,更有意义的可能是字数比例。因此可以点选“出现次数”按钮进行切换。而左上部“依部类加总”亦可更改为依据时间、作译者加总。比如“泥洹”与“涅槃”,其字数比例按时代的信息如下:

我们会发现,作为同义词的“泥洹”与“涅槃”,出现了一个前者被后者逐渐取代的趋势,涅槃这个词在五代十国时期达到使用的峰值,其后亦有明显下降。下面的表格具体显示了二者使用比例的详细数值:

统计分析右下侧的几个功能也比较有趣,可以根据经书写作或翻译的时空信息,显示具体词汇的地理分布及时间分布:

而点击“地球”按钮,更可在GIS系统中详细显示其地理分布信息(需另外安装QGIS软件),以上统计信息表明“涅槃”的使用范围更为广泛。而若是某组同义词出现的地理位置不同,就可能是研究者可以细致展开的与地域、方言相关的研究点了。此外,前缀字、后缀字分析,亦可检索到这些关键词前后的文字,在词汇搭配问题上,也可做更多细部分析。

CBETA词汇搜寻与分析平台的一大优势在于对检索结果的保存功能,点击界面最上方的“档案”按钮,可以选择“另存新档”与“开启旧档”,这样就可以把你分析比较过的词汇信息直接保存到本地,便于长期的研究使用,以免研究者不断重复检索统计之劳。而“载入线上暂存”则是恢复到上一个检索结果,也防止了因网站突然卡死而丢失检索信息。

在这些功能的帮助下,我们便可快捷地检索到相关词汇使用的时间、地域信息,或进行同义词的比较等等,想必对于佛典的思想史、语言学研究都有助益,而CBETA的更多功能,还请大家亲自到线上来探索吧!

- 全文完 -

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181224B10NAT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券