昆虫拉丁输入法的由来

我是一名杂食性的生物爱好者,偏爱植物和昆虫。进入大学后才开始真正的了解博物学,可以说,直到大学我才知道,世界上还有这样一门好玩的学科,以前的日子都被考试给占据了。自从打开了眼界,博物学的阳光就顺着这个缝隙照耀进来。师兄的帮助、老师的指引、同行们的共同进步,让我开始了解更多的物种。心想,终于上到大学了,总得学点东西吧,于是爱上了植物学,经过本科3年积累,已经有点基础了,于是想在离校时在学校里留点自己生活过的痕迹~

中国自然标本馆(www.cfh.ac.cn),一个伴随我开启植物之旅的网站,让我觉得,神器,必须好好利用起来,于是我打算建立福建农林大学校园植物图谱网站(CFH的网站联盟功能)。拉上好友郭世伟开始校园植物的拍摄和鉴定之旅,我以地点为主线对校园植物进行拍摄记录,郭世伟以花期为主线记录。最终在毕业前完成了一份自己比较满意的答卷——福建农林大学植物图谱网站(http://www.cfh.ac.cn/subsite/default.aspx?siteid=fafuplant)建立成功。共记录植物217科843属1465种(及种下单位)。

福建农林大学植物图谱网站网页

后来毕业了就没有再关注和更新了。建立这个图谱的目的在于:让身边的同学从身边的植物认起,这样更有针对性,能够学的更快。这让我收获一点小名气,媒体对这件事的报道:

1

缘起-昆虫拉丁输入法的想法

完成这份作品得益于植物爱好者圈的完善,常见的植物有人帮忙鉴定,不认识的植物可以通过检索表检索认识。CFH网站里完善的植物名录及图片信息,爱好者间互相鉴定等使得我的植物鉴定水平提升得很快,因为在巨人的肩膀上能够看到更远的土地。

本科期间我有打算整理校园昆虫,但是发现昆虫的资料实在太缺乏了,拍的很多昆虫基本无人鉴定,查找资料非常费时费力,于是慢慢对昆虫的热爱程度就下降了。但对于植保的学生来说,常见的百来种昆虫还是可以轻易拿下的。

有了建立校园植物图谱网站的经验,但是为什么昆虫版的却没有呢?我认为:昆虫资料太零碎,很多原始的材料都没有电子化。目前我国还没有摸清国内昆虫种类的家底。没有像《中国植物志》那样比较完整详细好用的数据库。昆虫种类实在太多了,基础研究人员太少了。我认为也许是最重要,也急需解决的问题:没有一份完整的中文名-拉丁名对应的数据库。

按照昆虫的目来收集,基本涉及所有的目了

2

初衷

在鉴定植物时,陈彬老师无私地分享加加输入法词库:输入植物中文名的首字母就能够直接出中文名和拉丁。这个技术让我感到:词库还可以这么玩啊,这不是可以非常快速地解决我查找拉丁名的时间吗?陈老师的词库配合CFH的使用,真是完美。我想,昆虫是不是也可以做成这种词库呢?仔细研究陈老师词库的结构(当时使用win7系统,所以加加输入法非常好用):“中文名拼音首字母=中文名(拉丁名)”,结构很统一,可以用Excel直接完成,于是尝试了一些常用的昆虫拉丁名,效果很好。

结构很统一,Excel一键生成

本以为植物有了,昆虫的数据库应该也会有吧,但是搜遍全网,没有一份完整的数据库,基本都是东一块西一块,如果要用,非常的不方便。遂暗下决心,把全网的已知有中文名和拉丁名的名录收齐,势必统一混乱的局面。

按照分类阶元进行收集(id比较长的是CoL里有的,短或者没有的为补充的数据)

将属级以上单位单独拎出来以降低文件所占的空间

3

过程

整理过程中,发现如果单单整理中文名和拉丁名,好像没有什么重大的意义吧。于是按照分类地位来收集,从各大网站去扒数据,收集名录。最开始的时候是无头苍蝇式的乱收集,只要是名录就都下载下来,然后统一在一张Excel工作簿中处理。利用校园网在知网上下载各种昆虫名录,可以说,那段时间蜻蜓点水式地看了几千篇文献。但是感觉还是不得法,这样收集始终不是个头啊。

数据来源

经过很久的纠结后,研究生期间蹭到黄晓磊老师的实验室里交流学习。这里我遇到了一位高手:邓鋆老师。他每次给我的数据处理任务都非常考验我的能力,如在一堆数据中提取国家的信息,科属种的信息,地点的信息,对某一类数据进行正则表达等。经过了几个月的训练,我的数据分析能力变强了。有时回头看自己处理了半个月的材料,现在只需要两步不到5秒就可以快速准确地完成,这让我看到了Excel函数和VBA的强大。这期间用到的最多的函数是:Index和Match的组合,Iferror,Ctrl+G的定位功能,Ctrl+E的快速填充,还有Power Query的逆透视功能等。

经过邓老师指导,将Catalogue of Life 里的120万条数据用Navicatfor MySQL提取出,用于我整理工作的底板。CoL里记载了全球的昆虫拉丁名称,但是没有中文名,有了这个基础,整理起中国的名录不是非常容易了呢?但是现实是那么的残忍,并没有想象中那么容易。

4

艰辛

电子版的数据,就是那些已经发表的文献、爱好者们整理的部分名录等等,先统一记录到工作簿中,然后用index 和match进行匹配和添加数据。整理完电子化的数据后,就要着手整理纸质材料的数据,发现还有巨多的数据没有收录。如果我一个个人工校对,那要到什么时候呢,那时都天荒地老了。于是想着寻找快速录入的方法,在网络上寻找快速解决的方法,大神说有一种叫OCR的技术可以解决,于是我就开始了解这个技术。入手了一台扫描仪,以及目前最牛的OCR软件是ABBYY(网络上基本找不到盗版,那时俄罗斯有个网站有免费用一年的体验,于是就用上了,后来发现一年根本不够用,所以就花钱买了),这些费用是大神顾有容那时给我的资助,我用于这里也算合理啦。

ABBYY的OCR页面,天蓝色部分为可能有问题的地方

人工校对

识别的准确率和清晰度有关系,手不能抖,最终把厚厚的几本昆虫名录给扫描下来了。扫描速度要慢,每一页至少需要12秒才算合格。就这样扫描了几千页。自动识别过程中会出现大量识别错误,要想做到准确无误,需要对这些错误进行校对。

5

一次小事故

第一次OCR没有经验,识别完后直接导出,随后对着书本进行校对,因为不知道哪里出错,所以一个字一个字对过去,那时候真的非常痛苦,因为一页的数据,人工校对花了十几分钟,而我需要校对的数据是几千页。但是更加不幸的事情发生了,我已经校对了300多页,后来迫于毕业的压力,全心全意去完成毕业论文的写作,在删除冗余文件时,不小心把做了快8个月的OCR文件给删除了,而且是在一个星期后发现的(咦,这文件怎么还在,不是删除了吗?卧槽,删错了,没有备份,把词库删除了)。当时真的心灰意冷了,于是放弃的念头响起来了,经过3个月的调整,想了又想,决定再重新开始OCR吧。

6

重新上路

这次吸取上次的经验,每过一个月就保存一次,防止类似的不幸再次发生。而且经过了第一次的识别,第二次的速度明显快了很多,因为OCR完不直接导出识别结果,而是根据软件的提示进行校对,这样针对性更强,效果更好。但是第一轮校对中每一页也需要花费6~7分钟。导出后看到数据结构,然后利用宏功能,录制一些常用的宏代码,这样效率就得到了大幅度提升,把常见的问题直接解决后,就最后再人工校对一次。

快速将分行的数据并在一起

实现上述目的的宏代码

也就是说,每次OCR出来的数据,至少经过了5~7次的校对,但是在使用汪远老师整理的学名格式清理工具时,还是能够发现有些问题的。这就说明,整理数据真的太费力了。经过这么多次的校对,保证了大量数据的准确性,但是难免里面还有很多问题。

7

中文拉丁数据库1.0版本

研二时终于攒够钱买了台新电脑,发现win10中加加输入法无法正常使用了。幸好了解到可以用搜狗输入法自定义短语。在这个版本中,我的主观意识还是很强的,因为我只是收集手头上的资料,并非昆虫学家,所以在处理中文名和拉丁名时存在很大的主观性,为了让自己的主观性有根据可寻,我就给词库里的中文名和拉丁名制定了规则(因为不怎么了解昆虫命名法,所以大部分按照植物的国际命名法来确定规则的)。

比如拉丁名,我制定的规则如下:

规则1.属拉丁+种加词

Coccobius furvus(暗梗异角蚜小蜂)

规则2.属拉丁+(亚属拉丁)+种加词

Megachile(Megachile)chinensis(中国切叶蜂)

规则3.属拉丁+种加词+亚种加词

Euchorthippus pulvinatus gracilis(草原异爪蝗)

规则4.属拉丁+ (亚属拉丁)+种加词+亚种加词

Exocentrus(Oligopsis)alboguttatus taiwanensis(中国台湾白点勾天牛)

规则5.属拉丁+种加词+”f.”+型拉丁加词

Sericinus montelaf.emurensis(丝带凤蝶华北型)

之所以这样设定,其目的在于:能够尽量全的看到物种所处的分类地位。我看有些专著里亚种就直接属名+种加词+亚种加词,而没有加var. 等标记,所以我就统一都不加了。

当遇到属名和种加词阴阳格用法不一样时,趋向于选择阴阳一致的那个拉丁。最近在看多识百科时知道拼写异体这个东西,天呐,这部分我全部删除了,罪过。

比如:春鹿蛾Eressa confinis(E. confines)(拼写上的错误?)

沙棘木蠹蛾Holcocerus hippophaecolus(H.hippophaecola)(阴阳词性混用?因为植物名录里是不可以阴阳混用的,昆虫的我不清楚,所以如果有多个名称时,我偏向于选择阴阳词性对应的名称。)

加加输入法下的昆虫拉丁名输出

既然有了拉丁名的规则,那么中文名的规则也要定一下,要不然就很混乱了(这些名称都是文献里有出现的,然后经过我自己选择,而非自创的,所以有时候看上去规则2和规则3有点矛盾,因为有时规则3中未在文献中找到规则2的中文名,所以保持规则3的名称)。

规则1.属名信息优先

黑腹前结蚁(前结蚁属)(黑腹平结蚁)

规则2. 常用中文名优先,并将其的XX亚种作为异名

藏凹长翅卷蛾(柳凹长翅卷蛾西藏亚种)

规则3. 第一中文名+XX亚种

沼尺蛾喜马拉雅亚种

搜狗输入法下的昆虫拉丁输出

确定了规则后,对数据进行规范化处理,按照分类阶元进行收集,以CoL数据为底,最终收集中文名和拉丁名对应的数据有97,639条数据(其中物种名81,325种,属级单位以上及亚属名称共16,314条。至90年代末,除中国台湾和中国香港外,新种模式标本的收藏量已超过了11,000种,全国已记录的昆虫有6万余种(杨星科,2000)。申效诚等的《中国昆虫地理》里分析了823科17,018属93,661种昆虫。而本人在整理蚁科时,发现《中国昆虫地理》里有900多种,《中国蚂蚁》有300多种,而冉浩的中国蚁网里记载了1,300多种。根据这些数据,我估计中国的昆虫种类应该会达到15万种以上。

异名系统的使用

异名系统的逻辑结构

=IFERROR(IFERROR(INDEX('接受名,异名对照'!B:B,MATCH(A3,'接受名,异名对照'!B:B,0)),INDEX(接受名!A:A,MATCH(A3,接受名!A:A,0))),"没有收录")

异名系统的函数

8

愿望

这是1.0版本,是非常粗糙的一个版本,在使用过程中,难免会有很多问题,所以我的希望是专家学者们在使用过程中发现问题,然后反馈给我进行修改,因为数据越准确,其意义就会更大。

扫描这个小程序码,就能从百度网盘下载文件包,然后导入搜狗输入法试用。

既然有了数据库,那么后期当然是希望能够将其网络化,做成一个网页版,直接在线使用,而且能够实时更新。整合到其它昆虫网里也是可以的,因为我打算让这个数据共享。

在这个网站中可以实现发现错误直接上报,我后台发现后,查阅相应资料后修改,或者有对未命名的拉丁名进行命名的想法也可以直接提交。

知识就是用来共享的,我觉得这个数据有意义,不管道路多么困难,去做就行了。就像当初整理福建农林大学校园植物一样,只要行动,终究会有所收获。

本期编辑:陈卓

*******************************

想了解有关昆虫的一切?

欢迎关注微信公众平台:巍巍昆虫记

新浪微博:混世魔王张巍巍

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181204A0DL3000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券