正则表达式是我们认识世界的哲学

首先我回答了一个学员的提问,

有些GEO平台的探针转换比较麻烦

然后我为了使代码更加简洁,问了洲更一个问题,

如何获取括号中的内容,但不要返回括号。

我为什么这么问,因为我知道perl语言里面的正则表达式是可以实现这个功能的,而我曾经学过两个星期的perl语言。

看了回答,深刻的理解了这句话,

正则表达式是我们认识世界的哲学

决定把代码再精简一点。

观察之后总结模式

string = "Homo sapiens intraflagellar transport 80 homolog (Chlamydomonas) (IFT80), mRNA"

以这个为例,他里面有两个括号,我们要观察他,然后再把它抽象模式化。

我们必须到找到一对括号,而且这个括号需要在逗号之前。

因为括号是元字符,需要斜杠来转译,而斜杠也是元字符,需要另外一个斜杠来转译。

现在这个模式可以写成这个样子

那么找到了括号,这个括号里面是要有东西的,内容就是大小写字母和数字的结合,而且数量不限,所以,这个模式就变成了这样, 符号代表是0或者多个

其中,我们想要把括号中的内容单独提取出来,那么需要给他增加一对括号,我们的模式就定型了

测试结果

现在可以测试一下stringr包中的str_view函数可以可视化匹配的结果

使用str_match函数来匹配

我们需要的括号内的内容在第二列,如果str_match中没有额外的括号,结果只会是一列

[1] "IFT80"

既然我们明确地定义了做一件事情的步骤,那么我们就可以批量做。

现在这个代码足够简洁,更重要的是,我们升级了匹配模式,正则表达式就像眼睛一样,戴不戴世界就在那里,不增不减,但是戴上后,细节更多了,此时我们获得了跟多的结果,总共11399行。

既然开始接触字符串的处理以及正则表达式,我会系统地学习一下R语言的爬虫,把这两者更好地结合起来。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181212G09SON00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励