我想从文件的每一行提取Pfam_A信息: item_1 ID=HJNANFJJ_180142;inference=ab initio prediction:Prodigal_v2.6.3;locus_tagProdigal_v2.6.3;locus_tag=HJNANFJJ_188729;partial=11;product=unannotated protein 在某些行中,此信息完全缺失,在某些行中,可能会出现多次最后,我想得到一个这样的表,这样就可以用NaN代替空字段,并将多个匹配项放入不同的
所以我有一个字符串,它包含一个子字符串的多次出现。所有这些字符串的格式如下:<c@=someText>Content<c>This combination of plain text and <c=@flavor> colored text<<c>
我想通过regex提取每个子子。但是,如果我使用下面的regex <c=@.+?(?=>)>.*<c
我知道Impala有regexp_extract来根据我提供的正则表达式返回字符串。我关心的是,如果有更多的同样的字符串出现,我如何捕捉它?'(RMG\d{3})+',1,1) as r2, REGEXP_SUBSTR("RMG123/RMG987",'(RMG\d{3})+',1,2) as r3 From t1;
在这里,我将得到r2和r3分别作为RMG123和RMG987的值。RMG123/RMG987