我对纳奇很陌生。我使用Nutch 2.3来抓取一个网站,这里我只想抓取一些与特定模式相匹配的链接。正如我们所知道的那样,我们必须使用regex-urlfilter.txt。因此,我在regex-urlfilter.txt文件中配置了如下所示的内容,但结果是0爬行URL。http://abc.test.com/profiles/people/a/1.html
在上面的URL中,我们可以看到最后的/a/1.html。我只想在这部分申请regex。字母'a' could be [a-z]和数字'1' could be [1-20