我使用的是数据采集器: Import.io & Portia。
它们都允许您定义一个正则表达式,供爬虫遵守。例如,url:https://weedmaps.com/dispensaries/pdi-medical
我该如何解释结尾的"pdi-medical"?
我已经看遍了所有地方,并且理解了如何在JS环境中使用regex,但是我有点困惑,我不知道我到底在Portia/Import.io上输入了什么
像这样吗?https://weedmaps.com/dispensaries//^a-zA-Z0-9-_+$/
发布于 2016-09-09 04:20:38
对于Portia,如果您希望爬虫遵循任何以https://weedmaps.com/dispensaries/开头的URL,您只需使用以下正则表达式添加一个爬行规则:
^https?://weedmaps.com/dispensaries/
https://stackoverflow.com/questions/39398125
复制相似问题