爬虫正则表达式 - 腾讯云开发者社区

、

我试图为爬虫创建一个通用的regex模式，以避免所谓的“爬虫陷阱”(只添加url参数并引用相同页面的链接，这会导致大量无用的数据)。很多时候，这些链接只是一次又一次地将相同的部分添加到URL中。我可以使用正则表达式缩小爬虫的范围，并且我希望有一个模式，它告诉爬虫忽略所有有重复部分的内容。用正则表达式可以吗？谢谢你提前给我一些提示！我只想澄清：爬虫陷阱的设计并不是为了防止爬行，而是由于网页设计不佳。我们正在爬行的所有页面都明确地允许我们这样做！

浏览 4提问于2015-09-28得票数 1

回答已采纳

2回答

Schedule scrapy命令scrapy crawl

、、

我已经构建了一个爬虫来抓取和提取匹配固定正则表达式的链接。现在，我想在windows任务调度程序中调度任务，以便它使用命令行提示符scrapy crawl crawlername执行爬虫程序。

浏览 2提问于2014-04-08得票数 3

3回答

正则表达式来过滤具有多个符号和"&“的URL

、、

我正在使用一个网络爬虫(称为Nutch)，当我把一堆urls输入到它中时，它会爬行网络。我设置了某些正则表达式过滤器来控制爬虫到特定的域和特定的过滤器。/]+/){6,}.*$ crawler ：在特定的域中，我的爬虫正在用我不想要的所有分页和查询参数爬行所有搜索表单SubjectMode=contains&Subjec

浏览 2提问于2014-06-02得票数 0

回答已采纳

1回答

根据模式禁用刮伤和筛选链接中的子域

、

我怎么能不允许爬虫碰到某些子域呢？是否有可能只遵循满足某种正则表达式的链接？

浏览 0提问于2015-07-12得票数 1

1回答

在JavaScript中使用正则表达式检测模式b.tech、m.tech等的问题

、

我有一个正则表达式来检测字符串中的urls。var urlRegex = /(https?\:\/\/|\s)[a-z0-9-]+(\.[a-z0-9-]+)*(\.我调用一个文本爬虫函数来预览字符串中的URL。问题是，如果字符串包含b.tech限定等，则会调用文本爬虫。搜索了几个链接，但似乎没有一个完美的正则表达式来检测字符串中的URL。

浏览 0提问于2014-06-24得票数 0

1回答

如何设置支持一系列动态URL的AdSense爬虫登录？

、、

我读过关于AdSense爬虫登录的文章，并试图实现它。但是，我发现没有提到通配符或URL的正则表达式。据我所知，AdSense爬虫登录只支持静态URL。是否有任何方法来设置支持一系列动态URL的AdSense爬虫登录？

浏览 0提问于2015-02-03得票数 3

1回答

比regex更好的系统

、

为此，我使用了可提供所需输出的正则表达式。对于这个简单的爬虫，还有比正则表达式更高效的进程或想法吗？

浏览 0提问于2012-05-21得票数 3

2回答

Robots.txt与正则表达式

、

如果我在robots.txt中放置了一个正则表达式，那么它对web爬虫来说是可读的吗？

浏览 0提问于2011-01-04得票数 3

回答已采纳

2回答

对于网络爬虫来说，Erlang是正确的选择吗？

、

我计划为一个NLP项目编写一个new爬虫，它每次在特定的时间间隔内读取论坛的线程结构，并用新的内容解析每个线程。通过正则表达式，提取新帖子的作者、日期和内容。然后将结果存储在数据库中。爬虫使用的语言和平台必须符合以下标准：经过一些研究，我认为Erlang可能是一个合适的候选人，但我读到它不太擅长字符串处理(以及正则表达式匹配)。

浏览 2提问于2012-02-05得票数 13

回答已采纳

1回答

刮除不同数量的url返回

、

我已经建立了一个爬虫在一个固定的领域内的螃蟹和提取url匹配的修复正则表达式。如果看到某个特定的url，则爬虫将跟踪该链接。爬虫可以很好地提取url，但是每次我运行爬虫时，它都会返回不同数量的链接，也就是说，每次运行它时，链接的数量都会不同。我在用Scrapy爬行。这是刮痕的问题吗？

浏览 3提问于2014-04-07得票数 2

回答已采纳

1回答

如何从rds db中仅抓取特定的表

我正在尝试使用爬虫将rds(postgresql)表加载到glue目录中。有没有办法只从rds加载所需的表？我的rds模式中有120个表。我只需要两个表(例如: emp和market表)。

浏览 3提问于2020-10-28得票数 0

1回答

PHP OOP :在数据库中存储方法

、、

我是OOP的新手，所以请发发慈悲；我甚至不知道这篇文章的标题是不是可以。$ad['title'] = $crawler->filter('#subject')->text();这并不太难，但我想要有可重用的代码。因此，对于我抓取的每个站点，都有一个$a

浏览 0提问于2016-02-26得票数 2

2回答

PHPCrawl可以用于抓取网站吗?与Scrapy有何不同？

、、、、

我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫，或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。它怎么能和Python上的Scrapy相比呢？

浏览 0提问于2012-11-22得票数 0

回答已采纳

1回答

多正则表达式在C#网络爬虫中的应用

、

我正在做一个网络爬虫，从不同的网站获取数据。为此，我使用正则表达式，为每个站点分别编写正则表达式要花费很长的时间。我希望将这些正则表达式组合起来，并希望在组合它们的情况下在them.how上工作。请告诉我如何组合下面的正则表达式。示例： Job Title:</td>.*?<td.*?>(.*?)

浏览 1提问于2014-05-21得票数 1

回答已采纳

2回答