腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Regex:匹配重复的未知组?
、
我试图为
爬虫
创建一个通用的regex模式,以避免所谓的“
爬虫
陷阱”(只添加url参数并引用相同页面的链接,这会导致大量无用的数据)。很多时候,这些链接只是一次又一次地将相同的部分添加到URL中。我可以使用
正则表达式
缩小
爬虫
的范围,并且我希望有一个模式,它告诉
爬虫
忽略所有有重复部分的内容。用
正则表达式
可以吗?谢谢你提前给我一些提示!我只想澄清:
爬虫
陷阱的设计并不是为了防止爬行,而是由于网页设计不佳。我们正在爬行的所有页面都明确地允许我们这样做!
浏览 4
提问于2015-09-28
得票数 1
回答已采纳
2
回答
Schedule scrapy命令scrapy crawl
、
、
我已经构建了一个
爬虫
来抓取和提取匹配固定
正则表达式
的链接。现在,我想在windows任务调度程序中调度任务,以便它使用命令行提示符scrapy crawl crawlername执行
爬虫
程序。
浏览 2
提问于2014-04-08
得票数 3
3
回答
正则表达式
来过滤具有多个符号和"&“的URL
、
、
我正在使用一个网络
爬虫
(称为Nutch),当我把一堆urls输入到它中时,它会爬行网络。我设置了某些
正则表达式
过滤器来控制
爬虫
到特定的域和特定的过滤器。/]+/){6,}.*$ crawler :在特定的域中,我的
爬虫
正在用我不想要的所有分页和查询参数爬行所有搜索表单SubjectMode=contains&Subjec
浏览 2
提问于2014-06-02
得票数 0
回答已采纳
1
回答
根据模式禁用刮伤和筛选链接中的子域
、
我怎么能不允许
爬虫
碰到某些子域呢? 是否有可能只遵循满足某种
正则表达式
的链接?
浏览 0
提问于2015-07-12
得票数 1
1
回答
在JavaScript中使用
正则表达式
检测模式b.tech、m.tech等的问题
、
我有一个
正则表达式
来检测字符串中的urls。var urlRegex = /(https?\:\/\/|\s)[a-z0-9-]+(\.[a-z0-9-]+)*(\.我调用一个文本
爬虫
函数来预览字符串中的URL。问题是,如果字符串包含b.tech限定等,则会调用文本
爬虫
。 搜索了几个链接,但似乎没有一个完美的
正则表达式
来检测字符串中的URL。
浏览 0
提问于2014-06-24
得票数 0
1
回答
如何设置支持一系列动态URL的AdSense
爬虫
登录?
、
、
我读过关于AdSense
爬虫
登录的文章,并试图实现它。但是,我发现没有提到通配符或URL的
正则表达式
。据我所知,AdSense
爬虫
登录只支持静态URL。是否有任何方法来设置支持一系列动态URL的AdSense
爬虫
登录?
浏览 0
提问于2015-02-03
得票数 3
1
回答
比regex更好的系统
、
为此,我使用了可提供所需输出的
正则表达式
。对于这个简单的
爬虫
,还有比
正则表达式
更高效的进程或想法吗?
浏览 0
提问于2012-05-21
得票数 3
2
回答
Robots.txt与
正则表达式
、
如果我在robots.txt中放置了一个
正则表达式
,那么它对web
爬虫
来说是可读的吗?
浏览 0
提问于2011-01-04
得票数 3
回答已采纳
2
回答
对于网络
爬虫
来说,Erlang是正确的选择吗?
、
我计划为一个NLP项目编写一个new
爬虫
,它每次在特定的时间间隔内读取论坛的线程结构,并用新的内容解析每个线程。通过
正则表达式
,提取新帖子的作者、日期和内容。然后将结果存储在数据库中。
爬虫
使用的语言和平台必须符合以下标准: 经过一些研究,我认为Erlang可能是一个合适的候选人,但我读到它不太擅长字符串处理(以及
正则表达式
匹配)。
浏览 2
提问于2012-02-05
得票数 13
回答已采纳
1
回答
刮除不同数量的url返回
、
我已经建立了一个
爬虫
在一个固定的领域内的螃蟹和提取url匹配的修复
正则表达式
。如果看到某个特定的url,则
爬虫
将跟踪该链接。
爬虫
可以很好地提取url,但是每次我运行
爬虫
时,它都会返回不同数量的链接,也就是说,每次运行它时,链接的数量都会不同。我在用Scrapy爬行。这是刮痕的问题吗?
浏览 3
提问于2014-04-07
得票数 2
回答已采纳
1
回答
如何从rds db中仅抓取特定的表
我正在尝试使用
爬虫
将rds(postgresql)表加载到glue目录中。有没有办法只从rds加载所需的表? 我的rds模式中有120个表。我只需要两个表(例如: emp和market表)。
浏览 3
提问于2020-10-28
得票数 0
1
回答
PHP OOP :在数据库中存储方法
、
、
我是OOP的新手,所以请发发慈悲;我甚至不知道这篇文章的标题是不是可以。$ad['title'] = $crawler->filter('#subject')->text();这并不太难,但我想要有可重用的代码。因此,对于我抓取的每个站点,都有一个$a
浏览 0
提问于2016-02-26
得票数 2
2
回答
PHPCrawl可以用于抓取网站吗?与Scrapy有何不同?
、
、
、
、
我得到了一个
爬虫
PHPCrawl。我不确定它是否只是一个
爬虫
,或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或
正则表达式
。 它怎么能和Python上的Scrapy相比呢?
浏览 0
提问于2012-11-22
得票数 0
回答已采纳
1
回答
多
正则表达式
在C#网络
爬虫
中的应用
、
我正在做一个网络
爬虫
,从不同的网站获取数据。为此,我使用
正则表达式
,为每个站点分别编写
正则表达式
要花费很长的时间。我希望将这些
正则表达式
组合起来,并希望在组合它们的情况下在them.how上工作。请告诉我如何组合下面的
正则表达式
。示例: Job Title:</td>.*?<td.*?>(.*?)
浏览 1
提问于2014-05-21
得票数 1
回答已采纳
2
回答
Python中的XPATH语法验证器
、
、
、
我开发了一个有很多动作的
爬虫
。许多xpath都涉及到,因此我使用json文件进行存储。然后,
爬虫
开始运行,我想对xpath进行基本语法检查(在使用xpath之前),并为无效的xpath引发错误。是否有任何模块或
正则表达式
进行这种验证?
浏览 0
提问于2018-05-03
得票数 1
回答已采纳
1
回答
用于爬行单个域及其所有子站点的Java
爬虫
、
我一直在寻找和观察许多不同的
爬虫
。但我不太确定该选哪一个。到目前为止,只有一只
爬虫
引起了我的注意: 有什么想法吗?
浏览 1
提问于2013-08-05
得票数 1
回答已采纳
0
回答
基于Python的股票数据爬取?
、
、
、
使用Python语言编写
爬虫
程序,使用
正则表达式
将指定日期时段内的全部上市公司股票数据爬取下来,并按照股票代码保存到相应的Excel文件中。 有偿联系微信:15527440125
浏览 207
提问于2020-05-23
3
回答
如何排除Solr / Lucene中的某些URL
、
我已经在一个网站上建立了Solr索引的新实例。我希望Solr不要索引某些URL模式。有没有办法提到这种排除模式?
浏览 7
提问于2010-09-02
得票数 1
回答已采纳
1
回答
import.io和portia
正则表达式
url模式
、
、
它们都允许您定义一个
正则表达式
,供
爬虫
遵守。例如,url: 我该如何解释结尾的"pdi-medical"?
浏览 16
提问于2016-09-09
得票数 0
2
回答
用于解析链接的HTML页面的
正则表达式
的替代
、
、
因此,我正在尝试建立一个网络
爬虫
。我首先通过传递请求并获取页面的所有HTML作为响应。 接下来,我考虑使用
正则表达式
从HTML页面中提取链接。然而,我越试着学习它们,它们看起来就越棘手。有没有
正则表达式
的替代品(这可能是一个讨论问题,但它不是我在互联网上搜索,没有找到一个令人满意的答案)。
浏览 3
提问于2013-08-06
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫之正则表达式
Python网络爬虫之正则表达式
Python爬虫入门之正则表达式
python网络爬虫:正则提取爬虫结果,教你如何使用正则表达式
Python爬虫之快速入门正则表达式
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券