腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1740)
视频
沙龙
2
回答
Asp.net
Request.Browser.Crawler
-
动态
爬虫
列表
?
、
、
我学会了为什么在C# ()中
Request.Browser.Crawler
总是假的。 有没有人使用某种方法来
动态
更新
爬虫
列表
,所以
Request.Browser.Crawler
真的会很有用?
浏览 3
提问于2009-01-10
得票数 8
回答已采纳
1
回答
识别网络
爬虫
、
以下属性是否足够可靠以识别搜索引擎web
爬虫
? 也许我可以使用HttpRequest UserAgent属性来识别它们。如果是这样的话,请有人建议一个当前的
爬虫
名称
列表
,我相信必应机器人,例如,是所谓的bingbot,如提到的。Request.UserAgent我确信他们不是使用
Request.Browser.Cra
浏览 0
提问于2012-08-03
得票数 2
回答已采纳
1
回答
如何防止已知和未知的机器人c#
、
、
我有一个简单的网络应用程序,这是托管的,我已经启用了谷歌搜索,所以谷歌机器人爬行,我找不到许多未知的机器人爬行在我的应用程序。我需要知道访问该网站的有效用户(机器人除外)。httprequest.Browser.Crawler有没有人能帮我完全防止这种情况?
浏览 1
提问于2016-01-11
得票数 0
2
回答
蜘蛛/机器人UserAgent检测C#
、
、
如果用户不在我们的浏览器
列表
中,我正在开发一个将用户重定向到升级浏览器的应用程序。 我的目标是创建一个异常,根据它们的UserAgent字符串来检测它们是否是
爬虫
。
浏览 1
提问于2013-11-08
得票数 4
回答已采纳
1
回答
将某些IP地址视为已登录,以便对.Net网站上的安全内容进行爬网
、
、
Net网站使用表单身份验证,该网站将由Google Mini设备爬行以进行站点搜索。GMini有点旧,显然不支持使用表单身份验证抓取站点。据推测,Gmini不会持久化身份验证cookie,或者它只是不理解登录表单。
浏览 0
提问于2013-01-09
得票数 1
回答已采纳
1
回答
在4.5框架中捕获.browser文件中的用户代理
、
、
当从.NET框架从4.0迁移到4.5时,一些
爬虫
似乎无法在
ASP.NET
应用程序中捕获。minorversion" value=".0"/></capabilities>但是这条线
Request.Browser.Crawler
浏览 1
提问于2013-10-21
得票数 0
1
回答
Scrapy管理
动态
爬行器
、
、
我正在建设一个项目,我需要一个网络
爬虫
爬行不同的网页
列表
。此
列表
可以随时更改。这是如何用scrapy最好地实现的?我应该为所有网站创建一个
爬虫
,还是
动态
创建蜘蛛?我读过关于的文章,我猜
动态
创建爬行器是最好的方法。不过,我需要一个关于如何实现它的提示。
浏览 2
提问于2013-07-02
得票数 3
回答已采纳
1
回答
使用Codeigniter创建站点地图
、
、
、
、
如果站点上的一些页面是静态的而不是
动态
的,会发生什么? 有没有办法使用PHP抓取站点并创建一个包含结果的XML文件?
浏览 2
提问于2011-11-22
得票数 0
回答已采纳
2
回答
在保留旧的静态页面的同时拥有
动态
内容
、
我有一个视频标题
列表
。每个页面都包含有问题的视频和一些信息(播放器、描述、讨论等)。title-2">Title 2</a><br /></div> 我想用Javascript/JQuery让事情更具
动态
性屏幕一分为二,视频
列表
在左侧,信息在右侧。<a href=
浏览 1
提问于2013-05-15
得票数 2
1
回答
为
动态
内容指定静态URL
、
我有一个页面,每个用户都有一个
动态
列表
的项目,这些项目是那些我想要的广告,因为这是用户自己感兴趣的。<!-- google_ad_section_start --> 所以:如果
爬虫
去mydomain.com,它就不会看到特定于用户的
列表
,那么当用户在m
浏览 4
提问于2011-10-14
得票数 1
回答已采纳
7
回答
如何以编程方式检测机器人
、
有没有一份已知的机器人IP
列表
?检查已知的机器人用户代理是否有效?
浏览 1
提问于2010-05-06
得票数 14
回答已采纳
1
回答
scrapy CrawlSpider:爬网时修改拒绝规则
列表
、
、
、
我需要在抓取网站时更新抓取规则中的拒绝
列表
。(例如,我想在
爬虫
工作时
动态
修改拒绝规则
列表
)deny = ['a','b','c'] rules = ( Rule(LinkExtractor(allow=('/r/','/p/' ),
浏览 0
提问于2017-12-09
得票数 0
1
回答
有可能得到所有可能的urls吗?
、
、
我希望得到一个url,而不一定是一个域,并返回一个字典,以原始url作为键,并将该url的所有扩展
列表
作为项。
浏览 3
提问于2013-05-29
得票数 5
回答已采纳
1
回答
Nutch -抓取新发现的域
、
、
、
、
根据nutch的配置,应该给种子
列表
和域url-filter来遍历指定的域。但是,如果新发现的url的扩展名是co.uk (仅用于此扩展名),我们可以通过将新发现的url的域添加到文件或数据库中来管理它,停止
爬虫
,更新域名url过滤器和种子
列表
,然后重新启动它。但是,我们如何才能在没有停止
爬虫
的情况下
动态
地完成这项工作呢?附言: co.uk域名扩展只是一个例子,我们也可以添加多个扩展来允许。
浏览 0
提问于2013-04-08
得票数 0
回答已采纳
1
回答
网络
爬虫
是否遵循robots.txt urls或标记?
、
、
、
当单击某些按钮时,
动态
地将内容插入DOM树中,然后使用javascript更改URL以表示更新。所以,我的问题是,如果我在我的robots.txt中有一个链接
列表
,允许的网络
爬虫
(Google,Bing等)会直接访问robots.txt中的链接,还是会遵循下载的网站中的a链接,并在robots.txt因为在第二种情况下,web
爬虫
将不会在下载的/站点和robots.txt文件中发现任何URL。
浏览 0
提问于2017-01-23
得票数 0
回答已采纳
1
回答
URL重写IIS和搜索引擎
、
、
我已经将我的IIS (
asp.net
站点)配置为使用URL重写。特别是,这是我的规则(
动态
规则):任何数字/字符串格式的url都会被重定向到一个特殊的aspx页面。我没有任何包含
爬虫
可以扫描的mysite/id/Name链接的“固定”页面,所以我试图弄清楚搜索引擎如何索引我的
动态
页面。我应该创建一个sitemap.xml吗?如果是,用哪种方式?或者我应该创建一个“隐藏”页面,其中包含指向所有
动态
内容的所有链接,如mysite/id1/Name1、mysit
浏览 3
提问于2015-10-21
得票数 0
1
回答
用于搜索、爬行和共享社交网站的GWT页面呈现
、
、
、
它的内容是由Javascript
动态
创建的。因此,它对社交网站和其他网站的搜索爬行性和共享带来了很大的问题。
动态
页面的问题,其中包含要爬行的内容
列表
(如搜索结果):此页面从Ajax调用(RPC或Restlet)生成一个
列表
到posts,然后
动态
构建
列表
点击一个特定的帖子,将转发到一个名为#PostPage;id=123的页面,这个页面还包含
爬虫
需要到达的内容。 GWT应用程序的调整是什么,这样搜索<
浏览 1
提问于2015-01-19
得票数 1
回答已采纳
1
回答
AdSense:如何通过登录的用户内容保持广告更新
、
我使用AdSense站点身份验证,它工作得很好,我可以看到
爬虫
正在读取页面。每次用户重定向到一个页面时,我都会添加他的ID,因此请求是: X?id=123X?id=1X?id=3…。有没有办法不断更新广告?(
爬虫
看到的内容会不断更新) 有没有更好的方法来做这件事?我
浏览 1
提问于2009-12-02
得票数 0
5
回答
C#中的网页爬行
、
其中之一如下所示: 我发现典型的网络
爬虫
在这个网站上失败了。我还尝试编写自己的
爬虫
程序,它将遍历页面上的所有链接,并生成post/get变量以
动态
生成结果。我也不能做到这一点,主要是因为我得到了大约404个错误(尽管我确定生成的链接是正确的)。
浏览 1
提问于2010-12-22
得票数 3
回答已采纳
1
回答
glue
爬虫
ETL后的雅典娜流水线查询
、
、
、
、
这里的问题是,最后一个
爬虫
应该创建新的表,而不仅仅是同一个表的分区,因此在运行作业
列表
之前不知道表名。我发现您可以监听新表的创建和
爬虫
程序的完成,但是
爬虫
程序运行结束时的日志不包含(使用Amazon's Documentation)创建的新表的名称。有没有办法
动态
获取这个表名并使用Lambda或Athena查询它?谢谢
浏览 19
提问于2019-02-12
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Asp.net动态Web API的教程!
Python 爬虫的工具列表大全
NET Core 实现简单爬虫—抓取博文列表
Python新手写爬虫!尝试动态加载的电影网站爬虫
Python中使用selenium进行动态爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券