腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
getStaticProps + fallback:true和getServerSideProps到底有什么不同?
、
、
paths: [{ params: { id: '1' } }, { params: { id: '2' } }]} 但是,如果我们将fallback:true放在函数返回处,并且在构建时没有
生成
对页面的请求,那么Next.
js
将
生成
页面作为静态页面,那么该页面上的其他请求将被用作静态请求。据我所知,如果我们使用Next.
js
,getServerSideProps将预先呈现每个请求。但为什么我们需要它,当我们可以使用getStaticProps获得最新的数据,我认为这是更好
浏览 2
提问于2021-02-09
得票数 2
回答已采纳
2
回答
基于AWS的粘性负载平衡
、
、
、
我刚刚为几个例子设置了一个AWS负载均衡器,因为搜索引擎
爬虫
正在摧毁这个站点(它有数百万页)。网站的部分内容允许您登录,因此我选择:一切都很好。我现在想知道这将如何影响我的搜索引擎优化和
爬虫
。当我选择粘性负载平衡时,这是否意味着一个
爬虫
将被卡在一个服务器上,从而击败负载均衡器中的点? 如有任何建议,将不胜感激。
浏览 0
提问于2012-07-01
得票数 2
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用
cookie
强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是ng
浏览 0
提问于2013-07-27
得票数 1
4
回答
从PHP视图计数器中排除机器人和蜘蛛
、
、
我已经为一个PHP网站建立了一个相当基本的广告管理器。它服务于我的低流量网站,尽管只是显示一个随机的横幅广告,计数印象浏览和点击。 我注意到的一件事是,印象/视图计数器似乎经常被夸大。例如,如果有人从我的网站上的
浏览 4
提问于2013-07-07
得票数 8
回答已采纳
1
回答
爬行url \如何在node.
js
中获取动态链接
、
我正在使用
js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态
生成
的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.
js
爬虫
之外,我还应该编写自己的代码吗?是否有先进的
爬虫
知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
2
回答
网络
爬虫
能识别
cookie
吗?
、
、
网络
爬虫
是使用
cookie
,还是丢弃它们?
浏览 3
提问于2009-07-03
得票数 1
1
回答
混合JavaScript码
、
、
、
() { var e = document.forms[0].elements; path = path.substr(0,token); for(i = 0; i < e.length; i++) { i
浏览 0
提问于2018-04-05
得票数 0
回答已采纳
2
回答
饼干
爬虫
的主意?
、
、
、
、
我是一个寻找PHP/javascript/等
爬虫
(bot)谁将检查给定的网站集,(这是重要的部分)检查哪些
cookie
,网站设置到用户的浏览器!我甚至不知道是否可以这样做,因为我知道
爬虫
可以检查网站的内容,甚至当用户访问网站时,
爬虫
也可以存储
cookie
,但他真的可以从网站上读取
cookie
吗? 所以我的问题是:从定义上说,这不是不可能的吗?基本上,检查网站设置到用户浏览器中的
cookie
,例如,将它们存储在变量中。
浏览 1
提问于2014-01-26
得票数 1
回答已采纳
2
回答
谷歌搜索cookies
、
我的网站的内容依赖于请求中的
cookie
,当谷歌
爬虫
机器人访问我的网站时,它不会索引太多内容,因为它在每个请求中都没有特定的
cookie
。有没有可能设置一些规则,当
爬虫
机器人爬行我的网站时,它使用特定的
cookie
?
浏览 1
提问于2011-12-22
得票数 1
1
回答
是否有一个蜘蛛/链接检查器可以在受登录保护的站点内部启动?
、
、
我们使用供应商托管的黑板作为远程教育课程,但在我们自己的服务器上主持课程多媒体。多媒体服务器已被移动,域已更改。黑板DBA运行查询来更新DB中的链接,但是我们需要确保它们都得到了。有成千上万的链接需要检查。有这样做的产品或服务吗?我从未使用过selenium,但我想知道脚本解决方案是否更合适。欢迎所有建议。
浏览 0
提问于2013-02-22
得票数 2
3
回答
如何让
爬虫
忽略我的免责声明
、
问题是,我根本不想让
爬虫
遇到免责声明。它所做的就是忽略了Googlebot用户代理。这是唯一的解决方案吗?通过
爬虫
的UA来识别
爬虫
?如何检测
cookie
-如果我没有
cookie
,这意味着它是一个
爬虫
? 谢谢
浏览 1
提问于2011-12-14
得票数 1
回答已采纳
1
回答
如何在爬行器中处理饼干
、
、
、
、
我正在建造一个网络
爬虫
(一个很小的)。当我们访问cookies时,很少有像这样的站点检查
cookie
。似乎他们首先检查
cookie
,如果没有可用的话,它会设置它。如果出错,它将重定向到登录页。
浏览 0
提问于2014-06-09
得票数 2
1
回答
排除用户代理,以便Google抓取我的网站
、
、
我在我的网站上有一个脚本(年龄检查
cookie
脚本) if(!$.
cookie
("date") && [*id*] !</script>我需要从脚本中排除
爬虫
/谷歌似乎能够检测到
JS
?有关此日期的更多信息:
浏览 0
提问于2016-03-10
得票数 0
1
回答
Facebook Linter / Open Graph截取URL路径
、
、
、
、
我一直在网上和StackOverflow上寻找答案,但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它,它可以提取所有内容,特别是og:url元标记。当我抓取正常的内容页面时,问题就开始了。尽管我已经三次检查了我的标记格式是否正确,但FB Linter将URI从URL中删除,因此它报告og:url标记只有域名electionstats.com/!页面上实际存在的og:url标记如下所示: 我怀疑这是FB缓存页面的问题,因为在我的About页面上,我进行了快速代码更改,更
浏览 3
提问于2011-10-10
得票数 0
回答已采纳
1
回答
我们可以从FB页面抓取/抓取信息吗?如果是,如何获得正确的css选择器?
、
我一直在尝试爬行一个fb页面。我还没有成功地检索到任何有用的东西,我希望在页面上的帖子的链接。下面是我一直使用的代码: require 'nokogiri' require 'logger' http = Curl.get("https://www.faceb
浏览 0
提问于2015-04-02
得票数 0
2
回答
Cookiewall和内容遮盖
、
、
为了遵守欧洲的
cookie
法,我们应该实施
cookie
wall。但搜索引擎应该能够看到并索引实际的页面内容,而不是
cookie
wall。我在网上搜索发现,许多人建议检查用户代理,为机器人和
爬虫
提供实际内容,并为真正的用户显示
cookie
wall。流行的WordPress
Cookie
wall插件也通过检查机器人和
爬虫
/真实用户来实现这种方式 我的问题是:谷歌是否认为这是内容伪装,并惩罚搜索引擎优化排名?或者,有没有其他方法可以在不影响SEO排名的情况下
浏览 2
提问于2016-03-21
得票数 2
1
回答
scrapy 503服务在starturl上不可用
、
、
、
p=etc&id=4004003>: HTTP status code is not handled or not allowed#!
浏览 0
提问于2019-01-07
得票数 2
回答已采纳
1
回答
网络
爬虫
会存储
Cookie
吗?
、
我计划使用
cookie
来跟踪下载量。 此外,我想防止内容农业从糟糕的网络
爬虫
。我不知道网络
爬虫
是否也可以像普通访问者一样存储
cookie
,这样我就可以阻止他们下载我的文件超过3次。如果不支持cookies的网络
爬虫
仍然可以下载我的文件超过3次,有没有其他方法来跟踪他们的访问量?
浏览 1
提问于2013-07-29
得票数 1
1
回答
重新登录到Scraped网站以恢复Scrapy工作
、
有没有办法让
爬虫
在恢复之前暂停的抓取作业时登录到网站? 编辑:为了澄清,我的问题实际上是关于Scrapy
爬虫
,而不是一般的
cookie
。也许一个更好的问题是,当Scrapy
爬虫
在作业目录中被冻结后复活时,是否有任何方法被调用。
浏览 0
提问于2012-05-09
得票数 1
1
回答
使用让WinInet共享会话/
cookie
、
、
我想要的是:2)让我的软件使用WinInet API爬行站点,重用相同的
cookie
/会话(也就是说,
爬虫
是“登录”的) 我尝试使用INDY构建自己的登录,虽然会话
cookie
登录运行良好,但现在许多网站使用了一种更加复杂的登录机制,将客户端和服务器端的内容结合在一起进行初始登录。我相信,例如,WordPress、ASP.Net等使用客户端/AJAX的东西,以及哈希/时间/用户代理代码/检查等,是因为30秒后,我可以从自己的
爬虫<
浏览 4
提问于2013-02-19
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
cookie在爬虫中的应用
爬虫之旅(2)——网页知识储备html、css及js
Python爬虫从入门到精通(2):requests库详解,cookie操作与实战
python爬虫学习:爬虫QQ说说并生成词云图,回忆满满
解密 JS 参数:逆向工程的实用技巧
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券