腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用java抓取纬编的IFrame内容
、
、
、
我想抓取网页的IFrame内容(动态内容); </iframe> 所以从开始。这是否支持爬行IFrame内容?我通过了这个;上面的问题似乎是关闭而不
浏览 3
提问于2014-12-09
得票数 1
2
回答
阻止爬网程序跟踪javascripts中的链接
、
、
somepath/template_1.html';//and so on现在,
爬虫
正在尝试跟踪这些链接
浏览 0
提问于2013-02-22
得票数 0
1
回答
使用Python查询网页
、
、
、
出发城市和到达城市以及日期用于构建
URL
。
浏览 1
提问于2013-10-04
得票数 1
4
回答
从Ruby到Python :
爬虫
、
、
在过去的几天
里
我开始学习蟒蛇。我想知道用python编写
爬虫
的等效方法。 在python中,它们的等价物是什么?
浏览 6
提问于2012-10-15
得票数 2
回答已采纳
1
回答
Laravel sitemap生成器输出空文件
、
、
、
urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xhtml="http://www.w3.org/1999/xhtml"><changefreq>daily</changefreq> <pri
浏览 2
提问于2019-12-17
得票数 0
1
回答
Googlebot执行谷歌标签管理器吗?
、
、
、
我想了解Googlebot (和其他
爬虫
)如何爬行我的网站。具体而言,它是否传递一个document.referrer,如果它维护localStorage密钥,那么我通过Google实现了一个脚本,该脚本检测这些
爬虫
并将数据记录到Logstash。这是我用来检测
爬虫
用户代理的条件(为
爬虫
返回true ):if(navigator.userAgent.indexOf('robot de Google') < 0 &&;
js
= d.cr
浏览 0
提问于2018-02-09
得票数 4
回答已采纳
0
回答
如何在Azure函数中保存HTML中的PDF
、
、
、
我正在开发一个应用程序,这将有一些网站的网络
爬虫
。到目前为止,一切顺利,但是,我们必须保存一些
爬虫
通过该站点的证据。我们正在考虑用
爬虫
经过的屏幕保存一个PDF文件,但是,由于Azure函数没有GDI+,它不能与Selenium或PhantomJS一起工作。一种不同的方法是下载HTML内容并以某种方式将此HTML字符串(带有所有
JS
和CSS依赖项)保存到PDF文件中。我想要一些库,它可以与Azure函数
浏览 7
提问于2018-07-16
得票数 0
回答已采纳
1
回答
处理远程:真正的链接和搜索机器人
、
、
、
、
在大多数情况下,响应可以是
js
或html,因此搜索机器人不会造成问题我如何设置链接,使搜索机器人(谷歌,冰,其他
爬虫
)不会尝试它?或者-是否有一种类型的响应我应该返回,以便
爬虫
知道不要返回到那个
url
?
浏览 2
提问于2014-12-03
得票数 2
1
回答
用节点
爬虫
或简单
爬虫
进行NodeJS网络爬行
、
我是网络
爬虫
的新手,我需要一些关于这两个节点
JS
爬虫
的提示。是否还有其他NodeJS
爬虫
或蜘蛛可以只请求和记录
URL
?
浏览 0
提问于2018-05-07
得票数 2
回答已采纳
1
回答
针对firebase上托管的angular应用程序测试prerender.io中间件
、
、
.'});export const myApp = functions.https.onRequest(app);这就是我尝试模拟
爬虫
调用的方法。我查看了一下prerender-node源代码,发现有一个shouldShowPrerenderedPage方法可以通过user-agent header检查
爬虫
是否完成了请求。,但得到一个错误 get
浏览 3
提问于2018-11-06
得票数 0
1
回答
用google bot掩码java jsoup
爬虫
来下载网页
、
我在我的网络
爬虫
里
用Jsoup。这是我用来下载网页的代码。AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30"; Document doc = Jsoup.connect(
url
浏览 2
提问于2013-08-27
得票数 1
回答已采纳
1
回答
如何使用首先需要获取的gatsby添加元标记
、
、
我正在尝试为Facebook(og-tags)添加元标记。我在用盖茨比和头盔。但问题是,首先需要获取这些标记。import Helmet from 'react-helmet'; const [detailsMeta, setDetailsMeta] = useState(undefined);
浏览 13
提问于2022-04-19
得票数 1
1
回答
分布式系统中的任务分配
、
我的
爬虫
使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生数据卡夫卡。 我的问题是:当一个
爬虫
想要爬一个网站,其他
爬虫
不应该尝试爬行它。如何在分布式环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
1
回答
如何使用express.
js
正确分配有效载荷以获取函数
、
、
我目前正在努力学习如何使用节点+速递+啦啦队来构建
爬虫
。在这条路上,我说:app.get('/api/crawler/android', crawlerController.android);[crawler-controller.
js
crawlers/android')然后我调用爬行器(基于cheerio) [craw
浏览 0
提问于2017-09-28
得票数 0
回答已采纳
2
回答
谷歌自己的机器人对我的Google收费有贡献吗?
、
、
、
Googlebot,当爬行使用Javascript显示地图的页面时,会不会导致每个页面请求都使用一个可计费的API?
浏览 0
提问于2018-09-02
得票数 2
3
回答
当
url
导致临时重定向(http 302)时,什么会被索引?
、
、
、
当这个重定向出现时,web
爬虫
将索引什么?outcome)crawler
爬虫
遵循重定向,会话信息被保存,爬行数据与相关联(所需的不遵循重定向。如果我们可以用302发送一个页面,这是可以的。此permitted?理想情况下,我们只希望一个
URL
出现在地址栏中,因此我们希望始终重定向到主页。当从重定向进入时,这将导致一个不同的标题和元描述,这就是我们希望被抓取和与预重定向
url
相关联的。EDIT2:在这种情况下,最好是检测我们是否被
爬虫
击中,并在不
浏览 1
提问于2010-01-05
得票数 2
回答已采纳
2
回答
如何将新的
URL
传递给Scrapy Crawler
、
、
、
、
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。我希望将我想要查询的
URL
(或查询参数并让crawler构建
URL
)传递给crawler,crawler将进行
URL
调用,并将提取的项返回给我。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新
URL
传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的
URL
时都重新启动
爬虫
,
浏览 0
提问于2013-05-23
得票数 2
2
回答
颤振网络: SPA:开放图形:动态分配og:图像元标记
、
、
、
、
试图创建动态og:图像标签,供
爬虫
捕捉适当的缩略图。我有一个
JS
脚本,生成适当的og:image
url
,但是
爬虫
在搜索时似乎没有运行任何
JS
。有更好的方法吗?
浏览 0
提问于2020-08-11
得票数 3
回答已采纳
4
回答
用C#解析和执行
JS
、
、
我有简单的
爬虫
爬行和搜索页面。但是现在我遇到了如何从页面执行和解析
js
链接的问题。有人知道如何解析和执行
js
页面吗? some_
url
很容易用webhtmltoolktit解析。JAVASCRIPT(1,7,0,2,7,9)是
js
链接,然后重定向到some_
url
2页面,然后我需要爬行这个页面。但问题是如何在C#中执行这个javascript以获得some_
url
2链接?
浏览 13
提问于2011-01-20
得票数 24
回答已采纳
2
回答
爬行时管理
URL
的常见方法是什么?
我正在尝试编写一个网络
爬虫
程序,但现在我想知道:存储所有urls的最佳方法是什么,这样
爬虫
就可以一起工作,但不会干扰。 将所有已找到的
URL
保存在由所有Queue实例共享的Priority
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
js 获取url大全
Python网络爬虫抓取网页的含义和URL基本构成
Python爬虫之个人笔记(一):URL地址和HTTP协议
Python网络爬虫:抓取网页的含义和URL基本构成
JS在浏览器中base64、url、blob互相转换
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券