爬虫 js里url_js里执行url_截获js里url - 腾讯云开发者社区

、、、

我想抓取网页的IFrame内容(动态内容)； </iframe> 所以从开始。这是否支持爬行IFrame内容？我通过了这个；上面的问题似乎是关闭而不

浏览 3提问于2014-12-09得票数 1

2回答

阻止爬网程序跟踪javascripts中的链接

、、

somepath/template_1.html';//and so on现在，爬虫正在尝试跟踪这些链接

浏览 0提问于2013-02-22得票数 0

1回答

使用Python查询网页

、、、

出发城市和到达城市以及日期用于构建URL。

浏览 1提问于2013-10-04得票数 1

4回答

从Ruby到Python :爬虫

、、

在过去的几天里我开始学习蟒蛇。我想知道用python编写爬虫的等效方法。在python中，它们的等价物是什么？

浏览 6提问于2012-10-15得票数 2

回答已采纳

1回答

Laravel sitemap生成器输出空文件

、、、

urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xhtml="http://www.w3.org/1999/xhtml"><changefreq>daily</changefreq> <pri

浏览 2提问于2019-12-17得票数 0

1回答

我想了解Googlebot (和其他爬虫)如何爬行我的网站。具体而言，它是否传递一个document.referrer，如果它维护localStorage密钥，那么我通过Google实现了一个脚本，该脚本检测这些爬虫并将数据记录到Logstash。这是我用来检测爬虫用户代理的条件(为爬虫返回true )：if(navigator.userAgent.indexOf('robot de Google') < 0 &&; js = d.cr

浏览 0提问于2018-02-09得票数 4

回答已采纳

0回答

如何在Azure函数中保存HTML中的PDF

、、、

我正在开发一个应用程序，这将有一些网站的网络爬虫。到目前为止，一切顺利，但是，我们必须保存一些爬虫通过该站点的证据。我们正在考虑用爬虫经过的屏幕保存一个PDF文件，但是，由于Azure函数没有GDI+，它不能与Selenium或PhantomJS一起工作。一种不同的方法是下载HTML内容并以某种方式将此HTML字符串(带有所有JS和CSS依赖项)保存到PDF文件中。我想要一些库，它可以与Azure函数

浏览 7提问于2018-07-16得票数 0

回答已采纳

1回答

处理远程:真正的链接和搜索机器人

、、、、

在大多数情况下，响应可以是js或html，因此搜索机器人不会造成问题我如何设置链接，使搜索机器人(谷歌，冰，其他爬虫)不会尝试它？或者-是否有一种类型的响应我应该返回，以便爬虫知道不要返回到那个url？

浏览 2提问于2014-12-03得票数 2

1回答

用节点爬虫或简单爬虫进行NodeJS网络爬行

、

我是网络爬虫的新手，我需要一些关于这两个节点JS爬虫的提示。是否还有其他NodeJS爬虫或蜘蛛可以只请求和记录URL？

浏览 0提问于2018-05-07得票数 2

回答已采纳

1回答

针对firebase上托管的angular应用程序测试prerender.io中间件

、、

.'});export const myApp = functions.https.onRequest(app);这就是我尝试模拟爬虫调用的方法。我查看了一下prerender-node源代码，发现有一个shouldShowPrerenderedPage方法可以通过user-agent header检查爬虫是否完成了请求。，但得到一个错误 get

浏览 3提问于2018-11-06得票数 0

1回答

用google bot掩码java jsoup爬虫来下载网页

、

我在我的网络爬虫里用Jsoup。这是我用来下载网页的代码。AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30"; Document doc = Jsoup.connect(url

浏览 2提问于2013-08-27得票数 1

回答已采纳

1回答

如何使用首先需要获取的gatsby添加元标记

、、

我正在尝试为Facebook(og-tags)添加元标记。我在用盖茨比和头盔。但问题是，首先需要获取这些标记。import Helmet from 'react-helmet'; const [detailsMeta, setDetailsMeta] = useState(undefined);

浏览 13提问于2022-04-19得票数 1

1回答

分布式系统中的任务分配

、

我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0提问于2017-06-01得票数 2

1回答

如何使用express.js正确分配有效载荷以获取函数

、、

我目前正在努力学习如何使用节点+速递+啦啦队来构建爬虫。在这条路上，我说：app.get('/api/crawler/android', crawlerController.android);[crawler-controller.jscrawlers/android')然后我调用爬行器(基于cheerio) [craw

浏览 0提问于2017-09-28得票数 0

回答已采纳

2回答

谷歌自己的机器人对我的Google收费有贡献吗？

、、、

Googlebot，当爬行使用Javascript显示地图的页面时，会不会导致每个页面请求都使用一个可计费的API？

浏览 0提问于2018-09-02得票数 2

3回答

当url导致临时重定向(http 302)时，什么会被索引？

、、、

当这个重定向出现时，web爬虫将索引什么？outcome)crawler爬虫遵循重定向，会话信息被保存，爬行数据与相关联(所需的不遵循重定向。如果我们可以用302发送一个页面，这是可以的。此permitted?理想情况下，我们只希望一个URL出现在地址栏中，因此我们希望始终重定向到主页。当从重定向进入时，这将导致一个不同的标题和元描述，这就是我们希望被抓取和与预重定向url相关联的。EDIT2:在这种情况下，最好是检测我们是否被爬虫击中，并在不

浏览 1提问于2010-01-05得票数 2

回答已采纳

2回答

如何将新的URL传递给Scrapy Crawler

、、、、

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler，crawler将进行URL调用，并将提取的项返回给我。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，

浏览 0提问于2013-05-23得票数 2

2回答

颤振网络: SPA:开放图形:动态分配og:图像元标记

、、、、

试图创建动态og:图像标签，供爬虫捕捉适当的缩略图。我有一个JS脚本，生成适当的og:image url，但是爬虫在搜索时似乎没有运行任何JS。有更好的方法吗？

浏览 0提问于2020-08-11得票数 3

回答已采纳

4回答

用C#解析和执行JS

、、

我有简单的爬虫爬行和搜索页面。但是现在我遇到了如何从页面执行和解析js链接的问题。有人知道如何解析和执行js页面吗？ some_url很容易用webhtmltoolktit解析。JAVASCRIPT(1，7，0，2，7，9)是js链接，然后重定向到some_url2页面，然后我需要爬行这个页面。但问题是如何在C#中执行这个javascript以获得some_url2链接？

浏览 13提问于2011-01-20得票数 24

回答已采纳

2回答