js 网站怎么爬虫_js怎么写爬虫_爬虫js怎么抓取 - 腾讯云开发者社区

、

我遇到了一些问题谷歌爬虫和元标签，我使用反应头盔(没有ssr)的反应ssr。反应头盔确实有效，但谷歌搜索似乎找不到我添加的标签。我知道爬虫在没有启用js的情况下运行网站，在测试时我可以看到，当js被禁用时，头盔不会呈现标签(启用时可以正常工作)。知道怎么做吗？谢谢你的帮助。

浏览 0提问于2020-12-28得票数 0

回答已采纳

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

使用IIS重写规则重定向到仅供爬虫使用的静态内容的SEO后果

、、、

我有一个AngularJS网站，这是相当缓慢，这是导致搜索引擎优化相当差。更不用说，元数据不能正确呈现。要解决这个问题，我的想法是使用IIS重写规则来重定向到静态生成的内容(使用Nuxt)，如果您的用户代理是已知的爬虫。

浏览 0提问于2019-04-18得票数 0

回答已采纳

3回答

模态javascript弹出窗口(如fancybox)会影响seo爬虫吗？

、、

我很好奇这对爬虫(googlebot)有什么影响。我们意识到模式弹出窗口对排名有其他行为影响(例如，弹跳率等)。我很好奇，模态javascript/html代码的存在是否会对搜索排名产生负面影响。

浏览 0提问于2011-12-23得票数 6

回答已采纳

1回答

从整个WebSite中提取所有URL

、、

我想抓取一个网站使用C#或VB.NET。我希望爬虫从网页中提取网址，我也希望爬虫遵循网址，以便我能够从网站中提取所有的网址。我该怎么写呢？

浏览 1提问于2011-04-06得票数 0

1回答

这是一个搜索引擎优化错误，没有加载谷歌-搞笑js的爬虫？

、

不会为爬虫加载google-analitics js会导致问题吗？这对SEO不好吗？

浏览 0提问于2017-09-19得票数 1

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

3回答

如何使google bots用动态url爬行我的反应网站并在google中显示它们

、、、

我有这个网站，我们可以创造新的问题。每当一个新的问题被创建，一个新的url生成，我希望谷歌爬我的网站，每次添加一个新的问题，并显示在谷歌。我的sitmap链接我的express.js链接我想将添加到google搜索控制台

浏览 3提问于2021-12-28得票数 6

1回答

需要用户身份验证的页面的meta标记有帮助吗？

、、、、

我已经建立了我的第一个rails应用程序，正在进行一些SEO优化。这是一个社交网络应用程序，所以它有静态页面和动态页面。显然，动态页面需要用户身份验证-用户配置文件、好友搜索、帐户设置、消息等。那么您需要帐户才能访问这些页面吗？这是否意味着从搜索引擎优化的角度来看，这些页面是无用的？如果我只是在application.html.erb中包含元标记，然后就到此为止，我会觉得没问题吗？

浏览 0提问于2013-06-26得票数 1

回答已采纳

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫

浏览 2提问于2013-03-18得票数 3

1回答

编写可与任何服务器保持登录状态的crawler

、、、、

我正在写一个爬虫。一旦爬虫登录到一个网站，我想使爬虫“停留-始终登录”。我该怎么做呢？客户端(如浏览器、爬虫等)使服务器遵守此规则吗？当服务器在一天内允许有限的登录时，可能会出现这种情况。

浏览 0提问于2009-11-26得票数 0

回答已采纳

1回答

如何在Linux终端上运行包含javascript内容的html文件？

、、

我正在研究一个网站爬虫机器人，从中提取特定的信息。我至少需要在html文件上运行"on document ready“javascript函数，这样才能生成内容并获得它。我该怎么做呢？我看到一个叫"rhino“的命令，但它似乎只适用于.js文件，该文件是一个html文件。正如你可以猜到的，它里面包含html和JS。我们的计划是:下载html文件，编辑它们的"on document ready“js函数，获取输出，传递下一个，重复。

浏览 82提问于2019-02-11得票数 0

回答已采纳

1回答

/和index.php.如何消除这个重复的页面问题？

、

在我的网站根目录中，我有一个index.php，当然还有其他的页面。问题是，当我用爬虫或站点地图爬虫等爬行我的网站时，它会报告两个重复的链接。www.domain.com/ 如何强制告诉我的爬虫没有相同页面的两个实例？我是否使用301合并它们？一个规范？.htaccess重定向？等等，我该怎么解决这个问题？

浏览 0提问于2014-09-12得票数 0

回答已采纳

1回答

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

、、

我想在其中爬行一些网站，并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。5)请解释我一个步骤，如果可能的话，我如何爬行一些网站，并将其信息保存到数据库(Hadoop或任何其他)，然后做搜索。提前说一声非常感谢。

浏览 2提问于2012-09-06得票数 3

1回答

网络爬虫会遇到什么危险？

我刚写完一个爬虫，一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此，我的问题是，web爬虫(用PHP或Java编写)是否能够刮起可能会对爬虫造成损害的站点？

浏览 3提问于2014-11-08得票数 1

1回答

Google运行代理IP

、、、

我的用例是托管一个，它解析多个启用地理封锁的网站。例如，我的应用程序需要爬行网站A，它只允许来自亚洲国家的流量，另一个网站B只允许来自美国的流量。

浏览 13提问于2022-01-19得票数 0

1回答

水疗网站，做一个HTML版本的搜索引擎优化是值得的吗？

、、、

我做了一个Vue.js SPA，因为它可能会影响搜索引擎优化(特别是因为我的大部分客户群不使用谷歌)，我在想:为什么不为它提供一个HTML版本呢？

浏览 0提问于2018-11-26得票数 1

2回答

有没有办法在python中抓取网页，让爬虫只抓取新的链接。

、、

我有一个爬虫代码，从一个网站获得所有的链接，需要2-3个小时来获得大约30000个链接，并在数据库中存储。如果下次运行爬虫程序时，我只想插入新的链接，该怎么办？我知道我可以在插入数据库之前做一个过滤器，但我希望爬虫只抓取新的链接，而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情？

浏览 1提问于2018-04-18得票数 0

3回答

使用Javascripts或Web表单对网站进行爬行

、、、

我有一个网络爬虫应用程序。它成功地抓取了大多数常见和简单的网站。现在，我遇到了一些类型的网站，其中HTML文档是通过表单或javascripts动态生成的。我相信它们是可以被爬行的，只是我不知道怎么做。现在，这些网站并不显示实际的HTML页面。我的意思是，如果我在IE或firefox中浏览该页面，HTML代码与IE或firefox中的实际内容不匹配。哪些属于这些高级类型的网站？谢谢。

浏览 0提问于2010-03-30得票数 5

回答已采纳

1回答