c#爬虫加载JS_爬虫 js异步加载_c#爬虫执行js - 腾讯云开发者社区

seo、google-analytics

不会为爬虫加载google-analitics js会导致问题吗？这对SEO不好吗？

浏览 0提问于2017-09-19得票数 1

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

performance、seo

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个

浏览 2提问于2013-03-18得票数 3

4回答

有没有适合抓取的服务器端dom引擎？

dom、extract、web-crawler、jaxer

我发现了一个项目，，它在服务器端嵌入了Firefox引擎，所以它可以很好地解析服务器端的JavaScript。但是，这个项目似乎已经死了。解析HTML和提取数据对于爬行网页是很有帮助的。

浏览 3提问于2010-10-09得票数 1

回答已采纳

1回答

如何使用PHP从另一个网站获取数据并将其存储在MySQL数据库中？

php、mysql、curl

我需要使用PHP从网站中获取数据，并将其保存在MySQL数据库中。我还想获取图像并将它们保存在我的服务器中，以便在我的站点中显示它们。我听说可以使用API，但是我想知道我是否可以使用CURL来完成这个任务。我想每天获取大量的数据，那么使用CURL会消耗大量的服务器端资源吗？还有哪些其他方法可以获取数据？

浏览 5提问于2011-08-17得票数 1

1回答

C#爬虫程序无法加载动态内容

c#、request、web-crawler、abot

爬虫可以正确地请求页面，但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容，这导致只加载了页面的一小部分。我希望加载整个页面，但只加载页面的底部。谢谢!

浏览 12提问于2019-07-09得票数 0

1回答

node.js与C#的网络爬行性能

c#、performance、node.js、web、web-crawler

我使用csharp和java编写了我的大多数应用程序，用asp.net/c#编写了我的web应用程序。我想问的是，从性能的角度来看，Node.js是否值得考虑？考虑到吞吐量是最重要的因素。Node.js更易于移植和跨平台是另一个原因，但性能对我来说更重要。

浏览 1提问于2013-06-30得票数 2

2回答

使用scrapy python的.net框架

c#、python、scrapy、ironpython

我正在做我的最后一年的项目，在这个项目中，我想使用C#作为前端语言，并使用Python来抓取数据。

浏览 0提问于2014-05-07得票数 4

1回答

谷歌抓取/索引“计算的”或原始的html源代码吗？

php、wordpress、search

我有一个独特的情况，我有几个页面在多个页面中“分页”(通过WordPress的“下一页”功能)。相同的内容，分布在两个或更多页面上，如下所示：http://mysite.com/mypage/2因此，页面本身有一个html页面标题标记<title>My Page</title>，但由于它分布在多个页面上，我必须创建脚本来为每个页面添加唯一的html标题标记，以便让google对它们进行索引。$exploded = explode("/&#

浏览 4提问于2013-06-22得票数 2

1回答

使用IIS重写规则重定向到仅供爬虫使用的静态内容的SEO后果

seo、web-crawlers、javascript、angular.js

要解决这个问题，我的想法是使用IIS重写规则来重定向到静态生成的内容(使用Nuxt)，如果您的用户代理是已知的爬虫。

浏览 0提问于2019-04-18得票数 0

回答已采纳

1回答

C# -用网页爬虫下载网站ajax页面

c#、ajax、web-crawler

我用c# (使用Microsoft WebCrawler)编写了一个简单的网络爬虫项目，它可以下载特定站点的内容。当我试图在代码中执行相同的操作时，页面的ajax部分没有正确加载。有线索吗？

浏览 1提问于2011-03-11得票数 0

1回答

CSS显示表，任何SEO的含义？

seo、css、table

我想使用CSS显示表代替JS，用于HTML元素的垂直对齐和等高，但是我不确定这是否有任何SEO含义，爬虫会尝试以这种方式解释以表格数据方式显示的元素的内容，还是会忽略它并将其解释为正常的内容？

浏览 0提问于2014-02-07得票数 1

3回答

为什么搜索引擎爬虫不运行javascript？

javascript、ajax、search-engine、google-crawlers

我想知道为什么爬虫不运行javascript来获得呈现的页面和索引。这背后有什么原因？或者这是搜索引擎未来可能会出现的一个缺失的特性？

浏览 4提问于2013-10-10得票数 17

回答已采纳

3回答

使用Javascripts或Web表单对网站进行爬行

c#、javascript、windows、webforms

我有一个网络爬虫应用程序。它成功地抓取了大多数常见和简单的网站。现在，我遇到了一些类型的网站，其中HTML文档是通过表单或javascripts动态生成的。

浏览 0提问于2010-03-30得票数 5

回答已采纳

1回答

我可以在我的网站中只呈现元标签作为SSR吗？

node.js、reactjs、server-side、server-side-rendering、meta-tags

我有一个完整的网站建立的反应前端和NodeJs + Express后端。我的需求是拥有一个特定路由的动态OG (Open图)标记，这是由特定组件使用的。这是相关的代码：路线：这是DigitalCard组

浏览 4提问于2021-01-13得票数 1

2回答

将javascript放在</html>标记之后

javascript、seo、joomla1.5

我搜索了论坛，谷歌等，然后我得到它应该放在我的模板head.php文件的标签后面但是，如果我剪切并粘贴任何调用head.php文件的javascript文件，如果我取消发布该特定模块，那么它是否也会加载在模块中有许多javascript文件，这些文件是在特定条件检查时加载的，如果我默认将这些文件放在head.php中，会不会有问题？

浏览 1提问于2013-04-20得票数 0

2回答

使用node.js创建启用javascript的web爬虫

node.js、express

这不一定是一个爬虫，但我想它更容易理解说明的方式。我想在node.js中执行同样的任务。as的res.render似乎不接受html-string作为输入。假设node.js get与浏览器获得的地址相同的html？您可以想到一个web爬虫，它获取htm

浏览 2提问于2015-02-01得票数 2

4回答

用C#解析和执行JS

c#、javascript、scriptengine

我有简单的爬虫爬行和搜索页面。但是现在我遇到了如何从页面执行和解析js链接的问题。有人知道如何解析和执行js页面吗？ some_url很容易用webhtmltoolktit解析。JAVASCRIPT(1，7，0，2，7，9)是js链接，然后重定向到some_url2页面，然后我需要爬行这个页面。但问题是如何在C#中执行这个javascript以获得some_url2链接？

浏览 13提问于2011-01-20得票数 24

回答已采纳

4回答