爬虫 aspx动态_aspx爬虫_爬虫 aspx - 腾讯云开发者社区

seo、asp.net、c#

谁能告诉我谷歌爬虫是否能够读取使用.resx文件动态切换语言的多语种网站的内容，以及使用resx是否对搜索引擎优化有任何影响？项目的组织方式是： -it具有硬编码到主页中的默认区域性，并且基于此，ASP正在为来自默认语言.resx文件的内容提供服务。 -if项目的默认区域性与首选用户区域性不同，然后将所述区域性交换给首选用户，并从适当的.resx中提取资源。每个页面的所有语言都包含resx，如mainpage.aspx.de.resx/mainpage.aspx.fr.resx anotherpage.aspx.de.resx/anotherpage.aspx.it.resx/another

浏览 0提问于2018-02-19得票数 0

回答已采纳

1回答

URL重写IIS和搜索引擎

iis、search-engine、url-rewrite-module

我已经将我的IIS (asp.net站点)配置为使用URL重写。特别是，这是我的规则(动态规则)：任何数字/字符串格式的url都会被重定向到一个特殊的aspx页面。任何以mysite/id/ SSo开头的url都会被重定向到showprof.aspx?id=id&title=Name。这个可以完美地工作。我的问题是关于搜索引擎的。我没有任何包含爬虫可以扫描的mysite/id/Name链接的“固定”页面，所以我试图弄清楚搜索引擎如何索引我的动态页面。我应该创建一个sitemap.xml吗？如果是，用哪种方式？或者我应该创建一个“隐藏”页面，其中包含指向所有动态内容的所有链接，如my

浏览 3提问于2015-10-21得票数 0

1回答

perl中的Web Crawler问题

perl、web-crawler、libwww-perl

我用Perl构建了一个网络爬虫。我在用 HTML::ContentExtractor LWP::UserAgent HTML::LinkExtor 从网页中提取文本。示例代码的参考链接发行：问题是，它不会从具有.aspx扩展名的网页中获取文本。它非常适合其他网页，我不知道为什么这个爬虫在aspx页面上会失败。

浏览 8提问于2014-04-25得票数 0

1回答

爬行url \如何在node.js中获取动态链接

node.js、web-crawler

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

2回答

了解可爬行ajax的Google规范

c#、asp.net

我正在使用dotnet c#和jQuery + webservices进行ajax调用。我的分页功能类似于twitter和facebook的分页功能。在onload事件中，ajax调用用10行填充内容区域，单击或向下滚动页面事件调用相同的ajax调用，并带有一个页面参数，从而带来更多的10行，依此类推。对于非javascript用户，我没有一个规范的分页。我读了关于爬行ajax的Google规范，但我不确定如何将我的模型转换为google新模型。首先，我使用jQuery ajax post，使用json格式。因此，可以创建一个aspx页面，该页面读取http://www.domain.com

浏览 4提问于2011-11-05得票数 1

回答已采纳

1回答

Python中使用Selenium的屏幕抓取:由Javascript构建的链接

javascript、python、selenium、screen-scraping、web-crawler

我正在使用Selenium和Python构建一个网络爬虫，但我遇到了一些问题。爬虫通过使用查找所有链接来工作 ListlinkerHref = self.browser.find_elements_by_xpath("//*[@href]") 并在ListlinkerHref上迭代。这对于具有href属性的经典链接非常有效。然而，快速浏览一下www.primitiveworldproductions.com主页第110和135行之间的源代码(大约)就会看到一堆使用Javascript构建的链接，但看不到href属性。我对Javascript几乎一无所知，我查阅了Seleniu

浏览 4提问于2013-06-22得票数 0

1回答

除特定子站点外的Regex URL模式

c#、regex

我正在做一个网络爬虫，在那里我试图做一个正则表达式来支持以下内容。匹配:所有页面以 http://intranet/ 但不是从 http://intranet/sites/ and http://intranet/search/ 在子文件夹/页中/以.aspx结尾 Valid sample: http://intranet/products/Pages/default.aspx Invalid samples: http://intranet/Pages/sofus/default.aspx http://intranet/sites/products/Pages/defau

浏览 3提问于2013-12-17得票数 3

回答已采纳

1回答

如何设置支持一系列动态URL的AdSense爬虫登录？

google-adsense、web-crawlers、dynamic

我有一个网站，主要功能动态内容。每一段动态内容都有自己的网址，如"www.example.com/page/\*/\*“ 我遇到的问题是，其中许多页面都需要用户登录。我读过关于AdSense爬虫登录的文章，并试图实现它。但是，我发现没有提到通配符或URL的正则表达式。据我所知，AdSense爬虫登录只支持静态URL。是否有任何方法来设置支持一系列动态URL的AdSense爬虫登录？

浏览 0提问于2015-02-03得票数 3

2回答

PhantomJS传递HTML字符串并返回页面源代码

c#、javascript、ajax、selenium、phantomjs

对于C#中的网络爬虫项目，我尝试执行Javascript和Ajax来检索爬行页面的完整页面源代码。我正在使用一个现有的网络爬虫(Abot)，需要一个有效的HttpWebResponse对象。因此，我不能简单地使用driver.Navigate().GoToUrl()方法来检索页面源代码。爬虫下载页面源代码，我想在源代码中执行现有的Javascript/Ajax。在一个示例项目中，我尝试了以下操作，但没有成功： WebClient wc = new WebClient(); string content = wc.DownloadString("ht

浏览 0提问于2014-04-03得票数 2

1回答

Web窗体:返回http状态以获取未找到的分页url结果？

asp.net、http、webforms、response、http-status-codes

我们有一个分页的URL，如： example.aspx/?pn=1 example.aspx/?pn=2 example.aspx/?pn=3 ... 诸若此类。这是返回产品列表的web表单URL。当我们没有针对该请求的任何产品时，应该将什么返回到浏览器？我们应该像： 1. Response.StatusCode = 400; //Bad request Response.End(); 2. Response.StatusCode = 204; //No Content Response.End(); 我们应该在这里使用Respose.End()吗？什么是正确的方式通知客

浏览 3提问于2017-09-04得票数 1

回答已采纳

2回答

Scrapy在页面上找不到表单

html、python-3.x、xpath、scrapy、web-crawler

我正在尝试编写一个自动登录到的爬虫。但是，当我尝试在shell中使用scrapy.FormRequest.from_response时，我得到了错误： No <form> element found in <200 https://www.athletic.net/account/login/?ReturnUrl=%2Fdefault.aspx> 当我在网站上检查元素时，我肯定可以看到表单，但当我尝试使用response.xpath()查找它时，它也没有在Scrapy中显示出来。有没有可能以某种方式对我的爬虫隐藏表单内容？如果是这样，我该如何修复它？

浏览 0提问于2018-06-30得票数 1

1回答

Scrapy Scrapy提取器规则更改urls

python、regex、scrapy

我正在尝试使用Scrapy构建一个网络爬虫蜘蛛，并为我希望我的爬虫使用regex获取的链接设置了一个规则： rules = (Rule(SgmlLinkExtractor(allow='http\:\/\/www\.cartelera\.com\.uy\/apeliculafunciones\.aspx\?[^"]*1&29'), 'parse_loly', follow=True, ),) 我检查了regex，它起作用了，它与我希望蜘蛛爬行的链接相匹配，但是当我运行程序时，蜘蛛没有找到任何项目，而且经过一点检查，我发现虽然regex匹配正确的项

浏览 2提问于2014-02-17得票数 0

回答已采纳

1回答

Scrapy管理动态爬行器

web-scraping、scrapy、scrapyd

我正在建设一个项目，我需要一个网络爬虫爬行不同的网页列表。此列表可以随时更改。这是如何用scrapy最好地实现的？我应该为所有网站创建一个爬虫，还是动态创建蜘蛛？我读过关于的文章，我猜动态创建爬行器是最好的方法。不过，我需要一个关于如何实现它的提示。

浏览 2提问于2013-07-02得票数 3

回答已采纳

1回答

为什么我的动态创建的内容不能在Google中搜索

ajax、web-crawler

我的网站提供了动态创建的内容，爬虫可以看到，基于以下规范：。这样，谷歌爬虫用以下语法索引了大约5000个： urls 用谷歌的网站管理员工具查看我的抓取报告，我确信这些页面都被成功抓取了。但是，当通过Google进行搜索时，它们不会显示为结果。请注意，我确实找到了我的通用网站，在“更多结果”下，我找到了大约40个动态生成的页面，但显然这不是我想要的。我想根据它们的内容(AAPL，GOOG，...)找到页面。也许，爬虫认为我的页面或多或少是一样的。但事实并非如此。

浏览 3提问于2013-06-09得票数 0

1回答

我可以使用powershell制作一个从动态网页获取数据的网络爬虫吗？

powershell、web-crawler

我正在做一个网络爬虫的项目，从内部网站获取一些信息。我发现静态页面可以通过几个简单的步骤(设置cookie，然后使用Cmdlet Invoke-RestMethod)来捕获，但是动态页面的数据不能通过这种方式获得。此外，我发现动态页面上的链接并不是持续不断的，例如，它总是由jsessionid或其他东西组成，它们总是随时间而变化。有人能给我一个提示来解决这个问题吗？爬虫能抓取动态网页吗？谢谢..。

浏览 149提问于2017-02-13得票数 0

2回答

此URL的SharePoint 2007 -Content已被服务器排除，因为没有索引属性

sharepoint、search、attributes、indexing

有没有人遇到过这样的错误:搜索爬虫忽略了一个aspx页面？对于这些页面，我收到以下警告消息：“此URL的内容已被服务器排除，因为没有索引属性”。任何帮助都将不胜感激。谢谢。

浏览 0提问于2009-05-19得票数 1

回答已采纳

2回答

如果实际的代码/标记不改变，提供动态内容的页面会获得更高的搜索排名吗？

seo

我听说搜索引擎优化很大一部分是保持你的网站的最新。网站/页面更新的频率越高，更新的频率越高，你的网站就越有可能被推到搜索结果的顶端。这事儿可以理解。毕竟，没有人想访问一个网站，没有过时的信息和可能的死链接。但是，那些提供动态内容(比如数据库中的内容)但.php或.aspx文件的内容从未或很少改变的站点呢？我的理论是，这实际上是重要的，因为网络爬虫不阅读代码，他们阅读服务的内容，但由于我不是一个经验丰富的网页开发人员或搜索引擎优化专家，我在这里看看是否有人可以确认交易是什么，如果有什么含意要知道，他们是什么？

浏览 0提问于2014-07-16得票数 0

回答已采纳

1回答

如何使用动态数据启用页面索引？

architecture、indexing、hyperlink、web-crawler

我有一个网站，它有特定的urls指向具有永久数据的页面，还有一些指向动态网页的urls。谷歌定期对这两种情况进行索引。当用户找到一个动态内容urls时，页面上的数据已经改变了，用户没有找到他想要的内容。此外，动态url页面包含指向永久url的链接(我希望Google或任何爬虫进行索引)。Google爬虫控件(网站管理员工具)不能从页面中读取urls，但不能对它们进行索引。解决办法？爬行策略系统架构。

浏览 3提问于2010-04-26得票数 3

2回答

如何为AngularJS网站构建sitemap.xml？

angularjs、xml、seo、phantomjs、sitemap.xml

我已经设置了一个使用ui状态路由器的AngularJS应用程序。它有一些静态页面，除此之外还有基于配置文件id生成动态页面的配置文件页面。为了搜索引擎优化的目的，我使用了PhantomJS和生成HTML来给爬虫响应。但是，我如何才能生成包含所有动态页面地址的sitemap.xml，这样爬虫就可以在搜索引擎上获取并列出这些URL了呢？

浏览 22提问于2016-11-14得票数 8

1回答

C#爬虫程序无法加载动态内容

c#、request、web-crawler、abot

我正在使用Abot库来抓取网页。爬虫可以正确地请求页面，但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容，这导致只加载了页面的一小部分。我试着让程序等待，希望动态的请求无论如何都会被发送，但这似乎不起作用。我希望加载整个页面，但只加载页面的底部。如何才能使crawler请求所有数据？谢谢!

浏览 12提问于2019-07-09得票数 0

2回答

如何在WCF中运行程序？

c#、asp.net、database、wcf、web-crawler

我是世界自然基金会的新手，我正在设计一个项目，在其中我想运行一个爬虫程序(在c#中编码)，它爬行一些网站，它将抓取的数据存储在表的数据库(sql服务器数据库)。我希望爬虫在30分钟后重复运行，并更新数据库。然后我想在我的托管平台上使用该服务，这样我就可以使用web形式的表格中的数据(即.aspx页面) 是否可以使用WCF来实现此目的？请建议我如何继续前进？谢谢

浏览 0提问于2012-01-14得票数 0

回答已采纳

2回答

Python Web Crawler for JavaScript生成的URL

javascript、python、web-scraping

我正在尝试使用一些Python网络爬虫从一个网站下载大约3000个PDF。但是，这些PDF的URL是由JavaScript函数生成的。所以，我想知道是否有任何关于如何实现这一点的教程？例如，单击onclick="javascript:__doPostBack('ctl00$placeBody$gridView$gridView','DocumentCenter.aspx?did={0}$0&#39后将生成链接到Alberto European Hairspray (Aerosol) - All Variants的URL。因此，问

浏览 0提问于2015-10-09得票数 1

2回答

抓取: Web抓取由于结构变化而停止

html、web-scraping、web-crawler

当抓取一个网页时，网页的结构一直在变化，我的意思是它的动态性导致我的爬虫停止工作。是否有一种机制可以在运行完整的爬虫程序之前识别网页结构的变化，以便识别结构是否已经改变。

浏览 32提问于2020-09-28得票数 0

2回答

简单的网络爬虫速度问题

php、web-crawler

我用PHP创建了一个非常简单的网络爬虫，用来抓取一些足球网站的比赛结果。但是当我抓取一个网站时，抓取它大约需要0.5 -1秒。因此，如果我有很多网址要抓取，这将需要大量的时间。这是我抓取网站的代码起点： $doc = new DOMDocument(); $doc->loadHTMLFile("http://resultater.dai-sport.dk/tms/Turneringer-og-resultater/Pulje-Stilling.aspx?PuljeId=229"); $xpath = new DOMXpath($doc); 我已经自己创建了爬虫，所以也

浏览 2提问于2015-04-20得票数 3

2回答

塔防御:重叠的塔范围

dynamic、game-physics

我计划用一些动态的方法来创建一个塔防御游戏。场景是这样的：红色区域将是“杀伤区”，玩家的塔位/策略将在这里得到极大的利用。我想要发生的是，当一个有“主动护盾增益”的海浪中的爬虫进入杀伤区时，爬虫会激活他的技能来保护附近的爬虫。有没有一种算法可以帮助我做到这一点？

浏览 2提问于2016-11-23得票数 0

1回答

如何主动扫描(ascan)多个urls

owasp、zap

我正试着用zap代理做主动扫描。代码如下所示： // /spider/action/scan/ and wait till it finishes int scanId = StartScanning(clientApi, API_KEY, "https://contosco.com/Home.aspx"); PollTheSpiderTillCompletion(clientApi, scanId); // /ascan/action/scan/ and wait till it finishes int activeScanId = StartActiveScanning

浏览 24提问于2016-08-18得票数 0

1回答

为什么Kinesis或Crawler要在我的数据中创建分区？

amazon-web-services、amazon-s3、amazon-kinesis-firehose、aws-glue-data-catalog、glue-crawler

上下文:根据胶水模式，我使用动态技术将来自lambda的数据流到一个S3桶中。然后，我在我的S3桶上运行一个爬虫来编目我的数据。我的数据，当写入运动消防软管时，有以下属性：'dataset_datetime，attr1，attr2，attr3，attr2 4.‘。我没有在从lambda编写的数据中，在我的运动消防软管中，也没有在我的胶水目录中定义任何分区。但是，当数据存储在我的S3桶中时，数据存储在以下dir结构中： -year -month -day -hour -dataFile.parquet 然后，当我在上面运行我的爬虫时，我的爬虫会创建4个额外的分区键，这些键映射到年、月、日

浏览 10提问于2022-07-26得票数 0

回答已采纳

2回答

在asp.net网站中运行爬虫和更新数据库使用哪种技术？

c#、asp.net、database、wcf

我正在为大学开发一个项目，我需要一些关于发展的建议。这是一个网站，显示来自其他网站的信息，如链接，图片等。我已经为网站准备了下面给出的模型。一个Home.aspx页面，它显示表中的数据( server)。我已经编写了一个爬虫(在c#)，可以抓取(获取数据)所需的网站数据。，我想通过某种方式在后端运行爬虫一段时间，并且它可以在表中插入更新。我希望我可以在我的数据库中获得更新的信息，以便Home.aspx显示更新的信息。(类似于谷歌新闻网站的较小版本) 我想在共享托管环境(即第三方托管提供商公司，并且可能使用IIS平台)中托管wesbite。我向不同的.NET论坛和社区发布了简单的情况，

浏览 2提问于2012-01-14得票数 0

回答已采纳

3回答

替换python中不起作用的字符

python

我正在使用漂亮的汤，我正在编写一个爬虫，里面有以下代码： print soup.originalEncoding #self.addtoindex(page, soup) links=soup('a') for link in links: if('href' in dict(link.attrs)): link['href'].replac

浏览 0提问于2011-08-27得票数 21

回答已采纳

1回答

从论坛中抓取数据

python、scrapy、web-crawler

我对Scrapy很陌生。我想爬所有的帖子从一个论坛，和最新的那些新的帖子。有一些问题我想弄清楚。 1.如何确保爬虫不会爬行两次？ 2.如果有某种机制可避免两次爬柱。即使我重新启动爬行器，这个机制也能工作吗？ 3.爬虫会继续自动爬行新职位吗？ 4.我需要在这个项目中使用什么db / plugin？以下是蜘蛛类的初始化 name = "forum" allowed_domains = ["forum.com"] start_urls = ( 'http://s7.forum.com/posts.aspx',

浏览 6提问于2014-12-01得票数 1

回答已采纳

1回答

如何使用Jsoup登录ASPX网站

java、html、web-crawler、jsoup

我一直在尝试使用Jsoup爬虫登录aspx网站，到目前为止我找到的所有东西都是表单，但是这个aspx网站here没有任何表单。我该怎么做呢？这是我到目前为止所知道的： Connection.Response loginForm = Jsoup.connect(LOGARUN_URL) .method(Connection.Method.GET) .execute(); Connection.Response currentPage = Jsoup.connect(LOGIN_FORM_URL) .

浏览 23提问于2020-01-01得票数 2

2回答

如果我用Ajax在我的页面上做所有事情，我如何才能做搜索引擎优化？

ajax、web-applications、seo、web-crawler、meta

爬行器和ajax应用程序之间的关系如何？网页爬虫或浏览器读取动态创建的元标记吗？我想：向页面添加锚创建内容的permalinks 动态添加元标记。

浏览 3提问于2011-12-10得票数 4

回答已采纳

2回答

填充动态创建的ASPX页

asp.net、dynamic、webforms

这个标题可能让人困惑，我现在做的是动态创建一个aspx表单，并使用Server.Transfer("PrssPage.aspx")保存它的数据。在ProcessPage.aspx上，我使用上一页属性保存用户使用动态创建的表单输入的数据。为每个动态表单提供一个ID，例如123.aspx 现在我想要实现的是用数据库中的用户输入值重新填充动态创建的aspx页面，请注意这里没有动态生成的aspx.cs页面。我只生成aspx页面。有什么建议吗？

浏览 4提问于2010-03-22得票数 0

2回答

检查页面是否为python中的HTML页面？

python

我正在尝试为网络爬虫写一段python代码。我想检查我要抓取的页面是否是HTML页面，而不是像.pdf/.doc/.docx等那样的页面。我不想用扩展.html来检查它，因为asp、aspx或像这样的页面不会显式地.html扩展，但它们是.html页面。在python中有什么好的方法吗？

浏览 2提问于2013-09-19得票数 3

1回答

向爬虫提供数据库内容的最佳方式是什么

web-crawler、sitemap、pagerank

我的网站的内容是由用户提供的问题和评论定义的，并且是动态的，本质上是不断增长的。该数据库预计将托管数百万个records.However，这些内容将根据访问者对不同类别和类型的选择(使用下拉选项)呈现给他们。本质上，这些内容对于搜索引擎爬虫是不可见的。使这些内容可供爬虫使用的最佳方式是什么？我是否应该定期运行批处理操作，创建静态网页，并通过站点地图将其提供给爬虫？请提个建议。谢谢。

浏览 1提问于2014-11-08得票数 0

3回答

如何让搜索引擎找到我的AJAX内容

php、ajax、seo

我有一个页面，通过AJAX动态加载一节内容。我担心这意味着内容不会被搜索引擎找到。为了向你展示我的意思，网站在，动态内容在 -通常没有人会访问第二个链接，它只是加载到第一个页面中。我知道我可以通过使用sitemap.xml告诉爬虫程序读取speakers.php，但然后我会在搜索结果中显示指向speakers.php的链接。我猜最终的解决方案是，如果有人请求/speakers.php，它会将他们重定向到主页，而让爬虫读取数据。有什么建议吗？

浏览 3提问于2008-10-22得票数 1

回答已采纳

1回答

从网站下载pdf后提交一个表单与美丽的汤

python、pdf、beautifulsoup

我目前正在写一个爬虫脚本与python.I。我知道美丽的汤包，并已做了一些简单的crawlers.currently写一个网站的爬虫有四个下拉菜单，选择后，如果我按下下载按钮，一个pdf将被下载。 post_data = { 'select name 1' : 'value 1', 'select name 2' : 'value 2', 'select name 3' : 'value 3', 'select name 4' : 'value 4', } r

浏览 16提问于2016-09-25得票数 0

1回答

爬虫不读取我的javascript附加的meta标签

javascript、html、jquery、meta-tags

爬虫在我的头中没有通过脚本附加的meta标签： document.head.innerHTML = document.head.innerHTML + '<meta name="description" content="Description">' 此脚本位于head中，并附加了元素fine。我也尝试过JQuery。我想做这第一步，因为我很快就会使用JS从JSON文件中读取来添加动态数据。有没有合适的JS代码格式可以不阻止爬虫抓取我的脚本？

浏览 1提问于2020-12-15得票数 1

1回答

使Angular网站的AMP版本可爬行

javascript、html、angularjs、angular、amp-html

我有一个Angular站点，在那里我可以动态加载对象的属性。我为每个对象创建了一个AMP站点。正常情况下，我将不得不从规范的网站链接到AMP网站。问题是爬虫找不到规范的站点，因为它是通过Angular动态加载的。有没有可能绕过这个限制，比如在Angular项目的索引站点中放置对所有对象的引用？更清楚地说：索引网站: mysite.com object的详细视图: mysite.com/#/ detail /object1 如果我根据当前显示的对象动态添加对amp页面的引用，爬虫将找不到amp站点，因为也找不到规范站点。现在我想知道是否可以将所有对象的细节视图的所有引用放到索引站点中，而不

浏览 1提问于2017-09-18得票数 0

1回答

CsQuery还是Jint？C#中的Javascript数据操作

c#、javascript、jint、csquery

我正在写一个用于统计目的的网络爬虫。网站通过javascript动态更新。我设法解析了HTML文件，并将所有脚本值复制到一个数组中。如何在本地或动态地重新执行这些脚本以获取返回值？CsQuery、Jint或其他方法？

浏览 3提问于2013-03-25得票数 0

1回答

IIS7.5将IP重定向到域

redirect、iis-7.5

但是在这个问题上，看了一下谷歌，却什么也找不到。网站的部署稍有错误，一些页面被保存为： http://73.34.12.../page.aspx 其中IP是域的底层IP地址(因此页面服务很好)。然而现在，很多爬虫正在为IP站点和主站点建立索引。这是浪费带宽，并导致一些重复的内容问题！如何将IP重定向到域？

浏览 0提问于2011-07-01得票数 4

回答已采纳

2回答

使用用户登录从其他网站导入用户帐户数据

api、import、web-crawler、groupon

和从和其他日常交易网站访问用户帐户及其日常交易。这些网站要求用户提供他们的凭据以登录到各自的网站，然后导入帐户详细信息。LivingSocial和其他交易网站不提供对用户帐户的应用编程接口访问。我也想这样访问其他网站，并从那里导入数据。但是我找不到和从Groupon和LivingSocial等导入数据的后端进程。到目前为止，我能够发现网络爬虫/蜘蛛可以用来从网页上删除数据。但我不确定网络爬虫在我们需要用户登录并且页面urls是加密的，或者至少是动态生成的urls的情况下是否有用。请帮助我，并建议我做这件事的方法。如果爬虫是这个问题的解决方案，请提供一些我可以在我的.net应用程序中使用的

浏览 4提问于2011-09-09得票数 0

回答已采纳

2回答

AWS:动态分配和关联新的IP地址到EC2实例？

amazon-web-services、amazon-ec2、cloud-hosting、dynamic-ip

我在一个AWS托管服务器上运行一些web爬行作业。爬虫从eCommerce网站抓取数据，但最近爬虫从网站中获得“超时错误”。根据我的IP地址，该网站可能限制了我的访问频率。分配一个新的弹性IP地址可以解决这个问题，但不会持续很长时间。我的问题是:我是否可以使用任何服务来自动和动态地分配和关联新的IP到我的实例？谢谢!

浏览 4提问于2014-04-08得票数 9

回答已采纳

1回答

动态内容和爬虫

javascript

搜索引擎爬虫会使用Javascript和API调用来索引动态加载的内容吗？或者我必须通过服务器端编程(PHP、ASP等)加载此内容。

浏览 7提问于2012-09-03得票数 1

回答已采纳

2回答

angular2服务器端呈现:动态内容

angular、seo、google-crawlers、angular-universal

我经常读到服务器端渲染作为Angular2的一个伟大的新特性，它将使webapp可以被Google、Bing等爬行。但是，对于应用程序启动时动态加载的内容，这是如何工作的呢？爬虫会在索引页面之前等待那些挂起的请求吗？还是我必须指定我的Angular2应用程序的特定状态，它告诉服务器我的应用程序已经准备好发送到客户机(在本例中是爬虫)？

浏览 5提问于2017-02-07得票数 1

回答已采纳

1回答

在同构React上处理SEO

express、reactjs、seo、react-router、isomorphic-javascript

我正在使用React & Node JS来构建通用应用程序()。我也使用反应头盔作为库来处理页面标题，元，描述等，但我有一些问题，当我使用ajax动态加载内容时，谷歌爬虫无法正确获取我的网站，因为内容将被动态加载。有什么建议来解决这个问题吗？谢谢!

浏览 1提问于2016-09-26得票数 0

2回答

Asp.net Request.Browser.Crawler -动态爬虫列表？

c#、asp.net、web-crawler

我学会了为什么在C# ()中Request.Browser.Crawler总是假的。有没有人使用某种方法来动态更新爬虫列表，所以Request.Browser.Crawler真的会很有用？

浏览 3提问于2009-01-10得票数 8

回答已采纳

1回答

SEO:可以抓取动态生成的链接吗？

seo、web-crawler、dynamic-linking、google-crawlers

我有一个包含带有onclick="“代码的<div>标记的页面，该代码调用一个ajax请求来获取json数据，然后遍历结果以形成附加到页面的链接(<a />)。这些链接不存在于我的网站上的任何其他地方。如何使这些动态生成的链接可爬行？我最初的想法是将<div>标记转换为带有href="#“的<a>标记，但由于我对典型爬虫如何工作的了解有限，我认为这不会解决我的问题，因为"#”将是爬虫识别的内容，而不一定是动态生成的输出。除此之外，我根本不想改变滚动的位置，这也会排除给<a>标签一个id并让它引用自己的可能性。

浏览 1提问于2011-09-22得票数 1

回答已采纳

2回答

测试我的网站在程序中是如何显示的

python、html、google-app-engine、browser、search-engine

网站不仅可以被浏览器上的用户访问，还可以被程序、机器人和爬虫访问。我有一个运行在上的带有python的网站，它具有由python程序通过组合、合并和循环字符串生成的非静态HTML页面。但是，它们也不是动态页面，因为生成这些页面不需要用户输入。python生成内容完全是为了方便、简洁和易于维护，并且完全由url设置。一些搜索引擎无法对动态页面进行索引。我想知道这些页面是否符合“动态”，即它们是否可以被这类机器人为通常的元数据和内容进行爬行或索引，并且通常希望有一种方法来检查任何url在机器人或爬虫中是如何出现的，比如搜索引擎使用的url，这样我就可以看到某个url何时是不可爬的。如果有人知道

浏览 5提问于2012-01-09得票数 0

回答已采纳

2回答

使用Storm爬行器为每个域设置不同的域特定爬行(例如速度)

java、web-crawler、apache-storm、stormcrawler

我最近才发现了Storm爬虫，从过去的经验和研究中，我发现这个基于Apache的项目非常健壮，适合于许多用例和场景。我已经阅读了一些教程，并测试了风暴爬行器的一些基本设置。我想在我的项目中使用爬虫，但是有一些事情我不确定爬虫是否有能力做，甚至它是否适合这样的用例。我想做小的和大的递归爬行在许多web域与特定的速度设置和限制取回urls的数量。爬行可以在任何时候以不同的设置单独启动(不同的速度，忽略该域的robots.txt，忽略外部链接)。问题：风暴爬行器适合这种情况吗？是否可以将限制设置为爬虫获取的最大页数？我可以为不同的域设置获取页面数的限制吗？是否可以单独监

浏览 5提问于2017-05-22得票数 1

回答已采纳