asp 抓取网页_asp网页抓取_asp抓取网页信息 - 腾讯云开发者社区

、

我正在尝试用经典的asp抓取网页。为什么，因为我有一个asp文件，我试图包括在2个域，我宁愿没有2个副本更新。我对整个网络抓取的事情都是新手，并且很难找到一个关于如何用经典的asp (不是我喜欢的，但我坚持使用的)如何去做的“笨蛋”教程。我不需要任何花哨的东西，只需要从here.asp抓取整个页面的源代码，并将其发布在myotherpage.asp上。在代码或教程中提供一点帮助将不胜感激。

浏览 0提问于2017-03-10得票数 0

2回答

用jQuery抓取文件上传ASP对象文本框文本

、、、

我有一个网页表单，其中有一个ASP文件上传对象，我想使用jQuery来抓取他们选择的文件，并通过AJAX上传文件。然而，在选择文件名之后，我在抓取它时遇到问题。以下是HTML/ASP代码： <asp:FileUpload runat="server" ID="NewPic" /> <asp:RequiredFieldValidator ID="RequiredFieldValidator1" ControlToValidate="NewPic" runat="server" Displ

浏览 0提问于2009-08-01得票数 0

1回答

有没有可能改变抓取屏幕所捕获的html的样式？

、

我需要屏幕抓取一个网页，并改变其风格，以符合该网站的外观和感觉，它将在其中显示。这个是可能的吗？我将使用asp.net进行屏幕抓取。谢谢

浏览 1提问于2010-08-31得票数 1

回答已采纳

1回答

使用ASP.NET MVC应用程序定期插入Azure数据库

、、、

我想知道如何实现一个解决方案来检索我抓取的数据，并将其用于在ASP.NET MVC应用程序中显示。当前的实现抓取数据并将其从控制器显示到视图，然而，通过这样做，由于在处理查看具有抓取的数据的页面的请求时运行的刮取器，查看网页的请求将花费非常长的时间。有没有什么实现可以将数据检索和网站分开？目前，我有一个抓取数据的控制台应用程序抓取器类，以及一个显示数据的ASP.NET MVC应用程序。我如何才能轻松地将它们耦合在一起呢？

浏览 3提问于2016-03-16得票数 3

0回答

抓取chrome控制台消息并在代码中使用

、、

我用<iframe>制作了Asp.Net网页 <body> <iframe src="http://example.com"></iframe> </body> 当我在Chrome中查看该页面时，在控制台中收到一些消息我需要抓取该消息，当找到特定的文本时，在我的网页上做一些工作人员。欢迎任何解决方案。

浏览 11提问于2016-07-07得票数 0

1回答

如何从ASP.NET获取网页的HTML内容

、、、、

我想从一个动态网页中抓取一些内容(它似乎是在MVC中开发的)。数据抓取逻辑是用超文本标记语言的敏捷性完成的，但现在的问题是，从浏览器请求网址时返回的超文本标记语言和从ASP.NET网页请求的网址的网页响应是不同的。浏览器响应主要包含我需要的动态数据(根据查询字符串中传递的值呈现)，但WebResponse结果不同。你能帮我获取动态网页查看WebRequest的实际内容吗？下面是我读过的代码： WebRequest request = WebRequest.Create(sURL); request.Method = "Get"; //Get the response W

浏览 3提问于2014-09-24得票数 7

1回答

UrlLib2 -在工作场所网络上请求ASP.NET网站时访问被拒绝

、、、、

我目前正在写一个脚本，涉及(希望)屏幕从我的工作场所的网页上抓取大量数据。这是一个ASP.NET页面，在Chrome或Internet Explorer上查看时根本不需要登录。我已经尝试了“会话劫持”我的internet explorer会话，以便让URLLIB2在Python中读取它，但我仍然被拒绝访问(在添加internet explorer正在使用的ASP.NET_Sessionid之后...) 诚然，我对internet网络知之甚少，所以我可能做错了什么，但我需要从Python访问这个网页。如果另一个库工作得更好，我愿意使用它。

浏览 0提问于2013-05-01得票数 1

2回答

从.asp文件获取数据

我的女朋友的任务是从一个网页上获取所有数据。该网页属于一家成人教育中心。要访问该网页，您必须先登录。url是一个.asp文件。她必须将数据放在Excel表格中。这些条目是学生姓名，号码，身份证号码，电话等。有数千个条目。仅HR学生就有70页的参赛作品。这一切都以表格的形式显示在网页上。可以进行复制和粘贴。我可以合理地处理Python openpyxl，我听说过web抓取，我相信Python可以做到这一点。我不知道.asp是什么。你能给我一些关于如何用Python获取数据的提示吗？我可以自动执行此任务吗？这是MySQL的案例吗？(我对此一无所知。)

浏览 13提问于2019-03-01得票数 0

1回答

如何用R正确抓取网页

、、

谁能给我一些关于如何正确抓取这个网页的提示(带传递参数的asp：) 我的粗略尝试如下，我想知道是否有更有效的方法来处理它(正如您所看到的，糟糕的结果是行不匹配)。谢谢 library(XML) aaaa<-2013 url<-paste0("http://statistiche.terna.it/statistiche/regioni.asp?ANNO=", aaaa, "&AREA=Veneto") tmp<-readHTMLTable(url, which=1, as.data.frame=TRUE, stringsAsFa

浏览 0提问于2015-08-03得票数 0

1回答

刮擦不还任何擦伤的物品

、

我刚刚开始使用Scrapy进行Web抓取。我读过很少的文档，这些文档指向html页面进行抓取。我在电子娱乐网站上试过，我只是想刮一下图片的标题。稍后价格和图像。写的时候，我什么也得不到。有人能指出我做错了什么吗？这是密码。 # -*- coding: utf-8 -*- import scrapy class EeentertainmentSpider(scrapy.Spider): name = 'eeentertainment' allowed_domains = ['www.entertainmentearth.com/exclusives.

浏览 0提问于2018-02-16得票数 0

回答已采纳

3回答

Asp.Net: Javascript模式窗口

、、、

我想创建一个javascript模式弹出窗口，以便在ASP.Net 2.0网页中从用户那里获得一些值。基本思想是这样的。当用户单击一个按钮时，会出现一个模式窗口，并询问3到4个问题。当此窗口打开时，将无法更改asp.net页面。一旦问题得到回答，我需要从这个窗口抓取值，这样asp.net页面就可以访问它们，并可以在后面的代码中处理它们。我可以得到一些关于如何实现此场景的示例吗？

浏览 0提问于2008-10-17得票数 3

回答已采纳

1回答

如何抓取基于ASP.NET的页面

、、、

我正在开发一个python程序，它可以从网页上抓取数据(公共数据)。问题是当我想要获取一个网页的源代码时，可以使用按钮访问它，而且它是基于ASP.NET的，我不能像往常一样从页面中解析一个href。所以我的问题是:有没有一种简单的方法来获取ASP.NET页面的源代码？为了解释清楚，我附上了一个基于ASP.NET的网页:在这种情况下，我想获得页面的源代码，当我点击页面中间的"Radiátor topení(1)“时，它会显示出来。您可以看到父页面，其中是我想要模拟的按钮，单击！我试图检查这个(父)页面的源代码，并在"Radiátor topení(1)“文本附近寻找一些ur

浏览 0提问于2014-07-02得票数 2

6回答

阻止后退按钮

、、、

我在带有C#的ASP.NET MVC上使用Razor。我正在调用一个外部网页来处理一张信用卡，它会返回给我。然后我会显示一张收据。我想阻止他们返回到前一个屏幕。我没有底层的cs页面，比如asp，因为这些都是.cshtml文件，用来抓取事件。这个收据页面是一个视图，所以我不能将JavaScript放在标题中，因为它会影响使用它的每个页面。有人知道在这种情况下我是如何防止后退按钮的吗？

浏览 2提问于2012-10-20得票数 10

回答已采纳

3回答

文件的asp.net浏览

、、

我有一个方法在我的asp.net网页转储csv文件到我的网格视图，但我想包括一个对话框，让用户浏览和选择csv文件从他们的PC导入和抓取该文件名和路径信息，以提供给我的csv导入方法，以便它可以对该文件采取行动。有没有简单的方法可以做到这一点？

浏览 3提问于2012-03-24得票数 0

1回答

crawler4j用于抓取urls列表，而无需抓取整个网站

我有一个网页网址列表需要抓取。是否有可能只抓取网页列表，而不是深入抓取它。如果我添加的url作为种子，它抓取完整的网站与完整的深度。

浏览 4提问于2012-08-10得票数 1

回答已采纳

1回答

使用chrome中的asp.net网页访问安卓设备上的文件

、、

我有一个asp网页，需要从我的android平板电脑上的设备存储区抓取一个xls文件，将其转换为字节，并将其存储在我的SQL数据库中。我可以做转换和存储位，但我不知道如何使用VB获取文件。谁能告诉我如何才能获得文件，而无需用户使用上载控件进行搜索？我也想在处理后删除该文件。谢谢。。德里克。

浏览 0提问于2014-09-03得票数 0

1回答

PHP是否适合长时间执行，如web爬行和处理大文件？

我曾经看过一篇文章，说PHP最初只是为了显示静态网页，而不是为了实际编程，因此由于内存泄漏，它在长时间执行中存在严重缺陷。我知道PHP可以用来抓取几十个网页，处理音频/视频文件等，但它“擅长”吗？当然，判断它是否擅长某件事应该是一个相对的评估。在本例中，将比较ASP/node.js/Python。 PHP7.x是否已改进或适应长时间执行？这是一种普遍的问题，而不是具体的问题。但我认为这篇文章可能会给很多人提供有用的见解。

浏览 19提问于2018-05-28得票数 0

回答已采纳

2回答

在内存中浏览网页

、

他们是否有办法在没有任何浏览器的情况下，在抓取html之后执行网页javascript的加载事件。即我需要抓取网页内容通过javascript呈现例如bbc新闻网页的视频在页面加载后通过javacscript呈现，我对抓取视频链接和镜头描述感兴趣。

浏览 0提问于2012-06-27得票数 1

2回答

从网页抓取数据时需要花费时间加载时出现问题

、、

作为练习的一部分，我正在尝试从网页中抓取数据，但网页的设置方式似乎正在挫败我的一些努力。基本上，我认为网页需要一段时间来加载我感兴趣的功能，因此，当我运行代码来提取我想要的数据时，它失败了。这是网页：https://www.cbn.gov.ng/rates/ExchRateByCurrency.asp 我注意到，即使在检查源代码时，表部分也需要一段时间才能加载。下面是我的代码： from bs4 import BeautifulSoup as bs from requests import get html = get("https://www.cbn.gov.ng/rates/

浏览 23提问于2020-11-01得票数 0

回答已采纳

3回答

通过抓取所有页面来测试web

、、、

我用ASP.NET MVC3开发网站，由于视图是在第一次访问后编译的，所以有时我会遇到一些错误(如打字错误)的网站。我想创建一些类似于单元测试的东西，它将尝试访问所有页面，以避免视图中的任何错误。创建另一个在本地主机上抓取web的程序应该很容易，但我想将它集成到单元测试循环中。这个是可能的吗？我应该自己写一个write simple crawler，还是应该使用一些已有的东西？此外，这将是很好的获得列表的网页和他们的连接数量，看看哪些网页是可访问的多少个链接。爬虫应该只抓取我的网站，而不是外部链接。此外，它还可以帮助查找从起点(索引页)无法访问的页面。我的网站有大约100个页面，所以

浏览 1提问于2012-08-09得票数 1

3回答

如何在asp.net-mvc中跟踪我所在的页面

、

我在一个母版页中有一个链接，上面写着“发送反馈”，它会打开一个新的网页：当我转到这个新页面时，我有一个表单，我想用这个人单击"Send Feedback“按钮时所在的URL填充一个文本框。我如何抓取当前的URL来传递它？我应该在客户端(jquery)还是在asp.net-mvc服务器端做这件事？

浏览 1提问于2011-04-13得票数 1

回答已采纳

2回答

如何在asp.net C#中为每隔一段时间自动运行的程序设置时间表？

、、

我写了一个用于网页抓取的python程序，例如: WCfixture.py .i正在用C#制作一个asp.net应用程序，所以python的输出被存储为文本，该文本存储在数据库中，显示在我的application.So中现在我想以一定的时间间隔自动运行python程序，这样它的输出可以是updated.Can你能建议我怎么做吗?如果可能的话，用一些代码例子。

浏览 0提问于2014-05-25得票数 0

2回答

如何使用PHP Simple HTML DOM Parser用file_get_contents抓取flash视频和下载视频数据

、、、

我只是在寻找屏幕抓取包含flash视频的网页。在使用抓取网页时，我喜欢抓取嵌入的代码片段并下载视频数据。有人能帮上忙吗？参考可能的帮助：

浏览 0提问于2015-01-19得票数 1

3回答

HTML页面抓取

、、、

抓取具有AJAX/动态数据加载功能的网页的最佳方式是什么？例如:抓取一个网页，该网页加载了20张图片，但当用户向下滚动页面时，它会加载更多的图片(有点像Facebook)。在这种情况下，如何抓取所有图像，而不仅仅是前20个图像？

浏览 0提问于2012-12-06得票数 3

3回答

从ASP.NET桌面应用程序调用C#脚本

、、

我正在尝试开发一个桌面应用程序，作为一个网站抓取工具。我的要求是用户应该能够在桌面app.The桌面应用程序中指定一个url，应该能够调用asp.net脚本从网站抓取数据并将记录返回到桌面应用程序。我应该为此使用web服务还是ASP.NET运行时？如有任何帮助，我们将不胜感激:) 附加细节刮擦活动已经结束了，我用了HTMLAgility pkg。这是我从网页中提取公司名称列表的代码。 public static String getPageHTML(String URL) { String totalCompanies = null;

浏览 4提问于2013-04-26得票数 1

2回答

使用selenium和python抓取数据时遇到问题

、、

我正在尝试使用selenium从网页中抓取一些数据。我已经成功地让selenium在树莓派上无头工作，我可以连接到我试图抓取的网页，返回页面的标题，并返回我连接到的URL。我一直在看教程中关于如何抓取数据的示例，它们都是这样的： titles_element = browser.find_elements_by_xpath(“//a[@class=’text-bold’]”) 然而，我试图抓取的网页中的每一块数据都有相同的类名。举一个我试图抓取的第一位数据的例子，我试图得到wins的值是4：第二个示例是im尝试抓取的数据，在本例中为kill，值为559：我试图抓取的两个数字共享相同的

浏览 5提问于2021-03-16得票数 0

1回答

如何在asp.net后端运行crawler？

、、、、

我正在用asp.net创建一个网站，但我有一些问题.. 我已经编码了一个程序，可以抓取一个给定的网页，即thenextweb.com的链接，内容和图像。现在我想将这些抓取的数据存储在我的表*Crawlr_Data*中。我希望爬虫每隔30分钟运行一次，并用新的链接更新表格。 {在我的网站主页上，我显示了存储在数据库中的信息} 如何在后端运行crawler并更新数据库？我应该使用什么技术(web服务，WCF)，或者在visual studio中使用任何其他我可以使用的东西，以便我在托管网站在线时，它的爬虫可以继续运行和更新表} 请提建议，谢谢

浏览 0提问于2012-01-14得票数 0

回答已采纳

7回答

可以在服务器端运行jQuery吗？

、、、、

我在网页抓取工作中实现了AJAX分页，因为网站是在asp即扩展.aspx页面中开发的，我曾尝试提交分页表单以从其他页面获取数据，但没有任何成功，看看这里的代码我使用了，所以我的问题是如何从php点击分页链接，即是否可以在服务器端运行jQuery或javascript？我知道Node.js可以在服务器端运行javascript，但不知道如何在Apache和PHP上使用它。

浏览 3提问于2013-02-27得票数 7

回答已采纳

1回答

如何使用并行执行在google云中更快地运行函数？

、、、

我有一个网页抓取代码，它从30个网页抓取图像需要近2分钟，但如果我只抓取一个页面，它需要大约4秒，所以如果所有并行运行，我将只在4秒内得到结果

浏览 3提问于2019-06-13得票数 0

1回答

将cookie传递到登录页

、、

我正在尝试从一个运行在Asp.Net Webforms上的网页中抓取数据。我在页面上看到了这一点。这看起来像是我不想做的事情，但我不会让它开箱即用，因为登录页面需要一个cookie才能显示。在设置cookie的页面上设置cookie，然后将用户重定向到登录页。我应该如何修改链接上的代码，使其首先浏览重定向页面，保存cookie，然后将cookie传递到登录页面？

浏览 2提问于2011-11-20得票数 1

回答已采纳

1回答

如何使用php curl将数据发布到ASP站点

、、

我需要张贴数据到ASP网站使用php卷曲从我的网站。该网站为对于这一点，我如下所示使用PHP curl从该网站抓取网页html源代码以维护cookie和会话。从源asp隐藏变量值中提取。准备好带有所需表单字段的post字符串并将这些数据发布到使用PHP curl的ASP站点url中，但是响应是页面表单信息，没有条目详细信息，甚至没有显示来自curl响应的非条目字段的验证消息。对于此过程，CURLOPT_USERAGENT、CURLOPT_COOKIEJAR、CURLOPT_COOKIEFILE保持相同的值。 ASP站点需要的表单字段如下所示 ctl00

浏览 5提问于2014-09-02得票数 2

回答已采纳

2回答

在c# asp.net中执行javascript后抓取网页

、、、、

我需要抓取所有链接的网页，这样我可以稍后访问它们，以找到并记录在哪里设置了cookie。这是为了新的英国法律，它要求用户以设置的cookie的形式，我决定尝试自动化一些过程，以节省一些时间。我的问题是，我的公司网站使用大量的javascript来呈现页面和内容，这意味着当我检索页面时(使用的是html敏捷包)，它们主要包含大量的javascript，并且在完全呈现时丢失了许多显示的链接。我作为一个asp应用程序在一个域上托管这一点，并通过网址，以抓取和访问网站页面上的所有链接。有没有一种方法可以让我执行javascript，这样页面就会被渲染，我就可以得到所有的链接？

浏览 0提问于2012-04-11得票数 1

回答已采纳

1回答

使用Python从另一个url抓取需要访问的网页

、、、、

我正在尝试抓取一个网页，它要求我通过一个URL/链接来访问该网站(有点像登录链接)，但是我需要通过该链接循环另一个URL来抓取各个页面。我知道如何抓取单个页面，我只是从来没有循环URL的另一个URL，以获得对网站的访问。我对这个想法的理解是正确的，还是我错过了什么？如果这有点令人困惑，我很抱歉。 from bs4 import BeautifulSoup as soup from urllib.request import urlopen as uReq import pyfpdf import time import random timeDelay = random.randrange

浏览 65提问于2018-06-15得票数 0

3回答

在抛出ASP.NET错误时抓取网页

、

当一个网页抛出一个“潜在的危险脚本”错误时，我正在尝试抓取它。每次我这样做，我得到一个服务器500，但我可以抓取一个正常的，可操作的页面。有没有一种方法可以在网页抛出错误的时候抓取它？谢谢

浏览 1提问于2009-04-29得票数 0

回答已采纳

1回答

Python WebScraping混淆

、、

我试图通过网页抓取一个超文本标记语言网页https://streamelements.com/logna/leaderboard，但我在火狐的inspect元素中看到的超文本标记语言代码与该网页的超文本标记语言源代码不同。像这样的网页抓取是有可能的吗?或者有没有一种方法可以通过inspect元素来获取代码？

浏览 16提问于2020-05-02得票数 0

回答已采纳

1回答

如何抓取受登录保护的站点或页面？

、、

我想抓取一个网站，这是必要的访问，以查看网页。我可以爬客网页，但如何抓取登录保护网页？如果有人共享一些步骤来配置或跳过身份验证机制来使用storm爬虫爬行页面，那将是非常棒的。先谢谢你。

浏览 5提问于2021-04-12得票数 0

回答已采纳

2回答

森林中的森林森林中的

在我的应用程序中，我使用scrape(string url)方法从网页中抓取链接。假设它每次都返回给我10个url。我想从每一个抓取的网址10个链接。长话短说： (第1步)转到网页并抓取10个链接 (步骤2)将步骤1中的每个链接转到网页并抓取10个链接 (步骤3)对于步骤2中的每个链接，转到网页并抓取10个链接。所以它会给我10 + 100 + 1000个链接= 1110。我当然可以这样做： List<string> links1 = new List<string>(); List<string> links2 = new List

浏览 0提问于2016-12-11得票数 1

5回答

URL中的^符号是什么意思？

、、

URL中的^符号是什么意思？我需要从网页中抓取一些链接数据，我使用了一个简单的手写PHP爬虫。爬虫通常工作得很好；然后我找到了一个URL，如下所示： http://www.example.com/example.asp?x7=3^^^^^select%20col1,col2%20from%20table%20where%20recordid%3E=20^^^^^ 此URL在浏览器中键入时工作正常，但我的爬虫程序无法检索此页面。我收到一个"HTTP请求失败的错误“。

浏览 1提问于2010-02-25得票数 5

回答已采纳

1回答

用于抓取的Nutch正则表达式

、、

我正在使用Apache Nutch来抓取网页。当我搜索特定的名字时，我想抓取网页，例如，如果我搜索比尔盖茨，我想获得该搜索结果的结果链接。我有像这样的网址 www.mysite.com/search?name=bill+gates 但在爬行时，它不再显示要获取的url。实际上，它不会获取任何结果。有没有抓取该页面的选项？我在regex-urlfilter.txt中添加了接受所有内容的代码。我该如何抓取链接？提前谢谢。

浏览 1提问于2013-05-23得票数 0

回答已采纳

3回答

无法使用BeautifulSoup抓取数据

、、、

我正在使用Selenium登录到网页，并获得网页进行抓取，我能够获得该页面。我已经在html中搜索了我想要抓取的表。这就是： <table cellspacing="0" class=" tablehasmenu table hoverable sensors" id="table_devicesensortable"> 脚本是这样的： rawpage=driver.page_source #storing the webpage in variable souppage=BeautifulSoup(rawpage,'html

浏览 0提问于2018-02-21得票数 1

1回答

Scrapy screenshot网页从png到webp，不保存渲染的图像

、

抓取Scrapy屏幕截图网页，并在飞行中转换image.png到image.webp。图像占用大量内存，scrapy返回.png文件。我抓取了很多网页，所以我需要将其转换为image.webp，以减少磁盘消耗。

浏览 28提问于2021-03-03得票数 0

1回答

如何使用socket用python抓取网页

、、

我知道用urllib2抓取网页很简单，但是我想知道有没有使用套接字实现抓取网页功能的示例，我谷歌了很多，在里面我没有找到任何示例，有谁能帮上忙吗？

浏览 0提问于2013-01-03得票数 7

回答已采纳

1回答

Scrapy不让我登录asp.net页面(ASPX)

、

嗨，我有问题让我的抓取蜘蛛脚本登录到aspx (asp.net)网站该脚本本应抓取一个网站的产品信息(这是一个供应商的网站，所以我们被允许这样做)，但无论什么原因，该脚本不能登录到网页使用下面的脚本，有一个用户名和密码字段以及一个图像按钮，但当脚本运行它根本不起作用，我们被重定向到主页…我相信这与页面的asp.net有关，显然我需要传递更多的信息，但我已经诚实地尝试了所有方法，我不知道下一步该做什么！我做错了什么？ import scrapy class LeedaB2BSpider(scrapy.Spider): name = 'leedab2b' s

浏览 10提问于2021-02-01得票数 0

回答已采纳

2回答

使用ImportHTML和Google sheets进行web抓取

、、、

我正在尝试用Google sheet和ImportHTML (以及它的变种，如ImportXML和ImportData)从网页上抓取股票行情。它可以在一些网页上工作，但不能在其他网页上工作。我无法从其中导入数据的网页的一个例子是。我使用了以下代码：=IMPORTHTML("https://www.barchart.com/stocks/performance/price-change/advances","table",0)。有没有办法下载或抓取这些数据？

浏览 9提问于2020-06-15得票数 0

4回答

程序化表单提交

、、、

我想要抓取网页的内容。内容是在填写并提交该网站上的表单后生成的。我已经阅读了如何抓取最终结果内容/网页-但是如何以编程方式提交表单呢？我正在使用python，并且已经读到我可能需要获取表单的原始网页，解析它，获取表单参数，然后执行X？谁能给我指出正确的方向？

浏览 0提问于2008-12-26得票数 3

3回答

用Python对基于Javascript的网页进行屏幕抓取

、、、

我正在用Python开发一个屏幕抓取工具。但是，当我浏览网页的源代码时，我注意到大多数数据都是通过Javascript获得的。有什么想法，如何抓取基于javascript的网页？有没有用Python写的工具？谢谢

浏览 4提问于2011-11-18得票数 4

回答已采纳

1回答

相当于Descendants.LastOrDefault (HTML Agility pack)的Cheerio / jQuery

、、、、

我有网页抓取代码，这是在C# .NET核心2与HTML敏捷包实现的。我们将大部分服务器移植到了node.js上。唯一剩下的部分就是这个web抓取部分。我目前正在尝试用Cheerio/jQuery来复制这一点，但我不太熟悉jQuery语法。什么等同于 DocumentNode.Descendants("table") .LastOrDefault(t => t.InnerHtml.Contains("<td align=\"center\">Match</td>")) 我试着这样做： $(

浏览 11提问于2019-04-18得票数 0

回答已采纳

2回答

网页在一段时间后如何过期，对谷歌的索引有何影响？

、、、、

我有一个关于多供应商电子商务门户的问题。卖家暂时提供特别的优惠。对于每个优惠，一个新的网页被创建，他们在网站地图中列出，并由谷歌抓取。一旦报价到期，我的客户就不想显示这些页面。那么如何设置这些网页的自动过期呢？我正在寻找asp.net技术的方法。我可以使用HTTP头来实现它吗，或者我需要做一些数据库和服务器查询的事情？一旦这些页面过期，我应该从网站地图中删除吗？这对谷歌的索引有什么影响？在Google搜索控制台中，这些页面会显示在404错误下面吗？如果是，那么几个月后，404个错误下面会有一个很长的列表。

浏览 17提问于2018-11-21得票数 0

1回答

通过map抓取在线地图中的信息

、、

我正在尝试从这个网页中的地图上抓取信息该网页上有利比里亚所有公立学校的信息/位置。基本上，我想要的是学校的位置，以及当你点击一所特定的学校时显示的信息。我以前用R做过网络抓取，但从网页的源代码中我找不到学校的位置。任何帮助都将不胜感激。

浏览 4提问于2016-06-28得票数 0

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。我已经写了下面的代码，但循环不会重复从原始网页的链接中获得新的抓取页面。 import requests from bs4 import BeautifulSoup page = requests.get(URL, headers=headers) soup = BeautifulSoup(page, 'lxml') for search_result

浏览 7提问于2019-08-16得票数 1

回答已采纳