web抓取时无法遍历多个页面

Web抓取时无法遍历多个页面是因为在抓取过程中，无法直接获取到其他页面的链接或者无法自动跳转到其他页面。这可能是由于以下几个原因导致的：

动态页面：如果目标网站使用了动态页面技术，例如JavaScript渲染，那么在抓取时可能无法获取到完整的页面内容和链接。这种情况下，可以考虑使用无头浏览器或者模拟用户行为来解决。
登录限制：有些网站需要用户登录才能访问特定页面，如果没有提供登录凭证，就无法抓取到需要登录才能访问的页面。解决方法是在抓取前先模拟登录获取凭证，然后使用凭证进行后续的抓取。
反爬虫机制：为了防止被恶意抓取，一些网站会设置反爬虫机制，例如验证码、IP封禁等。这些机制会导致无法正常遍历多个页面。解决方法包括使用代理IP、设置合理的抓取频率、处理验证码等。
动态链接：有些网站的链接是通过JavaScript生成的，无法直接从HTML中获取到。这种情况下，可以通过解析JavaScript代码或者使用浏览器开发者工具来获取动态生成的链接。

针对这个问题，腾讯云提供了一系列相关产品和服务来帮助解决：

腾讯云无头浏览器（Headless Chrome）：提供了无界面的Chrome浏览器，可以模拟用户行为，解决动态页面抓取的问题。产品链接：无头浏览器
腾讯云API网关：可以帮助管理和调度API请求，包括对请求进行验证、限流、转发等操作，可以用于处理登录限制和反爬虫机制。产品链接：API网关
腾讯云内容分发网络（CDN）：通过将静态资源缓存到全球各地的节点上，加速内容传输，提高抓取效率。产品链接：CDN

请注意，以上仅是腾讯云提供的一些解决方案，其他云计算品牌商也可能提供类似的产品和服务。

如何使用Dropbox选择器抓取多个文件？

、

对于个人网站，我正在尝试实现Dropbox选择器。其中一个好处是多选择选项，允许用户抓取多张图片的链接。当我使用< input >按钮和页面上提供的Javascript时，我可以选择多个文件，但它只返回一个链接. 不能真正弄清楚如何抓取所有选定的文件链接，谷歌也没有帮助我。有人能帮我吗？)

浏览 2提问于2013-05-15得票数 2

回答已采纳

2回答

如何启动页面抓取技术

、、

我刚开始浏览页面，我不知道从哪里开始。做页面抓取最简单的方法是什么？你对此有什么看法，什么是最好的web技术？有人能帮我吗，谢谢。

浏览 2提问于2012-12-02得票数 0

回答已采纳

1回答

当页面在HTML敏捷中刮取时，我们如何从页面源获得绝对URL？

、

我正在使用这段代码通过HTMLAgility抓取HTML页面。但是在抓取页面时，我无法将相对url转换为absoute url。我正在使用以下代码： HtmlAgilityPack.HtmlDocument doc = web.Load(serviceStatusHTMLURL); data = doc.DocumentNode.SelectSingleNode("//div[@id='columnRight']").OuterHtml; 我需要用所有的HTML标签刮掉整个页面。

浏览 0提问于2018-05-07得票数 0

回答已采纳

1回答

利用JSoup浏览网页

、、、

我制作了一个网络刮刀，在IMDB上抓取一些信息。它通过将url中的数字更改为不同的随机数字来遍历每个页面，然后在这个新页面上重复web抓取过程。 <--将这个号码更改为一部新电影。我怎样才能在BFI网站上做到这一点？我看不到从一部电影到另一部电影的路。提前感谢！

浏览 2提问于2013-10-25得票数 0

回答已采纳

1回答

当导出到csv时，会重复爬行的数据。

、、、、

我正在尝试从这个中抓取数据我的想法是爬行网络上的所有链接，然后使用for发送请求到每个链接，以获得详细的数据。这是我的，正如您所看到的，我使用selenium web驱动程序打开URL，然后使用漂亮的汤来抓取数据。它的工作非常成功，但是当它被导出到CSV文件时，第一个链接的从upload_date到number_employees的类别与下面的第一个相同每个链接中的upload_date到number_employees显示在页面中，如下面的框所示。我该如何解决这个问题？衷心感谢。<3P/s:我还有一个问题，就是我需要登录到web，以便在每个链接中爬行salary，但我

浏览 1提问于2021-02-03得票数 0

回答已采纳

3回答

如何使用python同时下载网页？

、

我正在用Python编写一个web抓取应用程序。我正在抓取的网站有www.someurl.com/getPage?id=x表单的urls，其中x是标识页面的编号。现在，我正在使用urlretrieve下载所有页面下面是我的脚本的基本形式： for i in range(1,1001): urlretrieve('http://someurl.com/getPage?id='+str(i) , str(i)+".html) 现在，我的问题是-可以同时下载网页吗？因为，在这里，我阻塞了脚本，等待页面下载。我可以要求Python打开多个到服务器的连接吗？

浏览 14提问于2015-05-18得票数 1

回答已采纳

1回答

自动按下“加载更多”按钮

我正在尝试抓取一个页面，我有所有的代码集，只是我被“加载更多”按钮卡住了。这个页面很简单，它有一些项目，但只有几个。在web浏览器上要查看其余项目，您可以单击具有onClick事件的html按钮，当它被按下时，更多的项目被加载，依此类推，直到它们都出现在页面上，然后它就消失了。到目前为止，我发送了一个请求并将其存储在一个变量中，然后让BeautifulSoup对其进行解析。我该如何将其余的项加载到该变量中？我应该采取一种不同的方法吗？

浏览 0提问于2021-01-08得票数 0

2回答

在使用python的selenium中使用xpath获取innerHTML

、、、、

我正在尝试学习web抓取，尽管我检查了文档中的示例和堆栈中的一些问题，但我无法使我的代码工作。我想要抓取的网站有工作列表，但它的结构上没有模式或固定的类，几乎每个元素都有自己的id和单独的类。当我使用检查器从锚标记中查找innerHTML的xPath时，我得到的是：使用Firefox： /html/body/div[1]/div/main/div[3]/div/div/section/ul/li[1]/article/header/div/div[1]/h2/a 使用Brave Browser： //*[@id="16542952"]/section/div/header/

浏览 7提问于2020-05-19得票数 0

1回答

访问HTML注释中的标记

、、、

我已经通过BS4熟悉了使用Python进行web抓取的过程。我还没有找到嵌入在注释中的DOM标记的解决方案。例如，当试图从.html页面()获取数据时，检查页面上的表显示： <div class='table_outer_container"> ... </div> 我通常可以用BeautifulSoup抓取。但是，当我查看实际的页面源时，上述表被包含在注释标记中：  我一直无法找到通过BS

浏览 0提问于2018-12-11得票数 0

回答已采纳

1回答

刮擦并不总是能找到对象

、

我试图用python的scrapy框架在网页上搜索一个隐藏的字段： <input class="currentTime" value="4888599" /> 奇怪的是，在大约40%的页面上，它无法找到输入字段的值。我试着在浏览器中加载禁用了javaScript的失败页面(认为这可能是问题所在)，但是值只是填充在失败的页面上。所以这个值不加javaScript. 以前有这个问题的人或者可能有解决办法的人？我不知道为什么它找不到价值。我使用了以下语法来抓取： sel.css('.currentTime::attr(value)').ex

浏览 3提问于2014-07-29得票数 0

回答已采纳

1回答

创建多个simple_html_dom ()对象

、、、

我正在创建一个使用php简单html dom库的网络抓取器。我正在做一个web scraping项目，在一个php页面上，我加载一个html页面用于抓取，在这个项目中，我调用另一个php页面上的函数，该函数也加载一个或多个html页面。问题是我无法加载第二个html页面。下面是我在两个页面上使用的函数，用于加载要抓取的html页面。首页 include ('simple_html_dom.php'); $html = new simple_html_dom (); $html->load_file ( $link ); 首页 $html = new simple_html

浏览 2提问于2011-09-21得票数 0

2回答

Windows Phone 7 Web浏览器导航到位于解决方案中某个文件夹中的html文件

、

Uri currURI =新Uri(currentPageToLoad，UriKind.Relative)；ExtrasHTMLbrowser.Navigate(currURI)；上面的代码基本上是抓取一个字符串(currentPageToLoad)并生成一个URI。然后，我的web浏览器ExtrasHTMLbrowser将尝试导航到URI。当currentPageToLoad类似于"author.html“时，它可以很好地工作，并导航到html页面。然而，我遇到的问题是，当HTML文件位于诸如html之类的文件夹中时，它将无法正确导航。所以，当currentPageToLoad

浏览 1提问于2011-07-13得票数 1

回答已采纳

1回答

如何运行Django应用程序的多个实例？

、

这个问题不涉及任何代码。我只想知道运行django应用程序的多个实例的方法，以及它是否真的可以放在首位。我制作django应用程序并将它们托管在Apache上。使用这些应用程序，我注意到访问web应用程序的多个用户之间存在冲突。让我们假设它是一个web抓取应用程序。如果一个用户访问应用程序并运行抓取器，则从不同位置访问站点的另一个用户似乎无法访问该应用程序或运行抓取器，除非第一个用户开始的抓取结束。真的有可能让所有不同的用户都可以独立访问这个应用吗？

浏览 6提问于2020-04-18得票数 1

2回答

在web服务器上使用java内容的抓取

、、

我想从一个显然使用javascript生成表的站点(这个站点是oddsportal.com)中抓取内容。我看到Scrapy无法加载动态内容，我阅读selenium可以处理它，但我计划使用web服务器。有什么方法可以解析这个站点或获取动态请求并使用scrapy解析它吗？例如，我想从这个页面导入完整的表，包括标题、匹配名和赔率。

浏览 3提问于2016-01-28得票数 1

回答已采纳

1回答

Facebook支持Hash Bang #吗！Ajax可抓取Urls？

、、、

Facebook支持Google的ajax爬行规范吗?如果支持，您需要做些什么来实现它？我正在尝试让Facebook的"Like“按钮使用如下定义的AJAX可爬行urls : code.google.com/web/ajaxcrawling/docs/specification.html 我有这个url，我可以直接转到它并加载它。注意"#!“在url中：当我“喜欢”这个页面时，它应该抓取这个“转义片段”url：为什么它不能抓取这个页面？Facebook linter没有正确抓取我的页面。如果你在这里使用Facebook linter工具: developers.fac

浏览 0提问于2011-10-29得票数 11

1回答

用Python抓取Web应用程序

、

到目前为止，我在网络抓取方面的大部分经验都是非常简单和容易理解的。发送请求，下载HTML，并提取所需的信息。目前，我对从Spotify Web应用程序中抓取顶级游戏数据感兴趣。这些数据无法通过API访问，但在浏览不同的艺术家页面时可以看到。例如，国家的顶级曲目可以在以下链接中找到：我的问题是，这些数据是如何在幕后生成的，是否有可能抓取这些数据？

浏览 5提问于2015-02-09得票数 2

1回答

如何在java中获取部分从jquery加载的页面的整个html

、、

我需要开发一个web应用程序，它允许我抓取部分使用jquery加载的页面。我了解到在php中这是不可能的。我读过关于的文章，但我不知道如何在我的范围内使用它，有人知道如何在java中使用它吗？有没有可能举个例子？谢谢！

浏览 0提问于2012-05-09得票数 3

2回答

如何抓取Google Play Store上应用程序的所有评论？

、、

当我在Google Play Store上抓取一个应用程序页面时，我只能抓取应用程序评论的前几个页面。 (当我使用web浏览器单击箭头按钮时，将显示应用程序审核的下一页) 我如何抓取其他评论？

浏览 6提问于2015-01-09得票数 4

回答已采纳

2回答

使用mono在mac上运行的C#应用程序中的文件访问问题

、

我开发了一个简单的.net应用程序，它从web中抓取一些数据并将其保存在一个文件中(文件和proejct文件位于同一个文件夹中)。它在windows上运行良好，但是当我使用'Mono‘在mac上运行它时，我会得到这个错误对路径“路径”的访问被拒绝。我正在创建使用Directory.GetCurrentDirectory访问这个文件。下面是我使用的路径： System.IO.Directory.GetCurrentDirectory() + "\\abc.csv";

浏览 1提问于2011-11-24得票数 3

回答已采纳

1回答

使用python从下拉菜单中抓取所有动态生成的数据的最佳方法

、、、

我正在创建webscraper，它将从这个网站中动态地生成玩家数据。我想要创建一个循环，它将从下拉菜单中为播放器生成数据，刮取数据，然后循环遍历下拉菜单中的所有播放器列表。我很好奇是否使用selenium与站点交互是最好的方法。但我也注意到，每个播放器的URL都遵循特定的模式，所以我考虑了抓取初始页面来收集我需要的所有数据，然后使用这些数据构造URL列表，然后循环遍历URL列表并将它们作为静态页面处理。是否有为这种特定类型的web抓取构建的python工具？

浏览 6提问于2020-03-18得票数 1

回答已采纳

3回答

我需要在BeautifulSoup中显示第三个<li>

、、、

我正在尝试抓取页面Web，问题是我无法抓取第三个项目，我设法用以下代码显示了第一个项目： repo = soup.find(class_="search-results-list") Num_pieces = repo.ul.li.string 我有这个HTML代码，我想要"101“： ?

浏览 33提问于2019-05-07得票数 0

回答已采纳

2回答

在Selenium中使用find_element_by_class_name迭代多个类

、、、

我正在使用Python中的Selenium进行web抓取项目。在网页上，我正在做的是有许多表条目具有相同的类名。 <table class="table1 text print"> 我正在使用find_element_by_class_name。但是，我得到了一个错误： *Compound class names not permitted * 另一个问题：如何迭代具有相同css类名的所有表？谢谢

浏览 5提问于2011-11-27得票数 3

回答已采纳

2回答

Web抓取-页面源中未显示内容

、、

我正在尝试从一个网站上抓取信息：。所有数据似乎都是在重复卡片中生成的，但我在查看页面源代码时找不到这些信息。我尝试过使用像Selenium这样的web驱动程序，但是仍然不能看到我想要抓取的内容。我希望能够提取每个条目的所有重复数据。 driver = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options) url = 'https://foreclosures.cabarruscounty.us/' driver.get(url) web_url = driver.page_sou

浏览 1提问于2020-08-04得票数 0

1回答

使用phantomjs或node从网站上抓取通过web套接字传输的数据流

、、、、

我想从一个网站上抓取数据。这些数据呈现在网站上的HTML画布上，并不断更新。据我所知，一个人不能从画布元素上抓取数据，因为它或多或少是一个图形。但事实仍然是，这些数据被流式传输到我的浏览器中，所以使用PhantomJS或NodeJS等无头JavaScript引擎，我应该能够访问从web套接字传出的原始数据。我已经使用PhantomJS抓取了网站，但我无法找到一种方法来获取这些通过web套接字传入的原始数据。我正在使用PhantomJS加载页面，它已经加载了，但显然页面打开了一个新的连接，以连接到原始服务器上的web套接字，并开始接收提要。我的PhantomJS脚本如何连接到它？谢谢。

浏览 1提问于2014-12-11得票数 1

3回答

Python web抓取用户列表

、

我试图从一个网站上抓取用户列表，但它有多个页面，我可以抓取第一个页面，但当我抓取每个页面时就卡住了。代码- from bs4 import BeautifulSoup import requests source = requests.get('example.com/users.php?page=1').text soup = BeautifulSoup(source, 'lxml') for profile in soup.select("li h3 a"): print(profile.text) 在url中的通知 pag

浏览 5提问于2018-01-09得票数 1

回答已采纳

1回答

如何加速web爬行I的迭代-nokogiri/ruby

、、

我想要做的是迭代所有可能的产品页面，给出一个10位数字的id 我想要抓取的页面的一个示例是某个website.com/product?productid=10000000000 抓取器将转到页面，查看标签是否存在，以查看它是否是产品页面，如果是，则记录url，如果不是，则转到下一页。按1进行迭代(productid = large number++)太慢了，从一些示例产品it来看，不带模式的数字(如(121212121212))更有可能是我想问的是，有什么方法可以在更合理的时间内迭代这些页面。我正在用ruby和nokogiri做这件事。

浏览 0提问于2014-10-31得票数 0

4回答

屏幕抓取页面，使用CSS进行布局和formatting...how抓取CSS适用于html？

、、、

我正在开发一个应用程序，用于对外部网页的一小部分进行屏幕抓取(不是整个页面，只是其中的一小部分)。所以我的代码可以很好地抓取html，但我的问题是，我不仅要抓取原始的html，还要抓取用于格式化我提取的页面部分的CSS样式，这样我就可以在新页面上显示它的原始格式完好无损。如果你熟悉firebug，它能够显示哪些CSS样式适用于你突出显示的页面的特定子集，所以如果我能想出一种方法，那么我就可以在新页面上显示内容时使用这些样式。但我不知道该怎么做......

浏览 2提问于2008-11-18得票数 7

回答已采纳

1回答

无法使用ScrapySharp爬网网页数据

、、

我正面临着一个技术问题，我浏览了几篇文章来寻找答案，但我无法从任何网站上获得适当的答案。我在我的项目中使用ScrapySharp来抓取网页数据。当我试图从网站抓取数据时，出现了这个问题。首先，我通过IE加载页面，并选择开发人员工具来检查标签。在我选择了我的代码所需要的标签"//div@class='cd__content'“之后，而且当我通过ScrapySharp加载上面提到的网页时 ScrapingBrowser browser = new ScrapingBrowser(); WebPage rootPage = browser.NavigateToPageAs

浏览 2提问于2017-09-09得票数 0

1回答

当url不变时，Python web抓取

、、、

我正在做一个使用python的web抓取项目。我应该抓取这个网站(https://www.fec.gov/data/receipts/?committee_id=C00703975&two_year_transaction_period=2020&data_type=processed)。我遇到的问题是，当你浏览数据时，url永远不会改变。我不确定如何继续。根据我的经验，当抓取一个网站时，当切换页面时，url会发生变化，但这个不会改变页面，它只是浏览同一页面上的数据。谢谢！

浏览 28提问于2020-11-10得票数 2

1回答

如何使用Selenium自动点击iframe中的多个链接？

、、、

我正在尝试从以下网站上收集秘鲁国会提出的几项法案的数据：基本上，我想单击搜索结果中的每个链接，抓取账单的相关信息，返回搜索结果，然后单击下一个账单的下一个链接，重复此过程。显然，国会会议上有这么多法案，如果我能把这件事自动化就太好了。到目前为止，我已经能够完成所有的事情，直到点击下一个账单。我已经能够使用Selenium启动一个显示搜索结果的web浏览器，使用嵌入在iframe中的xpath点击第一个链接，然后用漂亮的汤抓取内容，然后导航回搜索结果。我遇到的问题是无法单击搜索结果中的下一个账单，因为我不确定如何遍历xpath (或者如何遍历将把我带到每个后续账单的内容)。我希望能够抓取每一

浏览 9提问于2019-08-06得票数 0

2回答

在vue.js中添加超链接

、

目前我正在抓取一些网站，并将抓取的数据(从json文件)的值返回到vue.js组件文件中的HTML表中，当显示其中一个值时，我希望将该值作为href=“链接”。但是，由于我迭代了所有数据，“链接”的格式为{{ row8 }}，vue代码无法读取。我试过了： <a v-bind:href="{{ row[8] }}"> View </a> <a href={{ row[8] }}> View </a> <a href="row[8]">View</a> 但这些都不管用。下面是我的代码：

浏览 117提问于2021-01-25得票数 1

回答已采纳

1回答

Facebook对象调试器:无法从URL检索数据。(200)

、、、

当我使用对象调试器时，抓取器无法在我的页面上看到我的OG内容。调试器显示“无法下载:无法从URL检索数据。”，即使它是200OK，并显示正确的获取和规范的URL。我有一个子域上它，它的工作fine.So不确定我的主域发生了什么。当单击抓取的URL时，我们的抓取器会准确地看到您的URL，它只显示空白页面。

浏览 0提问于2012-05-28得票数 5

回答已采纳

1回答

如何将包含多个页面的HAR转换为JSON

、、

我正在做一个研究项目，我需要能够从大量的Tiktoks中抓取标签。Tiktok已经采取了很多措施来对抗web抓取的正常方法，但是我发现我可以从chrome下载HAR文件并从中提取哈希标签。我发现的每个HAR到JSON python或java模块要么不工作，要么在输出JSON文件中没有hashtag信息。大多数在线HAR查看器只显示标题和参数，而我需要原始的JSON文件才能访问哈希标签。我可以通过 chrome扩展来访问它，但是有了大量的数据，我需要查看它就崩溃了。我需要从单个HAR文件中获取多个web页面的原始JSON。任何帮助都是非常感谢的！

浏览 4提问于2022-11-06得票数 0

2回答

Scrapy Crawler excel输出

、、、、

我是python和scrapy的新手，但是我试图开发一个爬虫和抓取器来提取亚马逊页面上的产品列表，抓取的信息必须有名称，价格和主要可用性。项目是被抓取的，但是当在csv文件中输出时，被抓取的每个项目都完全在一个单元格中。我想要的是让每个产品及其对应的详细信息在每个单元格中清晰地输出。逻辑是这样的： items= [] for products in response.xpath('//*[@id="mainResults"]/ul'): item = amazonlist() item['Tit

浏览 4提问于2017-01-23得票数 0

1回答

Azure Web应用-无法将主机名解析为有效的IP地址

、、、

我在使用Facebook object debugger ( )从我的页面抓取信息时遇到了问题，我出现错误“无法将主机名解析为有效的IP地址”。如你所见此网站作为Web应用程序托管在Azure中。在域名注册商上一切正常，我有一个指向公共IP的A记录和一个指向xxx.azurewebsites.net的CNAME。

浏览 0提问于2015-06-03得票数 2

1回答

通过Web应用程序访问桌面应用程序API

、、、、

我有一个用C++编写的桌面应用程序。该应用程序也有一些为一些通用目的编写的apis，例如：-抓取列表等。目前，该应用程序安装在不同的系统上，并且只有一个主服务器来存储数据。问题是用户无法使用不同的位置访问数据。现在我们正计划将其移动到web上，这样用户就可以从世界上的任何地方访问数据。那么，是否可以使用web应用程序访问桌面应用程序api呢？当我们打开网站时，它也会在桌面上打开桌面应用程序，然后在登录后，我们想要访问在桌面应用程序中编写的app，并在web应用程序中显示数据。任何帮助都是非常感谢的！

浏览 4提问于2020-09-02得票数 1

1回答

使用Scrapy抓取ajax页面

、、

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改你们有没有用scrapy抓取javapages的好主意？第二个问题是，我面临的问题是scrapy无法抓取登录页面

浏览 2提问于2013-06-19得票数 0

回答已采纳

1回答

DEPTH_LIMIT到底指的是什么？当前深度是否可引用？

、、

Scrapy表明它有一个，但没有特别说明它认为的“深度”。在抓取页面方面，我见过' depth‘指的是'depth of the url'，或http://somedomain.com/this/is/a/depth/six/url，其中该URL所请求的页面的深度为' six '，因为它有六个分段。http://somedomain.com将为深度零。另一方面，当我们从树的角度考虑抓取时，深度更可能是指你离起始位置有多远。因此，如果我给它提供一个http://somedomain.com/start/here的起始url，即深度为零，那么在该响应上找到

浏览 11提问于2016-08-19得票数 1

回答已采纳

1回答

在Selenium中测试WebScrape而不运行整个脚本？

、、、

这可能是一个非常基本的问题，但我正在使用Selenium练习web抓取动态页面，我想知道是否有一种方法只测试表部分的web抓取，而不必运行整个代码？我是个菜鸟，只是不知道自己做错了什么？因为我的代码有很多延迟，所以在使用selenium单击“通过”按钮并登录到要刮表的页面时，可以防止出现错误。但是，当我一遍又一遍地测试我的web擦伤时，需要花费大量的时间来不断地等待整个脚本的运行。

浏览 9提问于2022-03-14得票数 0

回答已采纳

1回答

RSelenium -如何获取节点的子节点号及其xpath

、、、、

我正在使用RSelenium进行网页抓取。现在，我从一个动态生成的web页面中获得了某个XML节点的xpath。子节点属于同一类型。但是，我没有关于子节点数量的先验知识。(例如，当您在购物网站上搜索稀有商品时，您可能会遇到这种情况。) 一般情况下，如何获取以下信息？ 1)节点的子节点数。2)上面的xpath。我的目标是在每个子节点中应用操作(例如，填充、检查或单击，这取决于节点的类型)。我在chrome中看到一些使用xpath helper的xpath。那我就完全卡住了。优选地，使用RSelenium例示。httr + rvest也是可以接受的。

浏览 16提问于2016-08-05得票数 0

回答已采纳

2回答

当href = '#‘在刮痕中时，有什么方法可以处理吗？

、、

当我从一个名为timesjob的网站上抓取所有内容时，我无法访问网站中的下一个页面，因为页面nation中的href显示为href = '#'，在这里我无法访问这样的hyperlinks.So --我无法从所有页面中抓取数据--如果可以的话，有任何方法可以解决获取精确超链接的问题。我试图访问的链接是。

浏览 10提问于2020-03-03得票数 1

回答已采纳

1回答

使用python代码从IEEEXplore网站提取DOI

、、、

无法从网页中提取字段数据，这不是常见的web抓取问题。它也与javascript相关联。我也尝试了python-request，但是无法解决这个问题。我正在尝试从网页中提取doi。doi位于javascript中。我能够读懂页面，代码一直运行到{print(Soup)}。当我试图提取DOI值(在给定代码中，示例网页的doi如下：“doi”：“10.1109/LAwr2014.2364296”)时，我想打印“10.1109/LAwr2014.2364296”，这是从网页中提取的。 import urllib from bs4 import BeautifulSoup web_page = &#

浏览 4提问于2019-02-09得票数 0

1回答

Microsoft Web矩阵

我希望这是一个非常简单的问题:有没有人知道可以有效地抓取使用Microsoft Matrix构建的站点的工具？我可以用python编写代码，但这会花费我很长的时间来完成这项任务，这是因为Matrix生成的HTML非常糟糕和丑陋。我试过Web Harvey、Helium Scraper，也试过Chrome的Web Scraper插件。WebHarvey在超文本标记语言上卡住了，无法加载后续页面。the能够从一个详细信息页面移动到另一个详细信息页面(后续链接被跟踪)，但详细信息页面中的内容没有被取消。Chrome plugin web scraper无法导航链接，弹出窗口显示错误页面。我的直觉告

浏览 0提问于2015-07-20得票数 2

1回答

PhantomJS -无法使用Tor网络作为代理运行Phantomjs (Orchid正在作为Tor服务运行)

、、

我实际上参与了一个宠物项目，涉及到从网站上抓取数据。我编写的应用程序完全是用java编写的。这个应用程序会运行几个小时，从网页上抓取数据。正因为如此，我的IP多次在几个网站被屏蔽。这就是我尝试通过Tor网络访问网站的原因。我使用了这个Stackoverlow 中的代码来运行Orchid中的Tor服务。所以在运行了Tor服务之后，我使用phantomjs来抓取网站。因此，我以phantomjs --proxy-type=socks5 --proxy=127.0.0.1:9150 script.js身份运行phantomjs (因为它的服务运行在9150端口上。PhantomJS v2.1

浏览 0提问于2016-12-19得票数 0

1回答

当URL的HTML结构未知时，如何控制Nutch解析和Solr索引URL的方式？

、、、、

我正在尝试爬行一些网站，这些网站的HTML结构维护得很差，我无法控制它来改变它。当我查看由Solr索引的nutch爬行数据时，字段'title‘看起来还可以，因为'content’字段包含了很多垃圾，因为它用下拉菜单抓取了html标题中的所有文本，并将其放入左侧菜单、导航、页脚等。在我的例子中，我感兴趣的是将"Description:“信息抓取到”content“字段中，这些信息在HTML页面上以副词的形式定义。示例：(原始html)： <p><strong>Description:</strong> Apache Nutch

浏览 1提问于2013-04-12得票数 0

1回答

如何在ajax面板回发中获取动态图像按钮的句柄

、、、

当用户选择列表中的一项时，我向新行中的表格单元格写入一个imagebutton： ImageButton imgbtnRemove = new ImageButton(); imgbtnRemove.ID = "uxStandardLetterDeleteImage_" + items.letterName; imgbtnRemove.CommandName = "uxStandardLetterDeleteImage_" + items.letterName; imgbtnRemove.ImageUrl = items.remove; imgStatus.Al

浏览 3提问于2009-05-14得票数 1

回答已采纳

1回答

从div收集动态文本并通过querystring传递

、、、

我已经下载了这个模板，它基本上是一个用于python中的“龙卷风”的web聊天室：我试图从"messsages“div获取所有消息，并将其作为变量'msgs‘传递给一个查询字符串。我之所以使用querystring，是因为POST函数不能在github项目中实现，而且我无法通过JSON块传递数据，因为我甚至不知道如何开始。在querystring上传递msgs之后，通过PHP方法，我可以在一个名为“message”的页面上回显消息。我尝试了以下几点： var msgs = document.getElementById("messsages").innerH

浏览 0提问于2015-02-05得票数 1

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

、、

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的URL来说，4小时是“正常”时间吗？或者，有没有更适合我的包，当页面被抓取时，没有“关注”链接？

浏览 0提问于2020-08-25得票数 0

2回答

基于优先级队列的数据结构自定义算法的需求

、、

我正在开发一个使用优先级队列的web抓取算法。我有一个种子URL，我根据算法解析了它的所有链接。然后，根据算法中的分数，将所有解析的URL放入优先级队列中。该算法开始根据链接分数从优先级队列中选择新的种子URL。当选择一个链接作为种子URL时，它将从优先级队列中退出队列，以此类推。这个程序正在运行，没有任何问题。但问题是：由于队列链路操作数比脱队列链路操作数大，优先级队列的大小随着时间的推移而越来越大。我怎么能控制它？优先级队列的大小是否会影响爬虫的性能？当我试图获得每分钟爬行URL的数量时，我得到的结果很低。例句:运行程序1小时后，爬行页面的平均速度要比运行程序15分钟后的平均水

浏览 2提问于2015-05-29得票数 1

回答已采纳

2回答

熊猫网抓取多个网页

、、、

我正在为以下给定的网站在多个页面上使用“美丽汤”来抓取数据，并且能够做到。我可以使用Pandas抓取多个页面的数据吗？下面是抓取单个页面的代码，并且URL有链接到其他页面，如。 import pandas as pd url = 'http://www.example.org/whats-on/calendar?page=3' dframe = pd.read_html(url,header=0) dframe[0] dframe[0].to_csv('out.csv')

浏览 3提问于2017-11-09得票数 2

回答已采纳