页面抓取 js_js 页面抓取_js抓取页面 - 腾讯云开发者社区

、、、

参考我的一个，我必须抓取一个酒店的评论(所有评论)，例如这个通过使用BeautifulSoap，我所做的是首先从具有BVRRPager BVRRPageBasedPager类的div内的分页获得所有评论页面链接，然后从所有页面中抓取评论。BeautifulSoap的问题是div.BVRRRatingSummary中的内容不会出现(尝试在禁用JS的情况下加载该页面) 我已经使用Selinium抓取了评论，但我的客户不想使用Selinium，因为它加载了整个页面的JS和图片我想知道他们可能会使用什么样的过程来加载审查？有没有什么办法可以用BeautifulSoap抓取div.BVRRRatin

浏览 0提问于2014-11-28得票数 1

2回答

如何使用ajax抓取页面？

、、、

我有两个页面(A和B)，它们是使用django + jquery编写的。它们的urls是： http://127.0.0.1:8081/temp1/ (pageA) http://127.0.0.1:8082/temp2/ (pageB) 我想使用ajax()在页面A的js脚本中抓取页面B，js脚本是： $("#tmp_button1").click(function(tmp_event) { $.ajax({ url: "http://127.0.0.1:8082/temp2/", async: fal

浏览 0提问于2013-10-14得票数 1

1回答

使用AJAX请求抓取页面

、、、

我正在使用带有jsDOM的Node.js来抓取网页并在其中执行JavaScript。但是，如果页面包含AJAX请求，则不会执行这些请求。是否有在抓取的页面中执行AJAX调用的选项？

浏览 1提问于2011-05-27得票数 4

回答已采纳

1回答

webcrawling-有哪些可能的方法来检测使用javascript加载的页面？

我想抓取一些网站。我正在使用selenium/PhantomJS抓取JS(react、angular、jquery等)。和python爬行其他所有的东西。我的主要问题是，我无法区分页面是否使用JS加载。任何想法都将受到欢迎！

浏览 2提问于2018-03-16得票数 0

1回答

从添加到按钮按下的html中抓取网页

、、、

我试图从有一个巨大表的页面中抓取数据，该表将100个条目显示为默认值。底部有一个select/选项，允许您将条目更改为200或全部。如何在刮表之前将selecter设置为All，因为我希望从所有条目中抓取，而不仅仅是前100项。我使用node.js/JavaScript从页面中抓取。

浏览 1提问于2016-10-17得票数 0

回答已采纳

2回答

这段JS代码是如何工作的，它是以什么形式编码的？

、、、

我在过去的三年里一直在开发数据抓取脚本，但从来没有遇到过像这样的困难时期。我正在抓取一个，为了防止抓取，它显示消息Please enable JS in your browser 但是还有一些JS代码可以创建某种cookie或令牌，并重定向到实际的页面。我只想知道代码是以什么形式编码的？我怎么解码它呢？

浏览 1提问于2017-04-28得票数 1

1回答

如何在AngularJS永久移动页面上通知Crawler而不丢失SEO排名

、、

我使用的角度JS应用程序和服务抓取抓取时，他们访问。更改是不可避免的，因此某些页面将永久移动(重定向301)。例如： www.domain.com/#!/about-us 更改为 www.domain.com/#!/about-domain 正常情况下，可以在服务器上或使用mod_rewrite进行重定向。什么是角JS的最佳解决方案，这样旧页面(/about-us)在SERP中的页面排名可以传递到新页面(/about-domain)。然而，使用laravel和htaccess重定向的尝试失败了，因为服务器不接受“#”和该符号以外的任何内容。问什么是最佳的方式重定向301，角JS永久移动页

浏览 0提问于2015-06-04得票数 4

2回答

使用Node.js进行爬行

完全的Node.js新手，所以不要评判我... 我有一个简单的要求。抓取网站，查找所有产品页面，并保存产品页面中的一些数据。更简单的说，然后做。查看Node.js示例，我找不到类似的东西。有一个请求抓取器： request({uri:'http://www.google.com'}, function (error, response, body) { if (!error && response.statusCode == 200) { var window = jsdom.jsdom(body).createWindow(); js

浏览 4提问于2011-03-20得票数 11

1回答

登录后编辑重定向uri Request.js

、、、

我使用request.js和cheerio.js来抓取一个受密码保护的网站。是否有可能编辑响应uri，以便我可以刮除被重定向到的页面之外的另一个页面？

浏览 10提问于2015-08-01得票数 0

回答已采纳

1回答

如何获取页面上的值，以便对其执行操作并验证值是否已更改

我希望加载一个页面，抓取元素的文本内容，存储它，在页面上执行一个操作，然后再次抓取值并检查它是否发生了变化。除了存储元素的值之外，我知道如何做任何事情。这是不是有可能是Cypress，或者我必须使用普通的JS来完成它？

浏览 18提问于2021-08-25得票数 0

回答已采纳

2回答

不加载附加了innerHTML的脚本？

、、

我将一个完整的超文本标记语言页面附加到一个div (抓取)。如何阻止它请求script和css文件？我尝试立即删除这些节点，但它们仍然被请求。这是一个浏览器插件，我正在抓取JS

浏览 0提问于2015-01-06得票数 0

1回答

如何使用BS4或Selenium (Python)抓取动态内容？

、、、

我正在尝试从文件查找页面()中抓取Github中的所有文件路径。漂亮的Soup 4无法抓取包装文件路径列表的<tbody class="js-tree-finder-results js-navigation-container js-active-navigation-container">元素。我想这是b/c bs4无法抓取动态内容，所以我试着等待所有元素装载Selenium： driver = webdriver.PhantomJS() driver.get("https://github.com/chrisspen/weka/find/master

浏览 4提问于2017-10-04得票数 0

4回答

ajax比在表单提交中重新加载页面更快吗？

、

我有一个普遍的问题:通过Ajax加载数据完全比加载整个页面来抓取数据更快，而不管页面大小(外部元素，如图像，css文件，js文件...)？

浏览 1提问于2011-05-10得票数 1

回答已采纳

2回答

从父页面内的2个框架下载相同的JS文件

、、、

我正在处理一个包含两个框架的页面。每个框架调用一个页面，该页面随后在脚本标记中调用相同的javascript文件。看起来有时浏览器在另一个帧调用它的时候已经缓存了js文件，从而从缓存中抓取它。但是，似乎有时它会下载两个副本，每个帧一个。我正在尝试弄清楚是否值得从父页面调用一次脚本，并让每个框架的页面以这种方式访问它。那么，这仅仅是浏览器下载js文件的速度有多快的问题，如果另一个帧将从缓存中抓取它的话？主要浏览器的标准协议是什么？谢谢你的帮助！

浏览 1提问于2011-08-09得票数 0

回答已采纳

1回答

使用node.js从别人的谷歌工作表页面抓取数据？

、、

有人能告诉我如何从不属于我的Google Sheets页面中抓取数据吗？使用API不是一个选项。我看到了很多关于如何使用Sheet来存储web抓取数据的教程，但却没有关于如何从Sheets页面获取信息的教程希望我能用node.js来做这件事。有谁知道最好的方法吗？

浏览 1提问于2020-09-22得票数 1

2回答

GWT引导-问题

、

阅读谷歌页面上的GWT引导带，我有一些问题。( ) 假设:大多数浏览器最多允许两个同时连接来获取资源。 HTML页面： <html> <body onload='alert("w00t!")'> <img src='bigImageZero.jpg'></img> <script source='externalScriptZero.js'></script> <img src='bigImageOne.jpg&

浏览 4提问于2010-07-13得票数 3

1回答

有没有可能用代码自动向下滚动网页？

、、、

我正在为一个特定的网页做网页抓取，我注意到我的代码只抓取了只显示第一个滚动的部分。当进一步向下滚动时，页面会自动显示更多信息。下面是似乎控制这种算法的代码。 <div class="view-pagination text-right"> <ul class="js-pager__items pager" data-drupal-views-infinite-scroll-pager="automatic"> ::before <li class="pager__item"

浏览 1提问于2019-10-31得票数 0

1回答

Gatsby JS -多个页面拉入不同类别的markdown文件

、、

我正在使用GatsbyJS建立一个个人网页。我有多个页面，两个相关的页面是一个项目/投资组合页面和一个博客页面。我已经在博客页面上设置了gatsby，它从特定的文件夹中拉入标记文件，并在博客页面上使用模板显示它们。我想在projects/portfolio页面上以类似的方式展示我的项目。我的文件夹结构如下： -src -pages -BlogPostOne -BlogPostTwo projects.js blog.js -templates BlogPostTemplate.js ProjectTemplate.js -projects -project1

浏览 18提问于2018-07-29得票数 4

回答已采纳

1回答

使用node.js抓取时，使用jQuery访问CSS值

、、、

我使用node.js (基本上)抓取一个页面，然后jQuerify结果，以便访问某些元素的CSS值。但是，由于某些原因，.css("something")总是返回空值。例如，.text()运行得很好。有什么提示吗？在访问CSS之前，我需要先输出抓取的页面吗？ var request = require('request'); var jsdom = require('jsdom'); var req_url = 'URL'; request({uri: req_url}, function(error, response, h

浏览 0提问于2012-04-12得票数 3

回答已采纳

1回答

抓取返回生成html节点的javascript文件的ajax页面

、

有些页面不返回ajax上的原始数据(如json、xml或html)。相反，他们使用一些框架，比如dojo，其中ajax调用返回js文件，而js文件以某种方式填充html节点。我想知道是否有一种非Selenium策略可以从这些页面中抓取数据。

浏览 2提问于2014-12-12得票数 1

回答已采纳

2回答

跨站点脚本？

、、

嗨，我正在尝试使用JS从另一个网站抓取div。我有一个从外部网站加载页面的iframe，我想抓取一个包含列表的div，这样我就可以自己设计样式并将其放到我的网站上。任何想法，都将不胜感激。谢谢。

浏览 0提问于2009-07-07得票数 2

回答已采纳

1回答

如何使用Tornado CurlAsyncHTTPClient获取网页，直到它完全加载并执行了js。

、、、

我试图构建一个Tornado应用程序，它可以提供RESTful API来抓取网页。我发现CurlAsyncHTTPClient不能获取完全加载的页面或js生成的页面。这个问题有什么解决方案吗？有没有一个库可以获取完全加载的页面或js生成的页面，并使用Tornado的非阻塞机制？如果您能提供任何建议或解决方案，我将不胜感激。:)

浏览 3提问于2016-02-01得票数 2

2回答

Node.JS:如何抓取json页面中的特定数据

、、、

我想要抓取这个页面：用于特定数据，如formattedDate和description。我很难理解Node.JS中的过程，我该如何在Node.JS的模块中实现这个过程呢？任何帮助都会有很大的帮助，提前谢谢。

浏览 1提问于2018-08-10得票数 1

1回答

Javascript -分离页面上的所有IP并将它们用作字符串

、、、

我试图抓取特定页面上的所有IP，并在每个页面上运行一个函数；但是，我只能(通过研究)找到如何以单个字符串的形式获取页面上的所有IP。不太精通JS，就像你可能知道的。抓取为单个字符串： var markup = document.getElementsByClassName('border_wrapper')[0].innerHTML; alert(markup.match(/\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b/g).join("\n")) 我假设我需要一个for循环才能在函数中运行它们。解决(新字符串)；

浏览 4提问于2014-10-06得票数 0

回答已采纳

1回答

动态创建页面客户端的OG元数据

、、、

在客户端，我试图在FB抓取页面之前，为页面设置Facebook的开放图形元数据。我尝试过的每一件事，似乎FB在JS采取行动之前都会抓取页面。这是正确的吗？有没有办法做到这一点？这是它在html文件中的形式： <meta id="ogImage" content='http://www.blueglass.com/wordpress/wp-content/uploads/2012/04/stand-out-in-crowd.jpg' property='og:image' /> <meta id="ogDescript

浏览 2提问于2012-07-02得票数 0

回答已采纳

1回答

如何以编程方式查看网站正在发出哪些请求(例如API或资源请求)

、、

在Chrome中，您可以访问developer > network，查看该网站提出的所有请求。以编程方式获取这些请求列表的好方法是什么？我想我可以抓取站点的内容，抓取页面中的所有URL并解析它们，但这似乎有点乏味，特别是如果请求是从JS文件发出的。有更简单的方法吗？

浏览 1提问于2022-03-14得票数 -2

3回答

是否可以使用jQuery将另一个网页的HTML抓取到div中？

、

我试图与FireShot API集成给一个网址，抓取另一个网页的网页到一个div，然后采取截图它。在获得HTML之后，我需要做一些事情抓取<link> & <script>从<head> 抓取<body>到<div> <code>F 210</code> 但是第一，当我试图做一个 $.get("http://google.com", function(data) { ... }); 我得到了200只红色的萤火虫。我认为这与网站不允许你用JS抓取他们的页面有关？那我就只能打开一扇窗户了

浏览 9提问于2011-03-23得票数 0

1回答

Rvest html_nodes span div和Xpath

、、

我试图通过读取XPath代码来抓取网站。当我进入开发人员部分时，我看到了这些行： <span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1"> 我想要抓取data-abc的所有值。假设站点上的每个元素都是一部电影，所以我想抓取页面上每部电影的所有数据-abc元素。我想

浏览 16提问于2018-02-06得票数 1

回答已采纳

1回答

在Scrapy中抓取用户评论-网站从哪里获取数据？

、、

谁能告诉我如何使用Scrapy从this page抓取用户评论的文本？我知道如何使用选择器从抓取的代码中检索项，但页面似乎是从其他地方提取注释的数据。我想不出在哪里。我尝试过使用站点检查器和Chrome中的“网络”选项卡来检查站点。我想它可能是'https://user.guancha.cn/static/js/comments-plugin-cms.js?201910221652‘，但我看不到存储在那里的评论。谢谢你的帮助！

浏览 16提问于2020-01-30得票数 0

回答已采纳

4回答

Selenium Python:如何在单击后等待页面加载？

、

我想在点击后抓取页面的页面源代码。然后使用browser.back()函数返回。但是Selenium不会让页面在点击后完全加载，并且由JavaScript生成的内容不会包含在该页面的页面源代码中。 element[i].click() #Need to wait here until the content is fully generated by JS. #And then grab the page source. scoreCardHTML = browser.page_source browser.back()

浏览 0提问于2016-06-13得票数 12

2回答

onload JS DOM注入后的抓取页面

、、、

我正在构建一个从页面获取主图像(基于Content-Length )的抓取器。它遍历所有<img>元素并发出HEAD请求。但某些页面，特别是移动，在页面加载后插入图像。对如何解决这个问题有什么想法吗？我使用的是node.js。

浏览 0提问于2012-03-15得票数 0

回答已采纳

1回答

如何查找重复的JS元素BeautifulSoup Python

、、、、

html = <span class="title"> <a href="VIDEO HREF" title="title" class="js-pop">title text</a>" </span> 代码= class Client(QWebPage): def __init__(self, url): self.app = QApplication(sys.argv) QWebPage.__init__(self)

浏览 18提问于2018-06-04得票数 2

回答已采纳

1回答

如何通过OAuth登录以便cron作业可以运行

、、、

不是100%确定我的标题是正确的，但这是我想要做的。我已经写了一个主要是JS的小页面&一个小的PHP抓取器。脚本运行，连接到Trello，根据它找到的内容，它使用PHP抓取器抓取另一个站点，然后更新Trello中的一些卡片。这作为可以在浏览器中加载的页面很好，但我希望将其设置为在我们的服务器上作为cron作业运行的页面。我不知道如何修改我的脚本来自动登录到Trello。我知道我可以运行它一次，授权30天等等，但理想情况下我不想一直这样做。我对此有点不熟悉，所以欢迎任何关于如何最好地处理它的记录。 **从webapps中移出

浏览 3提问于2012-02-07得票数 2

回答已采纳

1回答

使用VBA-Macros抓取源代码

、、、

我需要从价格比较网站(产品链接：)抓取价格值。我不能刮。查看我想要捕获的图像中突出显示的价格：请帮助我如何抓取这个页面。 PS:在许多国家/地区将无法访问toppreise.ch，因此请使用VPN 我使用了下面的代码： Private Sub SiteInfo_Click() Dim strhtml On Error Resume Next ThisWorkbook.Sheets("Data Mining").Activate Sheets("Data Mining").Range("B1").Select Set xmlHttp =

浏览 15提问于2018-02-15得票数 2

2回答

使用Python从控制台捕获信息

、、

我正在创建一个脚本，在这个脚本中，我试图从网站上专门抓取m4a文件。目前，我正在使用BS4和selenium来实现此目的。我在获取信息时遇到了一些麻烦。文件链接不在页面的HTML源中。相反，我只能在控制台中找到它。我尝试获取的链接在这个标记为"audio_url_m4a:“的图像()中。下面是我正在使用的一些示例代码： from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities\ d = DesiredCapabiliti

浏览 1提问于2021-01-22得票数 1

1回答

在Selenium中加载页面时处理错误的JS

、、

我最近抓取了一个网站，结果发现： <img onerror="onErrorImg(this)" onload="onLoadImg(this);" src="example.png"> 但是，有问题的站点没有定义名为onErrorImg的函数，因此如果禁用图像，这将在控制台中产生一个错误。我想在这种情况下禁用镜像，因为它是通过计量连接运行的。在不更改其余代码的情况下，如果我在浏览器中启用图像，页面将正确加载并可以被抓取。我会就这件事联系网站所有者，但如果没有及时纠正:有没有针对这种情况的简单解决方案？如果我可以在加载时将JS脚本

浏览 17提问于2018-12-30得票数 0

1回答

如何读取网页中变量的值？

、、、

我必须网页抓取一个页面，但这个页面是动态加载的一些值。因此，当我使用源代码时，有js变量，而不是它们的值。如果我下载这个页面，我会看到他们的价值。有没有办法在Java程序中读取这些值或下载所有文件(包括脚本)？

浏览 0提问于2020-02-18得票数 0

1回答

Googlebot能从JS抓取内容吗？

、

在我的网站上有很多页面，在页面加载时，我会调用JS中的获取从服务器获取数据，然后呈现数据。我想知道Googlebot是否能从获取的内容中抓取内容？我试着在网上搜索，但找不到专门的答案。

浏览 0提问于2021-08-17得票数 1

回答已采纳

1回答

使用jQuery load()时的SEO问题

、、

我已经创建了一个带有load函数的模式窗口，在模式窗口中有链接。crawler无法读取和索引这些链接。我需要一种方法让爬虫索引这些链接。我看到使用angular js排名的网站，比如 (这个网站有一个类似的模式窗口)在谷歌搜索中排名靠前，我Google从不阅读或索引angular js制作的页面。他们设法抓取了它，所以肯定有一种方法可以抓取我制作的javascript模式窗口。我如何才能做到这一点？

浏览 0提问于2017-09-13得票数 1

2回答

我可以从highcharts.js中刮取原始数据吗？

、、、、

我想从一个使用highcharts.js显示图形的页面中抓取数据，这样我就完成了对所有页面的解析，以到达。但是，显示数据集的最后一页使用highcharts.js来显示图形，这似乎几乎不可能访问原始数据。我在BeautifulSoup中使用Python3.5。还能解析它吗？如果是这样的话，我该怎么刮呢？

浏览 3提问于2016-09-03得票数 9

回答已采纳

3回答

等待JS执行后再抓取页面

、

我正在尝试使用抓取以下页面：我半途而废地意识到，每一场比赛的赔率都是使用JS计算的(之前，它只是-)。有没有办法在javascript执行后获得页面，或者我应该找到另一个网站？？

浏览 6提问于2018-03-26得票数 0

1回答

谷歌搜索引擎

、、

我有Rails + Backbonejs应用程序。很多搜索内容有用的页面都是用backbonejs显示的，所以所有的搜索信息都是用js添加的。据我所知，谷歌搜索只使用html响应来抓取内容，并且它不能在js页面下爬行。在这种情况下，谷歌搜索引擎是否可以接受和有效地创建html页面，与'js‘页面中的内容相同，并且只允许google bot请求。其他请求将重定向到适当的'js‘页面吗？例如: google bot find html page 'sitename.com/users/N‘。并将其与所有内容一起索引。在搜索结果中将显示链接'sitename.co

浏览 2提问于2012-07-17得票数 0

1回答

Chrome扩展:获取当前页面cookie和插件本地存储的cookie

、、、

我尝试了以下方法，但不确定如何操作它。 manifest.json "permissions": [ "tabs", "http://*/*", "https://*/*" ], "content_scripts": [ { "matches": ["http://*/*", "https://*/*"], "js": ["cookie.js"] } ] c

浏览 2提问于2012-11-28得票数 3

回答已采纳

2回答

用Javascript刮特定的远程HTML？

、

我正在设计一个Javascript，我需要它来抓取特定的远程HTML页面的内容。例如，我需要告诉它获取带有ID“问候”的元素的InnerHTML，并将其作为字符串发送给我。这和JS有关吗？如果没有，我需要使用Node.js还是PHP？

浏览 6提问于2015-02-02得票数 0

回答已采纳

1回答

使用基于浏览器的模板引擎从站点中抓取数据

、

试图从带有大量JS的浏览器中的中抓取数据。当使用jsdom无法获得任何数据时，可能页面没有足够的时间加载或呈现。如何在本例中刮取数据:使用计时器或通过下载所有页面 jsdom.env({ url: link, scripts: ["http://code.jquery.com/jquery.js"], done: function (errors, window) { var $ = window.$; var date = $('.date').text(); console.log(date); } });

浏览 2提问于2013-08-13得票数 1

回答已采纳

1回答

使用Python抓取Selenium JS地图

、、

我对Selenium是个新手，实际上我从昨天就开始尝试了，我发现了一些关于Selenium和python的有趣的东西。我找到了一些关于如何抓取JS页面并与之交互的信息。但我的疑问是，如何使用selenium从可点击的地图中获取数据。我试着找出页面中是否有隐藏的链接，但是没有。我计算出，当我将鼠标移到地图上的任何按钮(在地图中)时，x，y位置会发生变化(当然……)在我点击按钮后，我可以抓取我的数据。使用静态模型，我可以抓取我想要的所有数据。所以我的问题是，我如何模拟鼠标在地图上的移动和这个点击动作？诚挚的问候,

浏览 1提问于2015-12-20得票数 0

1回答

为什么splash不会呈现此页面？

、、

我正在尝试从一个使用Javascript的时尚网站上抓取，使用Scrapy这是页面：我有docker，并按照splash文档上的说明在localhost:8050上设置了splash。我能够正确地渲染。据我所知，这是一个js页面，我禁用了js，当我这样做时，它看起来确实不同。然而，我没有成功地渲染时尚网页。这是我得到的：这实际上是页面在没有js的情况下的样子，所以我知道它是不成功的。可能会发生什么？

浏览 16提问于2020-11-28得票数 0

3回答

如何抓取facebook用户配置文件页面

、

我想知道如何使用php抓取facebook的用户资料页面。我尝试使用CURL、fsockopen和file_get_contents，但它没有返回处理过的超文本标记语言页面。它只返回充满JS代码的HTML页面。看起来，facebook使用Javascript加载页面。所以，我想知道，如何使用php获得经过处理的HTML页面。注意: 1.从facebook注销。2.点击用户地址，例如：

浏览 3提问于2011-04-07得票数 0

1回答

W3总缓存保持对非https页面的缓存

、、

当前在WordPress安装上安装了W3总缓存。整个站点都启用了https://，但是缓存偶尔会抓取来自http://.的页面此缓存页面包括对JS和CSS文件的引用，这些文件也来自http，并且当通过https加载缓存页面时，这些资源无法加载。有人知道如何防止这个插件缓存不安全的内容吗？

浏览 5提问于2018-11-27得票数 0

2回答

在页面加载时使用设备方向

、

我试图通过事件获取阿尔法，贝塔和伽马坐标。我的代码： window.addEventListener('deviceorientation', function(event) { alert(event.alpha + ' : ' + event.beta + ' : ' + event.gamma); }); JS Fiddle：这是很好的工作，不断抓取坐标，因为设备移动，但我想只是抓取坐标的页面加载，而不是让它听移动。我试着将window.addEventListener改为window.onload，但这并没有奏效。知道我怎么能做

浏览 2提问于2015-11-01得票数 2

回答已采纳