java抓取动态js - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

如何读取网页中变量的值？

、、、

我必须网页抓取一个页面，但这个页面是动态加载的一些值。因此，当我使用源代码时，有js变量，而不是它们的值。如果我下载这个页面，我会看到他们的价值。有没有办法在Java程序中读取这些值或下载所有文件(包括脚本)？

浏览 0提问于2020-02-18得票数 0

3回答

如何通过哈希获取URL的内容？

、、

我正在尝试使用file_get_contents()获取url的内容，如下所示：这很好用，但我还必须获得如下所示的页面内容：http://www.website.com#somevalue，但是，如果我使用与上面相同的方法，它只返回与没有散列相同的内容。可以获取更新的内容吗？我假设他们正在使用主干或其他类型的路由来处理此问题。

浏览 2提问于2012-11-11得票数 1

回答已采纳

1回答

如何使用Python在web-page[html]上解析Java-script contains[dynamic]？

、、

现在，一些网站正在使用Java-script来显示动态容器，一旦某个动作点击或时间发生，动态容器就会显示给用户。漂亮的汤只需要解析静态容器，这是在java-script标签运行之前。我想让容器在java-script运行之后。有没有办法做到这一点？我能想到一种方法:抓取url，打开浏览器，同时运行这个URL和java-script标签。然后将这个url传递给Beautiful soup，它可以看到生成了哪些java-scriptdynamic包含。然

浏览 2提问于2011-04-21得票数 1

1回答

使用Xpath提取值时来自Scrapy的空列表

、、、

我真的不知道为什么会发生这种情况，在我看来，问题可能是网站信息在动态更新？这个网页抓取的网址是：，我需要的是每个供应商的供应商名称和价格。附件中的图片是“考察”的截图。

浏览 2提问于2018-02-12得票数 2

1回答

如何更改每个Heroku请求的IP地址？

、、、、

所以我在网上抓取谷歌，我很确定它会根据IP地址阻止我的请求。我已经将我的应用程序部署到Heroku上(当dynos重启时，Heroku有动态IP地址)，我注意到如果应用程序启动，在5个请求之后，它们就不能正常抓取了。如果我重新启动dyne，那么在它停止抓取之前，我会收到另外5个请求。这使我相信当dyno启动时静态IP地址是问题所在。我研究了QuotaGuard的动态IP ()，但我认为这不会起作用，因为谷歌似乎是https。以前有没有人在Heroku上通过不同的if动态代理他们的请求(如

浏览 24提问于2021-05-17得票数 1

2回答

搜索引擎能抓取纯javascript应用吗？

、、、

UI中有很多向纯javascript前端发展的趋势，比如backbone.js或javascript mvc。我很好奇他们是否仍然可以抓取不遵循这个指导原则的应用程序。我正在讨论是在服务器端使用模板引擎，还是只使用纯javascript解决方案，以及对api的json请求。

浏览 0提问于2012-09-21得票数 2

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

无法使用Goutte Laravel包抓取此站点。视图源中存在元素

、、、

我正在用Laravel Goutte包https://github.com/FriendsOfPHP/Goutte构建一个抓取工具，我已经能够抓取大多数网站，直到我遇到这个网站的http://www.bhutanpost.bt/，我需要抓取。我试图抓取的元素确实存在于视图源代码中，所以我可以说它们不是由JS动态拉取的。任何帮助都将受到高度的感谢。

浏览 21提问于2021-02-09得票数 0

1回答

如何使用BS4或Selenium (Python)抓取动态内容？

、、、

我正在尝试从文件查找页面()中抓取Github中的所有文件路径。漂亮的Soup 4无法抓取包装文件路径列表的<tbody class="js-tree-finder-results js-navigation-container js-active-navigation-container我想这是b/c bs4无法抓取动态内容，所以我试着等待所有元素装载Selenium：drive

浏览 4提问于2017-10-04得票数 0

1回答

如何在旋转代理中使用scrapy splash？

、、、、

我仅通过使用以下内容作为请求才能成功抓取js内容。, ) 如何在抓取动态内容的同时同时应用

浏览 10提问于2017-08-14得票数 1

1回答

在Python中爬行网页并调用javascript函数

、、、、

我需要抓取一个网站，然而，它的内容是动态的。Python中有没有可以调用js函数的包？例如，假设我在JS中有一个链接和JS函数1、2和3，我应该在该网页上调用，并且在所有JS函数调用之后我需要最终的网页。

浏览 16提问于2019-02-12得票数 0

1回答

Html中有java脚本。如何从中提取HTML标签

、、、、

root"></div> <script type="text/javascript" src="/github-user-search/app.bundle.562f293b75a96de878ab.js

浏览 3提问于2019-07-07得票数 0

1回答

如何使用web抓取中的变量？

、、、

我使用以下代码抓取了一个作业门户： ;(async我尝试将其作为函数导出，并将其导入名为JobCard.js的组件中。但它会打印一条警告：如果我将scraper.js放到组件中，它会说：找不到./node_modules/pu

浏览 3提问于2018-11-22得票数 0

1回答

从html页面不显示数据的url读取数据

、

我正在尝试以下代码：if __name__ == '__main__': import requests r = s.get(link) print(sou

浏览 1提问于2020-02-05得票数 0

1回答

从另一个站点抓取动态创建的图像的解决方案？

、、

我在从这个服务中抓取动态创建的图像时遇到了问题：我确信解决方案很简单我只是不确定从哪里开始寻找，JS还不是我的40岁。

浏览 0提问于2012-03-15得票数 0

回答已采纳

1回答

在R中使用`read_html`时缺少元素

、、、

我正在尝试使用rvest包中的read_html函数，但遇到了一个我正在努力解决的问题。library(rvest)通过检查浏览器中的HTML代码，我可以看到我想要的内容包含在一个<table>标记中(具体地说，它都包含在<table class="t-calc"&

浏览 17提问于2016-08-31得票数 3

回答已采纳

2回答

如何通过java脚本在sql developer中提取表中某列的值

需要通过Javascript从SQL developer中的表的列中提取值表AAAA由四列A、B、C和D组成。我应该如何编写javascript，以便通过搜索B列中的特定记录值来获取C列中的记录值 select C from AAAA where B= '3'；--其中3是B列中的记录如何通过javascript获取需要通过intershop获取这些值

浏览 20提问于2019-06-18得票数 0

1回答

运行一个Flask服务器是否可以防止Node.JS中的web抓取？

、、、

我有兴趣尝试一个网络抓取项目。目标站点使用Javascript动态加载和更新内容。大多数在线讨论都表明，在尝试这样一个项目时，node.js、casper.js、phantom.js和nightmare.js都是相当流行的工具。Node.js似乎是最常用的。如果我正在运行一个烧瓶服务器，并且希望显示一个node.js的结果，例如，在我的站点上以表格格式刮擦，这是可能的吗？我会遇到兼容性问题吗？或者，为了保持一致性，我应该尝试使用基于python的方法来

浏览 6提问于2017-04-19得票数 0

回答已采纳

2回答