无法抓取动态内容(带有启动设置的抓取)

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试从上抓取有关学校的内容，页面主要由动态内容组成，因此我遵循了使用splash 的步骤docker run -p 8050:8050scrapinghub/splashBOT_NAME = 'school_scrape' SPIDER_MODULES = ['s

浏览 38提问于2020-07-30得票数 0

1回答

从数据小部件中获取数据，并没有检索任何值。

、、

我正在尝试使用rvest获取数据(也尝试使用XML和selectr)，但遇到以下问题时遇到了困难：<span data-widget="turboBinary_tradologic1我想获取1226.45，但是当我运行我的代码(下面)时，它说那里没有存储的信息。这与它是一个小部件的事实有关吗？如能就如何开展工作提出任何建议，将不胜感激。

浏览 9提问于2017-02-15得票数 0

回答已采纳

1回答

抓取动态内容的抓取

、、、

我正试图从谷歌游戏商店得到最新的评论。我跟踪这个问题是为了获得最新的评论，DEBUG: Crawled (200) <POST https://play.google.com/store/getreviews> (referer: https://play.google.com

浏览 0提问于2015-06-03得票数 3

2回答

使用Nutch如何抓取使用ajax的动态网页内容？

、、、、

我使用apache Nutch 1.10来抓取网页并提取页面中的内容。其中一些链接包含动态内容，这些内容是在调用ajax时加载的。Nutch无法抓取和提取ajax的动态内容。我该如何解决这个问题呢？

浏览 1提问于2015-10-06得票数 3

1回答

为什么我的Crawler会得到错误的HTML代码？

、

实际上，用jsoup库实现的爬虫代码可以工作，因为我的请求的结果是一些HTML代码，但是当我搜索一个明确写在网站上的单词时，没有找到它，因为一些div的来自于空的爬虫。然后我意识到，当您导航到网站并右键单击‘查看页面源’时，我得到了与相同的代码。当我将代码与进行比较时，右键单击“->”检查“”时，代码与“查看页面源”中的不同。我能做些什么来获得包含全部内容的HTML代码吗？请求网址：

浏览 0提问于2019-09-12得票数 1

回答已采纳

1回答

Facebook可以抓取多个页面吗？

、

我使用的是带有类似Facebook按钮的OpenGraph。使用调试工具，我可以强制Facebook抓取特定的页面，但我有很多页面要抓取。Facebook是否可以根据分页链接抓取这些内容，或者是否有其他方法可以强制Facebook抓取这些内容，而不必手动将它们输入到调试工具中？

浏览 2提问于2014-01-07得票数 0

1回答

Html中有java脚本。如何从中提取HTML标签

、、、、

我必须下载URL链接的所有html。但是我没有得到任何HTML标签。取而代之的是，我只得到了这些行。 <!

浏览 3提问于2019-07-07得票数 0

2回答

WGET -从第三方网站下载特定文件(通过扩展或mime类型)

、、、

我需要使用wget从网站获取所有的".js“扩展文件，包括第三方的扩展文件，但并不总是这样做。我的代码中是否遗漏了什么？提前感谢！

浏览 24提问于2020-04-29得票数 0

1回答

相当于Scrapy的Javascript框架

我正在努力寻找一个相当于Scrapy for Javascript的框架。我目前正在尝试构建一个react web应用程序，并且我正在尝试寻找一种方法来抓取我们的页面，因为它不提供任何API。

浏览 0提问于2018-03-14得票数 0

1回答

尝试将普罗米修斯操作员和服务监视器收集的自定义指标推送到亚马逊网络服务CloudWatch

、、、

然后，在普罗米修斯运算符的帮助下，我使用serviceMonitorSelector在普罗米修斯中捕获这些指标。我看到普罗米修斯中的这些指标正在被收集。最终的结果是在Zenoss on Cloudwatch的帮助下设置和警报系统。

浏览 24提问于2019-04-06得票数 2

1回答

Symfony domCrawler解析页面源中未显示的html

、、

示例页面是(尝试获取站点列表)：谢谢

浏览 0提问于2016-10-10得票数 0

2回答

抓取将从ajax事件加载的响应

我正在使用抓取工具从网站上抓取内容，我需要你们的帮助如何从ajax动态加载的回应。当内容从ajax加载的同时，网址不变，保持不变，但内容会被改变，所以在这个事件上我需要抓取。

浏览 2提问于2012-03-06得票数 0

回答已采纳

1回答

网站通过移动端友好测试，未显示标签

、

几周前，我的网站通过了谷歌的移动端友好测试。然而，“移动友好”标签并没有出现在移动搜索结果中。这需要多长时间？谢谢!

浏览 0提问于2015-03-25得票数 0

1回答

Neo4j加载速度慢

我正在抓取(使用采样API) twitter，并将抓取的数据保存到Neo4j数据库中。当节点总数超过20,000个时，我的neo4j永远不会启动。我通常在终止启动之前等待大约5到10分钟，到目前为止，我无法启动处理具有该数量的节点的服务器。 2013年5月26日9:21:53 PM o

浏览 45提问于2013-05-27得票数 2

1回答

从网页捕获动态请求内容

、、

我正在尝试从网页中捕获动态内容。加载内容后，数据动态显示在网页上。在一个网页上，控制台中的响应是json格式的，第二个是html。下面是我尝试在scrappy中使用的内容。, 'wb') as f: 如果您知道任何可以使用的解决方案或其他库/框架，或者甚至其

浏览 1提问于2020-05-25得票数 1

1回答

如何使用Selenium和BeautifulSoup抓取div和div中的iframe内容？

、、

我目前正在抓取一个格式如下的页面： <div id="container> <iframe>Contents of iFrame</iframe></div> 我可以很容易地抓取页面

浏览 28提问于2019-04-12得票数 2

1回答

所以我在网上抓取谷歌，我很确定它会根据IP地址阻止我的请求。我已经将我的应用程序部署到Heroku上(当dynos重启时，Heroku有动态IP地址)，我注意到如果应用程序启动，在5个请求之后，它们就不能正常抓取了。如果我重新启动dyne，那么在它停止抓取之前，我会收到另外5个请求。这使我相信当dyno启动时静态IP地址是问题所在。我研究了QuotaGuard的动态IP ()，但我认为这不会起作用，

浏览 24提问于2021-05-17得票数 1

1回答

简单HTML DOM:无法获取ant分页

、、

我试图刮一个网站，以估计提供的关键字的产品数量。要完成此任务，而不是滚动每一页并手动计算产品数量，我所要做的就是找到ant-pagination中显示为ant-pagination-item的最后一页，并将其与一页上的产品总数相乘，以获得估计的产品数量我是用simple_html_dom.php写的，这就是我的代码。 <?echo "FOUND $pages"; echo "</d

浏览 17提问于2021-01-27得票数 0

回答已采纳

1回答