抓取:无法从网页中提取内容

、、

我正在尝试从下面的页面中抓取新闻内容，但没有成功。https://www.business-humanrights.org/en/latest-news/?&search=nike")soup 但是我正在寻找的内容-标记为div class = 'card__ content‘的新闻片段并没有出现在soup输出中。

浏览 15提问于2020-08-26得票数 0

回答已采纳

1回答

如何在j2ee中获取rss中的新闻内容

、、

我正在开发一个网站，应该得到其他网站的新闻内容，类似于。但不需要重定向到主持人那里去阅读新闻内容。现在的问题是，我不知道什么是最好的方式得到的内容完全。现在我想问的是，如果有必要直接访问这些网站，从不同的网站获取整个新闻内容的最好方法是什么？对不起，因为我的英语不太好，如果我的问题不够清楚，我可以提前解释，谢谢。

浏览 5提问于2014-08-14得票数 1

回答已采纳

2回答

使用Nutch如何抓取使用ajax的动态网页内容？

、、、、

我使用apache Nutch 1.10来抓取网页并提取页面中的内容。其中一些链接包含动态内容，这些内容是在调用ajax时加载的。Nutch无法抓取和提取ajax的动态内容。我该如何解决这个问题呢？

浏览 1提问于2015-10-06得票数 3

1回答

使用python pandas的Datareader获取雅虎财经的关键统计网页与默认的雅虎财经的历史价格网页

、、、

我正在尝试使用python的pandas库从雅虎财经中抓取数据，使用DataReader从熊猫中提取历史价格数据，但我也想从雅虎财经的关键统计网页中提取数据，比如“价格/账面比”。我想使用pandas库来做我所有的网页抓取，pandas中有没有不同的函数可以让我为雅虎财经的不同网页拉取数据，或者修改DataReader函数来拉取其他数据？就像将所有内容都保存在HTML中？

浏览 0提问于2015-08-17得票数 0

2回答

Python抓取包含PHP的页面源代码

、

我知道如何抓取源代码HTML，但不知道PHP，有没有可能用内置的函数？

浏览 0提问于2013-02-25得票数 0

回答已采纳

2回答

NUTCH可以用来从电子商务网站获取数据吗？

、、、

我想从网站上获取数据。我想要易趣上不同商品的价格。我想把这些产品和它们的价格放在我的数据库里。纳奇在这里会有帮助吗？如果不是的话，我更喜欢哪种刮刀/爬行？

浏览 5提问于2014-06-17得票数 0

回答已采纳

1回答

使用python代码从IEEEXplore网站提取DOI

、、、

无法从网页中提取字段数据，这不是常见的web抓取问题。它也与javascript相关联。我也尝试了python-request，但是无法解决这个问题。我正在尝试从网页中提取doi。doi位于javascript中。我能够读懂页面，代码一直运行到{print(Soup)}。当我试图提取DOI值(在给定代码中，示例网页的doi如下：“doi”：“10.1109&#x

浏览 4提问于2019-02-09得票数 0

3回答

当链接到事件点击时，如何从网站上抓取数据？

、、、

我正试图从Tripadvisor.com网页中抓取/提取公司/酒店的网站。当我检查网页时，我没有看到网站网址。知道如何使用python提取网站url吗？提前道歉，因为我最近才开始“在Python.请看到图像中的两个红色箭头。当我选择网站链接时，它会将我带到'‘--这就是我想使用Python提取的内容。

浏览 4提问于2018-02-01得票数 7

回答已采纳

3回答

Python -抓取谷歌的简单方法，为给定的搜索下载前N个命中结果(整个.html文档)？

、、、

有没有一种简单的方法来抓取谷歌，并为给定的搜索写出前N个(比如说1000个) .html (或其他任何)文档的文本(只是文本)？举个例子，想象一下搜索短语“大灰狼”，只下载前1000个点击量中的文本--也就是说，实际上是从这1000个网页中下载文本(但只下载那些页面，而不是整个网站)。我假设这将使用urllib2库？

浏览 2提问于2011-03-16得票数 10

回答已采纳

1回答

抓取:检查网页中的网络资源

、、

我一直在阅读抓取，用于从页面内容和爬行中提取urls/图像等。我的问题是，是否有一种方法可以提取/打印网页中加载的所有网络资源，比如，而无需从页面的html内容中提取，而是直接从资源请求/完成时的网络资源中提取/打印。谢谢

浏览 3提问于2016-02-04得票数 0

回答已采纳

1回答

在Heritrix爬虫工具中如何从爬行urls中提取内容

、、

我对heritrix工具很陌生，现在我可以从www抓取网页，现在我想要提取爬行urls的内容。请提前帮助我任何one.please.Thanks。

浏览 0提问于2013-08-28得票数 2

回答已采纳

2回答

如何使用BeautifulSoup提取网页“关于我们”的文本

、、

我是新的网络抓取，我不知道如何从网页上的“关于我们”下的文本。请您指点我，或者提供代码，以便在这样的网页中提取“关于我们”的文本。我可以在头文件中看到“关于我们”，但是无法用这个标题提取数据。

浏览 1提问于2019-08-03得票数 0

1回答

如何从一系列页面下载数据？

我想从中的所有页面下载所有表中的数据，每个页面都包含多个HTML。

浏览 1提问于2018-11-22得票数 0

2回答

我需要抓取一个寻找图像和链接的远程html页面。我需要找到一个图像，这是“最有可能”的产品图像上的页面和链接，是“接近”该图像。问题是，通过使用url并尝试像httpwebrequest这样的东西并在服务器上获取html，我将没有位置值，因为它不是在浏览器中呈现的。我需要图像和链接的位置，以帮助我确定我想要的图像和链接。那么，如何从服务器上的远程站点获取html，并使用dom元素的位置值来帮助我定位图像和链接呢？

浏览 0提问于2010-09-06得票数 2

2回答

使用.NET抓取屏幕

、

市场上是否有免费的屏幕抓取工具，可以帮助自动化这个过程。我最初的想法是一个接一个地读取每个图像，并通过应用程序提供数据。

浏览 0提问于2011-07-09得票数 0

2回答

rvest返回NA

、

我正在使用"rvest“进行网页抓取，但我无法从页面提取模型的价格:- 。我需要从页面中提取"$720.00“。moto-z-force-droid-edition") html_nodes(".price-amount")%>%print(price) 我不断地从价格中得到字符

浏览 16提问于2017-01-26得票数 1

1回答

解析html页面并将内容(标题、文本等)存储到数据库中

、、

所以我需要解析html页面并将它们存储到Mysql中。并用这些数据填充首页。谢谢。约瑟夫

浏览 3提问于2010-09-17得票数 1

1回答

通过知道R中的CSS类来抓取嵌入式交互式地图的详细信息

、、、

我打算在这个中从地图中抓取数据首先我抓取了地图中所有标记的所有经度，但我无法捕捉到标记的其他信息。在对此网页的检查中，我发现所需数据的类是"infodetail“，如下图所示：因此，我使用rvest提取数据，如下所示： webhtml <- read_html(webpage) webnod这个类是否从所有标记中提取信息？

浏览 1提问于2018-05-22得票数 0

2回答