Python Web抓取:通过加载页面抓取页面_使用Python抓取多个Web页面_页面上的Web抓取 - 腾讯云开发者社区

、、

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我使用Beautiful Soup和requests模块。

浏览 15提问于2020-10-25得票数 0

3回答

通过web抓取python加载多个页面

、、

我编写了一个用于web抓取的python代码，以便从flipkart导入数据。我需要加载多个页面，以便我可以导入许多产品，但现在只有一个产品页面来了。

浏览 3提问于2020-06-20得票数 0

回答已采纳

1回答

从html页面不显示数据的url读取数据

、

我正在尝试以下代码：if __name__ == '__main__': import requests r = s.get(link) print(sou

浏览 1提问于2020-02-05得票数 0

1回答

为了与html页面进行交互，我试图把一些我需要的插件集合在一起。我需要的范围从简单的浏览和与按钮或网页链接(如“在这个文本框中写一些文本并按这个按钮”)进行交互，到解析html页面和向服务器发送自定义get/post消息。我正在使用Python3，到目前为止，我有Request用于简单的网页加载、自定义get和post消息，BeautifulSoup用于解析HTML树，我正在考虑尝试机械化来进行简单的网页交互。是否有某种集合的地方，所有的Python库挂起？因为我有时会发现很难找到我要找的东西。

浏览 3提问于2014-04-17得票数 1

回答已采纳

1回答

如何知道在抓取时使用哪些标签？

、

抓取时有没有使用哪些标签的逻辑？现在，我只是在对不同的标签变体进行“反复试验”，看看哪种标签是有效的。这需要很多时间，而且真的很令人沮丧。我不能理解为什么有些标签能工作，有些不能。

浏览 0提问于2020-05-25得票数 0

3回答

从Morningstar网站抓取财务数据

、、

soup.find("div", {"class":"r_bodywrap"}) 我现在遇到的问题不同于我抓取的简单网页，程序似乎找不到任何表格，即使我可以在页面的HTML中看到它们。在研究这个问题时，最接近的堆栈溢出问题如下：在那篇文章中，他们解释说，Morningstar的表格是动态加载的，并使用了一些我不熟悉的json代码，并以某种方式生成了一个

浏览 3提问于2016-02-27得票数 3

2回答

使用selenium/chromedriver阻止网页自动重载

、、

我正在使用python和selenium包和chromedriver来抓取网页。页面每30分钟自动重新加载一次(可能是通过java-script)，这会破坏我的抓取进度。网络抓取是通过脚本和与页面进行进一步交互所需的javascript ist来完成的。有没有可能通过chromedriver的标志来阻止页面重新加载呢？

浏览 24提问于2020-11-13得票数 0

回答已采纳

1回答

当下一页的后续链接在当前页面源代码中不可用时，抓取网站的所有页面

、

嗨，我已经成功地通过使用Python和正则表达式抓取了一些购物网站的所有页面。但现在我遇到了麻烦，要抓取某个特定网站的所有页面，该网站的下一页后续链接不存在于当前页面中，就像这里的我没有办法获得这些类型的网站

浏览 0提问于2013-05-28得票数 0

1回答

使用Python对页面和浏览器扩展数据进行with抓取

、

我正在尝试获取网页的文本数据，就像它在我的浏览器上的样子一样。我的问题是，我还使用了一个网页的扩展，它的给定数据(由于它而显示的文本)也要被收集。我知道urllib，但它只收集正常的网页数据，而不是扩展生成的数据。那么，如何收集这些数据有什么帮助吗？另外，我想问的是，这是否可能？

浏览 12提问于2020-08-15得票数 0

2回答

有没有办法从另一个网页上的HTML表格中提取数据？

我很好奇，是否有一种方法可以让计算机读取这些数据，并将其输入到计算机程序中，这样你就可以使用这些数据。例如，如果我可以访问ESPN的网站，查看联赛排名并将记录发送到我的代码，我想这是可能的。我知道有些网站有你可以使用的API，但我会使用它的网站没有…

浏览 1提问于2016-07-07得票数 0

2回答

抓取使用javascript注入html的网站

、

我试图用Node.JS抓取一个网站，但当抓取html文件时，出现的东西是注入JavaScript的脚本标签，在查看有问题的JavaScript文件时，我似乎是正确的，因为我发现了我试图抓取的文本。在这个脚本被注入到html之后，我如何抓取文档？有什么办法吗？谢谢

浏览 22提问于2020-11-04得票数 0

回答已采纳

5回答

如何从其他网站获取数据？

、、、

我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

2回答

python中的网络多线程

、、、

我正在用Python编写一个脚本，它将从我的web服务器上抓取一些页面，并将它们放入一个文件中。我使用mechanize.Browser()模块来完成这个特定的任务。

浏览 0提问于2011-10-20得票数 2

1回答

基于Javascript的网页抓取登录

、、、

我正在尝试为sbrodds.com编写一个抓取引擎。不幸的是，我需要登录才能获得正确的数据。我研究了机械化和selenium，但遗憾的是，我在python和web抓取方面做得很差，并且不了解如何使用它们。以下是登录框的Chrome inspect elements页面的屏幕截图：有人可以提供建议，我应该使用什么技术来执行登录到这个网站内部的Python代码？最终的目标是将登录页面的数据加载到BeautifulSoup中。

浏览 3提问于2015-12-10得票数 1

1回答

在网络抓取morningstar时获取空列表

、

totalAssets = tree.xpath('//*[@id="gr_total_asset_wrap"]/span/span/text()')根据和的说法，这是由于页面内容是分阶段下载的第一个链接的答案建议使用selenium和chromedriver，但考虑到我对抓取的数据量感兴趣，这是不切实际的。对第二个问题的回答表明，可能有一种方法可以用进一步的请求加载内容，但它没有解释如何制定这些请求。那

浏览 12提问于2019-07-10得票数 0

回答已采纳

1回答

Python到PHP异步数据传输

、、

抓取部分将在python中编码，结果将在PHP中显示。结果应该在PHP中异步显示，而python正在抓取页面。在这两种语言之间异步交换数据的首选方法是什么？谢谢!

浏览 3提问于2017-05-04得票数 1

回答已采纳

2回答

BeautifulSoup web抓取，无结果

、、

我在试着从https://hk.appledaily.com/search/apple..。我需要从div class="flex-feature"但它只返回[]..。希望大家能帮忙，谢谢！ from bs4 import BeautifulSoup results = soup.find_all(

浏览 40提问于2020-10-06得票数 2

回答已采纳

1回答

使用python从同一网页中的多个链接中提取数据

、、、

我是蟒蛇和网络抓取的新手。我试图从这个链接中提取关于临床诊断测试的测试成分的信息。单击每个名称将带您到另一个页面，其中包含有关单个测试组件的详细信息。我想从这一页中提取出有共同问题的部分。

浏览 1提问于2018-01-19得票数 0

2回答

尝试将数据从网站加载到json文件中。

、、

我试图将数据从一个网站加载到一个json文件中。但是，当我尝试将所有代码加载到json文件中时，它将显示一些错误消息。err.value“，s，err.value)到None json.decoder.JSONDecodeError: err.value:第1列(char 0)”程序完成“★★ 我只想在json文件中加载数据

浏览 2提问于2020-05-10得票数 0

1回答