调整python (漂亮的汤)代码以抓取多个页面_用python和漂亮的汤从网站上抓取代码_在我的抓取代码中将信息从输出中分离出来(漂亮的汤+ python) - 腾讯云开发者社区

、、

非常感谢您的支持，我正在使用Python BeautifulSoup：我只需要在多个页面上运行这段代码(也就是在第1页到1290页上抓取相同的数据)。我是新手，我可以想象它不是那么复杂，因为URL是非常直接的页码 from bs4 import BeautifulSoup as soup from urllib.request import urlopen

浏览 29提问于2020-07-28得票数 0

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： r = requests.get(url) links= soup.find_all("a", {"class":&qu

浏览 0提问于2017-05-29得票数 2

1回答

用精美的汤从HTML中抓取表格

、、、

我正在尝试用python3从中抓取数据。该网站包含了基于冠军的FPS多人游戏“圣骑士”的玩家数据。我想要得到一个基于冠军的球员的统计数据，如网站所示。我面临的问题是，当我用Chrome检查页面源代码时，我得到了包含"table“标签的代码，它是干净的，我可以很容易地抓取它：但是当我创建soup对象时，我得到了一个不

浏览 2提问于2018-06-26得票数 0

1回答

为什么通过漂亮汤导入的html与实际的html不同？

、

嗨，我正在制作一个程序，它在堆栈溢出中为搜索词抓取结果。我需要知道抓取的最大页面，但是通过开发工具查看的html结构和通过漂亮汤获得的html信息是不同的。网址： result = requests.ge

浏览 1提问于2020-08-30得票数 1

3回答

如何使用Beautiful从python代码中获得javascript函数的结果？

、、、、

我想从一个使用Python中的“美丽汤”的网站上抓取数据。网站根据用户的选择更改下拉菜单的值。在更改下拉菜单的值时没有api调用。仔细看一下，我注意到有一个javascript函数在内部调用，以获取下拉菜单的值。我的问题是下拉菜单的值不在页面源中。它们是通过调用js函数获得的，但是没有api调用，我不能请求那个值。有人能告诉我如何从pyt

浏览 7提问于2014-04-06得票数 1

回答已采纳

1回答

使用Python使用Javascript实现Web抓取页面

、、、

我正在尝试使用Python抓取一个urls列表的网页。我可以使用Python和漂亮的汤来抓取第一个页面，但是如果url列表很长，它会使用下面的JavaScript继续到第二个页面。

浏览 0提问于2013-12-05得票数 0

1回答

使用python的Webscraping元素

、、、、

我目前正在使用漂亮的汤尝试和网络刮一个网站的数据，但是python模块正在阅读该页面的源代码。但是，在页面的源代码中，我所需要的信息并不存在，但是，如果我在chrome中右键单击页面并检查元素，它就是。我想知道python模块是否可以从网页中抓取元素，而不是源代码。在“美丽的汤”中，我试图搜索像这样的

浏览 2提问于2020-08-28得票数 0

回答已采纳

2回答

有没有像KimonoLabs这样的刮板应用程序？

我已经用过很多次刮刮汤和漂亮的汤，但是找到和服解决方案要容易得多，也更快。唯一的问题是，有时作业确实需要一些调整，这是不可能的(例如，使用独特的模式爬行)。有没有其他的解决方案可以结合易用性和可选的复杂性？主要是我想定义一个页面抓取模板使用WYSIWYG接口，然后以编程方式编写爬虫。

浏览 0提问于2014-10-06得票数 0

1回答

有没有人可以指导我如何使用python收集标签中的url地址列表？

、、、、

“的列表，并希望将它们存储在csv文件中。我可以手动做，如使用excel，从感兴趣的网站复制urls，并逐个粘贴它们。但这是单调乏味的，而且肯定会花费很多时间。有没有人能建议和指导一种更快的方法？

浏览 15提问于2020-07-23得票数 2

1回答

返回RSS的所有页面

、、

我正在使用python从rss页面抓取xml。我正在使用漂亮的汤来解析xml。每个URL的数据使用urllib2下载并保存在变量xml中然后，我的python代码使用漂亮</e

浏览 0提问于2014-12-04得票数 0

1回答

具有动态href的BeautifulSoup

、、

尝试python3.4漂亮汤从网页抓取一个压缩文件，这样我就可以解压缩并下载到文件夹中。我可以让漂亮的汤打印()页面上的所有href，但我想要一个特定的href，以结尾，"=Hospital_Revised_Flatfiles.zip“。这有可能吗？到目前为止，我只有网址上的href列表。文件的全部内容是，但是中间的疯狂内容在更新文件

浏览 3提问于2016-03-22得票数 0

回答已采纳

1回答

使用BeautifulSoup抓取的数据与源代码不匹配

、、、

我是网络抓取的新手。我已经看过一些关于如何使用漂亮的汤来抓取网站的教程。作为练习，我想从一个房地产网站上提取数据。我想要抓取的特定页面是这个：我遇到的第一个问题是，使用经典的</e

浏览 4提问于2021-05-02得票数 1

3回答

无法从网站获取数据，因为URL在获取数据时不会更改，因此数据表为空

、、、

我刚刚开始使用python进行网络抓取。我使用了两个库来抓取:请求和漂亮的汤。我打开给定的URL，并在该页面上传递所需数据的日期间隔。当我按submit时，URL不会改变，但是数据在页面上。然后我就可以访问那个页面了。")all = soup.find_all("table"

浏览 3提问于2017-02-20得票数 1

回答已采纳

2回答

从特定页面抓取某些URL

、、

我正在尝试从一个页面中抓取所有的URLS，这些URLS都与一个主题相关。urls = soup.find_all('a', href=True)我想要抓取所有玩家的名字以及他们的参考代码，例如 <a href="/pl

浏览 0提问于2020-08-12得票数 0

5回答

最近，我发现了一个用于连接到新R包 API的LinkedIn。不幸的是，从一开始，LinkedIn API似乎是非常有限的；例如，您只能获得公司的基本数据，这与个人的数据是不同的。我想获取某一公司所有员工的数据，您可以使用在现场手动操作，但是通过API是不可能的。如果import.io是识别LinkedIn分页，那么它将是完美的(参见页面末尾)。是否有人知道适用于LinkedIn站点当前格式的任何web抓取

浏览 0提问于2015-05-13得票数 11

回答已采纳

2回答

用硒美汤寻找元素

、、、

一般来说，我对网络抓取和数据科学是个新手。根据不同的消息来源，美丽的汤比硒更快的抓取网页。我正在写一些在社交媒体评论中爬行的代码。我使用Selenium自动单击检索旧注释的按钮，并使用以下命令从注释中获取文本我知道feature没有允许我直接输入xpath来查找元素的特性在这种情况下，我是否应该摆脱对xpath的依赖，并尝试更轻松地使用

浏览 18提问于2019-07-24得票数 0

回答已采纳

1回答

机械地打开多个页面

、、、

我正在使用机械化和漂亮的汤来创建一个python脚本来从网页中提取一些数据。抓取工作正常，但我遇到的问题是移动到多个页面。在机械循环中，有没有办法在页面之间移动？以下是我尝试过的方法但它会转到下一页，这很好，但如果“下一步”按钮不存在，它就会死掉。我不确定如何做一个更好的循环，或者在运行上面的fo

浏览 4提问于2011-03-04得票数 2

回答已采纳

1回答

抓取url不变的分页表

、、、

我正在尝试从下面的网页中抓取表格中的：有没有人能带我到正确的</em

浏览 26提问于2021-05-25得票数 1

1回答

利用漂亮汤刮网时的颜色编码

、、

我正在使用Python中的漂亮汤来做web 抓取。网站上的文字有红色字体颜色的名字，我需要有颜色代码。我正在使用网站上的文本作为我的培训数据的纳(仅为正确的名称)。我怎么才能用漂亮汤得到颜色码呢？现在我的代码看起来是这样的。

浏览 2提问于2021-08-07得票数 1

回答已采纳

2回答

urllib.request + BeautifulSoup不能刮某些页面，而只能刮根页

、、、、

我在从url 中抓取信息时遇到了问题，但是由于网站处理事情的方式，BeautifulSoup只是从根页面收集数据，也就是。<main class="site-content" id="content"> <div class="loading-spinner" data-request="eps

浏览 0提问于2017-01-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云