Python -使用BeautifulSoup抓取创建数据帧的for循环问题

文章/答案/技术大牛

发布

1回答

、、

我是Python的初学者，我正在尝试使用BeautifulSoup创建一个新的数据框架来抓取网页。我正在遵循一些代码，这些代码在不同的页面上可以工作，但在这里不能工作。我的最后一个数据表是空白的，所以看起来没有追加。任何帮助都是非常感谢的。这就是我所做的： from bs4 import BeautifulSoup import

浏览 49提问于2020-04-21得票数 0

1回答

在函数编译列表后，是否可以将列标题行添加到函数内的列表列表中？

、、、

我有一个函数，它(1)从一个URL列表中抓取数据，每个URL都包含表数据。它使用BeautifulSoup抓取html文本，以收集包含列标题和表行的单独列表。然后，它(2)遍历表行list以创建列表列表。最后，(3)我将call函数放在一个for循环中，该循环遍历URL列表。我遇到的问题是，我不知道如何将列标题插入到数据中，这样列标题就会出现在最终的</e

浏览 4提问于2017-08-25得票数 0

1回答

如何将多个表解析为一个数据帧？

、、

我用了漂亮的汤美容剂，得到了这个： <table cellpadding="0" cellspacing="<tr>所以有很多以div class="var_building_result“开头的小表，我能把所有这些表放到一个<em

浏览 12提问于2019-11-26得票数 1

回答已采纳

2回答

从多个页面中抓取天气数据

、、、

我是python的新手下面是我最初尝试使用Beautifulso

浏览 9提问于2019-11-27得票数 0

1回答

使用漂亮汤的数据格式的问题

、、、

我使用漂亮的汤抓取数据创建了一个数据文件。然而，有两个问题。 from bs4 import BeautifulSoupimport requests root = request

浏览 2提问于2020-09-26得票数 1

回答已采纳

0回答

Python BeautifulSoup找不到表ID

、、

我在使用BeautifulSoup抓取表时遇到了一些问题。以下是我的代码from bs4 import BeautifulSoup page = urlopen(site) soup =

浏览 4提问于2017-06-08得票数 1

回答已采纳

1回答

使用Pandas/BeautifulSoup的请求出错: requests.exceptions.TooManyRedirects:超过30个重定向

、、、、

我正在使用Python3抓取从csv文件创建的Pandas数据框，该文件包含63,067个网页的源URL。for循环应该是从项目中抓取新闻文章，并将其放入巨大的文本文件中，以便稍后进行清理。我对Python有点生疏，这个项目是我再次开始用它编程的原因。我以前没有使用过BeautifulSoup，所以我遇到了一些困难，我只是用Beautif

浏览 2提问于2018-01-23得票数 0

2回答

用漂亮汤提取数据时Python* for循环中的语法错误*

、、

我是一个Java程序员，刚开始使用python语言，我知道这个问题很愚蠢。我通常使用Jsoup(java)获取web抓取数据，但为了改变，我想尝试一下漂亮的汤(Python)，但最后我遇到了一个男生错误。请帮帮我。from bs4 import BeautifulSoup r=requests.get("http:/&#

浏览 4提问于2014-03-26得票数 2

回答已采纳

1回答

硕士研究生项目未研究数据的数据挖掘

、、、、

因此，我必须开始思考我在数据科学硕士学位(面向商业，尽管我可以选择任何不相关的领域)的最后项目的主题，其中一个要求是挖掘和使用尚未在学术研究环境中进行分析的数据。我倾向于避免典型的从twitter或其他常见的信息资源中刮取数据。如果您能给我一些关于如何找到一个可访问的数据源的想法或指导，我将非常感激，这也不需要太多的时间来获取信息。非常感谢你的

浏览 0提问于2022-06-17得票数 0

回答已采纳

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。我已经写了下面的代码，但循环不会重复从原始网页的链接中获得新的<

浏览 7提问于2019-08-16得票数 1

回答已采纳

1回答

如何使用BeautifulSoup清除隐藏的数据元素

、

Level2StockQuotes.com提供了免费的实时顶级引用，我想用BeautifulSoup用python捕获这些引用。问题是，即使我可以在浏览器检查器中看到实际的数据值，我也不能将这些值抓取到python中。 BeautifulSoup返回每个数据元素为空的所有数据行。Pandas为每个数据元素返回一个带有NaN的数据

浏览 0提问于2019-08-13得票数 0

1回答

当我抓取一个循环而不是直接访问它时，这个网页是如何阻止我的？

、

我正在试着抓取一组网页。当我直接从一个网页上抓取时，我就能够访问html了。但是，当我迭代pd数据帧来抓取一组网页时，即使是只有一行的数据帧，我也会看到一个截断的html，并且无法提取我想要的数据。迭代通过1行的数据帧： import pandas as pdfrom bs4

浏览 8提问于2019-03-20得票数 0

回答已采纳

1回答

如何从python抓取的URL列表中抓取数据？

、、、

我正在尝试使用Orange中的BeautifulSoup4从同一网站抓取的URL列表中抓取数据。当我手动设置URL时，我已经成功地从单个页面中抓取了数据。soup.find("table", class_="table-standings-body") print(url,child) 并且我已经能够抓取我需要<

浏览 21提问于2021-07-23得票数 1

回答已采纳

5回答

如何从其他网站获取数据？

、、、

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

2回答

关于从维基百科上抓取项目符号信息的问题

、、、、

希望这里的问题相当简单。我正在尝试从维基百科页面中抓取数据，最终使用Python (Page here)将其放入数据帧中。具体地说，我试图将邻居列表(不是放在表中，而是放在页面上的项目符号中)放入一个空的数据帧中。我正在使用BeautifulSoup，可以找到我想要的维基百科页面的一部分，但不能只获取邻里的名称

浏览 10提问于2021-01-16得票数 0

1回答

Web抓取数据，然后在数据帧上显示和更新数据

、、

我正在尝试创建一个数据帧，它可以显示和更新数据帧上的数据。我发现这个方法创建一个循环并输出数据，它看起来像这样： from bs4 import BeautifulSoupimport pandas as pd url = 'https://finance.yahoo.com/

浏览 9提问于2021-04-02得票数 0

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

我不能使用for循环和BeautifulSoup从多个URL抓取表数据

、

我正在尝试从几个URL抓取表数据。我正在寻找的表是特定的，当我在BeautifulSoup中使用.find_all时，我已经为它建立了索引。例如，当我在一个URL上执行脚本时，它工作得很好，并返回我正在查找的表。当我使用for循环从多个URL中抓取表并将它们附加到一个数据帧中时，问题就出现了。k=0 re

浏览 1提问于2018-11-28得票数 0

2回答

如何根据从网站上刮来的数据创建数据？

、、、、

我试图从招聘公告数据中抓取网站，输出如下所示：现在，这是我使用的循环： source = requests.get('httpsq=data+sc

浏览 0提问于2019-04-04得票数 1

回答已采纳

1回答

Python BeautifulSoup web抓取中的For循环问题

、、、

我是Python的初学者&正在尝试学习一个BeautifulSoup网络抓取项目。我要抓取记录项目的标题，网址的项目和购买日期从this网址和出口到CSV。我在抓取标题和网址方面取得了很大的进步，但就是不知道如何在我的for循环中正确地编码购买日期信息(下面的purchase_date变量)。当前的情况是，csv文件中购买日期的数据(例如p_date标题

浏览 18提问于2020-09-21得票数 1

点击加载更多