使用python、BeautifulSoup和pandas 'read_html‘进行web抓取的问题

文章/答案/技术大牛

发布

1回答

、、

谢谢你的帮助！import pandas as pdfrom bs4 import BeautifulSoup page = BeautifulSo

浏览 40提问于2020-05-29得票数 1

回答已采纳

2回答

Python/Pandas -跨多个页面抓取网页搜索结果

、、、

我正在和一位朋友合作，尝试将几个网页的结果放入一个数据帧(，其中的页数会增加)。我以前没有做过太多的网络抓取工作，也尝试过使用Pandas read_html和BeautifulSoup，但我找不到从哪里开始的问题。理想情况下，我们希望将所有5000+结果放到一个CSV中，显示标题、发布日期、里程、年份、抄送和位置。使用Pandas</

浏览 0提问于2017-11-22得票数 0

2回答

为什么来自Python* Pandas的*Read_HTML不能工作？

、、、

我想使用Python Pandas Read_HTML()函数从雅虎金融表中抓取信息，如截图所示，以红色边框显示。 ? 但是，我收到了一个HTTPError: HTTP错误404:未找到下面是我的代码输出： !pip install pandas!pip install plotly from bs4 import BeautifulSoup</em

浏览 54提问于2021-07-05得票数 1

回答已采纳

1回答

使用Python抓取多个wikitables

、、

我是Python的初学者。我有一个任务，从维基百科页面刮信息表。我想使用下面的代码来抓取： from pandas.io.html import read_htmlprint("Extracted {num} wikitables".format(num=len(wikitables))) wikitables[0] 但是

浏览 24提问于2020-08-13得票数 2

回答已采纳

1回答

Pandas read_html函数缺少专业足球引用中的一些表

、、、

我正试图从Python的特定网页中读取很多表，而且还在挣扎。我的第一次尝试是使用Pandas read_html，因为它很简单；例如，我将使用这个网站： import pandas as pd url = 'https我进一步了解了这一步，并试图进一步检查原始HTML中存在但未被找到的一个表；在本例中，我将使用"team_stats

浏览 3提问于2020-12-07得票数 1

回答已采纳

2回答

我怎么才能在朱莉娅身上刮网呢？

、

我想从中提取大学及其网站的名字。在Python中，我使用了BeautifulSoup v4：from bs4 import BeautifulSoup pagerequests.get('https://thebestschools.org/features/best-computer-science-programs-in-the-world/

浏览 2提问于2020-01-20得票数 15

回答已采纳

1回答

用Laravel和Selenium进行Web抓取

、、、

我目前正在使用Python进行web抓取。我使用了Selenium和Beautifulsoup库来抓取。我最近知道Selenium适用于php/Laravel。我的问题是，我可以使用Laravel + Selenium web驱动程序抓取web吗？如果是，你能给我提供一些链接或存储库，以便我学习吗？我被迫在我的

浏览 19提问于2019-11-19得票数 0

4回答

使用实时Python数据更新Excel电子表格

、、、

我是Python的新手，我的主要目标是学习这门语言，使一些过程自动化，并用实时数据更新/填充excel电子表格。有没有办法(例如通过openpyxl)用python包(如pandas或通过BeautifulSoup进行web抓取)提取的数据来更新特定的单元？我已经有了必要的代码来提取我的Python项目所需的数据系列，

浏览 11提问于2019-08-09得票数 1

1回答

Selenium下载完整的html页面

、

我正在学习使用Python Selenium和BeautifulSoup进行web抓取。目前，我正在尝试抓取谷歌搜索趋势上的热门搜索from bs4 import BeautifulS

浏览 1提问于2013-05-17得票数 15

1回答

解析python中的html值

、、

:0px;border:0px;background-color:#f3f3f3" type="submit" value="▾"/> </td> 我需要从value="25“和value<=value=")(\d*)',str(y)) 但我认为应该有更直接的方法来通过解析器来做这件事，有人能帮上忙吗？

浏览 20提问于2020-12-15得票数 4

回答已采纳

3回答

为什么只读取网页中的前两行html表？

、、、

我试图从网页上的html表中抓取数据。我尝试了几种基于这里发布的答案的不同方法，但总是有一个问题:结果大致与我所期望的一样，但只适用于表的前两行。我对html和漂亮的汤几乎没有经验，但是从url中的表的html文件中，我看不到前两行和表的其余部分之间有什么区别。有人能帮我找出我做错了什么吗？import numpy import pandas a

浏览 5提问于2020-12-14得票数 0

回答已采纳

1回答

当我使用selenium时，我得到"StaleElementReferenceException: stale element reference: element is not attached to

、、

我正在尝试使用selenium从下面的网站抓取表格：from selenium import webdriver as wdfrom selenium.webdriver.support import expected_conditions as ECfrom pandas.io.html import <e

浏览 1提问于2021-01-29得票数 1

2回答

使用BeautifulSoup与XPath进行Python* Web抓取的优缺点*

、、、

我最近一直在学习在Python语言中使用BeautifulSoup进行web抓取，但今天早些时候有人建议我考虑使用XPath表达式。 XPath和BeautifulSoup的工作方式有何不同？

浏览 5提问于2015-10-03得票数 4

1回答

从read_html表格制作数据框时，可以在pandas* html中保留换行符吗？*

、、、

我正在尝试使用pandas read_html将抓取的HTML表转换为python中的dataframe。问题是read_html带来了一列没有分隔符的数据，这使得这些单元格的内容很难解析。在原始的HTML中，列中的每个“单词”都用一个分隔符分隔。在转换为数据帧时，有没有办法保持这种格式，或者保持“单词”的分隔？import requests f

浏览 64提问于2021-07-15得票数 0

回答已采纳

1回答

如何从URL中提取数据？

、、

我有一个xlsx文件，其中许多URL与它们的串行ids一起存储。这些URL中的每一个都重定向到有文章的网页。我的问题是如何使用python扫描所有URL，并将文章的标题和文本存储在一个新的文本文件中，并以URL串行id作为其文件名？

浏览 1提问于2022-05-24得票数 0

1回答

用python读取复杂的html表

、、、

我试过使用熊猫read_html，我试过使用请求和bs4。我想像我们看到的那样抓取整个表，但是在html代码中，表被分成了3个块。不过，我还没有弄清楚如何把每一个都钉下来。下面是一个起始代码：import pandas as pd url = 'http://www2.bmf.com.brlum-sistema-pregao-enUS.asp&#

浏览 1提问于2018-08-28得票数 1

回答已采纳

1回答

我怎样才能让下面的python代码输出worldmaps.info (这个问题似乎已经回答了，但对我来说不起作用)

、、

我正在尝试从worldometer.info抓取值(类似于post Python: No tables found matching pattern '.+')，我使用的代码如下： import pandas"/usr/local/lib64/python3.6/site-packages/pandas/io/html.py", line 1101,

浏览 18提问于2020-10-15得票数 2

回答已采纳

5回答

如何从其他网站获取数据？

、、、

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

1回答

无法从web表中刮取新冠肺炎数据

、

我正在用Python研究新冠肺炎在科索沃的传播。问题是，从表上的web抓取中得到的结果是空的。网络是表，我需要它的记录：我使用了许多方法提取记录，但没有成功，使用的最新代码仅用于标题：import pandas as pd link = &

浏览 2提问于2021-03-18得票数 1

回答已采纳

1回答

UnicodeDecodeError试图读取Python中的“google.com”中的数据

、、、、

我开始了解从网站上读取数据的方法。UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe0 in position 279: invalid continuation byteimport urllib.request, urllib.parse, urllib.error fhand=urllib.request.urlopen('https

浏览 12提问于2022-03-08得票数 0

回答已采纳

点击加载更多