用漂亮的汤从网站上刮下表格，最后出错

从网站上抓取表格数据是一项常见的任务，可以通过爬虫技术实现。以下是一个完善且全面的答案：

表格数据抓取是指从网站上获取表格中的数据。这项任务在数据采集和数据分析中非常常见，可以帮助用户快速获取所需的数据，并进行后续的处理和分析。

表格数据抓取的步骤通常包括以下几个方面：

网页解析：首先需要使用网络爬虫技术获取网页的HTML源代码，并对其进行解析。常用的解析库包括BeautifulSoup、Scrapy等。通过解析HTML源代码，可以定位到表格所在的位置。
定位表格：在解析HTML源代码后，需要通过CSS选择器或XPath等方式定位到目标表格。这可以通过查看网页源代码和使用开发者工具来确定。
提取数据：一旦定位到表格，就可以使用相应的库和方法提取表格中的数据。常用的库包括Pandas、Numpy等。这些库提供了丰富的数据处理和分析功能，可以方便地对表格数据进行处理。
数据清洗：在提取表格数据后，可能需要进行一些数据清洗的操作。例如，去除空值、处理异常值、格式转换等。这可以使用Python的数据处理库来完成。
存储数据：最后，可以将提取的表格数据存储到数据库或文件中，以便后续使用。常用的数据库包括MySQL、MongoDB等，常用的文件格式包括CSV、Excel等。

对于表格数据抓取，腾讯云提供了一系列相关产品和服务，可以帮助用户实现高效、稳定的数据抓取任务。以下是一些推荐的腾讯云产品和产品介绍链接地址：

腾讯云爬虫托管服务：提供了一站式的爬虫托管服务，用户可以通过简单的配置即可实现数据抓取任务。了解更多信息，请访问：腾讯云爬虫托管服务
腾讯云数据库：提供了多种数据库产品，包括云数据库MySQL、云数据库MongoDB等，可以方便地存储和管理抓取到的数据。了解更多信息，请访问：腾讯云数据库
腾讯云对象存储（COS）：提供了高可靠、低成本的对象存储服务，可以用于存储抓取到的文件和数据。了解更多信息，请访问：腾讯云对象存储（COS）

需要注意的是，表格数据抓取涉及到网站的数据安全和合规性问题，用户在进行相关操作时应遵守相关法律法规和网站的使用规定，确保合法合规。

如何使用优美汤在python中刮下下一页

、、、、

假设我在刮一个url http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-India?sort_filter=alpha 它不包含包含我想要抓取的数据的页面。那么，我如何才能刮下所有下一页的数据。我用的是python3.5.1和优美汤。注意:我不能使用scrapy和lxml，因为它给了我一些安装错误。

浏览 3提问于2016-03-15得票数 1

回答已采纳

3回答

如何使用Beautiful从python代码中获得javascript函数的结果？

、、、、

我想从一个使用Python中的“美丽汤”的网站上抓取数据。网站根据用户的选择更改下拉菜单的值。在更改下拉菜单的值时没有api调用。仔细看一下，我注意到有一个javascript函数在内部调用，以获取下拉菜单的值。我的问题是下拉菜单的值不在页面源中。它们是通过调用js函数获得的，但是没有api调用，我不能请求那个值。有人能告诉我如何从python代码中调用javascript函数吗？我在用漂亮汤刮网。谢谢

浏览 7提问于2014-04-06得票数 1

回答已采纳

1回答

使用BeautifulSoup刮取维基百科表

、、

我想从下面的维基百科链接上刮下题为“化学元素列表”的表格，然后用熊猫来展示它。我是新来的漂亮汤，这是我目前拥有的。 from bs4 import BeautifulSoup import requests as r import pandas as pd response = r.get('https://en.wikipedia.org/wiki/List_of_chemical_elements') wiki_text = response.text soup = BeautifulSoup(wiki_text, 'html.parser')

浏览 4提问于2021-11-12得票数 1

回答已采纳

1回答

如何将下面的[10]中的这两列转换为dataframe/table，以便能够导出到csv文件

、、、

enter image description here 嗨，我是Python的新手，我计划创建一个最终的可导出表格，将这些评论从网站上刮下来，看看最常用的单词。因此，我设法得到了这两列，但不知道如何继续，我可以直接将其导出到excel中的表格中，还是必须将其转换为数据帧，然后再导出到CSV？这样运行所需的代码是什么？非常感谢你的帮助！！

浏览 16提问于2019-10-16得票数 0

1回答

无法从网格格式的网站获取表数据

、、

我正在尝试从中提取数据。我通常用美丽的汤或熊猫来提取表格数据。但是网站上的表格似乎不是用表格类制作的。例如，计算出的物理化学特性表是用“挠曲生长收缩p3px-5”制作的。如何从表中提取数据(特别是计算物理化学属性表和SMILES值)？我尝试了以下代码，但我得到了几乎整个网站的文本：'soup.find("div")‘。我通常使用pandas.read_table(link)

浏览 2提问于2022-11-24得票数 -2

回答已采纳

1回答

用漂亮的汤刮图像

、

我正在试着用漂亮的汤从一篇文章中刮下图片。它似乎可以工作，但我不能打开图像。每次我尝试从我的桌面访问图像时，都会收到一个文件格式错误。有什么见解吗？ timestamp = time.asctime() # Parse HTML of article, aka making soup soup = BeautifulSoup(urllib2.urlopen(url).read()) # Create a new file to write content to txt = open('%s.jpg' % timestamp, "wb") # Scrape

浏览 0提问于2014-03-28得票数 0

回答已采纳

1回答

如何使用google translator API翻译抓取的文本

、

我用jupyter notebook中的漂亮汤从古腾堡项目中刮下了一本书，想把它翻译成另一种语言。然而，在这样做时遇到了困难。非常感谢您的帮助/建议；到目前为止，我的代码是below.The转换代码不起作用，并返回以下错误"WriteError: Errno 32 Broken“ #Store url url = 'https://www.gutenberg.org/files/514/514-h/514-h.htm' html = r.text print(html) #Create a BeautifulSoup object from the HTML sou

浏览 5提问于2021-05-13得票数 0

2回答

用硒美汤寻找元素

、、、

一般来说，我对网络抓取和数据科学是个新手。根据不同的消息来源，美丽的汤比硒更快的抓取网页。我正在写一些在社交媒体评论中爬行的代码。我使用Selenium自动单击检索旧注释的按钮，并使用以下命令从注释中获取文本 driver.find_element_by_xpath() 我知道feature没有允许我直接输入xpath来查找元素的特性。在这种情况下，我是否应该摆脱对xpath的依赖，并尝试更轻松地使用可以由漂亮的汤使用的选择器呢？我的代码现在感觉非常笨重，需要几分钟的时间，尽管我只处理了大约120条评论。如果之前有人问过这个问题，我很抱歉；我在网站上找不到它。谢谢!

浏览 18提问于2019-07-24得票数 0

回答已采纳

1回答

尝试使用Python和Selenium迭代地滚动和刮网页

、、、

最近，我问了一个问题(在这里引用：)，它帮助我识别了我在抓取一个页面的所有内容时遇到的一个问题，当一个滚动时页面会动态更新。但是，我仍然无法使用selenium来使代码指向正确的元素，并迭代地向下滚动页面。我还发现，当我手动向下滚动页面时，当新内容更新时，当加载的页面消失时，一些原始内容就会消失。例如，看下面的图片..。我已经用我试图在下面抓取的数据(蓝色高亮显示)将容器作为目标。首先，我很难选择正确的元素向下滚动页面，因为我从来没有这样做过。我相信我必须使用selenium来锁定容器，然后使用"execute_script“函数向下滚动页面，因为这个表被嵌入到web页面的正

浏览 4提问于2016-01-15得票数 3

1回答

如何在用python抓取网站时将<br>标记转换为逗号/新列？

、、

我在试着刮下下面的网站。通过使用下面的代码，我可以从其中获取所需的所有数据。然而， 'br‘标签给我带来了问题。我希望将它们作为数据框架中新列的指示符。以下是网站：我尝试了BeautifulSoup，得到了无效的标签。效果不太好。我的想法是删除除'br‘以外的所有标签，然后返回并用逗号替换它们。有太多的其他废话被添加，而不仅仅是纯文本。代码： url = 'http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?state=AL&sFullName=

浏览 0提问于2019-06-05得票数 1

回答已采纳

1回答

提交触发器的每个部分

、

我有一系列连续清理数据的数据库触发器。数据是从金融网站上刮下来的，然后通过批量插入插入。然后，它运行几个临时表，并最终进入我们的“干净数据”表中。如果一行抓取的数据格式良好，那么它会顺着管道继续下去，没有任何问题。如果某一行进入具有NULL值的"clean data“表，那么由于NOT NULL约束，它将被正确地拒绝，但是整个事务，甚至原始的bulk insert，将被回滚。如何“提交”事务的每一步，并将失败的填充写入错误表？我尝试将最后一个插入到干净的表中放到一个try catch中，但这没有帮助。

浏览 4提问于2018-02-24得票数 0

1回答

用美丽汤抓取动态网站的问题

、、、

我想从网站上抓取犯罪新闻文章，但汤对象不返回所需的div标签，有人能给我原因吗？ import requests from bs4 import BeautifulSoup page = requests.get("https://www.nst.com.my/news/crime-courts?page=1") soup = BeautifulSoup(page.text, 'html.parser') print(soup)

浏览 1提问于2021-12-29得票数 0

1回答

使用Python的Webscrape容器

、、、

我正在尝试从这个网页上的容器中抓取内容：我通常使用漂亮的汤进行网络抓取，但在这种情况下，我发现它并不适用于这个网站。当我运行我的“汤”时，我只得到网站架构的细节，而不是网站上可用的容器中的内容。 page_link = 'check24.de/handytarife/vergleich?activeForm=sim' page_response = requests.get(page_link, timeout=5, verify=False, headers={'User-Agent': 'Mozilla/5.0'}) soup = Be

浏览 1提问于2018-10-31得票数 1

回答已采纳

1回答

问题:如何使用漂亮汤获取标记属性值的列表

、、、、

我想从当地一家电影院的网站上刮点东西，当某部电影在运行时，我会一直拍下去。我找到了一张表格，其中列出了如下形式的时间： [<time datetime="2020-01-31T21:15:00+01:00">21:15</time>]. 如果我用漂亮汤作为x.find_all(“时间”)。我得到了上面所示的所有时间。但我只想要“日期时间”，所以在本例中，2020-01-31T21: 15: 00 + 01: 00。现在当我搜索x.find_all(‘time’)‘日期时间’时，我得到以下错误： TypeError: list indices must

浏览 3提问于2020-01-30得票数 0

回答已采纳

1回答

如何获取Python Scrapy工具抓取的项目数？

、

我正在使用Python Scrapy工具从网站提取数据。我能够抓取数据。现在我想要从一个特定的网站上刮下来的项目的计数。我怎样才能得到抓取的项目数？在Scrapy中有内置的类吗？任何帮助都将不胜感激。谢谢..

浏览 0提问于2013-10-24得票数 1

2回答

使用python漂亮汤从oreilly媒体站点中提取图书名称

、、

我正在尝试从oreilly媒体网站上提取书名，使用python漂亮的汤。但是，我看到书名不在页面源html中。我正在使用这个链接查看书籍：附件是一个屏幕截图，显示的网页与前两本书与铬开发工具与箭头指向我想要提取的元素。我查看了页面源代码，但找不到书名--也许它们隐藏在主html中的其他链接中。我试图打开html中的一些链接，并搜索书名，但什么也找不到。是否可以使用美丽的汤从网站中提取第一或第二本书的名字？如果没有，还有其他的python包可以做到这一点吗？也许是硒？或者作为最后的手段.

浏览 10提问于2022-02-27得票数 0

回答已采纳

2回答

表单，多个选择将导致每个选择的子问题。

这类表格可以用谷歌表格制作吗？问题：第一页:用户从菜单中选中几个框。第二页:对于第一页的每一个选择-给出几个选项。例如，用户从第一页中选择1和3：首页：色拉-√ 汤-X 午餐-√ 第二页：色拉选项：绿色红色午餐选择：维格肉

浏览 0提问于2016-09-16得票数 0

1回答

我似乎不能用漂亮的汤从一个网站中提取出某个价值

、

from bs4 import BeautifulSoup as soup from urllib.request import urlopen as uReq page = uReq ("https://www.binance.com/en") data_1 = soup(page, 'html.parser') a = data_1.body.div.main.find("div", class_="sc-bdVaJa bfHstm").table.find_all("div", class_="

浏览 2提问于2019-11-17得票数 0

1回答

使用正则表达式从python中的html代码中提取文本

、

我有一大堆html代码，是从一个网站上用漂亮汤刮下来的。我想在python中使用正则表达式从html代码中提取url的一部分。下面是html的一部分： <link rel="stylesheet" type="text/css" href="/include/xbrlViewerStyle.css"> <style type="text/css">li.octave {border-top: 1px solid black;}</style> <!--[if lt IE 8]> &l

浏览 28提问于2018-12-12得票数 0

1回答

美汤:找不到期望值

、、、、

我正试着用漂亮汤从公司网站上解析出我的日程表。 (出于隐私考虑，不是我自己的)：我试着遍历不同的类，希望找到我的信息，但我做不到。 from bs4 import BeautifulSoup import requests source = requests.get('https://www.floydsbarbershop.com/leetsdale').text soup = BeautifulSoup(source,'lxml') match = soup.find_all('span',class_='name&#

浏览 2提问于2019-05-11得票数 0

1回答

如何在点击按钮后抓取数据

、、

我试着用漂亮的汤从网站上抓取数据，但要抓取所有内容，我必须点击按钮 <button class="show-more">view all 102 items</button> 加载每一项。我听说可以用selenium来完成，但这意味着我必须用脚本打开浏览器，然后抓取数据。有没有其他方法来解决这个问题。

浏览 16提问于2019-06-10得票数 0

1回答

如何为学院安装漂亮的汤？

我安装了蟒蛇，并能使用jupyter笔记本以及熊猫。但我只是通过一个教程来做这件事。我该如何安装漂亮的汤？我要把这个放在命令提示符中吗？在jupyter笔记本里？我要打什么？作为一个包装，我要进口什么？我完全迷路了，谢谢我得到的错误是：(C:\Users\skull\Anaconda3\lib\site-packages\bs4_init_.py)：ImportError:无法从“bs4”导入名称“漂亮汤”

浏览 0提问于2020-09-29得票数 1

回答已采纳

1回答

不要从汤中获取数据

、、

我用python创建了bs4网络抓取应用程序。我的程序返回空列表以供审阅。因为汤程序正常运行。 from bs4 import BeautifulSoup import requests import pandas as pd data = [] usernames = [] titles = [] comments = [] result = requests.get('https://www.kupujemprodajem.com/review.php?action=list') soup = BeautifulSoup(result.text, 'html.

浏览 7提问于2021-12-10得票数 -1

1回答

导入时出现Beautifulsoup错误

、

当我尝试导入漂亮的汤时，我得到了以下错误： Traceback (most recent call last): File "my_first_simple_script.py", line 2, in <module> from bs4 import BeautifulSoup ModuleNotFoundError: No module named 'bs4' 我尝试通过以下方式导入它:从bs4导入BeautifulSoup 我的python版本是3.6.1，并且漂亮的汤是：'beautifulsoup4==4.6.0‘ 我做

浏览 10提问于2017-06-19得票数 0

回答已采纳

1回答

无法导入安装了所有包的漂亮汤

、、

我也在我的笔记本电脑上安装了蟒蛇。所以它给了我这条信息 (C:\Users\jinfe\anaconda3\lib\site-packages\bs4_init_.py) ImportError:无法从“bs4”导入名称“美丽汤”

浏览 3提问于2022-02-08得票数 -1

1回答

python web抓取和excel填充

、、

我对编程比较陌生，对堆栈溢出也是完全陌生。我认为一个好的学习方法是使用一个基于python和excel的项目，但是我被卡住了。我的计划是用漂亮汤拼凑出一个地址网站，查找这些地址的zillow估值，并将它们填入excel表格中。我无法弄清楚如何获得地址(我试图抓取的网站上的html似乎相当混乱)，但我能够从该网站上拉出谷歌地址链接。抱歉，如果这是一个非常基本的问题，任何建议都会有所帮助： from bs4 import BeautifulSoup from urllib.request import Request, urlopen import re import pandas as

浏览 14提问于2019-01-16得票数 0

2回答

当抓取时隐藏在html源代码中的部分(python)

、、、

因此，我想从这个url：中刮取'Buy‘整数。但当我看了源代码，我无法达到这些价格。BeautifulSoup刮刀也没有。这是BeautifulSoup的输出： <div class="col-md-7" id="buy-price"> --- </div> 但是当我用铬“检查元素”时，我实际上可以看到这个价格： <div id="buy-price" class="col-md-7">29,990 gp</div> 为什么这部分代码是“隐藏”的？这仅仅是因为他们不

浏览 3提问于2015-07-03得票数 7

回答已采纳

1回答

漂亮的汤体标签损坏

、、

我想以表格的方式显示网页：的内容，但当我使用汤的时候，body标签似乎被每个字符之间的空格损坏了。我使用的源代码： from bs4 import BeautifulSoup import requests url="http://movie.webindia123.com/movie/showtimes/asp/search_result.asp?language=57&district_name=42&city_name=118" r = requests.get(url) soup = BeautifulSoup(r.text) print soup

浏览 3提问于2015-11-14得票数 0

1回答

雅虎幻想体育API往年统计

、、

因此，从雅虎的“幻想体育API”的特点来看，大多数收集数据的能力似乎是指可以在当前活跃的联盟或人们过去玩过的联赛中收集到的数据。 API是否有办法访问过去(比如说2013年)的硬数据，比如所有QB的传球码，或者所有跑马场的冲锋码，而不必签入联盟？或者我们需要自己把它从网站上刮下来？另外，雅虎是否发布了预测点数？

浏览 3提问于2015-06-23得票数 0

回答已采纳

1回答

有没有可能用漂亮的汤刮出一个“动态网页”？

、、、

我现在开始用漂亮的汤来抓取网站，我想我已经掌握了基本的知识，虽然我缺乏网页的理论知识，但我会尽我最大的努力来表达我的问题。我所说的动态网页是这样的:一个网站，它的HTML会根据用户的动作而改变，在我的例子中，它是可折叠的表格。我想获得一些"div“标签中的数据，但是当你加载页面时，数据在html代码中似乎是不可用的，当你点击表格时，它会展开，这个"div”的"class“从类似于"something blabla collapsible”变成了"something blabla collapsible active“，这是我可以用我的知识抓取的。我

浏览 1提问于2016-11-22得票数 4

1回答

无法摘取福布斯当天的名言

、、

我试着用蟒蛇+美丽汤从福布斯网站上摘取当天的名言。 import requests from bs4 import BeautifulSoup import urllib.request url = requests.get('http://www.forbes.com/quotes/1/') url = url.text soup = BeautifulSoup(url,'html.parser') print(soup.find('p',{'class' : 'ng-binding'})) 当我运行这段代码时

浏览 6提问于2016-06-30得票数 1

3回答

无法从网站获取数据，因为URL在获取数据时不会更改，因此数据表为空

、、、

我刚刚开始使用python进行网络抓取。我使用了两个库来抓取:请求和漂亮的汤。我打开给定的URL，并在该页面上传递所需数据的日期间隔。当我按submit时，URL不会改变，但是数据在页面上。然后我就可以访问那个页面了。我就是这样访问这个网站的： r = requests.get("https://....... ") c = r.content soup = BeautifulSoup(c, "html.parser") 如果我想获取数据，我使用以下代码从存储数据的网站获取数据： all = soup.find_all("table", {

浏览 3提问于2017-02-20得票数 1

回答已采纳

1回答

用漂亮的汤解析表中的行

、、

我试图解析这个html，并获得53.1和41.7的值。我不太确定该怎么做。我一直在试着用美汤如有任何建议或想法，我们将不胜感激。谢谢。

浏览 0提问于2017-07-13得票数 0

1回答

页面源HTML与漂亮的soup检索到的HTML不一致

、、、

我正在尝试从IMDB抓取电影信息。在大多数情况下，它是有效的，但对于一些电影，标题是不同的HTML检索美丽的汤，然后是火狐显示的源代码。例如，当在IMDB中搜索witch时，我会得到这个页面：所以我搜索电影，然后用下面这行代码得到电影的URL： page = urlopen(url) soup = BeautifulSoup(page, 'html.parser') movieLink = soup.find('a', text = movieTitle)['href'] imdbLink = 'http://www.imdb.com

浏览 1提问于2017-06-13得票数 2

1回答

无法从Python 3中的字符串中删除第一个字符

、、

我用“美丽汤”从网站上抓取数据。 # Get the price # productPrice = "¥249.00" productPrice = soup.find('span', class_='price').text # this line returns a string ¥249.00 currPrice = productPrice.lstrip("¥") # remove currency sign print(currPrice) print(type(currPrice)) 上面的代码没有删除第一个字符

浏览 3提问于2022-03-13得票数 -1

回答已采纳

3回答

用Python中的特定文本对HTML表进行Web抓取

、、、

我正在尝试使用python在web上刮取一个HTML表。HTML页面中有很多表，但是我只想刮一个特定的表。我正在用漂亮的汤做这个网刮。我的代码如下所示： page = get("http://uobgoldprice.com/history/2018/September/10/") html = BeautifulSoup(page.content, 'html.parser') for p in html.select('tr'): if p.text == "ARGOR CAST BAR": pri

浏览 0提问于2018-09-14得票数 3

回答已采纳

1回答

在美汤中使用NoneType函数时返回一个find值

、、

我正在使用美丽汤从网站上提取表格。find函数返回一个pandas值，而我不知道如何继续将所有表提取到NoneType DataFrames中。 import pandas as pd import datetime as dt import pandas_datareader as web import matplotlib.pyplot as plt from matplotlib import style import matplotlib.ticker as ticker from bs4 import BeautifulSoup import requests url='

浏览 17提问于2020-09-12得票数 0

回答已采纳

2回答

如何删除美汤中特定模式中的html标记

、、、

<p> A <span>die</span> is thrown \(x = {-b \pm <span>\sqrt</span> {b^2-4ac} \over 2a}\) twice. What is the probability of getting a sum 7 from both the throws? </p> 在上面的html中，我只需要删除“(标记)”中的标记，即\(x = {-b \pm <span>\sqrt</span> {b^2-4ac} \

浏览 5提问于2017-02-04得票数 2

回答已采纳

1回答

如何使用Python从网站下载多个excel工作表到Pandas DataFrame

、、、

我试图创建一个时间序列，从历史数据存储在一个网站上的Excel表格。该网站有按年份组织的Excel电子表格(即2009、2010、2011、.的财务期货头寸)。是否有一种方法可以同时提取所有相关文件以便在DataFrame中使用？我对python非常陌生，我的第一个想法是以Excel的形式手动下载每个文件，然后用Python将它们读入DF。试图为这个过程找到一个更优雅的解决方案。网站网址：该页有几组文件。我试图找到一种方法来选择特定的文件/文件组。目前，我正在搜索解决方案，包括使用“美丽汤”或其他类似的方法来分解网站HTML。

浏览 7提问于2019-09-19得票数 1

1回答

从一个使用美丽汤的网站上提取数字？

、、

以下python代码： from bs4 import BeautifulSoup div = '<div class="hm"><span class="xg1">查看:</span> 15660<span class="pipe">|</span><span class="xg1">回复:</span> 435</div>' soup = BeautifulSoup(div, "lxml") hm =

浏览 1提问于2018-01-10得票数 1

回答已采纳

2回答

BeautifulSoup4不能安装在python3.5中的Windows7上

、、、、

我已经从下载了漂亮的Soup4-4.5.3.tar.gz，并将其解压缩到我的python工作目录(即而不是，我的python目录)。但是，当我跑的时候 from bs4 import BeautifulSoup 在我闲着的时候，错误信息突然出现： >>> from bs4 import BeautifulSoup Traceback (most recent call last): File "<pyshell#6>", line 1, in <module> from bs4 import BeautifulSoup File &#

浏览 0提问于2017-05-05得票数 5

1回答

Access小部件窗口漂亮汤python机械化

、、、

我试图从这样的网站上删除信息：用巨蟒+漂亮汤+机械化。访问主站点上的任何内容都不是问题。然而，我也需要的信息，在一个覆盖窗口显示，当你点击“评级趋势”按钮旁边的酒吧与明星。还可以通过使用url直接访问此覆盖窗口：与此页面相关联的html是对原始站点的html的修改。然而，不管我在那个覆盖窗口网站上试图找到什么元素(通过findAll )，“美丽汤”的点击量都是零。我怎么才能解决这个问题？我试着在访问网站和阅读网站之间增加一段睡眠时间，但没有结果。谢谢!

浏览 1提问于2017-06-05得票数 1

回答已采纳

1回答

在BeautifulSoup中调用多个函数

、、

问题定义我在使用BeautifulSoup模块(bs4)时遇到了一些问题。我需要解析一些CSS类的(findAll())字符串和解包装(或者可以说使用get_text()函数从汤中删除所有标记)，但是有一些误解。我想做汤 page = urllib.urlopen("http://www.example.com/") soup = BeautifulSoup(page.read()) data = soup.findAll("a", { "class": "example_class" } soup显示了指定url的html代码

浏览 2提问于2016-01-30得票数 0

回答已采纳

2回答

使用漂亮汤的web抓取:分离值

、、

我用漂亮的汤刮网。该网页有以下来源： <a href="/en/Members/"> Courtney, John (Dem) </a>, <a href="/en/Members/"> Clinton, Hilary (Dem) </a>, <a href="/en/Members/">

浏览 1提问于2015-09-07得票数 1

回答已采纳

3回答

Python从网站上抓取fb评论

、

我一直在尝试使用下面网站页面上的美丽汤来收集facebook的评论。 import BeautifulSoup import urllib2 import re url = 'http://techcrunch.com/2012/05/15/facebook-lightbox/' fd = urllib2.urlopen(url) soup = BeautifulSoup.BeautifulSoup(fd) fb_comment = soup("div", {"class":"postText"}).find(text=T

浏览 2提问于2013-01-19得票数 3

3回答

解析美汤后原网页链接缺失

、、

如果我的解释很简单，请原谅。我对蟒蛇和美汤都是新手。我正在尝试从以下网站提取数据：我想提取与24个奖牌获得者在网站上的每个人相对应的链接。我可以从Firefox检查器中看到，他们的链接中都有“英雄”字样。然而，当我使用美丽汤解析网站时，这些链接并没有出现。我试过使用标准的html解析器和html5lib解析器，但它们都没有显示与这些奖牌获得者相对应的链接。 page = requests.get('https://valor.militarytimes.com/award/5?page=1') soup = BeautifulSoup(page.text, "h

浏览 2提问于2019-03-24得票数 0

1回答

如何从Google电子表格中的单元格读取链接(如果链接在href标签内)

、、

我是stackoverflow的新手，所以如果我做错了什么，我要提前道歉我在谷歌工作表上有一个电子表格，例如，并且在href标记内的单元格中有一个链接。我想得到的链接和文本的单元格使用谷歌工作表API或using。我已经尝试了，但是我得到了访问令牌'None‘。我试着用漂亮的汤来刮网，但效果不佳。至于bs4解决方案，我尝试使用下面的代码，我发现 from bs4 import BeautifulSoup import requests html = requests.get('https://docs.google.com/spreadsheets/d/1v8vM7

浏览 0提问于2020-11-10得票数 0

2回答

从网站表中获取某个元素

、、

我一直试图从网站上的一个表格中得到一个值。我一直在遵循一个教程，但我现在被困住了。我的目标是从表格中提取国家名称和该特定国家的总数，并将其打印在屏幕上。例如：中国: 80,761例我正在使用Python3.7。到目前为止，这是我的代码： import requests from bs4 import BeautifulSoup url='https://www.worldometers.info/coronavirus/' response = requests.get(url) soup = BeautifulSoup(response.content, '

浏览 6提问于2020-03-10得票数 0

回答已采纳

1回答

Beautifulsoup4安装错误。未创建bs4文件夹

、

在win-8上用python安装漂亮的汤时出现问题。我已经尝试从下载最新版本。通过cmd setup.py安装没有错误地安装了它，但是没有在c：\python\35-32\Lib\ bs4 -packages文件夹中创建站点文件夹。我做什么好？我使用的是python3.5。创建了一个漂亮的Soup4-4.5.1-py3.5.egg文件

浏览 2提问于2016-10-03得票数 2

2回答

将Html文本读入标签

、、

基本上，我想知道的是如何将一些HTML文本读入标签(我是从网站上刮下来的)，但我知道我不能将web元素转换为字符串。有什么帮助吗？顺便说一句。我对C#非常陌生。 var points = driver.FindElement(By.CssSelector("#site-header > div > div > div.col-xs-8.col-sm-8.col-md-8 > div > div.header-right.header-user-functions > div:nth-child(5) > a > span"));

浏览 9提问于2017-02-17得票数 0