Python在解析无效BeautifulSoup时使用find_next

文章/答案/技术大牛

发布

2回答

、、

我正在使用python中的Beautifulsoup来解析这个。我的目标是获得标题"Autre compétitions“之后的表格：page.find("h3",text=u'Autres comp\xe9titions').find_next(&quo

浏览 2提问于2017-02-02得票数 3

回答已采纳

1回答

分解列表的漂亮汤解析

、

然而，相关信息被“隐藏”在细分列表中。import urllib.request as url from bs4 import BeautifulSoup

浏览 1提问于2020-10-12得票数 0

回答已采纳

3回答

使用BeautifulSoup查找特定标记

、、、

下面是我正在解析的网站：AttributeError: 'NoneType' object has no attribute 'find_next'from bs4 importBeautifulSoup page = "http://uniapple.net

浏览 5提问于2016-06-27得票数 1

回答已采纳

1回答

使用BeautifulSoup迭代XML并提取下一个兄弟级

、、、

为了便于解析，我将PDF转换为XML。我试过：xml = open("test3.xml").read()print(soup.find

浏览 1提问于2020-04-21得票数 1

回答已采纳

1回答

我正在创建一个python程序，从网站上抓取公司财务。我意识到，包含这些信息的网站特别难以可靠地收集数据，因此，我遇到了一个障碍。我得到的最接近的是： page = requests.get("https://www.reuters.com/companies/3in.L/key-metrics")print(spans) 但是，这会产生以下错误： 'NoneType' object has no at

浏览 23提问于2021-01-04得票数 0

1回答

如何使用二部份的关键卡html？

、、、

我有解析代码，但是我想修改它，我的问题是如何使用-> data-x-key而不使用重复的-> find_next('td', class_='month') item = soup.find_all('tr', class_='main') datai.find(&#

浏览 3提问于2022-06-27得票数 0

回答已采纳

1回答

无法准确拆分

、、

except: yahooKeyStats(eachStock) 但是，当我尝试添加另一个指标时，PS:我还没学过python呢。我正在尝试为我的研究建立一个股票筛选器。

浏览 15提问于2019-12-03得票数 0

回答已采纳

2回答

获取所有li元素的文本，并将其放入由双引号和逗号分隔的变量中

、

我想让所有的文字用双引号和逗号隔开，使用。 try: for li in test_var.find_all:

浏览 2提问于2022-05-22得票数 0

1回答

利用BeautifulSoup刮取财务数据

、

我正在尝试使用BeautifulSoup刮取数据。def fundamental_metric(soup, metric):print("All stocks with fundamental data") print(d

浏览 2提问于2020-07-08得票数 0

回答已采纳

2回答

我怎么才能从这张桌子上刮出锡克的描述呢？

、、、

我一直在尝试使用请求和漂亮的汤，但我远没有接近。

浏览 2提问于2020-07-23得票数 1

回答已采纳

1回答

Python抓取表

、、、

该算法查找包含四列的哪个表，并将该列填充过多(在5列的情况下)，不填充任何列。然而，我相信有一种更有效和更仿生的方法来实现它，特别是在我重复使用find.next()函数的部分。欢迎任何建议。import requestsimport pandas as pd cont

浏览 0提问于2018-06-25得票数 5

1回答

如何解析类名根据值更改的值？

、、、、

在html代码中，您可以看到这两行，但实际上它的工作方式如下:如果值为负值，html只显示行-15%，如果值为正，则只显示行<span class=我编写了解析代码，但是如何使用if else和检查span类名或其他方法来解决这个问题：soup = BeautifulSoup(html,data = [] for i in

浏览 7提问于2022-07-02得票数 0

回答已采纳

1回答

无法在urllib.request中使用https代理

、、、

我使用urllib.request在python中创建了一个脚本，并在其中应用了https代理。脚本中使用的ip地址是占位符。我已经遵从了的建议。(resp,"html5lib")print(ip_addr)(resp,"html5lib") ip_addr = soup

浏览 0提问于2020-01-04得票数 2

回答已采纳

2回答

在包含Beautifilsoup的页面中查找特定字符串

、、

我正在使用bs4，并希望从文档中返回关于在Python函数中构建的特定功能的描述，例如，在这个页面中为abs()返回描述：返回数字的绝对值。我知道我可以进行findAll搜索，但我想在不使用页面中的文本的情况下这样做(例如，就好像用户事先不知道文本是什么一样)： res = requests.get('https://docs.python.org/2/librar

浏览 0提问于2016-01-09得票数 1

回答已采纳

1回答

从检查页面的元素中复制CSS选择器的BeautifulSoup选择方法什么也不返回。

、、、

link = 'http://shop.oreilly.com/product/0636920028154.do'bs = BeautifulSoup(req.text, 'html.parser')bs.select('div.description:nth-child

浏览 3提问于2021-04-19得票数 0

回答已采纳

2回答

使用BeautifulSoup4检索不同级别的两个标记之间的文本

、、、

下面是我试图使用BeautifulSoup4 (Python3)使用xml解析器(其他解析器不处理我正在处理的那种肮脏的HTML文件)的“真实世界”html文件的片段： Hello我尝试使用<a>函数遍历第一个find_next()标记，然后调用get_text()，但是当我点击最后一个时，最后的文本也会被刮掉，这不是我想要的。

浏览 2提问于2017-09-12得票数 0

回答已采纳

1回答

如何在网站中直接查询数据，而不是等待加载抓取？

、、、

我在Python中使用Beautifulsoup和Selenium来完成这项任务。from selenium import webdriverfrom bs4 import BeautifulSoup

浏览 23提问于2021-06-20得票数 1

回答已采纳

1回答

如何使用在HTML文本之后提取特定文本

、

在下面的HTML示例中，如何在Python中的span标记"Price Target (6-12个月)：“之后提取文本(本例中为$167.00)？下面我的粗野尝试--我试图在没有事先知道Python的情况下从一些帖子中复制--没有起作用。谢谢您的任何解决方案！from bs4 import BeautifulSoupimport re <tr> <td class="company_name alp

浏览 5提问于2021-08-20得票数 0

回答已采纳

1回答