我只是从美味的汤开始,试图从维基百科中提取墨尔本的郊区。Here is the link 郊区的名字都是链接的文本,这意味着我必须从a href标签中抓取它们,我不知道怎么做。 下面是我尝试过的: suburb_names = soup_suburb_list.find_all('a', href=True) 但这只会返回页面上的所有href标签,我不知道如何区分href,所以刮板程序只获取郊区的名称。 如果您有任何见解,我将不胜感激:)
我已经设法用带有H2 / Class / Div标签的漂亮汤中的findAll函数创建了一个网站。(例如soup.findAll('div',{'class‘:'price'}),但是网站的一部分有P标签,我不知道该如何抓取。它有以下几点
Listing history
<p class="top">
<strong>First listed</strong><br>
800 on
我想要800,但是Div Class "Sidebar sbt“在网
在BeautifulSoup中,是否可以选择类具有特定值(= 'hidden')或Class属性根本不存在的标记li的所有实例?
我将如何编写findAll语句来实现这一点?我找了很多遍,但找不到类似的问题。
我要刮的页面有三种类型的“li”标签:
li (no class attribute)
li (class = more )
li (class = hidden )
我想选择所有的li标签,只有第一和第三类型。在“美丽汤”中,是否有可能构建一个能够实现这一目标的findAll('li'....)?
我正在用漂亮的汤做python抓取,我正在爬行的网站有一个包含标题、链接和文本的28个容器,文本在<p>标签中,我的问题是我可以抓取所有的数据,但是有些<p>标记没有文本,所以我收到一个错误"AttributeError: 'NoneType' object has no attribute 'text'" --我的代码是:
containers = page_soup.findAll("div", {"class":"item-container"})
for cont
我有这段html,我想解析:
<div class="class123">
<div><strong>title123</strong>
<span style="something123">something else</span>
</div>
I want to parse this, how can do that?
</div>
我怎么才能用漂亮的汤来解析呢?我知道如何解析标签中的东西,但是如何在相同的层次上解析一些东西呢?
soup1