如何使用BeautifulSoup统计匹配标签的数量？_如何使用python根据标签来统计对象的数量？_如何统计外部标签(XML)的数量？ - 腾讯云开发者社区

python、selenium、web-scraping、beautifulsoup、selenium-chromedriver

我正在尝试使用Selenium和BeautifulSoup从中提取一些信息。我为实时匹配创建了urls，现在我迭代它们来提取一些统计信息。但是，当我使用以下代码时，并没有加载： def get_soup(url): options = Options() options.add_argument('--headless') options.add_argument('--disable-gpu') driver = webdriver.Chrome(options=options) driver.get(url)

浏览 3提问于2021-01-28得票数 0

回答已采纳

2回答

Python BS4美汤HTML.Parser在网站上不起作用

python、beautifulsoup

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试提取该网站上的所有div标签，但我仍然得到了一个空列表。下面是我使用的代码： from requests import get from bs4 import BeautifulSoup url = 'https://www.whoscored.com/Matches/1294545/LiveStati

浏览 26提问于2019-07-13得票数 2

回答已采纳

2回答

如何用BeautifulSoup访问标签的属性值

python、web-scraping、beautifulsoup

我正在使用BeautifulSoup和请求进行网络抓取。我知道如何在标记之间提取属性，但是如果我想要的是标签下面的数字'4.31'，知道如何获得它吗？ <div class="starRating" title="4.31"> <svg ... </svg> </div> 我试过： soup.find('div',{'class':'starRating'}) soup.find('title') 所以数字基本上就是标签..。

浏览 5提问于2019-12-28得票数 1

回答已采纳

1回答

如何使用BeautifulSoup查看闭合标签的总数？

python、beautifulsoup

下面的代码检查是否有一个以上的打开html标签， from bs4 import BeautifulSoup invalid = """<html> <html> </html> </html>""" soup = BeautifulSoup(invalid, 'html.parser') print len(soup.find_all("html")) # prints 2 valid = """<html> <

浏览 0提问于2014-03-02得票数 1

1回答

BeautifulSOUP和OpenStreetMap XML中的嵌套标记和属性

python、xml、beautifulsoup、nodes、openstreetmap

请帮助写有意义的代码的任务:我需要计算所有的标签“的方式”在XML OpenStreet映射文件中，在每个"nd“标签的数量，并输入标签”路“的id，其中包括最大数量的标签"nd”。如果有多个ide，则按字母顺序输入第一个ide。看起来很简单，但我不懂如何操作。(我只认为使用词汇表会很有用)这是代码： from urllib.request import urlopen, urlretrieve from bs4 import BeautifulSoup resp = urlopen('https://stepik.org/media/attachments/l

浏览 22提问于2020-07-29得票数 1

回答已采纳

1回答

如何计算另一个表中的所有分组项？

mysql、count

我有一张有标签的桌子。我使用这个查询在一个循环中获取它们： SELECT id, name FROM tags ORDER BY name ASC limit 0,25 现在，我在MySQL中有了一个链接表，可以将标签放到更多的项目上。'tags_items‘表中的字段如下： itemID，TagID，tagType。如何在一次查询中统计每条标签的数量？

浏览 0提问于2016-01-26得票数 0

2回答

从BeautifulSoup中删除无关的div标记

python、beautifulsoup

我试图从一个网站刮文本，但不知道如何删除无关的div标签。代码看起来如下： import requests from bs4 import BeautifulSoup team_urls = ['http://www.lyricsfreak.com/e/ed+sheeran/shape+of+you_21113143.html/', 'http://www.lyricsfreak.com/e/ed+sheeran/thinking+out+loud_21083784.html', 'http://www.lyricsfreak.

浏览 0提问于2018-04-22得票数 1

回答已采纳

1回答

检查元素是否在同一段落中(美汤)

python、beautifulsoup、text-processing

如何检查BeautifulSoup解析树的元素是否在同一个<p>标签中？

浏览 1提问于2011-09-02得票数 0

回答已采纳

2回答

html中标记项(类)的正则表达式

html、regex、python-2.7、web-scraping、beautifulsoup

我对python和编程比较陌生;-)，我正在写一个从网站上抓取数据的程序，它只有一个页面，超过6000行，而我要抓取大约20000000个页面。我使用的是python 2.7.4 我看过一些关于如何使用正则表达式的教程，但它对我不起作用。我使用Beautiful Soup来查找特定的标签，实际上我需要找到这样的标签： <tr class="room_loop_counter1 maintr"> <tr class="room_loop_counter1 extendedRow"> <tr class="room_loop_c

浏览 0提问于2013-02-07得票数 0

回答已采纳

4回答

在24小时内统计推特标签？

twitter、twitter-api

如何计算在24小时内使用或提到Twitter标签的次数？示例使用的是利夫壮/防癌世界纪录尝试。我想统计一下使用hashtag的次数，以便对它的扩散有一些记录。

浏览 0提问于2010-11-12得票数 6

1回答

按文本正则表达式的BeautifulSoup4搜索标记

python、parsing、beautifulsoup、html-parsing

我有两个场景，我想要使用正则表达式按文本搜索标记。 soup = BeautifulSoup("<B><A NAME="toc96446_13"></A>TEXT </B></P>", "html5lib") soup.find('b', text=re.compile('TEXT')) 我假设这是不起作用的，因为里面的标签实际上包含我的文本。另外，我如何找到一个只包含数字的标签？ soup = BeautifulSoup("<p>1

浏览 0提问于2018-08-04得票数 0

1回答

点击页面，然后搜索合适的链接来打开和抓取

python、web-scraping、beautifulsoup

我已经看了很久了，我想知道这是否可能。我正试着从上搜集一些体育统计数据我正在使用这些用于抓取器和csv导出： import requests import re import csv from bs4 import BeautifulSoup 当刮板到达那里时，我想让它点击有最终得分的游戏(所以我可能不得不在周五、周六、周日和周一午夜自动执行刮板)。从那里，我希望抓取器点击“统计”，这将打开一个新窗口中需要抓取的URL。从那时起，最好是看完那一周的所有比赛，然后整理一下统计数据。这在Beautifulsoup中是可能的吗？我可以通过手动添加链接来抓取每个页面，然后对于输出数据

浏览 1提问于2020-10-07得票数 1

3回答

文本中的异常

c#、algorithm、text-processing

让我举个例子来解释一下。我们有以下文本： Comme Il Faut成立于1927年。该烟草公司以为其全球合作伙伴生产定制的自有品牌而闻名。这是普通文本。而是下面的文本： “1927年的CommeIlFautwasfounded。这家烟草公司以为其全球合作伙伴生产定制的私人标签而闻名。” 这是文本异常:打字错误，没有空格的单词，可能还有其他东西。如何搜索这样的异常？有什么算法可以解决这个问题(统计)？希望结果是一个百分比:例如，80%的异常。谢谢。

浏览 0提问于2011-04-15得票数 4

回答已采纳

1回答

使用BeautifulSoup实现多页网页抓取

python、web-scraping、beautifulsoup

我正在尝试用BeautifulSoup抓取这个网页的https://www.whoscored.com/Statistics，以便获得球员统计表的所有信息。我有很多困难，不知道有没有人能帮我。 url = 'https://www.whoscored.com/Statistics' html = requests.get(url).content soup = BeautifulSoup(html, "lxml") text = [element.text for element in soup.find_all('div' {'id&

浏览 10提问于2019-03-15得票数 1

1回答

在Beautifulsoup中，我们可以将所有XML标记转换为小写吗

python、xml、python-3.x、beautifulsoup

当使用Beautifulsoup和HTMl解析器时，标签被转换为小写。但是我们如何在使用LXML解析器的同时实现。在下面的情况下，如果我使用html解析器进行解析，则无法打印output.But。它工作得很好。有谁能帮帮我吗？ html_doc = """ <html><HEAD><title>The Dormouse's story</title></HEAD> <p class="title"><b>The Dormouse's story</

浏览 0提问于2013-02-21得票数 1

回答已采纳

1回答

使用BeautifulSoup 4 (lxml解析器)，如何从标记中提取内部decode_contents (decode_contents不起作用)？

python、python-3.x、beautifulsoup、innerhtml

我使用的是BeautifulSoup 4和Python3.7。我想从找到的文章中提取内部HTML。我有这个 soup = BeautifulSoup(html, features="lxml") ... article_elt = top_article_elt.select('div[class*="outer"]')[0] article = article_elt.decode_contents() ... print("article: " + str(article) + " score:" + str(

浏览 6提问于2019-12-08得票数 0

回答已采纳

1回答

具有相同标记名称部分的BS4 findAll html标记

python、web-scraping、beautifulsoup

我使用bs4来获取网页的html标签： html = BeautifulSoup(requests.get(temp_cat_link).text, 'html.parser') items =html.findAll('h4',{'class':'item-title font-weight-normal '})# this tag have a tag name contain white space at the end 但是当我检查它时，实际上并不是所有的标签，因为有一些标签名在末尾没有空格。它只返回item-title

浏览 41提问于2021-11-16得票数 0

回答已采纳

3回答

如何在Python中提取两个标签之间的数字？

python、beautifulsoup

import requests from bs4 import BeautifulSoup url = 'http://www.x-rates.com/table/?from=USD&amount=1' page = requests.get(url) soup = BeautifulSoup(page.content, "lxml") print soup.prettify() <td> Chinese Yuan Renminbi </td> <td

浏览 1提问于2017-04-26得票数 0

1回答

使用MongoDB的新聚合框架搜索和计数标签的有效方式？

mongodb、aggregation-framework

我正在试验新的AF，以便从Map/reduce迁移出去。我有数百万个这样的对象： { _id: ObjectID, owner: 1, tags: [ {text: "dog", score: 5}, {text: "cat", score: 3}, {text: "hamster", score:1}] } { _id: ObjectID, owner: 2, tags: [ {text: "cat", score: 8}, {text: "fish", scor

浏览 0提问于2012-09-20得票数 2

回答已采纳

6回答

使用BeautifulSoup移除所有内联样式

python、css、beautifulsoup、inline

我正在用BeautifulSoup做一些超文本标记语言清理。对Python和BeautifulSoup都是新手。根据我在Stackoverflow上找到的答案，我已经正确地删除了标签，如下所示： [s.extract() for s in soup('script')] 但是如何删除内联样式呢？例如： <p class="author" id="author_id" name="author_name" style="color:red;">Text</p> <img class=&#

浏览 0提问于2012-10-19得票数 15

回答已采纳

1回答

未从div tag.BeautifulSoup.Python获取完整文本

python、web-scraping、beautifulsoup

我正在尝试从div标签中提取文本。我的代码： import requests from bs4 import BeautifulSoup url='url' page = requests.get(url,'lxml') soup = BeautifulSoup(page.content) print(soup.find('div',{'class':'meta- item salary'}).text) HTML代码： <div class="meta-item salary"&g

浏览 22提问于2019-03-15得票数 0

2回答

YouTube喜欢使用Python和BeautifulSoup

python、youtube、beautifulsoup

在YouTube上有很多dislike/dislike的结果，但Python语言中什么都没有。我想用BeautifulSoup来统计喜欢和不喜欢的数量，因为YouTube-API不包括这个。我知道喜欢和不喜欢包含在这个span-class中： <span class="watch-likes-dislikes"> <span class="likes">6</span> likes, <span class="dislikes">0</span> dislikes &l

浏览 0提问于2011-11-11得票数 2

回答已采纳

1回答

无法使用$0通过BeautifulSoup从DOM元素中提取内容

python、html、dom、web-scraping、beautifulsoup

所以这里我想提取数字272，但是它每次都不返回。我必须使用BeautifulSoup。我试过- sources = requests.get('https://www.thebodyshop.com/en-us/body/body-butter/olive-body-butter/p/p000016') soup = BeautifulSoup(sources.content, 'lxml') x = soup.find('div', {'class': 'columns five product-info&#

浏览 2提问于2019-11-08得票数 1

回答已采纳

1回答

用Python2.7x从href标记中提取字符串

python、regex、python-2.7、beautifulsoup

我目前正在使用Beautifulsoup4从HTML页面中提取href标签。我在Beautifulsoup4中使用的是Beautifulsoup4查询，它运行良好，并返回我正在寻找的'a href‘标记。返回内容的示例如下： "<a href="manage/foldercontent.html?folder=Pictures" style="background-image: url(shares/Pictures/DefaultPicture.png)" target="content_window" title=

浏览 3提问于2015-06-30得票数 0

回答已采纳

1回答

python漂亮的汤提取标签之间的出现次数

python、tags、beautifulsoup、extract

我想提取的数字“文件它”之间的标签在网页上。这是我的代码。 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://www.crummy.com/software/BeautifulSoup/") bsObj = BeautifulSoup(html, "html.parser") nameList = bsObj.findAll(text="file it") print(len(nameList)) 在"fil

浏览 1提问于2017-03-13得票数 0

回答已采纳

1回答

可可核心数据-高效相关实体计数

iphone、cocoa、core-data、entity-relationship

我正在开发我的第一个iPhone应用程序，但是遇到了麻烦。我正在尝试为三个实体关系开发一个“统计”页面。我的实体如下：部门-姓名、地址、大楼等。人员-姓名、性别(BOOL)、电话等如果我获取了一个特定的部门，我如何过滤这些结果并只返回男性(Gender == 0)？如果我这样做了 NSLog(@"%d", [department.people count]); 我得到了那个部门的正确人数，所以我知道我就在附近。我知道我可以每次都重新获取和修改谓词，但在我的应用程序中使用20+统计数据似乎效率很低。谢谢你的建议！

浏览 3提问于2010-05-10得票数 1

回答已采纳

2回答

漂亮的汤网刮。

python、beautifulsoup

我正在尝试从DnDbeyond中抓取数据。我正在使用Beautifulsoup和python，并且已经能够通过使用"Div“标签和"Find_all”类获得一些我需要的信息，但是我似乎无法从这些包含字符统计信息的格式化块中找到信息。 <div class="ct-skills__col--skill">Animal Handling</div> 我应该能够搜索到soup.find("div", {"class": "ct-skills__col--skill"}) 对吗？这就是我当前代码的

浏览 0提问于2018-09-23得票数 1

1回答

为什么find_all()不返回完整的结果？

python、beautifulsoup、python-requests

试图检索体育参考页面上的4个统计数据框。四个统计框(两个队，基本和高级统计)可以在“The”下找到。但是，以下代码只返回页面的基本统计数据框： import requests from bs4 import BeautifulSoup r = requests.get("https://www.sports-reference.com/cbb/boxscores/2016-11-11- villanova.html") c = r.content soup = BeautifulSoup(c) boxes = soup.find_all("tfoot")

浏览 3提问于2017-09-26得票数 0

回答已采纳

1回答

将href字符串转换为链接列表

python、html、python-3.x、web-scraping、beautifulsoup

我试图使用以下代码从Gosugamers中获取一些统计数据，包括比赛结果和团队名称： from bs4 import BeautifulSoup import requests for i in range(411): try: i += 1 print(i) url = 'http://www.gosugamers.net/counterstrike/gosubet?r-page={}'.format(i) r = requests.get(url) web = BeautifulSou

浏览 0提问于2017-03-28得票数 2

回答已采纳

1回答

如何通过rel内容获取链接标签文本？

python、beautifulsoup

我需要在href上找到网址： <link rel="apple-touch-icon" href="https://abs.twimg.com/icons/apple-touch-icon-192x192.png" sizes="192x192"> 当它指向推特图标的时候。你可以访问这里的网站，这是推特页面。准确地说，是推特网址。在html中还有其他链接标签，但是我需要这个链接标签。目前，我正在收集所有链接标记，并获得第10位的链接标记(因为这是fa图标url的索引)： import requests from bs4 imp

浏览 3提问于2018-02-12得票数 2

3回答

获取属性错误：“NoneType”对象没有属性getText

python、function、beautifulsoup、nonetype

我已经写了一半的代码，从RSS提要中提取标题和链接，但这会导致上述错误。在获取文本时，这两个函数中都存在错误。我想去掉输入的标题和链接标签的字符串。 from bs4 import BeautifulSoup import urllib.request import re def getlink(a): a= str(a) bsoup=BeautifulSoup(a) a=bsoup.find('link').getText() return a def gettitle(b): b=str(b) bsoup=Beautifu

浏览 3提问于2013-10-27得票数 1

回答已采纳

1回答

从Understat.com中抓取特定元素

python、web-scraping

我想从此站点上的多个匹配中检索特定的统计数据(PPDA)： https//understat.com/match/xxxx 我已经创建了以下代码来解析HTML并使用Python遍历每个匹配项，但是我正在努力解决如何提取特定的统计数据并将其加载到csv和图形中的问题。我是一个初学者，任何帮助都将不胜感激！代码： import pandas as pd import re import random import requests from bs4 import BeautifulSoup from selenium import webdriver import datetime impor

浏览 18提问于2019-02-15得票数 0

回答已采纳

1回答

如何在已抓取的内容与网页内容不匹配时导航解析树

python、web-scraping、beautifulsoup

我想在这个链接( )上为我自己的个人使用刮取球员表的数据。但是，无论我如何尝试导航解析树，我似乎永远无法访问播放器的html的实际表统计信息部分。表的网页中的id标记是id="div_stats_standard“。当我在我的朱庇特笔记本代码中的汤中查找这个时，使用下面的代码： import requests from bs4 import BeautifulSoup url = "https://fbref.com/en/comps/9/stats/Premier-League-Stats" page = requests.get(url) soup = Be

浏览 12提问于2022-08-22得票数 1

回答已采纳

2回答

美丽的汤-如何修复损坏的标签

python、regex、beautifulsoup

在用Beautiful Soup解析之前，我想知道如何修复损坏的html标签。在下面的脚本中，需要用<td替换td>。我怎么做替换才能让美汤看到呢？ from BeautifulSoup import BeautifulSoup s = """ <tr> td>LABEL1</td><td>INPUT1</td> </tr> <tr> <td>LABEL2</td><td>INPUT2</td> </tr>"

浏览 0提问于2011-09-22得票数 2

回答已采纳

2回答

使用regex进行Python web抓取

python、regex、web、beautifulsoup、scrape

有没有人可以帮我编写一些代码，以便从游戏中提取统计数据？我可以将html放入BeautifulSoup中，但我不知道如何正确地格式化正则表达式，以便从整个页面中获取特定的数据位。下面是我得到的信息： from urllib import urlopen from bs4 import BeautifulSoup import re content = urlopen('http://www.worldoftanks.com/community/accounts/1000395103-FrankenTank').read() soup = BeautifulSoup(conte

浏览 2提问于2012-10-14得票数 1

回答已采纳

1回答

美汤元内容标签

python、html、beautifulsoup、html-parsing

浏览 5提问于2015-12-16得票数 4

回答已采纳

1回答

BeautifulSoup :从html标记中提取/解析数据

python、xml、parsing、beautifulsoup

我试图使用Python代码中的Beautiful从url中提取体育数据。这个数据源的问题是数据出现在html标记中。具体来说，这个标签的标题是"“ 我要的是玩家数据--这些数据似乎是XML格式的。然而，这些数据出现在"match“标记中，而不是作为开始/结束标记中的内容出现。就像这样： print(soup.match) 返回：(不包括所有文本)： <match :matchdata='{"match":{"id":"5dbb8e20-6f37-11eb-924a-1f6b8ad68.....ALL DATA HERE..

浏览 5提问于2021-04-08得票数 0

回答已采纳

1回答

用BeautifulSoup抓取播放器数据

python、beautifulsoup

我正在尝试用BeautifulSoup获取足球统计数据，我试图从'a‘标签中获取球员的名字，但没有成功。下面是我当前的代码： from bs4 import BeautifulSoup import requests import numpy as np import pandas as pd url = 'https://www.pro-football-reference.com/years/2020/rushing.htm#rushing_and_receiving::rush_yds' req = requests.get(url).text soup

浏览 12提问于2021-01-22得票数 0

回答已采纳

1回答

如何使用python中的漂亮汤访问标签中的子标记？

python、beautifulsoup

我正试图从MLB.com检索2016年赛季的球员统计数据。我正在使用Python中的Beautiful，我需要提取表中的信息：以下是我所做的尝试： r=requests.get(url) soup=BeautifulSoup(r.content,'html.parser') gdata=soup.find_all('div',{'id':'datagrid'}) print(gdata) 这应该会返回标签中的所有子标记，但它不会返回。这样做的结果如下： [<div id="datagrid"><

浏览 3提问于2017-05-01得票数 0

回答已采纳

3回答

普罗米修斯的再标记

monitoring、consul、prometheus

设置 Prometheus节点出口商注册为领事代理服务，有各种标签。向领事代理提供的示例服务定义： { "service":{ "id": "server-stats", "name": "server-stats", "tags": [ "a=1_meow", "b=2_woof", "c=3_moo", "monkey"

浏览 12提问于2017-06-03得票数 4

回答已采纳

4回答

统计CMD/Windows中文本文件的非空行

batch-file、cmd

在CMD/Batch/Windows中，如何统计文本文件的非空行数？

浏览 0提问于2016-08-29得票数 2

1回答

BeautifulSoup .select()方法是否支持regex的使用？

python、regex、select、beautifulsoup

假设我想使用BeautifulSoup解析一个html，而我希望使用css选择器来查找特定的标记。我会通过这样做来“使它更深奥” from bs4 import BeautifulSoup soup = BeautifulSoup(html) 如果我想找到一个标记，其"id“属性的值为"abc”，我可以这样做。 soup.select('#abc') 如果我想在当前标签下找到所有的"a“子标记，我们可以这样做。 soup.select('#abc a') 但是现在，假设我想找到所有'href‘属性具有以"xyz“结尾的值的

浏览 2提问于2014-11-21得票数 2

1回答

返回空列表的Soup.find_all

html、python-3.x、web-scraping、beautifulsoup

我正在尝试使用requests和BeautifulSoup来获取NBA统计数据的球员统计表，但得到的响应与我使用"Inspect Element“时看到的不同。包含此表的类属性为：class="nba-stat-table__overflow。但是，每当我运行以下代码时，我都会得到一个空列表： table = soup.find_all('div',attrs={'class="nba-stat-table__overflow'}) 下面是我的完整代码： import os import pandas as pd import num

浏览 19提问于2020-04-17得票数 1

回答已采纳

1回答

Replicaset如何包含具有特定标签的pod

kubernetes

如果我为pod指定了一些特定标签，并定义了包含具有相同标签pod的副本集，那么它将包含其中的pod。这一切都很好.. (我知道pod不是单独创建的，而是应该使用部署或副本集创建的。但部署/复制集如何包含其标签在定义中匹配的pod(如果出于某种原因它们已经存在) 但是，这是如何在幕后工作的呢？副本集如何知道pod将被包含，因为它具有相同的标签？比方说，我已经有了一个具有这些标签的pod，如果新创建的副本集的pod少于期望的pod数量，它如何知道pod将被包括在内？它是否从etcd获得该信息？或者pod以某种方式暴露标签？这个东西是如何在幕后真正工作的？

浏览 2提问于2019-03-05得票数 1

1回答

如何利用美丽的汤从维基百科中提取一张桌子

python-3.x、web-scraping、beautifulsoup、urllib

我正在尝试编写一个从维基百科提取表格的刮板，问题是，我可以提取页面上的所有表，除了我实际需要的表(这是包含美国所有选举的统计数据的表格)。我不认为问题在于我的标签。这是我的密码 from urllib.error import HTTPError from urllib.error import URLError from bs4 import BeautifulSoup from urllib.request import urlopen #getting the wiki page page_info=urlopen('https://en.wikipedia.org/wiki

浏览 1提问于2020-10-24得票数 1

回答已采纳

1回答

如何裁剪频道发布者的视频发布日期和订阅者数量

python、youtube、request、bs4

我试着做一个软件，从一个网站裁剪一些信息，在指定是youtube，目的是使统计应用程序。我想问你，从youtube的视频中获取发行商日期的最好方法是什么，以及如何从youtube频道获取订阅者数量？我正试着用这个 import requests from bs4 import BeautifulSoup import urllib2 import html5lib g_data_subscriber = soup.find('span', 'deemphasize style-scope yt-formatted-string').get_text()

浏览 11提问于2017-08-02得票数 0

回答已采纳

1回答

如何统计在comon中有一定百分比标签的wordpress帖子？

php、wordpress

我的帖子通常有大约20个标签，我知道那些分享70%标签的帖子都是关于同一个主题的。那么，有没有可能通过php检查并统计或列出在comon中有标签的帖子呢？如果有办法，我想知道怎么做，所以我会好好学习，使之完善。

浏览 8提问于2021-07-24得票数 0

1回答

使用BeautifulSoup无法按预期工作的HTML解析

python、html、parsing、beautifulsoup

我正在使用Python3和BeautifulSoup模块4.9.3版本。我试图使用这个包来练习解析一些简单的HTML。我拥有的字符串如下： text = '''<li><p>Some text</p>is put here</li><li><p>And other text is put here</p></li>''' 我使用BeautifulSoup的方式如下： x = BeautifulSoup(text, "html.parser&#

浏览 4提问于2022-02-24得票数 0

回答已采纳

1回答

我怎么才能从网页上拉一张桌子？

python、web-scraping、html-table

我正试着从百老汇的演出页面上找出一张统计表。到目前为止，这就是我所拥有的： import requests from bs4 import BeautifulSoup springsteen_url = 'https://www.ibdb.com/broadway-production/springsteen-on-broadway-515480#Statistics' springsteen_response = requests.get(springsteen_url) springsteen_soup = BeautifulSoup(springsteen_respons

浏览 1提问于2021-11-05得票数 0

回答已采纳

3回答

如何使用BeautifulSoup查找第一个锚标签的文本

python、beautifulsoup

我有一个这样的HTML结构 <p class="title"> <a href="abc.com"> Story </a> <span class="domain"> <a href="xyz.com">comments</a> </span> </p> 我想提取第一个锚标签的文本，即Story 下面是我如何使用Beautifulsoup从锚标记中提取文本 soup = BeautifulSoup(htm

浏览 1提问于2016-04-28得票数 1