使用BeautifulSoup从网页中提取列表中具有相关标签的所有图片链接_Python，Beautifulsoup -根据列表中的项目从标签中提取字符串_如何使用BeautifulSoup从具有特定开头的标签中仅获取字符串？ - 腾讯云开发者社区

python、list、web-scraping、beautifulsoup

首先，我对编程非常陌生，所以我非常感谢大家的建议。我正在尝试从一个网页中抓取所有的图片，并输出一个图片标签列表，加上名称旁边的图片链接。相关的标签是class=“卡片-文本-标题”和class=“打印当前设置名称”。这是到目前为止我所拥有的，提取的原始urls，但它是简单的URLS，而不是我需要的实际图像urls： from bs4 import BeautifulSoup import requests url = "https://scryfall.com/cubes/vintage" response = requests.get(url) data = re

浏览 50提问于2021-02-08得票数 0

10回答

使用漂亮汤提取属性值

python、parsing、attributes、beautifulsoup

我正在尝试提取网页上特定"input“标签中的单个"value”属性的内容。我使用以下代码： import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inp

浏览 1提问于2010-04-10得票数 170

回答已采纳

1回答

使用BeautifulSoup解析标签

python、html、parsing、tags、beautifulsoup

我遇到了一个关于BeautifulSoup的python编程问题。首先，我需要创建一个从网页的源页面中提取所有标签的函数。我是这样做的： from bs4 import BeautifulSoup soup=BeautifulSoup(''.join(data)) def parseUsingSoup(content): return soup.findAll('h3') 我尝试解析的网站是这样的：它只包含一个h3-tag。现在这个问题需要我扩展我的函数，这样它也会在p-tag中返回与它相关的所有内容。它还要求提供

浏览 2提问于2013-03-29得票数 3

回答已采纳

2回答

Python BS4美汤HTML.Parser在网站上不起作用

python、beautifulsoup

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试提取该网站上的所有div标签，但我仍然得到了一个空列表。下面是我使用的代码： from requests import get from bs4 import BeautifulSoup url = 'https://www.whoscored.com/Matches/1294545/LiveStati

浏览 26提问于2019-07-13得票数 2

回答已采纳

3回答

使用Python中的BeautifulSoup在网站上显示丢失的标记

python、web-scraping、beautifulsoup、python-requests

我正在做一个项目，在这个项目中，我试图从CNN/Politics网页的首页中提取所有的urls。我已经扫描了html源代码，并发现文章链接位于'li‘标签中。通过执行以下操作，我将获得上述标记下的所有内容： url = 'https://edition.cnn.com/politics' r1 = requests.get(url) coverpage = r1.content soup = BeautifulSoup(coverpage, 'lxml') links = soup.find_all('li') 这为我提供了与此类

浏览 4提问于2020-08-06得票数 2

回答已采纳

2回答

Python Beautifulsoup刮刀不刮图像

python、css、web-scraping、beautifulsoup

我有以下代码： import requests from bs4 import BeautifulSoup url = "" page = requests.get(url, headers=HEADERS, verify=True) soup = BeautifulSoup(page.content, 'html.parser') images = soup.find_all("img") for image in images: image_url = image['src'] print(image_ur

浏览 29提问于2020-02-18得票数 0

2回答

提取</h3> HTML标记内的条目- Python

html、python-3.x、beautifulsoup

我正在工作与就业列表数据的网络抓取项目。我在找出从html标签中提取内容的最佳方法时遇到了一些麻烦。下面的代码输出以下内容： << h3 class="job-title heading-large -no- Data bottom“>Remediation Analyst /h3>> 我只需要去掉html，这样输出就是简单的"Remediation Data Analyst“。我知道这很简单。脚本： import pandas as pd from bs4 import BeautifulSoup import requests import

浏览 33提问于2021-01-21得票数 0

回答已采纳

1回答

如何解决BeautifulSoup抓取时的双重问题

python、web-scraping、beautifulsoup、ldjson

我有一个奇怪的问题，我的脚本从网页上提取一些日期。下面是脚本： # import library import json import re import requests from bs4 import BeautifulSoup import datetime # Request to website and dowload HTML contents url = 'https://www.coteur.com/cotes-basket.php' #page = requests.get(url) response = requests.get(url) #soup

浏览 2提问于2021-02-03得票数 0

1回答

使用BeautifulSoup进行网络抓取-无法提取表行

python、html、web-scraping、beautifulsoup

我正在尝试使用BeautifulSoup提取以下网页上的表：我试图使用的代码是： import pandas as pd from urllib.request import urlopen from bs4 import BeautifulSoup url = "https://www.indiapost.gov.in/VAS/Pages/PMODashboard/DistributionOfPostOffices.aspx" html = urlopen(url) soup = BeautifulSoup(html, 'lxml') type(sou

浏览 1提问于2019-11-20得票数 1

回答已采纳

1回答

使用python中的美观汤提取网页中数据丰富的节点

python、python-2.7、tags、web-scraping、beautifulsoup

使用python中的美丽汤提取网页中数据丰富的节点，有没有方法计算页面中标签的频率， import requests from bs4 import BeautifulSoup url = "http://www.amazon.in" r = requests.get(url) html = BeautifulSoup(r.content) 现在我想数一数所获得的html中所有标签的频率。

浏览 0提问于2015-04-21得票数 2

回答已采纳

2回答

如何从网页上抓取正文？

python、web-scraping、beautifulsoup

我有一个代码，提取从ESPN NCAA网站的标题。但我想刮掉整个网页。我是一个新手在编码，所以如果你能帮助刮网页，我会非常感谢。我发现很难理解XML标签和识别them..could，你们中有谁可以修改这段代码，让它打印这个网页上的所有或大部分内容？谢谢! from urllib import urlopen from BeautifulSoup import BeautifulSoup import smtplib site = urlopen('http://espn.go.com/college-football').read() soup = BeautifulSou

浏览 2提问于2013-04-03得票数 0

2回答

在带有多个html标记的网页中查找带有BeautifulSoup的文本？

python、html、beautifulsoup

谢谢你的帮助。我正在尝试使用BeautifulSoup和Python从网页中提取文本。我已经做了很多次不同的网页，总是得到我需要的信息，但这一次，从网页的html源代码有很多脚本和其他东西。这是我想从以下页面中提取信息的页面之一：这个网页的问题在于它有很多iframe标记，每个标签都有一个开始标记(html)和一个关闭标记(/html)，我可以从主页中提取信息，但不能提取隐藏在第二个选项卡和隐藏显示文本区域下的信息。例如，当我寻找： soup.find('div',{'name':"Pregunta_452Respuesta_826"})

浏览 5提问于2015-10-16得票数 0

回答已采纳

3回答

如何提取包含特定元素的所有div，即它不是类、span、a或li？

python、html、css、web-scraping、beautifulsoup

我试图从包含以下许多div的网页中提取(显然，除了最初的部分外，所有的数据都不同)： <div data-asin="B007R2E578" data-index="0" class="sg-col-20-of-24 s-result-item sg-col-0-of-12 sg-col-28-of-32 sg-col-16-of-20 AdHolder sg-col sg-col-32-of-36 sg-col-12-of-16 sg-col-24-of-28"> <div class="sg-col-inn

浏览 2提问于2019-07-10得票数 0

回答已采纳

2回答

如何在没有额外信息的情况下有效地从网页簇中提取文本

java、python、web-scraping、beautifulsoup、scrapy

我有大约一百万的网页列表，我想有效地从这些网页上提取文本。目前我正在使用python中的BeautifulSoup库从HTML中获取文本，并使用请求命令来获取网页的html。这种方法除了文本之外还提取一些额外的信息，比如在body中是否列出了任何javascript。你能给我推荐一些合适而有效的方法来完成这项工作吗？我看了scrapy，但它看起来像爬行特定的网站。我们可以将特定网页的列表传递给它以从中获取信息吗？提前谢谢你。

浏览 24提问于2019-05-22得票数 0

1回答

使用Python3.0中的Beautiful获取特定链接的最有效方法是什么？

python、html、beautifulsoup

我目前正在学习古瑟尔的Python专业知识。我遇到了使用BeautifulSoup从网页中提取特定链接的问题。从这个网页()中，我应该从用户输入中提取一个URL，并打开随后的链接，这些链接都是通过锚选项卡识别的，并运行一些迭代。虽然我可以用列表来编程，但我想知道是否有更简单的方法可以不使用列表或字典来实现呢？ html = urllib.request.urlopen(url, context=ctx).read() soup = BeautifulSoup(html, 'html.parser') tags = soup('a')

浏览 3提问于2017-09-01得票数 0

回答已采纳

1回答

如何用BeautifulSoup从Html中提取除法

python、python-3.x、string、web-scraping、beautifulsoup

我正在尝试使用漂亮汤从html文件中提取字典条目的“意义”部分，但这给我带来了一些麻烦。以下是我迄今所做尝试的总结：我右键单击下面的字典条目页，并将该网页保存到我的'aufmachen.html'目录中，作为在这个网页的源代码中，我试图提取的部分从第1042行开始，我在下面编写了表达式，但是标签和Bedeutungen都不包含任何搜索结果。 import requests import pandas as pd import urllib.request from bs4 import BeautifulSoup with open("aufmachen.htm

浏览 2提问于2022-06-24得票数 0

回答已采纳

1回答

从基于链接的网站拉取图片

python、html、python-2.7、beautifulsoup

我目前已经准备好了使用BeautifulSoup库来提取html文档中所有图像标签的代码。我想知道在Python中是否有一种方法可以通过图像标记中的link元素指向的图像以编程方式将图像下载到您的计算机上。这是我用来获取网页中所有图片标签的代码。 import urllib2 from bs4 import BeautifulSoup #Retrieve object containing website information page = urllib2.urlopen("http://google.com") soup = BeautifulSoup(page) #Pu

浏览 0提问于2013-04-13得票数 0

回答已采纳

2回答

如何在BeautifulSoup中检索html标记的一部分？

python、beautifulsoup

这是我用来从网页中提取这个标签的代码： director = movies[0].find_all("a") 我想使用BeautifulSoup从下面的HMTL标记中提取导演Frank Databont。 [<a href="/title/tt0111161/" title="Frank Darabont (dir.), Tim Robbins, Morgan Freeman">The Shawshank Redemption</a>] 我是否需要将其转换为字符串并使用RegEx来查找导演，或者是否有其他方法？

浏览 26提问于2021-10-15得票数 0

回答已采纳

1回答

如何从标记中获取属性？

python、python-3.x、web-scraping、beautifulsoup、python-requests

我正在使用美丽汤从网页中提取特定的数据。我试图获取特定标记的属性，但失败了。我必须从标记中提取属性'title'。下面是我试图从以下位置获取属性的特定html标记： <span id="currwx_icon" style="display: block;" class="weather_icon1 wxico_l_23a" title="Cloudy"></span> 以下是我运行的代码： import requests from bs4 import BeautifulSoup da

浏览 2提问于2022-09-20得票数 2

回答已采纳

1回答

如何使用R中的rvest包提取<tag>外部的文本

html、r、web-crawler、rvest

有人能帮我解压后的测试是从，我想提取发件人的名字。它就在em标签的外面。我正在使用python BeautifulSoup包。下面是一个指向网页的链接：我能够成功地提取电子邮件标题，因为is在一个标签中。在html页面中没有其他div或类。这是页面的html代码：这是我尝试过的 url <- "http://seclists.org/fulldisclosure/2016/Jan/0" doc <- htmlTreeParse(url, useInternalNodes = T, trim = T, addAttributeNamespace

浏览 7提问于2016-08-02得票数 1

回答已采纳

2回答

如何在html源代码中提取href属性

python、html、web-scraping、beautifulsoup

这是我正在处理的HTML源代码： <a href="/people/charles-adams" class="gridlist__link"> 所以我想要做的是提取href属性，在本例中应该是"/people/charles-adams"，并带有漂亮的So模块。我需要这个，因为我想获得的特定网页的soup.findAll方法的html源代码。但是我正在努力从网页中提取这样的属性。有人能帮我解决这个问题吗？附言:我正在使用这个方法，通过Python模块beautifulSoup来获取html源代码： request = reque

浏览 24提问于2019-09-23得票数 0

2回答

使用python中的美观汤从具有更多文本内容的Web页面中提取数据

python、html、python-2.7、web-scraping、beautifulsoup

我一直在尝试提取网页中数据丰富的节点。有没有办法从网页中提取文本？ import requests import bs4 from bs4 import BeautifulSoup import urllib2 url = "http://www.amazon.in" r = requests.get(url) html = BeautifulSoup(r.content) print html.title.text 我可以打印网页的标题，你能帮我提取网页中的文本(只有文本)吗？提前感谢

浏览 7提问于2015-04-22得票数 1

回答已采纳

1回答

使用python代码从IEEEXplore网站提取DOI

python、extract、ieee、doi

无法从网页中提取字段数据，这不是常见的web抓取问题。它也与javascript相关联。我也尝试了python-request，但是无法解决这个问题。我正在尝试从网页中提取doi。doi位于javascript中。我能够读懂页面，代码一直运行到{print(Soup)}。当我试图提取DOI值(在给定代码中，示例网页的doi如下：“doi”：“10.1109/LAwr2014.2364296”)时，我想打印“10.1109/LAwr2014.2364296”，这是从网页中提取的。 import urllib from bs4 import BeautifulSoup web_page = &#

浏览 4提问于2019-02-09得票数 0

3回答

使用BeautifulSoup获取属性值

python、python-2.7、beautifulsoup

我正在编写一个python脚本，它将在解析完后从网页中提取脚本位置。假设有两种情况： <script type="text/javascript" src="http://example.com/something.js"></script> 和 <script>some JS</script> 我能够从第二个场景中获得JS，也就是JS是在标记中编写的。但是有没有办法从第一个场景中获得src的值(即提取脚本中src标记的所有值，比如)？这是我的密码 #!/usr/bin/python import reque

浏览 4提问于2013-09-11得票数 10

回答已采纳

1回答

python漂亮的汤提取标签之间的出现次数

python、tags、beautifulsoup、extract

我想提取的数字“文件它”之间的标签在网页上。这是我的代码。 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://www.crummy.com/software/BeautifulSoup/") bsObj = BeautifulSoup(html, "html.parser") nameList = bsObj.findAll(text="file it") print(len(nameList)) 在"fil

浏览 1提问于2017-03-13得票数 0

回答已采纳

1回答

如何从<ul>、<li>l ist标记获取数据以刮取数据

html、web-scraping、data-extraction

我已经从网页中提取了数据，但是我无法从没有唯一标识符的网页中提取数据。我已经尝试过从具有类、span、id等唯一标识符的网页中提取数据，但是当页面没有唯一标识符时该怎么办？ url="https://dblp.org/" r=requests.get(url) print(r.content) b=BeautifulSoup(r.text,"html.parser") print(b.prettify()) a=b.find_all('ul',{"id":"browsable"}) #no id is avai

浏览 0提问于2019-05-02得票数 0

回答已采纳

2回答

漂亮的汤Python提取数据

python、beautifulsoup

我对蟒蛇很陌生。堆栈溢出的长时间用户，但第一次发布一个问题。我正在尝试从网站上提取数据，使用美丽的汤。它能够提取到列表中，但我无法提取穴位数据。这里的目标是提取列出的：指甲油订阅盒，美容产品订阅框，女性订阅框标签：化妆，美容，指甲油你能告诉我怎么实现它吗？ import requests from bs4 import BeautifulSoup l1=[] url='http://boxes.mysubscriptionaddiction.com/box/julep-maven' source_code=requests.get(url) plain_text=sour

浏览 3提问于2017-07-07得票数 3

1回答

Python BeautifulSoup -展开所有<div>问题

python、web-scraping、beautifulsoup

我对python很陌生，并且使用BeautifulSoup 从：中刮取数据。我能够在第一次战斗列表上预置所有我想要的操作，因为它在默认情况下是扩展的。但是，我在后面的列表中遇到了问题，因为我想要的数据隐藏在“div”的树中。在制作“汤”时，有没有办法在整个网页上扩展所有这些树？下面是我使用的当前代码行： headers = requests.utils.default_headers() headers.update({ 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0)

浏览 0提问于2020-07-06得票数 0

1回答

如何在<em>标记外提取BeautifulSoup文本

python、beautifulsoup、web-crawler

有人能帮我解压后的测试是从，我想提取发件人的名字。它就在em标签的外面。我正在使用python BeautifulSoup包。下面是一个指向网页的链接：我能够成功地提取电子邮件标题，因为is在一个标签中。在html页面中没有其他div或类。这是页面的html代码：这是我尝试过的 def title_spider(max_pages): page = 0 while page <= max_pages: url = 'http://seclists.org/fulldisclosure/2016/Jan/' + str(page)

浏览 4提问于2016-08-02得票数 3

回答已采纳

2回答

如何使用webscraping查找图像链接

python、web-scraping

我想解析网页的图片链接。我已经尝试了下面的代码，但它显示了一些错误。 #!usr/bin/python import requests from bs4 import BeautifulSoup url=raw_input("enter website") r=requests.get("http://"+ url) data=r.img soup=BeautifulSoup(data) for link in soup.find_all('img'): print link.get('src') 错误 File "

浏览 0提问于2018-06-20得票数 0

1回答

如何从网页上的特定部分中提取链接

html、web-scraping、beautifulsoup

我对网络抓取是个新手，对我目前的情况有点困惑。有没有办法从html检查器中提取所有部分的链接(我用红色圈出的地方)，它看起来像是在"performance-section“类下面，也在"heading”类下面。我的想法是从“性能部分”开始，最后到达"a“标签href以获得链接。 ? ? 我尝试使用下面的代码，但它给我的结果是“无”。我停在这里，因为如果我在得到"a“标签之前就已经没有得到任何东西，那么我认为继续下去是没有意义的。 import requests import urllib.request from bs4 import Beautifu

浏览 28提问于2021-10-02得票数 0

回答已采纳

1回答

如何从带有<dt>的<span>标记中获取文本？

python、web-scraping、beautifulsoup

我正在尝试从<dt>标记中提取文本，在www.uszip.com上使用<span>提取文本：下面是我想要得到的一个例子： <dt>Land area<br><span class="stype">(sq. miles)</span></dt> <dd>14.28</dd> 我想把14.28从标签上拿出来。我现在就是这样接近它的：注意: soup是整个网页源代码的BeautifulSoup版本： soup.find("dt",text="Land

浏览 2提问于2013-12-22得票数 2

1回答

如何使用漂亮的汤动态地抓取内部链接

python、beautifulsoup

我的需求是从网页中获取标题、图像和摘要。我能够从主页上获得标题和摘要。但是，为了获得摘要，我需要抓取锚标记中提到的内部URL。我成功地获得了标题，图片和锚标签链接。但是我不能找到如何发送这个锚标签链接来获取摘要。请帮帮我。 from bs4 import BeautifulSoup import requests source = requests.get('https://www.aitrends.com/category/ai-software/').text soup = BeautifulSoup(source, 'lxml') match = s

浏览 13提问于2019-08-19得票数 1

1回答

在Python标记中使用BeautifulSoup进行网络抓取

python、web-scraping、beautifulsoup

我目前正在尝试从以下链接中获取一些信息： http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2001.nsf/ee3e4953228bd84705256dcd008385e7/4ec9c3be3fc593e2052571c40071de75?OpenDocument 我想用Python语言中的BeautifulSoup抓取表中的一些信息。理想情况下，我希望将"Groupo Parliamentario“、"Titulo”、"Sumilla“和"Autores”作为单独的项从表中删除。到目前为止，我已

浏览 19提问于2020-04-04得票数 1

回答已采纳

2回答

如何使用BeautifulSoup跳过某些标签？

python、loops、web-scraping、beautifulsoup

我是Python的初学者，目前我正在尝试使用BeautifulSoup编写一个简单的脚本，以便从网页中提取一些信息并将其写入CSV文件。我在这里要做的是，浏览一下网页上的所有列表。在我要使用的特定HTML文件中，只有一个'ul‘有id，我希望跳过它，并将所有其他列表元素保存在一个数组中。我的代码不能工作，我不知道如何解决我的问题。 for ul in content_container.findAll('ul'): if 'id' in ul: continue else: for li in ul.fin

浏览 0提问于2018-04-11得票数 1

3回答

我在分析网页中的表时遇到了麻烦。

python、selenium、parsing、web-scraping、beautifulsoup

我正在尝试使用selenium和BeautifulSoup从网页(BeautifulSoup)中提取一个表。但是我被解析表困住了。我只想要一个表格，从网页，是“联盟表”，但无论我尝试，我得到错误信息。这是我试过的密码。 import selenium from bs4 import BeautifulSoup from selenium import webdriver import time driver.get("https://google.com") elem = driver.find_element_by_xpath('//*[@id="ts

浏览 3提问于2019-10-08得票数 1

回答已采纳

3回答

使用BeautifulSoup从表中抽取选定的列

python、html-parsing、beautifulsoup

我正在尝试使用BeautifulSoup提取的第一列和第三列。从超文本标记语言看，第一列有一个<th>标记。感兴趣的另一列具有as <td>标记。在任何情况下，我所能得到的只是一个带有标签的列的列表。但是，我只想要文本。 table已经是一个列表，所以我不能使用findAll(text=True)。我不确定如何以另一种形式获得第一列的列表。 from BeautifulSoup import BeautifulSoup from sys import argv import re filename = argv[1] #get HTML file as a strin

浏览 0提问于2012-10-26得票数 14

回答已采纳

1回答

在HTML文件中搜索特定关键字后，如何找到封闭的标签(开始标签和结束标签)？

html、python-3.x、beautifulsoup

我有一个关键字的列表，我需要在网站中搜索。我首先使用BeautifulSoup提取网页内容，并将其存储在一个文本文件中。我希望在文本文件(其中包含HTML数据)中搜索关键字列表，当其中一个关键字匹配时，需要提取找到该关键字的相应开始标记和结束标记。例如： <div class="col-md-6"> <a href="/"><img alt="DC Sustainable Energy Utility: Your Guide to Green" class="img-fluid" src="

浏览 0提问于2019-07-01得票数 0

2回答

BeautifulSoup是否支持自定义html标记？

python、beautifulsoup、download、youtube、html-parser

我正在尝试建立一个youtube- playlist -downloader，其中包括使用BeautifulSoup抓取播放列表的网页以获取视频的hrefs。在查看一个youtube播放列表网页后，我发现视频信息是ytd-playlist-video-renderer标签的孩子。因此，我尝试运行以下python脚本 html = urllib.request.urlopen(url).read() soup = BeautifulSoup(html, "html.parser") hrefs = list() tags = soup('

浏览 33提问于2019-12-04得票数 0

2回答

从html文本中提取表格

beautifulsoup、lxml

我正在尝试从页面中提取文本并将其保存为dataframe。该页面未格式化为标签，因此pandas无法直接读取。我尝试使用bs4，但无法提取出确切的网址。 from bs4 import BeautifulSoup html = requests.get('https://s3.amazonaws.com/todel162/veryimp/claps-0001.html') soup = BeautifulSoup(html.text, "lxml") links = soup.find_all('li') import pandas

浏览 38提问于2019-02-24得票数 0

回答已采纳

1回答

使用BeautifulSoup抓取的数据与源代码不匹配

python、web-scraping、beautifulsoup、mismatch

我是网络抓取的新手。我已经看过一些关于如何使用漂亮的汤来抓取网站的教程。作为练习，我想从一个房地产网站上提取数据。我想要抓取的特定页面是这个：我的目标是提取每个房地产销售的所有链接的列表。然后，我想遍历链接列表以提取每个销售的所有数据(价格、位置、nb卧室等)。我遇到的第一个问题是，使用经典的漂亮汤代码抓取的数据与网页的源代码不匹配。这是我的代码： URL = "https://www.immoweb.be/fr/recherche/maison-et-appartement/a-vendre?countries=BE&page=1" page = request

浏览 4提问于2021-05-02得票数 1

2回答

BeautifulSoup Python添加额外的字符

python、html、python-3.x、beautifulsoup

我现在正在写一个脚本，把一个url带到lyricswikia，然后把歌词从网站上拉下来。我想我已经知道了如何隔离相关的div标签，但是出于某种原因，python在div标签前会输出一个"b'“，而我不知道如何从div标签内的脚本之间提取歌词。我的代码如下： from bs4 import BeautifulSoup import requests #gets webpage r = requests.get('http://lyrics.wikia.com/2Pac:Dear_Mama') string = r.content soup = Beautiful

浏览 2提问于2014-10-30得票数 0

1回答

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

python、list、web-scraping、beautifulsoup、python-requests

我是Python的新手，我正在尝试构建一个从网站提取一些文本并将其粘贴到Google电子表格中的脚本。文本是用标签包装在网站上的标题。我使用BeautifulSoup (也导入了pygspread )来提取标题，如下所示： target_url = 'WEBSITE URL' r = requests.get(target_url) soup = BeautifulSoup(r.text, 'html.parser') seminarTitles = soup.findAll("a",{"class":"eventC

浏览 16提问于2019-12-24得票数 0

回答已采纳

1回答

通过迭代pd数据帧来抓取多个网页

python、pandas

我试图通过迭代Pandas数据帧(“名字”)来抓取一组网页，该数据帧包含要插入到网页URL中的名字和姓氏。我已经设置了空列表("collab"，"freq")来填充从每个网页中提取的数据。当我只抓取一个网页时，我的代码成功地提取数据来填充这些列表。但是如果我遍历多个网页，我最终会得到空列表。我觉得问题出在我的for循环上。有人能帮我找出哪里出了问题吗？ import pandas as pd from urllib.request import urlopen from bs4 import BeautifulSoup import re import r

浏览 19提问于2019-03-19得票数 0

2回答

不了解网页结构的Web抓取

python、web-scraping、beautifulsoup、web-crawler

我正试图通过写剧本来教自己一个概念。基本上，我正在尝试编写一个Python脚本，给定几个关键字，它将爬行网页，直到找到我需要的数据为止。例如，假设我想找到一张生活在美国的蛇类清单。我可能会用关键字list,venemous,snakes,US运行我的脚本，我希望能够至少80%的肯定地相信它会返回美国的蛇列表。我已经知道如何实现网页蜘蛛部分，我只想学习如何确定网页的相关性，而不知道网页的结构。我已经研究过web抓取技术，但它们似乎都假设了解页面的html标记结构。是否有某种算法可以让我从页面中提取数据并确定其相关性？任何指示都将不胜感激。我将Python与urllib和BeautifulSo

浏览 9提问于2014-05-28得票数 8

2回答

如何使用BeautifulSoup提取html标记之外的数据

python、html、beautifulsoup

我对蟒蛇很陌生，所以。这是我的问题。我正在尝试从以下网页中提取数据--我一直在看关于如何使用BeautifulSoup从网页中收集数据的教程，到目前为止，我有以下代码： import requests from bs4 import BeautifulSoup url = 'http://www.ndbc.noaa.gov/data/latest_obs/46011.rss' r = requests.get(url) soup = BeautifulSoup(r.content) data_types = soup.find_all('strong') fo

浏览 2提问于2014-09-28得票数 0

回答已采纳

1回答

不能使用BeautifulSoup获取整个<li>行

python、beautifulsoup

我正在使用BeautifulSoup从https://www.champlain.edu/current-students网页中提取“辅助性导航主链接类”下的列表项。我原以为下面的工作代码可以提取整个"li“行，但最后一部分"/li”放在它自己的行上。我包含了当前输出和延迟输出的屏幕截图。有什么想法吗？谢谢！！ from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('https://www.champlain.edu/current-students')

浏览 25提问于2021-02-09得票数 0

回答已采纳

3回答

BeautifulSoup网页抓取

python、web-scraping、beautifulsoup、python-requests

我想要废除一个网页。 from bs4 import BeautifulSoup import requests page = requests.get('https://www.mql5.com/en/economic-calendar/united-states') soup = BeautifulSoup(page.content, 'html.parser') calender = soup.find(id="economicCalendarTable") items = calender.find_all(class_="ec

浏览 0提问于2018-05-19得票数 0

回答已采纳

3回答

Python爬行表元素

python、beautifulsoup

我试图从这个网页()中提取与表(Team )对应的所有元素。我想从“团队”中提取所有的数字-(这一行:17132.17-0.51 1.66 1.66 104.7 96.5 .300 .319 .493 10.9 20.5 .228 .501 11.6 79.6 .148频谱中心269,47) import urllib2 from bs4 import BeautifulSoup htmla = urllib2.urlopen('http://www.basketball-reference.com/teams/CHO/2017.html') bsObja=Beautifu

浏览 2提问于2016-12-26得票数 1

回答已采纳

1回答

使用beautifulsoup4查找html标记中的链接

python、web-scraping、beautifulsoup

我目前正在为我的Python类做一个项目，而且我几乎被困住了。我的程序是从我的个人资料通过网络抓取我的在线动画列表。它应该去取标题名和缩略图，然后给我链接。我的问题基本上是，我不能提取表行标签内的图像链接。基本上，有一个包含图片链接的<tr ..... data-title='<img src="url.jpg">标记。提取标题是没有问题的，但这次不一样，因为它在标签内。 def Icon_Crawler(self): page_soup = soup(self.html_stream, "html.parser")

浏览 3提问于2019-11-24得票数 0

回答已采纳