BS4 Python获取href url

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我堆叠在bs4脚本上，我需要获得href链接或元内容，我怎么能做到呢？

浏览 21提问于2020-08-29得票数 0

回答已采纳

2回答

python美丽汤-找不到提要URL

、、、

我正在使用python的模块来获取任何网站的提要URL。但是，该代码并不适用于所有站点。例如，它适用于，但不适用于。实际上，重定向到。所以我用了后一个，但运气不好。但我在谷歌上发现，CNN的提要是。我的代码如下：import requestsfrom bs4 import BeautifulSoup as bs4

浏览 0提问于2018-02-16得票数 0

4回答

使用python访问网站

、、

我试图获得所有的网址在一个网站上使用python。目前，我只是将网站的html复制到python程序中，然后使用代码来提取所有的urls。

浏览 2提问于2015-07-31得票数 1

7回答

Python/BeautifulSoup -如何从元素中删除所有标签？

、

如何才能简单地从BeautifulSoup中找到的元素中剥离所有标记？

浏览 1提问于2013-04-25得票数 88

2回答

部分秀丽汤提取物串

、

但是，当我需要拆分字符串时，我遇到了问题：我有个链接 <a href="http://nihao-wobuhao?

浏览 4提问于2016-05-19得票数 1

回答已采纳

1回答

ValueError:不支持或无效的CSS选择器："unit-4“python

、、

为了从购物网站上获取产品的网址，我刚刚尝试了使用python，Beautifulsoup来进行网络抓取。在这里，我提供了我的简单代码：from bs4 import BeautifulSoup index_url(response.text) return [a.attrs.get('href') for a i

浏览 2提问于2015-01-27得票数 2

回答已采纳

1回答

如何使用web爬虫获取开放url和获取其内容

、

我正在尝试使用网络爬虫从体育、主页、世界、商业和技术中获取新闻内容，我有这样的代码，它可以抓取页面的标题和url，如何获取页面的url并打开它并获取它的正文内容。#python codefrom bs4 import BeautifulSoup page = requests.get(url) soup

浏览 2提问于2021-11-30得票数 0

回答已采纳

1回答

将项目列表视为单个项目错误:如何在已抓取的字符串中查找每个“link”中的链接

、、、

jupyter笔记本中签入：import requestsimport time folder_location = r'E:\Internship\WORK' meeting_links = soup.find_all('a',href='TRUE

浏览 9提问于2019-07-11得票数 0

回答已采纳

4回答

Python中类似jquery的HTML解析？

、、、

有没有什么Python库可以让我像jQuery那样解析超文本标记语言文档？也就是说，我希望能够使用CSS选择器语法从文档中抓取任意一组节点，读取它们的内容/属性等。我以前唯一使用过的Python HTML解析库是BeautifulSoup，，尽管它很好，但我一直在想，如果我有可用的jQuery语法，解析速度会更快。:D

浏览 120提问于2010-06-16得票数 68

回答已采纳

4回答

从href标签提取的美丽汤中提取的url不被urllib2识别

、、、、

我正在学习Python和美丽汤，作为一种练习，我在网上刮起了一个测试网页。我的目标是从网页中提取一个网址，然后按照这个网址提取另一个网址。我的代码如下：path = "http://python-data.dr-chuck.net/known_by_Fikret.html"a = soup.find_all("a") path = re.search(pat

浏览 7提问于2017-01-13得票数 0

回答已采纳

2回答

winners-finalists/HM_Watching%20birds2_Shane%20Conklin_MA_2012.jpg" 现在在源代码中的链接是蓝色的，当你点击它时，它会带你到图片所在的完整URL，我知道如何使用Beautiful Soup在Python中获取源代码中显示的内容我想知道如何获得一旦单击源代码中的链接后获得的完整URL？编辑:如果我得到了<a href = "/folder/big/a.jpg"，你如何

浏览 1提问于2013-07-31得票数 10

2回答

用BeautifulSoup定位子元素

、

我的代码是from bs4 import BeautifulSoupresult = soup.find('div', id="comic") url

浏览 0提问于2020-01-15得票数 1

回答已采纳

1回答

抓取网站并使用python收集所有的超链接

、

我正在制作一个程序，可以从任何网站获取信息。但是这个程序不起作用。示例--网站是naukri.com，我们必须收集页面的所有超链接：from bs4 import BeautifulSoupisc.verify_mode = ssl.CERT_NONE open = urllib.request.urlopen('https://www.naukri.com/job-listings-PythonD

浏览 16提问于2018-07-26得票数 -1

1回答

获取TypeError: python中需要的字符串或缓冲区

我有这个简单的代码：import requests main_domain = tldextract.extract(url) data = r.text soup(href.get('href&#x

浏览 1提问于2013-07-19得票数 0

回答已采纳

6回答

使用/lxml抓取所有链接

、、、、

url = 'http://www.snapdeal.com/'page = BeautifulSoup(data)forlink in page.findAll('a'): print l 但是，这给了我一个与我预期不同的结果(我关闭了javascript

浏览 4提问于2014-04-17得票数 1

回答已采纳

4回答

Python抓取一个BeautifulSoup4站点上的多个页面

、、、

我需要一个关于如何实际迭代和解析一个网站上的多个页面的具体答案，其中的URL是已知的，但只是在一定程度上。我看过很多教程，但没有一个能真正告诉我如何进入下一页--也许我需要使用正则表达式。我想知道是否有人可以给我一些建议或开始在哪里寻找这个:因此我会给你一个例子-让我们使用Python网站为例-我们都很了解他们：在这个页面上，你会看到有“下一步”按钮，继续页面到：从那里，如果你点击“下一步

浏览 1提问于2015-12-23得票数 0

1回答

我想用漂亮的汤从python的链接中获取内容。

、、、

我正试图从中删除这些数据我使用python、请求和bs4from bs4 import BeautifulSoupimport urllib.request response = requests.get

浏览 2提问于2020-07-07得票数 1

回答已采纳

2回答

抓取wikipedia infobox地理vcard

、、

def getAdditionalInfo(url): city_page = PageContent('https://en.wikipedia.org' + url

浏览 19提问于2019-05-24得票数 0

回答已采纳

2回答

有没有更好、更简单的下载多个文件的方法？

、

我在NYC MTA网站上下载了一些旋转门数据，并想出了一个脚本，只在Python上下载了2017年的数据。html = urllib.urlopen('http://web.mta.info/developers/turnstile.html').read() links = re.findall('href

浏览 3提问于2017-04-12得票数 0

2回答

如何循环遍历标记并重定向以检索更多的标记？

、、

Code:from bs4 import BeautifulSoup as bfs href_list = [] url = href_list[int(position)-1] prin

浏览 3提问于2015-10-29得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云