如何使用CSS选择器通过BeautifulSoup检索特定的链接？_如何在JavaScript中使用CSS选择器查找包含特定类的元素？_使用animate.css (描述中的链接)如何在特定事件完成时触发动画 - 腾讯云开发者社区

python、href

我希望从下面的代码中删除href元素，我可以在运行时返回结果，但它不会从python中的urls列表中删除'#‘和'#contents’。 from bs4 import BeautifulSoup import requests url = 'https://www.census.gov/programs-surveys/popest.html' response = requests.get(url) data = response.text soup = BeautifulSoup(data, 'html.parser') links_w

浏览 5提问于2019-11-23得票数 0

回答已采纳

2回答

在python中获取NextSibling in BeautifulSoup

python、beautifulsoup、python-requests

我正在尝试从一个网页中获取链接，并且我成功地获得了所需链接旁边的图片的href，但是当我尝试使用next_sibling时，我没有得到任何链接。这是我的尝试 import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'} response = request

浏览 2提问于2021-01-08得票数 2

回答已采纳

3回答

从给定的网页收集所有链接，然后按短语进行搜索

python、html、selenium、beautifulsoup

我对python语言很陌生。正如标题中提到的，我试图从这个网页获得所有链接：尝试使用本页的python脚本查找所有链接：*/ 我最感兴趣的链接包括在如下章节中年度月-周日最好的选择是在所有(或某些范围)的年份/月/周/天链接上找到一个特定的短语，或者至少在本地下载链接和“grep”it。到目前为止，我已经尝试使用beautifulSoup和selenium，但从未接近于收集我最感兴趣的内容。似乎链接在“较低的层次”，而我的脚本无法收集它们。非常感谢你的帮助。以下是我的尝试： ############################# ######bs4 script########

浏览 0提问于2018-09-24得票数 1

回答已采纳

3回答

如何使用CSS选择器使用BeautifulSoup检索位于某个类中的特定链接？

python、css、css-selectors、beautifulsoup、firebug

我是Python的新手，我正在学习它用于抓取目的，我正在使用BeautifulSoup来收集链接(即'a‘标签的href )。我正在尝试收集网站的“即将到来的事件”标签下的链接。我使用Firebug检查元素并获取CSS路径，但此代码不返回任何内容。我正在寻找修复，也有一些建议，我可以选择适当的CSS选择器，以检索任何网站所需的链接。我写了这段代码： from bs4 import BeautifulSoup import requests url = "http://allevents.in/lahore/" r = requests.get(url) dat

浏览 0提问于2014-07-17得票数 39

回答已采纳

1回答

如何处理InvalidSchema异常

python、python-3.x、function、web-scraping、return

我在python中使用了两个函数编写了一个脚本。第一个函数get_links()从网页中获取一些链接，并将这些链接返回到另一个函数get_info()。此时，函数get_info()应该从不同的链接生成不同的商店名，但它会抛出一个错误raise InvalidSchema("No connection adapters were found for '%s'" % url)。这是我的尝试： import requests from urllib.parse import urljoin from bs4 import BeautifulSoup def ge

浏览 0提问于2018-11-22得票数 1

回答已采纳

1回答

如何排除某些链接被刮掉？

python、web-scraping、beautifulsoup

我试图只刮从网页的主体链接，但我也收到从这个维基页面的边栏链接，我不想。我目前只想获得div id="bodyContent“class=”mw-body内容“下的链接，但我也从div id="mw-panel”下获得链接。是否有任何方法可以将href从div id="mw-panel“中排除，以便只从div获得链接？ from bs4 import BeautifulSoup import requests import re def getHTMLdocument(url): response = requests.get(url) retur

浏览 6提问于2022-03-29得票数 0

2回答

从HTML中提取Python脚本

python、html、beautifulsoup、python-requests、extract

我正在写一个脚本扫描一组链接。在每个链接中，脚本搜索表中的一行。一旦找到，它就会增加变量total_rank，这是每个网页上找到的总和。等级等于行号。代码如下所示，并输出0： import requests from bs4 import BeautifulSoup import time url_to_scrape = 'https://www.teamrankings.com/ncb/stats/' r = requests.get(url_to_scrape) soup = BeautifulSoup(r.text, "html.parser") s

浏览 2提问于2016-01-07得票数 2

回答已采纳

1回答

字符串切片Python请求网页链接

python-3.x、beautifulsoup、python-requests

我正在尝试使用Python脚本从网页中获取链接。但我发现了错误：如果链接0:4 == '/wiki‘和链接!= '#':TypeError：'NoneType’对象是不可订阅的。你能帮忙吗？ from bs4 import BeautifulSoup import requests my_url = ('https://en.wikipedia.org/wiki/Kashmir') response = requests.get(my_url) page_soup = BeautifulSoup(response.content, &

浏览 0提问于2019-05-19得票数 1

回答已采纳

1回答

如何通过BeautifulSoup在主页中获得特定的文本超链接？

python、python-3.x、beautifulsoup、python-requests

我想搜索它的文本名包括中的“文章”的所有超链接--例如，在这个网页的底部 Write an Article Improve an Article 我想把所有的超链接都打印出来，所以我试着， from urllib.request import urlopen from bs4 import BeautifulSoup import os import re url = 'https://www.geeksforgeeks.org/' reqs = requests.get(url) soup = BeautifulSoup(reqs.text, "html.pars

浏览 5提问于2022-03-18得票数 0

回答已采纳

1回答

如何使用Python通过自动下载链接访问PDF文件？

python、beautifulsoup、urllib3、urlopen

我正在尝试创建一个自动化的Python脚本，转到像this这样的网页，找到正文底部的链接(锚文本“此处”)，并下载后，点击上述下载链接加载的PDF。我能够从原始的超文本标记语言中检索并找到下载链接，但我不知道如何从那里获得link to the PDF。任何帮助都将不胜感激。这是我到目前为止所知道的： import urllib3 from urllib.request import urlopen from bs4 import BeautifulSoup # Open page and locate href for bill text url = 'https://www.m

浏览 45提问于2021-04-21得票数 3

回答已采纳

2回答

如何下载包含python漂亮汤的类中的href (pdf)？

python、beautifulsoup

我有大约900页，每页包含10个按钮(每个按钮有pdf)。我想下载所有的pdf-程序应该浏览到所有的网页，并下载的pdfs一个一个。代码只搜索.pdf，但我的href没有.pdf page_no (1到900)。 https://bidplus.gem.gov.in/bidlists?bidlists&page_no=3 这是网站，下面是链接： BID NO: GEM/2021/B/1804626 import os import requests from urllib.parse import urljoin from bs4 import BeautifulSoup ur

浏览 1提问于2021-12-30得票数 -2

2回答

Web抓取-非href

python-3.x

我有一个csv的网站列表，我想要捕获所有的pdf。 BeautifulSoup select在<a href>上运行得很好，但是有一个网站启动了<data-url="https://example.org/abc/qwe.pdf">的pdf链接，而soup却什么都抓不到。有没有什么代码可以用来获取所有以"data-url“开头并以.pdf结尾的内容？我为乱七八糟的代码道歉。我还在学习。如果我能提供澄清，请告诉我。谢谢你:D csv如下所示 123456789 234567891 import os import requests imp

浏览 14提问于2019-08-14得票数 1

1回答

网络抓取:如何从所有这些链接中获取所有名称和价格？

html、python-3.x、web-scraping

您好，朋友们，我正在尝试所有的数据，如名称，价格和其他数据从这个所有的链接我得到所有的一个python的href链接，但我不知道如何立即获得所有的名称和价格我试图获得，但我得到的错误我只能打印所有的链接从这个代码，但我需要从这个链接的所有数据(名称，价格，另一个)，请帮助我怎么做这里是我的代码。 url='https://m.autocentrum.pl/nowe/' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # To download the

浏览 0提问于2019-12-01得票数 0

1回答

尝试基于类列表对象链接来选择元素--美丽汤

python、beautifulsoup

我使用的是Beautiful汤4.4和python 3.6.6。我已经提取了所有的链接，但是我无法打印出所有包含 “类”：“_self” 这是我要从链接列表中获取的完整链接。 {'href': 'https://www.racingnsw.com.au/news/latest-racing-news/highway-sixtysix-on-right-route/', 'class': ['_self'], 'target': '_self'} 虽然语法看起来像bs4上的文档，但语法不正确。

浏览 0提问于2018-07-08得票数 0

回答已采纳

1回答

用BeautifulSoup导航

python、html、beautifulsoup、html-parsing、python-requests

对于如何使用BeautifulSoup导航HTML，我有点困惑。 import requests from bs4 import BeautifulSoup url = 'http://examplewebsite.com' source = requests.get(url) content = source.content soup = BeautifulSoup(source.content, "html.parser") # Now I navigate the soup for a in soup.findAll('a'):

浏览 5提问于2015-10-29得票数 8

回答已采纳

4回答

在没有浏览器的情况下激活链接

python、urllib

我有一个网页，在那里我是一个注册用户。我需要在没有浏览器(用户名，密码)的情况下登录，然后单击一个链接，将我的名字添加到网页上的列表中。我想让这个过程在后台运行，比如根本不在屏幕上显示。我一直在尝试使用Python来做这件事。 #!/usr/bin/env python2 #coding:utf-8 import sys import urllib import urllib2 import urlparse import subprocess from BeautifulSoup import BeautifulSoup class MyOpener(urllib.FancyU

浏览 0提问于2011-09-17得票数 0

3回答

美汤选择亲子关系的两个项目

python、python-3.x、beautifulsoup

下面的代码查找gameId中的所有链接，并将链接放入数据帧中。我的问题是，我不知道如何用相应的日期将它们存储在一个dataframe中。在本例中，h2是父标记，其子标记具有链接。下面的代码获取链接，但是如何获取每个gameId的日期。 import pandas as pd import requests from bs4 import BeautifulSoup gmdf = pd.DataFrame(columns=['link','gamedate']) url = 'https://www.espn.com/nfl/schedule/_/w

浏览 4提问于2022-01-08得票数 0

回答已采纳

1回答

有条件的陈述在我的刮刀里表现得很奇怪

python、python-3.x、if-statement、web-scraping

我编写了一个python脚本，它使用for loop中的两个条件语句来检查下一个页面url是否在特定的网页中可用。如果链接可用，脚本应该打印该链接。但是，如果没有这样的链接，它应该执行else块并打印这行No link is there。当我运行下面的脚本时，它只在可用时打印链接(在if块中)，但是当没有这样的链接时，它就不会执行else块并退出(也没有错误)。顺便说一句，我希望保留for loop并让我的脚本在else块中打印语句。我怎样才能做到呢？这是一个脚本： import requests from bs4 import BeautifulSoup keyword = [

浏览 0提问于2018-06-14得票数 1

回答已采纳

2回答

“NoneType”对象在“美丽汤”4中不可调用

python、html、python-3.x、web-scraping、beautifulsoup

我是python的新手，并开始尝试使用“美丽汤4”，我试着编写代码，将所有链接放在一个页面上，然后使用这些链接重复prosses，直到我对整个网站进行分析。 import bs4 as bs import urllib.request as url links_unclean = [] links_clean = [] soup = bs.BeautifulSoup(url.urlopen('https://pythonprogramming.net/parsememcparseface/').read(), 'html.parser') for url i

浏览 1提问于2019-03-16得票数 1

回答已采纳

3回答

从div类收集链接

python、web-scraping、beautifulsoup

我在收集链接的代码中有这个部分： def Get_Links(): r = requests.get(main).text soup = BeautifulSoup(r, 'html.parser') links = [] for item in soup.findAll("a", {'class': 'ap-area-link'}): links.append(item.get("href")) return links 如果网页源是： <a class="ap-area-link"

浏览 4提问于2019-12-26得票数 0

回答已采纳