VBA Web抓取-抓取"hrefs“列表_循环Web抓取VBA宏_VBA Web抓取，SPAN问题 - 腾讯云开发者社区

、、、

我正在尝试学习web抓取，并使用此示例从页面中获取链接。有没有更好的方法来做到这一点，或者例如，获得h1的最简单方法是什么？ $html = file_get_contents('page.html'); //parse the html into a DOMDocument $dom = new DOMDocument(); @$dom->loadHTML($html); //grab all the links on the page $xpath = new DOMXPath($dom); $hrefs = $xpath->evaluate("/h

浏览 3提问于2012-11-21得票数 2

回答已采纳

1回答

保存在变量中的擦除文本只返回最后一个文本。

、、、、

我使用selenium从新闻网站的第一页抓取有关给定关键字的所有文章。守则如下： homepage = "https://duckduckgo.com/?q=site%3Awww.ilgiornale.it+immigrati&t=h_&ia=web" driver.get(homepage) links_giornale = driver.find_elements(By.XPATH, "//a[@class='result__a js-result-title-link']") hrefs_giornale = [] for

浏览 5提问于2022-01-17得票数 0

回答已采纳

2回答

使用BeautifulSoup刮取url

、、

你好，我是数据抓取的初学者。在这种情况下，我想得到一个像"https://…“这样的url。但是结果是链接变量中的列表包含了web中的所有链接。这里的代码如下； import requests from bs4 import BeautifulSoup url = 'https://www.detik.com/search/searchall?query=KPK' page = requests.get(url) soup = BeautifulSoup(page.content, 'html.parser') artikel = soup.findAl

浏览 4提问于2021-06-17得票数 0

回答已采纳

2回答

如何使用get_attribute将属性值作为字符串，而不是单个字母？

、、、

我正在使用selenium (可能还包括BS4)为过去4/5年的比赛抓取比赛结果页面()的不同部分，这是我已经抓取了链接的部分。我正试图想出一些健壮的代码来大致刮取这些匹配结果中给出的不同数据位。最初，我尝试使用部分Xpath来刮取每个获胜球员(LHS)的国籍，但是当我试图获得属性值时，它会返回一个字母列表，而不是以字符串的形式返回国籍。我认为BS4可能更适合这一点，因为在某些比赛中添加裁判员数据可能会改变html的格式，但从我所知的情况来看，使用部分Xpath似乎还可以。如何使get_attribute将值作为字符串而不是单个字母提供给我？与Selenium相比，用BS4完成这一抓取

浏览 2提问于2020-03-31得票数 0

回答已采纳

1回答

Transfermarkt url id抓取

、、、

基本上，我想创建一个工具，让你输入球员的名字(就像在transfermarkt上一样，这很好)，它会给你一个的列表。我可以用美容汤把它刮掉。问题是，这个网站的 ids是随机的。有没有一种方法可以在不刮掉所有球员资料的情况下做到这一点？如果不是，我如何抓取整个数据库？(仅包含每个球员的队友的页面)

浏览 18提问于2018-08-24得票数 0

回答已采纳

1回答

一些网站无法使用Jsoup超链接抓取

、、

我最近一直在做一个项目，其中包括从网站上抓取特定的产品，并报告可用性状况(如果有人好奇的话，可以使用图形卡)。使用JSOUP，我一直在通过浏览产品列表页面、抓取所有链接和筛选出适当的链接来实现这一点。对于一些网站，我的代码工作得很好，但对于另一些网站，一些甚至没有链接被我的代码刮走。工作实例：不工作的例子：下面是负责抓取链接的代码片段： public class LinkScrapeLite { public static void main(String[] args) { try { Document doc = Jsoup.c

浏览 4提问于2022-01-06得票数 1

回答已采纳

1回答

如何逐一遍历链接列表，然后使用selenium(driver.get)刮取数据？

、、、

我试图循环通过两套链接。从开始，单击每个季节链接(最后5个赛季)，然后单击每个赛季链接中的每个锦标赛链接，并从每个锦标赛中刮取比赛数据。使用下面的代码，我成功地得到了我想要的赛季链接列表，但是当我尝试抓取锦标赛链接并将它们放到列表中时，它只是得到最后一个赛季的联赛链接，而不是每个赛季的链接。我想这与driver.get有关，在下一行代码工作之前就完成了，我需要使用索引循环/迭代，但是我是一个完全的新手，所以我不太确定。 from selenium import webdriver from selenium.webdriver.common.by import By from seleni

浏览 6提问于2020-03-29得票数 0

回答已采纳

2回答

为什么array_unique不给我返回一个唯一项的列表？

、、

我正在尝试抓取我客户网站主页上的所有urls，以便我可以将其迁移到wordpress。问题是我似乎不能得到一个去重复的urls列表。代码如下： $html = file_get_contents('http://www.catwalkyourself.com'); $dom = new DOMDocument(); @$dom->loadHTML($html); // grab all the on the page $xpath = new DOMXPath($dom); $hrefs = $xpath->evaluate("/html/body//

浏览 0提问于2012-06-23得票数 0

回答已采纳

3回答

我正在尝试删除使用Python和BeautifulSoup抓取的网页链接的重复数据，但它不起作用

、

我正在尝试用Python抓取一个网站，我得到了要打印的链接，但在尝试将它们设置为重复数据消除时，仍然存在重复的链接。有人对我做错了什么有什么建议吗？提前感谢！编辑:所以我尝试了John的建议，但我的csv输出是excel表格中的链接的级联列表，这太疯狂了……我将在下面的原始代码中发布更改： import requests from bs4 import BeautifulSoup page = "https://www.census.gov/programs-surveys/popest.html" r = requests.get(page) raw_html = r

浏览 16提问于2021-01-25得票数 0

回答已采纳

3回答

在php中使用xpath抓取链接

、

我正在尝试从谷歌搜索页面抓取链接。我正在使用xpath下面的be来 //div[@id='ires']/ol[@id='rso']/li/h3/a/@href 抓取链接。xPather会对其进行评估并给出结果。但是当我在我的php中使用它时，它不会显示任何结果。有人能告诉我我哪里做错了吗？cURL没有任何问题。下面是我的代码 $dom = new DOMDocument(); @$dom->loadHTML($result); $xpath=new DOMXPath($dom); $elements = $xpath->evaluate("

浏览 0提问于2010-09-24得票数 2

回答已采纳

1回答

卷曲抓取

、、

我试图从一些网站抓取一些信息使用PHP CURL，问题是它给了我错误(不同)的内容，而不是用正常的浏览器打开它示例站点是：我正在尝试获取meta标签，在浏览器中它返回如下内容： <meta name="title" content="Razmere v Preboldu se umirjajo" /> <meta name="description" content="Za prebivalci Prebolda je nemirna noč, ki ji je sledilo jutro s &a

浏览 2提问于2013-01-28得票数 0

1回答

如何抓取表格的形式，使列表变得均匀

、、、、

我正在使用Selenium Webdriver (Python3.0)从这个中抓取数据。所有的数据都被正确地抓取了，但是它是以列表的形式抓取的，这意味着有127个团队和赔率以及129个Hrefs。不幸的是，这意味着Href不在团队旁边，在excel中的赔率是正确的。有没有办法绕过这个问题？我有附加的截图和我的代码如下。有没有办法将其调整为抓取为表，以便它知道在看不到团队和赔率的情况下不抓取Href？我正在从具有此功能的Winautomation迁移到Selenium。 -显示为什么Href不在团队和odds 旁边的图片- Excel是什么样子的。 import time from sele

浏览 13提问于2017-08-27得票数 2

回答已采纳

1回答

如何在这个漂亮的Python脚本上迭代CSV输出中的列？

、、

我有一个漂亮的Python脚本，它在网站上的组件中查找href链接，并将这些链接逐行输出到CSV文件。我计划每天通过cron作业运行脚本，我想在CSV中添加第二列，标有“看到的次数”。因此，当脚本运行时，如果它已经在列表中找到一个链接，它只会添加到该列中的数字。例如，如果这是第二次看到一个特定的链接，那么它将是"N+1“，或者仅仅是该专栏中的2。但是，如果这是Python脚本第一次看到该链接，它只会将链接添加到列表的底部。我不知道如何攻击它，因为我对Python非常陌生。我开发了Python脚本，用于从XML站点地图中所有页面上的组件中抓取链接。但是，当cron作业每天运行脚本时，我

浏览 0提问于2019-09-06得票数 0

1回答

R中的web抓取html

、、、

我想通过抓取http://obamaspeeches.com/P-Obama-Inaugural-Speech-Inauguration.htm获得网址列表，如下所示： [1] "P-Obama-Inaugural-Speech-Inauguration.htm" [2] "E11-Barack-Obama-Election-Night-Victory-Speech-Grant-Park-Illinois-November-4-2008.htm" 这是我的代码： library(XML) url = "http://obamaspeeches.com/

浏览 1提问于2014-04-03得票数 2

3回答

jQuery预加载列表中的图像

、

我想在jQuery中预先加载翻转图像，但图像列表中的列表如下所示： <li><a href="/images/1.jpg"></a></li> <li><a href="/images/2.jpg"></a></li> <li><a href="/images/3.jpg"></a></li> ========== function preload(arrayOfImages) { $(array

浏览 0提问于2011-10-05得票数 0

回答已采纳

1回答

使用DOMXPath获取属性

、、

我知道有很多方法可以抓住一个属性。这是我的html结果： <li class="result"> <a class="block_container" href="**FIRST**"> <img alt="changeable text" src="**SOME LINK**" border="0"> </a> </li> <li class="result"> <a class="block

浏览 2提问于2017-11-08得票数 0

回答已采纳

2回答

在R中使用xpathSApply抓取XML属性

、、

我在R中使用xpathSApply (在XML包中)抓取XML，但在提取属性时遇到了问题。首先，一个相关的XML片段： <div class="offer-name"> <a href="http://www.somesite.com" itemprop="name">Fancy Product</a> </div> 我已经成功拉取了“Fancy Product”(即element?)使用： Products <- xpathSApply(parsedHTML,

浏览 0提问于2014-08-15得票数 7

回答已采纳

1回答

MS web刮刀返回"&“代替"&”

、

我正在使用Access VBA做一些网络抓取。在大多数地方，它可以很好地抓取表列，但我发现，当存在字符串时，例如 Mon&day，它实际上返回Mon&day。我正在使用IE对象进行web抓取。 Set ie = CreateObject("InternetExplorer.Application") 对于我正在做的单个细胞的抓取： tdRow(subCounter).innerHTML 我知道&是HTML中的一个特殊字符，这可能就是发生这种情况的原因。是否有一种方法可以返回HTML，而不是让VBA进行进一步的解析？

浏览 2提问于2019-12-29得票数 1

回答已采纳

1回答

通过将项目与列表(Python)进行比较，从网页中删除项目

、、、

我收集了一个需要删除的列表中的数据，下面的代码显示了该列表： keyword= "www.indigo.com" hrefs = [links['href'] for links in getDetails.find_all('a', href=True) if target in links['href']] print(hrefs) 它输出以下输出： ['https://www.indigo.com/registration.html'] [] ['https://www.indigo.

浏览 1提问于2021-11-11得票数 0

回答已采纳

1回答

使用xpathSApply使用R进行网络抓取，并尝试只获取与"/overview“的链接

、

我正在为大学做一个涉及网络抓取的项目。我试图在这个网站()中获得球员档案的所有链接。我尝试用以下代码获取链接： library(XML) doc_parsed<-htmlTreeParse("ranking.html",useInternal =T) root<-xmlRoot(doc_parsed) hrefs1 = xpathSApply(root,fun=xmlGetAttr,"href",path='//a') "ranking.html“是保存的链接。当我运行代码时，它给了我一个6887的列表，而不是玩家profil

浏览 0提问于2015-11-03得票数 1

回答已采纳

1回答

抓取网页，页面上的链接，并形成一个带有R的表格

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图在下面的父页面上抓取每个故事的链接：。我不关心父页面上的任何其他链接，但需要为每个故事URL创建一个表，并为相应的URL、故事标题、日期(它始终位于故事标题之后的第一个句子的开头)以及页面的其余文本(可以是几段文本)创建一个表。我试图在 (和几个相关线程)上修改代码，但遇到了困难。任何建议或建议都将不胜感激。这是我到目前为止尝试过的(使用“？”我遇到麻烦的地方)： rm(list=ls()) library(XML) library(plyr) url = 'http://www.who.int

浏览 1提问于2013-06-30得票数 4

回答已采纳

1回答

Php文档结果错误

、

我想从html中抓取一些元素，但我无法根据需要刮取数据。 html <div class="opinions"> <ul> <li> <div class="imgcontainers"> <a href="domainname.com" title="title"> `<img width="160" src="image.jpg" /&

浏览 4提问于2015-11-03得票数 0

回答已采纳

1回答

使用Puppeteer收集页面的链接并打开这些链接以抓取数据

、、

我必须从列表中抓取产品的数据，但数据驻留在这些产品的页面中。例如，假设我想获取产品页面的.product-image。到目前为止，代码成功地获取了每个URL并将其添加到一个数组中，但是我不确定从哪里开始，因为出于某种原因，在urls外部使用page时，它返回Error: Evaluation failed: ReferenceError: page is not defined。 const page = await browser.newPage(); page.waitForNavigation({ timeout: 0, waitUntil: "domcontentl

浏览 144提问于2020-09-12得票数 1

回答已采纳

2回答

生成下拉列表

、

我有一个href的列表，我想从它创建一个下拉列表。如何在不使用jQuery的情况下完成此任务？我是javascript的新手...

浏览 0提问于2009-11-03得票数 0

回答已采纳

3回答

如何使用SimpleHTMLDOM仅获取图像锚标记内的urls

我使用SimpleHTMLDOM从其他网页抓取东西，但我有一个问题，如何才能在图像ancor标记内获得urls，因为该网页包含链接锚标记以及图像锚标记！但是我只想在图片锚标签的边上得到href的值！ <a href="I DO NOT NEED THIS VALUE"><a/> <a href="I NEED THIS VALUE"><img src="xxxx"><a/> 但是当调用DOM时，它会返回所有的href URL，包括链接锚URL！我只需要在图像锚标签内的网址！我使用这

浏览 0提问于2012-05-06得票数 0

回答已采纳

2回答

Python将web抓取数据写入csv

、

我对Python还是非常陌生的，我正在为我的学校做一项作业。我需要编写代码从网站中提取所有的html，然后将其保存到一个csv文件中。我相信我需要将链接转换成一个列表，然后写出列表，但我不知道如何做到这一点。到目前为止，这就是我所拥有的： import bs4 import requests from bs4 import BeautifulSoup, SoupStrainer import csv search_link = "https://www.census.gov/programs-surveys/popest.html" r = requests.get(s

浏览 1提问于2018-03-17得票数 0

回答已采纳

1回答

如何有选择地从div标签中抓取href？

、、

我正在试着从一个新闻网站上抓取URLS。具体地说，它们是针对特定搜索词的搜索结果中列出的新闻文章的URL。我刚接触BeautifulSoup，我不知道如何有选择地抓取链接到一篇文章的href(当我试图抓取div标签中的子href时，我只得到一个空集，而当我抓取一个标记时，我得到的URL远远多于我想要的。有什么想法吗？以下是该网页的链接：https://www.thenational.ae/search?q=aramco 这是我正在使用的代码。 import requests, random, re from bs4 import BeautifulSoup as bs url = &

浏览 24提问于2020-03-21得票数 0

回答已采纳

1回答

我想打开网站内的每一个项目为抓取使用硒和python

、

我正在尝试打开一个网站进行抓取，即在打开一个产品的新标签后，它应该刮掉，然后返回到原始标签，随后是其他产品。我认为问题出在Xpath上，我使用了xpath“//acontain(@class，'prdLink')” 在这里，我使用了xpath方法，但不知何故它无法打开页面 chromeOptions = webdriver.ChromeOptions() chromeOptions.add_experimental_option('useAutomationExtension', False) driver = webdriver.Chrom

浏览 0提问于2019-08-26得票数 1

1回答

元标记在刮伤python中不起作用。

、、

下面是我的spider.py代码 class Example(BaseSpider): name = "example" allowed_domains = {"http://www.example.com"} start_urls = [ "http://www.example.com/servlet/av/search&SiteName=page1" ] def parse(self, response): hxs = HtmlXPathSelector(response) hrefs =

浏览 0提问于2012-07-18得票数 0

回答已采纳

2回答

段落文本中的Dom元素

我在做一个网络刮刀，这让我快疯了！我需要一段文字。简单，对吧？！这是密码。 $xpath = new DOMXPath($dom); $hrefs = $xpath->evaluate("/html/body//div"); for ($i = 0; $i < $hrefs->length; $i++) { $href = $hrefs->item($i); $url = $href->getAttribute('class'); echo "<br />Found it: $url"; } 它

浏览 2提问于2010-12-19得票数 0

回答已采纳

1回答

为什么我的echo'd PHP变量仍然不产生任何结果？

、、、、

最近，我得到了一个关于如何处理从HTML内容中提取URL的很好的答案：但是在实现代码之后，我仍然没有显示变量上的echo调用。我知道如果我回显get_the_content()，它会像应该的那样显示整个post正文，但loadHTML()可能没有正确处理它？我实现了所提供的代码(据我所知，它完全没有错误)，并且在foreach循环中将提取的URL分配给一个变量，这样我就可以在必要的位置使用它，如下面的代码所示： <?php $doc = new DOMDocument(); $doc->strictErrorChecking = FALSE; $xp

浏览 0提问于2011-11-19得票数 1

回答已采纳

2回答

从dict中获取一个列表，并从该列表中保存一个元素

、

标题非常明确。我有一个字典(非常大的字典)，A它有： 'orderItems': { 'entries': [{ 'links': { 'order': { 'href': 'https: //api-latest.wdpro.xxxxx.com/booking-servicx/xxxxx/154301425212-3420290-4070919-6588782' } 所以，orderItems

浏览 7提问于2015-04-08得票数 0

回答已采纳

2回答

如何使用VBA从word内容控件中获取下拉值(不显示文本)

、、

我的word文档中有一个下拉式内容控件元素。当我查看该content控件的属性时，它们定义了“显示名称”和“值”。我找到了显示如何抓取显示文本/名称的VBA代码，但我找不到任何显示如何使用VBA获取值信息的代码。基本上，我想从中提取"value“字段，以及其他几个下拉列表，以通过VBA填充文本字段。

浏览 50提问于2019-11-12得票数 1

回答已采纳

3回答

自定义集合实现IEnumerable

、、、

我知道从技术上讲，接口是用来读取的，而不是用来写或编辑的。但是，我想在下面的类中添加一个add和addrange函数，这是我目前拥有的不起作用的函数 public class HrefCollection : IEnumerable<Href> { private IEnumerable<Href> hrefs; public IEnumerable<Href> Add( Href href ) { yield return href; } public IEnumerable<Href&g

浏览 0提问于2010-05-21得票数 10

回答已采纳

1回答

导出Siebel ListView

、、、、

在过去的几天里，我一直在尝试用Excel VBA自动化Siebel Web。通过sendkey和一些网络抓取的组合，我已经设法查询我的数据。问题是，现在我不能调用导出小程序来保存它。我几乎搜索了所有包含"Siebel“、"javascript”标签的网站，但都没找到。由于IE开发工具被锁定，我使用VBA抓取网页，并再次尝试使用，但没有成功。我想知道是否有人设法通过自动化将数据从Siebel导出到xml/csv/excel文件中。我将在稍后发布我的代码，看看您是否可以帮助我。

浏览 0提问于2016-06-24得票数 0

4回答

列表理解返回"NoneType“TypeError，原因未知

、、

我正在尝试从我从网页检索到的链接列表中获取链接地址的特定字符串。 from urllib.request import urlopen from bs4 import BeautifulSoup # Grab table links using url url = "https://www.epa.gov/automotive-trends/download-automotive-trends-report#Full Report" html = urlopen(url) soup = BeautifulSoup(html, 'html.parser')

浏览 35提问于2021-02-06得票数 1

回答已采纳

3回答

提取每个Nokogiri块中作用域的值

、

我正在尝试创建一个函数，它将从维基百科页面中抓取演员的从影记录。这是代码的一个示例 doca = Nokogiri::HTML(open("http://en.wikipedia.org/wiki/Kevin_Bacon")) grandparent = doca.xpath('//div[@id="mw-content-text"]').children() child = [] grandparent.each {|node| node.children.each{|x| if x['id'] == "

浏览 0提问于2012-11-04得票数 1

回答已采纳

1回答

Groovy htmlunit getByXPath

、、、

我目前正在使用HtmlUnit试图从页面中抓取href，但遇到了一些问题。 XPath为： /html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a 在网页上看起来是这样的： <a class="t" title="This Brush" href=http://domain.com/this/that">Brush Set</a> 在我的代码中，我正在做： hrefs = page.getByXPath("//html/

浏览 0提问于2010-11-25得票数 1

回答已采纳

2回答

在R中抓取相关页面

、、

我正在尝试从几个姐妹URL中抓取数据进行分析。前面的一个线程帮助我走上了正确的道路，使用了以下脚本： rm(list=ls()) library(XML) library(RCurl) #=======2013======================================================================== url2013 = 'http://www.who.int/csr/don/archive/year/2013/en/index.html' doc <- htmlParse(url2013) dummy2013 &l

浏览 2提问于2013-07-01得票数 1

回答已采纳

1回答

更改IE的缩放设置，以便使用VBA进行web抓取

、、、

我正在尝试使用VBA进行web抓取，但出现以下错误：做 Dim driver As New webdriver driver.Start '"ie" 然后 ? 我修复了“互联网选项”设置，并将设置重置为默认值。我也检查了注册表设置，但它已经设置为100%。然而，每次我打开IE，它的缩放比例都被设置为200%。我可以在VBA中添加什么代码，或者我应该更改哪个设置？

浏览 9提问于2021-07-22得票数 0

回答已采纳

2回答

我很难从一个包含Beautiful Soup和Python的标签中获得我想要的东西

、、

这是我想要抓取的html的一个示例。 <a id="catalogEntry_img3677183" href="http://www.academy.com/shop/pdp/under-armour%E2%84%A2-mens-tide-chaser-short-sleeve-shirt#repChildCatid=4099002" title="Under Armour Men's Tide Chaser Short Sleeve Shirt" onclick="javascript:dlTrackProductGri

浏览 1提问于2017-08-15得票数 0

回答已采纳

1回答

获取列表中的LinkedIn用户href (Selenium)

、、、

我是Python和Selenium的初学者，我只是想用Selenium获取特定页面上的所有LinkedIn profile href，以便添加到列表中，但我不知道为什么它10次返回所有相同的URL： 📷 📷 这是我的代码： try: browser.find_element_by_id("username").send_keys(email_address) sleep(1) browser.find_element_by_id("password").send_keys(password) sleep(1)

浏览 41提问于2021-01-19得票数 0

2回答

如何使用Beautiful soup从HTML锚标记返回目的地

、

我正在使用python2和Beautiful soup来解析通过requests模块检索到的HTML import requests from bs4 import BeautifulSoup site = requests.get("http://www.stackoverflow.com/") HTML = site.text links = BeautifulSoup(HTML).find_all('a') 返回一个包含输出的列表，该列表看起来像<a href="hereorthere.com">Navigate</a&

浏览 0提问于2014-10-10得票数 0

1回答

用特定的键值对从列表返回dict条目的Pythonic方法？

、、

我正在处理一个JSON文件。文件中包含一个links列表，如下所示： "links": [ { "href": "https://specificURL/incidents", "rel": "canonical" }, { "href": "https://specificURL/metadata-catalog/incidents", "mediaType": "app

浏览 1提问于2017-10-11得票数 0

回答已采纳

1回答

angularjs路由捕获超级鱼菜单中的锚元素

、

我试着用angularjs和路由相结合的超级鱼菜单。我的web应用程序是一个MVC应用程序，我使用超级鱼菜单在我的web应用程序中导航。超级鱼菜单包含允许我导航到MVC应用程序的其他视图的链接。其中一个视图是一个带有路由的角度应用程序。但是在这个角度应用程序被加载后，我的超级鱼菜单都不再工作了，因为角拦截它们，并认为它应该由角路由来处理。有没有办法让天使忽略我的超级鱼菜单上的锚链接？我不能将完整的MVC应用程序重构为SPA (太大了，不能一次转换)，因为我正在逐渐将角引入到这个MVC应用程序中。 --我试着安装文档中的每个锚target="_self"，但是其中一个是bec

浏览 0提问于2013-04-28得票数 0

2回答

另一列列表中的火花列项

、、、

我是个生手，在column1列表中寻找一个column2条目。让我们举个例子。让我们用GoogleSearch-3列( query - string、hrefs - list和clicked_url - string )做一个简单的例子，我需要检查clicked_url是否在hrefs中。有三种可能的情况可以发生：如果clicked_url在“参考资料”列表中，则保留该行如果clicked_url不在“参考资料”列表中，则筛选出该行-remove。(你可以想象，就像点击广告一样) 如果clicked_url为空(没有clicked_url)，则保留行，但将clicked_url的值更改

浏览 7提问于2020-04-10得票数 2

回答已采纳

1回答

Python webscraping，需要格式化输入，以及如何访问数组索引中的信息

、

import xml import bs4 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url = 'https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Laboratory&CycleBeginYear=2003' uClient = uReq(my_url) page_html = uClient.read() uClient.close() page_soup

浏览 19提问于2021-08-09得票数 1

回答已采纳

6回答

使用jquery或javascript从html文件中检索所有超链接

、

我需要使用jquery检索当前html页面中存在的所有超链接。我如何使用正则表达式来做到这一点呢？另外，我可以使用javascript中的集合来存储列表中的所有hrefs吗？

浏览 0提问于2012-07-11得票数 1

1回答

XSLT顺序变量根据它们在引用文件中的顺序

、、

我有一系列的链接，需要根据它们在站点地图xml文件中的出现顺序进行排序。到目前为止，我已经按照它们的父模块号对链接进行了分组，但是每个组的链接都是按字母顺序排列的。我需要每个列表中的链接和每个子列表中的链接，以它们在sitemap文件中的顺序下降。我正在使用XSLT 3。需要排序的XML <article> <ul> <li data-mod="module4"> <a href="../module4/irregular-headers.html&#

浏览 3提问于2022-05-25得票数 1

1回答

如何获得CSS样式的类

、、

我使用以下代码获取元素的所有css样式： style = window.getComputedStyle(dom, null) 到目前一切尚好。我需要知道是否有样式，如果，是哪个类将CSS样式带到这个列表中。例如，我们查看结果行 "background-image": "none", 我需要知道是否有一个类应用这种样式，以及是否有一个类的名称有这个类，最好是从哪个CSS文件。如果有办法得到这个，信息，什么是最好的方式去做？

浏览 0提问于2019-01-20得票数 1

回答已采纳