在Python 3中使用lxml xpath抓取文字类描述

在Python 3中，可以使用lxml库和xpath来抓取文字类描述。lxml是一个高性能的XML和HTML处理库，它提供了XPath解析器，可以方便地从HTML或XML文档中提取数据。

XPath是一种用于在XML或HTML文档中定位元素的语言。它使用路径表达式来选择节点或节点集合。使用lxml的xpath方法，可以通过指定路径表达式来选择文档中的特定元素。

以下是使用lxml和xpath抓取文字类描述的步骤：

安装lxml库：在命令行中运行以下命令来安装lxml库：
安装lxml库：在命令行中运行以下命令来安装lxml库：
导入lxml库和相关模块：
导入lxml库和相关模块：
获取HTML或XML文档：
获取HTML或XML文档：
创建XPath解析器：
创建XPath解析器：
使用XPath表达式选择元素：
使用XPath表达式选择元素：
处理抓取到的文字类描述：
处理抓取到的文字类描述：

lxml xpath抓取文字类描述的优势在于它的高性能和灵活性。它可以处理大型文档，并且支持复杂的XPath表达式，可以精确地选择所需的元素。

应用场景：

网页数据抓取：可以用于从网页中提取特定的文字描述信息。
数据清洗和处理：可以用于处理包含结构化数据的XML或HTML文档。
数据提取和分析：可以用于从大量的XML或HTML文档中提取所需的文字描述信息。

腾讯云相关产品推荐：

云服务器（CVM）：提供可扩展的云服务器实例，用于运行Python脚本和应用程序。产品介绍链接
对象存储（COS）：提供高可靠性、低成本的云存储服务，用于存储和管理抓取到的文字类描述数据。产品介绍链接
人工智能平台（AI）：提供丰富的人工智能服务，如自然语言处理（NLP）和图像识别，可用于文字类描述的处理和分析。产品介绍链接

请注意，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求和预算来决定。

lxml.etree无效谓词：“./tbody/tr[位置()= 1]”

、、

XPath './tbody/tr[position() = 1]'被火狐的XPath引擎所接受，但它在lxml 4.5.0 (libxml2 2.9.10；Python3.8.10；Ubuntu20.04.5)上被拒绝。 … File "src/lxml/etree.pyx", line 1532, in lxml.etree._Element.find File "src/lxml/_elementpath.py", line 323, in lxml._elementpath.find File "src/lxml/

浏览 8提问于2022-10-18得票数 0

回答已采纳

3回答

web解析内容的lxml长度

、、

我用Python语言中的lxml抓取网页。然而，为了获得表行的数量，我首先获得所有行，然后使用len()函数。我觉得这太浪费了，有没有其他方法来获取他们的数字(动态1)，以便进一步抓取？ import lxml.html doc = '' try: doc = lxml.html.parse('url') except SkipException: pass if doc: buf = '' #get the total number of rows in table tr = doc.xpath("

浏览 3提问于2012-09-22得票数 0

回答已采纳

1回答

如何在lxml中访问循环内的内联元素？

、

我正在尝试从一个网站上筛选抓取值。 # get the raw HTML fruitsWebsite = lxml.html.parse( "http://pagetoscrape.com/data.html" ) # get all divs with class fruit fruits = fruitsWebsite.xpath( '//div[@class="fruit"]' ) # Print the name of this fruit (obtained from an <em> in the fruit div)

浏览 0提问于2012-02-12得票数 0

回答已采纳

1回答

如何抓取一个使用Python (BeautifulSoap，Requests)登录的BankID网站？

如何抓取一个使用Python (BeautifulSoap，Requests)登录的BankID网站？我想用BankID登录，然后用python创建一个网站。如何登录到使用BankID登录的网站？常规方法不起作用： from bs4 import BeautifulSoup import requests source = requests.get('https://example.com').text soup = BeautifulSoup(source, 'lxml') print(soup)

浏览 20提问于2020-10-04得票数 0

回答已采纳

2回答

如何在python中不使用[‘']来显示

、、、

我正在用python中的lxml抓取一个网页 from lxml import html import requests page=requests.get(url) tree=html.fromstring(page.text) name=tree.xpath(xpath) print name 它正在显示：['Matthew'] 我想显示：Matthew 有什么解决办法吗？

浏览 3提问于2014-11-20得票数 0

回答已采纳

1回答

从一个站点返回的数据，而不是从另一个站点返回的数据

、、、

我只是学习巨蟒，并决定玩一些网站刮。据我所知，我创建了一个能工作的1，和第二个几乎相同的，这是不起作用的，我也不知道为什么。 from lxml import html import requests page = requests.get('https://thronesdb.com/set/Core') tree = html.fromstring(page.content) cards = [tree.xpath('//a[@class = "card-tip"]/text()'),tree.xpath('//td[@data

浏览 1提问于2017-04-21得票数 1

回答已采纳

2回答

Python xpath查询不返回文本值

、、、

我正在尝试使用Python中的lxml模块从中抓取数据。我想获取第一段中的文本，但下面的代码返回空值 from lxml import html import requests page = requests.get('http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece') tree = html.fromstring(page.text) data = tree.xpath('//*[@id="left-colu

浏览 3提问于2015-07-09得票数 1

1回答

如何在不导入整个模块的情况下处理lxml错误？

、、、

我有一个Python (3.6)脚本作为网络蜘蛛运行。它抓取页面的内容，提取链接并抓取它们。它使用lxml.html来处理链接，并使用 from lxml import html 我正在尝试为它在运行时可能遇到的每个错误创建自定义响应。我目前正在处理Unicode、SSL、重定向、连接和ContentDecode错误。我经常碰到lxml.etree.XMLSyntaxError和lxml.etree.XMLParseError。我尝试过通过except-块传递它们，但是当它运行到NameError: name 'lxml' is not defined时总是停止，因为我只导入l

浏览 7提问于2017-05-21得票数 0

1回答

使用CSS选择器和Python对表中的多行单元格进行and抓取

、、

因此，我在网页上抓取一个页面()，其中表中有多行单元格：我使用下面的代码来抓取每一列(下面的一列恰好刮掉了名称)： import lxml.html from lxml.cssselect import CSSSelector # get some html import requests r = requests.get('http://canoeracing.org.uk/marathon/results/burton2016.htm') # build the DOM Tree tree = lxml.html.fromstring(r.text) # con

浏览 5提问于2016-08-24得票数 2

回答已采纳

2回答

如何使用lxml，XPath和Python从网页中提取链接？

、、、、

我得到了这个xpath查询： /html/body//tbody/tr[*]/td[*]/a[@title]/@href 它提取所有带有标题属性的链接-并在中给出href。但是，我似乎不能在lxml中使用它。 from lxml import etree parsedPage = etree.HTML(page) # Create parse tree from valid page. # Xpath query hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href") f

浏览 0提问于2010-01-18得票数 5

回答已采纳

1回答

如何为HTML元素找到所需的XPath？

、、

我正在尝试创建一个Python应用程序，该应用程序使用lxml从网站中抓取HTML，并收集各国及其相应的首都。我正在从：中抓取HTML，我不知道如何获得所有的国家，这样我就可以将它们列在列表中。到目前为止，这就是我所拥有的： from lxml import html import requests page = requests.get("http://www.manythings.org/vocabulary/lists/2/words.php?f=countries_and_capitals") tree = html.fromstring(page.content)

浏览 0提问于2015-11-24得票数 1

回答已采纳

2回答

使用Python抓取网页

、、

我正在尝试学习抓取网页()，但是我不知道我做错了什么。我认为这与识别xpath有关，但是如何获得正确的路径(如果这是问题所在)？我尝试过Firefox中的Firebug以及Chrome中的开发工具。我希望能够刮取制造商的价值(D&L屏幕打印)以及所有的版本细节。 python脚本： from lxml import html import requests page = requests.get('http://www.expressobeans.com/public/detail.php/185246') tree = html.fromstring(page.

浏览 4提问于2015-06-11得票数 1

4回答

带有lxml子路径的XPath谓词？

、、、

我正在努力理解发送给我的用于ACORD XML表单(保险中的常见格式)的XPath。他们发送给我的XPath (为了简洁起见被截断)： ./PersApplicationInfo/InsuredOrPrincipal[InsuredOrPrincipalInfo/InsuredOrPrincipalRoleCd="AN"]/GeneralPartyInfo 我遇到麻烦的地方是Python的告诉我[InsuredOrPrincipalInfo/InsuredOrPrincipalRoleCd="AN"]是一个invalid predicate。我在中找不到任何地方

浏览 11提问于2011-06-02得票数 7

回答已采纳

1回答

Python/HTML如何在没有cookie顾问的情况下抓取网页内容？

、、、

我正在尝试用Python抓取网页的内容，并且我能够获得我需要的所有内容，但是在返回的HTML中也有cookie顾问。我想删除它，但是我不知道如何将它排除在XPath查询或中。在这里，您可以在页脚中找到顾问。 #!C:/Python27/python from lxml import etree import requests import cgi fs = cgi.FieldStorage() q =fs.getfirst ("URL") page = requests.get(q) if q.find("http://www.dlib.org") !=

浏览 0提问于2015-09-02得票数 1

回答已采纳

2回答

需要python lxml语法帮助来解析html

、、

我是一个全新的python新手，我需要一些使用lxml查找和迭代html标记的语法方面的帮助。下面是我正在处理的用例： HTML文件的格式相当好(但并不完美)。屏幕上有多个表，一个表包含一组搜索结果，页眉和页脚各一个。每个结果行都包含搜索结果详细信息的链接。我需要找到包含搜索结果行的中间表格(这是我能够找到的)： self.mySearchTables1.findall(".//tr")I = self.mySearchTables = self.mySearchTree.findall(".// table ") self.myResultRows =tab

浏览 52提问于2009-03-02得票数 16

回答已采纳

1回答

抓取oddsportal信息

、、、、

我使用的是Python3.5，实际上我关注的是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5抓取我只是想用Python代码抓取我需要的所有数据。我可以很容易地用BeautifulSoup从静态HTML中抓取信息。我最近也发现了如何从动态url中获取信息，使用Chrome的网络选项卡，并在XHR选项下查看出现的HTTPrequest。它通常会给我从JS生成的html代码，在这种情况下，我可以继续使用正则表达式，用BS4抓取它。但实际上我正在做一个关于从www.oddsportal.com中抓取赔率的新项目，在这种情况下，我真的很困惑如何继续进行，因为

浏览 2提问于2016-01-14得票数 1

1回答

无法解析xml内容中的链接

、、、、

我用python结合xpath编写了一个脚本，用于从包含xml内容的站点中抓取链接。因为我从来没有使用过xml，所以我找不出哪里出了错。提前感谢您为我提供了一个变通方法。这是我正在尝试的： import requests from lxml import html response = requests.get("https://drinkup.london/sitemap.xml").text tree = html.fromstring(response) for item in tree.xpath('//div[@class="expanded"

浏览 1提问于2017-08-08得票数 4

回答已采纳

1回答

Python Crawler -检查javascript行是否存在，如果存在，则对其进行解析

我正在使用lxml.html在Python2.7中抓取一个页面，我需要执行以下操作…… 1)查看此行是否在页面上。我实际上是想看看parent_asin是否存在。并不是每一页都有。 DetailPage.StateController.setState('parent_asin', 'B0000DB87U'); 2)如果它确实存在，问我如何获取B0000DB87U？当parent_asin出现在页面中时，每个页面的情况都会发生变化。这一切都是在javascript中实现的，我使用lxml来获取和解析html。对于JS，需要另一种方法。

浏览 0提问于2012-04-18得票数 1

回答已采纳

1回答

XPath对一个选择额外元素的HTML页面的子选择？

、、、、

我正在网页上抓取一个多页目录，每页上有100个表行条目。我已经下载了相关的网页，并将其存储为泡菜文件。在试图提取信息时，我遇到了一个我不明白的奇怪问题：我叫XPath两次：首先选择表行。结果存储在列表中。第二次访问保存的表行列表。我希望xpath只签入该范围。但是，所发生的情况是xpath从所有表行中检索信息。这个信息当时甚至不应该提供给它。 def information_extraction(): website = store.unpickle_objects('test') utf8_parser = lxml.html.HTMLParser(enc

浏览 4提问于2021-03-18得票数 1

1回答

Python lxml打印每个表行

、、

当我在'cn‘中输入一些东西时，脚本会在网站上进行查询，并给我一个有多行的表格 from lxml import html from lxml import etree from lxml.etree import XPath import requests cn = input ('CN: ') find_page = requests.get('search query' + cn + '') tree = html.fromstring(find_page.content) # //tr[2]/td[2]/a/text()

浏览 7提问于2020-12-29得票数 2

1回答

使用lxml和xpath抓取网站后，数据类型出现问题

、、

我正在抓取一个网站的数据，最终得到的数字。问题是，当我试图在Python中对返回的数据执行逻辑函数时 class 'lxml.etree._ElementStringResult' 我的问题是，我能否以某种方式将这些数据输入到字符串或int中，这样我就可以执行逻辑语句了？以下是代码： callType = item.xpath('.//span[contains(@id, "lblSignal")]')[0].text_content() print callType 这是输出： 76 当我尝试对数据进行控制时，什么都不会发生。我认为这是因为

浏览 1提问于2015-03-18得票数 4

回答已采纳

2回答

使用lxml解析HTML数据

、、

我是一个编程新手，我的一个朋友告诉我使用BeautifulSoup而不是htmlparser。在遇到一些问题之后，我得到了使用lxml而不是BeaytifulSoup的提示，因为它的性能提高了10倍。我希望有人能给我一个提示，如何抓取我正在寻找的文本。我想要的是找到一个包含以下行和数据的表： <tr> <td><a href="website1.com">website1</a></td> <td>info1</td> <td>info2</td&g

浏览 1提问于2011-12-26得票数 3

回答已采纳

1回答

无法从LXML获取<a>标记

、

我正在用Python抓取城市字典中的顶级定义、示例、作者和喜欢/不喜欢的单词/短语。我使用lxml访问站点并提取xml数据。我继续调用对XPath数据的请求，并将其存储在树中。但是，当它返回时，它不会返回预期的结果。 import os from lxml import html import requests page = requests.get("https://www.urbandictionary.com/define.php?term=Food") tree = html.fromstring(page.content) # relative XPath to

浏览 11提问于2021-05-02得票数 2

回答已采纳

1回答

如何在html上使用lxml获取属性值

、、

我有一些HTML，我想用Python来解析lxml。页面上有许多元素，每个元素代表一张海报。我想获取每个海报的ID，这样我就可以从海报的页面上抓取一条信息。当前，海报的id存储在id属性中，因此我希望使用lxml来获取该属性的值。例如： <div onclick="showDetail(9202)"> <div class="maincard narrower Poster" id="maincard_9202"> </div> </div> 我想从id属性中

浏览 0提问于2017-12-12得票数 0

回答已采纳

1回答

从雅虎财经抓取python中的数据

、

我想从雅虎财经的数据中找出一个特定的符号。我可以抓取表格格式，但不能抓取非表格格式。我将同样的原则应用于在同一页中抓取信息，但没有结果。到目前为止，我可以从https://finance.yahoo.com/quote/AAPL/profile?p=AAPL中抓取我用来抓取表的代码是： import numpy as np import pandas as pd import requests import lxml from lxml import html symbol = 'AAPL' url = 'https://finance.yahoo.com/

浏览 4提问于2019-11-19得票数 0

回答已采纳

1回答

Python ValueError: XPath错误:未注册的函数

、、、

<img alt="MediaMarkt" border="0" e-editable="img" src="http://news-de.mediamarkt.de/custloads/298149669/vce/mediamarkt.png" style="display:block;" width="169"/> 我正在尝试从HTML，我有alt的值，然后使用它，我试图获得图像 company_name = "mediamarkt" response.xpath(

浏览 73提问于2020-06-25得票数 2

回答已采纳

1回答

Mac和Linux主机之间的lxml.etree.xpath元素计数不一致

、、

这个问题已经困扰了我一段时间了。我正在尝试从金融网站上抓取表格。例如，来自barchart.com ( finviz.com相同的问题) import lxml.html as lh import lxml, urllib2 gList = ['gapup','gapdown'] count = {} doc = {} for g in gList: doc[g] = lh.parse(urllib2.urlopen('http://www.barchart.com/stocks/{0}.php'.format(g))) cou

浏览 1提问于2013-12-12得票数 0

1回答

Python html.fromstring

、

我试图用这段代码解析网页。 ac = requests.get('link....') html_text = ac.text lx = html.fromstring(html_text) 当我运行这段代码时，我得到了这个错误。 Traceback (most recent call last): File "Crawler.py", line 197, in <module> cnx.close() File "Crawler.py", line 46, in RequestPage lx = html.fromstring(ht

浏览 4提问于2016-12-28得票数 0

1回答

如何获得一个div的所有孩子的身份

、、、

我使用lxml来抓取一个特定的页面。我知道如何按id抓取标签，但找不到如何获取实际的id属性。例如，假设html是： <div id="stuff" > <div id="some unknown"> xxxx </div> <div id="another unknown"> xxxxx </div> </div> 我怎样才能得到清单？ ['some unknown', 'another unknown'] 有没有一种具体使

浏览 0提问于2017-06-24得票数 3

回答已采纳

1回答

如何使用lxml中的cssselect来选择具有确切类的元素？

、、

我正在用lxml html抓取一个网络，但我遇到了一个问题。例如，当我选择HTML时： html.cssselect('a.asig') 我必须获得带有class="asig“的元素，但是选择也会打印他的id中包含"asig”的元素，例如： <a class="asig drcha" ...> 如果只使用" asig“而不是包含asig的元素，我能做什么？谢谢!

浏览 2提问于2014-04-21得票数 1

回答已采纳

3回答

用Python (lxml)获取td的全文

、、、

我试图得到td中所包含的全部文本：示例： <td> <p>Some Text</p> <a>SAMPLE</a> <table> <tbody> <tr> <td>something</td> .... </tr> ... </tbody> </table> ... </td> 这个td里面有很多标签，这让我很难。连桌子都有。在FirePath (火狐)中，我可以简单地附加

浏览 2提问于2016-10-14得票数 1

1回答

python选择没有双斜杠的xpath

、、

。然而，在python中尝试使用lxml.html不起作用： import requests import lxml.html s = requests.session() page= s.get('http://lxml.de/') html = lxml.html.fromstring(page.text) p=html.xpath('p') 这里，p是一个空列表。我需要用p=html.xpath('//p')代替。有人知道为什么吗？

浏览 2提问于2017-09-17得票数 1

回答已采纳

1回答

根据链接的长度抓取链接

、、

我想要抓取这个网站按字母顺序排列的所有页面的链接： ? 也就是说，像这样的链接： ['/pinpai/2-a.html','/pinpai/3-b.html'...] 以便在这些东西中多取一些东西。遵循this advanced webscraping tutorial，我激励自己学习xpath过滤。因为它们看起来不到17个字符，而且我在一个文档上找到了一些长度过滤资源，所以我尝试在下面这个scrapy scraper的爬行器中根据它们的长度来过滤链接： import scrapy class NosetimeScraper(scrapy.Spid

浏览 42提问于2020-11-07得票数 0

回答已采纳

1回答

lxml版本问题-无法调用fndall方法！

、

lxml在1.3版中显示以下代码行的错误： self.doc.findall('.//field[@on_change]') File "/home/.../code_generator/xmlGenerator.py", line 158, in processOnChange onchangeNodes = self.doc.findall('.//field[@on_change]') File "etree.pyx", line 1042, in etree._Element.findall File "/us

浏览 0提问于2010-07-27得票数 0

回答已采纳

1回答

使用urlib时生成etree错误

、、、

我试图用将一个HTML表解析为python (2.7)。当我尝试使用字符串的前两种方法之一时(如示例中所示)，它的工作原理非常完美。但是，当我试图在etree.xml页面上使用urlib时，我会得到一个错误。我检查了每一个解决方案，我传递的变量也是str。关于下列代码： from lxml import etree import urllib yearurl="http://www.boxofficemojo.com/yearly/chart/?yr=2014&p=.htm" s=urllib.urlopen(yearurl).read() print type (s)

浏览 2提问于2015-12-05得票数 0

回答已采纳

4回答

Python lxml/beautiful用于查找网页上的所有链接

、

我正在编写一个脚本来阅读网页，并建立一个符合一定标准的链接数据库。现在我被lxml卡住了，并且理解如何从html中抓取所有的<a href>…… result = self._openurl(self.mainurl) content = result.read() html = lxml.html.fromstring(content) print lxml.html.find_rel_links(html,'href')

浏览 1提问于2011-05-26得票数 9

回答已采纳

1回答

Scrapy : XPath错误://media中的无效表达式:内容

、、、

我想从新闻网站RSS中提取内容，内容如下所示 <item> <title>BPS: Kartu Bansos Bantu Turunkan Angka Gini Ratio</title> <media:content url="/image.jpg" expression="full" type="image/jpeg"/> </item> 但是在使用像item.xpath('//media:content')这样的xpath之类的标记来解析信息时会引发错误。 Tra

浏览 5提问于2016-08-19得票数 0

回答已采纳

1回答

使用text()时lxml无效谓词

、、

我使用进行HTML屏幕抓取，我需要通过text()选择一个元素，方式类似于，但是无论发生什么，我都会得到无效的谓词错误。我将其简化为下面的示例： import lxml.html sample_html = "<div><h2>test string</h2><h2>other string</h2></div>" sample_tree = lxml.html.fromstring(sample_html) sample_tree.findall('.//h2[text()="test s

浏览 2提问于2017-05-13得票数 2

回答已采纳

2回答

使用请求和lxml的html抓取在location>处生成<元素x，而不是位于该节点的文本

、、、、

我正在创建一个Python程序，使用lxml和请求从网站抓取文本。但是，当我导航到正确的节点时，我的代码生成一个元素标签，而不是位于该节点的文本。 # import packages from lxml import html import requests # initialize program with URL ficUrl = 'https://www.fanfiction.net/s/10847788/' # pull metadata page = requests.get(ficUrl) tree = html.fromstring(page.content

浏览 18提问于2019-04-21得票数 0

1回答

如何将本地路径替换为href属性中的全局路径，在python中抓取

、、

我试图从这个中抓取一些html代码，现在当我打印所有内容时，一些链接(我只想要“目录”和“打印机友好版本”)在href内有这个字符串："../etc“。当我要打印抓取的代码时，我需要用全局路径替换href的本地路径，这样我就可以点击抓取的链接到达正确的网页。如果请求的操作没有用处，有没有办法在我需要处理的href中写入正确的路径？ #!C:/Python27/python from lxml import etree import requests q = "http://www.dlib.org/dlib/november14/giannakopoulos/11gianna

浏览 0提问于2015-09-15得票数 1

2回答

lxml.xpath没有将元素放入列表的问题

、、、、

所以这是我的问题。我试图使用lxml在web上抓取一个网站并获取一些信息，但是在使用var.xpath命令时找不到与这些信息相关的元素。它正在查找页面，但是在使用xpath之后，它什么也找不到。 import requests from lxml import html def main(): result = requests.get('https://rocketleague.tracker.network/rocket-league/profile/xbl/ReedyOrange/overview') # the root of the tracker w

浏览 4提问于2021-04-16得票数 0

回答已采纳

2回答

快速抓取，获得特定th的td (从Python转换)

、、

你好，StackOverflow用户，很抱歉有个愚蠢的问题。我的问题有点笼统，但举个例子:假设我在美国城市的官方网页上抓取维基百科的信息框信息。因此，对于给定的维基百科URL列表，我需要最后一行信息框(页面右侧的框)和网站上的信息。在Python中，我将这样做。但是，我不知道如何在R. r = requests.get("https://en.wikipedia.org/wiki/Los_Angeles") if r: text = r.text soup = BeautifulSoup(text, 'lxml') def get_website(s

浏览 4提问于2017-10-24得票数 0

回答已采纳

2回答

Selenium.common.exceptions.NoSuchElementException错误即使有显式等待

、、

，怎么了？我目前正在尝试从subreddit中抓取数据(我使用的是旧的reddit ->扩展名，它以这种方式恢复了reddit的旧外观，这样更容易抓取)，但是每当我试图获得结果时，我都会从这段代码中得到错误： xpath = "//a[@class='title may-blank loggedin ']" element = driver.find_element_by_xpath(xpath) selenium.common.exceptions.NoSuchElementException:消息:没有这样的元素:无法定位元素：{“方法”：“xpat

浏览 0提问于2021-02-06得票数 0

回答已采纳

1回答

Python/lxml web抓取:处理空白条目

、、

我正在使用Python和lxml从Bloomberg网站上抓取ETF和共同基金的数据。我试图从其中抓取数据的页面的一个示例是。对于每个基金，我需要符号、名称、基金类型和目标。我在抓取符号、名称或基金类型时没有任何问题。然而，我在目标上遇到了困难。在我引用的网页(以及后续页面)上，你会看到目标是空白的。页面上最后一只基金的HTML如下所示： <tr class='tkr_alt'> <td class="name"> <a href="/quote/ADTKEX:US"><span

浏览 0提问于2013-05-01得票数 2

1回答

如果我在网页上有一个按钮的xpath，我如何在这个特定的元素周围放置一个框？

、、、

我有一个python应用程序，它从活跃的网页中抓取HTML并通过它进行解析。对于所有有href的东西，我都会得到xpath的返回。有了我正在获得的xpath，是否有一种方法可以在链接到xpath的特定元素周围放置一个框/边框？ browser = webdriver.Chrome("") browser.get("http://www.dominos.com") browser.maximize_window() time.sleep(10) soup = BeautifulSoup(browser.page_

浏览 3提问于2020-01-16得票数 1

回答已采纳

2回答

从lxml中选择属性值

、、、

我想使用xpath表达式来获取属性的值。我希望下面的方法能起作用 from lxml import etree for customer in etree.parse('file.xml').getroot().findall('BOB'): print customer.find('./@NAME') 但这会给出一个错误： Traceback (most recent call last): File "bob.py", line 22, in <module> print customer.

浏览 3提问于2011-05-25得票数 59

回答已采纳

3回答

为什么lxml不返回与此html元素相关联的文本？

、、、、

我刚开始使用python解析html，现在遇到了麻烦。我正试着写一个简短的脚本，每天从网站上抓取一个数字。然而，代码并没有像我希望的那样返回一个数字，而只是返回None。下面的网页显示了每天在特定区域骑行的自行车数量：。我正在尝试写一个简短的python脚本来记录“昨天”骑过的自行车的数量(这是一个每天不同的数字，通常在500到1500之间)。当我检查网页的那个元素时，我看到它的xpath是：//*[@id="region-lastDay"]/div/p[2]/text()。但是，当我尝试使用以下代码返回数字时，它返回的是值None。 import lxml.html as

浏览 2提问于2015-08-03得票数 1

1回答

即使使用正确的xpath，刮板也会引发错误。

、、、、

我用python编写了一个脚本，并结合lxml libary从html elements块中解析了一些html elements(本例中为80和100 )。我用xpaths做这项工作。当我选择使用.fromstring()时，我在下面的刮板工作中使用的两个xpaths都是毫不留情的。但是，当我选择使用从HTML导入的lxml.etree时，包含contains()表达式的xpath就会失败。结果是，当我在刮板中使用多个class名称时，它可以工作，但是当选择single class name out compound class names时，它会抛出一个错误。在不使用compound cl

浏览 1提问于2018-06-01得票数 1

回答已采纳

1回答

仅返回xpath中元素的文本(python / lxml)

、、、、

我有这样一个XML结构： mytree = """ <path> <to> <nodes> <info>1</info> <info>2</info> <info>3</info> </nodes> </to> </path> """ 我目前正在python中使用xpath来获取节点：

浏览 3提问于2012-03-05得票数 5

回答已采纳

1回答

如何使用python和lxml从html属性中获取未解决的实体

、、、

当使用python/lxml解析HTML时，我希望检索html元素的实际属性文本，但我使用解析的实体获取属性文本。也就是说，如果实际属性读取this & that，我将返回this & that。是否有一种获得未解决属性值的方法？下面是一些示例代码，显示了我的问题，使用python2.7和lxml 3.2.1 from lxml import etree s = '<html><body><a alt="hi & there">a link</a></body><

浏览 11提问于2015-05-04得票数 0

回答已采纳