通过将LXML与Html、请求和ETree结合使用，它可以提供链接，但不能让我搜索特定文本的链接 - 腾讯云开发者社区

python、beautifulsoup、lxml、html5lib

我正试图摆脱对BeautifulSoup的依赖，我喜欢它，但它似乎(积极地)得不到支持。我正在尝试使用html5lib和lxml，但是我似乎不知道如何使用"find“和"findall”运算符。通过查看html5lib的文档，我想出了一个测试程序： import cStringIO f = cStringIO.StringIO() f.write(""" <html> <body> <table> <tr> <td>one</t

浏览 1提问于2010-09-13得票数 1

回答已采纳

1回答

在Python scraper中使用etree时出现的问题

python、screen-scraping、lxml

我是Python的新手，希望在Scraperwiki中构建一个屏幕抓取器，但我正在与一个我无法解决的错误作斗争。本质上，我想解析一个xml文件，但是不知道如何让我的gp_indicators_scrape函数访问getroot()方法。有没有人可以修复它，更重要的是，给我一个解释，这样我以后就可以避免这个问题了？下面是抓取器：代码的关键部分： import lxml.html import urlparse from urlparse import urlparse from lxml.etree import etree def gp_indicators_scrape(org_UR

浏览 2提问于2012-07-24得票数 0

回答已采纳

1回答

RuntimeWarning:模块'lxml.etree‘的编译时版本2.6与运行时版本2.7不匹配

python、version、lxml、typeerror

我使用python2.7并尝试使用，但是当我尝试使用lxml.etree时，我得到了以下错误： RuntimeWarning:模块'lxml.etree‘的编译时版本2.6与运行时版本2.7不匹配然后这个错误：文件"lxml.etree.pyx"，第123行，init lxml.etree (src/lxml/lxml.etree.c:160385) TypeError: encode()参数1必须是没有空字节的字符串，而不是unicode 我试过使用easy_install和pip安装安装后，我看到以下消息：安装/usr/lib/python

浏览 3提问于2012-02-27得票数 1

回答已采纳

2回答

python lxml.html.parse不读取url

python、lxml、python-requests

为什么html.parse(url)失败了，当使用requests时，html.fromstring工作，html.parse(url2)工作？lxml 3.4.2 Python 2.7.9 (default, Dec 10 2014, 12:28:03) [MSC v.1500 64 bit (AMD64)] on win32 Type "copyright", "credits" or "license()" for more information. >>> import requests >>>

浏览 7提问于2015-03-02得票数 2

回答已采纳

1回答

lxml objectify不调用自定义元素类的构造函数

python、constructor、lxml、objectify

lxml.objectify似乎不会调用我的自定义元素类的构造函数： from lxml import objectify, etree class CustomLookup(etree.CustomElementClassLookup): def lookup(self, node_type, document, namespace, name): lookupmap = { 'custom' : CustomElement } try: return lookupmap[name] excep

浏览 0提问于2010-12-21得票数 1

回答已采纳

1回答

lxml修改标记防止

python、html、lxml

如何防止lxml修改标记 from lxml import etree from lxml.html.soupparser import fromstring html = '<iframe width="560" height="315" src="" frameborder="0" allowfullscreen></iframe>' root = fromstring(html) print etree.tostring(root,encoding='utf-8')

浏览 2提问于2014-11-19得票数 3

回答已采纳

1回答

如何在Python中将未转义的文本添加到LXML Etree？

python、lxml、elementtree

LXML的构建器allows for easily generation of HTML and XML，如下所示： >>>from lxml.builder import E >>>import lxml.etree >>>lxml.etree.tostring(E.html('hello')) b'<html>hello</html>' 但是如果我包含HTML中已经存在的文本，它就会转义尖括号，这是理所应当的： >>>lxml.etree.tostring(E

浏览 12提问于2020-04-14得票数 1

回答已采纳

3回答

Python -使用lxml将urlib2替换为请求

python、urllib2、lxml、python-requests

在这段代码中，我试图将urllib2替换为requests，只需从页面中提取一些信息。我并不是百分之百确定我应该如何移动图书馆。到目前为止，这就是我的错误，我做错了什么？代码： #!/usr/bin/env python # -*- coding: utf-8 -*- import requests, sys from lxml import etree # import urllib2 # UTF8 reload(sys) sys.setdefaultencoding("utf-8") # url = 'http://countrycode.org/German

浏览 2提问于2013-09-25得票数 1

回答已采纳

2回答

如何在python (lxml)中使字符串匹配不区分大小写[text()=" string "]？

python、string、xpath、case-insensitive

我有这个xpath模式： tags = doc.xpath('/html/body//a[text() = "' + name.encode('utf8') + '"]/@href' 这将以文本形式返回每个名为name的-tag的url。是否有可能获得name的大小写不敏感匹配编辑当尝试@Shelhamer解决方案时，我得到了： >>> a_tag_list = html_string.xpath('/html/body//a[lower-case(text()) = "' + aut

浏览 0提问于2011-07-03得票数 0

回答已采纳

1回答

如何匹配XPath (lxml)中元素的内容？

python、xpath、lxml、predicate

我想使用XPath表达式来解析带有lxml的HTML。我的问题是匹配标记的内容：例如，给定 <a href="http://something">Example</a> 元素匹配href属性。 .//a[@href='http://something'] 但是给出的表达式 .//a[.='Example'] 甚至是 .//a[contains(.,'Example')] lxml抛出“无效节点谓词”异常。我做错了什么？编辑：示例代码： from lxml import etree from cStr

浏览 2提问于2010-04-14得票数 13

回答已采纳

3回答

如何用LXML解析破碎的HTML

python、lxml

我正在尝试使用Python2.5和2.7上的LXML解析器来解析损坏的HTML 与LXML文档()不同的是，解析损坏的超文本标记语言不起作用： from lxml import etree import StringIO broken_html = "<html><head><title>test<body><h1>page title</h3>" parser = etree.HTMLParser() tree = etree.parse(StringIO.StringIO(broken_html))

浏览 2提问于2013-10-01得票数 25

回答已采纳

3回答

python中的lxml，从url解析

python、lxml、python-2.7

我是lxml的新手。我想要下载网页并从获取感兴趣的数据，我的代码是： import urllib2 from lxml import etree url = "http://www.example.com/" html = urllib2.urlopen(url) root = etree.parse(html) # the problem is here 有人能给我解释一下为什么它是错的吗？错误是： Traceback (most recent call last): File "yatego.py", line 10, in <module

浏览 0提问于2012-03-20得票数 9

回答已采纳

1回答

GAE Python LXML - XMLSyntaxError规范属性对象的授权值

python、google-app-engine、lxml、iterparse

我在Python上使用Google App Engine，试图获取一个LXML文件并使用GZipped的iterparse解析它。我使用lxml.de中的示例创建了以下代码： import gzip, base64, StringIO from lxml import etree from google.appengine.ext import webapp from google.appengine.api.urlfetch import fetch class Catalog(webapp.RequestHandler): user = xxx password = yyy catalo

浏览 0提问于2013-02-03得票数 0

回答已采纳

2回答

为什么lxml中的这个元素包括尾部？

python、html、lxml

考虑一下这个Python脚本： from lxml import etree html = ''' <html xmlns="http://www.w3.org/1999/xhtml"> <head></head> <body> <p>This is some text followed with 2 citations.<span class="footnote">1</span> <span сlass="fo

浏览 1提问于2013-11-22得票数 7

回答已采纳

2回答

更改Inkscape的Python解释器

python、inkscape

在使用Inkscape时，我一直会遇到一些错误，这些错误似乎意味着python2vs3的期望没有得到满足，尽管我已经安装了它们。例如，当我尝试从模板生成一个新文档时，我得到， Traceback (most recent call last): File "empty_generic.py", line 82, in <module> c.affect() File "/usr/share/inkscape/extensions/inkex.py", line 285, in affect self.output() Fi

浏览 2提问于2018-08-27得票数 8

回答已采纳

1回答

lxml删除标记中未包装的文本。

python、lxml

下面是我用lxml编写的python代码 import urllib.request from lxml import etree #import lxml.html as html from copy import deepcopy from lxml import etree from lxml import html some_xml_data = "<span>text1<div>ddd</div>text2<div>ddd</div>text3</span>" root = etree.fro

浏览 1提问于2016-07-29得票数 1

回答已采纳

2回答

如何使用lxml，XPath和Python从网页中提取链接？

python、screen-scraping、hyperlink、lxml、extraction

我得到了这个xpath查询： /html/body//tbody/tr[*]/td[*]/a[@title]/@href 它提取所有带有标题属性的链接-并在中给出href。但是，我似乎不能在lxml中使用它。 from lxml import etree parsedPage = etree.HTML(page) # Create parse tree from valid page. # Xpath query hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href") f

浏览 0提问于2010-01-18得票数 5

回答已采纳

3回答

lxml将元素转换为elementtree

python、element、lxml、elementtree

下面的测试读取一个文件，并使用lxml.html生成页面的DOM/图形的叶节点。但是，我也在尝试弄清楚如何从“字符串”中获取输入。使用 lxml.html.fromstring(s) 不起作用，因为这会生成一个“元素”，而不是"ElementTree“。因此，我正在尝试弄清楚如何将元素转换为ElementTree。思考测试代码：： import lxml.html from lxml import etree # trying this to see if needed # to convert from eleme

浏览 0提问于2012-01-12得票数 13

1回答

使用urlib时生成etree错误

python、python-2.7、html-parsing、elementtree

我试图用将一个HTML表解析为python (2.7)。当我尝试使用字符串的前两种方法之一时(如示例中所示)，它的工作原理非常完美。但是，当我试图在etree.xml页面上使用urlib时，我会得到一个错误。我检查了每一个解决方案，我传递的变量也是str。关于下列代码： from lxml import etree import urllib yearurl="http://www.boxofficemojo.com/yearly/chart/?yr=2014&p=.htm" s=urllib.urlopen(yearurl).read() print type (s)

浏览 2提问于2015-12-05得票数 0

回答已采纳

1回答

使用lxml的tostring()从xml/html中删除根标记

python、lxml、cdata

如何制作没有根标签(通常是<html></html>)的html文本？ <![CDATA[<div class="foo"></div><p>bar</p>]]> 我的代码： from lxml import etree html = etree.Element('root') etree.SubElement(html, 'div', attrib={'class':'foo'}) etree.SubElement(html,

浏览 0提问于2019-10-19得票数 3

3回答

lipo:找不到:/var/文件夹/的体系结构类型

python、macos、unix、lxml

我尝试在Mac OSX Snowleopard上安装lxml，但一直收到错误： lipo: can't figure out the architecture type of: /var/folders/ 我确实安装了支持10.4SDK的XCode，我把gcc 4.2改成了4.0.1 有什么线索吗？Python 2.6.1和Leopard 1.6.7. running install running bdist_egg running egg_info writing src/lxml.egg-info/PKG-INFO writing top-level names to src/l

浏览 1提问于2011-06-11得票数 2

2回答

lxml.etree.XMLSyntaxError: htmlParseEntityRef: expecting‘；

python、lxml

我正在试图找出python，但遇到了一个特殊的问题。我安装了以下库版本： libxml2 : 2.7.8 libxslt : 1.1.26 当我运行以下代码时： html = open('file.html', 'r') context = etree.iterparse(StringIO(html), events=("start", "end"), html='true') for event, element in context: #do stuff 编辑：结果发现这是一个解析错误

浏览 2提问于2011-12-29得票数 3

回答已采纳

2回答

解析HTML: Python中的lxml错误

python、html-parsing、lxml

我正在编写一个简单的脚本来从中获取大的灰色表格。我拥有的代码如下： import urllib2 from lxml import etree html = urllib2.urlopen("http://www.afi.com/100years/movies10.aspx").read() root = etree.XML(html) 但我在最后一条语句中得到了一个错误。 Traceback (most recent call last): File "D:\Workspace\afi100\afi100.py", line 13, in <m

浏览 2提问于2010-12-07得票数 3

回答已采纳

1回答

为什么lxml在解析时关闭这个"ol“标记？

html-parsing、lxml

下面是一些HTML： <ol><ul><li>item</li></ul></ol> 还有一些用lxml解析并重新打印它的python 3代码： import sys from lxml import etree, html document_root = html.fromstring(sys.stdin.read()) print(etree.tostring(document_root, encoding='unicode')) 这是输出： <div><ol/><ul&

浏览 3提问于2021-07-26得票数 1

回答已采纳

1回答

使用lxml python解析xhtml

python、lxml、parsexml

一个小问题，真的卡在这里了，我不明白发生了什么，我只是想从网页上解析一个普通的xhtml，没有什么特别的… 下面是错误： File "class/page.py", line 85, in xslParse doc = lxml.etree.fromstring(self.content) File "lxml.etree.pyx", line 2753, in lxml.etree.fromstring (src/lxml/lxml.etree.c:54647) File "parser.pxi", line 1578

浏览 0提问于2012-08-12得票数 5

回答已采纳

2回答

lxml使用元素移动文本

python、html、lxml

我有一个问题与包装图像与div。 from lxml.html import fromstring from lxml import etree tree = fromstring('<img src="/img.png"/> some text') div = etree.Element('div') div.insert(0, tree.find('img')) tree.insert(0, div) print etree.tostring(tree) <span><div><im

浏览 0提问于2013-07-18得票数 1

1回答

使用lxml etree将html标记打印为字符串

python、html、xpath、lxml、elementtree

我想像soup.find_all()一样打印整个标记，但使用的是lxml etree。在lxml中，它打印出标记名，而不是我想用来比较的整个标记。谢谢。代码： from bs4 import BeautifulSoup from lxml import etree doc = "<p><a></a><a></a>Printable Text" soup = BeautifulSoup(doc, "lxml") root = etree.fromstring(str(soup)) tree = e

浏览 36提问于2021-09-21得票数 1

回答已采纳

1回答

突破lxml.etree.HTML.xpath最大解析深度限制

python、html、xml、lxml

来自lxml.etree的HTML解析器似乎具有最大深度限制。如果深度超过254，解析文本将不再遍历。下面是一个python代码片段，演示如下： import lxml.etree as etree # Setup HTML tabs x = "<span>" x_ = "</span>" # Set recursion depth to 255 depth = 255 # Construct and parse using lxml.etree.HTML # This gives an empty list [] print(e

浏览 0提问于2018-06-26得票数 5

1回答

lxml.etree无效谓词：“./tbody/tr[位置()= 1]”

python、xpath、lxml

XPath './tbody/tr[position() = 1]'被火狐的XPath引擎所接受，但它在lxml 4.5.0 (libxml2 2.9.10；Python3.8.10；Ubuntu20.04.5)上被拒绝。 … File "src/lxml/etree.pyx", line 1532, in lxml.etree._Element.find File "src/lxml/_elementpath.py", line 323, in lxml._elementpath.find File "src/lxml/

浏览 8提问于2022-10-18得票数 0

回答已采纳

1回答

为什么lxml条形段标签不会呢？

python、html、lxml

我试图用lxml和Python解析一些HTML。我想移除部分标签。lxml似乎能够删除我指定的所有其他标记，但不能删除节标记。例如： test_html = '<section> <header> Test header </header> <p> Test text </p> </section>' to_parse_html = etree.fromstring(test_html) etree.strip_tags(to_parse_html,'header') etree.tos

浏览 4提问于2015-01-28得票数 1

回答已采纳

1回答

解析错误的XHTML

python、xml-parsing、formatting、xhtml、lxml

我的新项目是从Naxos Glossary of Musical Terms,中提取数据，这是一个很棒的资源，我想将其文本数据处理并提取到数据库中，以便在我将创建的另一个更简单的网站上使用。我唯一的问题是糟糕的XHTML格式。W3C XHTML validation将引发318个错误和54个警告。即使是我找到的HTML Tidier也不能解决所有问题。我使用的是Python 3.67，我解析的页面是ASP。我测试了LXML和Python XML模块，但都失败了。有没有人能推荐其他的tidiers或模块？或者我必须使用某种原始的文本操作(讨厌！)？我的代码： LXML： from lx

浏览 6提问于2018-12-26得票数 0

回答已采纳

6回答

在lxml中使用etree时出错

python、windows、python-2.7、lxml、xml.etree

我想在python中使用xpath。我试过了 import xml.etree.ElementTree as ET 由于这个库的使用有限，在google上搜索了很长一段时间后，我不得不使用lxml。我在安装过程中遇到了几个问题，最后我安装了lxml，但是当我使用 from lxml import etree 它返回一个错误，如下所示。你能告诉我这个问题的解决方案吗！ Traceback (most recent call last): File "<pyshell#0>", line 1, in <module> from lxml import etr

浏览 0提问于2013-04-30得票数 10

1回答

如何在不丢失数据的情况下处理UnicodeDecodeError？

python、web-scraping、lxml

我正在使用Python & lxml，并且遇到了一个错误。我的代码 >>>import urllib >>>from lxml import html >>>response = urllib.urlopen('http://www.edmunds.com/dealerships/Texas/Grapevine/GrapevineFordLincoln_1/fullservice-505318162.html').read() >>>dom = html.fromstring(response)

浏览 3提问于2012-04-19得票数 2

回答已采纳

1回答

lxml无法与python 3.7一起安装

pip、lxml、python-3.7

我无法在我的Python环境中安装libxml来安装sofort python: python 3.7.3已经这样做了: apt-get --reinstalll install python-dev libxml2-dev libxslt1-dev zlib1g-dev当尝试安装libxml时，它调用了一个关于PyObject的错误，错误如下 398 (PY_VERSION_HEX >= 0x030600B1 && (cfunc)->flag == METH_FASTCALL ? (*(__Pyx_PyCFunctionFa

浏览 16提问于2019-11-16得票数 3

1回答

简单的Python Crawler / Spider运行时错误

python、web-crawler

我有一个简单的python爬虫/蜘蛛，它在我提供的站点上搜索指定的文本。但是在一些站点中，它通常会爬行2-4秒，直到出现错误。到目前为止，守则： #!/usr/bin/env python # -*- coding: utf-8 -*- from __future__ import print_function import requests, pyquery, urlparse try: range = xrange except NameError: pass def crawl(seed, depth, terms): crawled = set()

浏览 1提问于2014-05-08得票数 2

回答已采纳

3回答

将Xpath与lxml etree一起使用时，出现列表无法序列化错误

python-2.7、xpath、lxml

我尝试在XML文档中搜索一个字符串，然后打印出包含该字符串的整个元素。这是我到目前为止的代码： post = open('postf.txt', 'r') postf = str(post.read()) root = etree.fromstring(postf) e = root.xpath('//article[contains(text(), "stuff")]') print etree.tostring(e, pretty_print=True) 这是正在从postf.txt中搜索的XML <stuff&g

浏览 0提问于2014-05-19得票数 4

回答已采纳

1回答

-lz编译标志需要安装什么库

software-installation

输入命令后出现以下错误： pip install -r requirements.txt 错误消息如下： ... x86_64-linux-gnu-gcc -pthread -shared -Wl,-O1 -Wl,-Bsymbolic-functions -Wl,-Bsymbolic-functions -Wl,-z,relro -fno-strict-aliasing -DNDEBUG -g -fwrapv -O2 -Wall -Wstrict-prototypes -Wdate-time -D_FORTIFY_SOURCE=2 -g -fstack-protector-strong -Wf

浏览 0提问于2017-06-01得票数 1

回答已采纳

1回答

easy_install lxml在os x 10.5上的困难

python、macos、installation、lxml、easy-install

我正在尝试在我的计算机上安装lxml，但是遇到了问题。有人能帮上忙吗？当我尝试执行'easy_install lxml‘时，我已经提供了我得到的终端输出。我运行的是MacOSX10.5和Python版本2.7.2。谢谢！： Macintosh-8:~ momdad$ easy_install lxml Searching for lxml Reading http://pypi.python.org/simple/lxml/ Reading http://codespeak.net/lxml Best match: lxml 2.3.3 Downloading http://lxml.

浏览 0提问于2012-02-15得票数 1

2回答

如何在python中将html文件作为电子邮件发送？

python、html、python-2.7、email

import fnmatch import os import lxml.html import smtplib import sys matches = [] for root, dirnames, filenames in os.walk('C:\AUDI\New folder'): for filename in fnmatch.filter(filenames, '*.html'): matches.append(os.path.join(root, filename)) print filename page

浏览 0提问于2016-01-26得票数 0

1回答

Python '\u2029‘是一个不兼容的XML Unicode吗？

python、lxml、separator

我在lxml 4.1.1中使用Python3.6.4。在读取/解析电子树时，我将转义12个Unicode分隔符。PSEP看起来如下： line = line.replace('\u2029', ' %(#u2029)s ' 经过大量的筛选/处理之后，我使用以下代码将行保存到一个新的XML文件中： seg = etree.SubElement(tuv, 'seg') seg.text = line.replace('%(#u2029)s', '\u2029') 它产生以下跟踪： Traceback (most rec

浏览 2提问于2018-03-12得票数 0

回答已采纳

2回答

使用python从html元标记确定字符集

python、html、python-3.x、html-parsing

我有一个脚本，它需要在被lxml.HTML()读取以进行解析之前确定字符集。我将假设ISO-8859-1(这是正常的假设字符集，对吗？)如果找不到，则在html中搜索具有charset属性的meta标记。然而，我不确定最好的方法是什么。我可以尝试使用lxml创建etree，但我不想读取整个文件，因为我可能会遇到编码问题。但是，如果我没有读完整个文件，我就不能构建etree，因为有些标签不会被关闭。我是否应该只找到带有一些花哨的字符串下标的meta标记，并在找到它或读取了一定数量的行后跳出循环？也许可以使用一个低级的超文本标记语言解析器，比如html.parser？使用python3 btw，

浏览 1提问于2011-02-15得票数 1

回答已采纳

1回答

用lxml.etree解析本地文件

python、parsing、path、lxml、elementtree

我对任何不清晰的地方表示歉意(我刚开始编程)。我试图用lxml.etree解析一组本地文件。我使用lxml (和xpath)编写了一个解析脚本，该脚本从SEC网页中查找相关数据并导出到.csv文件。该脚本适用于单个url，但我想将其概括为数千个html页面。我已经在本地下载了所有html文件(我使用curl获取链接，wget下载)--但是我没有成功地替换我的解析器。起作用的旧版本是： page = requests.get('url') tree = html.fromstring(page.text) 我尝试用etree.parse替换它，以便解析本地下载到目录'Bu

浏览 2提问于2015-02-07得票数 5

1回答

如何为python2.6升级lxml

python、linux、ubuntu、command-line、python-2.6

在运行python脚本时，我收到了以下错误： Traceback (most recent call last): File "/var/scripts/SchoolClosureManager/SchoolClosureManager.py", line 210, in <module> runnable.run() File "/var/scripts/SchoolClosureManager/SchoolClosureManager.py", line 18, in run reporter = SchoolClosur

浏览 2提问于2013-12-06得票数 2

回答已采纳

2回答

在使用.py文件中的lxml时遇到问题。它与解释器一起工作

python、lxml

我在我的雪豹上安装了python.org v2.7。机上还有一台苹果2.6的Python。I pip使用'sudo pip install lxml‘命令安装了lxml。我确保我是在我的python.org 2.7版本的bin目录中执行此操作。当我发出命令时： from lxml import etree 在IDLE解释器中，一切都按预期工作，我可以继续使用所有的lxml方法。但是，如果我创建了一个只有一行的.py文件： from lxml import etree 我尝试运行它(无论是在空闲运行/F5中还是通过命令行'$python testlxml.py')，我收

浏览 3提问于2010-12-06得票数 0

回答已采纳

3回答

解析XML文件得到UnicodeEncodeError (ElementTree) / ValueError (lxml)

python、xml、python-requests、lxml、elementtree

我向发送GET请求： import requests url = "http://api.careerbuilder.com/v1/jobsearch" payload = {'DeveloperKey': 'MY_DEVLOPER_KEY', 'JobTitle': 'Biologist'} r = requests.get(url, params=payload) xml = r.text 并得到一个看起来像的XML。但是，我在解析它时遇到了问题。使用任一lxml >>&g

浏览 6提问于2013-03-26得票数 5

回答已采纳

3回答

为什么Python lxml不接受我的xml？

python、xml、unicode、lxml

我正在使用Python lxml库来解析我的xml，但是我很难解析一个特定的文本。签出以下代码： >>> print type(raw_text_xml) <type 'unicode'> >>> from lxml import etree >>> article_xml_root = etree.fromstring(raw_text_xml, parser) Traceback (most recent call last): File "<input>", line 1,

浏览 3提问于2016-03-22得票数 0

3回答

“不能序列化'lxml.etree._ElementUnicodeResult‘类型’”

python、web-scraping、lxml

我使用lxml从网页中提取数据，但无法将结果的ElementUnicode对象转换为字符串。这是我的代码： from lxml import html from lxml import etree from lxml.etree import tostring url = 'https://www.imdb.com/title/tt5848272/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=2413b25e-e3f6-4229-9efd-599bb9ab1f97&pf_rd_r=9S5A89ZHEXE4K8SZBC40&pf_rd_s=ri

浏览 0提问于2018-11-24得票数 6

回答已采纳

2回答

如何处理lxml中的encode来正确解析html-string？

python、lxml

我有一台。请下载并另存为blog.xml。这是我在Google-blogger中的文件列表，我写了一些代码来解析它，lxml中有一些东西。 code1： from stripogram import html2text import feedparser d = feedparser.parse('blog.xml') for num,entry in enumerate(d.entries): string=entry.content[0]['value'].encode("utf-8") print html2text(s

浏览 3提问于2013-04-07得票数 7

回答已采纳

2回答

从解析的HTML中提取div

python、parsing、lxml

似乎lxml/etree通常被导入为from lxml import etree --为什么？它保持代码更整洁，虽然潜在的名称空间模糊可能不是一个问题，但我没有任何动机这样做，因为它通常被皱眉。对于这样大小的脚本，我知道这并不重要，但我将更多地使用这些模块。我也很好奇别人会怎么说。 #!/usr/bin/python # Stuart Powers http://sente.cc/ import sys import urllib import lxml.html from cStringIO import StringIO """ This script par

浏览 0提问于2012-01-03得票数 6

2回答

如何在从web中提取数据的同时去除特殊字符？

python、scrapy

我正在从网站中提取数据，它有一个包含一个特殊字符的条目，即Comfort Inn And Suites�? Blazing Stump。当我试图提取它时，它会抛出一个错误： Traceback (most recent call last): File "C:\Python27\lib\site-packages\twisted\internet\base.py", line 824, in runUntilCurrent call.func(*call.args, **call.kw) File "C:\Python27\lib\site-pa

浏览 3提问于2014-08-26得票数 1