我用python编写了一个脚本,并结合lxml libary从html elements块中解析了一些html elements(本例中为80和100 )。我用xpaths做这项工作。当我选择使用.fromstring()时,我在下面的刮板工作中使用的两个xpaths都是毫不留情的。但是,当我选择使用从HTML导入的lxml.etree时,包含contains()表达式的xpath就会失败。结果是,当我在刮板中使用多个class名称时,它可以工作,但是当选择single class name out compound class names时,它会抛出一个错误。
在不使用compound cl
lxml在1.3版中显示以下代码行的错误:
self.doc.findall('.//field[@on_change]')
File "/home/.../code_generator/xmlGenerator.py", line 158, in processOnChange
onchangeNodes = self.doc.findall('.//field[@on_change]')
File "etree.pyx", line 1042, in etree._Element.findall
File "/us
我试图用将一个HTML表解析为python (2.7)。当我尝试使用字符串的前两种方法之一时(如示例中所示),它的工作原理非常完美。但是,当我试图在etree.xml页面上使用urlib时,我会得到一个错误。我检查了每一个解决方案,我传递的变量也是str。关于下列代码:
from lxml import etree
import urllib
yearurl="http://www.boxofficemojo.com/yearly/chart/?yr=2014&p=.htm"
s=urllib.urlopen(yearurl).read()
print type (s)
我正在编写一个Scrapy项目。我已经测试了所有的东西,但是当我解析一个页面时,它会返回TypeError: Argument must be bytes or unicode, got 'list'。我已经使用测试了shell中的所有东西,但是我似乎找不到哪里有问题。我的所有shell命令只返回一项(即没有逗号)。
有人知道为什么会这样吗?
from scrapy.spiders import Spider
from scrapy.selector import HtmlXPathSelector
from scrapy.loader import XPathItemLoad
我在python中使用cygwin。我无法安装lxml,因为它显示了一些库缺失错误。 creating tmp
cc -I/usr/include/libxml2 -c /tmp/xmlXPathInit94yfjj.c -o
tmp/xmlXPathInit94yfjj.o
/tmp/xmlXPathInit94yfjj.c:1:10: fatal error: **libxml/xpath.h: No such file
or directory**
#include "libxml/xpath.h"
^~~~~~~~~~~~~~~~
c
我如何使用python解析这个站点(),以获得今天20:15在SAT上的电视节目?我尝试过Python lxml.etree,但失败了:
#!/usr/bin/python
import lxml.etree as ET
import urllib2
response = urllib2.urlopen('http://www.tvspielfilm.de/tv-programm/rss/heute2015.xml')
xml = response.read()
root = ET.fromstring(xml)
for item in root.findall(
我用Python语言中的lxml抓取网页。然而,为了获得表行的数量,我首先获得所有行,然后使用len()函数。我觉得这太浪费了,有没有其他方法来获取他们的数字(动态1),以便进一步抓取?
import lxml.html
doc = ''
try:
doc = lxml.html.parse('url')
except SkipException: pass
if doc:
buf = ''
#get the total number of rows in table
tr = doc.xpath("
当使用python/lxml解析HTML时,我希望检索html元素的实际属性文本,但我使用解析的实体获取属性文本。也就是说,如果实际属性读取this & that,我将返回this & that。
是否有一种获得未解决属性值的方法?下面是一些示例代码,显示了我的问题,使用python2.7和lxml 3.2.1
from lxml import etree
s = '<html><body><a alt="hi & there">a link</a></body><
来自lxml.etree的HTML解析器似乎具有最大深度限制。如果深度超过254,解析文本将不再遍历。下面是一个python代码片段,演示如下:
import lxml.etree as etree
# Setup HTML tabs
x = "<span>"
x_ = "</span>"
# Set recursion depth to 255
depth = 255
# Construct and parse using lxml.etree.HTML
# This gives an empty list []
print(e