有没有什么Python库可以让我像jQuery
那样解析超文本标记语言文档?
也就是说,我希望能够使用CSS选择器语法从文档中抓取任意一组节点,读取它们的内容/属性等。
我以前唯一使用过的Python HTML解析库是BeautifulSoup,,尽管它很好,但我一直在想,如果我有可用的jQuery语法,解析速度会更快。:D
发布于 2010-06-16 15:32:01
如果您精通BeautifulSoup,您可以将soupselect添加到您的库中。
Soupselect是BeautifulSoup的CSS选择器扩展。
用法:
from bs4 import BeautifulSoup as Soup
from soupselect import select
import urllib
soup = Soup(urllib.urlopen('http://slashdot.org/'))
select(soup, 'div.title h3')
[<h3><span><a href='//science.slashdot.org/'>Science</a>:</span></h3>,
<h3><a href='//slashdot.org/articles/07/02/28/0120220.shtml'>Star Trek</h3>,
..]
发布于 2011-05-11 07:19:21
以PyQuery为例:
http://packages.python.org/pyquery/
>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> import urllib
>>> d = pq("<html></html>")
>>> d = pq(etree.fromstring("<html></html>"))
>>> d = pq(url='http://google.com/')
>>> d = pq(url='http://google.com/', opener=lambda url: urllib.urlopen(url).read())
>>> d = pq(filename=path_to_html_file)
>>> d("#hello")
[<p#hello.hello>]
>>> p = d("#hello")
>>> p.html()
'Hello world !'
>>> p.html("you know <a href='http://python.org/'>Python</a> rocks")
[<p#hello.hello>]
>>> p.html()
u'you know <a href="http://python.org/">Python</a> rocks'
>>> p.text()
'you know Python rocks'
发布于 2010-06-16 15:14:41
https://stackoverflow.com/questions/3051295
复制相似问题