我试图在特定标题下解析html文件中的内容,该标题位于粗体标记之间。html文件中的内容被无序地保存在div标记和段落标记之间。
发布于 2018-08-06 14:01:54
>>> import lxml.html
>>> d = lxml.html.fromstring('''
... <html><body><div>foo bar <b>text here</b>and<p>paragraph</p>
... </div></body></html>''')
>>> d.xpath('//b/text()')
['text here']
https://stackoverflow.com/questions/-100001945
复制相似问题