我正在制作一个自动登录到网站的小python脚本。但是我被卡住了。
我希望将html的一小部分打印到终端中,位于站点上html文件中的以下标记中:
<td class=h3 align='right'> John Appleseed</td><td> <a href="members_myaccount.php"><img border=0 src="../tbs_v7_0/images/myaccount.gif" alt="My Account"></a></td>但是我该如何提取并打印John Appleseed这个名字呢?
顺便说一句,我正在mac上使用Pythons的机械化。
发布于 2011-10-14 14:23:10
您可以使用解析器提取文档中的任何信息。我建议你使用lxml模块。
下面是一个示例:
from lxml import etree
from StringIO import StringIO
parser = etree.HTMLParser()
tree = etree.parse(StringIO("""<td class=h3 align='right'> John Appleseed</td><td> <a href="members_myaccount.php"><img border=0 src="../tbs_v7_0/images/myaccount.gif" alt="My Account"></a></td>"""),parser)
>>> tree.xpath("string()").strip()
u'John Appleseed'有关lxml here的更多信息
https://stackoverflow.com/questions/7763691
复制相似问题