当我使用findAll函数时,我遇到了一个问题。findAll函数不能正常工作,不能区分<td>标签的末尾或找不到</td>。它将所有的html代码放入我定义的t1变量中。有人能帮忙吗?我把它的输出放在这里。
t1 = soup.findAll('td',{'data': 'Text:'})
print('( Text: ',t1.text,' )')输出:
( Text: helloworld * , hello: * . hiii * ;hello * ; </td>
<td id="dtt" datetime="2018-12-06T19:08:56Z" data="Summary:">world hello</td>
</tr> 如果它工作正常,它应该给我们这个输出。
( Text: helloworld * , hello: * . hiii * ;hello * ; )另外,我应该注意到,这对于任何其他<td>都是正确的,但是仅仅对于这个<td>,我就有问题了。我认为*、;或最后的空间有一些错误。你的意见是什么?
发布于 2018-12-12 14:19:46
您可以使用以下方法从脏输入中获得更清晰的解析结果:
soup = bs4.BeautifulSoup(html, 'lxml-xml')https://stackoverflow.com/questions/53743263
复制相似问题