我正在抓取多个网页,但有些网站的内容/文本带有div标签,而不是p或span,因此遇到了问题。以前,该脚本可以很好地从p和span标记中获取文本,但是,如果代码片段如下所示: <div>Hello<p>this is a test</p></div> 使用find_all('div')和.getText我尝试过使用recursive=Fa
我需要从网页中提取特定的文本,但文本所在的锚点标记嵌入了几个子类。soup对象时,我无法从每个单独的结果中获得标签。并输出我需要的文本所在位置的标记 <div class ="span8 main searchresults">
<div id="results"></div> 我希望看到的结果id中的标记应该如下所