如何获得python中标识的url内容,而无需指定标记和清除垃圾?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (96)

如何获得python中标识的url内容,而无需指定标记和清除垃圾?

我知道通常的方法,从urlopen和BeautifulSoup获取数据来识别内容的标记。我真正想知道的是,在不指定标记的情况下,是否有任何通用方法或库来执行此操作。

提问于
用户回答回答于

如果要从HTML中提取文本:

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html) 
text = soup.get_text() 

扫码关注云+社区

领取腾讯云代金券