如何在不指定标记和删除垃圾的情况下获得在python中标识的url内容?
我知道通常的方法,从urlopen获取数据,然后使用BeautifulSoup来识别内容的标签。我真正想知道的是,有没有什么泛型方法或库可以在不指定标记的情况下做到这一点。
发布于 2018-06-27 15:03:30
如果要从HTML中提取文本:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
text = soup.get_text()
https://stackoverflow.com/questions/51056176
复制相似问题