# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
import re
import requests
from bs4 import BeautifulSoup
html = requests.get('https://mp.weixin.qq.com/s?src=11×tamp=1533887718&ver=1051&signature=Xszdx5nmmHyebcH0MXxyHi7-jDwGoNDUDXCHJzPVic68tXGRSTiM3CStUDfSR*aALaC3nK3Ez4e33uLR5ir1pLgy3vEvWXWOvVXgAbsXMn5fB-HWboOW26GH*KMRVhgX&new=1')
soup = BeautifulSoup(html.text, "html5lib")
data = soup.findAll(text=True)
def visible(element):
if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:
return False
elif re.match('', str(element.encode('utf-8'))):
return False
return True
result = filter(visible, data)
with open('res.txt', "w+") as p:
for i in result:
print(str(i))
p.write(str(i))
print list(result)
☆文章版权声明☆
* 网站名称:obaby@mars * 网址:https://h4ck.org.cn/ * 本文标题: 《获取网页中所有的文字》 * 本文链接:https://h4ck.org.cn/2018/08/%e8%8e%b7%e5%8f%96%e7%bd%91%e9%a1%b5%e4%b8%ad%e6%89%80%e6%9c%89%e7%9a%84%e6%96%87%e5%ad%97/ * 转载文章请标明文章来源,原文标题以及原文链接。请遵从 《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。
分享文章: