首先是对BeautifulSoup的安装:
打开cmd,用cd命令进入到beautifulsoup的解压包目录下:
以我的电脑为例: cd d:python27eautifulsoup4-4.4.1
看到这样的提示表示已经在该目录下
【步骤3】运行安装指令,分别为:
python setup.py build
python setup.py install
(ps:以上一定要加“python”这个词,因为看到有的教程里面让输入的指令是:setup.py build 和 setup.py install,可是我运行之后,cmd没有任何反应,在我去测试之后发现并没有安装成功。。原因不明 >_
import urllib
import urllib.request as request
import re
from bs4 import *
#url = 'http://zh.house.qq.com/'
html = request.urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html,"html.parser")
#name属性是‘’的标签的类,是一个由组成的list
print(soup.find_all(attrs={'name':'keywords'}))
print(soup.find_all(class_='site_name'))#class属性是‘’的的list,即
print(soup.find_all(class_='site_name')[0])#这是一个
print(soup.find(attrs={'name':'keywords'}))#name属性是‘’的标签的类
print(soup.find('meta',attrs={'name':'keywords'}))#name属性是‘’的meta标签的类
print(soup.find('meta',attrs={'name':'keywords'})['content'])#可直接查属性值
#配合re模块使用,可以忽略大小写
#如下面例子,可以找到name属性为keywords,KEYWORDS,KeyWORds等的meta标签
print(soup.find('meta',attrs={'name':re.compile('keywords',re.IGNORECASE)}))
'''-------------------------------------------------------------------------'''
'''----------------------------修改BeautifulSoup—----------------------------'''
'''-------------------------------------------------------------------------'''
soup.find(attrs={'name':'keywords'}).extract#调用这个方法,可以删除这一个标签
#可以使用append(),insert(),insert_after()或者insert_before()等方法来对新标签进行插入。
Tag1 = a.new_tag('li',class_='123')'''创造一个Tag'''
a.title.append(Tag1)#把Tag1添加为name是title的Tag的最后一个【子节点】,没有换行
#.insert(0,Tag1)----这里用insert的话,第一个参数可以控制所添加【子节点】的先后位置
#.insert_after(Tag1)---和insert_before一样,添加为Title的【兄弟节点】
soup.div.append('放在div子节点位置的 最后append最后,是标签内容')
领取专属 10元无门槛券
私享最新 技术干货