大牛总结的爬虫模块,BeautifulSoup学习笔记

首先是对BeautifulSoup的安装:

打开cmd,用cd命令进入到beautifulsoup的解压包目录下:

以我的电脑为例: cd d:python27eautifulsoup4-4.4.1

看到这样的提示表示已经在该目录下

【步骤3】运行安装指令,分别为:

python setup.py build

python setup.py install

(ps:以上一定要加“python”这个词,因为看到有的教程里面让输入的指令是:setup.py build 和 setup.py install,可是我运行之后,cmd没有任何反应,在我去测试之后发现并没有安装成功。。原因不明 >_

import urllib

import urllib.request as request

import re

from bs4 import *

#url = 'http://zh.house.qq.com/'

html = request.urlopen(url).read().decode('utf-8')

soup = BeautifulSoup(html,"html.parser")

#name属性是‘’的标签的类,是一个由组成的list

print(soup.find_all(attrs={'name':'keywords'}))

print(soup.find_all(class_='site_name'))#class属性是‘’的的list,即

print(soup.find_all(class_='site_name')[0])#这是一个

print(soup.find(attrs={'name':'keywords'}))#name属性是‘’的标签的类

print(soup.find('meta',attrs={'name':'keywords'}))#name属性是‘’的meta标签的类

print(soup.find('meta',attrs={'name':'keywords'})['content'])#可直接查属性值

#配合re模块使用,可以忽略大小写

#如下面例子,可以找到name属性为keywords,KEYWORDS,KeyWORds等的meta标签

print(soup.find('meta',attrs={'name':re.compile('keywords',re.IGNORECASE)}))

'''-------------------------------------------------------------------------'''

'''----------------------------修改BeautifulSoup—----------------------------'''

'''-------------------------------------------------------------------------'''

soup.find(attrs={'name':'keywords'}).extract#调用这个方法,可以删除这一个标签

#可以使用append(),insert(),insert_after()或者insert_before()等方法来对新标签进行插入。

Tag1 = a.new_tag('li',class_='123')'''创造一个Tag'''

a.title.append(Tag1)#把Tag1添加为name是title的Tag的最后一个【子节点】,没有换行

#.insert(0,Tag1)----这里用insert的话,第一个参数可以控制所添加【子节点】的先后位置

#.insert_after(Tag1)---和insert_before一样,添加为Title的【兄弟节点】

soup.div.append('放在div子节点位置的 最后append最后,是标签内容')

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180224A19ZFY00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券