上次小编谈到了对网页信息内容的爬取,那么在具体的编程体系中该如何实现呢?
1.方法介绍
BeautifulSoup库给我们提供了一个find_all方法,如下:
<>.find_all(name,attrs,recursive,string,**kwargs)
find_all函数的功能是返回一个列表,存储我们需要查找的内容。
2.相关参数介绍
第一个参数是name:对HTML中标签名称的检索字符串。
比如我们在http://python123.io/ws/demo.html这个简单的网页中找到与a和b标签相关的内容。
首先,打开网页右键找到检查,然后可以看到与a和b标签相关的内容:
下一步,我们决定用上面BeautifulSoup库提供的方法开始查找及其准备:
相关代码如下:
import requests
from bs4 import BeautifulSoup
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
soup=BeautifulSoup(demo,"html.parser")
print(demo)
print(soup.find_all('a'))
print(soup.find_all(['a','b']))
运行结果如下:
如果我们要查找的网页是一个较大的网站,所涉及的标签内容很多,那么该如何查找呢?
To:加个for循环,即可打印出所有的标签信息。
相关代码如下:
import requests
from bs4 import BeautifulSoup
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
soup=BeautifulSoup(demo,"html.parser")
for tag in soup.find_all(True):
print(tag.name)
运行结果如下:
第二个参数是attrs:对标签属性值的检索字符串,可标注属性检索。
相关代码如下:
import requests
from bs4 import BeautifulSoup
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
soup=BeautifulSoup(demo,"html.parser")
print(soup.find_all('p','course'))#查找p标签包含course的属性值
print(soup.find_all(id='link1'))#查找id=link1的属性值
运行结果如下:
第三个参数:recursive:是否对子孙标签全部检索,默认True。
1.对a标签是否进行子孙标签全部检索。
相关代码如下:
import requests
from bs4 import BeautifulSoup
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
soup=BeautifulSoup(demo,"html.parser")
print(soup.find_all('a'))
print(soup.find_all('a',recursive=False))#前后对比
运行结果如下:
第四个参数是string:<>...</>中字符串区域的检索字符串。
1.检索字符串Basic Python。
相关代码如下:
import requests
from bs4 import BeautifulSoup
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
soup=BeautifulSoup(demo,"html.parser")
print(soup)
print(soup.find_all(string="Basic Python"))#前后对比
运行结果如下:
3.与find_all相关的方法
在以后的Python爬虫中,find_all方法会经常用到,同时,Python也为它提供了一些简写形式,如:
<tag>(...) 等价于 <tag>.find_all(...)
soup(...)等价于 soup.find_all(...)
最后,介绍与find_all相关的扩展方法,其函数内部参数与find_all相同:
To:其上方法区别主要在于检索区域和检索返回次数结果个数的不同。
Python爬虫系列,未完待续...