【Python】百度搜索

文章来源：企鹅号 - Excel实战分享

fromurllibimportrequest

importre

url="http://www.baidu.com/s?wd="

key="python"#搜索关键词

pageCount=#搜索记录条数

#对关键词进行编码，因为url中需要对中文等进行处理

key_code=request.quote(key)

#带检索关键词的url

url=url+key_code+"&ie=utf-8&pn="

#请求头

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

}

defgetInfosByPage(page):

req=request.Request(url+str(page*10-10),headers=headers)

res=request.urlopen(req)

html=res.read().decode("utf-8","ignore")

ifpage==1:

patPage="百度为您找到相关结果约(.*?)个"

globalpageCount

pageInfo=re.findall(patPage,html)[]

pageCount=int(pageInfo.replace(",",""))

ifpageCount

return

pat='data-tools="{"title":"(.*?)","url":"(.*?)"}"'

pat=pat.replace('"','[\'"]?')

datas=re.findall(pat,html,re.S|re.M)

fordataindatas:

print("标题："+data[])

print("网址："+data[1])

print("="*100)

if__name__=="__main__":

forpageinrange(1,10):

getInfosByPage(page)

发表于: 2018-05-122018-05-12 19:18:40
原文链接：http://kuaibao.qq.com/s/20180512G1H00A00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

【Python】百度搜索

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐