首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Python】百度搜索

fromurllibimportrequest

importre

url="http://www.baidu.com/s?wd="

key="python"#搜索关键词

pageCount=#搜索记录条数

#对关键词进行编码,因为url中需要对中文等进行处理

key_code=request.quote(key)

#带检索关键词的url

url=url+key_code+"&ie=utf-8&pn="

#请求头

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

}

defgetInfosByPage(page):

req=request.Request(url+str(page*10-10),headers=headers)

res=request.urlopen(req)

html=res.read().decode("utf-8","ignore")

ifpage==1:

patPage="百度为您找到相关结果约(.*?)个"

globalpageCount

pageInfo=re.findall(patPage,html)[]

pageCount=int(pageInfo.replace(",",""))

ifpageCount

return

pat='data-tools="{"title":"(.*?)","url":"(.*?)"}"'

pat=pat.replace('"','[\'"]?')

datas=re.findall(pat,html,re.S|re.M)

fordataindatas:

print("标题:"+data[])

print("网址:"+data[1])

print("="*100)

if__name__=="__main__":

forpageinrange(1,10):

getInfosByPage(page)

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180512G1H00A00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券