记录一下这一刻,刚开启在腾讯云社区写文章的第一天,也是作者在网上写文章的第一天,作者将会记录自己学习编程技术的经验,请多多关注!社区也有很多大牛们,文章写的都很不错,都值得学习@_@...
好吧!接下来写写自己的爬虫程序吧(因为文章发布不能少于140字)
# -*- encoding="utf-8" -*-
# -*- 2019/08/28;17:01-*-
# 开发者 : XiaoKaiXuan
import requests
from urllib.request import quote
import random
# word = "猫和老鼠头像"
# quote_word = quote(word)
# print(quote_word)
number = 0
def funtion(value1):
while True:
global number
number += 30
if number == 90:
break
url = "https://image.baidu.com/search/index"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
parameters = {
'tn': 'resultjson_com',
'ipn': 'rj',
'ct': '201326592',
'is': "",
'fp': 'result',
'queryWord': value1,
'cl': '2',
'lm': '-1',
'ie': 'utf-8',
'oe': 'utf-8',
'adpicid': "",
'st': '-1',
'z': "",
'ic': '0',
'hd': "",
'latest': "",
'copyright': "",
'word': value1,
's': "",
'se': "",
'tab': "",
'width': "",
'height': "",
'face': '0',
'istype': '2',
'qc': "",
'nc': '1',
'fr': "",
'expermode': "",
'force': "",
'pn': number,
'rn': '30',
'gsm': "",
'1566987421627': "",
}
print("正在搜索 "+value1+" 相关的url... 查找中 请稍后...")
res = requests.get(url, headers=headers, params=parameters)
js_res = res.json()
list_res = js_res["data"]
for i in list_res:
try:
photo_link = i["thumbURL"]
print("正在抓取:"+photo_link)
download = requests.get(photo_link,timeout=10)
f = open("./photo/"+keyword+"_"+str(random.randrange(0, 10000, 4))+".jpg", "wb")
f.write(download.content)
f.close()
except KeyError:
print("第一页结束")
if __name__ == "__main__":
keyword = input("输入你要爬取的图片关键字:")
funtion(keyword)
这是异步加载的请求方式,所以用json解析,这个例子很简单,这里只抓取了百度图库的90张图片,代码附上!!!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。