Hello world

原创

用户6173683

修改于 2019-09-04 10:00:19

8641

文章被收录于专栏：web抓取web抓取

记录一下这一刻，刚开启在腾讯云社区写文章的第一天，也是作者在网上写文章的第一天，作者将会记录自己学习编程技术的经验，请多多关注！社区也有很多大牛们，文章写的都很不错，都值得学习@_@...

好吧！接下来写写自己的爬虫程序吧（因为文章发布不能少于140字）

# -*- encoding="utf-8" -*-
# -*- 2019/08/28;17:01-*-
# 开发者 ： XiaoKaiXuan

import requests
from urllib.request import quote
import random
# word = "猫和老鼠头像"
# quote_word = quote(word)
# print(quote_word)

number = 0
def funtion(value1):

    while True:

        global number
        number += 30

        if number == 90:
            break

        url = "https://image.baidu.com/search/index"
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
        parameters = {
                        'tn': 'resultjson_com',
                        'ipn': 'rj',
                        'ct': '201326592',
                        'is': "",
                        'fp': 'result',
                        'queryWord': value1,
                        'cl': '2',
                        'lm': '-1',
                        'ie': 'utf-8',
                        'oe': 'utf-8',
                        'adpicid': "",
                        'st': '-1',
                        'z': "",
                        'ic': '0',
                        'hd': "",
                        'latest': "",
                        'copyright': "",
                        'word': value1,
                        's': "",
                        'se': "",
                        'tab': "",
                        'width': "",
                        'height': "",
                        'face': '0',
                        'istype': '2',
                        'qc': "",
                        'nc': '1',
                        'fr': "",
                        'expermode': "",
                        'force': "",
                        'pn': number,
                        'rn': '30',
                        'gsm': "",
                        '1566987421627': "",
                    }
        print("正在搜索 "+value1+" 相关的url... 查找中 请稍后...")
        res = requests.get(url, headers=headers, params=parameters)
        js_res = res.json()
        list_res = js_res["data"]

        for i in list_res:
            try:
                photo_link = i["thumbURL"]
                print("正在抓取："+photo_link)
                download = requests.get(photo_link,timeout=10)
                f = open("./photo/"+keyword+"_"+str(random.randrange(0, 10000, 4))+".jpg", "wb")
                f.write(download.content)
                f.close()

            except KeyError:
                print("第一页结束")


if __name__ == "__main__":
    keyword = input("输入你要爬取的图片关键字：")
    funtion(keyword)

这是异步加载的请求方式，所以用json解析，这个例子很简单，这里只抓取了百度图库的90张图片，代码附上！！！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯云开发者社区

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯云开发者社区

登录后参与评论

0 条评论

热度

Hello world

Hello world

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐