前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hello world

Hello world

原创
作者头像
用户6173683
修改2019-09-04 10:00:19
7201
修改2019-09-04 10:00:19
举报
文章被收录于专栏:web抓取

记录一下这一刻,刚开启在腾讯云社区写文章的第一天,也是作者在网上写文章的第一天,作者将会记录自己学习编程技术的经验,请多多关注!社区也有很多大牛们,文章写的都很不错,都值得学习@_@...

好吧!接下来写写自己的爬虫程序吧(因为文章发布不能少于140字)

代码语言:javascript
复制
# -*- encoding="utf-8" -*-
# -*- 2019/08/28;17:01-*-
# 开发者 : XiaoKaiXuan

import requests
from urllib.request import quote
import random
# word = "猫和老鼠头像"
# quote_word = quote(word)
# print(quote_word)

number = 0
def funtion(value1):

    while True:

        global number
        number += 30

        if number == 90:
            break

        url = "https://image.baidu.com/search/index"
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
        parameters = {
                        'tn': 'resultjson_com',
                        'ipn': 'rj',
                        'ct': '201326592',
                        'is': "",
                        'fp': 'result',
                        'queryWord': value1,
                        'cl': '2',
                        'lm': '-1',
                        'ie': 'utf-8',
                        'oe': 'utf-8',
                        'adpicid': "",
                        'st': '-1',
                        'z': "",
                        'ic': '0',
                        'hd': "",
                        'latest': "",
                        'copyright': "",
                        'word': value1,
                        's': "",
                        'se': "",
                        'tab': "",
                        'width': "",
                        'height': "",
                        'face': '0',
                        'istype': '2',
                        'qc': "",
                        'nc': '1',
                        'fr': "",
                        'expermode': "",
                        'force': "",
                        'pn': number,
                        'rn': '30',
                        'gsm': "",
                        '1566987421627': "",
                    }
        print("正在搜索 "+value1+" 相关的url... 查找中 请稍后...")
        res = requests.get(url, headers=headers, params=parameters)
        js_res = res.json()
        list_res = js_res["data"]

        for i in list_res:
            try:
                photo_link = i["thumbURL"]
                print("正在抓取:"+photo_link)
                download = requests.get(photo_link,timeout=10)
                f = open("./photo/"+keyword+"_"+str(random.randrange(0, 10000, 4))+".jpg", "wb")
                f.write(download.content)
                f.close()

            except KeyError:
                print("第一页结束")


if __name__ == "__main__":
    keyword = input("输入你要爬取的图片关键字:")
    funtion(keyword)

这是异步加载的请求方式,所以用json解析,这个例子很简单,这里只抓取了百度图库的90张图片,代码附上!!!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档