专栏首页Pythonista喜欢去知乎炸鱼?用python吧

喜欢去知乎炸鱼?用python吧

知乎高赞贴:

有一双大长腿是什么体验?

有一副迷人的身材是什么体验?

别用手机费劲的翻了,python帮你一臂之力

import re
import requests
import os
import urllib.request
import ssl

from urllib.parse import urlsplit
from os.path import basename

# 全局禁用证书验证
ssl._create_default_https_context = ssl._create_unverified_context

headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
    'Accept-Encoding': 'gzip, deflate'
}


def mkdir(path):
    if not os.path.exists(path):
        print('新建文件夹:', path)
        os.makedirs(path)
        return True
    else:
        print(u"图片存放于:", os.getcwd() + os.sep + path)
        return False


def download_pic2(img_lists, dir_name):
    print("一共有{num}张照片".format(num=len(img_lists)))

    # 标记下载进度
    index = 1

    for image_url in img_lists:
        file_name = dir_name + os.sep + basename(urlsplit(image_url)[2])

        # 已经下载的文件跳过
        if os.path.exists(file_name):
            print("文件{file_name}已存在。".format(file_name=file_name))
            index += 1
            continue

        auto_download(image_url, file_name)

        print("下载{pic_name}完成!({index}/{sum})".format(pic_name=file_name, index=index, sum=len(img_lists)))
        index += 1


def auto_download(url, file_name):
    # 递归下载,直到文件下载成功
    try:
        urllib.request.urlretrieve(url, file_name)
    except urllib.request.ContentTooShortError:
        print("文件下载不完整,重新下载。")
        auto_download(url, file_name)
    except urllib.request.URLError:
        print("网络连接出错,尝试重新下载。")
        auto_download(url, file_name)


def download_pic(img_lists, dir_name):
    print("一共有{num}张照片".format(num=len(img_lists)))
    for image_url in img_lists:
        response = requests.get(image_url, stream=True)
        if response.status_code == 200:
            image = response.content
        else:
            continue

        file_name = dir_name + os.sep + basename(urlsplit(image_url)[2])

        try:
            with open(file_name, "wb") as picture:
                picture.write(image)
        except IOError:
            print("IO Error\n")
            continue
        finally:
            picture.close()

        print("下载{pic_name}完成!".format(pic_name=file_name))


def get_image_url(qid, headers):
    # 利用正则表达式把源代码中的图片地址过滤出来
    # reg = r'data-actualsrc="(.*?)">'
    tmp_url = "https://www.zhihu.com/node/QuestionAnswerListV2"
    size = 10
    image_urls = []

    session = requests.Session()

    while True:
        postdata = {'method': 'next',
                    'params': '{"url_token":' + str(qid) + ',"pagesize": "10",' + '"offset":' + str(size) + "}"}
        page = session.post(tmp_url, headers=headers, data=postdata)
        ret = eval(page.text)
        answers = ret['msg']
        print(u"答案数:%d" % (len(answers)))

        size += 10

        if not answers:
            print("图片 URL 获取完毕, 页数: ", (size - 10) / 10)
            return image_urls

        # reg = r'https://pic\d.zhimg.com/[a-fA-F0-9]{5,32}_\w+.jpg'
        imgreg = re.compile('data-original="(.*?)"', re.S)

        for answer in answers:
            tmp_list = []
            url_items = re.findall(imgreg, answer)

            for item in url_items:  # 这里去掉得到的图片 URL 中的转义字符'\\'
                image_url = item.replace("\\", "")
                tmp_list.append(image_url)

            # 清理掉头像和去重 获取 data-original 的内容
            tmp_list = list(set(tmp_list))  # 去重
            for item in tmp_list:
                if item.endswith('r.jpg'):
                    print(item)
                    image_urls.append(item)

        print('size: %d, num : %d' % (size, len(image_urls)))


if __name__ == '__main__':
    title = '拥有一副令人羡慕的好身材是怎样的体验?'
    question_id = 297715922

    # title = '身材好是一种怎样的体验?'
    # question_id = 26037846

    # title = '女孩子胸大是什么体验?'
    # question_id = 291678281

    # title = '女生什么样的腿是美腿?'
    # question_id = 310786985

    # title = '你的择偶标准是怎样的?'
    # question_id = 275359100

    # title = '什么样才叫好看的腿?'
    # question_id = 63727821

    # title = '身材对女生很重要吗?'
    # question_id = 307403214

    # title = '女生腿长是什么样的体验?'
    # question_id = 273711203

    # title = '女生腕线过裆是怎样一种体验?'
    # question_id = 315236887

    # title = '有着一双大长腿是什么感觉?'
    # question_id = 292901966

    # title = '拥有一双大长腿是怎样的体验?'
    # question_id = 285321190

    # title = '大胸女生如何穿衣搭配?'
    # question_id = 26297181

    # title = '胸大到底怎么穿衣服好看?'
    # question_id = 293482116

    zhihu_url = "https://www.zhihu.com/question/{qid}".format(qid=question_id)
    path = str(question_id) + '_' + title
    mkdir(path)  # 创建本地文件夹
    img_list = get_image_url(question_id, headers)  # 获取图片的地址列表
    download_pic2(img_list, path)  # 保存图片

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大神程序员,夜夜coding到天明?Python之父昼伏夜出,PHP创始人24小时都在线

    有位名叫 Ivan Bessarabov (简称“伊万”) 的好事者,刚刚统计了各路大佬的代码提交 (git commit) 时间分布。

    CSDN技术头条
  • 大神程序员,夜夜coding到天明?Python之父昼伏夜出,PHP创始人24小时都在线

    有位名叫Ivan Bessarabov (简称“伊万”) 的好事者,刚刚统计了各路大佬的代码提交 (git commit) 时间分布。

    量子位
  • 今日入伏,热过头了?来VR游戏水世界中清凉一“夏”吧

    最近这天是真的越来越热了。前段时间,温度让人还能忍受时,小编每天上班的路上,就能看到女生们早就撑起了遮阳伞,而男生们依旧我行我素的往前走。

    VRPinea
  • 自然语言处理背后的数据科学

    人类交流是能感知到的最迷人的特性之一。作为人类的一员,我知道人类之间如何互动是极其复杂的。我们经常发送和接收错误的信息,或者我们的信息会被他人误解。每天我们都理...

    AI研习社
  • 各种编程语言的优缺点

    文章转载自伯乐在线 原文地址:http://blog.jobbole.com/18587/ 【译注】:圣经记载:在远古的时候,人类都使用一种语言,全世界的人决定...

    智能算法
  • Python情感分析:鹿晗的粉丝们究竟原谅他了吗?

    国庆长假的最后一天,鹿晗在微博上公开宣布和关晓彤的恋情。消息来得太突然,不仅粉丝圈里炸了,顺带连微博服务器也给炸了。在此心疼新浪运维工程师一秒,放个假都不能省心...

    Crossin先生
  • 上班摸鱼系列|Python开发命令行斗地主

    今天给大家分享一个mini游戏案例:用Python开发一个命令行斗地主小游戏,利用跑程序的时间来一把斗地主岂不是非常快乐?关键是没有时间限制,可以随时断点续玩。...

    Crossin先生
  • 挖空心思将这些“特色旅行级”应用,献给“被雨神多加关照”的你

    关于“现如今的年味儿越来越淡”这件事,其实很难说。比如,一边这样感叹着的人们,又一边热衷于过着各种“新式春节”——“过年+旅游”就其中一个组合方案。

    VRPinea
  • Python入门的准备工作

    Python是近几年很火的一款软件,斑点鱼在刚开始找工作时就觉得Python很有用,所以在Codecademy和慕课网两个网站,把Python的框架都学了一遍。...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券