前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用Python获取可能是全网最全的杰尼龟表情包(第一弹)

用Python获取可能是全网最全的杰尼龟表情包(第一弹)

作者头像
老肥码码码
发布2020-04-08 14:46:54
5110
发布2020-04-08 14:46:54
举报
杰尼龟系列表情包在广大网友之间传递快乐,红极一时。我想是杰尼龟可爱的外表以及憨憨的形态,圆圆的脸蛋、大大的眼睛,并且其经常在剧中摆出各式夸张表情,因而被广大网友制成各式各样的表情包,并且深受沙雕网友的喜爱。

正好,我也是这沙雕网友大军中的一员,通过各种渠道收集了一些杰尼龟的表情包。但,我想要更多,只有拥有沙雕表情包最多的人才能在斗图中立于不败之地,于是便有了用Python获取可能是全网最全的杰尼龟表情包这一系列。本系列旨在获取更多更多的杰尼龟表情包,传递更多欢乐。

全系列一共三弹,每一弹都运用Python作为编程语言,主要涉及网络爬虫、数字图像处理以及机器学习这几个应用领域,今天便是这第一弹!

爬取视频

如何获得更多的杰尼龟表情包?

这些流传的表情包无非就是截取自动画片《精灵宝可梦》,然后有选择性地缩放或是剪切图片,再对应图片加上相关的文字。因此按照这个逻辑,我们需要首先从这视频入手。

作为第一代御三家的一员,杰尼龟主要活跃在《精灵宝可梦》的第一部无印篇,因而我们仅需要考虑第一部的视频,而这第一部中,不乏一些杰尼龟专集。

直接下载这第一部的所有视频费时费力,恰好B站有up主上传了所有含杰尼龟的集数合集,这里偷个小懒,我直接采用了@Henryhaohao写得非常棒的B站视频爬虫将该专辑合集的所有视频下载到本地。

视频切割

既然已经将所有视频下载,接下来便可以利用openCV将每个视频切割为图片。这里fps便是帧率,意为每一秒刷新的图片数量,frames则是一整段视频中总的图片数量。

代码语言:javascript
复制
def vedio_to_pic(path):

    vedio_path=os.listdir(path)
    count=0
    for vedio in vedio_path:
        videoCapture=cv2.VideoCapture()
        videoCapture.open(os.path.join(path,vedio,vedio+'.flv'))
        fps=videoCapture.get(cv2.CAP_PROP_FPS)
        frames = videoCapture.get(cv2.CAP_PROP_FRAME_COUNT)
        print("fps=",fps,"frames=",frames)
        for i in range(int(frames)):
            ret,frame=videoCapture.read()
            if ret:
                if i%int(fps/5)==0:
                    cv2.imwrite("pic/jieni{}_{}.jpg".format(count+1,i),frame)
        count+=1

这里每一帧仅保存1/5数量的图片,因为每一帧内的图片较为相似,帧内所有图片获取存在较大的冗余。

至此,我们便拥有了海量可能包含杰尼龟的图片,下一弹便来讲讲如何使用机器学习来帮助我们筛选这些包含杰尼龟的图片!

代码语言:javascript
复制
——END——
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法与数据之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 爬取视频
  • 视频切割
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档