往"某度文库"上传资源之前,请先做好这些...想到一句好玩的话:知道是你干的,只是懒得抓你!如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励!

先讲个相关的故事:匿名黑客的"复仇行动"

2010年12月10日,黑客组织匿名者发布了一条消息,解释了他们发起最近一次代号为”复仇行动”的攻击的大致动机(Prefect,2010)。由于被那些放弃支持维基解密网站的公司所激怒,匿名者组织号召要通过对涉及的一些机构进行分布式拒绝服务攻击(DDoS)以实现报复。这个稿子上既没有签名,也没有标注消息来源,只是以PDF(Portable Document Format,便携式文档格式)文件的形式被发布出来。

这是当时的文件,为了满足好奇心,被我刨出来了...

PDF原文件第一页

PDF原文件第二页

虽然没有署名,但用脚本很快查到了文档的元数据(这里演示的ANONOPS_The_Press_Release.pdf就是真实的原文件,文件的元数据还被保留着...)

查看元数据

几天后,希腊警方逮捕Alex Tapanaris 先生...

Alex Tapanaris 先生的"复仇行动"提前结束了

这个例子告诉我们,就算技术不好,也不要让别人知道,是你做的种子...


在当下,敏感元数据,在国内资源网站依然大量存在

以博主从国内各大资源网站下载到的技术类书籍资源为例:

(不要问我资源是哪里来的,作为程序员,对于获取资源的套路还是懂一些的...)

为避免小伙伴们在 "某度文库" 发"资源"赚积分的时候成为第二个Alex Tapanaris先生,下面放出博主刚完成的批量清除pdf元数据的脚本,以及使用方法:

快速清除PDF元数据

快速清除PDF元数据

清除后的效果

清除后的效果

批量获取文档元数据(查别人):

import PyPDF2
from PyPDF2 import PdfFileReader
import sys
import os
import re

#获取目录下所有的pdf文件目录
def getFiles():

    files = os.listdir()

    # 如果输入了单个pdf文件,则只输出单个pdf元数据
    try:
        if sys.argv[1]:
            files = [sys.argv[1]]
    except:
        pass

    pdf_files = list()

    for file_name in files:
        try:
            result = re.match(r".*\.pdf$", file_name)
            
            if result:
                pdf_files.append(file_name)
        except Exception as e:
            pass


    return pdf_files


# 打印文件的元信息
def printMeta(files):
        for filename in files:
            try:
                pdfFile= PdfFileReader(open(filename, "rb"))
                docInfo = pdfFile.getDocumentInfo()
                print ("===文件%s的元信息为:"%filename)
                for metaItem in docInfo:
                    print(metaItem,":",docInfo[metaItem])
            except Exception as e:
                print("---文件%s元数据无法读取,已经跳过!"%filename)

if __name__ == "__main__":
    filenames = getFiles()
    printMeta(filenames)

清除源信息(藏自己):

import sys
import os
import re
from PyPDF2 import PdfFileReader, PdfFileWriter

#获取目录下所有的pdf文件
def getFiles():
    files = os.listdir()
    pdf_files = list()

    for file_name in files:
        try:
            result = re.match(r".*\.pdf$", file_name)
            
            if result:
                pdf_files.append(file_name)
        except Exception as e:
            pass

    return pdf_files


def get_page_num(file_name):
    #获取一个pdfFileReader对象
    my_pdf = PdfFileReader(open(file_name,"rb"))

    # 获取页数
    page_num = my_pdf.getNumPages()
    print("PDF文件%s的页数为%s"%(file_name, page_num))
    return page_num

    

def create_new_pdf(file_names):
    try:
        os.mkdir("./pure")
    except Exception as e:
        pass
    
    for file_name in file_names:

        try:
            # 获取原pdf的信息
            my_pdf = PdfFileReader(open(file_name,"rb"))

            # 创建一个PdfFileWriter对象
            new_pdf = PdfFileWriter()
            
            for i in range(0, get_page_num(file_name)):
                
                page_info = my_pdf.getPage(i)

                new_pdf.addPage(page_info)

            new_pdf.write(open("./pure/%s"%file_name, "wb"))
            print("文件%s已清除元数据!"%file_name)
        except Exception as e:
            print("文件%s编码有问题,已自动跳过!"%file_name)



if __name__ == "__main__":
    create_new_pdf(getFiles());

想到一句好玩的话:知道是你干的,只是懒得抓你!

如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏杨建荣的学习笔记

system表空间不足的问题分析(r6笔记第66天)

很多事情见多了也就有了麻木的感觉,报警短信就是如此,每天总能收到不少的报警短信,可能很多时候就扫一眼,如果没有严重的问题自己是不会情愿打开电脑处理的。 对于此,...

28240
来自专栏哲学驱动设计

产品前端重构(TypeScript、MVC框架设计)

最近两周完成了对公司某一产品的前端重构,本文记录重构的主要思路及相关的设计内容。 公司期望把某一管理类信息系统从项目代码中抽取、重构为一个可复用的产品。该系统的...

27980
来自专栏漏斗社区

黑客游戏| Owasp juice shop (一)

0x01 前言 最近看到一篇关于owasp juice shop的文章,觉的很有意思,斗哥就自己撸了个环境,上手后深深觉的这是一个很棒的漏洞靶场,所以就把该...

52580
来自专栏自然语言处理

微博话题爬取与存储分析(上)

本文基于python以新浪微博为数据平台,从数据采集、关键字提取、数据存储三个角度,用最简单的策略来挖掘我们的“黄金”。

39820
来自专栏魏琼东

一步一步教你使用AgileEAS.NET基础类库进行应用开发-WinForm应用篇-演示ORM对象与DataGridView的绑定技术-商品字典的另一个实现

回顾与说明     前面我们把“商品字典”、“商品入库”、“商品库存查询”、“商品入库查询”四个模块已经概括或者详细的演示了一个管理信息系统的典型应用场景,按照...

21750
来自专栏FreeBuf

浅谈拒绝服务攻击的原理与防御(2) :反射型DDOS

0×01 前言 前几天提交了一篇关于DDOS攻击的文章到今天下午才审核通过发表出来,所以晚上闲来无事在接着写下面的内容,今天我就不多说废话了直接来干货。 目前来...

31160
来自专栏androidBlog

360面试总结(Android)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/gdutxiaoxu/article/details/...

9610
来自专栏测试开发架构之路

Android软件测试Monkey测试工具

前言: 最近开始研究Android自动化测试方法,对其中的一些工具、方法和框架做了一些简单的整理,其中包括android测试框架、CTS、Monkey、Monk...

1.1K110
来自专栏张戈的专栏

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

最近张戈博客收录出现异常,原因并不明朗。我个人猜测存在如下几个直接原因: 更换主题,折腾时带来过多错误页面或间歇性访问错误; 直接线上折腾 Nginx 缓存和...

49360
来自专栏Albert陈凯

2018-05-17 架构师技能图谱,搞懂这些找工作无敌数据结构常用算法并发操作系统设计模式运维 & 统计 & 技术支持中间件网络数据库搜索引擎性能大数据安全常用开源框架分布式设计设计思想 & 开发模

1.3K50

扫码关注云+社区

领取腾讯云代金券