使用 Python 伪造数据

0 前言

某些时刻,因为个人数据不想泄露出去,所以需要伪造一下数据;也有使用爬虫的时候需要换一下 user agent ,一个用到旧会被发现,最后就是被封结尾。

运行环境是 Python3, Win10,编译器是 Pycharm

1 个人数据

使用的是 faker 这个包,安装的过程直接省去。下面这段代码是生成简单的个人信息。

语言那可以自己选择,注释那只给出了常用的语言。

1.1 自己选择需要的数据

from faker import Faker

fake = Faker('zh_CN')  # en_US,zh_CN,zh_TW
for _ in range(4):  # 输出4个,方便选择
    print("姓名:" + fake.name() + "    工作:" + fake.job())
    print("公司:" + fake.company())
    print("住址:" + fake.address())
    print("===========")

下面是运行结果,职位的本地化还稍微有所欠缺,哪怕选择了中文,工作职位还是英文的。

运行结果

1.2 生成简单的个人数据

如果不喜欢,或者闲麻烦,可以直接调用给出的方法生成简单的个人信息

from faker import Faker

fake = Faker('zh_CN')  # en_US,zh_CN,zh_TW
print(fake.simple_profile(sex=None))

代码运行后的结果就是这样

简单个人信息

1.3 生成复杂的个人数据

如果觉得不够详细,可以想下面这样做。

from faker import Faker

fake = Faker('zh_CN')  # en_US,zh_CN,zh_TW
print(fake.profile(fields=None, sex=None))

复杂个人信息

还有很多的东西没有写出来,建议去阅读官方文档(官方文档是英文的

2 爬虫 user_agent

运行爬虫的时候总会加上 user_agent,每一次都是找一堆 user_agent,然后堆在一起,最后用 random 随机选择一个。

user_agent = ["Mozilla/5.0 (Windows NT 10.0; WOW64)", 'Mozilla/5.0 (Windows NT 6.3; WOW64)',
              'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
              'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
              'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
              'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
              'Opera/9.27 (Windows NT 5.2; U; zh-cn)',
              'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
              'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)'
              ]

不得不说,麻烦到爆炸,还让代码多出了一堆,既不美观,又显多余。

上面看到的代码是我精简 3 次后的结果,原来的代码有20行

现在只需用一下 faker 这个包,简简单单就可以弄出一堆的 user_agent 了

多种样式,能满足大部分需求。

from faker import Faker

fake = Faker('zh_CN')  # en_US,zh_CN,zh_TW

print(fake.safari())
print(fake.opera())
print(fake.chrome(version_from=13, version_to=63, build_from=800, build_to=899))
print(fake.firefox())
print(fake.user_agent())

官方文档那的介绍更加详细,建议多看看

3 相关说明

faker 的 GitHub (原文链接):

https://github.com/joke2k/faker

faker 的说明文档:

https://faker.readthedocs.io/

题图:Photo by Harli Marten on Unsplash

原文发布于微信公众号 - 萧北月(beiyue_lbj)

原文发表时间:2018-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java学习123

互联网各种免费接口整理

52411
来自专栏LhWorld哥陪你聊算法

python爬虫知识点三--解析豆瓣top250数据

1312
来自专栏顶级程序员

一张“神图”看懂单机/集群/热备/磁盘阵列(RAID)

今天是农历小年,顶级程序员祝大家小年夜快乐~ ? 单机部署(stand-alone):只有一个饮水机提供服务,服务只部署一份 集群部署(cluster):有多...

3707
来自专栏有趣的django

21天打造分布式爬虫-数据解析实战(三)

1103
来自专栏Python攻城狮

Python网络爬虫(七)- 深度爬虫CrawlSpider1.深度爬虫CrawlSpider2.链接提取:LinkExtractor3.爬取规则:rules4.如何在pycharm中直接运行爬虫5.

3252
来自专栏七夜安全博客

Scrapy爬取美女图片第四集 突破反爬虫(上)

3133
来自专栏运维小白

原QQ坦白说之解密教程

背景:之前在QQ上突然有人发坦白说给我,第一感觉就是谁恶搞我,想找到是谁,是谁在恶作剧 ? ---- QQ坦白说之解密教程 一、模拟手机QQ 首先使用谷歌...

4079
来自专栏Jack-Cui

Python3网络爬虫(十):这个帅哥、肌肉男横行的世界(爬取帅哥图)

运行平台: Windows Python版本: Python3.x IDE: Sublime text3 1 前言     之前,感觉网上类似于《爬取...

2296
来自专栏我和PYTHON有个约会

爬虫正传-江湖路远-0102-少侠师承何处

少侠初入江湖,尚不知江湖险恶,入门级别的爬虫很快就被人识破,并对爬虫程序的发起IP地址进行了封锁 WHY?因为少侠不知江湖套路,爬虫程序在网络上直接裸奔,只要...

863
来自专栏CaiRui

RAID技术

磁盘阵列(Redundant Arrays of Independent Disks,RAID),有“独立磁盘构成的具有冗余能力的阵列”之意。 磁盘阵列是由很多...

40215

扫码关注云+社区

领取腾讯云代金券