重合散点图绘制:neat

hello诸君,暖阳高照,午间一杯清茶,又到了爬虫俱乐部向大家种草新命令新方法的时候啦!

许多同学学到的第一个Stata绘图命令想必就是scatter命令,该命令用于生成观测样本的散点图,但scatter命令存在一个缺点:当我们的数据集存在重复观测值时,scatter生成的图中不能体现那些“重合的散点”。而今天我们要介绍的命令专门用于解决这一问题——neat命令,它可以微调重复观测样本的变量值。使得其在散点图上清晰可见。

01

安装

你可以使用github 命令直接安装neat命令

github install haghish/neat

关于如何使用github命令下载github站点上的Stata命令,可以详见爬虫俱乐部推文《SSC的好兄弟“github”》

02

scatter散点图

首先我们加载命令的作者提供给我们的示例数据集,使用它来绘制散点图。

use "https://raw.githubusercontent.com/haghish/neat/master/test/neat3.dta", clear

查看数据集大致情况

可以看到,这个数据集有60个观测值,两个变量v1 v2 值均为正整数,并且存在重复观测值。如第1个观测值与第6个观测值是重复的。

首先使用scatter命令绘制散点图

scatter v1 v2

得到图片如下

散点图已经绘制出来了,但咱们仔细数一数发现,图中只有29个散点,而数据集却有60个观测值,这是因为存在很多重复观测值的情况,这些重复观测值“挤”在了一起,我们看不到,那么怎样可以在图中直观地看到这些重复观测值呢。这就要用到我们今天的主角:neat命令。

03

neat命令绘制重合散点图

使用neat命令绘制可以显示重复观测值的散点图,其实非常地简单,只需要在scatter命令之前,加上一句neat命令即可。完整代码如下:

use "https://raw.githubusercontent.com/haghish/neat/master/test/neat3.dta", clear

neat v1 v2

scatter v1 v2

得到如图所示的新散点图

04

neat的两个小选项

neat命令内置了两个小选项用以调整图片整体外观及散点大小。

msize() 改变散点的大小

msize() 的默认值为1.5 ,如果你设置了一个比1.5小的数字,那么生成的散点就会变小

xsize() 伸缩横坐标轴

通过xsize()选项,可以“压缩”或“拉伸”横坐标轴

现在我们将散点重绘一遍,两个选项在neat命令和scatter命令中都要写一遍。

use "https://raw.githubusercontent.com/haghish/neat/master/test/neat3.dta", clear

neat v1 v2 , msize(1.1) xsize(6.5)

scatter v1 v2, msize(1.1) xsize(6.5)

这样一个小巧方便的命令完美地解决了一个绘制散点图时遇到的烦恼。

注:此推文中的图片及封面(除操作部分的)均来源于网络!如有雷同,纯属巧合!

以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!

应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~

文字编辑/徐露露

技术总编/刘贝贝

7.如何从pdf中提取表格数据

9.爬虫俱乐部出品——实证结果输出命令

此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿要求:

1)必须原创,禁止抄袭;

2)必须准确,详细,有例子,有截图;

注意事项:

1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。

3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

欢迎关注爬虫俱乐部

本文来自企鹅号 - 爬虫俱乐部媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 基于TensorFlow和Sonnet,DeepMind开源可微神经计算机实现包

选自Github 机器之心编译 参与:蒋思源 去年 DeepMind 在自然期刊上曾介绍过一种记忆增强式的神经网络形式-可微神经计算机。而近日,DeepMin...

30830
来自专栏人工智能

作为TensorFlow的底层语言,你会用C+构建深度神经网络吗?

选自Matrices.io 作者:Florian Courtial 机器之心编译 参与:李泽南、蒋思源 很多人都知道 TensorFlow 的核心是构建在 C+...

29480
来自专栏Python小屋

几行Python代码生成饭店营业额模拟数据并保存为CSV文件

CSV文件是一种通用的、简单的文件格式,以纯文本形式存储表格数据(数字和文本),在多个领域都有广泛应用,经常用来在不同程序之间交换数据。 下面的代码使用Pyth...

43990
来自专栏机器之心

资源 | Mask R-CNN神应用:像英剧《黑镜》一样屏蔽人像

选自GitHub 机器之心编译 参与:思源、黄小天 黑镜特别篇《白色圣诞节》中有种名为「屏蔽」的黑科技,每个人安装上智能眼,可以凭意愿屏蔽动态视界中的任何人(及...

336100
来自专栏目标检测和深度学习

Kaggle放大招:简单几步实现海量数据分析及可视化

Kaggle Kerneler bot是一个自动生成的kernel,其中包含了演示如何读取数据以及分析工作的starter代码。用户可以进入任意一个已经发布的项...

7900
来自专栏腾讯移动品质中心TMQ的专栏

【腾讯TMQ】看图测试指南:图像识别在测试中的应用

也许我们使用过Uiautomator或Monkey来进行系统的测试。但在使用过程中总出现用Uiautomator没法识别、用Monkey无法法复现等问题……本文...

73500
来自专栏石瞳禅的互联网实验室

【TensorFlow实战——笔记】第1章:TensorFlow基础

TensorFlow是Google公司开源的分布式机器学习框架。它的前身是DistBelief,在Google大规模内部使用。TensorFlow最早由Goog...

14410
来自专栏腾讯开源的专栏

【开源公告】腾讯第三代高性能计算平台Angel 正式全面开源

Angel 项目简介 Angel是一个基于参数服务器(Parameter Server)理念开发的高性能分布式机器学习框架,在其之上,用户能轻松开发适用于高维度...

45070
来自专栏大数据智能实战

DrQA实践

2017年七月份Facebook开源了其开放域问答系统DrQA的代码。关于DrQA,还有一篇2017年发表在ACL上的论文《Reading Wikipedi...

33450
来自专栏机器之心

开源 | 浏览器上最快的DNN执行框架WebDNN:从基本特性到性能测评

选自Github 机器之心编译 参与:蒋思源、晏奇 WebDNN 是网页浏览器中最快的 DNN 执行框架,而本文首先简单介绍了 WebDNN 特征与其框架结构...

33060

扫码关注云+社区

领取腾讯云代金券