重合散点图绘制:neat

hello诸君,暖阳高照,午间一杯清茶,又到了爬虫俱乐部向大家种草新命令新方法的时候啦!

许多同学学到的第一个Stata绘图命令想必就是scatter命令,该命令用于生成观测样本的散点图,但scatter命令存在一个缺点:当我们的数据集存在重复观测值时,scatter生成的图中不能体现那些“重合的散点”。而今天我们要介绍的命令专门用于解决这一问题——neat命令,它可以微调重复观测样本的变量值。使得其在散点图上清晰可见。

01

安装

你可以使用github 命令直接安装neat命令

github install haghish/neat

关于如何使用github命令下载github站点上的Stata命令,可以详见爬虫俱乐部推文《SSC的好兄弟“github”》

02

scatter散点图

首先我们加载命令的作者提供给我们的示例数据集,使用它来绘制散点图。

use "https://raw.githubusercontent.com/haghish/neat/master/test/neat3.dta", clear

查看数据集大致情况

可以看到,这个数据集有60个观测值,两个变量v1 v2 值均为正整数,并且存在重复观测值。如第1个观测值与第6个观测值是重复的。

首先使用scatter命令绘制散点图

scatter v1 v2

得到图片如下

散点图已经绘制出来了,但咱们仔细数一数发现,图中只有29个散点,而数据集却有60个观测值,这是因为存在很多重复观测值的情况,这些重复观测值“挤”在了一起,我们看不到,那么怎样可以在图中直观地看到这些重复观测值呢。这就要用到我们今天的主角:neat命令。

03

neat命令绘制重合散点图

使用neat命令绘制可以显示重复观测值的散点图,其实非常地简单,只需要在scatter命令之前,加上一句neat命令即可。完整代码如下:

use "https://raw.githubusercontent.com/haghish/neat/master/test/neat3.dta", clear

neat v1 v2

scatter v1 v2

得到如图所示的新散点图

04

neat的两个小选项

neat命令内置了两个小选项用以调整图片整体外观及散点大小。

msize() 改变散点的大小

msize() 的默认值为1.5 ,如果你设置了一个比1.5小的数字,那么生成的散点就会变小

xsize() 伸缩横坐标轴

通过xsize()选项,可以“压缩”或“拉伸”横坐标轴

现在我们将散点重绘一遍,两个选项在neat命令和scatter命令中都要写一遍。

use "https://raw.githubusercontent.com/haghish/neat/master/test/neat3.dta", clear

neat v1 v2 , msize(1.1) xsize(6.5)

scatter v1 v2, msize(1.1) xsize(6.5)

这样一个小巧方便的命令完美地解决了一个绘制散点图时遇到的烦恼。

注:此推文中的图片及封面(除操作部分的)均来源于网络!如有雷同,纯属巧合!

以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!

应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~

文字编辑/徐露露

技术总编/刘贝贝

7.如何从pdf中提取表格数据

9.爬虫俱乐部出品——实证结果输出命令

此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿要求:

1)必须原创,禁止抄袭;

2)必须准确,详细,有例子,有截图;

注意事项:

1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。

3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

欢迎关注爬虫俱乐部

本文来自企鹅号 - 爬虫俱乐部媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏石瞳禅的互联网实验室

【TensorFlow实战——笔记】第1章:TensorFlow基础

TensorFlow是Google公司开源的分布式机器学习框架。它的前身是DistBelief,在Google大规模内部使用。TensorFlow最早由Goog...

1181
来自专栏腾讯开源的专栏

【开源公告】腾讯第三代高性能计算平台Angel 正式全面开源

Angel 项目简介 Angel是一个基于参数服务器(Parameter Server)理念开发的高性能分布式机器学习框架,在其之上,用户能轻松开发适用于高维度...

4197
来自专栏腾讯移动品质中心TMQ的专栏

【腾讯TMQ】看图测试指南:图像识别在测试中的应用

也许我们使用过Uiautomator或Monkey来进行系统的测试。但在使用过程中总出现用Uiautomator没法识别、用Monkey无法法复现等问题……本文...

6560
来自专栏新智元

【干货】神经增强:用 Python 实现深度学习超分辨率处理

【新智元导读】神经网络基于样本图像的训练为模糊图像补充细节,从而把模糊图像变高清。它不能把你的照片重建成一模一样的高清版。这只有好莱坞大片才有可能做到——但使用...

5885
来自专栏目标检测和深度学习

Kaggle放大招:简单几步实现海量数据分析及可视化

Kaggle Kerneler bot是一个自动生成的kernel,其中包含了演示如何读取数据以及分析工作的starter代码。用户可以进入任意一个已经发布的项...

610
来自专栏WOLFRAM

Mathematica 11.1.1 中文版已发布

1413
来自专栏机器之心

资源 | Mask R-CNN神应用:像英剧《黑镜》一样屏蔽人像

选自GitHub 机器之心编译 参与:思源、黄小天 黑镜特别篇《白色圣诞节》中有种名为「屏蔽」的黑科技,每个人安装上智能眼,可以凭意愿屏蔽动态视界中的任何人(及...

31710
来自专栏机器学习和数学

[Tensorflow] Tensorflow中模型保存与回收的简单总结

今天要聊得是怎么利用TensorFlow来保存我们的模型文件,以及模型文件的回收(读取)。刚开始接触TensorFlow的时候,没在意模型文件的使用,只要能...

3568
来自专栏ATYUN订阅号

将Keras权值保存为动画视频,更好地了解模型是如何学习的

将Keras权值矩阵保存为简短的动画视频,从而更好地理解你的神经网络模型是如何学习的。下面是第一个LSTM层的例子,以及一个经过一个学习周期训练的6级RNN模型...

3594
来自专栏数据的力量

excel双坐标图表的做法(两个Y轴)

所谓双坐标图表,就是左右各一个Y轴,分别显示不同系列的数值。该图表主要用于两个系列数值差异较大的情况。如下例。

1232

扫码关注云+社区