首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

STATA教程之二:自动化输出描述性数据表格

Frequency table, 顾名思义就是变量取值频率分布表,而summary table则是输出例如均值、中位数等样本统计数字表格。两种表格都可以分为oneway和twoway两种类型。...数据两个变量drug, died分别记录了病人用药类型,以及病人是否死亡。图一统计了使用不同药物种类的人数,以及使用各个药物后死亡人数分布。...值得讨论是 died drug这两个变量顺序。 Tabout自动将前一个变量设定为列变量,后一个变量为行变量。行变量意思很直白,就是每个变量值在表格以行形式出现。...(敲黑板,重点来,考试要考) 第二行 c()是frequency table核心选项,即表格要输出内容:freq, col, cum分别代表了频数,列占比,和累计百分比。...Tabout设置了3级行标题:如图所示,第一级标题是行变量名称——Drug type;第二级行标题是行变量具体取值——Placebo, Trial drug 1等;第三级标题则是tabulate内容

10K40
您找到你想要的搜索结果了吗?
是的
没有找到

北大数据分析老鸟写给学弟们一封信

变量为分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验; 因变量在某个闭区间内分布,并且有较多样本落在闭区间边界上,使用Tobit模型; 因变量不唯一,多产出问题,进行数据包络分析(DEA...关于拟合优度、变量选择原则及估计值绝对大小意义 在人人“数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...B变化对Y 影响(控制其他因素情况下),但说一百分A变化对Y影响较一百分B变化对Y影响大0.151%,就没什么意义了。...如果被遗漏变量即使找到却囿于各种困难无法纳入分析,而你又忽然想到了一个绝佳工具变量,那么恭喜你,你可以在核心期刊发文章了!...两个看似不同平均数、中位数或比率是否意味着高下有别?样本取自独立总体还是相关总体?方差“齐”或“不齐”?比较是平均数、中位数还是比率差异?

1.6K40

北大老鸟三年数据分析深刻总结——致学弟学妹们

多产出问题,进行数据包络分析(DEA); 因变量为整数、数值小、取零个数较多,使用计数(Count)模型; 数据具有层次结构(嵌套结构),使用多层线性模型(HLM)。...关于拟合优度、变量选择原则及估计值绝对大小意义 在人人“数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...B变化对Y影响(控制其他因素情况下),但说一百分A变化对Y影响较一百分B变化对Y影响大0.151%,就没什么意义了。...如果被遗漏变量即使找到却囿于各种困难无法纳入分析,而你又忽然想到了一个绝佳工具变量,那么恭喜你,你可以在核心期刊发文章了!...两个看似不同平均数、中位数或比率是否意味着高下有别?样本取自独立总体还是相关总体?方差“齐”或“不齐”?比较是平均数、中位数还是比率差异?

3K60

北大数据分析老鸟写给学弟们一封信

变量为分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验; 因变量在某个闭区间内分布,并且有较多样本落在闭区间边界上,使用Tobit模型; 因变量不唯一,多产出问题,进行数据包络分析(DEA...关于拟合优度、变量选择原则及估计值绝对大小意义。 在人人“数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...B变化对Y影响(控制其他因素情况下),但说一百分A变化对Y影响较一百分B变化对Y影响大0.151%,就没什么意义了。...如果被遗漏变量即使找到却囿于各种困难无法纳入分析,而你又忽然想到了一个绝佳工具变量,那么恭喜你,你可以在核心期刊发文章了!...两个看似不同平均数、中位数或比率是否意味着高下有别?样本取自独立总体还是相关总体?方差“齐”或“不齐”?比较是平均数、中位数还是比率差异?

1.6K100

STATA Tidbits I:识别政策变动

前言 STATA Tidbits 将讨论STATA使用一些小技巧。 智库工作中常常需要分析某一类型政策变动带来影响。这一工作前提就是从数据找出政策改变年份。...下图为中国各省高考录取制度数据库,其中e变量代表了高考志愿填报每个考生可以填报平行志愿数量。...如果我们想要知道各省都是在哪些年份进行改革,以及进行过几次改革,该如何在Stata里面实现呢?本文将提供一个使用STATA _n operator解决方案。 ?...STATA _n operator 找到政策开始变动年份 _n 和 _N 是STATA系统自带变量, _n代表是目前这个观测值排位,而N代表是数据观测值总数。...= e[_n-1]) 通过上述代码,我们发现,总计有54次改革发生。然而,这样计算结果是错误。原因在于,STATA对于缺失值处理。

1.3K30

Stata中文版安装教程,Stata数据分析软件安装包下载,Stata使用

数据可视化:Stata支持各种数据可视化工具,柱状图、折线图、散点图、饼图和热图等,这些工具使用户能够更加直观地理解数据,可以用于展示数据分析结果。...描述性统计分析:Stata提供了多种描述性统计分析功能,包括均值、标准差、方差、百分位数和频率分析等。这些功能可以帮助用户更深入地理解数据。...,本例安装到D盘(将路径地址首字符C改为D表示安装到D盘,或者可以在其它磁盘里创建一个新文件夹,安装路径不要出现中文),点击“Next”8.点击“Next”9.点击“Install”10.软件安装需要一些时间...,请耐心等待11.点击“Finish”12.返回之前解压Stata17”文件夹,找到并选中“StataMP-64.exe”,鼠标右键点击“以管理员身份运行”13.点击“开始“菜单栏,找到“StataMP...17 (64bit)“软件,鼠标左键拖拽到桌面上即可创建桌面快捷方式14.在桌面上找到软件图标,鼠标右键点击“打开文件所在位置”15.在打开文件夹空白处,鼠标右键“粘贴”刚才复制文件16.点击“替换目标文件

1.4K40

Stata与Python等效操作与调用

生成最大值、最小值、均值,或者是求和、平方和取对数等。在 Stata ,最基本是使用 replace 和 generate 命令,另外 egen 提供了大量函数能便捷处理数据。...此外,还有 collapse 和 post 等更灵活命令。 字符型变量更多涉及字符串清理,字符串截取、多余字符清理等。...因为 Python DataFrame 里面没有 Stata label 概念,所以不能像 Stata 添加值标签。必要时,可以通过定义字典映射变量取值和标签。...在 Stata ,内存 “DataFrame” 始终具有观察行号,由 Stata 内置变量 _n 表示。...在 Python 脚本,可以通过调用 sfi (Stata Function Interface) 包 stata() 函数运行 Stata 代码。

9.8K51

数据分享|R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR

然而,计数数据是高度非正态,并且不能通过 OLS 回归很好地估计。 零膨胀泊松回归 summary(m1) 输出看起来非常像 R 两个 OLS 回归输出。...这包括用于预测多余零点 logit 系数及其标准误差、z 分数和 p 值。 模型计数和膨胀部分所有预测变量都具有统计显着性。该模型对数据拟合显着优于空模型,即仅截距模型。...也就是说,第一行具有我们模型第一个参数估计值。第二个具有第一个参数标准误差。第三列包含自举标准误差。 现在我们可以得到所有参数置信区间。我们从原始比例开始,使用百分位数和偏差调整 CI。...## 带百分位数和偏差调整CI基本参数估计值 ## 添加行名 row.names(pms) <- names(coef(m)) ## 输出结果 parms ## 与基于正常近似值相比 confint...## 带百分位数和偏差调整CI指数化参数估计值 exps <- t(sapply(c(1, 3, 5, 7, 9), function(i) { out <- boot.ci 为了更好地理解我们模型

1.9K10

Stata 基于世界银行开放数据库 API 开展跨国比较分析:wbopendata 命令详解

幸运是,世行开发人员为我们提供了一个能够在 Stata 通过连接“世行公开数据库API”方式实现数据调用第三方命令,即 wbopendata。...不仅如此,通过便捷选项设定,利用该命令获取指定数据集正是在 Stata 开展面板数据分析时需要数据呈现形式。...载入数据如下图所示: image.png 2.3.3 通过代码获取数据 事实上,如同在 Stata 中使用内嵌于界面的各个分析选项一样,wbopendata实质上也是一些列封装好命令...通过下面的命令,我们可以获得最新指标来源和主题分类信息,这些信息以帮助文档形式存储在本地,实际使用可以随时调用查询,从而方便我们在庞大数据库迅速定位感兴趣变量。...这里将不同类型区域作为基本单位,进而计算出某一区域年度变化 diff_pov ,将其由大到小排列(下图 y 轴),x 轴对应着排序后变量累积分布百分比。

2.3K221

数据分享|R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR|附代码数据

然而,计数数据是高度非正态,并且不能通过 OLS 回归很好地估计。 零膨胀泊松回归 summary(m1) 输出看起来非常像 R 两个 OLS 回归输出。...这包括用于预测多余零点 logit 系数及其标准误差、z 分数和 p 值。 模型计数和膨胀部分所有预测变量都具有统计显着性。该模型对数据拟合显着优于空模型,即仅截距模型。...也就是说,第一行具有我们模型第一个参数估计值。第二个具有第一个参数标准误差。第三列包含自举标准误差。 现在我们可以得到所有参数置信区间。我们从原始比例开始,使用百分位数和偏差调整 CI。...## 带百分位数和偏差调整CI基本参数估计值 ## 添加行名 row.names(pms) <- names(coef(m)) ## 输出结果 parms ## 与基于正常近似值相比 confint...## 带百分位数和偏差调整CI指数化参数估计值 exps <- t(sapply(c(1, 3, 5, 7, 9), function(i) {   out <- boot.ci 为了更好地理解我们模型

76200

变量分析 — 简介和实施

现在让我们看看如何在Python实现这个概念。我们将使用“value_counts”方法来查看数据框每个不同变量值发生次数。...直方图 直方图是一种可视化工具,通过计算每个箱实例(或观察)数量来表示一个或多个变量分布。在本文中,我们将专注于单变量直方图,使用seaborn“histplot”类。让我们看一个例子。...箱子显示了数据四分位数(即第25百分位数或Q1、第50百分位数或中位数和第75百分位数或Q3),而须(whiskers)显示了分布其余部分,除了被确定为离群值部分,离群值被定义为超出Q1或Q3以下...问题9: 创建一个名为“malic_acid_level”新列,将“malic_acid”列值分解为以下三个段落: 从最小值到第33百分位数 从第33百分位数到第66百分位数 从第66百分位数到最大值...gist.github.com/fmnobar/cdb630d53cc86be9269fba7049887c8f#file-univariateanalysis-ipynb 结论 在本文中,我们讨论了如何在通过数据了解新空间第一步利用单变量分析

14310

使用Stata完成广西碳酸钙企业主成分分析和因子分析

我们创建上面数据为2018年碳酸钙企业,通过Stata导入xlsx,注意:必须选择:将第一行作为变量名,不然你无法选择列名,一开始我以为列名不能有中文和括号,结果浪费我好多时间。 ?...将因子表示成变量线性组合,其中系数可以通过最小二乘法得到. 计算因子得分 看看一般步骤,读取数据我就pass了 ? 在这里插入图片描述 ? 在这里插入图片描述 ?...,描述全部公共因子F对变量X_i总方差所做贡献,及变量X_i方差能够被全体因子解释部分 D2018[i,i]=1-a2018[0,0] #因为自变量矩阵已经标准化后方差为1,即Var(...在这里插入图片描述 然而Stata计算总因子得分没有命令,计算公式:因子得分*因子方差贡献率/累计方差贡献率作为权重。然后计算 方差百分比 ?...相对SPSS更全,比如生存,时间序列,甚至有时连Python深度模型跑出来,还不如用Stata点一点,Stata虽然命令多,但是完全不需要记忆,在窗口中完全可以找到,或者一个 help(命令)查看示例

1.7K10

收藏 | 因果推断书籍代码合集

尽管工具变量不易寻找,但一旦找到合适工具变量之后,使用两阶段普通最小二乘法便可较为精准地获得因果联系。当然,工具变量方法并非万无一失,局部有效性(LATE)等问题也受到了作者高度关注。...接下来本书还进行了一些拓展讨论,主要涉及断点回归分析、分位数回归分析及回归分析标准差处理。...所有的识别策略都是通过一定设计模拟随机化实验,从而得到可信因果效应估计。另外,作者还简要介绍了因果图方法,它是与潜在结果框架完全等价因果模型,但是更加直观,容易使用。...最后,对于每种识别策略,作者还利用具体实例讲解各策略在Stata软件实现。...这本书由第一部分专门研究设计和因果关系,使用因果图使识别的概念直接,和第2部分专门实现和常见研究设计,回归与控制和断点。

70321

R基础知识及快速检阅你数据

,如果希望更详细了解不同设定设置行名,最大读取行数等等可以使用 ?...()-------SAS read_dta()-------Stata *可以使用foreign包替代haven包,其同样支持SPSS和Stata文件,但是其支持Stata12之前文件版本 foreign...#每只动物分别通过橙汁或抗坏血酸(维生素C一种形式,代号为VC)两种给药方式一种,接受三种剂量水平维生素C(每天0.5、1和2毫克)一种。...boxplot:当箱线图分布值长度为奇数时,箱线图下,上边缘分别为一分位和三分位。若为偶数则有余数决定。只有任意n/4余数为1或者2,那么分位数等于观察值,否则则为两观察值中间数。...异常值为大于以及小于箱线图上下边缘IQR*1.5位置。若notch = TRUE则更重视中位数之间比较,公式为: 2.6绘制函数图像 Q: 如何绘制函数图像?

3.9K10

一些数据处理方法

之前方法可以使用Stata自带转码命令进行转码,但是通过csvconvert输出数据集却只能对标签进行转码,我尝试了几乎所有能找到方法,但这些方法都不能奏效。...此外,部分研究者在生成Exit变量时,直接将存续年份不连续样本剔除,关于这种做法理论与文献基础我暂时没有找到,因此其合理性存疑。下面的实现代码借鉴了黄河泉老师(2021)在经管之家论坛回答。...Stataframe功能类似于Excel工作表sheet,方便在同一个操作窗口中打开多份数据集并对数据集进行处理,而不需另外加载Stata软件打开数据集。...先简单介绍一下Stataframe系列命令,具体信息请键入help frame进行了解。...linkvar建立两个框架之间连接; frget: 通过连接变量将其他框架数据复制到当前工作框架,一般与frlink配合使用,两者配合使用功能类似于merge命令进行横向合并(append)。

2.3K31

研究生必备STATA数据分析软件下载安装,STATA17文版功能使用

接下来,使用STATA数据清理功能,我们可以快速将数据缺失值进行填充。这样,我们就可以进行更加准确分析,并确定公司销售情况与人口普查数据之间关系。2....使用STATA数据可视化功能,我们可以快速生成散点图、箱形图等图表,以便更好地理解不同变量之间关系。...使用STATAEDA功能,我们可以发现数据存在一个非线性关系,这意味着我们需要重新构建模型来更好地解释该关系。3. 统计分析和建模STATA是一款用于统计分析和建模工具。...描述性统计分析STATA具有多种描述性统计分析功能,可以帮助用户更好地理解数据基本特征和分布情况。例如,用户可以使用STATA统计摘要功能来计算平均值、中位数、标准差等常见统计指标。...使用STATA描述性统计分析功能,我们可以计算出样本平均年龄、中位数和标准差等指标,以更好地描述样本年龄分布情况。

55300

Stata绘图功能与绘图类型

Stata 绘图功能主要通过绘图语法(Syntax)及其绘图编辑器(Graph Editor)得以实现。...下图是 Stata 界面工具栏“图形”所包含内容(图1)。 Stata Window_Graphics .png 2....若要在 Stata 绘制一张图,可以通过点选上图中“图形”按钮进行操作,这很方便。但是,随着技法熟练和定制化绘图需求不断上涨,使用命令进行绘图不仅效率更高,而且能够不断强化实践操作能力。...如何能够更好地利用连续变量统计特征呢?在上面的基准图形之上,我们可以通过下面的命令将标准差信息同时纳入到图形,也是更为推荐使用直方图绘图方式,可以在论文和研究报告中使用。...此时,变量每一个唯一值将有一个 bin,因而柱子数量也较多,每个柱子高度表示该值所对应密度、频数、百分比或比例。

6.1K142

Stata&Python | 分别实现多元线性回归

所以,我理解是:有其他语言基础,学习新语言时,应该迁移和对比相结合。具体而言:对比着学,尽快找到感觉;注重工具之间特性;问题导向,根据需求选择合适工具。...经济学或者其他社科专业背景读者,做实证可能对 Stata 比较熟悉。比如要做 OLS 回归,输入 reg y x1 x2 x3 就好。对比到 Python 该如何做呢?...本文以 Stata 自带 auto.dta (1978年美国汽车数据) 数据为例,对照着 Stata 完成多元线性回归过程,展示在 Python 如何跑回归。...一方面,熟悉 Python 操作;另一方面,通过比较,观察二者特性。 在开始实证分析之前,应该先建立这样一个框架,使得数据和文件存放比较清晰。...Stata 运行回归 在 Stata ,完成整个实证过程大致如下: cd ..

3.6K30

python字符串格式化深入详解(四种方法)

(1) 指内除了参数外字符采用什么方式表示,默认采用空格,可以通过更换。...,可以是变量、表达式或函数等,format 是格式描述符。...指定是有效数字位数(小数点前位数+小数点后位数)。...(7)类型描述 格式描述符 含义与作用 适用变量类型 s 普通字符串格式 字符串 b 二进制整数格式 整数 c 字符格式,按unicode编码将整数转换为对应字符 整数 d 十进制整数格式 整数 o 八进制整数格式...(以 0 补足三位) '195' %U 一年第几周(以全年首个周日后星期为第0周,以 0 补足两位) '27' %w 一年第几周(以全年首个周一后星期为第0周,以 0 补足两位) '28'

2.5K20
领券