首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言实战.2

与其他标准统计软件(如SAS、SPSS和Stata)中的数据集类似,数据框(data frame)是R中用于存储数据的一种结构:列表示变量,行表示观测。...它们在R中被特殊地存储和处理。 其他多数术语你应该比较熟悉了,它们基本都遵循统计和计算中术语的定义。 这些具体的举例可以看我上篇文章R语言实战.1最后的部分。...它与你通常在SAS、SPSS和Stata中看到的数据集类似。数据框将是你在R中最常处理的数据结构。 ? 写一个数据框 ? ? ? 如你所见,变量可归结为名义型、有序型或连续型变量。...按默认的字母顺序排序的因子很少能够让人满意。 你可以通过指定levels选项来覆盖默认排序。例如: ? 各水平的赋值将为1=Poor、2=Improved、3=Excellent。...注意到标签的顺序必须和水平相一致。在这个例子中,性别将被当成类别型变量,标签“Male”和“Female”将替代1和2在结果中输出,而且所有不是1或2的性别变量将被设为缺失值。

1.7K30

Day4:R语言课程(向量和因子取子集)

查看R的数据结构 从数据结构中对数据进行子集化。...我们使用的R中的函数将取决于我们引入的数据文件的类型(例如文本,Stata,SPSS,SAS,Excel等)以及该文件中的数据如何分开或分隔。下表列出了可用于从常见文件格式导入数据的函数。...因此,从向量开始,学习如何访问不同的元素,然后将这些概念扩展到数据框。 (1)向量 选择使用索引 从向量中提取一个或多个值,可以使用方括号[ ]语法提供一个或多个索引。...R索引从1开始。编程语言如Fortran,MATLAB和R从1开始计数,符合人类的思维模式。C系列中的语言(包括C ++,Java,Perl和Python)从0开始计算,因为这对计算机来说更简单。...要重新定义类别,可以将levels参数添加到factor()函数中,并为其提供一个向量,其中包含按所需顺序列出的类别: expression <- factor(expression, levels=c

5.6K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【干货日报】用Python做数据分析更加如鱼得水!Pandas必会的方法汇总,建议收藏!

    举例:按索引提取单行的数值 df_inner.loc[3] 四、DataFrame选取和重新组合数据的方法 序号 方法 说明 1 df[val] 从DataFrame选取单列或一组列;在特殊情况下比较便利...10 reindex 通过标签选取行或列 11 get_value 通过行和列标签选取单一值 12 set_value 通过行和列标签选取单一值 举例:使用iloc按位置区域提取数据 df_inner.iloc...=True) 只能根据0轴的值排序。...举例:按照索引列排序 df_inner.sort_index() 六、相关分析和统计分析 序号 方法 说明 1 .idxmin() 计算数据最小值所在位置的索引(自定义索引) 2 .idxmax() 计算数据最大值所在位置的索引...read_sas 读取存储于SAS系统自定义存储格式的SAS数据集 12 read_sql 读取SQL 查询结果为pandas的DataFrame 13 read_stata 读取Stata文件格式的数据集

    4.8K40

    Pandas必会的方法汇总,数据分析必备!

    index,参数drop = True时会丢弃原来的索引,设置新的从0开始的索引,常与groupby()一起用 举例:重新索引 df_inner.reset_index() 三、数据索引 序号 方法...举例:按索引提取单行的数值 df_inner.loc[3] 四、DataFrame选取和重新组合数据的方法 序号 方法 说明 1 df[val] 从DataFrame选取单列或一组列;在特殊情况下比较便利...11 set_value 通过行和列标签选取单一值 举例:使用iloc按位置区域提取数据 df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称,而是数据所在的位置,从0开始...举例:按照索引列排序 df_inner.sort_index() 六、相关分析和统计分析 序号 方法 说明 1 .idxmin() 计算数据最小值所在位置的索引(自定义索引) 2 .idxmax()...read_sas 读取存储于SAS系统自定义存储格式的SAS数据集 12 read_sql 读取SQL 查询结果为pandas的DataFrame 13 read_stata 读取Stata文件格式的数据集

    5.9K20

    Stata计算莫兰指数基本步骤

    之前的博客有介绍过R和Geoda计算莫兰指数的方法,考虑到有时候我们需要自定义空间权重矩阵来计算莫兰指数,那以上两种方法显得有点复杂。...所以,今天来分享Stata计算莫兰指数的方法~ 目录 一、数据准备 1.1 数据导入 1.2 程序包下载 二、导入权重矩阵 三、莫兰指数计算 3.1 全局莫兰指数计算 3.2 局部莫兰指数计算 四、莫兰指数图...权重矩阵文件里的省份顺序需要和数据文件的省份顺序保持一致例如,各省份人均GDP数据文件是按照北京、天津、…、新疆顺序来的,对应的权重矩阵也应是该种排序。...Geoda和R主要通过shp文件构建权重矩阵,而Stata可以自行构建dta文件。因此,也更加适合导入自定义权重矩阵。...中背景显示是黑底,复制到word中是透明的 全部代码 findint spatwmat #安装程序包 spatwmat using d:/weight.dta,name(W) standardize #

    6.5K30

    Xcelsius(水晶易表)系列14——选择器高级用法(关于地图的动态交互)

    但是一直以来因为地图素材获取的不易,制作的高昂成本,数据地图的制作要么需要繁杂的代码支持(VBA、R、Stata等),要么需要靠专业的数据可视化软件支持(GISmap、R、Tableau等)。...其中左侧地图显示区域(A4:B27)是将要显示在地图表面的数据和地区标签。...A29:B77是地图代码区域(因为水晶易表内置的美国地图是按照英文州名编码并且按照首字母排序的,这里想要让其显示中文必须给它对应的中英文对照码)。...在其警报菜单中,按值,警报阀值:0~0.1,0.1~0.15,0.15~ 。 地图数据链接完毕,然后插入一个数据表,打开其属性菜单。 ?...到这里,本案例所有设置进本完成,稍微美化下,预览功能是否正常,最后就可以到处使用了。

    92440

    DID | 安慰剂检验

    简单介绍一下实证论文中双重差分法(DID)的安慰剂检验(Placebo Test)在Stata中如何操作。 本文首发于个人微信公众号DMETP,是往期两篇推文的合辑,欢迎关注!...二、截面数据集的安慰剂检验 这部分代码使用的是Stata系统自带的数据集auto.dta,该数据集是截面数据且不包含DID项,在实际使用中,可以将reg改为面板数据回归命令(如xtreg、reghdfe...rep78_dropped.dta, clear merge 1:1 id using rep78_random.dta, keepusing(rep78) // 将随机化排序的...; 以上三点均说明rep78对price的影响不是由其他不可观测因素(或遗漏变量)推动的; 设置随机种子数为13,579时,可重复以上结果并得出一致结论; 从P值的散点图可以得到以下两点信息: 第一,更多的散点集中分布于...这个基本事实其实完全可以从P值的散点图(图 6)中得知,如散点集中分布在0附近,且远离其真实值,多数散点都位于虚线以上,同时说明在10%的水平下不显著,也就是说,P值散点图包含的信息其实更多更凝练。

    5.4K30

    生存曲线(二):SPSS和Origin绘图教程及相关问题

    实际上,很多软件都可以绘制生存曲线并加以统计分析有这种功能,包括SPSS、Origin、Stata以及R语言等。 综合看来,GraphPad Prism更容易上手,简单有效。...Stata和R语言涉及一丢丢编程语言,可能相对不太容易上手。 由于,有相当一部分人喜欢使用SPSS和Origin,因此今天就拿这两个软件说一说如何绘制生存曲线。 ? ?...将上表中的数据重新编码为以下格式。state中的1代表死亡(裸鼠存活≤50天),而0代表存活(裸鼠存活>50天)。treatment中的1代表control,2/3/4分别代表3种药物。 ? 2....仅复制数据(不要复制标题)到SPSS数据表中,然后再定义列名称和值标签。 ? 3. 数据放好后,选择分析 → 生存分析 → Kaplan-Meier。...我们要看不同组之间生存率的差异,关键事件为动物死亡,编码数据时就将死亡编码为1,而存活则编码为0。所以,点击“定义事件”,单值填1,1代表了动物死亡这个事件已发生,再点击继续。 ?

    3.3K30

    【学习】七天搞定SAS(三):基本模块调用(格式、计数、概要统计、排序等)(上)

    说实话,越学SAS,越觉得SAS像Stata...无论是从输出 的样式,还是语法。好不习惯没有()的模型调用呀。...若是说SAS和Stata的区别,怕只是Stata更侧重于计量模型而SAS则是服务于大多数统计模型 吧。...其实R里面给变量加注释是一件非常麻烦的事情,只有少数几个包可以搞定,还非常不值的。一般说来,我尽量在变量命名的时候长一点,这样直接可以读懂;再就是重建一个新的表,存储变量名和label。...感觉这里和SQL的思路比较像。...用法也算是比较简单(SAS里面的用法都不是很麻烦,除了某些模型): image.png SAS PROC 数据进行排序:SORT 排序就更简单了,直接PROC SORT就可以了。

    1.4K60

    Stata与Python等效操作与调用

    本文主要包括两部分: Stata 和 Python 的等效操作,降低从 Stata 到 Python 的学习跨度和门槛。...DataFrame 和 Series 都有索引 (Index),如果不特殊指定,默认的索引为从 0 到 n 的整数,类似 Stata 中的 _n 。...* Stata pwd cd "c:/..." # Python import os os.getcwd() # 获取当前路径 os.chdir(r"c:/...") 1.3 数据导入与导出 Stata...常规的数据整理包括变量增、删和改、重命名和排序等操作。处理过程中,针对数值型和字符型不同的数据类型,有不同的处理方法。 数值型变量主要是简单的计算,生成新的变量。...一旦搜索到符合条件的程序,它会自动配置成最高版本。输入 python query 可以查看当前配置版本和系统信息。

    10K51

    SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

    本文用于比较六个不同统计软件程序(SAS,Stata,HLM,R,SPSS和Mplus)的两级分层线性模型的过程和输出 下面介绍的六个模型都是两级分层模型的变体,也称为多级模型,这是混合模型的特殊情况。...但是,重要的是要意识到,方法的选择会影响随机因素的估计,标准误差和p值,并且可能会影响宣布随机因素是否重要的决策。SAS,HLM,R和SPSS默认使用REML,而Stata和Mplus使用ML。...”,因为没有观察到它。...我们不确定这是否是在Stata中运行此类模型的常见问题,但重要的是要意识到它会发生。 HLM结果 这些估计大致等于其他计划的结果,但随机性别影响的估计除外。...New York: Routledge 本文摘选 《 使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM 》

    1.5K10

    SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据

    p=10809 简介 本文用于比较六个不同统计软件程序(SAS,Stata,HLM,R,SPSS和Mplus)的两级分层线性模型的过程和输出。...但是,重要的是要意识到,方法的选择会影响随机因素的估计,标准误差和p值,并且可能会影响宣布随机因素是否重要的决策。SAS,HLM,R和SPSS默认使用REML,而Stata和Mplus使用ML。...”,因为没有观察到它。...我们不确定这是否是在Stata中运行此类模型的常见问题,但重要的是要意识到它会发生。 HLM结果 这些估计大致等于其他计划的结果,但随机性别影响的估计除外。...New York: Routledge 本文摘选《使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM》

    2.5K10

    使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM

    p=10809 简介 本文档用于比较六个不同统计软件程序(SAS,Stata,HLM,R,SPSS和Mplus)的两级分层线性模型的过程和输出。 ...下面的SAS,Stata,R,SPSS和Mplus中使用的过程是其多层次或混合模型过程的一部分,并且可以扩展为非嵌套数据。 但是出于比较的目的,我们将仅研究完全嵌套的数据集。...但是,重要的是要意识到,方法的选择会影响随机因素的估计,标准误差和p值,并且可能会影响宣布随机因素是否重要的​​决策。SAS,HLM,R和SPSS默认使用REML,而Stata和Mplus使用ML。...”,因为没有观察到它。...我们不确定这是否是在Stata中运行此类模型的常见问题,但重要的是要意识到它会发生。 HLM结果 这些估计大致等于其他计划的结果,但随机性别影响的估计除外。

    3.1K20

    SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

    p=10809 本文用于比较六个不同统计软件程序(SAS,Stata,HLM,R,SPSS和Mplus)的两级分层线性模型的过程和输出 下面介绍的六个模型都是两级分层模型的变体,也称为多级模型,这是混合模型的特殊情况...但是,重要的是要意识到,方法的选择会影响随机因素的估计,标准误差和p值,并且可能会影响宣布随机因素是否重要的决策。SAS,HLM,R和SPSS默认使用REML,而Stata和Mplus使用ML。...”,因为没有观察到它。...我们不确定这是否是在Stata中运行此类模型的常见问题,但重要的是要意识到它会发生。 HLM结果 这些估计大致等于其他计划的结果,但随机性别影响的估计除外。...New York: Routledge 本文摘选 《 使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM 》

    1.8K20

    在 Stata 中基于世界银行开放数据库 API 开展跨国比较分析:wbopendata 命令详解

    wbopendata 在 Stata 中的应用有两种方式:界面勾选(傻瓜方法)和代码命令(敲代码)。...“世界发展指标”是关于全球发展和抗击贫困方面的高质量、具有国际可比性的统计数据汇编。该数据库包含了217个经济体和40多个国家组别的1400个时间序列指标,其中许多指标的数据可以追溯到50多年前。...需要说明的是,从数据结构上看,上图所示的原始数据也被称为“宽数据”(wide data)。在 Stata 中,我们需要将宽数据转换为“长数据”(long data)。...这里将不同类型的区域作为基本单位,进而计算出某一区域的年度变化 diff_pov ,将其由大到小排列(下图 y 轴),x 轴对应着排序后变量的累积分布百分比。...Stata: World Bank Data https://libguides.bates.edu/stata/worldbank ---- * 注:本文仅为初稿,后续将不断进行修改和充实。

    2.5K221

    TIOBE 11 月编程语言:Java 首次跌出前二,Python 势不可挡

    自2018年以来,Python 的市场份额整体就开始呈上升趋势,从2018年1月占比4.68%,到本月占比12.12%,即使跟去年同期相比,增幅也高达2.27%。...甚至 TIOBE CEO Paul Jansen,在曾经遇到一位修车机械师都喜欢用 Python 编程之后,也开始意识到:Python 将无处不在。...另外,第9-20名也有不同程度的变化: R 语言、Perl 和 Go 语言名次都有大幅提升,分别为第9名、第12名和第13名。...第51-100名如下,由于它们之间的数值差异较小,仅以文本形式列出(按字母排序): ABC, ActionScript, Applescript, Arc, AutoLISP, bc, Bourne shell...OpenCL, OpenEdge ABL, PL/I, PostScript, Q, REXX, Ring, RPG, Simulink, Small Basic, Solidity, SPARK, Stata

    75020
    领券