首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

35行代码搞定事件研究法(下)

注意 I,本代码主要使用data.table包完成,关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中,我们会重点介绍data.table这个包。...注意 II, 本代码还使用了partial()函数,它来自于pryr这个包 ?...我们一行一行来看: ns <- which(event.flg == 1); 这一行代码的作用找到每个股票的所有事件日的序号 ns。大家应该还记得在上一讲中我们用 n 来表示单一事件日的序号吧?...在上一讲中,我们已经给出了函数 do_car() 用来求单个事件日的超额收益,因此很自然的,我们希望对于事件日向量 ns 中的每个元素,都应用一遍 do_car()这个函数。...在测试中,大猫设置了一个极端条件:模拟2500个股票(差不多是A股股票数),每个股票拥有1000个交易日的记录(差不多有4年的时间),平均50个交易日出现一个事件(模拟盈利公告这类事件的出现频率)。

1.2K40

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。...在这篇文章中,我们将比较Pandas 和data.table,这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好,我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...另一方面,data.table仅使用列名就足够了。 示例3 在数据分析中使用的一个非常常见的函数是groupby函数。它允许基于一些数值度量比较分类变量中的不同值。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。 默认情况下,这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...inplace参数用于将结果保存在原始数据帧中。 对于data.table,我们使用setnames函数。它使用三个参数,分别是表名,要更改的列名和新列名。

3.1K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    怎么在R语言中模拟出特定分布的数据

    前面介绍过,通过readr、readxl两个包可以将文件中的数据读入为数据框。...其实,我们还可以在 R 里直接模拟出符合特定分布的数据,R 提取了一些以“r”开头的函数来实现,常见的有下面这 4 个: rnorm,生成服从正态分布的随机数 runif,生成均匀分布的随机数 rbinom...,生成服从二项分布的随机数 rpois,生成服从泊松分布的随机数 例如: r1 = rnorm(n = 1000, mean = 0, sd = 1) r2 = runif(n = 1000, min...= 0, max = 100) r3 = rbinom(n = 1000, size = 100, prob = 0.1) r4 = rpois(n = 1000, lambda = 1) 正态分布...hist(r1) 均匀分布 hist(r2) 二项分布 hist(r3) 泊松分布 hist(r4) 写在最后 模拟数据有些时候是非常很有用的,特别是在学习统计作图时。

    91020

    「R」数据操作(三):高效的data.table

    接「R」数据操作(一)和「R」数据操作(二) 使用data.table包操作数据 data.table包提供了一个加强版的data.frame,它运行效率极高,而且能够处理适合内存的大数据集,它使用[]...首先,我们仍然载入之前用到的产品数据,不过这里我们使用data.table包提供的fread()函数,它非常高效和智能,默认返回data.table。...N是最常用的符号之一,它表示当前分组中,对象的数目(就不用调用nrow函数啦)。在[]使用它指提取最后一行。...中,by所对应的组合中的值是唯一的,虽然实现了目标,但结果中没有设置键: key(type_class_test0) #> NULL 这种情况下,我们可以使用keyby来确保结果的data.table自动将...的动态作用域 我们不仅可以直接使用列,也可以提前定义注入.N、.I和.SD来指代数据中的重要部分。

    6.4K20

    《高效R语言编程》6--高效数据木匠

    只是函数名多了个下划线那么简单吗? 正则表达式 R与stringr分别使用grepl()和str_detect()来进行,我比较喜欢基础R的,不知你喜欢安装包还是用基本的。...与基本R中类似函数不同,变量无需使用 $ 操作符就可直接使用,设计与magrittr包的%>%管道操作符一起使用,以允许每个数据阶段写成新的一行。其是一个大型包,本身可以看成一门语言。...非标准计算 代码中没有引号包裹的原始名字,这种方式叫做非标准计算(NSE),高效交互使用函数,减少键盘输入,允许Rstudio中自动完成。还是函数名多个_。...这里建议不要把数据库密码和API密钥等放在命令中,而要放大.Renviron文件中。dbConnect()函数连接数据库,dbSendQuery()查询,dbFetch()加载到R中。...数据库与dplyr 必须使用src_*()函数创建一个数据源。# 使用data.table()处理数据 是dplyr的替代,两个哪个好存在争议,最好学一个一直坚持下去。

    1.9K20

    理解并行计算:r future为什么会启动比workers多得多的线程?

    r的future包提供了一种实现多线程并行计算的接口,但有时候在使用时,我发现r启动了比我设定的多得多的计算资源。...问题的核心在于R很多包或者底层库在你不知道的情况下启动了并行计算,例如data.table。...举一个例子就是,如果你指定了4个worker,你只想使用4个CPU核心计算,但如果并行计算的内容函数使用了像data.table包的操作,而默认情况下data.table为了加速计算会使用系统全部的核心数目...也就是你启动的每一个并行计算内容下都会使用全部的CPU核心数运算(4x20 >> 20),自然系统的资源都被占满了。...如@mxblsdl展示的例子,就可以手动进行设定解决这样的问题,即并行计算的函数开头设定仅只使用单线程(这样就变成了 4x1 = 4)。

    1.3K20

    手把手教你用R语言读取CSV文件

    读取CSV文件最好的方法是使用read.table函数,许多人喜欢使用read.csv函数,该函数其实是封装的read.table函数,同时设置read.table函数的sep参数为逗号(",")。...读取大CSV文件和其他文本文件的两个主流的函数是read_delim和fread,前者在readr包中由Hadley Wickham实现,后者在data.table包中由Matt Dowle实现。...readr包中的所有数据提取函数返回的是tibble,该数据类型是data.frame的扩展。最明显的变化是打印的元数据,比如行列数和每列的数据类型。...read_delim或者fread函数读取文件都非常快,具体使用哪个函数取决于dplyr或者data.table包中哪个更适合数据处理。 关于作者:贾里德 P. 兰德(Jared P....在数据管理、多层次模型、机器学习、广义线性模型、可视化、数据管理和统计计算等多个领域拥有丰富经验。 本文摘编自《R语言:实用数据分析和可视化技术》(原书第2版),经出版方授权发布。

    22.4K21

    R数据框如何取交集

    前面给大家介绍过了 ☞R批量预测miRNA和靶基因之间的调控关系-ENCORI篇 ☞R批量预测miRNA和靶基因之间的调控关系-TargetScan篇 有小伙伴拿自己的数据试了一下,反馈预测结果太多了。...你可以在查询miRNA靶基因的时候限定使用哪些预测软件(如下图红圈所示),这样得到的结果就是多个预测软件预测结果的交集。...这里需要注意,限定的软件越多,得到的结果会越少,也有可能完全得不到结果,所以这个需要根据自己数据的实际情况确定。 那么我们怎么利用R代码来对miRNA预测结果取交集呢?...我们知道一般在R里,对向量取交集,直接用intersect函数就可以了。...包里的fintersect函数 #加载data.table包 library(data.table) #将数据框转换成data.table格式,然后利用fintersect函数取交集 result3=fintersect

    1.7K20

    懒癌必备-dplyr和data.table让你的数据分析事半功倍

    接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基础包函数进行数据分析了!!...找到合适的packages并学习使用它,绝对会让我们数据分析工作事半功倍! 我们有没有发现dylyr包中函数使用的一些规律? 有的!...作为课代表的我来帮大家简单的总结一下: 我们都知道R有个令人诟病的缺点就是跑起来耗内存,data.table相对于dplyr 更快、更节省内存了!...使用i DT[3:5] #选取3到5行的数据 class(DT) [1] "data.table" "data.frame" DT[v1=="A"] #基于条件的选择 DT[v1 %in% c("A",..."B")] 使用j DT[,v1] #选择v1列 那如果我要选择多列呢,大家注意一下这里不是用c()来选取了, 而是通过.()来选取,注意前面有一个”.”号,所以我说data.table的语法有点奇怪呢

    2.5K70

    R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

    介绍一种按照日期范围——例如按照周、月、季度或者年——对其进行分组的超简便处理方式:R语言的cut()函数。...(iris$setosa)] #按照照setosa的大小,重排Sepal.Length数据列 四、dplyr与data.table data.table可是比dplyr以及python中的...(参考来源:R高效数据处理包dplyr和data.table,你选哪个?) ?...在使用data.table时候,需要预先布置一下环境: datadata.table(data) 如果不布置环境,很多内容用不了。...data.table比较简洁一步搞定,dplyr花了两步,不过也dplyr也可以通过%>%来实现一步搞定。%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

    20.9K32

    【工具】深入对比数据科学工具箱:Python和R之争

    而许多人也对 Python 和 R 的交叉使用存在疑惑,所以本文将从实践角度对 Python 和 R 中做了一个详细的比较。...内容管理系统:基于Django,Python可以快速通过ORM建立数据库、后台管理系统,而R中的 Shiny 的鉴权功能暂时还需要付费使用。...此外,当今数据分析团队拥有许多技能,选择哪种语言实际上基于背景知识和经验。对于一些应用,尤其是原型设计和开发类,工作人员使用已经熟悉的工具会比较快速。...csv,因为一方面,csv格式的读写解析都可以通过 Python 和 R 的原生函数完成,不需要再安装其他包。...我曾经用data.table和pandas分别读取过一个600万行的IOT数据,反复10次,data.table以平均10s的成绩胜过了pandas平均15s的成绩,所以在IO上我倾向于选择使用data.table

    1.4K40

    「r」dplyr 里的 join 与 base 里的 merge 存在差异

    今天在使用连接操作时发现:虽然都是合并操作函数,dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异,不同的数据结构,结果也会存在偏差。...构造数据集 下面是一个可重复的例子,构造两个数据集,一个是基于 data.frame 的列表,另一个是就要 data.table 的列表: x <- list( a = data.frame(r1...所以使用 dplyr 提供的连接函数报错是正常的,但有意思的是,基础包提供的 merge() 函数可以完成连接操作,真是优秀(感兴趣的朋友可以看下测试下 merge 函数源代码)!...本质上是 data.table 体格的泛型函数不支持类似基础包中的操作。 如何编写代码支持对上述数据集的连接操作?...2 S1 S2 S2 S1 S2 更新 在后面的一些使用过程中发现基础包的 merge() 函数在进行连接操作时会输出有问题的结果,所以建议使用的小伙伴仔细检查结果。

    1.6K30

    怎么用R语言把表格CSV文件中的数据变成一列,并且行名为原列名呢,谢谢

    今天收到一封邮件,来询问这样的问题: [5veivplku0.png] 这样的邮件,是直接的邮件,没有寒暄直奔主题的邮件。...set.seed(123) dd = data.frame(ID = 1:10,y1=rnorm(10),y2=rnorm(10),y3=rnorm(10),y4=rnorm(10)) dd library(data.table...) melt(dd,id=1) 代码解释: 1,dd为模拟生成的数据框数据,第一列为ID,其它几列为性状 2,使用的函数为data.table包中的melt函数 3,melt中,dd为对象数据框,id为不变的列数...来信者需求: 怎么用R语言把表格CSV文件中的数据变成一列,并且行名为原列名呢,谢谢 1,csv文件,可以用fread函数读取,命名,为dd 2,数据变为一列,如果没有ID这一列,全部都是性状,可以这样运行...:melt(dd),达到的效果如下: [2dtmh98e89.png] 所以,就是一个函数melt的应用。

    6.8K30

    PRS多基因评分教程学习笔记(二)

    2、Target Data质控 教程的Target数据来自于基于1000个基因组计划欧洲样本的模拟数据。...使用plink的–extract,–exclude,–keep,–remove,–make-just-fam和–write-snplist函数,我们可以仅处理样品和SNP列表,而无需复制基因型文件, 减少存储空间的使用...library(data.table) Mismatching genotypes 此外,当数据集之间的等位基因编码存在明确的不匹配时,例如基础中的A / C和目标数据中的G / T,则可以通过“链翻转...”目标数据中的等位基因来解决互补的等位基因(大多数PRS软件将自动执行翻转,因此通常不需要此步骤)。...这可以通过以下步骤实现: a.将bim文件,GIANT摘要统计信息和QC SNP列表加载到R中: library(data.table) # Read in bim file bim <- fread(

    2.3K30
    领券