首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言数据分析利器data.table包 —— 数据框结构处理精讲

identical(DF$a, DT$a) # TRUE is.list(DF) # TRUE is.list(DT) # TRUE is.data.frame(DT) # TRUE 不过data.frame默认将数字转化为因子...;而data.table 会将数字转化为字符 data.table数据框也可使用dplyr包管道,这里不作阐述。...)直接修改某个位置,rownum行号,colnum,号,行号号推荐使用整型,保证最快速度,方法是在数字后面加L,比如1L,value是需要赋予。...(sv=sum(v))] #对y求和,输出sv内容就是sum(v) DT[, ....,-Inf用下一行填充,输入某数字时,表示能够填充距离,near用最近行填充 rollends 填充首尾不匹配行,TRUE填充,FALSE不填充,与roll一同使用 which TRUE

5.6K20

手把手教你绘制临床三线表

在统计描述上,R可以根据不同数据特征给出不同统计描述方法,在差异性比较方面,R可以给出不同数据比较不同差异性比较方法,包括t、F、卡方、fisher法和秩和检验;在回归分析上,不仅是Cox回归,线性回归...我们发现pbc数据中含有较多缺失,首先我们简单统计每缺失个数,对存在缺失行,我们进行了剔除,接着我们继续进行统计一下缺失,如下,发现最开始一些存在缺失,剔除之后,缺失个数均变为0了...我们按照thr分层变量,进行填充,结果如下,可以看到一个非常熟悉表格了,行分别为n(病例个数)、time、status等等需要比较变量,列为不同分组。...同时用cramVars参数可以显示两个水平分类变量构成比,smd参数为显示standardized mean differences。 ?...可以看到指定正态资料使用“median [IQR]”来表示数据了,而且在test也出现了P计算使用方法,空着地方代表使用默认正态分布分析方法,最后一为SMD数值,这一切都是我们需要

2.2K00
您找到你想要的搜索结果了吗?
是的
没有找到

数据库工程师常见面试题

如果不提供字段名,则必须给 每个字段提供一个,否则将产生一条错误消息。...如果要在 INSERT 操作中省略某些字段,这些字段需要 满足一定条件:该定义为允许空;或者表定义时给出默认,如果不给出,将使用默认。...问题 22: 自定义函数支持输出参数吗? 答: 自定义函数可以接受零个或多个输入参数,其返回可以是一个数值,也可以是一个表,但是自 定义函数不支持输出参数。...答:唯一索引可以确保索引不包含重复。在多唯一索引情况下,该索引可以确保索引中每 个组合都是唯一。...聚集索引和聚集索引都可以是唯一。因此,只要数据是唯一,就可以在同一个表上创建 一个唯一聚集索引和多个唯一聚集索引。 只有当唯一性是数据本身特征时,指定唯一索引才有意义。

3K40

掌握机器学习数学基础之线代(二)

特征分解重要应用--PCA(主成分分析): 举个栗子:机器学习中分类问题,给出178个葡萄酒样本,每个样本含有13个参数,比如酒精度、酸度、镁含量等,这些样本属于3个不同种类葡萄酒。...做法:把数据集赋给一个178行13矩阵R,减掉均值并归一化,它协方差矩阵C是13行13矩阵,对C进行特征分解,对角化,其中U是特征向量组成矩阵,D是特征组成对角矩阵,并按由大到小排列。...然后,另R’ =RU,就实现了数据集在特征向量这组正交基上投影。嗯,重点来了,R’中数据是按照对应特征大小排列,后面的对应小特征,去掉以后对整个数据集影响比较小。...降维以后分类错误率与不降维方法相差无几,但需要处理数据量减小了一半(不降维需要处理13维,降维后只需要处理6维)。在深度学习之前,图像处理是很常用到PCA,PCA是一个非常不错降维方法!...V,同时可以在对应空间找到一组标准正交基U,我们知道,看一个矩阵作用效果只要看它在一组基上作用效果即可,在内积空间上,我们更希望看到它在一组标准正交基上作用效果。

71780

数据科学家令人惊叹排序技巧

/ Timsort是一个稳定排序算法,这表示对于相同数值元素,排序前后会保持原始顺序。...不过需要注意是这个排序算法使用和对这些参数名字期待会有所不同,比如传递kind=quicksort实际上采用一个 introsort 算法,这里给出 numpy 文档解释: 当没有足够进展时候...排序算法选择。详情可以看看numpy ndarray.np.sort 。在 pandas 中这个参数只会在对单个标签或者中使用 na_position:{'first', 'last'} 。...稳定排序是采用 mergesort 参数值 在做数据探索分析时候,一般在对 DataFrame 做求和和排序数值时候都采用方法 Series.value_counts()。...但不幸是,我尝试在谷歌 Cola 上通过 Numpy 构建一个 1.1M * 100 K 随机数据集时候出现内存不足错误,然后尝试用 GCP 416 MB,出现同样内存不足错误

1.2K10

具体数学-第4课(多重求和方法)

今天讲了多重求和,也就是一个和式由多个下标来指定。 首先是最简单形式: ? 例题1 下面给出一个对称矩阵: ? 求: ?...,求下面式子最大与最小: ? 其中 ? 是 ? 一个排列。 答案是 ? 增序最大,降序最小,至于为什么,下面给出两种证明方法。 方法1 ? 如上图所示, ? 和 ?...按照递增顺序排列,每个方格面积代表 ? 与 ? 乘积,记为 ? 。 那么上面的求和式其实就是每一行每一都必须有且只有一块被取。 考虑第一行,如果不取 ? ,取其他 ?...单调递减,那么有如下证明: ? 反之亦证。 题外话,其实切比雪夫不等式原来是以微积分形式给出: 如果函数 ? 和 ? 单调递减,那么有: ? 例题3 求 ?...求和: ? 方法2 先计算对 ? 求和: ? 方法3 按对角线求和: ? 由此得到了一个完全不同表示形式! 所以我们得到了: ?

78910

数值分析读书笔记(2)求解线性代数方程组直接方法

,高阶状态下比起克拉默法则运算量要小得多 Gauss消元法过程中,在对进行消元时候,如果主元比较小的话,运算结果会产生较大误差,故引入Gauss主元消元法,即在每一次利用主元消元步骤之前,...上半带宽为s,下半带宽为r,存在LU分解,其中L是下半带宽为r单位下三角矩阵,U是上半带宽为s上三角矩阵 对于r=s=1这一类更加特殊矩阵,称为三对角矩阵,对于此类矩阵三角分解,介绍一种“追赶法...诱导所给出矩阵范数为(其中x不为零向量) ? 我们为了解决这个最大问题,继续等价定义来优化这个问题 ? 其中第一个max条件为x不为零向量,第二个max条件为 ?...我们利用诱导范数定义可以从原来向量范数中诱导出三种范数,分别是 1范数:对矩阵每一元素取绝对之后求和,然后选取其中最大列作为1范数 2范数:矩阵最大奇异,也就是矩阵与矩阵转置乘积最大特征...无穷范数:对于矩阵每一行元素取绝对之后求和,然后选取其中最大行作为无穷范数 关于矩阵应用,这里引入一个Banach引理 设矩阵A属于n*m复矩阵空间,对于该空间上某种矩阵范数 ?

1.2K30

pandas | DataFrame中排序与汇总方法

但是由于DataFrame是一个二维数据,所以在使用上会有些不同。...我们还可以传入ascending这个参数,用来指定我们想要排序顺序是正序还是倒序。 ? 排序 DataFrame排序有所不同,我们不能对行进行排序,只能针对。...我们可以发现我们随手输入一串数字当中,包含两个7,7是Series当中最大数字,但是它们排名为什么是6.5呢?...如果我们不希望它取平均,而是根据出现先后顺序给出排名的话,我们可以用method参数指定我们希望效果。 ?...DataFrame当中同样有类似的方法,我们一个一个来看。 首先是sum,我们可以使用sum来对DataFrame进行求和,如果不传任何参数,默认是对每一行进行求和。 ?

4.4K50

Excel 常用九十九个技巧 Office 自学教程快速掌握办公技巧

1、快速求和对多行多单元格数据求和,可以直接选取单元格区域,按组合键【Alt、+、=】即可快速求和。...16、查找重复选取查找数据区域,依次点击【开始】-【条件格式】-【突出显示单元格规则】-【重复】设置选择重复格式为【浅红填充色深红色文本】。...24、输入身份证号或以 0 开头字符数字串选择单元格区域后,单击鼠标右键选择【设置单元格格式】在对话框中选择【数字】选项卡,再点击分类下属【文本】-【确定】,设置完成后直接输入身份证号或以 0 开头字符数字串就可以了...45、快速生成带方框 √ 和 × 号在目标单元格内输入大写 R 或 S(注:R 为对号 √,S 为错号 ×),然后点击菜单栏中字体样式,选择设置字体为:Wingding2 即可一键生成带方框 √...85、恢复输入错误公式如果公式输入时错了,按 ESC 键就可以恢复到输入前状态,也可以点编辑栏取消按钮。

7K21

什么是语义分割_词法分析语法分析语义分析

如:对角线数字5,含义为:预测为狗,实际是狗预测数目,即:预测正确(同理:数字4);对角线数字1,含义为:预测为猫,实际是狗预测数目,即:预测错误。...如:第一行,5+1=6,表示真实情况狗有6只. ③矩阵每一数字求和,其含义:预测中,预测为该对应类别的数目!...解释:混淆矩阵对角元素全是预测正确数字表示各类别预测正确数目;横(行)数字求和,表示某类别真实个数,竖(数字求和,表示模型预测为该类别的个数!...下面继续引用大佬讲解,遵循:对角都对,横看真实,竖看预测 原则 表格分析注意小点: ①绿色表格中对角线元素上数字即为该类别预测正确像素点数目,对角线元素都是预测错误,拿最后一行数字1为例,其含义即为有一个原本应属于类别...2像素点被错误地预测为类别1; ②绿色表格每一行求和得到数字含义是真实标签中属于某一类别的所有像素点数目,拿第一行为例,3+0+0=3,即真实属于类别0像素点一共3个; ③绿色表格每一求和得到数字含义是预测为某一类别的所有像素点数目

1.2K20

技巧:Excel用得好,天天没烦恼

用 “Alt + =” Excel函数功能非常强悍,求和应该是最常用到函数之一了。只需要连续按下快捷键“alt”和“=”就可以求出一数字和。 ? 2....SUMIF 函数 Sum意思是“加和”,再加上“IF”,意思就是对范围中符合指定条件求和。 例如,假设在含有数字某一中,需要对大于 1000000 数值求和。 请使用以下公式: 4....SUMPRODUCT函数语法是:SUMPRODUCT(array1, [array2], [array3], ...) 其中Array1是必需,其相应元素需要进行相乘并求和一个数组参数。...index(r,n)是一个索引函数,在区域r内,返回第n个单元格。...而 match(a,r,t)是一个匹配函数,t为0时,返回区域r内与a精确匹配单元格顺序位置;t为1时返回区域r内与a最接近单元格顺序位置(汉字通常按拼音字母比较,数字比较,数值符号按位比较

1.9K40

pandas | DataFrame中排序与汇总方法

但是由于DataFrame是一个二维数据,所以在使用上会有些不同。...我们还可以传入ascending这个参数,用来指定我们想要排序顺序是正序还是倒序。 排序 DataFrame排序有所不同,我们不能对行进行排序,只能针对。...我们可以发现我们随手输入一串数字当中,包含两个7,7是Series当中最大数字,但是它们排名为什么是6.5呢?...如果我们不希望它取平均,而是根据出现先后顺序给出排名的话,我们可以用method参数指定我们希望效果。...DataFrame当中同样有类似的方法,我们一个一个来看。 首先是sum,我们可以使用sum来对DataFrame进行求和,如果不传任何参数,默认是对每一行进行求和

3.8K20

盘点66个Pandas函数,轻松搞定“数据清洗”!

describe方法默认只给出数值型变量常用统计量,要想对DataFrame中每个变量进行汇总统计,可以将其中参数include设为all。...df.shape 输出: (5, 2) 另外,len()可以查看某行数,count()则可以查看该有效个数,不包含无效(Nan)。...df["排名"] = df.rank(method="dense").astype("int") 输出: rank()⽅法中method参数,它有5个常⽤选项,可以帮助我们实现不同情况下排名。...在对文本型数据进行处理时,我们会大量应用字符串函数,来实现对一文本数据进行操作[2]。...函数方法 用法释义 count NaN数据项计数 sum 求和 mean 平均值 median 中位数 mode 众数 max 最大 min 最小 std 标准差 var 方差 quantile

3.7K11

手把手教你将矩阵&概率画成图

首先严谨地概括这个想法:每个矩阵对应一个加权二分图。所谓「图」是指顶点(点)和线集合;「二分」是指点有两种不同类型/颜色;;「加权」是指每条线都有一个数字标记。...上图对应一个 3×23×2 矩阵 M。右侧我画了三个绿点,分别对应矩阵 M 三行,两个粉点分别对应矩阵 M 。如果对应矩阵 M 中零,就在绿点和粉点间画一条线连接。 ?...例如,在第二个绿点和第一个粉点间存在一条线,因为 M_21=4,即矩阵 M 第二行第一不为 0。此外,我用数字标记了这条线。...实际上,如果要描述矩阵 M,那么需要描述第 ij 项。换句话说,对于每对 (i,j),都需要给出一个实数 M_ij。这就是函数功能啊!...为什么会这么好?因为一个矩阵 M:X×Y→Z_2 相当于一个「关系」。「关系」是笛卡尔积 X×Y 子集 R 名称。

99430

精通Excel数组公式008:数组常量

逗号意味着跨 4. 数组中文本放置在双引号中 5. 数字、逻辑错误不需要双引号 6....图11 注意到,与上文所给出公式不同之处在于,公式中没有硬编码。如果想改变求和数量,只需修改单元格D3和D6中数值。...你可以添加一个辅助,放置上述各相加后,然后使用VLOOKUP函数查找相应。...其实,你可以使用代表这些数字组成数组作为VLOOKUP函数参数col_index_num,如下图19所示,以获取相应5个{1.35,2.15,3,2,4}。 ?...图25:两个数组相乘,然后求和。在SUM函数参数number1中这个数学数组运算涉及到两个数组常量,不需要按Ctrl+Shift+Enter键。 ? 图26:单元格区域和数组常量相乘,然后求和

2.7K20

学界 | 精准防御对抗性攻击,清华大学提出对抗正则化训练方法DeepDefense

本文提出了 DeepDefense,这是一种用于训练 DNN 提高模型鲁棒性对抗正则化方法。与很多已有的使用近似和优化严格边界方法不同,研究者准确地将一个基于扰动正则化项结合到分类目标函数中。...表 1:不同防御方法在对抗攻击下测试性能。第 4 :无对抗扰动测试图像准确率。第 5 :在 DeepFool 攻击下 ρ_2 。...第 7-9 :FGS 扰动图像上分类准确率,ε_ref 是使得 50% 扰动图像被本文提出正则化模型误分类最小 ε 。 ? 表 2:精调过程中一些超参数。 ?...图中上方箭头表示实例被错误分类类别结果,下方数字表示 ? 。上半部分是为 MLP 模型生成,下半部分是为 LeNet 模型生成。模型(即,动量:0.9,权重衰减:0.0005)。 ?...图 4:带有变化参数 DeepDefense 在 MNIST 上表现。这里使用 LeNet 作为参考网络。同一曲线上不同点对应于不同 c 精调(从左至右依次减少)。 ?

1.2K80

R数据科学|3.6内容介绍

上节我们对选择现有的和使用mutate添加新做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。...为了说明管道如此有用原因, 我们将探究同一段代码不同编写方式。...于是这首童谣可以如下表示,这种方法最大缺点是,你必须为每个中间结果建立一个变量,在很多情况下,比如在本例中,这些变量其实是没有什么实际意义,你还必须使用数字后缀来区分这些变量: foo_foo_1...3.6.2 缺失 聚合函数遵循缺失一般规则:如果输入中有缺失,那么输出也会是缺失。好在所有聚合函数都有一个 na.rm参数,只需设置na.rm =TRUE,即可在计算前除去缺失。...is_na()):对缺失计数 n_distinct():计算出唯一数量 count():一个简单辅助函数,用于只需要计数情况 3.6.4 常用摘要函数 位置度量:median(x),mean

96420

商业数据分析从入门到入职(3)Excel进阶应用

比如对于公式=PI()*A@^2: 组成部分包括: 函数 如PI()函数返回pi3.14159…。 引用 如A2返回单元格A2中。 常量 直接输入到公式中数字或文本,例如2。...对一根据条件进行不同赋值,如下: ?...还可以进行混合引用,即位置行和中只有一个改变,另一个不改变,不改变用$修饰。 如下: ? 显然,通过混合引用实现了打印九九乘法表。 函数基本用法如下: ?...SUMIF 和COUNTIF类似,SUMIF是根据条件进行求和,简单使用如下: 待求和数据所在和条件所在不是同一时,稍微复杂一点,如下: 显然,此时需要传递3个参数,才能求和。...还可以根据多个条件进行求和,有多种方式,一种方式是增加辅助拼接两个条件,再进行求和,如下: 可以看到,计算出来结果是依赖于辅助,如果删除或修改辅助,结果也会发生变化。

2.1K10

Linux运维基础技能: 脚本编程与Linux命令

希望对需要学习、面试 Linux 运维同学有所帮助。 ? $1 入参,空时默认赋值技巧 variable=${1:-"default value"} # 当未传参时,赋默认。...echo $variable $* 和 $@ 区别 $* 和 $@ 都表示传递给函数或脚本所有参数,不被双引号(" ")包含 时,都以"$1" "$2" … "$n" 形式输出所有参数。...但是当它们被双引号(" ")包含时,"$*" 会将所有的参数作为一个整体, 以"$1 $2 … $n"形式输出所有参数;" $@" 会将各个参数分开,以"$1" "$2" … "$n" 形式输出所有参数...结果第一是仅仅在文件 1 出现,第二是仅仅在文件 2 出现 ,第三是共同出现。-1 表示不显示第一,-2 表示不显示第二,-3 表示不显示第三。...行 N 数字,求数字求和 题:给定 id 姓名 工资文本,计算工资和 1 tom 2500 2 mary 3200 3 jack 4700 4 who 6900 5 lee 2600 答案: awk

2.8K32
领券