R按组变异which.max_如何按组变异？_which.max()按组，但在数据帧中输出 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

30道练习题带你玩转统计学的R语言版

统计学是一门很深的学问，这里仅仅是出题帮助大家熟练使用R语言来学习统计学知识，具体知识点需要更深入阅读书籍或者教程：

03

「R」层次聚类和非层次聚类

在这个分析中，我们将看到如何创建层次聚类模型。目的是探索数据库中是否存在相似性组，并查看它们的行为。

01

您找到你想要的搜索结果了吗？

是的

没有找到

如何选择聚类模块数目

一般来说，类似K-means聚类算法需要我们提取指定聚类得到的cluster数目。那么问题来了，如何为聚类选择一个适合的cluster数目呢？很遗憾，上面的问题没有一个确定的答案。不过我们可以基于不同聚类过程中使用的相似性算法和模块划分参数，选择一个最合适的数目。下面介绍不同的方法，帮助我们在K-means，PAM和层次聚类中选择合适的聚类数目，这些方法包括直接方法和统计检验方法。直接方法设置一些适合的划分标准，比如elbow和average silhouette法统计检验方法就是常用的假设

R语言中自编基尼系数的CART回归决策树的实现

在这里，可以将样本绘制在下方（请注意，第一个变量在上方的y轴上，在下方的x轴上），蓝色点等于1，红色点等于0，

01

ROC曲线最佳截点

这个R包计算AUC是基于中位数的，哪一组的中位数大就计算哪一组的AUC，在计算时千万要注意！

02

39. R 数据整理（十： R 的四种累积运算与by）

其中data是一个数据框或矩阵；INDICES是一个因子或因子组成的列表，定义了分组；FUN是任意函数。

03

R语言中自编基尼系数的CART回归决策树的实现

在这里，可以将样本绘制在下方（请注意，第一个变量在上方的y轴上，在下方的x轴上），蓝色点等于1，红色点等于0，

02

GEO数据挖掘7

GSVA分析，gene Set Variation Analysis，被称为基因集变异分析，是一种非参数的无监督分析方法，用来评估芯片核转录组的基因集富集结果。思路

03

转载︱案例基于贪心算法的特征选择

————————————————————————————————————————————————————————

01

分组计算描述性统计量函数—by()函数

简单点说by(data, INDICES, FUN)函数的典型用法：是将data数据框或矩阵按照INDICES因子水平进行分组，然后对每组应用FUN函数。是不是没懂？反正看完后我没懂~

02

完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析

如何找到somatic的突变信息的maf文件，仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可，这个是网页里面的鼠标点击操作。值得注意的是网页里面关于同一个癌症有两个跳转链接哦（其中一个带有GDC的前缀）：

02

空间轨迹向量场

作者，追风少年i~国庆前的最后一弹，分享一个简单的内容，空间轨迹向量场。其中关于空间轨迹，我也写了很多，文章放在下面，供大家参考时空轨迹分析导论空间转录组之空间基因和细胞轨迹单细胞个性化分析之轨迹分析篇图片首先我们来解读以下这个图片，这个地方类似于基因、细胞类型或者通路的区域转换（细胞迁移）。为了探索代谢改变区域中迁移基因表达特征的富集，确定了特定基因表达特征的低富集和高富集之间的定向梯度的空间方向。简化后，每个点的方向向量是基于其局部邻域中所研究的基因表达特征的分级富集。这些向量场计算使我们能够近似

03

汇总统计？一个函数全部搞定！

我想，这个很容易，Excel就可以计算啊，但是作为R语言的用户，一定要用R语言解决才可以，所以我就写了一个函数，可以批量去生成多个性状的结果。

01

用R解析Mahout用户推荐协同过滤算法(UserCF)

作者：张丹(Conan), 程序员Java,R,PHP,Javascript http://blog.fens.me 前言用R全面解析Mahout的基于用户推荐协同过滤算法(UserCF),改进的采用欧氏距离，并用R语言实现，与Mahout的结果进行对比。 Mahout是Hahoop家族用于机器学习的一个框架，包括三个主要部分，推荐，聚类，分类！我在这里做的是推荐部分。推荐系统在现在的互联网应用中很常见，比如，亚马逊会推荐你买书，豆瓣会给你一个书评，影评。目录 Mahout的模型介绍 R语言模型实

R语言常见函数知识点梳理与解析 | 精选分析

R语言控制流：for、while、ifelse和自定义函数function|第5讲

02

R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析

在先前我们提供了Nelson-Siegel模型收敛失败的示例，我们已经展示了它的一些缺陷。

00

k折交叉验证(R语言)

“ 机器学习中需要把数据分为训练集和测试集，因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验证。” k折交叉验证 K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本，不重复的选取其中一个子样本作为测试集，其他K-1个样本用来训练。共重复K次，平均K次的结果或者使用其它指标，最终得到一个单一估测。这个方法的优势在于，保证每个子样本都参与训练且都被测试，降低泛化误差。其中，10折交叉验证是最常用的。

09

R语言日常笔记（4）修改基因最大表达值

问题描述：差异基因分析中有一些基因会有异常表达，例如说，A基因在大部分样本表达量介于1-10之间，然后A基因在甲样本表达量高达10000以上，这就是明显的异常表达值。

02

R语言马尔可夫链（MARKOV CHAIN, MC）模拟赌徒破产模型GAMBLER’S RUIN PROBLEM可视化

赌徒的破产问题是指玩家有获胜的概率p和失败的概率q（点击文末“阅读原文”获取完整代码数据）。

01

大肠杆菌全基因组重测序变异检测小实例（侧重变异过滤）

未找到原文所用数据，本文使用GATK4.0和全基因组数据分析实践（上）文章中的大肠杆菌基因组作为参考序列，使用wgsim软件模拟生成双端150bp测序数据

01

全基因组 - 人类基因组变异分析（PacBio) （5）-- pbsv

染色体结构变异（Structure Variation, SV），指基因组上发生的长度大于50bp的大片段插入(Insertion, INS)、缺失(Deletion, DEL)、倒位(Inversion, INV)、易位(Translocation)、重复（Duplication, DUP）等类型的变异，其中占比最大的就是大片段的插入和缺失（图1）。插入缺失很好理解就是，多了一段或者少了一段DNA序列；重复就是有一段区域的序列重复出现；倒位就是序列翻转了一下，如本来那个位置该是AATTG的，结果变成了GTTAA；易位的话就是序列位置的变化，又进一步分为染色体内易位和染色体间易位。据统计，基因组结构变异可能导致的遗传性疾病已经超过1,000种，对于每个人来讲其基因组都有至少20,000个的结构变异，这些变异带来的影响或许比SNVs或InDels带来的影响更大。

00

小数据| 描述性统计（Python/R 实现）

描述性统计是借助图表或者总结性的数值来描述数据的统计手段。数据挖掘工作的数据分析阶段，可以借助描述性统计来描述或总结数据的基本情况。

02

R语言与机器学习（分类算法）K-近邻算法

最近在学习数据挖掘，对数据挖掘中的算法比较感兴趣，打算整理分享一下学习情况，顺便利用R来实现一下数据挖掘算法。数据挖掘里我打算整理的内容有：分类，聚类分析，关联分析，异常检测四大部分。其中分类算法主要介绍：K-近邻算法，决策树算法，朴素贝叶斯算法，支持向量机，神经网络，logistic回归。写这份学习笔记主要以学校data mining课程的课件为主，会参考一堆的baidu，一堆的google，一堆的blog，一堆的book以及一堆乱七八糟的资料，由于精力有限，恕不能一一列出

dataframe进行常用统计、分组统计平均绝对偏差等操作函数。

pandas在dataframe中提供了丰富的统计、合并、分组、缺失值等操作函数。 1.统计函数 df.count() #非空元素计算 df.min() #最小值 df.max() #最大值 df.idxmin() #最小值的位置，类似于R中的which.min函数 df.idxmax() #最大值的位置，类似于R中的which.max函数 df.quantile(0.1) #10%分位数 df.sum() #求和 df.mean() #均值 df.median() #中位数

06

🤩 Monocle 3 | 太牛了！单细胞必学R包！~（三）（建立单细胞轨迹）

单细胞转录组、蛋白组、表观组学等单细胞技术的发展为研究细胞周期、细胞分化等细胞动态过程提供了新的机会。🤩

03

【学习】 R语言与机器学习学习笔记（1）K-近邻算法

前言最近在学习数据挖掘，对数据挖掘中的算法比较感兴趣，打算整理分享一下学习情况，顺便利用R来实现一下数据挖掘算法。数据挖掘里我打算整理的内容有：分类，聚类分析，关联分析，异常检测四大部分。其中分类算法主要介绍：K-近邻算法，决策树算法，朴素贝叶斯算法，支持向量机，神经网络，logistic回归。写这份学习笔记主要以学校data mining课程的课件为主，会参考一堆的baidu，一堆的google，一堆的blog，一堆的book以及一堆乱七八糟的资料，由于精力有限，恕不

06

【R系列】概率基础和R语言

R语言是统计语言，概率又是统计的基础，所以可以想到，R语言必然要从底层API上提供完整、方便、易用的概率计算的函数。让R语言帮我们学好概率的基础课。 1. 随机变量 · 什么是随机变量？ · 离散型随机变量 · 连续型随机变量 1). 什么是随机变量？随机变量（random variable）表示随机现象各种结果的实值函数。随机变量是定义在样本空间S上，取值在实数载上的函数，由于它的自变量是随机试验的结果，而随机实验结果的出现具有随机性，因此，随机变量的取值具有一定的随机性。 R程序：生成一个在(0,1,

08

GATK流程_diskeeper怎么用

一、使用GATK前须知事项：（1）对GATK的测试主要使用的是人类全基因组和外显子组的测序数据，而且全部是基于illumina数据格式，目前还没有提供其他格式文件（如Ion Torrent）或者实验设计（RNA-Seq）的分析方法。（2）GATK是一个应用于前沿科学研究的软件，不断在更新和修正，因此，在使用GATK进行变异检测时，最好是下载最新的版本，目前的版本是2.8.1（2014-02-25）。下载网站：http://www.broadinstitute.org/gatk/download。（3）在GATK使用过程中（见下面图），有些步骤需要用到已知变异信息，对于这些已知变异，GATK只提供了人类的已知变异信息，可以在GATK的FTP站点下载（GATK resource bundle）。如果要研究的不是人类基因组，需要自行构建已知变异，GATK提供了详细的构建方法。

02

参考基因组差异导致外显子组变异差异

人类参考基因组的确定和更新得益于人类基因组计划的开展和技术的进步，目前最新版本的GRCh38 (hg38)人类参考基因组是7年前发布的，但是大多科研机构和临床实验室对最新版本的使用还保持谨慎的态度，而GRCh37 (hg19)参考基因组仍被广泛使用。2021年7月1日发表在《美国人类遗传学杂志》(American Journal of Human Genetics)上的一项研究中贝勒医学院(Baylor College of Medicine)人类基因组测序中心(Human Genome Sequencing Center)的研究人员利用大规模全外显子组测序数据确认了两种参考基因组之间的基因变异差异，这项研究可以为那些正在考虑转换使用最新版本的机构提供指导。

02

Science:心脑连接-来自4万张心脏和大脑MRI的表型和遗传见解

摘要：心血管健康以复杂的方式与认知和心理健康相互作用。然而，人们对心脑系统的表型和遗传联系知之甚少。利用来自4万多名英国生物银行受试者的心脏和大脑磁共振成像(CMR和脑MRI)数据，我们对心脏和大脑之间的结构和功能联系进行了详细分析。在控制体型和体重指数后，心血管系统的CMR测量与脑基本形态测量、结构连通性和功能连通性密切相关。心血管危险因素对大脑的影响部分是由心脏结构和功能介导的。利用82个CMR特征，全基因组关联研究确定了80个与CMR相关的基因组位点，这些位点与广泛的心脑疾病共定位。观察到CMR特征与脑相关复杂特征和疾病之间的遗传相关性，包括精神分裂症、双相情感障碍、神经性厌食症、中风、认知功能和神经质。我们的研究结果揭示了一种强大的心脑联系和共同的遗传影响，推进了人类健康和临床结果的多器官视角。

01

评估肿瘤纯度的方法（二）：基于单核苷酸变异 TPES

对肿瘤样本进行基因组和分子分析时，首先需要定量肿瘤和混合的正常细胞的比例[肿瘤纯度(TP)或肿瘤细胞性]，用以评估体细胞损伤检测边界并进行适当的比较分析。接下来我们会介绍一些评估样本纯度的方法。之前我们有介绍基于甲基化评估肿瘤纯度的R包InfiniumPurify。

01

最优子集回归算法详解

最优子集回归是多元线性回归方程的自变量选择的一类方法。从全部自变量所有可能的自变量组合的子集回归方程中挑选最优者。如m个自变量会拟合2m-1个子集回归方程,然后用回归方程的统计量作准则(如交叉验证误差、Cp、BIC、调整R2等指标)从中挑选。

05

遗传算法的应用实例python实现_python遗传算法库

遗传算法是用于解决最优化问题的一种搜索算法。从名字来看，遗传算法借用了生物学里达尔文的进化理论：”适者生存，不适者淘汰“，将该理论以算法的形式表现出来就是遗传算法的过程。

04

得物极光蓝纸箱尺寸设计实践

极光蓝包装盒成潮流标识，得物App成年轻潮人精神归属，特殊的包装材料已经在消费者之间形成了强大的心智，极光蓝等于得物。

01

Task2：数理统计与描述性分析

快速阅读思维导图常用统计量 python实现思维导图 📷 常用统计量描述型统计学常用统计量与数学符号 📷 python实现 1、基本统计量的python实现 #导入包 import pandas as pd import numpy as np from scipy import stats import math """ Scipy是一个高级的科学计算库，Scipy一般都是操控Numpy数组来进行科学计算， Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶

01

图解-使用【变异系数】赋予权重，并比较效果

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/140815.html原文链接：https://javaforall.cn

02

SpeedSeq:快速的基因组数据分析软件

该软件最大的特点就是快速，对于50X的人类全基因组数据，原始的fastq到vcf文件只需要13小时左右，对应的文章发表在nature methods上，链接如下

02

评分卡模型开发-用户数据缺失值处理

本文讲述了如何利用Python和R语言对数据集进行缺失值和异常值处理，包括利用均值、中位数、众数、插值、基于邻近算法、基于模型的回归、聚类、分类等多种方法。同时，还介绍了一种基于Knime的缺失值处理方法。

数据分析中非常实用的自编函数和代码模块整理

本文介绍了两个用于数据预处理的函数，具体是用于处理缺失值和异常值的。这些函数可以极大地提高数据预处理的速度，方便进行后续的建模和结果分析。

评估肿瘤纯度的方法（三）: 基于拷贝数变异 ABSOLUTE和DoAbsolute

我们在对肿瘤样本进行研究的时候，为了保证研究质量，通常会选择肿瘤纯度高的样本，那么一般在分析前这样就需要评估样本纯度，接下来我们会介绍一些评估样本纯度的方法。

04

GATK变异检测

准备的已知变异集作为训练集，可以是 Hapmap、OMNI，1000G，dbsnp，瓶中基因组计划等这些国际性项目的数据，然后利用训练集对每一个位点进行过滤。利用 VariantRecalibrator工具进行机器学习，ApplyVQSR 工具进行处理。VQSR 过滤 SNP 和 InDel 分别进行，首先处理 SNP，得到结果后，再进行 InDel 处理。

01

利用基因突变和K均值预测地区种群

这是一篇关于西北基因组中心的Deborah Siegel和华盛顿大学联合Databricks的Denny Lee，就ADAM和Spark基因组变异分析方面的合作的专访。

MUMmer共线性分析与SNP检测

系统发育相关的基因组之间既存在保守性又存在可变性。有些序列片段的数目以及顺序具有保守性，这种保守性可以使用共线性（synteny）或同线性（colinearity）来进行描述。共线性主要强调两方面，一是序列的同源性，二是序列片段的排列顺序。同时即使很近缘的基因组也可能存在大量的变异和多态性，这种变异可能构成了不同个体与群体性状差异的基础。单核苷酸多态性(single-nucleotide polymorphism，SNP)是指由于单个核苷酸位置上存在转换或颠换等变异所引起的DNA序列多态性，常用来研究近缘物种基因组的进化。

02

基因组深度学习模型很难很好地解释个体转录组的变异

今天为大家介绍的是来自Nilah Ioannidis的一篇讨论深度学习模型在基因序列应用的论文。基因组深度学习模型可以直接从DNA序列预测全基因组的表观遗传特征和基因表达水平。尽管当前的模型在从参考基因组预测不同细胞类型的基因表达水平方面表现良好，但它们在解释个体间由于顺式调控基因变异而导致的表达变异能力仍然未被充分探索。在这里，作者对四种最先进的模型进行了个体基因组与转录组数据配对的评估，发现在解释个体间表达变异方面的性能有限。

03

生信爱好者周刊（第 55 期）：科学创新四十年，我们可能还没搞明白科学和技术的基本概念

本杂志开源（GitHub: ShixiangWang/weekly[1]），欢迎提交 issue，投稿或推荐生信相关内容。

01

GATK 的 Germline mutation 流程--肿瘤基因组测序数据分析专栏

基因组测序，最重要的就是检测变异位点，对于家系数据、遗传病研究，更多的是关心 Germline mutation 生殖突变。当然，部分肿瘤研究也会关注 Germline mutation。GATK 对这类变异的检测有一整套流程，主要用到的工具是：HaplotypeCaller 、GenomicsDBImport、GenotypeGVCFs、VariantRecalibrator、 ApplyVQSR 等工具

03

临床试验统计篇-交叉设计方差分析原理

临床试验中，较低变异度（intra-subject CV%<30%）的仿制药，在判定生物等效性时常采用2交叉试验设计：

01

咖啡因的摄入对于高风险帕金森病人群的研究

今天为大家介绍的是来自Eng-King Tan团队的一篇论文。咖啡因的摄入降低帕金森病（PD）的风险，但其与基因的相互作用尚不清楚。咖啡因与高PD风险人群中的基因变异相互作用对于健康具有重要意义。作者研究了咖啡因摄入与亚洲人中发现的基因变异的相互作用，并确定了携带这些变异的咖啡饮用者的PD风险估计。

01

Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析

本文描述了使用Sentieon® DNAscope进行PacBio® HiFi数据胚系突变检测。PacBio® HiFi技术产⽣质量值超过Q20的高质量长读段，平均长度在10-25kb之间。准确的长读段可以对短读段和高噪音长读段方法无法检测的基因组重复区域进行精准的变异检测。

00

拟时分析

轨迹推断（Trajectory Inference，TI），也称为细胞分析轨迹（differentiation trajectories）基于单细胞转录组数据，利用模型预测细胞分化过程。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭