R中特定行的子集/过滤-使用标准函数还是dbplyr？_使用R的分组数据中特定行值之前的子集行_使用特定行中的值过滤R中的列 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

R tips：自杀式R包的安装

如果是在Windows平台下，那么应该首先检查R包安装路径是否有问题（使用.libPaths()函数查看），尽量不要安装到".RLibrary"之类的无版本依赖的文件夹中。...’ 其实这个问题比较好解决，大家如果测试过的话，可能会发现这个报错只会在一个特定场合出现：一个已经打开过的R或Rstudio项目，且上次退出时保存过R数据，而且大概率是你这些R数据直接/间接依赖了一个...这个操作也会额外修复一种情况：就是你的R界面中会疯狂的重复打印一行红色提示： trying to get slot "subclasses" from an object of a basic class...Depends是代表这个依赖项会载入到全局环境中。 Imports是代表这个依赖项只会在当前包的环境中载入。 Suggests一般是用于帮助文档渲染时使用的依赖项。...手动安装R包手动安装源码包可以通过两个方式，一个是R里面使用install.packages函数，另一个是使用命令行工具R CMD INSTLAL。

3171 0

R语言有多强大？十个你不知道的功能

但在与计算机领域朋友的沟通中，R语言其实已经成长为一种多功能的编程语言，它的功能远不限于数据分析而已。但是，R语言的很多优秀特性并不为R语言社区以外的人所熟知。...比方说如果使用R语言的flexdashboard包，你只需要36行代码，就可以生成一个可交互的动态报表，来探索你的BMI指数与全国健康营养检查样本结果的关联。...3.几行甚至一行R代码就可以支持网络应用的运行另外一个很酷的功能是，通过rsconnect包，R语言还可以仅用一两行代码就支持网络应用的运行。...4.通过使用R语言的dplyr/dbplyr，几乎各种数据库都可以连接使用dbplyr包，用R语言连接各种数据库，无论是本地的还是远程的，都非常方便。...如果你还安装有Rstuodio Connect，这些函数可以像网络应用一样轻松地被部署。 8.你可以使用R语言来生成电子游戏的界面不仅是网络应用，R语言甚至可以生成电子游戏的界面。

1K3 0

您找到你想要的搜索结果了吗？

是的

没有找到

【机器学习】在【R语言】中的应用：结合【PostgreSQL数据库】的【金融行业信用评分模型】构建

# 检查缺失值 sum(is.na(data)) 如果存在缺失值，我们可以选择删除缺失值所在的行，或者使用插值方法填补缺失值。对于本次分析，我们假设数据无缺失值。...1.数据标准化数据标准化有助于提高模型的收敛速度和预测性能。我们使用scale函数对数值型特征进行标准化。...，交替使用每个子集作为验证集，其余子集作为训练集，从而全面评估模型性能。...具体方法： 1.K折交叉验证：将数据分为K个子集，交替使用每个子集作为验证集。常用的K值包括5和10。...# 使用R语言中的ETL包（如odbc、dbplyr）自动化数据处理 library(odbc) library(dbplyr) # 连接数据库 con <- dbConnect(odbc(), "CreditDB

1061 0

使用R语言进行机器学习特征选择②

1.特征工程概述特征工程其实是一个偏工程的术语，在数据库领域可能叫做属性选择，而在统计学领域叫变量选择，其实是一个意思：即最大限度地从原始数据中提取有用信息以供算法和模型使用，通过寻求最优特征子集等方法使模型预测性能最高...（要求数据符合正态性） scale(iris.data, center = TRUE, scale = TRUE) # 或者运用BBmisc包中的normalize函数 library(BBmisc)...- min(col)) return(maxmin)} maxmin(iris.data) 归一化此处的归一化是指依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时...Filter法(过滤法) 按照变量内部特征或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数选择特征.与特定的学习算法无关，因此具有较好的通用性，作为特征的预筛选器非常合适。...缺点主要是由于算法的评价标准独立于特定的学习算法，所选的特征子集在分类准确率方面通常低于Wrapper方法。

1.6K4 1

特征工程

归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为 “单位向量”。...对数标准化对于特定数据集，采用对数函数进行变换会取得更好的分析效果。...由于三角函数中的反正切函数与对数函数具有相似的性质，也可以使用反正切函数实现数据的标准化转换。...优点是直接针对特定学习器进行优化，因此通常包裹式特征选择比过滤式特征选择更好缺点是由于特征选择过程需要多次训练学习器，故计算开销要比过滤式特征选择要大得多。...，取前R行组成矩阵P Y=PX即降维后的数据。

1K2 0

生信学习-Day6-学习R包

取决于你要安装的包存在于CRAN网站还是Biocductor，存在于哪里？可以谷歌搜到。 3 加载 library和require，两个函数均可。使用一个包，是需要先安装再加载，才能使用包里的函数。...c(1:2,51:52,101:102),: 这部分是一个索引操作，用于选择数据集中的特定行。...逗号之后的空位表示选择这些行的所有列（即所有的特征和标签）。 test <-: 这是赋值操作，它会将选择的子集保存到一个新的变量 test 中。...这样做的目的通常是为了在后续的函数调用中简化代码，特别是在你想要操作数据框中特定的列时。这会从 your_data_frame 数据框中选择列名与 vars 向量中的字符串相匹配的列。...在dplyr包的filter()函数中使用时，它可以用于筛选数据框中匹配给定集合中任一值的行。这行代码的作用如下： filter(test, ...): 在test数据框中筛选行。

1741 0

《美团机器学习实践》第二章特征工程

数值特征(定量数据) 主要考虑因素：==大小和分布== 对于目标变量为输入特征的光滑函数的模型，如线性回归、逻辑回归，其输入特征的大小很敏感，因此，使用光滑函数建模时，有必要对输入进行归一化。...使用多项式核、高斯核等将随机森林的叶节点进行编码基因算法、局部线性嵌入、谱嵌入、t-SNE等行统计量。...使用场景：特征很多但样本较少一般包括：产生过程、评价函数、停止准则、验证过程过滤方法 :::hljs-center 图片 ::: 单变量基于特征变量和目标变量的相关性或互信息。...与过滤方法不同，封装方法直接使用机器学习算法评估特征子集的效果，它可以检测出两个或者多个特征之间的交互关系，而且选择的特征子集让模型的效果达到最优。...同时使用序列向前选择和向后选择，当两者搜索到相同的特征子集时停止。增L去R选择算法。若算法从空集开始，每轮先添加L个特征，再删除R个特征；若算法由全集开始，则每轮先删除R个特征，再添加L个特征。

5393 0

数据科学特征选择方法入门

我们将在下面的Python示例中对每种方法进行解释。包装器方法包装方法使用特定的特征子集计算模型，并评估每个特征的重要性。然后他们迭代并尝试不同的特征子集，直到达到最佳子集。...过滤方法过滤方法使用错误率以外的度量来确定该特征是否有用。通过使用有用的描述性度量对特征进行排序，而不是调整模型（如包装方法中的模型），从而选择特征的子集。...方差分析(ANOVA, Analysis of variance) 检验是一个特征治疗和治疗之间的变异。这些差异是这个特定过滤方法的重要指标，因为我们可以确定一个特征是否能够很好地解释因变量的变化。...关于Ridge和Lasso回归的一个重要注意事项是，您的所有特征都必须标准化。Python和R中的许多函数都自动执行此操作，因为lambda必须对每个特征都应用相同的值。...树的构建方式使用嵌入方法中的包装方法。我们的意思是，在建立树模型时，函数内置了几种特征选择方法。在每次拆分时，用于创建树的函数会尝试对所有功能进行所有可能的拆分，并选择将数据拆分为最同质组的功能。

1.4K3 0

TCGA分析-数据下载-1

在某些情况下，当删除重复项时，可能会默认只保留第一行，而 .keep_all = T 可能指示保留所有重复行。但这取决于 distinct 函数的具体实现。...过滤标准不唯一。#过滤之前基因数量：# 3.基因过滤##需要过滤一下那些在很多样本里表达量都为0或者表达量很低的基因。过滤标准不唯一。...#1，函数会应用于矩阵的每一列（即，横向）。 #2，函数会应用于矩阵的每一行（即，纵向）。...，使用factor(x, levels = c("NC", "OMV2"))会设定因子x的取值顺序为"NC"和"L"。...#[,2]: 这是一个子集操作符，用于从上一步的输出中提取第二个元素。

2411 0

RNA-seq下游分析-2

#RSEM定量后直接生成FPKM，无需标准化#RNA-seq下游-1有些混乱，重新整理#与原文存在差异的原因是原文mRNA-seq要对注释gtf文件对进行过滤甲基化区域和polyA尾以及原文用的hg19...vst 是一个函数，用于进行标准化处理，其中 blind = FALSE 表示不是盲标准化，即默认情况下，每个特征（基因）都被除以各自的方差进行标准化。...hclust 函数用于进行层次聚类，其中 method = "ward.D2" 表示使用最小方差法（ward's method）进行聚类，并且计算的是D2距离。...#矫正后的MA图在这句代码中，dd2 <- lfcShrink(dds, contrast=contrast, res=dd1)，lfcShrink是一个函数，它对数据集dds进行某种形式的"收缩"处理...这种处理可能涉及到统计假设检验中的标准化或者归一化等步骤。

3572 0

端到端的单细胞管道SCP-安装

---- 1、安装到全局环境中这里的全局环境是指R的默认包路径（在R中通过.Library查看），与之相反的是后文中使用renv所创建的隔离环境。...R版本要求： R >= 4.1.0 Python版本要求： Python 3.7-3.9 注意，实际上Python版本并不重要，因为无需手动配置python环境，使用SCP中的PrepareEnv函数会自动下载安装所需版本的...环境和软件包 conda = NULL会重新下载安装miniconda，此时也会删除已存在的python环境并重装 PrepareEnv函数的过程大致是：寻找环境中可用的conda, 用户也可以手动设置...---- 2、安装到隔离的R环境中 SCP会牵扯许多依赖包，如果不想干扰当前的环境，比如一些依赖包的版本不想在安装时被改变，或者想将SCP及其依赖包设定在一个固定版本避免更新，来保证重复性，我们可以使用....是类似的，R session启动时被预先加载了一些包，导致无法正常加载dbplyr。

1.2K2 0

浅谈关于特征选择算法与Relief的实现

1) 独立准则独立准则通常应用在过滤器模型的特征选择算法中，试图通过训练数据的内在特性对所选择的特征子集进行评价，独立于特定的学习算法。通常包括：距离度置、信息度量，关联性性度量和一致性度量。...对于特定的学习算法来说，通常可以找到比过滤器模型更好的特征子集，但是需要多次调用学习算法，一般时间开销较大，并且可能不适介其它学习算法。...分类器错误率(Classifier error rate ) 使用特定的分类器，用给定的特征子集对样本集进行分类，用分类的精度来衡量特征子集的好坏。 ...还是采用Matlab中的kmeans函数，将分类数改为3，由于分为3类后数据类型增多，判断较复杂，所以手动对数据进行分析，将所有特征属性加入进去。...R=D(r,:); %将第r行选中，赋值给R 8 d1 = zeros(1,0) ;%先置0,d1是与R的距离，是不是同类在下面判断 9 d2 = zeros(1,0) ;%先置0,d2是与R的距离

7.2K6 1

如何去学一个R包（下）

该函数以与输入向量n中相同的顺序返回过滤的表达式数据集，其中基因作为行，单元格作为列。...在这种情况下，我们使用filterset函数生成的过滤表达表来保留仅在所考虑的轨迹上表达的基因。在通过平滑参数alpha的局部回归进行平滑化之后，计算沿着感兴趣的分化轨迹的伪时间表达谱。...此函数返回以下三个列表：som包中的som功能返回som对象，具有平滑和标准化的表达数据x，以及z分数转换的伪时间表达谱转换的z-score的数据集zs。...作为另一种选择，该功能还可以执行标准DESeq2 （Love，Huber和Anders 2014）差异表达分析。为了运行分析，表达数据与cell IDs向量对应于此数据集的列名子集要一起输入。...它返回含有两个对象的列表，具有所有基因的平均重要性值的一个数据集，这里所述基因至少在迭代中作为行或作为列通过阈值，以及具有重要性值的标准偏差的相应数据集。

7042 0

卷积神经网络之 - ZFNet

ILSVRC 使用 ImageNet 的子集，其中包含 1000 个类别中的大约 1000 个图像。总共大约有 130 万张训练图像，5,000 张验证图像和 100,000 张测试图像。 ?...卷积操作的标准流程是：卷积层 + 激活函数 + 池化层，图像经过上述步骤以后，得到特征图，为了可视化深层特征，我们需要对卷积进行逆过程操作，以便可以进行可视化。...最大池化是不可逆的操作，但是我们通过记录最大值所在的位置来近似最大池化的逆操作。同时，在卷积的流程中使用了激活函数，所以进行反卷积时，也需要加上激活函数 ?...列））『以下使用 R 代表行，C 代表列』 ?...Layer4 & Layer5 第 4 层显示出显着的变化，并且更具有特定类别：狗脸 (R1，C1) 鸟的腿 (R4，C2)。

6042 0

推荐系统的PMF - 概率矩阵分解和协同过滤

然后，我们可以将评分构建为N行和M列的矩阵R，其中N是用户数，M是要评分的项目数。 ? 评分映射。可以将其视为每个用户（行）对多个项目（列）进行评分的矩阵 R矩阵的一个重要特征是它是稀疏的。...为了训练我们的模型，我们将寻求通过将参数U和V的导数等价为零来最大化此函数。但是，由于高斯函数中的exp函数，这样做将非常困难。...用Python实现为了进行训练，我们使用了IMDB电影数据库的一个子集，然后将其分为两部分分别进行训练和验证。初始化：为了初始化V，我们从零均值高斯绘制随机数，标准偏差为1 /λV。...在右侧，我们可以看到在训练集和测试集上评估的RMSE值。考虑到R预测可能超出额定值的0-5范围，我们使用线性插值法确保R值受此间隔限制。原始论文[1]提出了其他方法，例如使用逻辑函数和线性插值。...它利用具有相似首选项的用户提供的数据向特定用户提供推荐。它也被称为低秩矩阵分解方法，因为它使用低秩矩阵来估计等级R矩阵，然后进行有用的预测。

7144 0

掌握这些 NumPy & Pandas 方法，快速提升数据处理效率！

b[1,2] # 选择第1行第2列的元素(相当于b[1][2]) 1.5 2 3 6.0 456 获取子集 >>> a[0:2] # 选择索引0和1的项 array([1, 2]) >>> b[0...:2,1] # 选择第1列中第0行和第1行中的项目 array([ 2., 5.]) >>> b[:1] # 选择第0行中的所有项目，等价于b[0:1，:] array([[1.5, 2., 3.]]...,6.,1.5]) >>> b[[1, 0, 1, 0]][:,[0,1,2,0]] # 选择矩阵的行和列的子集 array([[4.,5.,6.,4.], [1.5,2.,3.,1.5...的值不大于1的子集 >>> s[(s 2)] # 选择Seriess的值是2 的子集 >>> df[df['Population']>1200000000] # 使用过滤器来调整数据框...df3.filter(items=["a","b"]) # 过滤值 >>> df.select(lambda x: not x%5) # 选择特定的元素 # Where >>> s.where

4.9K2 0

预测建模、监督机器学习和模式分类概览

模式分类（pattern classification）和机器学习（machine learning）是非常热的话题，几乎在所有的现代应用程序中都得到了应用：例如邮局中的光学字符识别（OCR），电子邮件过滤...在这种算法中，模型是通过一系列的操作而最大化“奖励函数”来进行学习。奖励函数的最大化，可以通过惩罚“坏行为”，和/或通过奖励“好行为”来实现。...1936年，R.A.Fisher在他的判别分析中创建和使用了Iris数据集。Iris现在可以从UCI机器学习库中免费得到。 ? 在一个监督分类任务中，它将会是一个很好的例子。...想要找到一个特定大小的特征子集，用来最优化分类模型的性能，往往需要一个穷举搜索——搜索采样的所有可能组合。然而，在实际使用中，由于运算的限制，这种方法可能不具有可行性。...人工神经网络（ANN）是模仿人或动物“大脑”的图类分类器，其中相互连接的节点模拟的是神经元。决策树分类器是树形图，其中，图中的节点用于测试某个特征子集的特定条件，然后分支把决策分割到叶子节点上。

6794 0

进阶法宝！掌握这些 NumPy & Pandas 方法，快速提升数据处理效率

b[1,2] # 选择第1行第2列的元素(相当于b[1][2]) 1.5 2 3 6.0 456 获取子集 >>> a[0:2] # 选择索引0和1的项 array([1, 2]) >>> b[0...:2,1] # 选择第1列中第0行和第1行中的项目 array([ 2., 5.]) >>> b[:1] # 选择第0行中的所有项目，等价于b[0:1，:] array([[1.5, 2., 3.]]...,6.,1.5]) >>> b[[1, 0, 1, 0]][:,[0,1,2,0]] # 选择矩阵的行和列的子集 array([[4.,5.,6.,4.], [1.5,2.,3.,1.5...的值不大于1的子集 >>> s[(s 2)] # 选择Seriess的值是2 的子集 >>> df[df['Population']>1200000000] # 使用过滤器来调整数据框...df3.filter(items=["a","b"]) # 过滤值 >>> df.select(lambda x: not x%5) # 选择特定的元素 # Where >>> s.where

3.7K2 0

通俗易懂讲解机器学习中的特征工程

特征工程-特征选择特征选择-Filter 特征选择-Wrapper 特征选择-Embedded 特征工程目的：从特征集合中挑选一组具有统计意义的特征子集，从而达到降维的效果。...Wrapper:直接把最终将要使用的模型的性能作为特征子集的评价标准，包裹式特征选择的目的就是为给定模型选择最有利于其性能的特征子集。...1.将所有的特征按照特定的搜索策略划分为特征子集，以减少搜索空间。...常用方法：前向搜索 Forward Selection:先挑出一些小的特征子集，逐步增加特征子集中的特征数u 后向搜索 Bacward Elimination:先从所有特征中删除一些属性，逐步减少特征数...2.使用特定的算法，如随机森林等等，根据算法的效果对特征子集进行排序优点:直接面向算法优化缺点：需要定义搜索策略特征选择-Embedded 将特征选择过程与模型训练过程融为一体，两者在同一个优化过程中完成

5952 0

Fama French (FF) 三因子模型和CAPM模型分析股票市场投资组合风险收益可视化

今天，我们将使用我们通常的投资组合，其中包括： + SPY（标准普尔500基金）权重25%。 + EFA（一个非美国股票基金），权重25%。 + IJS（一个小盘股价值基金）权重20%。...数据被打包为 zip 文件，所以需要做的不仅仅是调用 read_csv()。使用tempfile() 基础 R 中的函数来创建一个名为 temp. 这是我们将放置压缩文件的地方。...Gll3Ftrs <- read_csv(unz head(Gll3Ftrs ) 这很好用，但它特定于具有这些特定列名的 FF 3 因子集。...我们可以使用该 lubridate 包将该日期字符串解析为更好的日期格式。我们将使用该 parse_date_time() 函数，并调用该 ymd() 函数以确保最终结果为日期格式。...我们可以将这些结果通过管道传输到 ggplot() 并创建具有置信区间的系数散点图。我不想绘制截距，因此会将其从代码流中过滤掉。我们用errorbar添加置信区间。

3.8K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭