首页
学习
活动
专区
圈层
工具
发布

R 语言的Dataframe常用操作

上节我们简单介绍了Dataframe的定义,这节我们具体来看一下Dataframe的操作 首先,数据框的创建函数为 data.frame( ),参考R语言的帮助文档,我们来了解一下data.frame(...在数据统计中,我们需要有各种各样类型的数据,就拿简单的成绩单来说,就包含了“姓名”,“学号”,“科目”等字符型元素,也包括“分数”等数值型元素,还有“是否通过”等布尔型元素,因此,从广泛意义上来说,dataframe...更具有普适性,矩阵多用在数学计算中。...还是同往常一样,我们先学习dataframe数据类型的基本操作 数据框元素的访问:既然矩阵是特殊的数据框,那么矩阵元素的访问方式应该也同样适用于dataframe吗?...,利用矩阵或者向量中相关函数来进行一定的数据处理。

5300
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R如何将fasta转成dataframe

    前面我们讲了R批量下载B细胞和T细胞受体VDJ序列文件,那么如何将这些fasta序列读到R里面,方便后面处理呢?今天小编就给大家演示一下如何利用R将fasta序列转成data.frame。...我们就用上次下载到的BCR的VDJ序列为例,7个fasta文件存放在BCR_seq文件夹中。...stringsAsFactors = F) names(df)=c("ID","name","seq") df }) names(data)=filenames 读完之后,data是一个长度为7的list...前面我们讲了四种获取fasta序列长度的方法,其实读到R里面之后,也能获取每条fasta序列的长度。...也是一个长度为7的list 其中每一个元素也是一个data.frame 参考文献 R批量下载B细胞和T细胞受体VDJ序列文件 四种获取fasta序列长度的方法‍

    1.2K20

    Python中的DataFrame模块学

    初始化DataFrame   创建一个空的DataFrame变量   import pandas as pd   import numpy as np   data = pd.DataFrame()   ...重新调整index的值   import pandas as pd   data = pd.DataFrame()   data['ID'] = range(0,3)   # data =   # ID...('user.csv')   print (data)   将DataFrame数据写入csv文件   to_csv()函数的参数配置参考官网pandas.DataFrame.to_csv   import...异常处理   过滤所有包含NaN的行   dropna()函数的参数配置参考官网pandas.DataFrame.dropna   from numpy import nan as NaN   import...'表示去除行 1 or 'columns'表示去除列   # how: 'any'表示行或列只要含有NaN就去除,'all'表示行或列全都含有NaN才去除   # thresh: 整数n,表示每行或列中至少有

    3.5K10

    (六)Python:Pandas中的DataFrame

    的Series集合 创建         DataFrame与Series相比,除了可以每一个键对应许多值之外,还增加了列索引(columns)这一内容,具体内容如下所示: 自动生成行索引         ..., 'pay': [4000, 5000, 6000]} # 以name和pay为列索引,创建DataFrame frame = pd.DataFrame(data) #自定义行索引 print(frame...admin  2 3  admin  3 另一种删除方法     name  a 1  admin  1 3  admin  3 (1)添加列         添加列可直接赋值,例如给 aDF 中添加...,但这种方式是直接对原始数据操作,不是很安全,pandas 中可利用 drop()方法删除指定轴上的数据,drop()方法返回一个新的对象,不会直接修改原始数据。...对象的修改和删除还有很多方法,在此不一一列举,有兴趣的同学可以自己去找一下 统计功能  DataFrame对象成员找最低工资和高工资人群信息          DataFrame有非常强大的统计功能,它有大量的函数可以使用

    7K20

    SparkMLLib中基于DataFrame的TF-IDF

    一 简介 假如给你一篇文章,让你找出其关键词,那么估计大部分人想到的都是统计这个文章中单词出现的频率,频率最高的那个往往就是该文档的关键词。...所以,排在最前面的几个词,就是这篇文章的关键词。 再啰嗦的概述一下: TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。...二 TF-IDF统计方法 本节中会出现的符号解释: TF(t,d):表示文档d中单词t出现的频率 DF(t,D):文档集D中包含单词t的文档总数。...log表示对得到的值取对数。 TF-IDF 数学表达式 可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。...三 Spark MLlib中的TF-IDF 在MLlib中,是将TF和IDF分开,使它们更灵活。 TF: HashingTF与CountVectorizer这两个都可以用来生成词频向量。

    2.5K70

    R语言中DataFrame列名作为函数参数

    R语言中DataFrame列名作为函数参数 直接传递列名会怎么样? 使用{{}}语法糖 使用enquo函数和!!...语法糖 在使用Tidyverse提供的各种函数时,我们很多时候都会直接传递DataFrame的列名作为函数参数,对对应的列进行操作。如果我们自定义的函数中需要传递列名作为函数参数,如何实现呢?...比如,我们自定义一个函数,用于计算指定列名的平均值 # 函数定义 col_mean % summarise(across(colname..., mean)) } # 函数调用,这里的mpg为数据表中的列名 data <- read_csv(readr_example('mtcars.csv')) col_mean(data, mpg) 执行结果...colname, mean)) } 第二种方法是在函数体内部,先使用enquo()函数将列名转为表达式,然后在使用的时候通过!!符号进行提取即可。

    1.5K30

    pandas | DataFrame中的排序与汇总方法

    大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说pandas | DataFrame中的排序与汇总方法,希望能够帮助大家进步!!!...今天是pandas数据处理专题的第六篇文章,我们来聊聊DataFrame的排序与汇总运算。...在上一篇文章当中我们主要介绍了DataFrame当中的apply方法,如何在一个DataFrame对每一行或者是每一列进行广播运算,使得我们可以在很短的时间内处理整份数据。...Series当中的排序方法有两个,一个是sort_index,顾名思义根据Series中的索引对这些值进行排序。另一个是sort_values,根据Series中的值来排序。...是一个常用的统计方法,可以用来了解DataFrame当中数据的分布情况。

    5.7K20

    MySQL中的事务隔离级别

    它对数据库中数据的改变是持久的,即使数据库发生故障也不应该对其有任何影响。...不可重复读的例子(同样的条件,你读取过的数据,再次读取出来发现值不一样了):事务1中的A先生读取自己的余额为1000的操作还没完成,事务2中的B先生就修改了A先生的余额为2000,导致A先生再次读自己的余额时余额变为了...事务隔离级别 在的SQL标准中定义了四个隔离级别,分别是读取未提交、读取已提交、可重读和可串行化。...这就意味着,这个级别可以有效防止脏读、不可重复读以及幻读。 MySQL中的InnoDB存储引擎的默认使用的隔离级别是REPEATABLE-READ(可重读)。...事务相关命令 在MySQL命令行的默认配置中,事务都是自动提交的,即执行SQL语句后就会马上执行COMMIT操作。 我们可以通过下面的命令来设置隔离级别。

    79520

    Pandas DataFrame 中的自连接和交叉连接

    有很多种不同种类的 JOINS操作,并且pandas 也提供了这些方式的实现来轻松组合 Series 或 DataFrame。...自连接 顾名思义,自连接是将 DataFrame 连接到自己的连接。也就是说连接的左边和右边都是同一个DataFrame 。自连接通常用于查询分层数据集或比较同一 DataFrame 中的行。...要获取员工向谁汇报的姓名,可以使用自连接查询表。 我们首先将创建一个新的名为 df_managers的 DataFrame,然后join自己。...df_manager2 的输出与 df_manager 相同。 交叉连接 交叉连接也是一种连接类型,可以生成两个或多个表中行的笛卡尔积。它将第一个表中的行与第二个表中的每一行组合在一起。...总结 在本文中,介绍了如何在Pandas中使用连接的操作,以及它们是如何在 Pandas DataFrame 中执行的。这是一篇非常简单的入门文章,希望在你处理数据的时候有所帮助。

    6.2K20
    领券