首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言使用特征工程泰坦尼克号数据分析应用案例

R中我们可以使用rbind,它代表行绑定,只要两个数据具有彼此相同。...如果名称中有更多逗号或句点,则会创建更多段,因此它会将它们隐藏得更深,以维护我们习惯使用矩形类型容器,例如电子表格或现在数据!让我们深入了解索引混乱并提取标题。...所有这些字符串拆分结果都被组合成一个向量作为sapply函数输出,然后我们将其存储到原始数据一个新,称为Title。 最后,我们可能希望从标题开头剥离这些空格。...因为我们在单个数据上构建了因子,然后在构建它们之后将它们拆分,R将为所有新数据提供所有因子级别,即使该因子不存在于一个数据中也是如此。它仍然具有因子水平,但在集合中没有实际观察。整洁把戏对吗?...我们已根据原始列车和测试集大小隔离了组合数据某些行范围。之后逗号后面没有数字表示我们想要使用此子集获取所有并将其存储到指定数据

6.6K30

Pandas 秘籍:6~11

序列和数据必须具有齐次数值数据类型; 因此,每个值都转换为浮点数。 对于这个小数据集,这几乎没有什么区别,但是对于较大数据集,这可能会对内存产生重大影响。...我们需要将这些列名称换为值。 在本秘籍中,我们使用stack方法数据重组为整齐形式。 操作步骤 首先,请注意,状态名称位于数据索引中。 这些状态正确地垂直放置,不需要重组。...反转堆叠数据 数据具有两种相似的方法stack和melt,用于水平列名称换为垂直值。...这些具有无用名称属性Info,该属性已重命名为None。 通过步骤 3 中结果数据强制为序列,可以避免清理多重索引。squeeze方法仅适用于单列数据,并将其转换为序列。...具有日期时间索引数据具有to_period方法,可以时间戳转换为期间。 它接受偏移别名来确定时间段的确切长度。

33.8K10
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas 秘籍:1~5

数据上最基本,最常见操作之一是重命名行或名称。...更多 除了insert方法末尾,还可以插入数据特定位置。insert方法整数位置作为第一个参数,名称作为第二个参数,并将值作为第三个参数。...二、数据基本操作 在本章中,我们介绍以下主题: 选择数据多个 用方法选择 明智地排序列名称 处理整个数据 数据方法链接在一起 运算符与数据一起使用 比较缺失值 转换数据操作方向...通过名称选择是 Pandas 数据索引运算符默认行为。 步骤 3 根据类型(离散或连续)以及它们数据相似程度,所有列名称整齐地组织到单独列表中。...where方法保留序列或数据大小,并将不符合条件值设置为缺失或将其替换为其他值。

37.2K10

帮助数据科学家理解数据23个pandas常用代码

(9)替换丢失数据 df.replace(to_replace= None,value= None) “to_replace”中值替换为“value”。...(13)数据换为NUMPY数组 df.as_matrix() (14)获得数据前N行 df.head(n) (15)按特征名称获取数据 df.loc [FEATURE_NAME]...数据操作 (16)函数应用于数据 这个数据“height”所有值乘以2 df["height"].apply(lambda height:2 * height) 或 def multiply...(x): return x* 2 df["height"].apply(multiply) (17)重命名列 我们数据第3重命名为“size” df.rename(columns= {...df.columns [2]:'size'},inplace= True) (18)获取唯一条目 在这里,我们获得“名称唯一条目 df["name"].unique() (19)访问子数据

2K40

linux zipunzip命令

语法 zip(选项)(参数) 选项 -A:调整可执行自动解压缩文件; -b:指定暂时存放文件目录; -c:每个被压缩文件加上注释; -d:从压缩文件内删除指定文件; -D:压缩文件内不建立目录名称...,而非另行建立新压缩文件; -h:在线帮助; -i:只压缩符合条件文件; -j:只保存文件名称及其内容,而不存放任何目录名称; -J:删除压缩文件前面不必要数据; -k:使用MS-DOS...; -n:不压缩具有特定字尾字符串文件; -o:以压缩文件内拥有最新更改时间文件为准,压缩文件更改时间设成和该文件相同; -q:不显示指令执行过程; -r:递归处理,指定目录下所有文件和子目录一并处理...,而非该链接所指向文件,本参数仅在UNIX之类系统下有效; -z:压缩文件加上注释; -$:保存第一个被压缩文件所在磁盘卷册名称; -:压缩效率是一个介于1~9数值。...:文件名中空白字符转换为底线字符; -V:保留VMS文件版本信息; -X:解压缩时同时回存文件原来UID/GID; -d:指定文件解压缩后所要存储目录; -x:指定不要处理.zip

76810

R语言函数含义与用法,实现过程解读

强制转换为向量:as.vector(),或者直接c(). 解线性方程和求矩阵逆,奇异值分解与行列式见; 六  列表和数据 6.1 列表 列表是由称作组件有序对象集合构成对象。...> list.ABC <- c(list.A, list.B, list.C) 6.2 数据 数据是类别为"data.frame"列表; 数据会被当作各具有不同模式和属性矩阵。...逻辑值和因子在数据中保持不变,字符向量将被强制转化为因子,其水平是字符向量中所出现值; 4 数据中作为变量向量结构必须具有相同长度,而矩阵结构应当具有相同行大小。...> detach(t) attach()是具有一般性函数,即它不仅能够目录和数据挂接在搜索路径上,还能挂接其他类别的对象。...数据使用惯例 1 每个独立,适当定义问题所包含所有变量收入同一个数据中,并赋予合适、易理解、易辨识名称; 2 处理问题时,当相应数据挂接于位置2,同时在第1层工作目录下存放操作数值和临时变量

4.6K120

R语言函数含义与用法,实现过程解读

强制转换为向量:as.vector(),或者直接c(). 解线性方程和求矩阵逆,奇异值分解与行列式见; 六  列表和数据 6.1 列表 列表是由称作组件有序对象集合构成对象。...> list.ABC <- c(list.A, list.B, list.C) 6.2 数据 数据是类别为"data.frame"列表; 数据会被当作各具有不同模式和属性矩阵。...逻辑值和因子在数据中保持不变,字符向量将被强制转化为因子,其水平是字符向量中所出现值; 4 数据中作为变量向量结构必须具有相同长度,而矩阵结构应当具有相同行大小。...> detach(t) attach()是具有一般性函数,即它不仅能够目录和数据挂接在搜索路径上,还能挂接其他类别的对象。...数据使用惯例 1 每个独立,适当定义问题所包含所有变量收入同一个数据中,并赋予合适、易理解、易辨识名称; 2 处理问题时,当相应数据挂接于位置2,同时在第1层工作目录下存放操作数值和临时变量

5.6K30

Day5:R语言课程(数据框、矩阵、列表取子集)

索引留空。...---- 注意:有更简单方法可以使用逻辑表达式对数据进行子集化,包括filter()和subset()函数。这些函数返回逻辑表达式为TRUE数据行,允许我们在一个步骤中对数据进行子集化。...列表组件命名数据命名使用函数都是names()。 查看list1组件名称: names(list1) 创建列表时,species向量与数据集df和向量number组合在一起。...write.table也是常用导出函数,允许用户指定要使用分隔符。此函数通常用于创建制表符分隔文件。 注意:有时在具有名称数据框写入文件时,列名称将从行名称开始对齐。...为避免这种情况,可以在导出文件时设置参数col.names = NA,以确保所有列名称都与正确值对齐。 向量写入文件需要与数据函数不同。

17.5K30

直观地解释和可视化每个复杂DataFrame操作

Melt Melt可以被认为是“不可透视”,因为它将基于矩阵数据具有二维)转换为基于列表数据(列表示值,行表示唯一数据点),而枢轴则相反。...我们选择一个ID,一个维度和一个包含值/。包含值换为:一用于变量(值名称),另一用于值(变量中包含数字)。 ?...Unstack 取消堆叠获取多索引DataFrame并对其进行堆叠,指定级别的索引转换为具有相应值新DataFrame。在表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。...记住:合并数据就像在水平行驶时合并车道一样。想象一下,每一都是高速公路上一条车道。为了合并,它们必须水平合并。...“inner”:仅包含元件键是存在于两个数据键(交集)。默认合并。 记住:如果您使用过SQL,则单词“ join”应立即与按添加相联系。

13.3K20

LDheatmap|SNP连锁不平衡图(LD)可视化,倒三角图?

连锁不平衡图,用来可视化不同SNP之间连锁程度,前同事间俗称“倒三角”图 本文使用自己数据,因为安装R包后使用内置数据集运行出结果较容易,但是自己数据就可能会有一些不大不小“坑”,我你们趟了。...一 载入R数据 数据为内置CEUData保存后,进行了“细微”处理(去掉SNP碱基之间“/”),因为这种基因型形式文件很常见; library("LDheatmap") #读入数据 SNP <-...首先想到 Tidyverse|数据分分合合,一分多,多合一separate和unite,可是没有分隔符。。 经高人指点 ,使用替换方式,解决方法很多。...此处使用R-do包函数 library(do) df <- na.omit(SNP) #A,C,G ,T 替换为A/,C/,G/,T/ df1 = do::Replace(df,pattern = c...3.2 使用grid调整SNP标记名称字体大小、颜色 library(grid) grid.edit(gPath("ldheatmap", "geneMap","SNPnames"), gp

2K20

linux zip 命令详解(2)

-b 指定暂时存放文件目录。  -c 每个被压缩文件加上注释。  -d 从压缩文件内删除指定文件。  -D 压缩文件内不建立目录名称。 ...-J 删除压缩文件前面不必要数据。  -k 使用MS-DOS兼容格式文件名称。  -l 压缩文件时,把LF字符置换成LF+CR字符。  -ll 压缩文件时,把LF+CR字符置换成LF字符。 ...-m 文件压缩并加入压缩文件后,删除原始文件,即把文件移到压缩文件中。  -n 不压缩具有特定字尾字符串文件。 ...-o 以压缩文件内拥有最新更改时间文件为准,压缩文件更改时间设成和该文件相同。  -q 不显示指令执行过程。  -r 递归处理,指定目录下所有文件和子目录一并处理。 ...-P 使用zip密码选项。 -q 执行时不显示任何信息。 -s 文件名中空白字符转换为底线字符。 -V 保留VMS文件版本信息。 -X 解压缩时同时回存文件原来UID/GID。

4.9K60

Pandas 学习手册中文第二版:1~5

一个数据代表一个或多个按索引标签对齐Series对象。 每个序列将是数据,并且每个都可以具有关联名称。...以下内容检索数据第二行: 请注意,此结果已将行转换为Series,数据名称已透视到结果Series索引标签中。...代替单个值序列,数据每一行可以具有多个值,每个值都表示为一。 然后,数据每一行都可以对观察对象多个相关属性进行建模,并且每一都可以表示不同类型数据。...访问数据数据 数据由行和组成,并具有从特定行和中选择数据结构。 这些选择使用与Series相同运算符,包括[],.loc[]和.iloc[]。...结果数据将由两个并集组成,缺少数据填充有NaN。 以下内容通过使用与df1相同索引创建第三个数据,但只有一个名称不在df1中来说明这一点。

8.1K10

pandas与SQL查询语句对比

在pandas官方文档中对常用SQL查询语句与pandas查询语句进行了对比,这里以 @猴子 社群里面的朝阳医院数据为例进行演示,顺便求第四关门票,整体数据结构如下: import pandas...SELECT 从中选择“商品名称”,“销售数量”两 SQL: SELECT "商品名称","销售数量" FROM cyyy LIMIT 5 PANDAS: df[['商品名称','销售数量']].head...GROUP BY 在Pandas中可以使用groupby()函数实现类似于SQL中GROUP BY功能,groupby()能将数据集按某一条件分为多个组,然后对其进行某种函数运算(通常是聚合运算)。...3 dtype: int64 这里也可以使用count(),与size()不同是,count会统计各非NaN项数量 df.groupby('商品名称').count().head...Name: 社保卡号, dtype: int64 groupby()还可以分别对各应用不同函数 SQL: SELECT 商品名称,AVG(销售数量),COUNT(*) FROM cyyy GROUP

1K41

Linux系统下各类压缩包解压命令

-C 压 缩文件中文件名称区分大小写。 -j 不 处理压缩文件中原有的目录路径。 -L 压缩文件中全部文件名改为小写。...-P 使 用zip密码选项。 -q 执 行时不显示任何信息。 -s 文件名中空白字符转换为底线字符。...-i 只 压缩符合条件文件。 -j 只 保存文件名称及其内容,而不存放任何目录名称。 -J 删 除压缩文件前面不必要数据。...-m 文件压缩并加入压缩文件后,删除原始文件,即把文件移到压缩文件中。 -n 不 压缩具有特定字尾字符串文件。...-r 递 归处理,指定目录下所有文件和子目录一并处理。 -S 包 含系统和隐藏文件。 -t 把 压缩文件日期设成指定日期。

2.8K10

linuxzip命令详解 原

; -b:指定暂时存放文件目录; -c:每个被压缩文件加上注释; -d:从压缩文件内删除指定文件; -D:压缩文件内不建立目录名称; -f:此参数效果和指定“-u”参数类似,但不仅更新既有文件...i:只压缩符合条件文件; -j:只保存文件名称及其内容,而不存放任何目录名称; -J:删除压缩文件前面不必要数据; -k:使用MS-DOS兼容格式文件名称; -l:压缩文件时,把LF字符置换成...LF+CR字符; -ll:压缩文件时,把LF+cp字符置换成LF字符; -L:显示版权信息; -m:文件压缩并加入压缩文件后,删除原始文件,即把文件移到压缩文件中; -n:不压缩具有特定字尾字符串文件...; -o:以压缩文件内拥有最新更改时间文件为准,压缩文件更改时间设成和该文件相同; -q:不显示指令执行过程; -r:递归处理,指定目录下所有文件和子目录一并处理; -S:包含系统和隐藏文件;...UNIX之类系统下有效; -z:压缩文件加上注释; -$:保存第一个被压缩文件所在磁盘卷册名称; -:压缩效率是一个介于1~9数值。

2.9K10

R数据科学|第八章内容介绍

使用readr进行数据导入 本文介绍如何使用readr包平面文件加载到 R 中,readr 也是 tidyverse 核心 R包之一。...read_table 读取空白字符来分隔各分隔符文件 read_log 读取Apache 风格日志文件,需要安装webreadr包 这些函数都具有同样语法,可以举一反三。...: 参数 作用 file 读取文件路径,路径名需要用反斜杠表示 col_names 如果为TRUE,输入第一行将被用作列名,并且不会包含在数据中。...如果col_names是一个字符向量,这些值将被用作名称,并且输入第一行将被读入输出数据第一行。缺少(NA)列名将产生一个警告,并被填充为哑名X1, X2等。...默认区域设置是以美国为中心(如R),但您可以使用locale()创建自己区域设置,控制默认时区、编码、十进制标记、大标记和日/月名称等内容。 na 字符串字符向量,解释为缺少值。

2.1K40

Spring认证中国教育管理中心-Spring Data R2DBC框架教程六

com.bigbank.SavingsAccount类映射到SAVINGS_ACCOUNT表名。相同名称映射应用于字段映射到列名称。例如,firstName字段映射到FIRST_NAME。...Spring Data 将此类名称字母大小写转换为不使用引用时配置数据库也使用形式。因此,您可以在创建表时使用不带引号名称,只要您名称中不使用关键字或特殊字符即可。...对于遵循 SQL 标准数据库,这意味着名称被转换为大写。引用字符和名称大写方式由 used 控制Dialect。有关如何配置自定义方言信息,请参阅R2DBC 驱动程序。 例 87....@Table: 应用于类级别,表示该类是映射到数据候选。您可以指定存储数据名称。 @Transient: 默认情况下,所有字段都映射到行。此注释应用它字段排除在数据库中。...如果 Java 类型具有名称与输入行给定字段匹配属性,则其属性信息用于选择输入字段值传递到适当构造函数参数。

2.1K20

linux系统zip压缩文件命令

zip程序一个或多个压缩文件与有关文件信息(名称、路径、日期、上次修改时间、保护和检查信息以验证文件完整性)一起放入一个压缩存档中。可以使用一个命令整个目录结构打包到zip存档中。...(如果添加了bzip 2支持,zip也可以使用bzip 2压缩,但这些条目需要一个合理现代解压缩来解压缩。当选择bzip 2压缩时,它将通货紧缩替换为默认方法。)...语法格式:zip [参数] [文件] 常用参数: -q 不显示指令执行过程 -r 递归处理,指定目录下所有文件和子目录一并处理 -z 压缩文件加上注释 -v 显示指令执行过程或显示版本信息 -n 不压缩具有特定字尾字符串文件 参考实例 /home/html/ 这个目录下所有文件和文件夹打包为当前目录下 html.zip: [root@xxx ~]# zip -q -r html.zip... logs目录打包成 log.zip: [root@xxx ~]# zip -r log.zip .

13.8K00

zip命令打包文件

-b 指定暂时存放文件目录。 -c 每个被压缩文件加上注释。 -d 从压缩文件内删除指定文件。 -D 压缩文件内不建立目录名称。 -f 更新现有的文件。...-j 只保存文件名称及其内容,而不存放任何目录名称。 -J 删除压缩文件前面不必要数据。 -k 使用MS-DOS兼容格式文件名称。 -l 压缩文件时,把LF字符置换成LF+CR字符。...-m 文件压缩并加入压缩文件后,删除原始文件,即把文件移到压缩文件中。 -n 不压缩具有特定字尾字符串文件。...-o 以压缩文件内拥有最新更改时间文件为准,压缩文件更改时间设成和该文件相同。 -q 不显示指令执行过程。 -r 递归处理,指定目录下所有文件和子目录一并处理。 -S 包含系统和隐藏文件。...-y 直接保存符号连接,而非该连接所指向文件,本参数仅在UNIX之类系统下有效。 -z 压缩文件加上注释。 -$ 保存第一个被压缩文件所在磁盘卷册名称

1.6K30

Linux zip命令

-D 压缩文件内不建立目录名称。-f 更新现有的文件。-F 尝试修复已损坏压缩文件。-g 文件压缩后附加在既有的压缩文件之后,而非另行建立新压缩文件。-h 在线帮助。...-i 只压缩符合条件文件。-j 只保存文件名称及其内容,而不存放任何目录名称。-J 删除压缩文件前面不必要数据。-k 使用MS-DOS兼容格式文件名称。...-m 文件压缩并加入压缩文件后,删除原始文件,即把文件移到压缩文件中。-n 不压缩具有特定字尾字符串文件。...-o 以压缩文件内拥有最新更改时间文件为准,压缩文件更改时间设成和该文件相同。-q 不显示指令执行过程。-r 递归处理,指定目录下所有文件和子目录一并处理。-S 包含系统和隐藏文件。...-y 直接保存符号连接,而非该连接所指向文件,本参数仅在UNIX之类系统下有效。-z 压缩文件加上注释。-$ 保存第一个被压缩文件所在磁盘卷册名称

5.1K20
领券