前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >因子列表缺失数据

因子列表缺失数据

作者头像
生信喵实验柴
发布2022-10-25 19:46:36
4240
发布2022-10-25 19:46:36
举报
文章被收录于专栏:生信喵实验柴

一、因子

所有的数据集合可以分为三类,连续型,名义型和有序型。连续型例如1 2 3 4 5 8 9 10,名义型如sample1 sample2 sample3 ,而有序型 good better best;周一,周二,周三……等。在R中名义型变量和有序性变量称为因子,factor。这些分类变量的可能值称为一个水平level,由这些水平值构成的向量就称为因子。因子主要用于计算频数,可以用来分组。可以通过factor()函数中的labels选项对因子的值进行批量修改。

代码语言:javascript
复制
state.division
state.region
table(state.division)
afactor <- factor(c("blue","red","red","green","red","blue"),levels = c("red",
"green","blue","yellow"))
bfactor <- factor(letters[1:5], labels = c("one","two","three","four","five"))

二、列表

列表就是一些对象的有序集合。列表中可以存储若干向量、矩阵、数据框,甚至其他列表的组合。

代码语言:javascript
复制
genes200 <- read.csv("200genes.csv",header = T,stringsAsFactors = F,row.names = 1)
genes121 <- read.csv("121genes.csv",header = T,stringsAsFactors = F)

gene93 <- unique(genes121$gene)
dta <- genes200[gene93,]
dta <- na.omit(dta)
rownames(dta) <- 1:nrow(dta)#86个行数重命名

alist <- list(dta=dta,genes121=genes121,genes200=genes200)
names(alist)
length(alist)
alist$genes200
a <- alist$genes200
class(a)

三、时间序列

时间数列类似于数据框,主要是记录随着时间变化值的变化,例如每天,每月,每个季度,每年的变化前框的,主要表现趋势的变化。例如股票数据,经济数据,气候数据等。时间序列分析主要用于预测。

代码语言:javascript
复制
presidents
class(presidents)
plot(presidents)

四、缺失数据

缺失信息问题在数据科学中非常常见。在大规模数据采集过程中,几乎不可能每次都得到完整的数据,那么该如何处理缺失数据呢?首先我们要清楚为何会出现缺失数据,一种可能是机器断电,设备故障导致某个测量值发生了丢失。或者测量根本没有发生,例如在做调查问卷时,有些问题没有回答,或者有些问题是无效的回答等,这些都算作缺失值。对于缺失信息,R 中提供了一些专门的处理方法。

在 R 中,NA 代表缺失值,NA 是不可用,not available 的简称,用来存储缺失信息。这里缺失值 NA 表示 没有,但注意没有并不一定就是 0,NA 是不知道是多少,也能是 0,也可能是任何值,缺失值和值为零是完全不同的。

代码语言:javascript
复制
x <- 1:5
x
x[7] <- 7
x
sum(x)
sum(x,na.rm = T)
is.na(x)
mean(x,na.rm = T)
x[6] <- mean(x,na.rm = T)
x
#install.packages('VIM',destdir = '/home/xhs/Rpack/download')
library(VIM)
data(sleep,package = "VIM")
class(sleep)
na.omit(sleep)
a <- aggr(sleep, plot = FALSE)
plot(a, numbers = TRUE, prop=TRUE)

五、类

类和对象是面向对象编程技术中的最基本的概念。R 中会有很多类,例如在分析生物数据时,会经常遇到各种类,例如 Experiment Set 类。类是现实世界或思维世界中的实体在计算机中的反映,它将数据以及这些数据上的操作封装在一起。对象(object)是具有类类型的变量。R 中类是将各种数据整合在一起,本质上是一种列表。

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。

代码语言:javascript
复制
sx.voiceclouds.cn

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档