很多人的R语言教程都是读取一个外部文件,这样的话读者很难说重复出来,因为这个外部文件往往是存储在各自的本地电脑。除非是在线数据集读取,或者说是把数据集文件上传到各自云盘,就会多一个工序,而这个时候使用那些内置数据集是一个很好的选择。
R语言提供了许多内置的数据集,这些数据集可以在学习和练习时使用,帮助你熟悉R的数据分析和可视化操作。以下是一些常用的内置数据集及其简要介绍:
使用这些内置数据集,你可以练习数据的导入、处理、可视化等操作,以及统计分析和机器学习的练习。你可以使用以下代码来加载这些数据集:
data(iris)
data(mtcars)
data(ChickWeight)
data(AirPassengers)
data(swiss)
data(faithful)
data(trees)
data(quakes)
data(economics)
data(USArrests)
每个数据集的具体内容和字段可以通过R的帮助文档或在线文档进行查阅。例如,你可以使用 ?iris
命令来获取关于iris数据集的详细信息。
当涉及到不同的数据结构,你可以按照向量、因子、矩阵、数据框(类似数据库表格结构)、列表等分类列出这些内置数据集。以下是按照这些数据结构分类的一些内置数据集示例,以下是按照不同数据结构分类的内置数据集的名称和简要描述:
向量:
euro
: 欧元汇率数据,长度为11的命名向量。landmasses
: 48个陆地的面积,每个有命名。precip
: 长度为70的命名向量,可能表示降水量。rivers
: 北美141条河流的长度。state.abb
: 美国50个州的双字母缩写。state.area
: 美国50个州的面积。state.name
: 美国50个州的全称。因子:
state.division
: 美国50个州的分类,有9个类别。state.region
: 美国50个州的地理分类。矩阵、数组:
euro.cross
: 11种货币的汇率矩阵。freeny.x
: 影响收入四个因素的记录。state.x77
: 美国50个州的八个指标。USPersonalExpenditure
: 5个年份在5个消费方向的数据。VADeaths
: 1940年弗吉尼亚州死亡率数据。volcano
: 某火山区的地理信息。WorldPhones
: 8个区域在7个年份的电话总数。iris3
: 3种鸢尾花形态数据。Titanic
: 泰坦尼克乘员统计。UCBAdmissions
: 伯克利分校1973年院系、录取和性别的频数。crimtab
: 3000个男性罪犯左手中指长度和身高关系。HairEyeColor
: 592人头发颜色、眼睛颜色和性别的频数。occupationalStatus
: 英国男性父子职业联系。类矩阵:
eurodist
: 欧洲12个城市的距离矩阵。Harman23.cor
: 305个女孩八个形态指标的相关系数矩阵。Harman74.cor
: 145个儿童24个心理指标的相关系数矩阵。数据框:
airquality
: 纽约1973年5-9月每日空气质量。anscombe
: 四组x-y数据,实际数据差异较大。attenu
: 加利福尼亚23次地震的观测数据。attitude
: 30个部门在七个方面的调查结果。beaver1
: 一只海狸每10分钟的体温数据。beaver2
: 另一只海狸每10分钟的体温数据。BOD
: 随水质的提高,生化反应对氧的需求随时间的变化。cars
: 1920年代汽车速度对刹车距离的影响。chickwts
: 不同饮食种类对小鸡生长速度的影响。esoph
: 法国的一个食管癌病例对照研究。faithful
: 一个间歇泉的爆发时间和持续时间等。列表:
state.center
: 美国50个州中心的经度和纬度。类数据框:
ChickWeight
: 饮食对鸡生长的影响。CO2
: 耐寒植物CO2摄取的差异。DNase
: 若干次试验中,DNase浓度和光密度的关系等。这些是一些内置数据集的简要描述,你可以在R中使用相应的数据集名称来访问和探索这些数据。
生物信息学中常用的图表有很多种,用于可视化不同类型的生物数据和分析结果。以下是一些常见的生物信息学图表类型:
R语言中有一些专门用于生物信息学分析的R包体系,可以在生物信息学领域进行练习和研究。以下是一些常用的生物信息学R包体系的示例: