前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言实战.2

R语言实战.2

作者头像
云深无际
发布2020-09-30 11:29:54
1.7K0
发布2020-09-30 11:29:54
举报
文章被收录于专栏:云深之无迹

q

点这里是清除变量

让确认

Ctrl+L是清屏

这个是对当前软件窗口的一些排列,看自己的需求去设置

我就先按照默认使用

可以看到每一步进行的中间结果都可以被导出

这个功能可能在多机工作时比较有用

可以看到支持的文件格式也很ok

文本

增强文本

excel

spss

sas

...........听说你还不够用?和Python集成,你懂得吧

这个地方是一个过滤器

事实上输出的东西是很多的,你需要在纷杂里面找到自己的❤

bibi 这么多木九十想让你用个过滤器

这是对缓存文件的展现方式

说一下我对其的理解,文件就是在这个狭小的空间就是两种理念

List是显示的比较少,但是对数据的描述很齐全.

Grid是是用类似于二维矩阵的方式去描述.

要是我去写这个东西,我会尽力展现数据之间的相关关系

牺牲性能也在所不辞

ODBC


开放数据库连接(Open Database Connectivity,ODBC)是为解决异构数据库间的数据共享而产生的,现已成为WOSA(The Windows Open System Architecture(Windows开放系统体系结构))的主要部分和基于Windows环境的一种数据库访问接口标准ODBC 为异构数据库访问提供统一接口,允许应用程序以SQL 为数据存取标准,存取不同DBMS管理的数据;使应用程序直接操纵DB中的数据,免除随DB的改变而改变。用ODBC 可以访问各类计算机上的DB文件,甚至访问如Excel 表和ASCI I数据文件这类非数据库对象。

可以看到是一些常用的小型数据库,很齐全了

我们先看Excel,比较常见的文件类型

一个数据库

下面就是实际调用的时的命令

SQL server是微软家的数据库

这个自己看吧

一些普通的文本类型

可以看到具体的命令要流向那些地方

就是unix系统里面的文件流

现在可以认为是重定向

这个是打开一个帮助

可以看到是从清华的数据库里面调用包

这个 是成功的时候的输出的日志(老实讲)真受不了这个红色

我老是以为我写的东西又抛锚了

这个错误了,这个是输出了一些错误

大致看的意思是解析错误,大致可以理解为这个地方是传输数据过程受损

在这个窗口,可以看到点这里是打开在线的浏览器

可以看到有下拉框,名字说的很清楚了

这是从 IDE开启时所有的执行的Job 的一个概览

这是输出的日志

开启一个本地的job

https://www.forbes.com/billionaires/


老师听说我没有数据,给我甩了个网站,一打开.人都傻了.财富?????我个穷逼看这个????浏览器很卡顿,把我卡出去了,我没有拿到数据集

在R中,对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数,甚至图形。对象都拥有某种模式,描述了此对象是如何存储的,以及某个类,像print这样的泛型函数表明如何处理此对象。

与其他标准统计软件(如SAS、SPSS和Stata)中的数据集类似,数据框(data frame)是R中用于存储数据的一种结构:列表示变量,行表示观测。在同一个数据框中可以存储不同类型(如数值型、字符型)的变量。数据框将是你用来存储数据集的主要数据结构。

因子(factor)是名义型变量或有序型变量。它们在R中被特殊地存储和处理。

其他多数术语你应该比较熟悉了,它们基本都遵循统计和计算中术语的定义。

这些具体的举例可以看我上篇文章R语言实战.1最后的部分。

由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般。它与你通常在SAS、SPSS和Stata中看到的数据集类似。数据框将是你在R中最常处理的数据结构。

写一个数据框

如你所见,变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。糖尿病类型Diabetes(Type1、Type2)是名义型变量的一例。即使在数据中Type1编码为1而Type2编码为2,这也并不意味着二者是有序的。有序型变量表示一种顺序关系,而非数量关系。病情Status(poor、improved、excellent)是顺序型变量的一个上佳示例。我们明白,病情为poor(较差)病人的状态不如improved(病情好转)的病人,但并不知道相差多少。连续型变量可以呈现为某个范围内的任意值,并同时表示了顺序和数量。年龄Age就是一个连续型变量,它能够表示像14.5或22.8这样的值以及其间的其他任意值。很清楚,15岁的人比14岁的人年长一岁。

类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。

$是用来选取一个变量时用的符号

生成列联表

这样写是不是觉得有点费劲?

看一下数据集的概览

这个是输出结果

我们可以取

这个是代码

这个是

语句diabetes <- factor(diabetes)将此向量存储为(1, 2, 1, 1),并在内部将其关联为1=Type1和2=Type2(具体赋值根据字母顺序而定)。针对向量diabetes进行的任何分析都会将其作为名义型变量对待,并自动选择适合这一测量尺度[插图]的统计方法。

要表示有序型变量,需要为函数factor()指定参数ordered=TRUE。给定向量:

语句status <- factor(status, ordered=TRUE)会将向量编码为(3, 2, 1, 3),并在内部将这些值关联为1=Excellent、2=Improved以及3=Poor。另外,针对此向量进行的任何分析都会将其作为有序型变量对待,并自动选择合适的统计方法。

对于字符型向量,因子的水平默认依字母顺序创建。这对于因子status是有意义的,因为“Excellent”“Improved”“Poor”的排序方式恰好与逻辑顺序相一致。如果“Poor”被编码为“Ailing”,会有问题,因为顺序将为“Ailing”“Excellent”“Improved”。如果理想中的顺序是“Poor”“Improved”“Excellent”,则会出现类似的问题。按默认的字母顺序排序的因子很少能够让人满意。

你可以通过指定levels选项来覆盖默认排序。例如:

各水平的赋值将为1=Poor、2=Improved、3=Excellent。请保证指定的水平与数据中的真实值相匹配,因为任何在数据中出现而未在参数中列举的数据都将被设为缺失值。

数值型变量可以用levels和labels参数来编码成因子。如果男性被编码成1,女性被编码成2,则以下语句:

sex <- factor(sex, levels=c(1, 2), labels=c("Male", "Female"))

把变量转换成一个无序因子。注意到标签的顺序必须和水平相一致。在这个例子中,性别将被当成类别型变量,标签“Male”和“Female”将替代1和2在结果中输出,而且所有不是1或2的性别变量将被设为缺失值。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云深之无迹 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档