前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言18讲(三)

R语言18讲(三)

作者头像
小莹莹
发布2018-04-24 11:58:33
1.4K0
发布2018-04-24 11:58:33
举报

我们在做数据分析工作的前提,当然是得有数据,巧妇难为无米之炊,所以数据的获取和产生是非常重要和基础的,然而,在当前互联网时代,信息非常的膨胀,我们获取数据的方式很多,这里简单的将其归为三类,

1,自己输入数据

2,从数据源导入数据

3,从网络上爬取数据.我们按照从易到难,从简单到复杂的方式排列.来讲讲数据的获取.

一,自己输入数据

首先R中的数据类型我们来分个类:

1.按照数据模式分类: 数值型,字符型,逻辑型.

数值型:顾名思义就是数字,如1,2,3等

字符型:就是各种字母和汉字以及符号等,如"a","B","good","好"等

逻辑型:就是真或假,即 TURE ,FLASE.有时候会用0和1代替.

2.按照数据的形式分类:

向量–向量通俗的理解就是一列数据,例如(1,2,3,4,5,23,5,7) 或者("a","c","e","A","aaaaw","good","?")或者 (T,F,T,T,F)我们用C( )创建,括号里写数据就可以,注意字符型要用双引号,或者seq(起始数,终止数,其他参数 )来创建序列向量,rep( 数据,其他参数 )创建重复型的向量.如图:

矩阵–就是我们在操场上做体操,横竖排列.一个点一个数据.我们用matrix(向量数据, 行数, 列数 )创建.

数据框–就像我们的表格,第一行就是每一列的名字,我们称之为字段,或者变量名.那么对应每列下面的数据就叫做记录或 者观测.用data.frame( 字段1,字段2,…. )创建

列表–与数据框类似,区别就是每一列向量类型和长度可以不一致.用list( 字段1, 字段2,….. )创建

数组–其形式就像我们玩的模方,每一个面都是一个矩阵数据,用array(数据,各维度的最大值,各维度的名称)创建

补充:数据框的意外一种创建方式,就像我们在EXCEL做表格里一样,直接自己填写每一格的数据,输入代码后,会出现一个弹出窗口是一个空表格,我们便可以直接在表格里填写数据,非常方便,代码和效果如下:

二.从其他数据源导入数据

目前数据源太多了,数据源的格式也非常之多,幸好R的兼容性非常好,能从各种不同的数据源中获取数据,这里只简单介绍几个比较常用的数据导入方式

1.导入CSV格式数据

read.csv("E:\\课件\\11.csv")引号下面就是你要导入的文件的路径.当如果文件存放R的工作空间时,便可以直接忽略路径,在引号下写出文件名和后缀即可如 read.csv("21.csv")导入其他格式数据也是如此,当没有写路径时,R会默认在工作空间里导入同名文件.

2.导入Excel文件

方法一.安装并加载RODBC包 使用odbcConnectExcel("E:\\课件\\11.csv")但只适用于32位系统的电脑.

方法二.将Excel文件另存为CSV文件导入

3.导入数据库文件

方法一:安装并加载RODBC包 使用odbcConnect("数据源名称",uid = "用户名",pwd="密码")连接,并使用sqlFetch( )读取 表格

例,mycon <- odbcConnect("mysql",uid = "root",pwd="0") #连接mysql数据库

data <- sqlFetch(mycon, test ) # 读取test表格

方法二:安装并加载RMYSQL包,这里以MariaDB数据库为例

先安装这个数据库,然后打开其图形界面

输入密码即可登入,此时要记住主机名/IP 用户,密码,端口,为后续R连接准备,登入后,选择一个数据库,右键单击点击创建一个表,就可以创建一个表格.然后用下面代码连接此数据库,当然实际工作中数据库早已经建好,故只需输入数据正确的参数就可以连接.举例:

con <- dbConnect(MySQL(),host="127.0.0.1",port=3306,dbname = "test",user="root",password="123456") ######修改成自己数据库名称.地址.端口.用户名.密码.等

con_query=dbSendQuery(con,"select * from all_gzdata where fullurlid =107001")

#####R通过连接对表按条件查询,查询fullurl中带有_的并且fullurlid为107001的数据(即知识类型页面)

data=dbFetch(con_query,n=-1)

####提取查询到的数据,n=-1代表提取所有数据,n=100代表提取前100行

这时我们便已经成功导入数据到R中了.


未完待续,

PPV原创文章,严禁转载. (文:@白加黑治感冒)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档