前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【SAS Says】基础篇:读取数据(上)

【SAS Says】基础篇:读取数据(上)

作者头像
数说君
发布2018-03-28 16:23:09
3.2K0
发布2018-03-28 16:23:09
举报

特别说明:本节【SAS Says】基础篇:读取数据(上),用的是数说君学习《The little SAS book》时的中文笔记,我们认为这是打基础的最好选择。

上两节

  • 【SAS Says】基础篇:SAS软件入门(上)
  • 【SAS Says】基础篇:SAS软件入门(下)

本节目录:(老手建议复习一下)

读取数据(上)

2.1 将你的数据放入SAS

2.2 用Viewtable窗口输入数据

2.3 用导入向导(Import Wizard)读取文件

2.4 告诉SAS你的原始数据在哪

2.5 List input 读取空格分开的原始数据


读取数据(上)

2.1 将你的数据放入SAS的方法

你可能有各种形式的数据,包括手写在纸上、存放在电脑上、或是在数据库管理系统里,不论如何,总有一种方法可以让SAS来读取。

SAS读取的数据的方法主要有以下几种类型:

  • 直接输入;
  • 从原始数据文件中创建一个SAS数据集(creating SAS datasets from raw data files);
  • 将其他软件中的数据文件转换成SAS数据集;
  • 直接读取其他软件的数据集;

直接输入

  • Viewtable窗口可以让你以表格形式输入数据,可以定义变量、设置属性,如name、length和 type(character or numeric).
  • SAS 企业向导模块,a Windows onlyapplication,has a data entry window that is very similar to the Viewtablewindow.As with Viewtable,you can define variables and give them attributes.
  • SAS/FSP 模块,是Full ScreenProduct的简称,可以设计定制的数据输入窗口,也有检测数据输入错误的功能(The SAS/FSP product is licensed separately from Base SAS software.)。

从原始数据文件中创建一个SAS数据集 你有两种方法读取原始数据文件:

  • 数据步可以读取任何形式的原始数据文件,这种方法还将在2.4中详解。
  • 导入向导(Import Wizard)、导入过程(IMPORTprocedure)适用于UNIX、OpenVMS和 Windows操作环境的简单方法,可以读取CSV(comma-separated values)和其他一些限定的文件类型。

将其他软件中的数据文件转换成SAS数据集 如果数据在一个软件中以某种格式存放,但需要用另一种软件分析时,就会很麻烦。有几种方法可以将某种软件中的数据转换成SAS数据集:

  • 如果安装SAS/ACCESS模块,可以用导入过程(importprocedure)和导入向导(Import Wizard)将Excel、Lotus、dBase和Access文件导入SAS数据集,见2.3和2.17(?)。
  • 如果没有安装,可以用存放数据的软件创建一个原始文件,并用数据步或导入过程(import procedure)读取。很多软件都可以创建CSV文件。
  • Windows操作环境下也可以用动态数据交换技术(Dynamic Data Exchange,DDE),见2.18。前提是必须有一个其他的Windows程序与SAS同时运行,再使用DDE和数据步。

直接读取其他软件的数据集

  • SAS/ACCESS产品可以不用转换数据格式读取数据,并适用于大部分大部分数据库管理系统,包括ORACLE,DB2,INGRES和 SYBASE(但使用方法本书没有介绍)。
  • 使用Excel engine和Access engine来读取这两种类型的数据。(SAS帮助文档)
  • 还有其他的一些数据引擎(data engines)来读取数据,如SPSSengine(附录D),查找帮助文档找到适合你操作环境的所有有效engine。

2.2 用Viewtable窗口输入数据

调用Viewtable窗口,在工具栏的下拉菜单中选择表编辑器(Table Editor)。

列属性窗口 每一列顶部的字母是默认的变量名,右击变量名,即可打开列属性(column attributes)窗口,设置属性之后,点击应用(apply),设置完后关闭即可。

输入数据

保存表 选择文件(file)——另存为(save as),选择一个逻辑库保存,如果想保存在新的逻辑库,点击创建新逻辑库图表(New Library),输入逻辑库的名字和保存路径。

打开一个已有的表 首先打开表编辑器,选择文件(file)——打开(open)。打开之后,SAS默认的是浏览模式,如果要对数据进行编辑,则要在编辑(edit)菜单中选择编辑模式。也可以在资源管理器窗口中双击打开一个已有的表。

其他功能 其他一些功能包括排序、打印(printing)、增加和删除行、一次浏览一行(窗体视图Form View)、一次浏览多行(表视图 TableView)。图标和菜单都可以选择这些功能。

在SAS程序中使用表 如下程序语句可以将表内容输出打印:

PROC PRINT DATA=Sasuser.coffee;

RUN;

2.3 用导入向导(Import Wizard)读取文件

导入向导会浏览你的文件以决定变量的类型,并默认数据表的第一行存放变量名。

第一步,从文件(file)下拉菜单中选择导入数据(import data)导入向导(ImportWizard)

第二步,从standard datasources中选择要导入的数据类型。以commaseparated values(*.csv)为例。点击下一步

第三步,指定要导入的文件位置,SAS默认第一行存放变量名,从第二行开始存放数据。Options可以改变这种默认选择。

第四步,选择数据集要存放的逻辑库,并为数据集取一个名字(member)

最后,导入向导创造一个proc import语句,可以是SAS再次导入这个数据。

另外,对于一些类型的数据文件还有额外的步骤,比如Microsoft Access文件,你需要输入数据库名和药导入的表名,有时甚至还要输入user的ID号和密码。

在SAS程序中使用导入数据 比如你将数据存放在work逻辑库,并署名为flowers,那么你可以这样来输入它:

PROC PRINT DATA=WORK.flowers;

RUN;

由于work是默认的逻辑库,所以也可以直接这样:

PROC PRINT DATA=flowers;

RUN;

2.4 告诉SAS你的原始数据在哪

如果数据是原始数据(比如text,ASCII,sequential,flat files),那么用数据步来读取能带给你最大的灵活性。但首先你要告诉SAS你的原始数据在哪。

原始数据可以通过文本编辑器(text editors)或系统命令。对PC使用者来说,原始数据没有相关联的应用程序(就像doc文件与word相关联,双击doc程序就默认调用word程序以打开),有时他们会与像Microsoft Notepad这样的简单编辑器相关联。

内部原始数据 如果直接将数据输入SAS程序中,那么数据就是SAS内部数据。DATALINES是一个指示,告诉SAS下面跟着是数据行,直到分号结尾,这个分号可以另起一行,也可以接在数据的后面。也可以用card代替DATALINES。下面是一个程序,这个程序创建了一个USPRESIDENTS数据集。(Input语句还将在2.5和2.15中讨论)

外部原始数据 数据外SAS程序外部时,使用INFILE语句告诉SAS外部数据的文件名和存放路径,它在data语句之后,在INPUT语句之前。INFILE后面的文件名和路径要用引号,各种系统的引用方式各不同:

假设有一个President.dat数据在你的C盘的MyRawData目录中,

那么可以用如下方式引用这个外部数据:

SAS日志 读取外部数据时,SAS日志会给一些很有用的信息,检查这些信息可以解决一些问题,比如对比INFILE语句读取的记录数和数据集中实际观测值,可以确定SAS是否正确的读取了数据。上面程序的日志如下图所示,

过长记录 在一些操作环境中,SAS假定外部数据文件的记录长度为256或更少(记录长度是指某行中的字符数,包括空格),如果长度过长,SAS不能读取全部,此时需要在INFILE语句中使用LRECL=来指定长度,这个长度必须是数据中最长行的长度,如:

INFILE’c:\MyRawData\President.dat’LRECL=2000;

可以通过SAS日志来查看最大记录长度。

2.5 list input读取空格分开的原始数据

如果原始数据都至少被一个空格分开,那么用list input读取数据可能是正确的。Listinput是一个很简单的读取数据的方式,但是会受到很多限制。你必须读取所有的数据记录,不能跳过某些值、缺失值必须用句号“.”代替。字符串数据不能包含空格、长度不能超过8个字符。而且如果数据文件包含日期变量或者其他需要特别处理的变量,list input将不再适用。虽然很多限制,但仍有大量的文件可以用这种方式读取。

INPUT语句是数据步的一部分,它告诉SAS如何读取原始数据。使用List input来写input语句:在INPUT关键词之后列出变量名(按照变量在文件中出现的顺序),变量名长度在32个字节(含)以下,只能包含字母、下划线和数据,并必须以字母或者下划线开头。如果变量是字符串,后面要价“$”号,值与值之间至少有一个空格,语句要以分号结束。如:

这表明输入三个变量,其中name是字符串,age和height是数值变量。

例子 你想组织一次青蛙跳跃比赛,现在你记录了每只参赛青蛙的名字、体重、和三次跳跃的距离,如果某次的跳跃距离不合格,那么就用“.”代替,数据文件ToadJump.dat形式如下:

虽然不是很整洁、但满足list input的所有要求(字符串长度小于8个字节、不包含空格、值之间都有至少一个空格,缺失数据也用句号代替)。Nosiy的数据溢出到第二行了,但这不影响,SAS会按照变量顺序自动跳到下一行读取。如下是读取这个数据的SAS程序:

Input后面是变量名,ToadName是字符串变量,其他是数值变量;proc print过程用来输出数据集中所有的变量和观测值;title语句用告诉SAS输出顶部的标题,如果不指定标题,SAS将以“the SAS system”作为标题在每一页的顶部。输出的形式如下:

由于Noisy的数据溢出到下一行,因此下面的说明会出现在SAS日志上:


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 读取数据(上)
    • 2.1 将你的数据放入SAS的方法
      • 2.2 用Viewtable窗口输入数据
        • 2.3 用导入向导(Import Wizard)读取文件
          • 2.4 告诉SAS你的原始数据在哪
            • 2.5 list input读取空格分开的原始数据
            相关产品与服务
            数据库
            云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档