前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【知识】SAS学习笔记(1--2)

【知识】SAS学习笔记(1--2)

作者头像
机器学习AI算法工程
发布2018-03-09 14:14:15
1.9K0
发布2018-03-09 14:14:15
举报

(1)SAS基本概念

1. SAS数据集

SAS数据集(SAS Datasets)可以看作由若干行和若干列组成的表格,类似于一个矩阵,但各列可以取不同的类型值,比如整数值、浮点值、时间值、字符串、货币值等等。其逻辑结构如下:

数据集的每一行叫做一个观测(Observation),每列叫做一个变量(Variable)。SAS数据集等价于关系数据库系统中的一个

2. SAS数据库

SAS数据集是各种特殊格式的SAS文件中最重要的一种。另一种重要的SAS文件是SAS目录(Catalog),用来保存各种不能表示成行列结构表格形式的数据,比如系统设置、图象、声音等。多个SAS文件可以放在一起,称为一个SAS数据库(Library)。一个SAS数据库实际是磁盘上的一个子目录(特殊情况下一个数据库可以由几个子目录组成)。为了把库名和子目录联系起来,使用LIBNAME语句。比如,我们在C:\Y1995子目录中保存了几个SAS数据集,可以用如下语句把库名MYLIB与子目录C:\Y1995联系起来:

libname mylib " c:\y1995 "

法二(图形界面操作):

单击新建逻辑库按步骤填写。

有三个预定义的SAS数据库:

1)WORK数据库:临时库,存放在其中的SAS文件叫临时文件,当退出SAS系统时会被自动删除。

2)SASUSER库:保存与用户个人设置有关的文件,它是永久的,即退出SAS时文件不会被删除。

3)SASHELP库:保存与SAS帮助系统、例子有关的文件,是永久的。

临时数据集可以用单水平名,即只有数据集名,如C9501,也可以命名为WORK. C9501。而永久数据集名由两部分组成:库名.数据集名,比如放在MYLIB库中的数据集TEACH必须用MYLIB.TEACH表示。

3 不需编程的SAS应用/INSIGHT模块

选“Solutions - Analysis- Interactive Data Analysis"菜单。SAS/INSIGHT提供了一个类似于电子表格的数据窗口来管理数据集。

INSIGHT模块提供了十分方便的数据探索功能。 在分析菜单栏下直接进行选择操作。

(2)SAS语言构成

SAS语言程序由数据步和过程步组成。数据步用来生成数据集、计算、整理数据,过程步用来对数据进行分析、报告。SAS语言的基本单位是语句,每个SAS语句一般由一个关键字(如DATA,PROC,INPUT,CARDS,BY)开头,包含SAS名字、特殊字符、运算符等,以分号结束。

SAS关键字是用于SAS语句开头的特殊单词,SAS语句除了赋值、累加、注释、空语句以外都以关键字开头。SAS名字在SAS程序中标识各种SAS成分,如变量、数据集、数据库,等等。SAS名字由1到8个字母、数字、下划线组成,第一个字符必须是字母或下划线。SAS关键字和SAS名字都不分大小写。

1.1 SAS表达式

SAS数据步程序中的计算用表达式完成。表达式把常量、变量、函数调用用运算符、括号连接起来得到一个计算结果。

SAS常量主要有数值型、字符型两种,并且还提供了用于表达日期、时间的数据类型。例如

· 数值型:12,-7.5,2.5E-10

· 字符型:'Beijing',"Li Ming","李明"

· 日期型:'13JUL1998'd

· 时间型:'14:20't

· 日期时间型:' 13JUL1998:14:20:32' dt

SAS中用一个单独的小数点来表示缺失值常量。

SAS变量的基本类型有两种:数值型和字符型。日期、时间等变量存为数值型。SAS的数值型变量可以存储任意整数、定点实数、浮点实数,一般不关心其区别。数值型变量在数据集中的存贮一般使用8个字节。SAS的字符型变量缺省的长度是8个字符,但是如果在INPUT语句中输入字符型变量时指定了长度则不受此限制。可以用LENGTH语句直接指定变量长度,LENGTH语句一般应出现在变量定义之前,格式为:

LENGTH 变量名 $ 长度

例如:length name $ 20;

SAS运算符包括算术、比较、逻辑等运算符。

逻辑运算符 = ^= > < >= <= IN

EQ NE GT LT GE LE

IN是一个SAS特有的比较运算符,用来检查某个变量的取值是否在一个给定列表中,比如:

prov in ('北京','天津','上海')

逻辑运算符:&(AND) l (OR) ^(NOT)

连接两个字符串的l l(两个连续的l号)

取两个运算值中较大一个的<>(比如3 <>5结果为5),取两个运算值中较小一个的><

1.2 SAS程序规则

SAS程序由语句构成。每个语句以分号结尾。因为分号作为语句结束标志,所以SAS语句不需要单独占一行,一个语句可以写到多行,也可以在一行连续写几个语句。SAS语言中只要允许用一个空格的地方就可以加入任意多个空白f空格、制表符、回

车,允许用空格的地方是名字周围、运算符周围。

SAS关键字和名字大小写不分,但字符型数据值要区分大小写,比如"Beijing"和"BEIJING"被认为是不同的数据值。

在SAS程序中可以加入注释,注释使用C语言语法,用/*和*/在两端界定注释,这种注释可以出现在任何允许加入空格的位置,可以占多行。

SAS程序包括数据步和过程步两种结构,每一个步是一段相对完整的可以单独运行的程序。数据步用来生成、整理数据和自编程计算,过程步调用SAS己编好的处理过程对数据进行处理。自己用SAS编程序进行计算主要在数据步中进行。

SAS数据步以DATA语句开头,以RUN语句结尾。DATA步中可以使用INPUT,CARDS,INFILE,SET,MERGE等语句指定数据来源输入数据,也可以用赋值、分支、循环等编程结构直接生成数据或对输入的数据进行修改。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档