SAS进阶《深入解析SAS》之对多数据集的处理

SAS进阶《深入解析SAS》之对多数据集的处理

1. 数据集的纵向串接:

数据集的纵向串接指的是,将两个或者多个数据集首尾相连,形成一个新的数据集。
据集的横向合并:
数据集的横向合并,指的是将两个或者多个数据集根据某种原则横向合并起来,形成新的数据集。

2. 数据集的纵向串接两种方法:1)使用SAS DATA步的SET语句。2)使用SAS过程步的APPEND过程。

2.1. 使用SET步纵向串接形式如下:
DATA 新数据集;
    SET 数据集1 数据集2 <数据集3 数据集4 ...>;
    BY 变量1 <变量2 变量3 变量4...>;
RUN;

使用APPEND过程
PROC APPEND BASE=主数据集 <DATA=追加数据集> <FORCE>;
2.2. 使用APPEND过程,SAS不会处理主数据集中的观测,而是直接将追加数据集的观测添加到主数据集最后一条观测后面,且变量仅包含主数据集中的变量。

3. 数据集的横向合并使用MERGE的两种情况:

不使用BY语句合并,也称为一对一合并。
DATA WORK.COMBINED;
    MERGE WORK.DATA1 WORK.DATA2;
RUN;
一对一合并原则:1)新数据集的第一条观测包含各个输入数据集中第一条观测的信息,第二条观测包含各个数据集中第二条观测的信息,不足的观测用缺失值不足。2)新数据集含有的观测数为所有输入数据集的最大观测是数。

使用BY语句合并,也称为匹配合并。
DATA WORK.COMBINED;
    MERGE WORK.DATA1 WORK.DATA2;
    BY Year;
RUN;

4. 使用数据集选项IN=操作观测

数据集选项IN=可以运用在SET、MERGE、MODIFY、UPDATE语句中的任何数据集后面。

5. 数据集的更新UPDATA

DATA 新数据集;
    UPDATA 主数据集 更新数据集
            <UPDATATE=MISSINGCHECK | NOMISSINGCHCK>;
    BY 变量1 <变量2 变量3 变量4...>;
RUN;

6. UPDATE语句和MERGE与的区别:

1)UPDATA语句只能操作两个数据集;MERGE语句可以对两个或者两个以上数据集进行操作。
2)使用UPDATA语句时必须使用BY语句;MERGE语句在不使用BY语句时也可以按观测号进行一对一合并。
2)在处理缺失值时,UPDATA语句可以控制是否用缺失值对主数据集进行替换;MERGE语句中后一数据集中的缺失值一定能会覆盖前一数据集中的值。
4)当BY变量值在后一数据集或者更新数据集中不唯一时,UPDATA语句和MERGE语句的处理方式不一样。

7. 数据集的更改

7.1 单个数据集的更改MODIFY语句
DATA 原数据集;
    MODIFY 原数据集;
RUN;
7.2 两个数据集的更改MODIFY语句
DATA 主数据集;
    MODIFY 主数据集 修改数据集;
    BY  变量1  <变量2 变量3 ...>;
RUN;

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉与深度学习基础

【深度学习】写诗机器人tensorflow实现

代码地址:https://github.com/hjptriplebee/Chinese_poem_generator, 欢迎fork, star 机器人命名M...

1.7K5
来自专栏marsggbo

Tensorflow datasets.shuffle repeat batch方法

由结果我们可以知道TensorFlow能很好地帮我们自动处理最后一个batch的数据。

2882
来自专栏专知

【PyTorch实战】手把手教你用torchtext处理文本数据

【导读】我们一直在关心深度学习模型的具体实现, 实际上,无论是什么实验, 数据的处理总是占大头的。如何将一个纯文本数据(比如一个 txt 文本), 变成一个模型...

2624
来自专栏xingoo, 一个梦想做发明家的程序员

动态规划基本要素

动态规划性质: 1  最优子结构性质  2 子问题重叠性质 ----->该问题可用动态规划算法求解的基本要素 1 最优子结构 当问题的最优解包含了其子问题的最优...

18410
来自专栏Spark学习技巧

基于DF的Tokenizer分词

Tokenizer分词 进行文本分析前,对文本中句子进行分词我们处理的第一步。大家都是Spark的机器学习库分为基于RDD和基于DataFrame的库,由于基于...

2015
来自专栏机器学习算法与Python学习

Machine learning -- C4.5算法详解及Python实现

程序实现部分转自 Wsine的博客小站 地址:http://www.cnblogs.com/wsine/p/5180315.html C4.5是一系列用在机器...

4088
来自专栏漫漫深度学习路

tensorflow学习笔记(三十二):conv2d_transpose ("解卷积")

deconv解卷积,实际是叫做conv_transpose, conv_transpose实际是卷积的一个逆向过程,tf 中, 编写conv_transpose...

5599
来自专栏北京马哥教育

Tensorflow自学之前的bigpicture

作者:数据娃掘 来源:http://blog.csdn.net/jdbc/article/details/68957085 前言 目前,深度学习在计算机科学各领...

3427
来自专栏机器之心

资源 | Tensorlang:基于TensorFlow的可微编程语言

28211
来自专栏人工智能LeadAI

TensorFlow Tutorial-1

1、Why TensorFlow? 网上有关介绍太多了,我就不多说了,这里主要注重使用。 ? Intro.PNG ? github.PNG 2、Programi...

36811

扫码关注云+社区