专栏首页王小雷SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

版权声明:本文为王小雷原创文章,未经博主允许不得转载 https://blog.csdn.net/dream_an/article/details/50416819

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序,

2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。

BY<DESCENDING>variable-1
  <...<DESCENDING>variable-n><NOTSORTED><GROUPFORMAT>;
其中:
Variable为分类、排序或索引的变量;
GROUPFORMAT为用格式化值分组;
NOTSORTED为未排序。

3. MERGE 多表的横向合并,关系为一对一,一对多,多对一。而多对多需用SQL。

    应用:1)根据某些需求条件更新特定变量2)对主数据的某些变量做历史累加

UPDATE语句后面只能跟两个数据集,最靠近UPDATE语句的是主数据集,随后是更新数据集。UPDATE在横向合并两个数据集时和MERGE相似,都是用更新数据集修改主数据集。 区别:MERGE,对更新数据集缺失值的处理,MERGE语句是不顾后果的,它会统统用远离MERGE语句数据集的数据覆盖靠近MERGE语句数据集的数据,即便是缺失值也会覆盖。 但是,有时候商业需求要求在更新数据集数据缺失的情况下用主数据集数据替代,这时候就是UPDATE语句、在使用SAS做数据仓库的ETL开发时就是如此。 MODIFY:每次更新非常庞大的数据集需要定期更新,但是每次更新对象都是动态的,可以比MERGE/UPDATE减少内存消耗。 MODIFY的四种数据集的访问机制:匹配访问、索引访问、观测访问、观测序列号访问、顺序访问。 @和@@的应用:@ 表示执行下一个操作时,指针移到下一个记录。@@表示执行下一个操作,指针保持在当前记录。 proc:过程步的开始是procedure的缩写。

4.输出观测的方法:4.1没有任何输出语句–输出PDV;4.2OUTPUT;REPLACE;REMOVE

5.put语句:可以输出变量信息到指定地点,包括:输出到SAS系统的日志窗口,输出到FILE语句规划的外部文件,输出到SAS系统的OUTPUT窗口。

        SAS系统使用PUT语句输出时,可以用指针控制,注意列指针控制的@要放在变量之前,行固定说明符的@要放在变量之后。
        PUT应用:输出结果到LOG窗口,调试程序运行过程中变量产生的中间值。输出结果到外部文件。

6.@和@@应用/单尾符和双尾符

一般单尾符应用在PUT,双尾符应用在INPUT。
单尾符:一个数据行用多个PUT语句输出数据,或多个INPUT语句输入数据。
双尾符:一个输入数据行含有多个观测的值,用INPUT语句读入,或者把多个观测输出到一个数据行,用PUT。

7.FIEL语句

FILE语句用于规定当前的输出文件,并且该文件一定是一个不同于SAS文件的外部文件。且与PUT配合使用。
INFILE语句    INFILE file-specification<options><host-options>;独有常用项:DSD dlm='',FRISTOBS,LENGTH,MISSOVER,_INFILE_

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Pipeline大数据架构

    Pipeline大数据架构,面向大数据仓库和大数据处理平台。是基于lambda的大数据架构的变种,增加了企业级服务,而并非只是大数据组件的对切,是一种更落地的方...

    王小雷
  • SAS进阶《深入解析SAS》之对多数据集的处理

    SAS进阶《深入解析SAS》之对多数据集的处理 1. 数据集的纵向串接: 数据集的纵向串接指的是,将两个或者多个数据集首尾相连,形成一个新的数据集。 据集的横...

    王小雷
  • SAS学习笔记之《SAS编程与数据挖掘商业案例》(1)系统简介和编程基础

    版权声明:本文为王小雷原创文章,未经博主允许不得转载 https://blog.csdn.n...

    王小雷
  • 不学好数学也想当数据科学家?不存在的

    大数据文摘
  • 用Logistic回归建立客户购买模型

    Logistic回归是分类资料回归分析的一种,而且是最基础的一种。Logistic回归应用广泛、关注度较高,在医学研究、市场研究等方面比较流行。下图是CNKI学...

    小莹莹
  • 数据暴雷事件频发,行业洗牌在即,合规的大数据运营怎么做?

    11月初,中国互联网金融协会向会员机构发布《关于增强个人信息保护意识依法开展业务的通知》,要求对数据合作方进行排查。

    大数据文摘
  • Coursera吴恩达《神经网络与深度学习》课程笔记(2)-- 神经网络基础之逻辑回归

    上节课我们主要对深度学习(Deep Learning)的概念做了简要的概述。我们先从房价预测的例子出发,建立了标准的神经网络(Neural Network)模型...

    红色石头
  • ThoughtWorks精益数据创新高端分享会日程安排重磅推出!

    数字化转型已经进入了新阶段,从流程驱动到数据驱动。如何利用数据和AI技术制定战略、驱动创新成为了所有企业都关注的问题。但是数据质量、数据和AI类项目的不确定性给...

    ThoughtWorks
  • 大数据应用技术学习不应做盲人摸象,闭门造车的实验室派

    随着科技的高速发展,数据在人类生活和决策中所占的比重越来越大,大数据的兴起只是说明了一种现象,面对如此广度和深度的大数据技术栈和工具集,如何学习和掌握好大数据分...

    西安弈聪软件公司
  • 使用 JavaScript 自动化你的 Mac

    在Apple发布的Yosemite系统(OSX10.10+)中有一个被大家忽略的特性:使用 JavaScript编写自动化脚本。在这之前只能通过AppleSc...

    IMWeb前端团队

扫码关注云+社区

领取腾讯云代金券