马上注册!
您需要 登录 才可以下载或查看,没有账号?注册
×
数据预处理是指对直接收集得到的数据经过一定的选取、清洗、变换等数据预处理之后可以直接作为挖掘分析对象的数据。数据预处理的主要内容包括数据清理、数据集成、数据变换、数据规约。
数据获取
SAS系统获取数据有两种方法,第一种方法在第一章《SAS软件系统与SAS语言》我们已经介绍了,使用input函数指定变量名和变量属性,然后用cards为指定的变量读入数据,并将数据保存在SAS数据集中。第二种方法是导入外部文件并将其转化为SAS数据集。
SAS系统可导入的外部文件分为两类:一类是PC格式的文件,包括CSV、EXCEL、TXT、ACCESS等,另一类是数据库文件,包括ORACLE、DB2、SYBASE等。以下分别介绍数据导入的三种方式。
IMPORT方式
导入PC格式的文件可以使用import方式。
本人预先建立一个名为customer的excel文件,表格内容如下:
name Sex age height weight
Tom 1 23 178 59
Peter 1 28 174 60
Marry 2 46 162 53
Nicole 2 18 157 51
Candy 2 64 154 51
Tony 1 46 184 68
Amy 2 13 147 40
通过以下sas程序导入该excel文件
proc import out=test_a /*定义输出的SAS数据集为test_a*/
datafile=”g:\customer.xls” /*指定外部数据文件的路径*/
dbms=excel replace; /*指定外部数据文件为excel,并且替换原来存在的数据集*/
getnames=yes; /*第一行是否为变量名*/
missed=no; /*是否将数值型数据转换为字符数据*/
scantext=yes; /*yes表示系统会扫描外部数据的字符变量,取字符变量的宽度大小为该列最大的字符长度,no则取字符变量的长度默认为255*/
run;
proc print;
run;
程序运行输出结果如图1所示。
图1
LIBNAME方式
通过数据引擎读入其他SAS数据集和数据库文件
以导入sql server数据库文件为例,
libname name odbc user=ben password=123456 datasrc=wyu;
data TestTable;
set name.customer;
run;
proc print;
run;
name为libname方式连接sql server数据库后建立的SAS逻辑库名,odbc是sas与sql server建立连接的接口名称。wyu为预先在本地电脑建立的数据源(建立数据源方法请参考)。图2为本人在sql server建立的表,表名为customer。程序运行输出结果亦如图1所示 |