马上注册!
您需要 登录 才可以下载或查看,没有账号?注册  
 
×
 
数据预处理是指对直接收集得到的数据经过一定的选取、清洗、变换等数据预处理之后可以直接作为挖掘分析对象的数据。数据预处理的主要内容包括数据清理、数据集成、数据变换、数据规约。 
数据获取 
SAS系统获取数据有两种方法,第一种方法在第一章《SAS软件系统与SAS语言》我们已经介绍了,使用input函数指定变量名和变量属性,然后用cards为指定的变量读入数据,并将数据保存在SAS数据集中。第二种方法是导入外部文件并将其转化为SAS数据集。 
SAS系统可导入的外部文件分为两类:一类是PC格式的文件,包括CSV、EXCEL、TXT、ACCESS等,另一类是数据库文件,包括ORACLE、DB2、SYBASE等。以下分别介绍数据导入的三种方式。 
IMPORT方式 
导入PC格式的文件可以使用import方式。 
本人预先建立一个名为customer的excel文件,表格内容如下: 
name Sex age height weight 
Tom 1 23 178 59 
Peter 1 28 174 60 
Marry 2 46 162 53 
Nicole 2 18 157 51 
Candy 2 64 154 51 
Tony 1 46 184 68 
Amy 2 13 147 40 
通过以下sas程序导入该excel文件 
proc import out=test_a /*定义输出的SAS数据集为test_a*/ 
datafile=”g:\customer.xls” /*指定外部数据文件的路径*/ 
dbms=excel replace; /*指定外部数据文件为excel,并且替换原来存在的数据集*/ 
getnames=yes; /*第一行是否为变量名*/ 
missed=no; /*是否将数值型数据转换为字符数据*/ 
scantext=yes; /*yes表示系统会扫描外部数据的字符变量,取字符变量的宽度大小为该列最大的字符长度,no则取字符变量的长度默认为255*/ 
run; 
proc print; 
run; 
程序运行输出结果如图1所示。 
 
图1 
LIBNAME方式 
通过数据引擎读入其他SAS数据集和数据库文件 
以导入sql server数据库文件为例, 
libname name odbc user=ben password=123456 datasrc=wyu; 
data TestTable; 
set name.customer; 
run; 
proc print; 
run; 
name为libname方式连接sql server数据库后建立的SAS逻辑库名,odbc是sas与sql server建立连接的接口名称。wyu为预先在本地电脑建立的数据源(建立数据源方法请参考)。图2为本人在sql server建立的表,表名为customer。程序运行输出结果亦如图1所示 |