返回列表 发布新帖
查看: 377|回复: 0

数据预处理-ppv课提供

发表于 2013-11-15 21:29:50 | 查看全部 |阅读模式

马上注册!

您需要 登录 才可以下载或查看,没有账号?注册

×
数据预处理是指对直接收集得到的数据经过一定的选取、清洗、变换等数据预处理之后可以直接作为挖掘分析对象的数据。数据预处理的主要内容包括数据清理、数据集成、数据变换、数据规约。
数据获取
SAS系统获取数据有两种方法,第一种方法在第一章《SAS软件系统与SAS语言》我们已经介绍了,使用input函数指定变量名和变量属性,然后用cards为指定的变量读入数据,并将数据保存在SAS数据集中。第二种方法是导入外部文件并将其转化为SAS数据集。
SAS系统可导入的外部文件分为两类:一类是PC格式的文件,包括CSV、EXCEL、TXT、ACCESS等,另一类是数据库文件,包括ORACLE、DB2、SYBASE等。以下分别介绍数据导入的三种方式。
IMPORT方式
导入PC格式的文件可以使用import方式。
本人预先建立一个名为customer的excel文件,表格内容如下:
name Sex age height weight
Tom 1 23 178 59
Peter 1 28 174 60
Marry 2 46 162 53
Nicole 2 18 157 51
Candy 2 64 154 51
Tony 1 46 184 68
Amy 2 13 147 40
通过以下sas程序导入该excel文件
proc import out=test_a /*定义输出的SAS数据集为test_a*/
datafile=”g:\customer.xls” /*指定外部数据文件的路径*/
dbms=excel replace; /*指定外部数据文件为excel,并且替换原来存在的数据集*/
getnames=yes; /*第一行是否为变量名*/
missed=no; /*是否将数值型数据转换为字符数据*/
scantext=yes; /*yes表示系统会扫描外部数据的字符变量,取字符变量的宽度大小为该列最大的字符长度,no则取字符变量的长度默认为255*/
run;
proc print;
run;
程序运行输出结果如图1所示。

图1
LIBNAME方式
通过数据引擎读入其他SAS数据集和数据库文件
以导入sql server数据库文件为例,
libname name odbc user=ben password=123456 datasrc=wyu;
data TestTable;
set name.customer;
run;
proc print;
run;
name为libname方式连接sql server数据库后建立的SAS逻辑库名,odbc是sas与sql server建立连接的接口名称。wyu为预先在本地电脑建立的数据源(建立数据源方法请参考)。图2为本人在sql server建立的表,表名为customer。程序运行输出结果亦如图1所示

数据处理

数据处理
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关注公众号
QQ会员群

Copyright © 2021-2025 中企互动平台 版权所有 All Rights Reserved.

相关侵权、举报、投诉及建议等,请发 E-mail:bztdxxl@vip.sina.com

Powered by Discuz! X3.5|京ICP备10020731号-1|京公网安备 11010102001080号

关灯 在本版发帖
扫一扫添加管理员微信
返回顶部
快速回复 返回顶部 返回列表