为什么有了SAS,WEKA等功能强大的数据分析挖掘软件,还需要R,PYT
SAS员工,数据管理部门,利益相关啊。
我猜你们说的是SAS Base,和在SAS Base或者WebStudio上运行的proc
宣传啊,还是不够。
SAS Base在整个产品线里挺核心的,但是,随便一个方案里面大概会有几十倍其他的应用。
大型企业里面不会有人把数据都规规矩矩整理好了放到你面前请您跑PROC的,一般情况是:
要分析用户地址,年龄,性别分布:
30个数据源,异构,比如其中有10个DB2, 两个Oracle,1个Excel,7个txt,其中Excel是个Web连接,txt有三个在共享磁盘上,4个在DVD上,正走EMS往中心寄。
你开开心心打开这30个数据源,TMD每个表的结构都不一样,还有用拼音做列名的,还有fu建人用错误的拼音做列名的。
你给每个数据源的owner打电话要来表定义,仔细探查每个表,找出所有的地址列,定义了一个复杂的job来做数据导入。
job失败,提示年龄插入失败,一看,Excel里面用全角写的年龄,甚至还有汉字。
job失败,性别插入失败,G/B/1/0/男/女/F/M不是true/false。
job失败,数据库连接密码过期
在心里问候了一万遍数据源后,拿到了抽取后的数据,先抽样看看大致分布。
60%的性别是missing,年龄的中值是0
重新设定Job,根据用户ID进行性别估计,年龄估计。抽样看分布。
地址90% 都是unique
再问候一万遍数据源,找算法切分地址,做正规化,Beijing/首都/帝都/北平/燕京一律整成北京,按照城市/区/街道/门牌号重整输出。
这次抽样终于差不多符合直觉了。
开始调整各种参数来观察数据,每次一个小时。一天过去了。
开始出图,出报告,给老板看。
老板说这个和我的感觉不太一样,为什么?这个阈值为什么设定这么高,我要看低的。
调整参数观察数据,又一天,出报告。老板开会去了。老板回来了,我前几天说了要调低阈值了吗?调回来。
...
老板这次满意了,好,我们可以根据这份报告调整促销规则了,你把这个报告给销售讲下。
销售表示给你的数据是两个月前的,这个月有很大变化,你重新出个报告呗?
ETL,SAS DM会负责,有DM全系产品提供对数据源元数据的管理,explore;有FederationServer以逻辑视图直接提供对异构数据库的透视功能。QKB直接根据具体领域,具体年份,具体国家,具体语言,比如汉语-新加坡-2015年上半年-客户联系资料进行数据清洗和质量评估
SAS VA,提供可视化的秒级的分析相应速度,支持Web/Mobile,可交互,可钻取。
以上是我接触过的,还有很多其他的例子,比如专门针对银行,保险业的用户管理系统,反欺诈系统,反洗钱,企业内容管理等。
还有刚才刚公布的Viya,新一代的cloud-ready系统。
个人感觉SAS和R的区别在于工业级生产和实验室级生产,真实领域的数据,清洗过程可能是最复杂和最消耗时间和人力的,再牵扯到各种模型的存储,版本化(这个我做的!是所有做过里面被接受最广泛的!)等等,SAS对企业级的支持要很好多,而且你们考虑过人沙特土豪的界面是什么样的?考虑到美国政府508法案对jQuery库选型的影响?所以对我们最极端的测试用户大概就是一个说阿拉伯语的只有一根手指的弱视数据科学家在美国政府用SAS系统进行工作。我上个月刚做完这培训来在产品里提供支持...
查看评论 回复