转自:http://bbs.xml.org.cn/blog/more.aspme=topcio&id=16699
“我们把世界看成数学,并且把你也看成数学”——用这句话来说明数据挖掘技术的复合性和应用的广泛性似乎再好不过。如今,虽然一些行业在应用这一技术上仍 然缺乏足够的主动,但一个不能阻挡的趋势是:已经有越来越多的人在快乐并有效地使用这一技术,同时不由自主地成为“挖掘”的对象。
禽流感该如何更好地监控你写Blog了吗r> 你是否觉得这两个问题连在一起问很无厘头r> 事实上,美国一家公司正在试图让这两个事件之间的关系日渐明了。 这 家公司目前正在通过从全球的Blog 页中挖掘出和禽流感相关的信息,从而建立一个预警机制。这一项目考虑到Blog已经成为新闻传播的重要途径,先从 上抓取有关禽流感的 页,存入到公司的数据仓库,再指定“国家”为关键目标词,然后利用关联分析技术,即可得到和禽流感关联最大的国家,由此可以判定该国 的禽流感传染可能比较严重。
就在此前,已经有很多人在抱怨, 上多如牛毛的Blog除了浪费人们数以十万年的阅读时间之外,还有多少用处,数据挖掘技术正在力图从这些爆炸式增长的Blog中“挖”出更有价值的东西,同时它也在更多领域中展示其非凡的力量。
工具篇:前方是岔路口
数据挖掘其实并非单纯的IT技术,而是数学家和计算机科学家之间的合作产物。在过去十年中,高等数学和计算机建模的联姻改变了科学和工程技术,以至于有人认为这一合作已经开创了一个全新的商业领域。
有关数据挖掘技术的定义有很多版本,综其要点,主要在于应用一系列统计与人工智能技术来发现以前并不了解的数据规律,并解决实际业务问题。如今,数据挖掘 技术已经从最开始的一个简单的算法包,发展出通用挖掘平台和专业挖掘工具两大种类。其中,像IBM、NCR、SAS、微软、SPSS、StatSoft等 厂商的数据挖掘产品(模块)基本都是通用型工具平台;而像美国的 Unica 公司、Fair Isaac 则主要专注于诸如营销自动化、信用卡积分等细分领域,属于后一种工具。具体来看,目前在数据挖掘领域声势颇大的大多是通用型工具平台。
“现在IBM更侧重的是平台优势。”在采访中,IBM软件部中国区DB2信息管理技术经理刘晶炜明确表示。目前,IBM的DB2中包含 Intelligent Miner for Data和Intelligent Miner for Text两个数据挖掘模块,将数据挖掘和数据仓库整合到一个平台之上。其中,前者主要针对结构化信息,分为建模、浏览、Scoring Service三个部分;后者则是针对文本的挖掘模块,其主要功能是特征抽取、文档聚集、文档分类和检索。
NCR Teradata的数据挖掘工具同样也是与其数据仓库整合在一起的。具体来说,其数据挖掘工具可以按照挖掘的步骤主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四块。目前Teradata最新版的数据挖掘方案是Teradata Warehouse Miner 4.1。
SAS 公司和SPSS公司作为两家从传统的统计分析技术发展而来的数据挖掘厂商,二者在业内的影响力可谓有目共睹。其中,SAS 公司提供了SAS Enterprise Miner 、SAS ETS(时间序列预测)、SAS OR(运筹学)、SAS STAT(统计分析)、SAS QC(质量控制)等一系列工具;SPSS公司也提供了Clementine和AnswerTree两项产品。
微软的SQL Server 2005在数据挖掘方面的突破与创新曾被人看作是最令人惊艳的地方。Microsoft SQL Server 2005 Data Mining 平台的确引入了大量的数据挖掘功能,其本身就是一个开发智能应用程序的平台,而非一个独立应用程序。而且,这一平台与所有 SQL Server 产品实现了集成,包括 SQL Server、SQL Server Integration Services 和 Analysis Services。据称,SQL Server 2005 中最重要的数据挖掘功能就是其处理大型数据集的能力,它允许模型对整个数据集运行,从而消除了采样方面的挑战。
总起来看,像IBM、NCR、Oracle、微软这些平台工具厂商基本上都是以提供“整车”为己任。一句话,只要用户不是很挑剔,基本上都可以在某一家那 里即可买全包括数据挖掘工具在内的全套商业智能产品。而像SAS、SPSS、StatSoft等公司虽然也宣称提供工具平台,但提供“整车”的实力有限, 其主要在统计分析和数据挖掘领域延伸提供尽可能多的工具组件。
相对于这些挖掘工具平台,专业挖掘工具可能在市场的声势并不大,但是像Fair Isaac 公司、Unica 公司的发展却也相当不错。比如像Fair Isaac 公司就已经占据了全球信用卡积分市场70%~80%的份额,几乎达到垄断。该公司的创始人发明了一个信用评分卡(即费寇分数,FICO score),由此可以预测人的未来偿付行为,为信用卡消费提供一个有效的预测工具。同样,美国 Unica 公司的 Affinium Model 则是一款专注于市场营销自动化的数据挖掘工具软件。
那么,面对这两种工具,用户该如何选择话讲,哪种工具才是未来的发展方向呢r> 中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩认为,平台化肯定是将来的一个发展方向,而且,中国的市场足够广阔,也可以容得下一批这样的平 台厂商。IBM软件部中国区DB2信息管理技术经理刘晶炜也表示,正与SAS进行更多的合作,以便进一步统一数据挖掘领域的技术标准。
而Teradata数据仓库专家盛秋戬博士则认为,目前的平台工具虽多,但从根本上讲,都是在用横向的数据挖掘工具解决纵向的行业业务问题。他表示,如果从用户出发,用户应该更欢迎那些专业挖掘工具。
北京瑞斯泰得数据技术开发公司苏立民总经理从事数据挖掘行业已有六年之久,他在采访中表示,现在数据挖掘领域的确存在平台化趋势,但专业工具也占领了一些市场。比如Unica 公司就是选出并优化某些算法,再加上行业经验,使建模过程更加优化。
另据Sybase商务智能总监廖钢城介绍,其实在日本,就有公司专门销售一种类似“黑匣子”的专业工具,银行积累的数据在里面跑一遍,就直接出来结果。这种工具用得也很好。而在另一方面,他也认为,提供平台的厂商会越来越少。
如此看来,业界对于工具的发展方向似乎并无太大异议,即平台工具会保持在一个适当的数量,而专业工具显然更得用户的宠爱。而现在,数据挖掘技术的发展刚好走到一个岔路口,一边指向通用型,一边指向专业型,就看企业要往哪个方向走了。
技术篇:算法与模型 机关可曾“算”尽strong>
之所以说数据挖掘是高等数学和计算机科学联姻的产物,其中一大原因就在于,对各种算法的支持程度是衡量数据挖掘工具的一大标准。
在前期采访中,笔者曾设想通过对比各种数据挖掘工具对算法的支持程度来分出高低。但在采访之后,笔者发现这一对比实无必要,因为目前的算法技术已经相当成熟,而主流工具也基本上都提供了对主流算法的支持。
从算法上看,业界公认主要有决策树、分类、聚类、回归、关联分析等几大主流算法。对于这些算法,IBM、NCR、Oracle等主流工具基本上都已经支 持,而像微软的Microsoft SQL Server 2005 Data Mining ,它作为一个开发智能应用程序的平台,可以允许第三方添加自定义算法以支持特定的挖掘需求。
在支持的算法种类和数量上,SAS、SPSS等传统的统计分析厂商要比IBM、NCR、微软、Oracle 等厂商更多一些。比如SAS Enterprise Miner就提供了决策树、神经 络、自动神经 络、基于记忆的推理(MBR)、线性和对数回归、聚类、关联分析等很多算法。SPSS公司在其 AnswerTree工具中就提供了CHAID、Exhaustive CHAID、Classification & Regression Tree、Quest等四种计算法则。
在采访中,无论厂商还是业内专家大都认为,目前的算法技术已臻成熟。北京瑞斯泰得数据技术开发公司苏立民总经理就表示,近年来统计学领域新出现的算法很有 限,大多是对旧算法的完善。而对于现存的算法而言,除了一些独有的算法之外,主流算法都可以互相拷贝,并不存在太高的技术壁垒。(下转42版)(上接41 版)或许正是因为作为数据挖掘技术基石的算法技术已经比较成熟,这也造成厂商开始纷纷在其他领域开拓新的技术亮点。比如NCR Teradata就认为,除了算法指标,体系架构也非常重要。相对于算法上的难分伯仲, NCR更强调通过其“库内挖掘”的优势来解决数据量、效率和质量的难题。此外,苏立民总经理认为,在算法成熟之后,更重要的工作就是在数据准备阶段。而商 智通公司咨询总监匡宏波则认为,虽然算法的速度业已越来越快,但更关键的是怎么用。无疑,这些都是需要业界跳出单纯的算法技术并及早关注的重点。
从模型看未来 美国《商业周刊》在今年的一篇文章中指出,人类将数学建模应用于现实生活与工作肯定将是21世纪最伟大的事件之一。事实上,建构模型也正是数据挖掘技术的 重要内容,正是通过建模,数据挖掘工具才可以准确地告诉用户那些隐藏在数据库深处的重要信息,同时又对未来做出预测的。
那么,何为建模来讲,就是综合运用数学思想方法和IT技术建立一个适合当前问题的模型,用以解释之前发生的事情并预测未来发生的事情。
“算法是刀,建模是刀法,而模型就是用刀切出来的东西。”苏立民如此形容算法、建模和模型三者之间的关系。简单来讲,如果算法是“y=a+bx”,那么模 型就是“y=5+3x”。区别就在于已经带入了常变量。目前,业界探讨较多的技术内容主要有自动建模和模型转换两点。
其一,自动建模。
自动建模是考查数据挖掘工具是否能够自我优化,从而方便一般用户使用的重要功能指标。在这项功能的帮助下,用户无须深刻了解算法的优缺点,即可利用其灵活的参数设置及其帮助,从而增强建模的效率。
目前,诸多主流工具都在自动建模方面有着较好表现。比如NCR就尤其强调其模型的并行性。据盛秋戬博士介绍, NCR的并行处理优势在于:比如用两台服务器(集群)来作挖掘,可能需要1分钟的反应时间;而如果再加两台服务器,则只需要半分钟的反应时间。当然,这一 优势要基于NCR自身的硬件设备。
SAS Enterprise Miner(EM)的自动建模主要体现在自导向(SEMMA)数据挖掘进程上。SEMMA为执行数据挖掘的核心任务提供了一个灵活的框架,这些任务包括五 个主要的步骤,亦即采样(S),探索(E),修改(M),建模(M)和评估(A)。此外,专业工具厂商美国 Unica 公司的 Affinium Model 的最大优点也是体现在最大限度地将数学建模过程自动化 ,使得那些数学基础不好的业务人员可以方便地使用这个工具。
需要注意的是,虽然自动建模被人们寄予厚望,但是还远未达到让用户手到擒来的地步。之所以这样说,一方面是因为工具本身的技术实现不够,苏立民就认为,在 这方面,专业型工具做得要比通用型工具相对较好;另一方面,自动化本身并不能取代一切。中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩也解释 说,做好自动建模,同样需要对业务有深刻的了解,才能选择更好的变量。比如在知道一批女孩的身高、体重数据之后,要分析出女孩的漂亮程度,那么,选定“身 高除以体重”来分析无疑还是要靠脑子想出来的。
其二,模型转换。
数据挖掘工具的多样性造成模型种类也很多,这种情况下,不同工具生成的模型是否能够共享或转换就成为一大难题。目前,业界正通过对预测模型标记语言 (Predictive Model Markup Language ,PMML)的应用来解决这一问题。这一语言在1997年7月由DMG(Data Mining Group)发布,它利用XML描述和存储数据挖掘模型,已是一种被W3C组织接受的标准。现在来看,IBM、SAS和SPSS等厂商已经在使用PMML 标准导入数据挖掘模型,但也有些厂商仍未采用此种标准,而从标准本身看,对数据仍然具有一定的依赖性,还未真正实现模型与数据的分离。
热点篇:文本挖掘与 络挖掘
算法和建模作为数据挖掘工具的核心技术,从它诞生之日起就在得到不断完善,而在最近两年,也有一些新的技术和应用热点开始引起人们的关注,比如文本挖掘、 络挖掘和可视化挖掘就是其中比较重要的三种。 “文本挖掘是个太恐怖的事情。”中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩如此形容文本挖掘的威力。
到目前为止,像IBM、微软等主流挖掘工具以及google和SNS 站都已经在使用文本挖掘技术。但遗憾的是,目前这些工具大多只支持英文,还不支持中文挖掘。
如果说文本挖掘是一项技术热点的话,那么 络挖掘可以称得上是数据挖掘领域中的一大应用热点了。
具体来讲, 络挖掘还可以细分为三种挖掘,一是前文提到的文本挖掘,二是结构挖掘(Structure mining),主要解决 页与 页之间的链接关系,三是点击挖掘(Hit mining),是针对点击率的挖掘分析。总体而言,要实现 络挖掘,从技术上讲并没有难度,大部分的问题都可以用成熟方法来解决。
在采访中,无论厂商、集成商还是学界都肯定了 络挖掘的美好发展前景。“我个人比较看好 络挖掘。”盛秋戬博士这样说。他认为, 络挖掘是施展数据挖掘技 术很好的舞台,同时也会给挖掘工具厂商带来不少商机。沈浩同样也认为,当电子商务发展起来之后, 络挖掘肯定大有可为。
但是业内人士也指出, 络挖掘目前尚存在一些瓶颈。
首先,一个关键问题是电子商务的评估指标(e-Metrics)还没有形成一个完整的体系。所谓指标体系就要设定几个维度来衡量电子商务 站生意的好坏。 目前,有些电子商务 站已经开始定义像潜在顾客率(reach)、招揽时间(Acquisition)、潜在顾客转化率(Conversion)等一些评 估指标,美国的一些技术会议也已经开始做一些整合工作,但是要形成体系还需要一段时间。
其次,缺钱。在采访中,商智通公司咨询总监匡宏波表示,曾经有一家医药类电子商务 站主动找上门,提出要求想知道平台的某类药品(比如盘尼西林)主要销往 哪里。但盛秋戬博士也指出,就电子商务领域的总体而言,除了像亚马逊、eBay等一些国外大型电子商务 站开始自己买工具进行挖掘之外,国内少数注意到数 据挖掘技术的 站大多是自己开发做此类工作,舍得掏钱的人还不多。
在文本挖掘和 络挖掘之外,可视化挖掘(Visual Data Mining)因为和工具的易用性联系在一起,因而也颇为重要。
简单来讲,可视化包括了数据预处理和结果呈现两个方面。比如StatSoft一直强调的完整的图表工具库以及高质量的图表呈现效果就是其优势所在。但是总 体情况来看,可视化的内含和标准近几年一直没有更新的内容,而且,即便工具厂商自认为做得再“可视化”,对于用户来说,仍有难以理解和掌握的地方。
苏立民介绍说,虽然现在挖掘结果的呈现已经相当易用,但是他接触到的一些用户依然会抱怨说,每回总是打印出那么多表格到底有什么用的问题就在于:工具的易用性是一回事,有没有既懂业务又懂技术的人来用却是另一回事。
|