</FONT>
<DIV align=left><FONT size=4><b>数据挖掘与统计学应用</b>
</FONT>基本框架
一、 关键词与摘要
数据挖掘与统计应用之间关系
数据挖掘的发展前景
二、简介
数据挖掘与统计学有着共同目标,但分析方法和性质不同
三、统计学的性质
统计学决不是数学的分支,而是一门独立学科
统计分析是以样本推断总体,而数据挖掘使用的往往是总体数据
统计应用和数据挖掘中模型的差别
数据挖掘接触到的大量数据中的偶然因素可以使统计方法失效
统计分析之前需要准备大量数据,以期得到确定的目的;数据挖掘往往已有数据库,而目的也是不确定的
四、数据挖掘的性质
什么是数据挖掘——不同学者对数据挖掘的定义
目前数据挖掘的主要软件
当前数据挖掘软件的特点
当前的数据挖掘软件包中被用到的统计分析过程
数据挖掘和计算机科学的联系
在统计科学中萌芽,但随后绝大部分又被统计学忽略的方法领域——数据挖掘是否也会如此?
五、讨论
对数据挖掘的认识的误区
数据挖掘与统计应用的前景 </DIV>
<p>
<>一、关键词和摘要
关键词:统计学 数据挖掘 知识发现</P>
<>摘要:
1、数据挖掘与统计应用之间关系
统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。本文讨论了两门学科的性质,重点论述它们的异同。
数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。DM(数据挖掘)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释,并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这可能要求统计学家们改变他们的一些基本思路及操作原则。
2、数据挖掘的发展前景
随着计算机应用的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术在这些数据当中我们可以找出“金子”来。数据挖掘技术主要又分成“关联规则”,“时间序列”“聚集”,“分类”,“估值”等这几类.
据国外专家预测,在今后的5—10年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。2000年7月IDC发布了关于信息存取工具市场的报告,其中估计1999年的数据挖掘的市场大概是7.5亿美元,估计在下个5年内市场的年增长率(Compound Annual Growth Rate)为32.4%,其中亚太地区为26.6%,并且预测此市场在2002年时会达到22亿美元。</P>
<>
二、简介
数据挖掘与统计学有着共同目标,但分析方法和性质不同
统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。统计学有着正统的理论基础(尤其是经过本世纪的发展),而现在又出现了一个新的学科,有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实”,以及找出枯燥的大量数据背后的有意义的信息。当然,统计学的现代的含义已经有很大不同的事实。而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用)。
本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。首先,我们注意到“数据挖掘”对统计学家来说并不陌生。例如,Everitt定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的”。统计学家因而会忽略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。尽管如此,事实上大量的数据可能包含不可预测的但很有价值的结构。而这恰恰引起了注意,也是当前数据挖掘的任务。
三、统计学的性质
统计学决不是数学的分支,而是一门独立学科
试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反,我要关注统计学不同于数据挖掘的特性。
统计学决不是数学的分支,而是一门独立学科
统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的.管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。
统计分析是以样本推断总体,而数据挖掘使用的往往是总体数据正是统计文献显示了(或夸大了)统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。当然这也常常是数据挖掘所关注的。下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。然而,数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。在这种情形下,推断就没有价值了(例如,年度业务的平均值),因为观测到的值也 就是估计参数。这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于0,则会从模型中剔除掉),但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。事实是,常常所关注的是模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。例如,在寻找规则时常常会利用吻合度的单纯特性( 例如,应用分支定理)。但当我们应用概率陈述时则不会得到这些特性。
统计应用和数据挖掘中模型的差别
统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型” 。或许“模型”这个术语更多的含义是变化。一方面,统计学模型是基于分析变量间的联系,但另一方面这些模型关于数据的总体描述确实没有道理的。关于信用卡业务的回归模型可能会把收入作为一个独立的变量,因为一般认为高收入会导致大的业务。这可能是一个理论模型(尽管基于一个不牢靠的理论)。与此相反,只需在一些可能具有解释意义的变量基础上进行逐步的搜索,从而获得一个有很大预测价值的模型,尽管不能作出合理的解释。(通过数据挖掘去发现一个模型的时候,常常关注的就是后者)。 还有其它方法可以区分统计模型,但在这里我将不作探讨。这里我想关注的是,现代统计学是以模型为主的。而计算,模型选择条件是次要的,只是如何建立一个好的模型。但在数据挖掘中,却不完全是如此。在数据挖掘中,准则起了核心的作用。(当然在统计学中有一些以准则为中心的独立的特例。
数据挖掘接触到的大量数据中的偶然因素可以使统计方法失效
很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。这和确定性的分析是不同的。(实际上,一个人是不能完全确定一个理论的,只能提供证据和不确定的证据。)确定性分析着眼于最适合的模型-建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。很多,或许是大部分统计分析提出的是确定性的分析。然而,实验性的数据分析对于统计学并不是新生事务,或许这是统计学家应该考虑作为统计学的另一个基石,而这已经是数据挖掘的基石。所有这些都是正确的,但事实上,数据挖掘所遇到的数 据集按统计标准来看都是巨大的。在这种情况下,统计工具可能会失效:百万个偶然因素可能就会使其失效。
统计分析之前需要准备大量数据,以期得到确定的目的;数据挖掘往往已有数据库,而目的也是不确定的
如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的问题之前,如何很好的搜集数据,例如实验设计和调查设计。数据挖掘本质上假想数据已经被搜集好,关注的只是如何发现其中的秘密。从数据学习的想法已经提出很长时间了。但在忽然之间人们对数据挖掘的兴趣却变得如此强烈,这是为什么呢?主要原因是近来它与数据库管理领域有了联系。数据,特别大量的数据保存在数据库管理系统中。传统的DBMS集中于在线转换过程(OLTP n-line transaction processing);也就是数据组织的目的是存储并快速恢复单个记录。它们过去常用来记录库存,薪水表记录,帐单记录,发货记录,等等。
最近,数据库管理界对将数据库管理系统用于决策支持越来越感兴趣。</P>
<P>四、数据挖掘的性质
什么是数据挖掘?
数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义: 数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理解的模式的重要过程。--Fayyad.
数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。--Zekulin.
数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法 。--Ferruzza
数据挖掘是发现数据中有益模式的过程。--Jonn
数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。 --Parsaye
数据挖掘是....决策树.神经网络.规则推断.最近邻方法.遗传算法--Mehta
虽然数据挖掘的这些定义有点不可触摸,但在目前它已经成为一种商业事业。如同在过去的历次淘金热中一样,目标是`开发矿工`。利润最大的是卖工具给矿工,而不是干实际的开发。数据挖掘这个概念被用作一种装备来出售计算机硬件和软件。硬件制造商强调数据挖掘需要高的计算能力。必须存储,快速读写非常大的数据库,并将密集的计算方法用于这些数据。这需要大容量的磁盘空间,快速的内置大量RAM的计算机。数据挖掘为这些硬件打开了新的市场。软件提供者强调竞争优势。`你的对手使用它,你最好得跟上。`同时强调它将增加
传统的数据库的价值。许多组织在处理存货,帐单,会计的数据库方面有大量的业务。这些数据库的创建和维护都耗资巨大。现在只需要将相对少的投资用于数据挖掘工具,就可以发现隐藏在这些数据中的具有极高利润的信息金块。
当前数据挖掘产品的特点:
--迷人的图形用户界面
.数据库(查寻语言)
.一套数据分析过程
--窗口形式的界面
.灵活方便的输入
--点击式按键
--输入对话框
--利用图表分析
--复杂的图形输出
--大量数据图
--灵活的图形解释
--树,网络,飞行模拟
-- 结果方便的处理。
这些软件包对决策者来说就象数据挖掘专家。
数据挖掘和计算机科学的联系
当前对数据挖掘的兴趣在学术界引发了一些议题。数据挖掘作为一种商业事业看上去很可行,但它是否能被定为一种智能训练。当然它和计算机科学有极重要的联系。这些包括:
.集聚体(ROLAP)的高效计算
.快速的立体(X * X)查寻
.为提高在线查寻的速度的线下预查寻
.在线查寻的并行计算
.将DBMS方法转化为数据挖掘算法。
.基于磁盘而不是RAM的实现
.基本数据挖掘算法的并行实现
从统计数据分析的眼光我们可以问数据挖掘方法是否是智能训练。到目前为止,仍可以说它是,也可以说不是。数据挖掘包中广为人知的程序来自机器学习,模式识别,神经网络和数据可视化领域。它们强调`看和感觉`和感官性的存在。这样看上去并不是在意具体的表现,而是要迅速占领市场。在这个领域中目前大部分的研究集中在改进当前的机器学习方法和加速已存在的算法。然而,在将来数据挖掘几乎可以肯定地说是一种智能训练。当一种技术的效率提高了十倍,人们总要认真地重新考虑怎样应用它。想一想人类从走到飞的历史进程,每一次提高都大约是以前的十倍,并且每一次量的提高都重新改变了我们队如何使 用交通工具的想法。Chuck Dickens(前SLAC的计算指导)曾说到:`每次计算机的能力提高十倍,我们都应该从总体上重新思考一下我们应该怎样算,算什么的问题。`一个相应的说法可能是`每次数据量增加十倍,我们就应该从总体上重新考虑一下怎样分析它。`从当前几乎大多数使用的数据挖掘工具发明的那一段时间到现在,计算机的处理能力和数据量都增加了好几个数量级。新的数据挖掘方法在将来一定会更智能更有学术性(商业性)。我们过去曾给予数据挖掘方法智能的生命力,但统计学作为一个学科是否应该关心它的发展。
统计科学中萌芽,但随后绝大部分又被统计学忽略的方法领域——数据挖掘是否也会如此?
在统计学的历史上就忽略了许多在其它数据处理相关领域发展的新方法。如下是一些相关领域的例子。其中带*的是那些在统计科学中萌芽,但随后绝大部分又被统计学忽略的方法领域。
1 模式识别*--CS/工程
2 数据库管理--CS/图书馆科学
3 神经网络*--心理学/CS/工程
4 机器学习*-CS/AI
5 图形模型*(Beyes 网)-CS/AI
6 遗传工程--CS/工程
7 化学统计学*--化学
8 数据可视化**--CS/科学计算
可以肯定地说,个别的`统计学家`已经致力于这些领域,但公平地说他们并未被我们的统计学领域拥抱(或者说热情地拥抱)。
五、 讨论
对数据挖掘的认识的误区
数据挖掘有时候是一次性的实验。这是一个误解。它更应该被看作是一个不断的过程(尽管数据集时确定的)。从一个角度检查数据可以解释结果,以相关的观点检查可能会更接近等等。关键是,除了极少的情形下,很少知道哪一类模式是有意义的。数据挖掘的本质是发现非预期的模式-同样非预期的模式要以非预期的方法来发现。
与把数据挖掘作为一个过程的观点相关联的是认识到结果的新颖性。许多数据挖掘的结果是我们所期望的-可以回顾。然而,可以解释这个事实并不能否定挖掘出它们的价值。没有这些实验,可能根本不会想到这些。实际上,只有那些可以依据过去经验形成的合理的解释的结构才会是有价值的。
显然在数据挖掘存在着一个潜在的机会。在大数据集中发现模式的可能性当然存在,大数据集的数量与日俱增。然而,也不应就此掩盖危险。所有真正的数据集(即使那些是以完全自动方式搜集的数据)都有产生错误的可能。关于人的数据集(例如事务和行为数据)尤其有这种可能。这很好的解释了绝大部分在数据中发现的“非预期的结构”本质上是无意义的,而是因为偏离了理想的过程。(当然,这样的结构可能会是有意义的:如果数据有问题,可能会干扰搜集数据的目的,最好还是了解它们)。与此相关联的是如何确保(和至少为事实提供支持)任何所观察到的模式是“真实的”,它们反应了一些潜在的结构和关联而不仅仅是一个特殊的数据集,由于一个随机的样本碰巧发生。在这里,记分方法可能是相关的,但需要更多的统计学家和数据挖掘工作者的研究。
数据挖掘与统计应用的前景
也许,现在的统计学正处在一个十字路口,我们可以决定是接受还是拒绝改变。如上所说,两种观点都极富说服力。虽然观点丰富,但谁也不能肯定哪一种战略能保持我们领域的健康发展和生命力。大多数统计学家好象认为统计学对信息科学的影响越来越小。它们也不太同意为此作些什么。站主导的观点认为我们有市场问题,我们在别的领域的顾客和同事不了解我们的价值和重要性。
中国的数据挖掘相对与统计学的发展,起步更晚,但发展更快,以spss的数据挖掘软件clementine的销售为例,中国目前的销量以经以较快的速度在增长了.
愿中国的统计应用能先于经济发展与世界接轨!</P>
<p>
<p>
<p>
<p>
<p>
<p>
<p>
<p>
<P>
附:
1.目前数据挖掘的主要软件
目前硬件和软件供应者的目的是在市场还未饱和前通过迅速推出数据挖掘产品为数据挖掘作广告。如果一个公司为数据挖掘包投资了五万至十万美元,这也可能只是实验,人们在新产品未被证实比旧产品具有很大优势之前是不会贸然购买的。以下是一些当前的数据挖掘产品:
IBM: `Intelligent Miner` '智能矿工'
Tandem: 'relational Data Miner' '关系数据矿工'
AngossSoftware: 'KnowledgeSEEDER' `知识搜索者`
Thinking Machines Corporation: 'DarwinTM'
NeoVista Software: 'ASIC'
SPSS: 'Clementine'
DataMind Corporation: 'DataMind Data Cruncher'
Silicon Graphics: 'MineSet'
California Scientific Software: 'BrainMaker'
WizSoft Corporation: 'WizWhy'
Lockheed Corporation: 'Recon'
SAS Corporation: 'SAS Enterprise Miner '
除了这些`综合`软件包外,还有许多专门用途的产品。另外,许多专业于数据挖掘的咨询公司也成立了。
2.在当前的数据挖掘软件包中被用到的统计分析过程:
.决策树推断(C4.5,CART,CHAID)
.规则推断(AQ,CN2,RECON,etc)
.最近邻方法(合乎情理的方案)
.聚类方法(数据分离)
.联合规则(市场篮子分析)
.特征提取
.可视化
另外,有些还包括:
.神经网络
.bayesian belief 网络(图形模型)
.遗传算法
.自组织图
.神经模糊系统
几乎所有包都不包括:
.假设检验
.实验设计
.响应表面模型
.ANOVA,MANOVA,etc.
.线性回归
.判别分析
.对数回归
.广义线性模型
.正则相关性
.主成分分析
.因子分析
后面的这些过程是标准统计包里的主要部分。因此,当前被市场化的数据挖掘包中的大部分方法在统计学科之外产生和发展。统计学核心的方法已被忽略。
</P> |