
让数据挖掘工作起来
热 荐
【字体:小 大】
让数据挖掘工作起来
作者:- 文章来源:- 点击数:1833 更新时间:2006-4-22 
Ken North
选自 DB2 Magazine
2004 年 2 月 数据挖掘从数据中掘取有价值的信息,今天它已经比以往任何时候都要热门。那么为什么还有这么多的人不能正确使用它呢?本文中,数据挖掘方面的专家共同探讨数据挖掘技术的前景,以及制约其成功的因素。
数据挖掘从数据中掘取有价值的信息,今天它已经比以往任何时候都要热门。那么为什么还有这么多的人不能正确使用它呢?
1999 年 Data Miner 专栏首次出现在 DB2 杂志上。4 年以后,数据挖掘仍然是个热点话题。最近,一个 Gartner 报告中(2002 年 12 月"技术采用和价值:调查结果")将数据挖掘排在了所有行业里对组织有战略性影响的 37 项新兴技术中的第三位。数据挖掘已经被人们接受、应用并且普遍存在。
最近,我与我在 IBM Thomas J. Watson 研究室的同事们共同探讨了关于数据挖掘未来的发展趋势。其中包括数据分析主管 Chid Apte ,他的团队在数据挖掘和相关领域实施了纯理论的研究及应用研究。此外,Apte 所在团队的成员 Naoki Abe、Rick Lawrence 和 Ed Pednault 也加入了这次讨论。他们从科学家和商业顾问的双重角度(他们经常花许多时间和 IBM 客户在一起,帮助客户们找出某些特定商业问题的解决方案)发表自己的观点。
Hermiz:在我们讨论未来之前,先让我们先简单谈谈过去。你认为数据挖掘最大的成功之处是什么?这项技术在哪些地方还没有达到其预期目标呢?
Apte:数据挖掘的最大成功之处在于它使以一种更自动化的方式对具有大量数据的商业活动进行分析和探索成为可能,这在过去需要由行业专家和统计专家来提取有价值的信息。虽然这可能不符合传统意义上的成功概念,但它确实正在开启一扇门,这就是我认为数据挖掘的最大成就。至于它的不足之处,我认为挑战主要在于其可操作性上,到目前为止我们依然没有解决这个难题。
Pednault:我想已经有相当数量的公司都做了数据挖掘,并且完全依赖于预测模型来从事他们的商业活动并从中获利。从那些公司的情况看来,数据挖掘增强了他们的能力。对我来说,这就是成功的定义。举例来说,一些公司已经使用数据挖掘来进行信贷风险评估很长一段时间了,他们依赖数据挖掘来支持他们的风险管理。
Lawrence:继续延伸一下 Apte 的话题,问问你自己在数据挖掘领域最成功的应用是什么呢?我的看法是信用卡欺诈行为检测,在这个应用里,数据量非常大,一旦你犯了错误将会造成重大损失,并且处理工作必须非常快速地在线进行。当然我能肯定还有更多的成功案例。另一方面,如果我们批判地来看数据挖掘,我们能够得出这样的结论:当被作为解决任何特定问题的万能药时,数据挖掘通常会失败。在这些情况下,它的失败是因为人们对它的期望值太高了。没有实践过数据挖掘的人们觉得它几乎是不可思议的,他们以为拿来一个根本就不合适的问题,难以置信地填入一些脏数据到数据挖掘工具里,然后莫名其妙就能产生一个有用的解决方案。这是不可能的。
Abe:谈到数据挖掘的成就不可能不谈谈 Web 的成就。我想补充的一点是,对数据挖掘的预期目标在某种程度上是失败的,这是因为基于 Web 的应用模型同样没有实现它的预定目标。有这么一种观点:在 Web 上,数据应该能够自动出现,并且操作也应该自动发生。事实证明并没有这么简单,商业活动还涉及到人、数据的物理存储以及操作问题等因素。
Hermiz:如果让你来考虑基于信息解决方案的要素--人、过程和技术--你认为挑战和机遇分别在哪里?
Apte:这几个要素紧密联系。对一个因素的挑战对另外一个因素来说就是机遇。我们可以将技术应用于流水线型的业务处理过程,通过减少人们的工作量使他们能够去做他们最擅长的事情。
Pednault:我认为技术是最重要的,它创造了机会,但同时还存在非常多的变化需要过程来处理,当然最终运用技术的还是人。那么哪些变化是必需的呢?就拿客户关系管理(CRM)系统来说,通常你会安排不同的经理来负责不同的商业活动,而商业活动过程的经理又有可能是其他人,这样客户所看到的不再是独立的一个商业活动,而是一系列的活动,于是在这样的业务过程中您可能失去客户关系。在 CRM 中业务过程需要按照自己的方式来启动。即使技术的存在有助于管理个别的客户关系,但是这样做需要业务过程的巨大转变。业务人员必须意识到这些变化对业务的发展是必需的,然后他们将处理所有与人有关的问题(谁管理什么,谁拥有什么,以及如何衡量每个人)。而在一些组织团体中可能会存在非常大的惯性阻力,导致不能充分地利用技术的优势。
Lawrence:我认为技术的进步不可能导致一些相应的技能,如数据分析、统计学等变得过时。但是这对收集数据的那部分IT从业人员来说要求更强的业务理解能力,他们需要采取一种可以被商业智能工具实际使用的方式来收集数据。
Apte:如果能够提高具有必备这种技能工作人群的数量,你当然可以更多地利用我们今天已经拥有的技术。但是这种投资是我们应该做的吗?--它使得过程更加依赖于劳动力--而不是提高技术水平来降低对熟练劳动力的依赖。
Abe:我同意那些技能永远不会过时,但是我也相信存在着这样的推动力,它促使数据挖掘过程的更多部分变得自动化。在未来的3到5年,我认为自动化将会对技巧技能依赖的减少产生巨大的推动作用。
Hermiz:当我们谈及数据挖掘的时候,总是要围绕数据而言。对于目前商业数据的状况--包括数据的收集、净化和存储,你有什么看法呢?业务数据质量的缺乏是一个重大的制约因素吗?
Lawrence:我认为,对于数据挖掘社区而言,在这方面我们的进展几乎陷入了一个非常困窘的局面。即使倒退10年来看现在面临的数据收集方面的各种失败,我想我们都会感到震惊。如果谈到客户数据库,从考察到订单实施,整个数据收集过程中各个方面之间联接的脱节是如此的频繁,以至于让我们都感到惊讶。构建能够显示出一个具体营销活动和采购决策最终效果的数据是非常困难的。因此,使用那些数据来开发一个数据挖掘模型用于改进过程也是非常困难的。
Apte:虽然数据仓库以及相关联的数据净化工具已经大量存在,但是它们没有像我们希望的那样被广泛和大量地使用。而且,我不认为那些使用工具的人就已经解决了一些问题,包括收集数据并且按照数据挖掘可以使用的格式组织这些数据。我们这个研究团体花费在探索、并利用技术来解决这个问题的时间远远少于它本应该花费的时间。
Lawrence:实际上,我想说的是数据收集过程是如此之差,以至于数据挖掘研究人员总是被要求重新构建系统,以回退和纠正数据收集系统中存在的缺陷。现在我们正在使用一项技术,我们计划将其用于净化数据,以纠正数据收集系统中不断出现的错误。一个很小却又很令人烦恼的例子是:允许以任意格式输入一个特定采购决策的CRM系统。与其将系统设计成为给用户提供三、四种不同的结果来选择--买或不买等等,我们还不如将文本分析应用于自由格式的响应,以推导出结果。
