需要支持或定价信息

点击此处或致电+86 (0) 21-6352 3300

consulting

咨询服务

IBM SPSS的数据挖掘产品和服务基于跨行业的数据挖掘标准方法(CRISP-DM),确保了产生及时可靠的结果。CRISP-DM是由行业专家创建的,能够在数据挖掘过程的每一个阶段逐步地提供指导方针、任务以及目标,其一直是对于数据挖掘项目的标准行业流程。

CRISP-DM需要将数据挖掘看作是一个完整的过程,从项目伊始,交流在数据收集和管理时遇到的业务问题,到数据的预处理,建立模型,模型评价,直至最后模型的部署。要掌握这一整套的方法,需要各种能力的结合,从基于定量推理与敏锐商业触觉的数据亲和力,再到娴熟的沟通技巧。而在Asiaanalytics,我们已经成功地将所有的要素,结合成了一个令人心动的包:由中国顶尖的数据分析师、数据挖掘工程师、数据科学家开发并支持的世界级的分析技术——IBM SPSS Statistics和IBM SPSS Modeler。

CRISP-DM包括六个步骤,其中每个步骤对于获得有意义的分析见解与切实可行的结果,都非常的重要。

商业理解:在这个初始阶段,目标在于识别和更好的把握数据挖掘活动的业务目标。为了达成这一目标,数据科学家们通常必须要与业务专家一起工作。此外,必须要生成一个项目计划以确定整个数据挖掘活动的架构。

数据理解:在这一阶段,我们需要收集数据,描述数据,并且审核其质量。

数据预处理:这一阶段主要包括从数据集中选择将在数据挖掘过程中被用到的数据。为了达成这一目标,我们需要去除掉那些不需要的数据并且确认被选择的数据不存在异常。

模型建立:在这一阶段,我们将选择最适当的模型来实现业务目标。之后我们将建立模型并对其的构成进行评估。

模型评估:在这一阶段,我们将基于业务目标,评估模型结果的质量。如果需要,我们也将回顾检查之前做的一些处理。

模型部署:根据需要的不同,部署可以是简单地形成一份报告,也可以是将结果与现存系统进行一个复杂的整合,或者实现数据挖掘流程的重复利用。

所有AsiaAnalytics的咨询顾问都系统地接受了这一整套方法的培训,并且能够在任何恰当的时刻将之运用于服务中。作为分析领域的先驱,我们的团队在CRISP-DM方法的运用上比行业内的任何对手都具有更为丰富的经验。这也使得我们进行实际应用时有着无可比拟的优势,令我们在向客户提供解决方案时最大化分析的精确性和有效性。

在接下来的章节中,您将能看到对于CRISP-DM六个阶段更为详尽的描述:

六大步骤:

商业理解

以一个业务的视角获知“人物”、“事件”、“时间”、“地点”、“原因”以及“方式”。

透彻地理解项目的各个关键因素:当前的业务形势,主要的业务目标,成功的准则,以及谁将会决定项目的成功与否。

数据理解

确保数据是可用的

收集所有你认为你的项目所需要的数据。如果你的数据要从多个不同的来源获取,请确保你的挖掘工具能够将它们进行整合。数据理解这一阶段开始于初始的数据收集,之后逐步深入从而熟悉数据,识别数据的质量问题,对数据有一个初步的洞察,或者发现其中有趣的部分并形成一些针对隐含信息的假设。

生成一个项目计划

这个项目计划目的性很强,就是为了达成数据挖掘目标。它包括了各个步骤的概述,预期的时间表,潜在风险的评估,进行项目支持的工具与技术的初始评估。一般公认的行业时间表标准是:一个数据挖掘项目50%到70%的时间与精力会花在数据预处理阶段,20%到30%花在数据理解阶段,只有10%到20%是花在模型建立、模型评估与商业理解阶段,而5%到10%的时间精力则花在模型的部署阶段。

数据预处理

选择你的数据

决定什么数据将用来分析,并且列出你的理由。这其中包括了:

  • 进行显著性和相关性检验来决定使用哪些字段(即变量)
  • 选择数据的哪些部分(子集)
  • 使用抽样技术来检查各小块的数据是否适当

数据预处理阶段涵盖了所有用以构建最终数据集(用以建模的数据)的活动。数据预处理的任务可能会多次执行,并且没有指定的顺序。这些任务包括表、记录、属性等的选择,也包括建模前的数据转换与清洗。

评估当前形势

在这一步骤,数据分析师将概述从员工到软件等一切数据挖掘项目中可用的资源。特别重要的是发现什么数据可以用来达成主要的业务目标。同时,数据分析师应该列出项目中所有的假设,譬如“为了定位业务问题,大于50岁的顾客不能少于50人”。此外,数据分析师还要列出项目的风险,应对这些的风险的潜在解决方案,建立业务与数据挖掘专业术语的词汇表,以及给出项目的成本收益分析。

确定数据挖掘目标

数据挖掘目标要以业务的术语来陈述整个项目的目标,譬如“基于顾客的过去三年的购买记录,人口统计学信息(年龄、工资、城市等等)以及物品的价格,预测他会购买多少装饰品”。项目成功与否同样应该用这些术语来进行定义,譬如,达到一个特定水平的预测精度可以判定为项目成功。

收集初始数据

在这一步骤中,数据分析师需要获取必需的数据,包括根据需要对数据进行加载和整合。数据分析师应该确保报告了他们可能遇到的问题以及相应的解决方案,从而促进项目未来的反响。譬如,数据可能必须要从多个来源获取,其中一些来源可能会滞后很长时间。那么知道这些对于提前避免潜在的延期将是很有帮助的。

描述数据

在这一步骤中,数据分析师需要检验所获数据的一些总体或者表面的特性(并且报告这些结果),检验包括数据的格式,数据的质量,每个表的记录数与字段数,字段的一致性在内的各种问题,还有数据的其他一些表面的特征。而关键问题在于,获取的数据是否能够满足相关的需求?譬如,如果年龄是一个重要的字段,而数据并没有反映出全体的年龄范围,那么收集另一份数据可能会是一个明智的选择。这个步骤同时也要给出对于数据的基本理解,明白接下来应该做些什么。

探索数据

这一任务主要处理各类通过查询、可视化和报告获得的数据挖掘问题。譬如,一个数据分析师可能查询数据来发现一个特定收入水平的顾客经常购买的产品类型。或者,分析师可能进行可视化分析,从而发掘潜在的欺诈模式。之后数据分析师应该给出一个数据探索报告,概述一些初步的发现,初步的假设,以及它们对于项目剩余内容的潜在影响。

审核数据质量

在这一步骤,分析师将检验数据的质量,定位问题所在,譬如,数据是否完整?缺失值是常见的一种情况,特别是当数据的收集横跨了很长一段时间。一些常见的检验包括,缺失的属性与空字段,是否已经展现了所有可能值,值的合理性,值的拼写,是否具有不同值的属性其实有相似的意义(譬如低脂与低卡路里)。数据分析师同时应该检查那些可能解释了有悖常识(具有高收入的青少年)的属性。

模型建立

在这一阶段,多样化的建模技术将被选择与应用,而它们的参数将被校准到最优化的值。通常情况下,对于同一个数据挖掘的问题类型,会有多种适合的技术。一些技术对于数据的形式有特定的要求。所以,常常需要回到数据预处理的步骤。建模这一步骤包括了建模技术的选择,检验的设计,模型的生成,以及模型的初步评估。

选择建模技术

这一任务指的是选择一种或多种特定的建模技术,譬如C5.0决策树,或者反向传导的神经网络。如果有假设是基于建模技术的,那应该将此记录下来。

完成一个检验设计

在建立模型之后,数据分析师必须进行实证检验测试验模型的质量与有效性,从而确定模型的优势。在监督性数据挖掘任务,譬如分类中,经常用误分率来作为数据挖掘模型质量的衡量标准。因此,我们通常将数据分为训练集和测试集,利用训练集来建立模型,而用测试集来评估模型的质量。换言之,数据分析师会基于一部分数据去建立模型,而用另一部分数据去检测它的有效性。这使得数据分析师能够在用模型预测未来之前,先测量出模型的预测能够多大程度上与历史吻合。因此,在建立模型前设计一个检测的程序通常是很恰当的,这对于数据预处理同样具有意义和影响。

建立模型

在检验之后,数据分析师将运用建模工具为准备好的数据集建立一个或者多个模型。

评估模型

数据分析师将依据他的专业知识,数据挖掘的成功准则,以及目标的检验设计去解释模型。他会从技术层面判定模型应用的成功与否和其中发现的技术,但是他也应该与业务分析师、专业领域的专家一起协同工作,从而以业务角度来解读数据挖掘的结果。数据分析师甚至可能在建模过程发现潜在的数据问题时,让业务分析师加入来帮助项目的实施。

譬如,一个数据挖掘项目可能是检验影响银行账户关闭的因素。如果数据来自于一个月份内几个不同的时点,那两个数据集的账户余额可能就会存在显著的差异(因为用户倾向于在月末领工资,因此月末收集的数据可能会显示一个更高的账户余额)。业务分析师通常很熟悉银行的运营,因此可能会直接指出这样的矛盾所在。

在这一阶段,数据分析师也会尝试对模型进行排序。他们将依据衡量模型的准则对模型进行评估,同时考虑到业务目标和业务成功的准则。在大多数的数据挖掘项目中,数据分析师会多次运用同一种技术或者运用多种候选技术来生成数据挖掘的结果。在这一任务中,他们也会依据评估准则比较所有的挖掘结果。

模型评估

评估你的数据挖掘结果

确定你的模型给出的结果是否帮助你达成了业务目标,实现的效果如何。如果模型存在缺陷,那么是否存在什么业务上的原因?

在项目的这一阶段,数据分析师已经从数据分析的视角建好了一个或多个高质量的模型。在进行最终的模型部署之前,如何更透彻评估模型和检查之前构建模型所执行的各个步骤,确认其恰当地达成了业务目标是非常重要的。其中一个非常关键的目标在于,确定是否有很重要的业务问题尚未被充分地考虑到。在这一阶段的最后,项目经理还应该要准确地决定如何去应用数据挖掘的结果。总而言之,这一阶段的核心步骤是结果的评估,之前流程的回顾检查,以及接下来步骤的确定。

评估结果

之前的评估主要集中于模型准确度和模型普适性等因素。这一步骤将评估模型与业务目标的匹配程度,如果模型存在缺陷,那还要确定是否是因为一些业务层面的原因导致的。这里另一个选择的是在实际的应用中检验模型,如果时间与预算允许的话。此外,评估也要试着找到在未来的方向中,那些已经显露出来的额外挑战,信息或者线索。在这一阶段,数据分析师要基于业务成功的准则总结评估结果,包括最终陈述这个项目是否已经达成了初始的业务目标。

回顾检查流程

这个时候很适合对数据挖掘的整个约定进行一个更透彻的检查回顾,确定是否有一些重要的因素或者任务以某种方式被忽略了。这个检查也涵盖了质量保证问题(譬如,我们是否正确建立了这个模型,我们只用了那些在未来部署时可用的属性?)

确定接下来的步骤

在这一阶段,项目经理必须决定是否结束这个项目并继续进行模型的部署,或者开始新一轮的循环,又或是开始新的数据挖掘项目。

模型部署

创建一个部署计划

用之前的项目结果确定如何最优化地去应用它们从而定位你的业务问题:

  • 总结可部署的模型或软件结果
  • 创建并评估可选择的部署计划
  • 确认结果将会怎样被分配给各个接受者(譬如流失维系的实施)
  • 确定如何去监控结果的应用并测量其收益
  • 识别部署过程中可能的问题与陷阱

模型的创建通常不会是项目的终点。即便建模的目的仅仅是增加从数据中获取的知识,这些得到的知识也需要以客户能够使用的方式被组织和呈现。这也包括了在机构进行决策过程中,会应用到“活”的模型(仍在不断被更新的模型)。无论如何,根据需求的不同,部署这一阶段可以是简单地形成一份报告,也可以是复杂地实现在企业中的数据挖掘流程的重复利用。

计划部署

为了将数据挖掘的结果部署到业务中去,这个任务将会利用评估的结果并且创建部署的策略。

计划监控与维护

如果数据挖掘的结果已经变成日常业务和环境的一部分,监控与维护将是非常重要的。一份精心准备的维护策略将能避免数据挖掘结果的不正确应用。

生成最终的报告

在项目的最后,项目经理与整个项目团队将全部写完最终的报告。根据配置计划,报告可能仅仅是对于整个项目和过程(如果它们还没有作为一个不间断的活动被记录下来)的一个总结,或者一个最终的、综合的数据挖掘结果呈现。这个报告包括了所有之前的可交付产品、总结以及结果的整理。同时,通常会有一个项目成果的报告会,期间数据挖掘的结果将以口头形式呈现给顾客。

回顾项目

数据分析师应该评估失败与成功,以及在未来项目使用中的潜在提升空间。这一步骤包括了对项目重要过程的总结,以及对所有重要的项目参与者的访谈。这个文档还可以包括各种陷阱,误导的途径或者在类似情境下选择最合适的数据挖掘技术的线索。在理想的项目中,经验文档同时也会包含每个项目成员在所有项目阶段与任务中写的所有报告。