需要支持或定价信息

点击此处或致电+86 (0) 21-6352 3300

Insights

常见问题

 

SPSS Statistics相关问题

问题1:当以.xlsx格式保存至EXCEL的时候,如何设置表格名称?

答:在旧版本的Statistics Statistics 19及20中,当保存至EXCEL的.xlsx格式时,表格名称为默认的Sheet1, Shee2等。在最新的21版本中,表格名称将依据文件名自动生成。若你需要使用之前的命名方式,您可以使用“导出至数据库”功能。

首先,你需要有一个创建好的XLSX文件。之后你可以使用syntax语句,通过EXCEL ODBC驱动,将文件输出至数据库。

 SAVE TRANSLATE 

  /TYPE=ODBC

  /CONNECT='DSN=Excel Files;DBQ=yourfile.xlsx;'

  /ENCRYPTED

  /MISSING=IGNORE

  /REPLACE

  /TABLE='Sheet1'

  /KEEP=id, gender, bdate, educ, jobcat, salary, salbegin, jobtime, prevexp, minority.

问题2:WIN764位系统中Statistics Statistics客户端(网络用户)运行时报错,如Visual C++ Java Runtime error,如何解决?

答:可尝试按照以下方式解决

1. 打开Statistics安装文件夹,默认位置为C:\Program Files\IBM\Statistics\Statistics\版本号

2. 找到并用记事本修改Statisticsprod.inf文件

3. 将文件中所有的空行删除并保存

4. 重新运行程序

问题3:当在输出中选择打印指定项目的时候,是否可以把所有的内容都打印到单一页面当中?

答:在19版本的Statistics Statistics产品中,若打印内容超过1页,内容有可能会被分开打印。但是在20版本中已经通过一个叫做“Fast tables”的新引擎修复了此问题。

新的图表引擎在默认设置下是被选择的。若您想确认此选项可以通过如下步骤实现:

编辑->选项->枢轴表->表呈现->显示为旧表格(解除选择)

问题4:关于Statistics匹配数据的输入的问题,例如,我做的是师生某一特质的匹配,一份是教师量表一份学生量表,教师与学生是一对一的匹配关系,这样的量表要怎么样合并呢?

答:找出两个表中的关键字段和对应关系,横向合并即可。

问题5: Statistics18.0输出结果显示不完整,用20.0可以(模拟制作8000多个姓名的频率表)有办法在output窗口显示吗?

答: 双击表格就可以在新窗口打开全部输出结果。

问题6:Statistics的SPLIT FILE功能与分类变量水平值的类别数有影响吗?比如某定型变量取值类别数为86,分割数据功能提示无效呢?

答:可以查看数据的类型,如果是文本型的,需要加双引号。

问题7: Statistics能否实现将一个数据表按某个条件分割成多个数据表?不是逻辑分割,是能存成文件的方式。数据很大,用自带的转换格式功能转出的文件有错误

答:通过选择节点和导出节点可以实现分割文件的功能。

问题8:将Excel数据导入到Statistics后,日期部分无法正常显示,在Statistics中显示的41157格式,将Statistics中数据类型调整成日期后 单元格中内容显示为空 这是什么原因?

答:这个问题应该是两个软件之间对于日期格式数据处理不一样的原因。 可以让他试试把日期格式数据调整成文本格式的,然后再倒入到Statistics中,在Statistics中用日期函数进行处理。

问题9:多选题怎样录入啊? 还有就是如果我要录入一个题目中的各个因素的重要程度 0不重要-5非常重要 怎么录入数据啊?

答:有两种方法:即多分类,或二分类。

问题10:把数据Natural Logarithm的好处和坏处是什么?因为用Statistics去分析未被Log的数据得出来的答案与把数据Log了之后的答案是不一样的,未Log之前得出来的答案比较适合使用,但是有很多学术研究都会把数据给Log了。 

答:不是所有情况都需要做LOG处理,LOG处理的好处:1,可以将大数量级变成小数量级;2,还可以改变数据分布,可以让数据更正态化,以满足模型假设。

问题11:自变量不是连续的,而是离散的,是不是就不能用多元线性回归了?但其实试了一下,做出来的结果很好,就是异方差十分非常明显,几乎成一条直线。

答:可以用多元线性回归。异方差可以通过加权或岭回归等方法进行解决。

问题12:现在有一些变量,主要是想通过聚类分析的方法把这些变量分成几类,总共有20个变量,请问在Statistics中如何实现?

答:Statistics中的系统聚类方法可以实现按照变量聚类。实现方式一般操作如下:

1、点击菜单:分析->分类->系统聚类

2、选择要聚类的指标(如20个指标)->变量,“ 分群 ”设置为“ 变量 ”(R型聚类)

3、点击“ 统计量

”,勾选“ 相似性矩阵 ” - 有助于理解降维过程

4、点击“ 绘制 ”,勾选“ 树状图 ” - 查看变量的直观聚类图

5、点击“ 方法 ”,根据聚类变量的类型设定聚类变量方法和度量标准

问题13:我购买的是Statistics20.0全模块软件,发现软件中的PLS功能是灰色的不能用,请问是否需要下载插件,可以提供解决方案和下载链接吗?

答:PLS 属于扩展命令,需要在您计划运行 PLS 的系统上安装 IBM® Statistics® Statistics - Integration Plug-In for Python。PLS 扩展模块需要单独安装,具体可以按照下列步骤进行操作:

1. Partial Least Squares extension module and dialog for Statistics Statistics

下载链接:https://www.ibm.com/developerworks/mydeveloperworks/files/app?lang=en#/p...

下载完毕后解压缩,将文件夹中的两个文件(PLS.py,plscommand.xml)复制到文件夹'...\IBM\Statistics\Statistics\20\extensions'中(PLS_Extension_Module_Install_Instructions.pdf是说明书,复制不复制都行)。

2.如果是32位的windows系统,下载这个文件,并安装:

Statistics_Statistics_PythonEssentials_20002_win32.exe

https://www.ibm.com/developerworks/mydeveloperworks/files/app?lang=en#/p...

如果是64位的系统,则下载安装这个:

Statistics_Statistics_PythonEssentials_20002_win64.exe

https://www.ibm.com/developerworks/mydeveloperworks/files/app?lang=en#/p...

3.下载这Numpy&Scipy文件,并安装:

Numpy for python2.7

http://sourceforge.net/projects/numpy/files/NumPy/1.7.0b2/numpy-1.7.0b2-...

SciPy for python2.7

http://sourceforge.net/projects/scipy/files/scipy/0.11.0/scipy-0.11.0-wi...

问题14:我们是正版Statistics软件用户,在使用回归分析的过程中,发现结果中出现“试用版”的字样,请问这几个字是什么意思,是指软件不是正版的吗?

答:回归分析系数中“测试版”代表标准化系数,也叫Beta系数,汉化时把专有名词“Beta”直译成“测试版”,所以造成客户的误解,它与产品本身正版或测试版无关。

问题15:有n为300一个样本,对这300个人测试了a,b,c三个量表,现在想根据c量表分数正负一个标准差以外,也就是把这300个人分组,分成大于+1D,和小于-1D的两组,用Statistics该怎么操作?

答:利用菜单“转换—>可视离散化”,把c选入“要离散的变量”中,继续,定义变量的名称,点击‘生成分割点’,选择第三个中的“+/-1倍的标准差”即可生成分组变量。

问题16:方差分析做完之后为何要进行两两检验,如何选择检验方法?

答:方差分析做完之后,如何结果是显著的,需要进一步探讨那些组之间是存在差异,所以要进行两两检验。方法的选择参考如下:

 若样本数量一样,各组的方差是类似的,则选择REGWQ或者Tukey方法;

如果想严格控制第一类错误,则选Bonferroni;

若样本量轻微不同则选择Gabriel’s,若样本量差异很大,则使用Hochberg’s GT2;

若不确定方差齐性,则使用Games-Howell方法。

问题17:用Statistics绘制饼图的时候为什么不能显示每一块所占的百分比呢?只有图形,看不到数字?   

答:双击生成的饼图进入图形编辑状态,在“元素”菜单中点击“显示数据标签”就会显示百分比,利用编辑对话框的功能也可以改变文字或数字的大小、位置等。

问题18:如何在Statistics中进行正交设计及正交分析?

答:首先设计正交表,使用“数据”菜单—“生成”,输入因子名称,然后定义因子包含的值,点击确定即可生成正交表。接着,按照正交表的进行试验,将试验结果输入Statistics正交表的最后一列,就可以进行正交分析,正交设计的分析用GLM模块进行。具体操作如下:“一般线性模型”—“单变量”,选入应变量和固定因子,然后进入“模型”设置,这一步非常重要!设置模型为custom,然后选择需要分析的主效应和交互作用。点击确认,就可以得到所需要的结果。

问题19:两因素以上的方差分析在Statistics中用什么来完成?

答:多因素方差分析可归入一般线性模型,在Statistics中使用GLM菜单。

问题20:正版软件进行分析时,输出窗口中文字符是乱码。怎么解决?

答:修改输出窗口显示的字体即可。菜单“编辑”—“选项”—“查看器”界面下,将“文本输出”中的字体改为:SansSerif。

问题21:Statistics支持多种语言,习惯用英文界面,在什么地方设置语言?

答:菜单“编辑”—“选项”—“常规”界面,输出和用户界面中的语言下拉列表中更改语言选项。

问题22:Statistics分析菜单里有IBM Statistics Amos(A),为什么点不开,用不了呢?

答:Amos是一款单独的产品,有独立的介质安装后才可使用,此处只是一个链接。

问题23:能否对数据文件加密?

答:.sav格式的数据能通过Statistics软件进行加密,方式:文件—另存为,勾选用密码加密文件,设置密码。一般的数据库文件通过管理员设置访问权限进行加密。

问题24:Statistics能进行岭回归吗?

答:Statistics可以实现岭回归分析。岭回归分析是一种有偏的回归分析方法,它是为了解决多重共线性的问题而提出来的方法。在17.0之前Statistics的岭回归没有对话框界面,而是通过名为“Ridge Regression.sps”的宏程序来实现的,该宏程序初始保存在Statistics的安装路径中,通过Statistics Syntax语法调用该宏程序(INCLUDE)可以实现岭回归的功能。

在17.0之后,Statistics增强了最优尺度回归(即分类回归)的功能,在其中包含了岭回归的内容。通过对最优尺度回归中的规则化方法进行设置,并选择岭回归的参数,就可以实现岭回归的功能。

问题25:方差不齐性时可否进行多因素方差分析?

答:方差分析要求数据满足以下假定:观测样本是独立的;观测样本服从正态分布,如果存在组间差异,则对每组样本可以有不同的正态分布;各组的方差相等(即方差齐性)。进行方差分析的时候,首先需要判断数据是否满足以上三个条件。在样本量不同的情况下,方差不齐次程度不同,对统计方法的稳健性影响不同,如当样本量较小时(N=5,6,7),多因素方差分析的F统计量稳健程度相对较高(方差最大的组与方差最小的组差异较大时,F统计量依然稳健);当样本量较大时(n>20),F统计量对于方差齐次性敏感程度较高。

当方差齐次性不满足时,可参考“权重估计-加权最小二乘”或“混合线性回归”方法进行分析;也可以先通过变量变换,例如对数变换等,减少方差不齐的影响,然后再进行多因素方差分析。

问题26:在Statistics中设置虚拟变量的具体过程?

答:虚拟变量又称虚设变量、名义变量或哑变量,用以反映值的属性的一个人工变量,是量化了的自变量,通常取值为0或1,引入哑变量可使线性回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。

在Statistics中,可以手工地进行哑变量的设置,通过转换菜单下的“重新编码为不同的变量”,设置虚拟变量。例如,对于一个三分类变量,首先选择一个类别作为基准,然后分别对其他两个类别,生成两个虚拟变量(如下表中X1和X2)。

在Logistic回归中,Statistics可自动对分类变量进行哑变量转换,无需手工设置。

问题27:如何使用Statistics对数据进行标准化?

答:数据标准化主要功能就是消除变量间尺度不同或量纲不同对分析结果的影响,从而使数据具有可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。通常我们指的标准化默认为Z-score标准化,在Statistics中可以通过菜单“分析-描述统计-描述”中勾选上“将标准化得分另存为变量”的方式来实现。

问题28:25%单元格期望值小于5,如何做独立性检验?

答:两个分类变量的独立性检验可以用卡方检验来实现。如性别(男/女)与支持的球队(AC米兰/巴塞罗那)是否独立。如果两个变量相互独立,AC米兰的男女球迷比例应该与巴塞罗那的男女球迷比例大致相当。如果两个变量不独立,则可能男性球迷更倾向于喜欢AC米兰女性球迷更倾向于巴塞罗那;或者相反,男性球迷更喜欢巴塞罗那而女性球迷更支持AC米兰。

当原假设“两个变量相互独立”为真时,卡方统计量近似服从卡方分布。样本数量越大则统计量越贴近于卡方分布。当每个单元格的期望频率都大于5时,我们不用太担心卡方统计量偏离卡方分布;然而当存在期望频率小于5的单元格时,卡方统计量会偏离卡方分布(这就是为什么你常常听说卡方检验要求每个单元格的期望频率大于5),这时卡方检验给出的结果是十分值得怀疑的。

幸运的是有位叫Fisher的统计学家发明了“Fisher精确检验”,它不对统计量的分布做假设,因此你完全不用去担心单元格期望频率的问题。这个方法通常用于2*2的列联表,但是对于n*m的列联表也同样适用。但是当n和m比较大的时候,Fisher精确检验的运算量会特别大,可以考虑选用Monte-Carlo法来替代精确法。在Statistics中,可以通过菜单“分析-描述统计-交叉表”下“精确”选项中勾选“Monte-Carlo”或“精确”(指Fisher精确检验)来实现。

问题29:因子分析中的因子得分是用载荷矩阵的值还是因子得分系数矩阵的值?

答:因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法,因子分析是研究相关阵或者协方差阵的内部相依关系,它讲多个变量综合为少数几个因子,以再现原始变量和因子之间的相关关系。因子得分是每个样本所对应的公因子的估计,因子得分可用于模型的诊断,也可作为进一步分析的原始数据。

因子得分矩阵在主成分法下实际是主成分系数矩阵,即通过该系数矩阵可以将主成分表示为各个变量的线性组合,因此因子得分是标准化变量乘以因子得分系数矩阵的值。

问题30:Statistics作散点图如何添加拟合曲线?

答:双击SPSS输出的图形,即可以添加拟合曲线:可以选择总计拟合线和子组拟合线,每种拟合线提供了均值、线性、二次、三次以及Loess(Local Regression)五种拟合方法。此外还可以添加内插线,可以选择直线、步长、跳跃和样条四种线性。

问题31:如何在Statistics中批量设置变量值的标签?我现在有200个城市想分别对应各自的编号,如何快速设置呢?

答:当分类变量的值比较多时,在变量视图中定义值的标签会比较繁琐,建议使用Syntax。以本题为例,syntax如下:

VALUE LABELS 城市

1 ’城市A’

2 ‘城市B’

3 ‘城市C’

……

200 ‘城市xxx’.

选中Syntax点击“运行选定内容”即可。

问题32:做ANOVA分析时对数据有没有假设,如果违反了假设会不会有很严重的后果?

答:正态性:同其它参数检验一样,ANOVA对数据也有正态性要求。这里的正态性是指样本在各组中呈正态分布。一般说来当各组样本量相等的情况下,即使样分布偏离了正态分布,F统计量也是很稳健的;而当样本量不等的时候,F统计量的准确性则受到偏斜的影响。

 方差齐性:ANOVA要求各组样本的方差大致相等。一般说来当各组样本量相等的情况下,即使方差齐性不满足,F统计量也是相对稳健的;而当各组样本量不相等时,F统计量则受到方差不齐的影响。当样本量较大的组有着更大的方差时,F统计量会倾向于更保守(更不容易显著,犯二类错误概率增加);而当样本量较大的组有着更小的方差时,F统计量会太容易显著(犯一类错误概率增加)。

   独立性:ANOVA适用于独立样本的均值比较。如果错误地把相关样本用于ANOVA,犯一类错误的概率会显著增加(本来各组之间没有区别,但是错误地认为它有区别)。

问题33:做因子分析的时候,如何确定提取因子的个数? 

答:因子分析是考察多个变量间相关性的一种多元统计方法,它往往被作为大型研究的中间步骤,在对数据进行浓缩以供其它统计方法进行分析。

选择因子提取的个数是个较为主观的行为,但是也有以下几个判断方法可以参考:

1. 特征根:特征根可以被看成是因子影响力度的指标,代表引入该因子后可以解释平均多少原始变量的信息。如果特征根小于1,说明该因子的解释力度还不如直接引入一个原变量的平均解释力度大。因此一般把特征根大于1作为纳入标准。

2. 碎石图:碎石土用于显示各因子的重要程度,它的横轴为主成分序号(从大到小排列),纵坐标是特征根。可以选择碎石土拐点对应的因子个数来作为主成分的纳入标准——拐点表示这个因子以后的因子影响显著小于之前因子的影响,因此被抛弃。

 3. 解释信息百分比:一般要求提取的因子能够解释70%以上的方差,否则信息的损失太大。

问题34:Statistics中是否可以做Shaprio-Wilk检验.      

答:可以,但是包含在其他功能中。在“分析”菜单下选择“描述统计”-“探索”,在“绘图”子选项中,勾选“带检验的正态图”,即可输出Shaprio-Wilk的检验结果,同时也会输出K-S(Kolmogorov-Smirnov)检验的结果。

问题35:我在使用Statistics软件时,部分模块的功能点击后没有任何反应,部分模块的选项也无法点开。   

答:21.0版本发布时可能存在一些bug,请下载最新版本的补丁对软件进行修复http://www-01.ibm.com/support/docview.wss?uid=swg27038029

问题36: 计算几个变量求和时,某些变量含有缺失值,使用计算变量算出来的结果,对应含有缺失值的行,结果是空的,不想结果为空值,我怎么处理?

答:你可以使用计算变量的SUM函数,这时含有缺失值的变量被忽略,只计算有值的变量的和。

问题37:去除离群值的方法有哪些?

答:均值+/- 3倍标准差;箱图;另外,Mahalanobis距离也可以实现离群值的查找,这种方法考虑了单个变量的变异以及变量之间相关的变异,使用多元线性回归对话框来实现。

问题38:怎么检查自变量之间是否有交互效应?

答:自变量之间如果有交互效应,则会表现出严重共线性,解决方法是将数据中心化,中心化的方式可以选择X-u(X),中心化的好处是:自变量的回归系数保持不变;排除了自变量之间的多重共线性。

问题39:Amos18安装在win8上出不来注册界面是怎么回事?

答:Amos18理论上不支持win8系统,如果您需要安装在win8上,出现上面的问题你可以参考下面的链接。http://www-01.ibm.com/support/docview.wss?uid=swg21479016

问题40:什么时候使用变异系数这个指标?

答:直观比较两组数据离散程度大小,标准差并不合适。有两种情况:一,测量尺度大小相差很大时。比如蚂蚁和大象体重差异,大象肯定大于蚂蚁。二,数据量纲不同时。比如身高和体重变异程度的比较。

问题41:主成分分析法对样本数量有最低要求吗?

答:主成分分析是常用的数据降维方法,它可以用尽量少的变量去包括尽量多的信息,从而在尽量减少信息损失的情况下减少变两个数。但是主成分分析法对样本数量有着非常严格的要求。

首先,在任何时候,样本数量都不可以低于50个。其次,随着变量数的增加,样本数量也需要增加:样本数量至少是变量数量的5倍,以10倍为佳。在实际的分析中,可以参考Kaiser-Meyer-Olkin Measure of Sampling Adequacy统计量来查看样本量是否充足:一般认为>0.8为非常好,0.7-0.8为好,0.5-0.7为中等,<0.5为不可接受。

问题42:我知道MAPE是衡量模型好坏的一种方式,但我不知道它是怎么样算出来的?是否可以通过Statistics输出的其它结果数据自己计算出来?

答:首先要得到模型的预测值,也就是根据自变量和拟合模型计算出的因变量值,记为y*,记原始因变量值为y。MAPE=sum[ |y*-y|*100 / y ] /n ,其中n是样本量,sum是求和符号。MAPE值越大,说明预测值与原始值差别越大,也即预测效果越差。

问题43:  调节变量是类别变量,现要分析两个回归方程回归系数的差异性,便于下一步进行调节分析。关键是如何进行差异性分析?

答:一元回归的话,方法一:计算两组数据的r,然后用fisher的r-z转换,比较两个z的差异是否显著(公式自己在网上找下吧)。方法二:计算X跟分类变量的intersection,然后看intersection是否显著。

问题44: Statistics数据文件中的变量有设置标签,比如某一个变量的标签为:1="本科"、2="硕士"、3="博士",如何才能导出这个标签说明,注意不是导出为标签  格式的excel数据集,而是导出全部标签本身,要全部变量的全部标签说明!

答:使用“分析”-“报告”-“代码本”可以实现,将需要输出值标签的变量选入“代码本变量”中,“输出”选项中只选择“值标签”,其他选项不勾选,点击“确定”。在查看器中查看输出的结果。

问题45:我做多元logistic回归遇到问题。因变量是分类变量(三类),有从1-3的递升关系,我用了Ordinal 的方法。最终数据报表也出来了。可是没有OR值。怎么才能算出OR值?

答:OR值是通过参数估计表算出来的,x1的OR值等于exp(β1),β1是x1的参数估计值,OR值表示因变量提高一个及一个以上等级的比数比。

问题46:在因子分析之前是不是必须要通过KMOKMO检验与Bartlett球形检验?如果样本不通过检验,是不是说明不适合因子分析,还是说明分析不可靠。如果一定要用因子分析,可以用什么方法解决相关性的问题呢?

答:BARTLETT是检验总体变量不相关,即总体相关矩阵是单位矩阵,如果接受原假设,表明因子分析可能不适合。KMO是用来比较变量间相关系数的大小。如果KMO接近1,表示适合做因子分析,如果KMO接近0,表示不适合做因子分析。

问题47:用Statistics得出的成分矩阵就是初始因子载荷矩阵吗?成分得分系数矩阵又是什么呢?

答:因子分析中,成分矩阵,即因子载荷矩阵是各因子在各变量上的载荷,可以讲各变量表示为公因子的线性形式。表达式z(xi)=a*F1+b*F2+c*F3+….+ε;成分得分系数矩阵,也叫因子得分函数系数,用来写出各公因子的表达式,Fi=a*z(x1)+b*z(x2)+c*z(x3)+…。

问题48:怎么用Statistics做多项选题的多重对应分析?有年龄,收入、职业三个变量,常用品牌为多选题,选项为a、b、c、d、e;现在需要将年龄、收入、职业与常用品牌做多重对应分析。

答:数据如下:

将数据重组,


过滤掉trans1为空的行;“分析”->“降维”->“最优尺度”;“图”->“变量”:把所有变量选入“类别联合图”,


 

问题49:如何用Statistics对数据进行差分处理?

答:一阶差分的实现过程:原始变量为y(t),通过“转换”->“转换值”->“从较早个案获取值(之后) ”生成y(t-1),通过“计算变量”  得出diff=y(t)-y(t-1)。

问题50:Statistics可以做评分者一致性信度分析吗? 

答:可以。操作:“分析”->“度量”->“可靠性分析”, 将变量放入“项目”,模型选择α,统计量选择“同类相关系数”-> 模型“双向随机”,类型“一致性”。具体结果解读请参考SPSS帮助文档。

问题51:用Statistics进行因子分析,得出来的综合得分有正有负,怎么处理可以使综合得分没有负数,最好能在(0,1)的范围内? 

答:可以通过“计算变量”,score_new=(score-min(score))/(max(score)-min(score)),就能得出 (0,1)范围内的值。 问题52:在做因子分析之前用CITC和阿尔法系数做量表纯化,怎么做啊?CITC在Statistics里面怎么操作? 答:CITC是Corrected-Item Total Correlation 的简称。操作如下:“分析”->“度量”->“可靠性分析”:“模型”选择α, “统计量”选择“如果项已删除则进行度量”。 

问题53:在用Statistics中K-Means做聚类分析时,想自己指定初始凝聚点,而非系统指定,但是导入文件后,显示格式不正确,想请教正确的格式是什么? 

答:使用K-Means进行聚类,设置从外部读入初始聚类中心,一般是.sav格式的文件。文件包括聚类号 和变量,变量名和要进行聚类分析的数据 文件中的一致,聚类号是CLUSTER_ .如下图所示:


问题54: 如何在SPSS中进行正交设计?

答:假设要做一个三因素的正交设计,因素1为“价格”,有三个值;因素2为“内存”,有三个值;因素3为“外形”,有三个值。在SPSS中选择Data-Orthogonal Design-Generate。


在弹出的窗口中,在Factor Name中输入价格,单击ADD按钮,选中价格再按Define Values按钮。


在弹出的Define Values窗口中输入价格的三个值,按Continue按钮。继续按以上方法分别输入“内存”和“外形”。
选择Create a new dataset或者Create new data file后,按OK按钮生成正交表格 。


 

问题55:在SPSS中能否写if… else…等编程语言?

 

答:可以用SPSS中Syntax窗口编写程序。不过,我们碰到的大多数问题都可以用菜单来完成,例如Transform-Compute Variable中的if选项。

 

问题56:SPSS中width和column的区别 

答:column管理数据视图中的列宽,在变量类型是数据格式时显示数据的位数。

 

width管理数据视图中其它变量类型如时间,美元,字符等的显示位数。

 

问题57:因子分析对样本量的要求?

 

答:样本量与变量数的比例应在5:1以上,实际上理想的样本量应为变量数的10~25倍,但一般5~10倍也能得到较好的结果。

 

问题58:用SPSS如何得到CITC值(Corrected Item Total Correlation)?

 

答:选择Analyze-Scale-Reliability Analysis。

 


 

 

 

在弹出的对话框中将你要进行分析的items选到右边的框里。 Model选Alpha,点击statistics,Descriptive for处选择Scale if items deleted,ANOVA Table 处选择none。然后点继续。在得出的输出结果中,你就可以得到CITC值。

 



 

问题59:如何解决SPSS中文乱码问题?

 

答:选择SPSS-Edit-Option,在弹出的对话框中,选择General界面,把左下角的Windows中Look and feel选项改成Windows。

 
 

 


SPSS Modeler相关问题

问题1:在SPSS Modeler 14.1调用了某些Statistics功能之后,原来的节点为什么无法正常工作?

答:Modeler 14.1 Fix Pack 1 及Fix Pack 2 已修复此问题,请下载安装。

问题2:SPSS Modeler Server在Unix环境安装时,是否一定要使用root权限?

答:是的,Modeler 15 版本之前,必须root权限安装Modeler Server,但是可以使用非根权限运行服务。若您正在使用的是15版本,可以参考IBM SPSS Modeler Server 15 for UNIX Installation Instructions手册以使用非跟权限安装。

问题3:为什么更新了SPSS Modeler为最新版本时,在运行某流文件时所需的时间更长了?

答:在之前版本的SPSS Modeler设置中,”SQL优化”可能出于关闭状态。在使用新版本SPSS Modeler时此项被打开,但是可能因为流文件与SQL转化过程中,数据库无法更快地解读转化后的SQL,反而给计算造成了负担。您可以尝试在合并等节点钟增加缓存,并精简优化数据流,从而达到提高运算速度的目的。

问题4:Modeler可以用同样的模型和输入字段,一次对多个目标字段做分析吗?因为待求目标很多,手动建立多个流不现实。

答:对于时间序列模型来说,是可以一次预测多个变量,对于其他模型,可以通过script来实现。

问题5:Modeler 14.1 关联分析中GRI算法没有了? 

答:这个是老算法,14.0之后已经不被采用了。

问题6:  在使用Modeler过程中遇到unicode_value函数的使用问题,unicode_value(to_string(sex)) ,sex字段本身是数值字段,也尝试其它办法,不过基本都是显示错误,请问下这个函数具体怎么使用?

答:关于这个函数的使用,需要注意两点,一个是函数参数只能是一个字符,比如unicode_value(`a`),另外,字符的引号是键盘左上角第二行第一个的引号。

问题7:  做流失预测时,常用的算法有哪些,用哪个更好?

答:因为流失预测的结果只有两种,流失(1)或者不流失(0),所以常用的二元预测方法都适用:如决策树、Logistic回归、判别分析、神经网络、支持向量机等。一般来说Logistic回归的运用更普遍一些,但是一般在实践中会把每种模型都尝试一下,然后比较哪种模型的预测结果更好。

具体的方法是:将数据分为训练样本和测试样本(如70%:30%)。用训练样本来用不同的算法训练模型,之后将测试样本代入到训练好的模型中,评估预测的效果。

问题8:  如何用提升(lift)指标评估二元预测的结果?

答:除此以外,提升(Lift)也是一个很好的评价指标,特别是在预算有限的情况下。比如(因为预算或其它原因)企业只对最有可能流失的那10%的客户有兴趣,那么这时将概率在前10%的样本预测为Positive,剩余90%预测为Negative。那么在10%的阀值下:提升=(TP/P) / (P/(P+N)),也就是前10%的样本中Positive样本所占比例除以Positive样本在整体样本中的比例。

比如总样本有1000个,包括900个Negative样本和100个Positive样本。假设Positive概率最高的那100个样本中,实际包括了40个Positive样本和60个Negative样本。这时的提升= (40/100) / (100/1000) = 4.0。

提升表明了预测模型优于随机选择的倍数。以上面的例子为例,模型选择出来的10%的样本所包括Positive样本数量是随机选择出来的10%的样本所包括Positive样本数量的4倍。

问题9:  购物篮数据怎么分析?怎么运用分析的结论?

关联规则是最常用的购物篮数据的分析算法。一个最有名的例子即是沃尔玛的“啤酒与尿布”的故事。如购买牛奶的顾客有80%也会买面包,购买了铁锤的顾客有70%也买了钉子。典型的关联规则算法包括:Apriori、Carma以及Sequence(在Modeler中均有相关的节点)。

对于零售企业而言,关联规则的结果可以用于产品推荐及精准营销(购买了该产品的顾客同时也会购买……;电子邮件促销等);对超市这类有固定营业场所的商家而言可以对产品的摆放进行指导。

问题10:  在使用决策树时为什么需要对决策树进行修剪?

   首先想想一下我们熟悉的一元回归模型,假设有N个观测值,那么总是可以用N-1次线性模型来完美拟合:比如有两个观测值的情况下,可以用一条直线来完美拟合这两个点;有三个观测值的时,可以用一条二次曲线……。我们训练模型的目的并不是完美地拟合这批训练样本,而是为了预测更一般性的数据。然而随着指数的增加,模型会变得越来越贴近这批特定的训练样本,而失去了一般性,导致用来预测一般性的数据时的效果反而变差。这种现象叫做“过拟合”。

    同样地,在决策树中,随着决策树的生长,其对数据总体规律的代表程度会有一个先升后降的过程,降低是因为越来越贴近于训练样本而失去了一般性。为了解决“过拟合”的问题,我们需要用修剪的方法来调整决策树。具体的方法是:用训练样本训练完整的决策树后,用修剪的方法生成多个修剪后的决策树(修剪的层数不同);然后将测试样本代入到这些决策树模型中,寻找预测效果最好的那个树最为最终的决策树模型。

问题11:  Modeler中能否使用K折叠的交叉验证?

答: 可以,在KNN节点中的设置项下,可以设置交叉验证。此外在C5节点的模型选项下,也可以设置交互验证。

问题12:  我能否对自己创建的流进行加密?

答: 可以,在保存节点对话框中,点击加密选项,勾选对文件加密,就可以输入密码并对模型加密。

问题13:  如何探索离散变量间的关联?

答:可以使用网络图分析事件同时出现的潜在关联。在图形节点类中选择网络节点,该图可以显示两个或更多符号字段的值之间,关系的紧密程度。其图形使用不同类型的线条显示链接,说明链接强度。如果有某个目标字段,可以使用导向网路,分别定义结束字段和源字段。在绘制出网络图后,通过调节阈值,可以隐去关联过弱或者关联过强的线。

问题14: 如何利用图形评估预测的结果?

答:可以使用评估节点,评估节点提供了一个评估并比较预测模型,以选择最适合模型的便捷方法。评估图表显示模型如何执行对特定结果的预测。评估图表的工作原理是:根据预测值及预测的置信度排序记录、将记录分割为大小相等的组(分位数)并按由高到低顺序为每个分位数绘制业务标准值。在散点图中,将以单独的线条显示多个模型。

通过将具体值或值的范围定义为匹配,处理结果。通常,匹配表示相关的某类别(如向顾客销售)或某事件(如某项医疗诊断)成功执行。您可以在对话框的“选项”选项卡上定义匹配标准,或使用以下描述的默认匹配标准:

  • 标志输出字段是正向的,即匹配表现为 true 值。

  • 对于名义输出字段,集合中的第一个值确定是否匹配。

  • 对于连续输出字段,大于字段范围中点的值即为匹配。

一共有五种评估图表,每一种针对不同的评估标准:

1.收益图表

收益的定义是相对于全部匹配,发生于每个分位数中的匹配的百分比。其计算方法为(分位数中的匹配数量/全部匹配数量) × 100%。

2.提升图

提升将每个分位数中匹配记录的百分比与在全部训练数据中匹配的百分比进行比较。其计算方式为(在分位数中的匹配/在分位数中的记录)/(全部匹配/全部记录)。

3.响应图

响应即分位数中,匹配记录的比例。其计算方式为(分位数中的匹配/分位数中的记录)× 100%。

4.利润图

利润等于每个记录的收入减去该记录的成本。也就是说,分位数的利润就是位于该分位数内的所有记录的利润总和。这里假定收入仅应用于匹配项,但成本可应用于所有的记录。利润及成本都可以是固定的,也可以由数据中的字段决定。其计算方法为(分位数中所有记录收入的总和 − 分位数中所有记录成本的总合)。

5.投资回报图

投资回报 (ROI) 也需要确定收入和成本,从这一点上来说,它与利润相同。ROI 将分位数的成本和利润进行比较。其计算方法为(分位数利润/分位数成本)× 100%。

评估图表也可以累积,因此每个点等于相应分位数的值加上所有更高分位数的值。累积图表通常能够更好的表现模型性能,而非累积图则更有利于指出模型中可能存在问题的地方。

问题15:使用modeler server进行大数据量挖掘时,会用到缓存,然而数据流中使用缓存节点过多,可能导致流自动关闭,如何解决这种情况?

答:这时可以设置缓存的存储位置,将缓存文件暂时存放于空间较大的硬盘上,设置方式:在modeler server的安装目录的config文件夹下找到option.cfg文件,打开option.cfg文件,默认的缓存路径是空的,即temp_directory, "",需要填入新的路径,比如temp_directory, "C:/Temp"。

问题16:modeler数据流运行过程中,报错SPSS modelevaluation/menode无法评估模型,产生该错误的原因是什么,怎么解决?

答:这种情况是modeler安装目录下menode.dll文件损坏,可以将其他人机器上正常的文件拷贝到IBM/SPSS/Modeler/15/ext/bin/SPSS modelevaluation文件夹中覆盖原来的文件,即可。

问题17:精确度是评估二元预测的结果的一个很好指标吗?

答:二元的预测的真实数据与预测的结果都只有两种可能:Positive/Negative(1/0)。因此将真实数据与预测结果做成一个列联表,既是我们熟知的混淆矩阵。

-     TP(True Positive):一个样本的真实值为Positive,被正确地预测值为Positive。

-     TN(True Negative):一个样本的真实值为Negative,被正确地预测值为Negative。

-     FP(False Positive):一个样本的真实值为Negative,被错误地预测为Positive。

-     FN(False Negative):一个样本的真实值为Positive,被错误地预测为Negative。

精确度(ACC) = (TP+TN)/(TP+TN+FP+FN),即被正确预测的样本数所占的比例。在均衡样本的情况下(P与N的比例大致一样),精确度是一个不错的预测指标,简单易用。但是我们面对的往往是不均衡样本——如流失预测(或者欺诈检测),流失客户(欺诈客户)的比例一般远远小于未流失(非欺诈)客户。对于这种不均衡样本,精确度并不是一个很好的模型评价指标:比如真实的情况是90%的客户不流失,10%的客户流失;当模型将全部的客户都预测为不流失客户时,模型的精确度是90%,一个非常高的分数,但这样的模型是毫无意义的。

问题18:重新结构化和设为标志的区别?

答:重新结构化节点可用于根据名义字段或标志字段的值生成多个字段。新生成的字段可包含来自另一个字段或数值标志(0 和 1)的值。此节点的功能与设为标志节点类似,但更加灵活。使用这种节点,可以使用另一个字段的值创建任意类型的字段(包括数值标志)。随后,您可以对其他下游节点执行汇总或其他操作。设为标志节点允许您在一个步骤中汇总字段,因此如果要创建标志字段,使用设为标志节点更为方便。

问题19 : 针对连续型数据分箱一直是个头痛的问题,有没有可以自动分或者其他的做法呢?

答:在SPSS Statistics软件中,有一个最优离散化的菜单,进行离散化的。不过,它也是针对另外一个分类变量进行的。操作:菜单“转换”---“最有离散化”。

在IBM SPSS Modeler中的分箱节点里,也有最优化分箱选项的。功能和Statistics一致。

问题20 :  Modeler软件,数据出现空值,如何快速过滤所有空值啊?

答:利用数据审核节点,在'生成'里选择数据质量高于OO%的。

问题21 :  SPSS Modeler怎样与SQL Server连接?如何安装odbc驱动?要装SPSS Modeler server吗?

答:Modeler通过配置ODBC连接SQL,如果数据量不大的话,可以不安装Modeler server。配置ODBC的过程是:控制面板-ODBC数据源-添加-SQL server,然后填上SQL数据库的用户名和密码。

问题22 :  SPSS Modeler做聚类分析时提示:字段指定的类型不足?

答:在建模节点之前加个类型节点,给字段指定类型。

问题23 :  用决策树 c5.0算法建模,可否用收益图来进行模型评价?收益图代表什么含义?

答:收益的定义是相对于全部匹配,发生于每个分位数中的匹配的百分比。其计算方法为(分位数中的匹配数量/全部匹配数量) × 100%。解读收益图: 累积收益图的线 从左至右的走势通常是从0% 到100%。优秀模型的收益图将陡升至100%,然后保持平直。无法提供有用信息的模型将呈对角线状,即从左下角到右上角(选择了包含基线后将显示类似图表)。

问题24 : 用神经网络模型进行预测,有一点不明白:就是利用modeler软件建模时,还需要对原始数据进行预处理?比如,标准化或归一化等处理。

答:神经网络和其他模型类似,需要大量对数据的准备和预处理;比如,由于神经网络要求数量变量,对于分类变量就要用许多二值变量来替换;多层感知器算法要求输入值是数值型的取值在[0,1]闭区间内,因此建模前要进行数据转换。

问题25 : 假设有一个数据集A有自变量x,应变量y。选好节点,完成建模;现有另一个数据集B有x,要用前面的模型做预测,应该如何操作,结果如何输出到数据集?

答:把数据集B替换数据集A,中间数据处理过程不变,建模得到模型(右上角模型列表)拖入数据流区域,将建模节点去掉,在模型节点后边连接表查看结果,或者连接excel表或数据库将结果导出。

问题26 :  在流失分析数据挖掘应用中如何定义预测的输入变量(自变量)和预测目标变量(因变量)的时间窗口?

答:对自变量来说,进行流失分析的目的是希望客户流失之前发现他,在业务系统中,客户行为是连续发生的,选取分析数据时,取的时间过短,可能客户的行为受随机因素影响较大,数据不具有代表性,取时间过长,久远的历史数据不能反映客户最新的行为趋势,综合考虑数据的可获取性和有效性,建议取6个月的数据。对于因变量(是否流失)的数据窗口来说,为了使得到的预测结果具有前瞻性,又要留出营销时间,流失定义的时间窗口与自变量的定义时间窗口间隔一个月,再考虑流失定义一般需要3个月的观察期,具体预测自变量和目标变量的时间窗口如图所示:

问题27:输入为Excel时,有些列的内容在Modeler中被误认为空值或无效值怎么办?

答:可以在Modeler中,先把Excel文件导出为csv文件,再把此csv文件作为输入源输入模型中。

问题28:如何为原数据增加一列从2013-1-1到2013-3-31的日期?

答:可以利用用户输入节点生成日期,然后和原数据合并。

问题29:为什么我的流不能保存?

答:在Modeler15.0中,由图形或其他生成的选择节点会导致流不能保存。如果碰到此问题,需要将Modeler升到15.1或15.2即可。

问题30:完成有输入的时间序列时,为何在生成包含预测值的时间散点图时会报错?

答:对于有输入的时间序列,由于目标值是根据输入值得到的,因此在对目标值进行预测时,需要先填充输入在未来一段时间内的数值,然后再绘制时间散点图。