骏枣优良单株指标性状的主成分分析

03.12.2014  12:05

骏枣是山西十大名枣之一,  分布于交城边山一带,  为当地主栽品种.  果实品质的形成和 调控,  已成为果树学研究的一个重要领域,  为实现对骏枣果实的品质调控、优良单株的繁殖 推广,  本文运用主成分分析对骏枣优良单株进行定量综合评判,  为以后生产中优树的选择提 供一定的理论依据.


 

1  主成分分析


 

主成分分析是将多个观测指标化为少数几个相互独立的新指标的一种多元统计方法.  实际中,  从收集资料的角度看,  多测几个指标可以避免重要信息的漏失,  然而指标过多,  由于 指标间相互影响,  因此表现为数据反映信息上的重迭同时还会混杂进一些不太重要或依赖 于其它指标变化的指标.  主成分分析就是在力保原始数据信息丢失最小的情况下,  对高维变 量空间进行降维处理,  即通过坐标的刚性旋转与投影,  以少数几个综合变量取代原有多维变 量,  从而掌握和突出主要矛盾,  简化评价工作[ 1]  .


 

设原始变量为  x  1,  x  2  ,  ⋯,  x  p  ,  主成分分析后得到的新变量(  综合变量)  为  z  1  ,  z  2  ,  ⋯,  z  m  ,  它们是  x  1  ,  x  2,  ⋯,  x  p  的线性组合( m< p) .  新变量z  1,  z  2  ,  ⋯,  z  m  构成的坐标系是在原坐标系经 平移和正交旋转后得到的,  称z  1  ,  z  2  ,  ⋯,  z  m  张成的空间为m  维主超平面.  在主超平面上,  第一 主成分  z  1  对应于数据变异(  贡献率e  1)  最大的方向,  对于z  2  ,  ⋯,  z  m  依次有  e2  ⋯  e  m.  因此  z  1  是携带原始数据信息最多的一维变量,  而  m  维主超平面是保留原始数据信息量最大的  m  维子空间.  主成分分析的步骤如下:

为了排除数量级和量纲不同带来的影响,  首先对原始数据进行标准化处理:

式中x  ij    为第i  个指标第  j  个分区的原始数据,  x  i和  i    分别为第  i  个指标的样本均值和标准差.

2)根据标准化数据表,计算相关系数矩阵R =  ( rij  )  p  ×p  ,  其中

3)  计算R  的特征值和特征向量.  根据特征方程  R - I = 0,  计算特征根  i ,  并使其从  大到小排列: 1 2 ⋯ p ,  同时可得对应的特征向量  u1 , u2 , ⋯, up .  将它们标准正交化, u1, u2, ⋯, up  称为主轴.

6)  综合分析:  一个  m  维主超平面究竟以多大的精度来近似代替原始变量系统,  才能确  保尽可能多的原始数据信息?这可以通过求累计贡献率  Em  来判断,  一般取  Em  > 85%  的最 小  m(  m  <  p  ) ,  则可得主超平面的维数  m  ,  从而可对  m  个主成分进行综合分析.


 

2  骏枣优良单株的主成分分析


 

在此探讨12  株优良单株的10  个指标综合作用变化的主控指标,  原始数据见表1.  由主成 分分析步骤应用SPSS  程序软件得出特征值、贡献率和累积贡献率见表2.  考虑到主分量Z1  ,  Z2, Z3  所占的统计信息总量达到了73. 56% ,  已具有较强的代表性,  故以三个主分量来做定  量分析见表3.

由表3  数据可以看出,  第一主成分中特征向量绝对值较大的分量有果/  吊( 0. 414658)  、 株产( 0. 493985)  、单位冠幅产量( 0. 49965) ,  果/  吊、株产、单位冠幅产量的大小是果树丰产与 否的标志,  因此可以把第一主成分看作是丰产性状指标;  第二主成分中特征向量绝对值较大 的分量是VC( - 0. 549445)  、可食率( 0. 647451) ,  说明第二主成分代表可食率和VC  含量;  第三主成分中特征向量绝对值较大的分量是含糖量( 0. 628837) ,  说明第三主成分代表含糖量,  这里与专业人员确定的指标权重基本相符,  从定量的方面说明丰产性状、VC、含糖量和可食 率决定着骏枣的优劣.  因此可以把丰产性状、VC、含糖量和可食率作为骏枣优良单株选优的基本指标.


 

3  结 语


 

多指标的综合评价一方面增加了评价工作量,  另一方面势必淡化主要指标的作用.  为 此,  需要从现有指标中精选出若干个主要的有代表性的指标.  但人为地精选指标难免带有主 观随意性,  可能丢失部分有价值的原始信息.  因此必须对所考虑的众多指标利用统计学方法 经过正交化处理,  使其成为少数几个相互独立的综合指标,  再根据这些指标来进行评价,  而 主成分分析正好为实现这一思路提供了十分有效的数学方法.  [ 2, 3]


 

主成分分析以少数的综合变量取代原有的多维变量,  使数据结构大为简化,  并且客观地 确定权数,  避免了主观随意性,  因而在寻找综合因子、样本排序、事物分类等方面获得了广泛 的应用.


 

参考文献:


 

[ 1]  袁志发,  周静芋.  多元统计分析[ M ] .  北京:  科学出版社, 2002. 188-200.


 

[ 2]  王晓鹏.  河流水质综合评价之主成分分析方法[ J] .    数理统计与管理, 2001, 20( 4) : 49-52.


 

[ 3]  冯利华,  贾春瑶.  主成分分析在环境质量评价中的失效问题[ J] .    数学的实践与认识, 2005, 35( 6) : 12-16.