主成分分析 R语言

原理:

在用总计分析方法钻探多变量的课题时,变量个数太多就会增多课题的纷纷。人们当然期待变量个数较少而得到的音信较多。在广大意况,变量之间是有必然的相关涉嫌的,当多少个变量之间有自然相关关系时,可以分解为那七个变量反映此课题的音讯有一定的交汇。主成分分析是对此原来提出的具有变量,将再一次的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这个新变量是两两不相干的,而且这一个新变量在反映课题的新闻方面尽可能保持原来的音信。

举行主成分分析主要步骤如下:

  1. 目标数据标准
  2. 目标以内的相关性判定;
  3. 规定主成分个数m;
  4. 主成分Fi表达式;
  5. 主成分Fi命名;

主成分分析(principal component
analysis,PCA)是一种降维技术,把多少个变量化为可见反映原始变量大多数音讯的个别多少个主成分。
设X有p个变量,为n*p阶矩阵,即n个样本的p维向量。首先对X的p个变量寻找正规化线性组合,使它的方差达到最大,那么些新的变量称为第一主成分,抽取第一主成分后,第二主成分的抽取方法与第一主成分相同,依次类推,直到各主成分累积方差达到总方差的终将比例。

主成分分析实例

p=princomp(USArrests,cor=TRUE)
summary(p,loadings=TRUE)

图片 1

—-Standard deviation 标准差 其平方为方差=特征值
—-Proportion of Variance 方差进献率
—-Cumulative Proportion 方差累计进献率

screeplot(p,type="lines")

图片 2

图中的点在第一个成分的减退已经变得可怜稳定了,因此接纳前五个变量就能获取较好的音信表明,那也就代表后八个变量可以放任。

也可以选择loadings参数中反映的周密值对主成分进行创设方程
y=-0.536murder-0.583assault-0.278urbanpop-0.543rape
y=0.418murder+0.188assault-0.873urbanpop-0.167rape

pre<-predict(p)
pre

图片 3

对个主成分的值进行前瞻的结果

主成分分析(Principal Component Analysis,PCA),
是一种计算方法。通过正交变换将一组或者存在相关性的变量转换为一组线性不相干的变量,转换后的那组变量叫主成分。