关于机器学习的那点事儿-PCA算法大讨论
2024-08-0896主成分分析 PCA
Principle Component Analysis
深入了解机器学习各种算法背后的机理,能够让我们明白各种机器学习算法的优势和局限性,避免陷入唯机器学习论和各路“专家”的忽悠。让我们一起看看AFR化智先锋小神通Sam Chen和 AFRians 小燃 如何讨论PCA算法这个问题的:
一起加入讨论
关于机器学习算法的那点事儿
化智先锋18F讨论群
——9:00am-18:00pm
AFRians
热情探索者小燃
PCA 算法的背景
AFR Sam
化智先锋小神通
近些年来,随着传感器技术和数据存储技术的发展和成本下降,因而产生了海量的数字化存储的数据。为了挖掘海量数据之间的关系,在进行分析建模前,通常需要把海量数据的复杂程度降低,也就是所说的降维。
AFRians
热情探索者小燃
什么是主成分Principal component?
AFR Sam
化智先锋小神通
一种变量一般代表一个维度。而且这些维度数据之间往往存在线性关系,这样我们就可以使用少量的新的变量去表达原大量变量的原数据,这些少量的新变量就是所谓的主成分(Principle component),虽然牺牲了一些精度,但是大大压缩了原数据量,去掉冗余信息。
AFRians
热情探索者小燃
降维中信息会不会因为“转换”带来模型的不准确?
AFR Sam
化智先锋小神通
打个不太准确的比方,相当于看完一本书,根据转化(transform,这里指线性转化)提取出主干信息,用这些主干信息根据一定方式的逆转换(transform),还是能够还原回原来书中的大部分信息。虽然牺牲了部分精度,但还会带来另一方面的好处,就是减少过拟合和多重共线性。
AFRians
热情探索者小燃
AFR公众号中有文章提到了“PCA算法”,可以介绍一下PCA算法在PAT技术中的基础应用?
AFR Sam
化智先锋小神通
在之前第一篇文章中提到PCA算法,PCA在化学和制药行业中有广泛用途,特别是在过程分析技术(PAT)中的应用。其原因有PAT技术几秒钟或分钟就产生出测量数据,这个数据量就会变的很多,另外吸收理论的Beer-Lambert定律表明在一定波长和路径长度下,物质的浓度和吸收光谱的量存在线性关系,这个满足了各维数据之间存在线性相关的前提。
AFRians
热情探索者小燃
我好像明白什么是PCA算法了!简单来说PCA是一种降维的机器学习方法,用于压缩大数据到小的表征数据,小的表征数据集仍然保留原数据的显著规律和趋势。主成分指的是保留这些规律和趋势的新变量群,由原数据的线性组合成。这些主成分间不存在相关性。
AFR Sam
化智先锋小神通
理解的非常准确!
请在文末留言中输入你的感言吧!
PCA 原理
PCA 原理
PCA通过正交变换将原始数据转换到新的正交坐标系统中,新坐标轴(即主成分)与原始数据的方差成比例。第一个主成分具有最大的方差,每个随后的成分都有最大的剩余方差,并与之前的主成分正交。这个转换拿到特征向量和特征值。
“几何演示”
可以参考下面三维数据的几何演示。A、B物质混合物在三个波长下的吸收,通过主成分分析法,从三维降到两个主成分,甚至可以用于更多的波长吸收降维到两个主成分。
摘自:
Chemical Engineering in the Pharmaceutical Industry P914
PCA分析步骤: | |
1 | 数据标准化: 需要对数据进行标准化的原因是,现实世界的数字会带有物理单位,表示同一个测量会因为物理单位而造成数字大小的差异,某一维的数据如果出现比较大的数字表示,通常它会掩盖掉小数字维度的变量特征。 比如0摄氏度的水到100摄氏度的沸腾水,用华氏度表示就会产生更大的数字范围32到212华氏度,因而需要对数字进行标准化。这样各个维度恢复到统一尺度,即统计学里的Z值(原值减去均值除以标准差)。 再打个比方,要研究世界上有钱人的行为,假定1000万人民币的算富人,如果研究韩国数据是就发现1000万人民币换算成韩元就是大约190000万,这样这个数据就会比其它国家的币种大很多,会掩盖的其它维度数据的特征。 |
2 | 计算协方差矩阵: 协方差矩阵可以揭示数据中变量之间的线性关系。有时候变量间存在强的关系意味着他们包含了冗余的信息。 |
3 | 特征值计算: 计算协方差矩阵的特征值和特征向量。特征向量决定了主成分的方向,特征值决定了主成分的大小。 |
4 | 选择主成分: 根据特征值的大小,选择能够解释大部分方差的前几个主成分,弃掉低显著的主成分(低的特征值)。 |
5 | 转换到新空间: 将原始数据投影到这些主成分上,得到新的数据表示。 |
PCA和关键因素分析法的差异
AFR Sam
化智先锋小神通
通常PCA得到的主成分是没有任何物理意义的,有点像压缩后的大纲。而关键因素分析法是关联因素和某些输出变量的关系。关键因素分析法有现实物理意义,有可能能够演绎推导因果关系,解析物理机理。PCA通常只具有统计学上的属性。
举一个案例:
考虑一个银行贷款申请的数据集,包含收入、教育水平、年龄、目前居住地址、在目前公司工作年限、存款、债务和信用卡数量等8个变量。该如何衡量这个贷款申请者的风险等级呢?
AFRians
热情探索者小燃
今天成果满满, 我有点期待下一次关于机器学习算法的讨论内容了!
AFR Sam
化智先锋小神通
下次咱们聚一块儿,聊聊平时常碰到的热门算法——贝叶斯算法吧!大家可以先瞅瞅我推荐的这几篇文章,补补知识,这样咱们聊起来肯定更带劲儿,期待咱们的讨论超精彩!
参考资料:
Principal Component Analysis Guide & Example - Statistics By Jim
Principal Component Analysis (PCA) Explained | Built In
Chemical Engineering in the Pharmaceutical Industry DJ. AM ENDE MT. AM ENDE
推荐阅读
| |||
| |||
|