康宁反应器技术有限公司
康宁反应器技术有限公司

关于机器学习的那点事儿-PCA算法大讨论

2024-08-0896


主成分分析 PCA

Principle Component Analysis

深入了解机器学习各种算法背后的机理,能够让我们明白各种机器学习算法的优势和局限性,避免陷入唯机器学习论和各路“专家”的忽悠。让我们一起看看AFR化智先锋小神通Sam Chen和 AFRians 小燃 如何讨论PCA算法这个问题的:


一起加入讨论


关于机器学习算法的那点事儿

化智先锋18F讨论群



——9:00am-18:00pm

AFRians

热情探索者小燃

PCA 算法的背景


AFR Sam

化智先锋小神通


近些年来,随着传感器技术和数据存储技术的发展和成本下降,因而产生了海量的数字化存储的数据。为了挖掘海量数据之间的关系,在进行分析建模前,通常需要把海量数据的复杂程度降低,也就是所说的降维



AFRians

热情探索者小燃

什么是主成分Principal component?


AFR Sam

化智先锋小神通


一种变量一般代表一个维度。而且这些维度数据之间往往存在线性关系,这样我们就可以使用少量的新的变量去表达原大量变量的原数据,这些少量的新变量就是所谓的主成分(Principle component),虽然牺牲了一些精度,但是大大压缩了原数据量,去掉冗余信息。



AFRians

热情探索者小燃

降维中信息会不会因为“转换”带来模型的不准确


AFR Sam

化智先锋小神通


打个不太准确的比方,相当于看完一本书,根据转化(transform,这里指线性转化)提取出主干信息,用这些主干信息根据一定方式的逆转换(transform),还是能够还原回原来书中的大部分信息。虽然牺牲了部分精度,但还会带来另一方面的好处,就是减少过拟合和多重共线性



AFRians

热情探索者小燃

AFR公众号中有文章提到了“PCA算法”,可以介绍一下PCA算法在PAT技术中的基础应用


AFR Sam

化智先锋小神通


在之前第一篇文章中提到PCA算法,PCA在化学和制药行业中有广泛用途,特别是在过程分析技术(PAT)中的应用。其原因有PAT技术几秒钟或分钟就产生出测量数据,这个数据量就会变的很多,另外吸收理论的Beer-Lambert定律表明在一定波长和路径长度下,物质的浓度和吸收光谱的量存在线性关系,这个满足了各维数据之间存在线性相关的前提。



AFRians

热情探索者小燃

我好像明白什么是PCA算法了!简单来说PCA是一种降维的机器学习方法,用于压缩大数据到小的表征数据,小的表征数据集仍然保留原数据的显著规律和趋势。主成分指的是保留这些规律和趋势的新变量群,由原数据的线性组合成。这些主成分间不存在相关性。


AFR Sam

化智先锋小神通


 理解的非常准确!



请在文末留言中输入你的感言吧!


PCA 原理






PCA 原理

PCA通过正交变换将原始数据转换到新的正交坐标系统中,新坐标轴(即主成分)与原始数据的方差成比例。第一个主成分具有最大的方差,每个随后的成分都有最大的剩余方差,并与之前的主成分正交。这个转换拿到特征向量和特征值。


“几何演示”

可以参考下面三维数据的几何演示。A、B物质混合物在三个波长下的吸收,通过主成分分析法,从三维降到两个主成分,甚至可以用于更多的波长吸收降维到两个主成分。

摘自:

Chemical Engineering in the Pharmaceutical Industry P914

PCA分析步骤:

1

数据标准化:

需要对数据进行标准化的原因是,现实世界的数字会带有物理单位,表示同一个测量会因为物理单位而造成数字大小的差异,某一维的数据如果出现比较大的数字表示,通常它会掩盖掉小数字维度的变量特征。

比如0摄氏度的水到100摄氏度的沸腾水,用华氏度表示就会产生更大的数字范围32到212华氏度,因而需要对数字进行标准化。这样各个维度恢复到统一尺度,即统计学里的Z值(原值减去均值除以标准差)。

再打个比方,要研究世界上有钱人的行为,假定1000万人民币的算富人,如果研究韩国数据是就发现1000万人民币换算成韩元就是大约190000万,这样这个数据就会比其它国家的币种大很多,会掩盖的其它维度数据的特征。

2

计算协方差矩阵:

协方差矩阵可以揭示数据中变量之间的线性关系。有时候变量间存在强的关系意味着他们包含了冗余的信息。

3

特征值计算:

计算协方差矩阵的特征值和特征向量。特征向量决定了主成分的方向,特征值决定了主成分的大小。

4

选择主成分:

根据特征值的大小,选择能够解释大部分方差的前几个主成分,弃掉低显著的主成分(低的特征值)。

5

转换到新空间:

将原始数据投影到这些主成分上,得到新的数据表示。


PCA和关键因素分析法的差异


AFR Sam

化智先锋小神通


通常PCA得到的主成分是没有任何物理意义的,有点像压缩后的大纲。而关键因素分析法是关联因素和某些输出变量的关系。关键因素分析法有现实物理意义,有可能能够演绎推导因果关系,解析物理机理。PCA通常只具有统计学上的属性。

举一个案例:

考虑一个银行贷款申请的数据集,包含收入、教育水平、年龄、目前居住地址、在目前公司工作年限、存款、债务和信用卡数量等8个变量。该如何衡量这个贷款申请者的风险等级呢?


AFRians

热情探索者小燃

今天成果满满, 我有点期待下一次关于机器学习算法的讨论内容了!

AFR Sam

化智先锋小神通


下次咱们聚一块儿,聊聊平时常碰到的热门算法——贝叶斯算法吧!大家可以先瞅瞅我推荐的这几篇文章,补补知识,这样咱们聊起来肯定更带劲儿,期待咱们的讨论超精彩!


参考资料:

  1. Principal Component Analysis Guide & Example - Statistics By Jim

  2. Principal Component Analysis (PCA) Explained | Built In

  3. Chemical Engineering in the Pharmaceutical Industry DJ. AM ENDE MT. AM ENDE


推荐阅读

01

【名家案例】连续流工艺优化中的机器学习和人工智能

? 点击阅读

02

 机器学习与连续流连载系列丨使用康宁反应器集成在线光谱,通过半监督机器学习识别化学反应式计量和动力学模

? 点击阅读

03

 机器学习与连续流连载系列丨机器学习:人工智能的驱动力

? 点击阅读

上一篇:【五环之歌】化合物中那些神秘的环(一)
下一篇:康宁公布 2024 年第二季度财报

网站导航