晶体日记（十五）- 真实的数据质量（2）

2024-08-1428

评判数据标准的指标

也许是历史传统的问题， Rint （Rsym，Rmerge）被选中了作为评判数据标准的指标。甚至在很多不是很专业的书里，学生们都被告知Rint 需要低于多少，I/σ高于多少才能表示数据可用。于是乎，这些数值变成了评判数据质量所谓的金标准。可是当提问Rint 是什么意义时，跟什么因素相关时，大多数同学却卡在了那里。可能Rint在大多数同学眼里就是个发表文章的门槛数值，具体是什么意义已经不再重要。不然就不会有那么多同学追问着怎么把Rint修下去，或者解决掉所谓的“错误”。

诚然Rint本身的意义并不复杂。它的公式也看起来一目了然，表示着合并等效衍射点之间的误差。Rint值越低，通常表示着数据的精度越高。然而这是有一定的前提条件的。Rint实际上并不是一个很好的评判数据质量的指标。毕竟绝大多数数据都是通过Scale校正获得。过度的Fitting，以及刻意排除太多的衍射点都可以获得人为的更低的Rint(以及更高的I/σ)。而这些刻意追求的数字对结构精修并无意义，反而会导致精修的结果失真。甚至一些数据处理的软件会去迎合同学们的这种“追求”，去“美颜”数据，让大家“喜闻乐见”，然而有时掉进了坑里，却浑然不知。Rint同时也受到数据收集的多重度的影响。过低的多重度，会让衍射点没有其它等效点可以进行比较，自然Rint就会很低，甚至接近于0，然而却毫无意义（结构甚至都无法解析）。而高多重度的数据，由公式决定了Rint自然会升高，反而成了大家不喜欢看到的数值。但是不管怎么解释，很多同学仍然不以为然，原因只是Checkcif不检查多重度，但是对Rint却有“严格”的门槛（而实际上大多数Rint高的问题是分辨率的问题）。同样的I/σ也是一样，不同的误差模型的算法，自然得到的数值会大有不同。调高I/σ自然也是大家喜闻乐见的事情，比如故意降低σ，删除更多的衍射点也会让I/σ看起来更高。然而这些美颜的数据，对结构精修却毫无意义。

对于多重度对Rint的影响，Rmeas解决了这个问题，所以对于蛋白晶体学倾向于用Rmeas。此外现在还有CC1/2 来表征数据质量。不过在化学晶体学界似乎对这两个数值并不感冒。也许是通常衍射太强，不需要更宽松的指标。这些指标在APEX4里都能轻松看到。
实例分析

比如前两天讲座的时候提到的一个数据，大家投票的结果在意料之中。超过一半的同学都认为质量更高的数据是A。如果这是不同的数据还情有可原，然而这是同一套数据，同样的结构模型。或许是颜色的误导，让同学们失去了基本的判断力。A为什么会看起来更好看，因为Reject了很多数据。完整度表观上只下降了2%，而实际上却高达30%的数据被reject，Multiplicity极大的下降。保留下来的衍射点自然站在了一边，虽然看起来更精确，却丢失了准确。自然结构精修的结果就会反过来打脸。追求某些数字，对结构解析和精修本身毫无意义。结构精修的质量作为评判数据质量的指标才更加合理。比如R1，健长的精度，残余的电子峰等。

▲图1 Better Data Quality A or B？

除了软件处理造成的假象，有时候会遇到一些看起来数值质量很高，却怎么也精修不好的数据。比如有严重的无序，莫名的Q峰。这时候专注于结构精修，会百思不得其解。从衍射图上才会发现更多的端倪。孪晶自然不需要多做解释，而另外一些问题则更加的隐蔽，单纯从hkl上其实发觉不了任何问题。因为单晶的数据还原并不是还原的所有的信息，而是通过晶胞截选而来。而很多时候，“晶胞”不能反映衍射的全部信息，自然会丢掉很多原本的衍射细节。比如很多Smear的信号，Modulation的信号，衍射点形状的信号。这些信息都不会在hkl文件中体现。普通的结构精修自然也无法全部的反映晶体的实际状况。

▲图2 丢失的衍射信息 A，衍射点间的弥散信号 B，衍射的背景弥散，C，Modulation (Precession Image)

结论

所以数据质量的评估，从来都不是单个指标，固定的标准。从衍射图到数据处理，到结构精修，每一步的细节都在告诉着我们的数据可能出现的问题。真实的数据才会有真实的结构，刻意为了迎合某些死板的标准，不惜去“美颜”甚至伪造数据，也就背离了科学研究。

-转载于《布鲁克X射线部门》公众号

晶体日记 （十五）- 真实的数据质量（2）

晶体日记（十五）- 真实的数据质量（2）