晶体日记 (十四) - 真实的数据质量(1)
2024-08-1428数据
前几天涉及到一个数据,我和一个老师争论了一阵的Checkcif问题。晶体数据很清晰的显示的原子的位置,在Checkcif里却认为是有问题的Alert。如果是修,自然是可以修掉的,但是作为一个晶体学工作者的尊严,为了修而修,这不是科学,就成了画画了。但这个争论也只持续了一会,我自知无力改变什么,一个科学发现就这样淹没在checkcif里。如同Alert简单粗暴的被90%以上的同学和老师称之为错误,即便解释了再多遍,也鲜有人认真去改正。读过Checkcif历史的同学都会知道,Checkcif初衷是个辅助工具帮助我们减少一些不必要的失误。但是现在这个初衷变了味,成了大多数同学甚至审稿人眼里的一刀切标准。每个Checkcif Report都会有这么一句话
“THIS REPORT IS FOR GUIDANCE ONLY. IF USED AS PART OF A REVIEW PROCEDURE FOR PUBLICATION, IT SHOULD NOT REPLACE THE EXPERTISE OF AN EXPERIENCED CRYSTALLOGRAPHIC REFEREE.”
然而这句话我相信绝大多数同学从来都没有读过。单一标准的问题对于做化学晶体的同学们尤为严重。这已经是吐槽了太久的吐槽,有时候是无奈的事情。不过我更想吐槽的是关于数据质量的判断。虽然绝大多数做蛋白晶体的同学并没有真实接触过晶体学,但对于分辨率的概念理解却比大多数做化学晶体的同学要好的太多。在化学晶体里,好像世界很单一。不管是什么样的晶体,分辨率统一的是0.77Å or 0.83 Å。对于数据质量的判断,永远只有信噪比,Rint,完整度,其它一概不问。可是对于晶体学来说,不应该衍射分辨率(自然不是所谓的0.83 Å)是较重要的概念么?
讨论
比如下面这颗晶体的数据,学生告诉我:
“您看没有红色,数据质量还可以,信噪比马马虎虎,Rint也低于10%,可就是解不好结构。”
“分辨率呢?”
“0.84 Å”
听到0.84 Å,其实我就已经开始怀疑了,其实这并没有回答我问的问题。
“那这样吧,你看下你的信噪比分布。”
“咦,这是什么?”
“…这是数据信噪比的分布,你可以看到按照信噪比3的阈值线,2theta角对应的还不到80°,分辨率是多少?”
“... 不懂…”
“好吧,那看Xprep吧..”
“假设没那么严格,信噪比>2的时候,这里对应的分辨率是多少?”
“…1.05 Å?”
“XPREP给你的平均信噪比是多少呢?”
“…只有3.5..”
“那这个数据看起来还好么?”
“…不好”
“看看你1.2 Å以上的数据,Rmerge值有多高呢?”
“…”
“假设30% 是阈值线,这个数据1.2 Å到0.83 Å基本上都是噪音,衍射图上应该也很弱。这么差的数据为什么你会认为还不错呢?”
“可是我是按照0.83 Å,信噪比10收的数据…”
“晶体的有效分辨率不是设定出来的..我也不知道为什么Olex2会计算出来那么高的平均信噪比,至少它对我来说没有实际意义,我更关注它的真实分辨率”
“那我R1还能修到5%么?”
“…这个…别想太多了…”
...对于一个衍射较弱的数据,分辨率不足,这明显是一个硬伤。可是这个简单明显的问题,却很少有人去查看。甚至在拿到hkl文件后,都没有去查看过衍射图的习惯。同样的统计数字,实际上对应的可能是完全不同数据质量的晶体。甚至这些数字也不一定是真实的。
总结
所以,在解析一个数据之前,先确定这个晶体的分辨率真实有多少,再去设定对它的期望。如果真是分辨率不到1.2Å,那么就要做好相位都解析不了的心理准备。当然这些实际上在收数据的时候就应该已经了解,只是衍射图太多时候被丢弃在一边。当然给晶体的数据质量打分,其实是一个多参数评判的过程,取决于很多因素,并不是看hkl文件的几个简单的数值就结束了。甚至我们需要查看晶体对心,衍射图,数据还原等过程。像这个看起来Rint值很低的数据,实际上也只是低角度的数据很好,反而掩盖了基本的分辨率不足的问题。而更多常见的问题会有定错了晶胞,没有处理孪晶,吸收校正错误,冗余度太低,删除了太多衍射点等等…也许每一步都是坑,填平了坑,才能知道下一步是不是走得下去。(未完,待续)
-转载于《布鲁克X射线部门》公众号
-
- 德国布鲁克 多功能桌面式(台式)衍射系统(XRD)D6 Phaser
- 品牌:德国布鲁克
- 型号:D6 Phaser
-
- 德国布鲁克 D8 DISCOVER X射线衍射仪
- 品牌:德国布鲁克
- 型号:D8 DISCOVER
-
- 德国布鲁克 X射线衍射仪(XRD)D8 ADVANCE
- 品牌:德国布鲁克
- 型号:D8 ADVANCE