仪器社区

合成生物学握手AI,你想要的合成生物学

贝克曼库尔特商贸(中国)有限公司 2023-04-10

根据NCBI的ClinVar数据库统计,包括罕见疾病,如镰状细胞病、地中海贫血和先天性莱伯黑朦等超过3万7千种已知疾病与致病性单核苷酸变异(SNV)有关,SNV可能导致原始DNA序列、转录水平和蛋白质序列等其他特性的变化。而新一代CRISPR/Cas9技术——碱基编辑器(BEs)可以有效地修复碱基突变,而不会诱导双链DNA断裂,从而能够直接、不可逆地校正碱基突变,对于治愈SNV引起的遗传疾病具有十分广阔的前景。已经报道的有诱导C·G到T·A转化的胞嘧啶碱基编辑器(CBE)、诱导A·T到G·C转化的腺嘌呤碱基编辑器(ABE)和使C·G到G·C转换的糖基化酶碱基编辑器(GBE),这些BEs为治 疗50%以上致病性SNV提供了几乎理想的解决方案。


然而,在实施基于BE的基因疗法之前,有必要大量构建具有致病性SNV的细胞疾病模型,以用于开发和优化BEs,并使其在基因治 疗中的应用成为可能。同时,根据ClinVar的数据,大约50%的人类致病性SNV是C·G到T·A的转化,然而目前很难通过合理的人力和资金投入获得大量携带这些SNV的细胞模型。这一方面是由于大规模样品,手动操作不仅耗时,而且容易出错,一致性较差且成本高昂;另外一方面,现有的基于目标-位点集成库的方法,如Be-Hive等在为AI学习和预测编辑性能的数据时,缺乏原位信息的综合编辑位点数据,同时又缺少真实染色体环境(先前研究表明,核酸酶的性能与染色质可及性之间存在很强的相关性,并且基因编辑在真核染色质中比异染色质中更有效)。


中科院天津工业生物技术研究所和天津科技大学的团队,开发了一个由以下四个模块组成的用于哺乳动物细胞高通量原位基因编辑的自动化平台,实现了哺乳动物细胞基因编辑的标准化和可拓展性。


(1)内源性靶gRNA计算机辅助设计;

(2)gRNA表达质粒构建;

(3)哺乳动物细胞碱基编辑;

(4)CBEs性能模型构建的机器学习。


四个模块组成的用于哺乳动物细胞高通量原位基因编辑的自动化平台,实现了哺乳动物细胞基因编辑的标准化和可拓展性。该平台借助大规模的原位编辑数据和序列信息,结合局部染色质可及性,具有原位数据的机器学习模型能够更好地预测实际的碱基编辑效率,使获得内生目标的大规模编辑数据集成为可能。


3.png

图1 全自动高通量哺乳动物基因编辑平台概览


在这四个模块中,第 一个模块用于负责gRNA设计,以将人类致病性SNV引入野生型细胞,作者使用生物信息学分析选择了1210个基因作为靶位点,使用包含每个靶位点上游3 bp至下游750 bp靶区的DNA序列,分批处理用于分析编辑结果的三对引物。对于自动化gRNA质粒构建工作流程模块,gRNAs质粒构建过程中采用了贝克曼库尔特Echo纳升级声波移液系统用于操纵DNA组装反应,相对于标准的Golden Gate DNA组装方法的反应体积为15μl,Echo的纳升级和无吸头操作能够对实验步骤进行一系列优化,将反应系统最小化到1微升的总体积,从而显着降低了实验成本。


随后使用贝克曼库尔特Biomek i7自动化移液工作站将DH5α感受态细胞与Golden Gate产物进行混合,通过ClonePix进行转化铺板,并在通过DNA测序验证构建质粒之后,使用Biomek i7进行质粒提取。为了分析数据编辑结果,使用Python脚本读取sanger测序文件,比较N20,并创建两个参考csv文件。错误的组装csv文件包括一个选择列表,用于从48孔细菌菌落板到96孔深孔板中挑选新菌落,以便ClonePix进行另一轮验证。正确组装csv文件包含N20测序及其在96孔深孔板中的位置,用于使用贝克曼库尔特Biomek i7自动化移液工作站进行质粒提取。此模块高通量自动化系统在4天之内共构建和分析了1210个gRNA质粒,成功率达99%,实现了每天384个gRNA组装的通量。而后续使用Biomek i7进行的质粒提取,通量则可达到576个质粒/天。


4.png

图2 全自动gRNA质粒构建工作流程概述示意图

图片

第三个模块是哺乳动物细胞中的碱基编辑,如图3。通过优化实验条件,作者开发了使用Biomek i7自动化移液工作站进行包括细胞接种和转染、细胞培养基更换以及进行样品收集在内的编辑过程。随后进行靶区域的细胞裂解和PCR扩增。全自动高通量系统在6h内将1210组gRNA和BE4max质粒共转染到HEK293T细胞中,并在2 h内完成后续培养基更换。培养5天后,收获编辑的细胞于8小时内完成进行PCR分析,然后进行sanger测序。使用Python脚本产生3个csv文件,一个用于准备新一轮PCR的挑选列表,以分析使用Biomek i7从96孔裂解样品板到96孔PCR板的false sample;第二个csv文件包含用于分析false sample的第二个引物对的序列和位置信息,用于新一轮PCR;第三个csv文件包含正确的样本和编辑效率结果,用于下一步的AI学习。


5.png

图3 自动化基因编辑过程的工作流程概述


第四个模块为作者开发的AI模型——染色质可及性学习模型(CAELM),预测基础编辑的结果。CAELM基于自动化平台生成的高度均匀的原位基因组编辑数据,预测HEK4T细胞中的BE293max行为,并实现了0.64的皮尔逊相关值。皮尔逊r是评估数值数据模型准确性的最普遍指标之一,CAELM模型中考虑了目标序列的真实染色体环境,这提供了更好、更现实的预测;同时,CAELM还提供了模型输入的特征重要性得分,并揭示了DNA可及性相对于目标序列上下文的贡献在预测中接近1:6。


通过与32个不同基因组位点的手动操作进行比较,其中16个目标位点在两个操作过程中的编辑效率几乎相等,而自动化高通量系统在其他14个位点的统计分析中表现出更高的编辑效率。这些结果表明,自动化高通量系统能够以与手动操作相当的效率执行基础编辑;随机选择BE4max编辑靶标的1210个与疾病相关的SNV的编辑效率均达到了较高水平,说明可以同时有效地操纵数千个内源性靶位点的人类细胞的全自动高通量原位基因编辑平台的成功建立。



评论
全部评论
您可能感兴趣的社区主题
加载中...
发布 评论