kegg分析是全部差异表达基因还是上调基因

lhylzy 2016-10-16 06:39:45 334 浏览

参与评论

登录后参与评论

全部评论(1条)

towerrt 2016-10-17 00:00:00

基因注释和差异表达基因方法一、实验流程提取样品总RNA后，用带有Oligo（dT）的磁珠富集真核生物mRNA（若为原核生物，则用试剂盒去除rRNA后进入下一步）。加入fragmentation buffer将mRNA打断成短片段，以mRNA为模板，用六碱基随机引物（random hexamers）合成diyi条cDNA链，然后加入缓冲液、dNTPs、RNase H和DNA polymerase I合成第二条cDNA链，在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复、加A并连接测序接头，然后用琼脂糖凝胶电泳进行片段大小选择，Z后进行PCR扩增，建好的测序文库用Illumina HiSeq? 2000进行测序。二、信息分析流程 1、产量统计原始序列数据测序得到的原始图像数据经base calling转化为序列数据，我们称之为raw data或raw reads，结果以fastq文件格式存储，fastq文件为用户得到的Z原始文件，里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read由四行描述： \@FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbbbbbbbbbbbbbbbbaaaaaaaaa_\\ 每个序列共有4行，第1行和第3行是序列名称（有的fq文件为了节省存储空间会省略第三行“＋”后面的序列名称），由测序仪产生；第2行是序列；第4行是序列的测序质量，每个字符对应第2行每个碱基，第四行每个字符对应的ASCII值减去64，即为该碱基的测序质量值，比如c对应的ASCII值为99，那么其对应的碱基质量值是35。从Illumina GAPipeline v1.3开始（目前为v1.6），碱基质量值范围为2到41。表1为测序错误率与测序质量值简明对应关系。具体地，如果测序错误率用E表示，碱基质量值用sQ表示，则有下列关系： file:///F:/G??/????????????/genetics_result_byhuada/bia120306/ihelp_right.html 1/17 12-10-11Help Document sQ = -10lgE 表1 测序错误率与测序质量值简明对应关系测序质量值 13 20 30测序错误率5%1%0.1%对应字符MT^ 数据过滤测序得到的reads，并不都是有效的。里面含有带接头的，重复的，测序质量很低的reads，这些reads会影响组装和后续分析，我们对下机的reads过滤，得到clean reads。数据处理的步骤： 1. 去除含adaptor的reads 2. 去除N的比例大于5%的reads 3. 去除低质量reads（质量值Q≤10的碱基数占整个read的20%以上） 4. 获得Clean reads Clean Reads数据原始序列数据经过去除杂质后得到的数据。后续分析都基于Clean reads。表2 测序产量统计表格示例 SamplesTotal Raw ReadsTotal Clean ReadsTotal Clean Nucleotides (nt)Average Read Length (nt)Q20 percentageN percentageGC percentageSample_A63，490，65454，821，1384，933，902，42090+9096.25%0.00%53.69% * Total Clean Nucleotides = Total Clean Reads1 x Read1 size + Total Clean Reads2 x Read2 size。 Total Raw Reads和Total Clean Reads分别表示原始reads和clean reads的总数量；Total Clean Nucleotides表示clean reads总的碱基数；Average Read Length表示clean reads的平均长度；Q20 percentage表示过滤后质量不低于20的碱基的比例。

赞(11)

回复(0)

评论

评论
登录后参与评论