仪器社区

kegg分析 是全部差异表达基因 还是上调基因

lhylzy 2016-10-16
评论
全部评论
towerrt
基因注释和差异表达基因方法
一、实验流程

提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA后进入下一步)。加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成diyi条cDNA链,然后加入缓冲液、dNTPs、RNase H和DNA polymerase I合成第二条cDNA链,在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复、加A并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,Z后进行PCR扩增,建好的测序文库用Illumina HiSeq? 2000进行测序。

二、信息分析流程

1、产量统计

原始序列数据

测序得到的原始图像数据经base calling转化为序列数据,我们称之为raw data或raw reads,结果以fastq文件格式存储,fastq文件为用户得到的Z原始文件,里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read由四行描述:

\@FC61FL8AAXX:1:17:1012:19200#GCCAAT/1

CCACTGTCATGTGAACATCACAGAGACATTTCTTGA

+

bbbbbbbbbbbbbbbbbbbbbbbbbaaaaaaaaa_\\

每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+”后面的序列名称),由测序仪产生;第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第四行每个字符对应的ASCII值减去64,即为该碱基的测序质量值,比如c对应的ASCII值为99,那么其对应的碱基质量值是35。从Illumina GAPipeline v1.3开始(目前为v1.6),碱基质量值范围为2到41。表1为测序错误率与测序质量值简明对应关系。具体地,如果测序错误率用E表示,碱基质量值用sQ表示,则有下列关系:

file:///F:/G??/????????????/genetics_result_byhuada/bia120306/ihelp_right.html

1/17

12-10-11Help Document

sQ = -10lgE

表1 测序错误率与测序质量值简明对应关系

测序质量值

13

20

30测序错误率5%1%0.1%对应字符MT^

数据过滤

测序得到的reads,并不都是有效的。里面含有带接头的,重复的,测序质量很低的reads,这些reads会影响组装和后续分析,我们对下机的reads过滤,得到clean reads。数据处理的步骤:

1. 去除含adaptor的reads

2. 去除N的比例大于5%的reads

3. 去除低质量reads(质量值Q≤10的碱基数占整个read的20%以上)

4. 获得Clean reads

Clean Reads数据

原始序列数据经过去除杂质后得到的数据。后续分析都基于Clean reads。

表2 测序产量统计表格示例

SamplesTotal Raw ReadsTotal Clean ReadsTotal Clean Nucleotides (nt)Average Read Length (nt)Q20 percentageN percentageGC percentageSample_A63,490,65454,821,1384,933,902,42090+9096.25%0.00%53.69%

* Total Clean Nucleotides = Total Clean Reads1 x Read1 size + Total Clean Reads2 x Read2 size。

Total Raw Reads和Total Clean Reads分别表示原始reads和clean reads的总数量;Total Clean Nucleotides表示clean reads总的碱基数;Average Read Length表示clean reads的平均长度;Q20 percentage表示过滤后质量不低于20的碱基的比例。
11 0 2016-10-17 0条评论 回复
您可能感兴趣的社区主题
加载中...
发布 评论