1、序列比对(序列比对)基本序列比对问题是两个或两个以上符号序列的相似性或相异性。从生物学的原始,这个问题包含以下含义:从完整的序列重建DNA片段重叠在各种实验条件下。从调查数据(调查数据)确定物理和遗传图谱的存储、遍历和比较DNA序列数据库中的相似性比较两个或两个以上的搜索相关的序列和序列数据库中找到的核苷酸(核苷酸)连续生产模式,找出信息序列中的DNA和蛋白质序列比对是DNA序列的生物学特性,如插入序列时,删除(diyi个称为indel)和替代,所获得的序列除了正确的Z小距离的突然变化,或Z大相似性和取向之间的目标函数序列,该方法包括ES全局对准,局部对准,间隙惩罚。两序列往往采用动态规划算法,该算法应用于序列长度较小,但大量的基因序列(DNA序列上109bp),这种方法是不适合的算法复杂度是线性的,而且很难的工作。因此,不可避免的启发式方法,和的鼓风FASTA算法及相应的改进方法,从基本问题的前提下。
2、蛋白质结构比对和
预测是比较两个或两个以上的蛋白质分子结构的相似性或不。蛋白质结构与功能的相似性密切相关,一般来说,具有相似功能的蛋白质结构大致相同。蛋白质是由氨基酸链长度,从50到1000 ~ 3000aa(氨基酸),蛋白质具有多种功能,如酶,物料的储存、运输、信号传输,等等。内抗体的氨基酸序列决定了蛋白质的3维结构。一般来说,有四个不同层次的蛋白质结构。蛋白质结构预测的研究对象的原因是:可以理解为生物医药dockingdrugs目标函数,获得更好的农业转基因作物,工业用酶的合成。蛋白质结构比较的直接原因是由于蛋白质保留的3维结构比一级结构在进化上更为稳定,但也比AA序列假设包含更多的信息。3维结构的蛋白质氨基酸序列,是固有的3维结构对应(不一定是真实的),解释的物理可用性的Z小能量,从观察和总结已知的结果。蛋白质结构规则预测未知蛋白质结构。同源建模(同源建模)和识别(线程)方法属于这一类。同源建模用于寻找高度相似的蛋白质结构(30%多个相同氨基酸残基),后者用于不同进化家族的蛋白质结构比较。然而,蛋白质结构预测的研究不能满足实际的需要。
3、基因识别,在识别的基本问题的研究。
基因编码区序列进行分析,正确识别范围和基因的基因组序列的准确位置。非编码区由内含子(内含子)组成,一般被丢弃在蛋白质的形成过程中。但从实验来看,如果去除非编码区域,并不能完成基因复制。显然,DNA序列作为一种遗传语言,既存在于编码区域,又隐含在非编码序列中。DNA序列非编码区分析一般没有指导方法。在人类基因组中,并非所有的序列都是编码的,是一个蛋白质模板,已经完成了人类3~5%基因总编码序列的一部分,显然,人工搜索序列如此之多是难以想象的。检测方法包括测量密码区密码(密码子)的一阶频率和二阶马尔可夫链,ORF(开放阅读框),启动子识别(子),隐马尔可夫模型(Hidden Markov模型)和基因扫描拼接对齐。
4、分子进化和比较基因组学
使用相同的基因序列的相似性和差异在不同的物种进化的生物分子进化的研究中,进化树。我们可以用DNA序列也可以用来做它的氨基酸序列编码,甚至通过相位接近蛋白质结构比较分子进化的研究,前提是类似于基因相似的种族。通过比较我们可以在基因组水平的不同是常见的发现