1. 通过相似序列的数据库比对确定功能
具有相似性序列的蛋白质具有相似的功能。因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。需要明确的是,一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。对于不少种类的数据库搜索工具,快速搜索工具(如BLASTP)速度快,也很容易发现匹配良好的序列,一般就没必要运行更花时间的工具(如FASTA、BLITZ);但当BLASTP不能发现显著的匹配时,就需要使用那些搜索速度较慢但很灵敏的工具了。所以,一般的策略就是先进行BLASTP检索,如果不能得到相应的结果,就可以运行FASTA,如果FASTA也无法得到相应结果,最后就需要选用完全根据Smith-Waterman 算法设计的搜索程序,如 BLITZ。
比对所选用的记分矩阵对最终预测结果影响也很重要,首先,选择的矩阵须与匹配水平相一致。PAM250应用于远距离匹配(<25%相同比率),PAM40应用于不很相近的蛋白质序列,BLOSUM62为一个通用矩阵。其次,使用不同矩阵,可以发现始终出现的匹配序列,这样可以减少误差。
2. 确定序列特性:疏水性、跨膜螺旋等
许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测,还有不少小的序列模体(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。对于跨膜螺旋的预测涉及到对跨膜蛋白跨膜区域的识别,这就需要鉴定序列中可以折叠成螺旋并存在于膜的疏水环境中的区域。跨膜序列一般具有一些明显的特征,比如,为了跨膜α螺旋必须有大约17~25个氨基酸长度,因为细胞膜内部是由脂肪酸的长的碳氢链组成,所以膜中的α螺旋必须存在相对的面向膜的非极性面才能在能量上是有利的。早期的算法程序会直接分析这些特征,并通过分析序列的17~25个氨基酸的窗口,对每个窗口产生的疏水性得分,得分高的即被预测为跨膜螺旋,现在一些经过改进的更精确的算法,不仅提高预测准确性到90%以上,而且可以预测跨膜螺旋的一些其他特征,比如在膜上的方向。这些都依赖于一系列对已知跨膜螺旋的特征研究的成果。
3. 通过序列模体数据库等的比对确定功能
蛋白质不同区段的进化速率不同,蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能,通过确定这些保守区域,有可能为蛋白质功能提供线索。主要有两种方法可用于序列模体的查找。一种方法是查找匹配的一致序列或序列模体。这种技术的优点是快捷,序列模体数据库庞大而且不断被扩充;缺点是有时不灵敏,因为只有与一致序列或序列模体完全匹配才被列出,而近乎匹配的都将被忽略。使在做复杂分析时候受到严重限制。第二种方法是更加精细的序列分布型方法。原则上,分布型搜索的是保守序列(不只是一致序列),这样可以更灵敏的找出那些相关性较远的序列。但分布型和分布数据库需要大量的计算和人力,所以分布数据库的记录没有序列模体数据库多。在实际分析时,应同时对这两种类型的数据库都进行搜索。