生物信息学_生物信息学_生物名词库_食品专题

什么是生物信息学

生物信息学（ B ioinformatics）是一门新兴的交叉学科。很多人会认为：生物信息学既涉及生物又涉及物理，一定是一个内容十分广泛的学科领域。其实它的内涵十分具体，范围非常明确。生物信息学是伴随基因组研究而产生的，因此它的研究内容就紧随着基因组研究而发展。

广义地说，生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义，一是对海量数据的收集、整理与服务，也就是管好这些数据；另一个是从中发现新的规律，也就是用好这些数据。

具体地说，生物信息学是把基因组 D NA序列信息分析作为源头，找到基因组序列中代表蛋白质和 R NA基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在 D NA序列中的遗传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律。

生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测，并将此类信息与生物体和生命过程的生理生化信息相结合，阐明其分子机理，最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。

基因组信息学、蛋白质的结构计算与模拟以及药物设计，这三者紧密地围绕着遗传信息传递的中心法则，因而必然有机地连接在一起。

为什么基因组研究需要依赖生物信息学呢？首先伴随着基因组研究，相关信息出现了爆炸性增长，迫切需要对海量生物信息进行处理。自1995年科学家破译了全长为180万核苷酸的嗜血流感杆菌基因组以来，到目前已有大约60个微生物和若干真核生物，如：酵母、线虫、果蝇、拟南芥的完整基因组完成测序。至2001年的春天，科学家又公布了人类基因组的绝大部分序列，即：人类基因组的工作草图。这些成就意味着基因组的研究将全面进入信息提取和数据分析的崭新阶段。根据国际数据库的统计，1999年12月DNA碱基数目为30亿，2000年4月DNA碱基数目是60亿，现在这一数目已达140亿，大约每14个月翻一番。同时，电子计算机芯片对于数字处理能力的增长也相当于每18个月翻一番。因此，计算机能够有效地管理和运行海量数据。

但是，更为本质的原因是基因组数据的复杂性。所谓某种生物的基因组就是指该生物所有遗传物质的总和。生物的遗传物质是一类称为脱氧核糖核酸（DNA）的生物大分子，它是由4种核苷酸串接起来组成的，通常用字符 A、 T、 G、 C代表。通俗地说，生物的遗传密码就是这4个字符连接起来的线状长链。这种链往往很长，比如：人的遗传密码就含有32亿个字符，将它们堆起来就构成了一部100多万页、每页有3000字符的“天书”。这本“天书”包含了人体的结构和功能以及生命活动过程的大量信息，却仅仅由4个字符组成，既无词法，又无句法，还没有标点符号，看起来每一页都是相似的。如何读懂它是个极大的难题。基因组研究最终是要把生物学问题转化成对数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、技术、工具，就必须依赖计算机的信息处理。

从事生物信息学研究应具备多方面的科学基础。首先，它需要一定的计算能力，包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统；同时，生物信息学需要强有力的创新算法和软件。没有算法创新，生物信息学就无法获得持续的发展。最后，它要与实验科学，特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术，既是产生生物信息数据的主要方法，又是验证生物信息学研究结果的关键手段。因此，从事生物信息学研究的人员也必须具备多学科交叉的知识。

我国生物信息学的研究和应用有一定的基础，因而有望取得突破性成果，这对于增强我国在基础研究领域的实力，在某些方面占据国际领先地位是十分重要的。生物信息学成果的应用也会产生巨大的社会效益和经济效益。

当前主要研究内容

一．获取人和各种生物的完整基因组

基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基，而现在的 D NA测序仪每个反应只能读取几百到上千个碱基。也就是说，要得到人的全部遗传密码首先要把人的基因组打碎，测完一个个小段的序列后再把它们重新拼接起来。

但是，我们很容易想象：如果把一本书撕成大小一样的碎片，就再也无法把它们重新正确地拼接起来，这是因为撕的同时丢失了书的上下文联系。这该如何办呢？我们可以取两本一样的书，按照不同的撕法把它们分头打碎。通过不同碎片互相参照，找到相同的单词，就可以部分恢复书的上下文联系。撕的书越多，恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿碱基只测一遍，往往要测很多遍。比如，今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道，它含有约29亿碱基，其物理图谱覆盖率为96％，序列覆盖率为94％。有大于90％的连续序列群已大于10万碱基；有约25％的连续序列群已等于或大于千万碱基。在这些序列中发现了3－4万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来，这就是常说的基因组序列数据的拼接和组装。

在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙，到重复序列标识、读框预测和基因标注，每一步都是紧密依赖生物信息学的软件和数据库的。其中，序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据，而且在于它含有高度重复的序列。为此，这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面，必须按照不同步骤的要求，发展适当的算法及相应的软件，以应对各种复杂的问题。国际上很多著名的基因组研究中心，都有自己的拼接和组装策略，并且这样的工作都是在超级计算机上完成的。

有了完整基因组，人类对自身的认识就更为细致、更为精确。比如：发现在我们的基因组中真正编码蛋白质（称为外显子）等的部分很少，只占1．1％；外显子与外显子之间的区域（称为内含子）占了24％；而基因与基因之间的间隔序列却占了75％，也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂，有更为丰富的剪接方式。发现基因组中片段重复现象很普遍，这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定，而男性的第12号染色体和女性的第16号染色体是易变的，等等。

二．发现新基因和新的单核苷酸多态性

发现新基因是当前国际上基因组研究的热点，使用生物信息学的方法是发现新基因的重要手段。比如：啤酒酵母完整基因组所包含的约6000个基因，大约60％是通过信息分析得到的。（1）基因的电脑克隆

利用 E ST数据库发现新基因也被称为基因的电脑克隆。 E ST序列是基因表达的短 c DNA序列，它们携带着完整基因的某些片段的信息。到2001年10月，GenBank的EST数据库中人类 E ST序列已超过380万条，它大约覆盖了人类基因的90％以上。

我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单，就是找到属于同一基因的所有 E ST片段，再把它们连接起来。由于 E ST序列是全世界很多实验室随机产生的，所以属于同一基因的很多 E ST序列间必然有大量重复小片段，利用这些小片段作为标志就可以把不同的 E ST连起来，直到发现了它们的全长，这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过，那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的，计算量是巨大的。

（2）从基因组 D NA序列中预测新基因

从基因组序列预测新基因，本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较，就可以发现新的基因了。

发现了新基因就会使我们对生命活动的认识加深一步。据1999年12月2日《自然》杂志，人的第22号染色体数据已鉴定出679个基因，其中55％的基因是未知的。有35种疾病与该染色体突变相关，像免疫系统疾病、先天性心脏病和精神分裂症。但是，要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中，依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的“整合基因索引”及与之相关的“整合蛋白索引”。

（3）发现单核苷酸多态（ S NP）

有的人吸烟喝酒却长寿，也有人自幼就病痛缠身；同一种治疗肿瘤的药物对一些人非常有效，对另一些人则完全无效。这是为什么？答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异，也就是单核苷酸的多态性（ S NP）。

现在普遍认为 S NP研究是人类基因组计划走向应用的重要步骤。这主要是因为 S NP将提供一个强有力的工具，用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。 S NP在基因组中分布相当广泛，近来的研究表明在人类基因组中每300碱基对就出现一次。大量存在的 S NP位点，使人们有机会发现与各种疾病，包括肿瘤相关的基因组突变；从实验操作来看，通过 S NP发现疾病相关基因突变要比通过家系来得容易；有些 S NP并不直接导致疾病基因的表达，但由于它与某些疾病基因相邻，而成为重要的标记。 S NP在基础研究中也发挥了巨大的作用，近年来对 Y染色体 S NP的分析，使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。

三．基因组中非编码蛋白质

区域的结构与功能研究

近年来的研究表明，在细菌这样的微生物中，非编码蛋白质的区域只占整个基因组序列的10％到20％。随着生物的进化，非编码区越来越多，在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明：这些非编码序列必定具有重要的生物功能。普遍的认识是，它们与基因的表达调控有关。

对人类基因组来说，迄今为止，人们真正掌握规律的只有 D NA上的编码蛋白质的区域（基因），最新资料说明这部分序列只占基因组的1．1％。仅占人类基因组1．1％的编码区的相关研究已经缔造了数十名诺贝尔奖获得者，98％非编码区蕴含的成果数量将是十分可观的，因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题，是取得重要成果的源泉。

四．在基因组水平研究生物进化

近几年来，随着基因组序列数据的大量增加，对序列差异和进化关系的争论也越来越激烈。首先发现同一种群基于不同分子序列所重构出的进化树可能不同。同时，对“垂直进化”和“水平演化”之间关系的讨论正逐渐引起人们的重视。也就是近年来发现了基因的“横向迁移现象”。即：基因可以在同时存在的种群间迁移，其结果虽可导致序列差异，但这种差异与进化无关。甚至，对人类基因组的分析发现，有几十个人的基因只与细菌基因相似，而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。特别是：在分子进化分析中，“相似性”和“同源性”是两个不同的概念。相似性只反映两者类似，并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。

五．完整基因组的比较研究

在后基因组时代，完整基因组数据越来越多，有了这些资料人们就能对若干重大生物学问题进行分析研究，如：生命是从哪里起源的？生命是如何进化的？遗传密码是如何起源的？估计最小独立生活的生物体至少需要多少基因？这些基因是如何使生物体活起来的？等等。这些重大的问题只有在基因组水平上才能回答。举例来说，鼠和人的基因组大小相似，都含有约30亿碱基对，基因的数目也类似，且大部同源。可是鼠和人差异却如此之大，这是为什么？同样，有的科学家估计不同人种间基因组的差别仅为0．1％；人猿间差别约为1％。但他们表型间的差异十分显著。因此，这种差异不仅应从基因、 D NA序列找原因，也应考虑到整个基因组、考虑染色体组织上的差异。这一工作开创了比较基因组学。

科学家们发现：全部基因可以按照功能和系统发生分为若干类，其中包括与复制、转录、翻译、分子伴娘、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。同时，科学家们通过几个完整基因组的比较，统计出维持生命活动所需要的最少基因的个数为250个左右。同样，当我们比较鼠和人的基因组就会发现，尽管两者基因组大小和基因数目类似，但基因组的组织却差别很大。例如存在于鼠1号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。研究表明在同一界中，某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系，亲缘关系越近，基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。

我国从1998年开始就开展了微生物完整基因组的大规模测序和分析工作。现在正进行和已完成的有：我国自行鉴定的 T hermotogales科的高温真细菌、泉生热袍菌；福氏痢疾杆菌；钩端螺旋体出血黄疸型赖株；表皮葡萄球菌；菊花黄单胞菌。我国科学家在完成人类基因组的1％测序工作的同时，最近又完成了具有4．3亿碱基对的水稻基因组的“工作草图”。这些数据将为我国在这一领域的研究提供最直接的素材。

六．从功能基因组到系统生物学

在不同的组织中表达基因的数目差别是很大的，脑中基因表达的数目最多，约有3－4万个转录子，有的组织中只有几十或几百个基因表达。同一组织在不同的个体生长发育阶段，表达基因的种类、数量也是不同的，有些基因是在幼年时期表达的，有些是中年阶段表达的，有些要到老年时期才表达。我们不仅需要了解基因的序列，还要了解基因的功能，也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。

为了得到基因的表达谱，国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的基因芯片（或称 D NA芯片）技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术，也称蛋白质组技术。由于芯片上样品点的密度很大，可以达到每片几十万，因此表达谱数据挖掘和知识发现就成了该研究成功与否的关键。无论是生物芯片还是蛋白质组技术的发展，都更强烈地依赖于生物信息学的理论、技术与数据库。下一步，功能基因组研究将朝着复杂系统的方向发展，即：探讨生物系统中各部分、各层次的相互作用，从而进入系统生物学的领域。

七．蛋白质结构模拟与药物设计

蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组研究的飞速发展，这一领域面临着新的态势，即：找到人类3—4万个基因的碱基序列是指日可待的事，因而确定它们表达产物的氨基酸顺序也会逐渐实现，此时预测这些蛋白的空间结构，进而实现针对性的药物设计，就成了迫在眉睫的任务。这也是大规模的计算问题。

八．生物信息学的应用与发展研究

生物信息学的研究结果不仅具有重要的理论价值，也可直接应用到工农业生产和医疗实践当中去。因此，生物信息学相关的分析与应用算法、软件和数据库，都具有重要的经济价值，最终都会形成商品，提供经济和社会效益。

（1）疾病相关的基因信息及相关算法和软件开发

很多疾病与基因突变或基因多态有关，有人估计与癌症相关的原癌基因约有1000个，抑癌基因约有100个。约有6000种以上的人类疾患与各种人类基因的变化相关联。更多的疾病是环境（包括致病微生物）与人类基因（基因产物）相互作用的结果。随着人类基因组计划的深入，当我们知道了人类全部基因在染色体上的位置、它们的序列特征（包括 S NPs）以及它们表达规律和产物（ R NA和蛋白质）特征以后，人们就可以有效地判定各种疾患的分子机制，进而发展合适的诊断和治疗手段。为此，有两项生物信息学工作是重要的：一是构建与疾病相关的人类基因信息数据库（包括 S NP数据库），二是发展有效地分析基因分型数据的生物信息学算法，特别是将 S NP数据与疾病和致病因素相关的计算方法。

（2）建立与动、植物良种繁育相关的基因组数据库，发展分子标记辅助育种技术

根据不同物种间的进化距离和功能基因的同源性，可以比较容易地找到各种家畜、经济作物与其经济效益相关的基因，并进一步认识它们发育、生长和抗逆的各种途径和机制。在此基础上，利用相关的基因组分子标记，可以加快育种的速度，对它们按照人们的愿望加以改造。

（3）研究与发展药物设计软件和基于生物信息的分子生物学技术

人类基因组信息为药物发展提供了新的候选分子和新的候选药靶基因。同时，分子生物学常用的表达载体、 P CR和杂交引物以及各种试剂盒（包括 D NA芯片）的设计必须依赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的天地。

• 进化树搜索	• BLAST的核酸数据库
• TRANSFAC数据库	• 转录调控区数据库
• 相互作用的蛋白质数据库	• 可变剪接数据库
• KEGG	• 蛋白质直系同源簇(COGs)数据库
• 蛋白质结构分类数据库	• PROSITE