|
分子生物学数据库及相关软件的开发利用 |
|
李兵 罗静初 潘卫 唐汶 顾孝诚
The Development and Utilization of Molecular Biology Databases and Related Softwares
LI Bing,1 LUO Jing-chu,1 PAN Wei,1 TANG Wen,1 GU Xiao-cheng1 1.The National Laboratory of Protein Engineering and Plant Genetic Engineering,Peking University; LI Bing,2 2.Computer Center,Peking University,Beijing100871,China
生物大分子序列和结构测定技术的完善和应用,使核酸及蛋白质序列数据库及蛋白质结构数据库迅速增长。面对不断增长的分子生物信息,很多生物学工作者又在此基础上构建了具有特殊生物学意义和专门用途的二次数据库,使得数据库的内容和种类更加丰富和具体,为生物学各个领域的深入研究提供了坚实的信息基础。由法国生物信息研究中心Infobiogen提供的生物数据库目录dbcat〔1〕可以使用户对目前世界各地提供的分子生物信息数据库有一个详尽的了解。dbcat本身也是一个具有一定数据格式的数据库,按DNA、RNA、蛋白质、基因图谱、结构、文献等等分类,对每一种数据库的作者、联系地址、何处获取等信息都有具体的说明。目前, dbcat数据库中包含了400多种生物信息数据库的记录。同时, 针对这些生物数据库而开发的应用软件也层出不穷。这些软件的充分利用,将成为生物工作者的有力工具。由英国欧洲生物信息研究所EBI提供的生物软件目录Biocatalog〔2〕对这些软件进行了详细的描述。Biocatalog本身也是具有一定数据格式的数据库,共有50多个类别,包括序列分析、序列对准(alignment)、数据库搜索、分子进化、分子建模、结构预测、序列格式转换等。每一种软件都有作者、联系地址、何处获取等信息,而且大部分软件都在不断地更新。目前, Biocatalog数据库中收集的软件已达有500多个。大量数据库和软件都可以通过计算机网络获取。欧洲、美国等许多生物信息中心设有很多站点,以WWW、FTP和E-mail等方式为用户提供各种数据库和应用服务。由于国内网络设施、传输速度、上网费用等诸多因素的限制,这些信息资源还不能被充分利用,自己测定的序列也不便提交国外服务器处理。在本单位计算机工作站或网络服务器上安装一些常用的分子生物信息数据库和应用软件,是解决上述问题的途径之一。对那些专有数据需要保密的单位,更有必要建立本地数据库服务系统。 1997年以来,作为欧洲分子生物学网络组织中国节点,我们在北京大学生物信息中心的网络服务器上安装了核酸、蛋白质序列、结构等近40个数据库和SRS、GCG、Staden等有关软件〔3〕,积累了一些经验。本文对如何在本地安装数据库和软件作简要介绍。
1 数据库 从数据库的种类来看,核酸和蛋白质序列数据库是最基本的数据库,很多专用的二级数据库都由此而来。目前常用的核酸序列数据库有美国国家生物技术信息中心(NCBI)的GenBank、欧洲分子生物实验室(EMBL)的EMBL以及日本国立遗传研究所的DDBJ;主要的蛋白质序列数据库有瑞士日内瓦大学的SwissProt,以及美国、德国和日本合作管理的PIR。除了序列数据库,还有美国Brookhaven国家实验室管理的蛋白质结构数据库PDB,以及众多与序列有关的子库,这里不一一列举。 从数据库的数据格式来看,以上大多数数据库都以文本方式存放数据及数据描述住处所以使用任何文本浏览软件都可以对这些数据库存进行阅读。基本的数据格式有EMBL、GenBank、PIR等,其中EMBL格式比较规范,为很多数据库所使用。EMBL核酸序列数据库和SwissProt蛋白质序列数据库都采用这种格式。熟悉EMBL格式对于查阅现有数据库以及构建用户自己的数据库都有很大帮助。 从数据库所占存储空间来看,核酸序列数据库所占空间最大,如EMBL核酸序列数据库目前已经发表第55期(1998年6月),包括2 330 040条序列,共有1 607 673 907个核苷酸,整个数据库根据生物学分类分成19个文件,外加17个EST(表达序列标记)文件,共36个文件,占6.7GB的存储空间。占空间较大的数据库还有PDB,约1GB。与此相关的蛋白质二级结构空间[1] [2] 下一页 上一个医学论文: 家蚕分子连锁图谱的构建及分子标记育种研究进展 下一个医学论文: 一种简便 快速的大肠杆菌质粒转化方法
|
|
|
|
|
|
|