生物信息学数据库发展-追寻神秘生物亚库马马巨蛇
NCBI
NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。 目前有将近40个在线的文库和分子生物学数据库,包括:PubMed, PubMed Central, and GenBank等。网址:
一、任务
为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;
从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;
促进生物学研究人员和医护人员应用数据库和软件;
努力协作以获取世界范围内的生物技术信息。
二、内容
1.文献数据库
包括:PubMed,PubMed Central,Books等
2.序列资源库
包括人,小鼠,果蝇,线虫等各种物种的基因组数据库
包含DNA,RNA,蛋白等各种类型的数据
如:SNP,GEO,SRA等
3.常用序列分析工具
Entrez – 数据挖掘的工文本条件查询工具(Text Term Searching) 来自于超过10万个种物的核酸和蛋白序列数据,连同蛋白三维结构,基因组图谱信息和文献信息检索 网址:
BLAST – 序列比对工具
4.数据下载与上传
数据下载接口:ftp://ftp.ncbi.nlm.nih.gov/
上传的工具有:Sequin,tbl2asn等,链接地址:
5.其他合作项目
比较常用的就是检索文献,检索序列,比对序列。了解更多内容可以参考官网手册:
参考资料
1.1 NCBI GEO
基因表达数据库(GEO,Gene Expression Omnibus database, )是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据,是目前最大、最全面的公共基因表达数据资源。所有的数据均可以在ftp站点下载:ftp://ftp-trace.ncbi.nih.gov/geo/.
一、GEO数据库基础知识
GEO Dataset (GDS) 数据集的ID号
GEO Series (GSE) study的ID号
GEO Platform (GPL) 芯片平台
GEO Sample (GSM) 样本ID号
这些数据都可以在ftp里面直接下载。
二、数据上传
上传的方式:
网页
Excel表格
软件
MINiML格式上传
详细上传方法,参见:
提交Affymetrix芯片数据到GEO数据库
三、数据挖掘
Entrez GEO-DataSets
官网:
收录整个实验数据,可以通过技术类型,作者,物种和实验变量等信息来进行搜索。一旦相关数据被查询到,可以通过提供上面的小工具做一些分析,比如:热电图分析,表达分析,亚群的影响等
2.Entrez GEO-Profiles
官网:
收录单个基因的表达谱数据。可以通过基因名字,GenBank编号,SAGE标签,GEO编号等来进行搜索
3.GEO BLAST
GEO Blast界面容许用户根据核酸序列的相似性来搜索相关的GEO-Profiles 所有的BLAST结果中“E”的标签代表这个数据跟GEO-Profiles表达数据相关。
数据下载
我们一般是拿到了GSE的study ID号,然后直接把什么的url修改一下,就可以看到关于该study的所以描述信息,是用的什么测序平台(芯片数据,或者高通量测序),测了多少个样本,来自于哪篇文章! 所有需要的数据均可以下载,而且都是在上面的ftp里面可以根据规律去找到的,甚至可以自己拼接下载的url链接,来做批量化处理!
例如:用GSE75528,则在 官网上直接搜索GSE75528 或直接输入 修改这个url最末尾的GSE号码就可以进入自己想去的任何研究的GEO页面。
如果是芯片数据,那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息,才能利用好别人的数据。 如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据,自己做处理!
1.2 NCBI SRA
跟GEO类似,NCBI的SRA(Sequence ReadArchive, )数据库是专门用于存储二代测序的原始数据,包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics等。 除了原始序列数据外,SRA现在也存raw reads在参考基因的aligment information。
该数据库也是International Nucleotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含:NCBI Sequence Read Archive (SRA), European Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。数据提交给其中任何一个数据库中后,数据都是共享的。
一、数据库结构
每个数据库都有自己最小的可发表单元。例如:PubMed最小可发表单元是一篇文献,SRA中最小可发表单元是一次实验(标签为:SRX#)。
NCBI中SRA数据结构的层次关系:Studies,Experiments, Samples,Runs:
Studies是就实验目标而言的,一个study可能包含多个experiment。
Experiments包含了样本,DNA source,测序平台,数据处理等信息。
一个experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads.
SRA数据库用不同的前缀加以区分:ERP or SRP for Studies, SRS for samples, SRX for Experiments, and SRR for Runs。
二、数据上传
登陆NCBI账号
注册你的项目和生物样本
注册项目:
注册样本:
上传SRA数据
上传SRA metadata (关于该项目、实验的等信息)
上传序列数据
更详细的说明,参见
三、数据下载
如果要下载每个study对应的runs的所有数据,我们需要下载安装SRA Toolkit!
链接地址:
SRA toolkit常用命令的说明文档见:
。
这里我们需要使用prefetch命令进行下载
$prefetch SRR776503 SRR776505 SRR776506
下载完成后,会在你的工作主目录下生成一个ncbi的文件夹。
sra子文件夹中的.sra文件就是对应的runs文件。 ‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前,我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump :$fastq-dump SRR776503.sra
通过命令行来下载
for ((i=204;i<=209;i++)) ;
do
wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;
done
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;d
参考资料
1.3 NCBI dbSNP
单核苷酸多态性(single nucleotide polymorphism,SNP) 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上。dbSNP(The Single Nucleotide Polymorphism database) 是一个公共的核酸多态性的数据库,它是关于单碱基替换以及短插入、删除多态性的资源库。网址:。
1.4 NCBI RefSeq
NCBI RefSeq (Reference Sequence,美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。
RefSeq和genbank的数据有什么区别?
genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。 而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。
为什么RefSeq记录中的基因符号(symbol)有时和相关的GenBank中的不一样?
RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库,由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号,但有的作者没有,所以有时会产生别名。GenBank与Pubmed相同,通过display可以选择显示格式生物信息学数据库发展,常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析,FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征,并以ATGC4种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息
1.5 NCBI Entrez
Entrez () 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez是由NCBI主持的一个数据库检索系统。
一、Entrez系统数据库
有将近38个库,这里仅列举了部分( )
Literature
Health
Genomes
Genes
Proteins
Chemicals
Ensembl
Ensembl是由EBI和Sanger共同开发的真核生物基因组注释项目,它侧重于脊椎动物的基因组数据,但也包含了其他生物如线虫,酵母,拟南芥和水稻等,其中,BioMart是用户提取Ensembl基因组数据的强大工具。
Ensembl项目得到的数据均可以通过其基因组浏览器查看,用于支持脊椎动物基因组的比较基因组,进化,序列突变和转录调控方面研究。Ensembl注释基因,多重序列比对,预测结构和收集疾病数据。Ensembl工具包括:BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。
一、简介
Ensembl是由英国Sanger研究所Wellcome基金会(WTSI)和欧洲分子生物学实验室所属分部欧洲生物信息学研究所(EMBI-EBI)共同协作运营的一个项目。这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园(Wellcome Trust Genome Campus)内。
Ensembl计划开始于1999年,人类基因组草图计划完成前的几年。即使在早期阶段,也可明显看出,三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。因此Ensembl的目标是自动的基因组注释,并把这些注释与其他有用的生物数据整合起来,通过网络公开给所有人使用。Ensembl数据库网站开始于July 2000,是一个真核生物基因组注释项目,其侧重于脊椎动物的基因组数据,但也包含了其他生物,如线虫,酵母,拟南芥和水稻等。近年来,随着时间推移,越来越多的基因组数据已经被添加到了Ensembl,同时Ensembl可用数据的范围也扩展到了比较基因组学、变异,以及调控数据。
基因注释的数据来源
二、Ensembl可以做什么
三、下载
少量的数据
大多数Ensembl 基因组数据的描述页有“export”功能,可以直接导出这一页的内容。
大的数据集
PERL API
如果不熟悉Perl语言,可以通过Ensembl REST API
复杂的交叉数据库
BioMart
全部的数据集
FTP site
四、其他
Ensembl genes命名
人的基因
ENSG Gene
ENST Transcript
ENSE Exon
ENSP Protein
例如: ENST00000252723
其他物种的基因,例如老鼠(Mus musculus)
ENSMUSG Mouse Gene
ENSMUST Mouse Transcript
ENSMUSE Mouse Exon
ENSMUSP Mouse Protein
UCSC
下面介绍一下作为生信人必须掌握的三大数据库 NCBI-UCSC-ENSEMBL之一的UCSC。
一、简介
2000年6月22日,UCSC(University of California,Santa Cruz)和其他国际人类基因组计划的成员完成了人基因组组装的第一个草图,并承诺永久对外提供基因组信息。几个星期以后,在2000年7月22日,组装的基因组在网站 ttp://genome.ucsc.edu 呈现出来,并提供了一个在线的查询分析工具UCSC Genome Browser。接下来的几年里,该网站不断的发展,如今已包含大量的脊椎动物和模式生物的基因组组装和注释信息,并提供了一系列查看,分析,下载数据的工具。
站点地址:
数据库特点:
给浏览基因组数据提供了可靠和迅速的方式。
整合了大量的基因组注释数据,约有一半的注释信息是UCSC通过来自公开的序列数据计算得出,另外一半来自世界各地的科学工作者。本身并不下任何结论,而只是收集各种相关信息供用 户参考。
支持数据库检索和序列相似性搜索。
二、UCSC可以干什么
UCSC建立的初衷是为了更好的呈现基因组数据,方便人们查看与研究。因此在呈现基因组碱基序列的同时,也结合了注释信息,例如known genes, predicted genes, ESTs, mRNAs, CpG islands, assembly gaps and coverage, chromosomal bands, mouse homologies等等。所以用户既可以用他们提供的数据库里面的数据生物信息学数据库发展,也可以上传自己的数据来做研究。围绕着这样的初衷,他们设计
Nucleic Acids Research(NAR) 每年会整理重要的生物信息数据库
参考于: