生物信息学数据库发展-学云计算还是学大数据
跟着运来兄搭建自己的生物信息小书房。趁年轻,读几本硬书,到老了慢慢反刍。
建设数据库,是大部分生信人的梦想,之一。
随着国内生物信息学的发展,目前在十几个主要的生命科学科室都建立了自己的生物信息团队,也形成了以NGS技术为代表的生物信息科技服务产业,自然地生物信息学数据库发展,他们也有生物信息团队。从早期的C,perl到如今的python和R,这些计算机语言的应用为我们揭示生物学问题提供了新的语言、工具、手段。当然,我们看到生物信息作生命科学的基本配置正在成为常态,各个实验室也还在慢慢培养和配备自己的生物信息人员、硬件、软件。
搭建生物信息环境
坦率地说,这不是终点,甚至不是起点的终点,可能只是起点的起点。要把生物学问题记录清楚,说明白,呈现出来,只有一个pipeline往往是不够的。如果我们已经有了生物信息流程,除了做一些数据的分析工作之外,我们可以考虑做一些技术积累把我们已经了解的生物学现象用技术沉淀下来。随着数据的积累我们也要思考如何管理和挖掘数据,进一步增加我们对生命现象的理解生物信息学数据库发展,而不是一个submit了事。
我们可喜地看到,我们这在国建生物信息数据库已经不是早些年的一穷二白,我们看到:
我们还应该看到,现阶段对生物信息数据利用率还是那样的低,我们拥有全球测序通量最高的测序公司,基于我们的人口基数,我们拥有大量的临床病症数据,但是目前我们还没有形成可以和NCBI,EBI平行的数据库。
生物信息数据的建设不只是国家基因组所的事情,我们围绕一个具体的生物学问题,为了自用也好,开源以供同行使用也好,数据库作为一种底层的技术是十分必要的。还记得十几年前,某个单位测了一个物种的基因组就有可能获得该物种生物学问题的话语权,进而改变学术格局。近两年随着单细胞技术的发展和数据的积累,某单位测了某物种的细胞图谱就可以奠定在其在该物种研究领域的新的学术空间。这个赛道就唤做:学术竞赛。
如何检索数据库?如何构建自己课题组的生物信息数据?如何利用好已有的数据库丰富自己的分析?当我们开始思考这些问题,我们就已经在思考如何与数据库同在。
PHP是最好的语言吗?