什么是生物信息学?生物信息学中计算机和大数据各扮演什么样的角色?
生物信息学(Bioinformatics)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学基本上只是分子生物学与信息技术(尤其是互联网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。主要的研究方向有:序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型。如今,生物信息学正扮演着越来越重要的角色,它也是信息时代带给生物医学的巨大推动力。”8月3日,在第十四届国际生物信息学论坛(IBW 2019)上,哈佛大学教授刘小乐表示,生物医药领域产生了海量的数据,如何通过生物信息学与计算科学弄懂这些数据,成为生命科学领域专家共同关注的话题之一。
此次论坛共邀请国内外20位顶尖学者围绕表观遗传学、基因组学、转录组学、蛋白质组学、系统生物学等前沿科学领域的最新研究进展、技术发展和临床应用进行了主题报告。
越来越多的科学研究表明,不同个体携带的DNA信息差异可能成为探索生命奥秘的关键密码。也正是基于基因组研究在人类医药学领域和农业生产领域的潜在应用价值,世界上众多科研机构和商业公司在组学技术上展开了激烈的角逐。
中国科学院生物物理研究所研究员、中国科学院院士陈润生首先介绍了非编码基因领域的一些最新研究进展。他表示,部分非编码基因可以翻译成小肽,这个过程并不是随机的,而是受调控的。研究发现,约46%的小肽像编码基因一样,以AUG作为起始密码子,而对于非AUG起始的小肽,目前正借助离体的翻译体系作进一步研究。此外,非编码RNA还存在“过度翻译”现象,比如circRNA可以环绕自身多圈,翻译成更长的肽段。
“非编码基因有潜力成为很好的肿瘤标志物或药物靶点,如lncTCF7和lncKdm2b等。”陈润生说,随着DNA计算机的发展,如何突破液相反应体系中结果提取的速度限制将成为关键问题。
目前,国内外已经有100余种序列比对软件被开发出来,哈佛大学医学院助理教授李恒表示,新一代短序列比对软件在达到≧150bp的基础上会进一步提升速度,这在大数据时代有着重要意义。与此同时,参考基因组也需要进一步完善,为基因组在科学研究和临床工作中的应用打下更为坚实的基础。
宾夕法尼亚大学病理系副教授王凯指出,基因组上重复序列的变异与一系列疾病相关,如亨廷顿舞蹈症等,但是传统的短读长基因测序技术难以实现准确的鉴定,而长读长测序平台能够更好地鉴定重复串联变异。重复序列鉴定工具RepeatHMM在算法层面做了一系列改进,避免传统方法鉴定重复次数的误差。目前,他的团队开发的LinkedSV,就可以精准鉴定包括倒位、缺失在内的各种结构变异。
可以说,不断积累的组学大数据正在帮助科学家们越来越多地揭示一系列复杂疾病发生发展的机制。“如果将基因组学、转录组学等数据和化学反应结合在一起考虑,还能够帮助我们提升对于肿瘤等疾病的认识。”美国佐治亚大学教授徐鹰说。
与此同时,组学大数据的积累与挖掘给相关产业带来全新机会点,但随之而来的问题即是如何高效地对数据进行分析和解读。那么,近年来新兴的生物云计算平台将如何更好地提供助力呢?
中软国际科技服务有限公司云服务工程师表示,生物信息行业全年业务存在波峰和波谷,当业务处于波谷时,本地服务器集群等系统可满足业务对IT资源的需求,但面对业务波峰时,本地资源受规模限制而无法及时满足需求,此时就可以利用公有云资源弹性扩展资源规模,以此缩短分析时长和提升解读效率。同时,华为云将容器技术应用于生物信息领域并发布了基因容器服务(GCS),为广大生物信息人员提供“更省、更快、更轻松”的云计算平台。
其中,GCS由三层架构组成:底层是Docker层,主要解决软件的安装和升级的问题;中间层是Kubernetes层,主要解决大规模集群中部署和运行Docker的问题;顶层是流程管理层,主要负责业务流程控制并提供精细粒度的监控运维管理能力。
采访中,记者了解到,华为最新推出业界最高性能的ARM-based处理器-鲲鹏920以及TaiShan服务器。其中,TaiShan服务器主要面向大数据、分布式存储以及ARM原生应用等场景,发挥出了ARM架构在多核、高能效等方面的优势,为企业用户构建高性能、低功耗的新计算平台奠定了基础。并且,该款服务器在实际应用过程中,相比传统的x86服务器有较明显的性价比提升。
据悉,本届大会由北京大学生物信息中心承办,北京大学数学科学学院/统计科学中心、北京大学分子医学研究所、北京大学医学部基础医学院、北京大学肿瘤医院生物信息中心、蛋白质与植物基因研究国家重点实验室、上海嘉因生物科技有限公司、中软国际科技服务有限公司协办。
学生物信息学哪几门学科要好?
1. 生物信息学专业必修科目有:生物学、数学、计算机科学。 课程设置:普通生物学、生物化学、分子生物学、遗传学、生物信息学、计算生物学、基因组学、生物芯片原理与技术、蛋白质组学、模式识别与预测、数据库系统原理、Linux基础及应用、生物软件及数据库、Perl编程基础等。 生物信息学(Bioinformatics)是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量生物数据所包含的生物学意义。它随1990年人类基因组计划(HGP)的实施和信息技术的发展而诞生,现已迅速发展成为当今生命科学最具吸引力和重大的前沿领域,为生物学、计算机科学、数学、信息科学等专业的高素质人才提供了更广阔的发展天地。 培养目标:本专业培养德、智、体、美全面发展,具有较好的分子生物学、计算机科学与技术、数学和统计学素养,掌握生物信息学基本理论和方法,具备生物信息收集、分析、挖掘、利用等方面的基本能力,能在科研机构、高等学校、医疗医药、环境保护等相关部门与行业从事教学、科研、管理、疾病分子诊断、药物设计、生物软件开发、环境微生物监测等工作的高级科学技术人才。 专业状况:我国生物学本科教育主要围绕两个专业——生物科学和生物技术进行,而生物信息学相关课程通常作为这两个专业高年级学生的选修课,且要求学生们已修完大部分专业必修课以及一些计算机课程,如C语言等。教学实践表明,这一安排基本上符合国内本科生教育的实际情况,有利于本科生们掌握生物信息学的基本知识和工作原理,激发他们今后深入研究的兴趣。世界上越来越多的政府部门、教育机构和企业都呼吁加快培养各类生物信息学人才。