pdb数据库是什么数据(pdb蛋白质数据库使用方法)

By 超神经

内容提要:DeepMind 的最新一代算法 AlphaFold 2,在近日被称为「蛋白质奥林匹克竞赛」的 CASP 中,完虐其它对手,取得惊人的突破,震惊整个科研圈。在被这项科研成果刷屏之后,我们来了解一下该算法背后的数据集。

关键词:蛋白质折叠 PDB 数据集

这两天,我们被 DeepMind 的新一代人工智能算法 AlphaFold 2 刷屏了,尤其是生物界,可谓迎来了里程碑式的大突破。

据 DeepMind 官方宣布,其深度学习算法 AlphaFold 2,已经成功解决过去 50 年以来生物领域的大难题。

该算法能够精确地基于氨基酸序列,预测蛋白质的 3D 结构,其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的 3D 结构相媲美。

pdb数据库是什么数据(pdb蛋白质数据库使用方法)

CASP 竞赛自由建模类别中的两个目标蛋白质示例

绿色为实验观测结果,蓝色为AlphaFold 2 预测结果

这一里程碑式的事件,令生物学家振奋,但同时也让很多业内人士瑟瑟发抖,直呼要转行去学深度学习了。

划时代意义的突破,离不开这个数据集

据 DeepMind 介绍,团队在公开数据上训练这一系统,这些数据来自蛋白质结构数据集 PDB,和包含未知结构蛋白质序列的大型数据库 UniProt,共包括约 170,000 个蛋白质结构。

其中,PDB 是一个专门收录蛋白质及核酸的三维结构资料的数据集,拥有十分悠久的历史,可以追溯到 1971 年。

当年美国布鲁克黑文国家实验室的 Walter Hamilton 决定建立这个数据库。1998 年 10 月,PDB 被移交给 Research Collaboratory for Structural Bioinformatics(RCSB,结构生物信息学研究联合实验室),由罗格斯大学的 Helen M. Berman 负责,他也是 RCSB 成员。

布鲁克黑文国家实验室成立于 1947 年

其历史上的科研发现曾 5 次获得诺贝尔奖

2003年,PDB 发展成为一个国际性组织 wwPDB(全球蛋白质数据库),来监管 PDB 的资源。wwPDB 的其他成员,包括 PDBe(欧洲)、RCSB(美国)、PDBj(日本)也为 PDB 提供了数据积累、处理和发布的中心。

wwPDB 的资源向全球公众免费开放

值得一提的是,虽然 PDB 的数据是由世界各地的科学家提交的,但每条提交的数据都会经过 wwPDB 工作人员的审核与注解,并检验数据是否合理。PDB 及其提供的软件现在对公众免费开放。

超 14 万个结构,PDB 里都哪些信息?

在过去的几十年里,PDB 的结构数量以接近指数的速度增长:

1982 年的 100 个;

1993 年的 1000 个;

1999 年的 10,000 个;

2014 年的 100,000个。

不过,自 2007 年以来,新蛋白质结构的积累速率似乎已经趋于稳定。

PDB 数据集新增结构逐年递增,规模庞大

世界各地的结构生物学家,使用诸如 X 射线晶体学、NMR 光谱和冷冻电镜等方法,来确定每个原子在分子中相对于彼此的位置。然后他们会提交此结构信息, wwPDB 对其进行批注并公开发布到数据库中。

你可以在 PDB 数据集查找核糖体、致癌基因、药物靶标,甚至整个病毒的结构,不过,PDB 里存档的结构数量规模巨大,找到所需信息可能是一项并不轻松的工作。

数据集预览,其中包含蛋白质/核酸结构、

测定结构所用实验方法等信息

■ PDB 蛋白质结构数据集详情

发布时间:1971 年起收集

发布机构:wwPDB

包含数量:14 万 个蛋白质/核酸结构

数据格式:csv 文件

数据大小:27MB(解压后 146MB)

DeepMind 同款数据集,你也值得拥有~如何使用?我们的合作伙伴 OpenBayes ,一个针对机器学习提供云端算力的云服务。他们拥有大规模的超算集群,GPU 集群架构专针对矩阵计算设计,面向 AI 应用提供算力容器,而且上手非常简单,开箱即用。

目前 OpenBayes 的算力容器产品已经支持TensorFlow、PyTorch、MXNet等 CPU 和 GPU 环境下,不同版本、类型的标准机器学习框架和各种常用依赖。

目前 OpenBayes 算力容器支持的标准库

并提供CPU、NVIDIA T4、NVIDIA Tesla V100等多种算力资源,无论是海量数据的集中训练,还是低功耗的模型常驻运行,都能轻松满足用户需求。

从 CPU 到 T4 再到 V100,丰富的算力容器配置

数据集可在公共资源直接使用/下载

活动说明访问openbayes.com凭邀请码 【HyperAI】注册新用户即可享受

免费 CPU 额度:300 分钟/周

免费 vGPU 额度:180 分钟/周

PDB 完整数据集获取:

https://www.rcsb.org/#Category-download

https://spdbv.vital-it.ch/disclaim.html#

其它参考资料:

http://www.wwpdb.org/

https://www.novopro.cn/articles/201912021193.html

—— 完 ——

发表评论

登录后才能评论