今天,深度学习方面的顶级研究型公司 DeepMind又制造了一个即将撼动世界的“大新闻”。该公司发布了世界首个目前最全、最高质量的人类蛋白质组结构预测图库,并且相关论文已经通过权威期刊《自然》发布。
人类蛋白质组 (Proteome) 就是人类所包含的所有蛋白质,类似人类基因组包含了所有人类基因那样。破译人类蛋白质的结构(可以理解为卷曲形状),对于生物学、医学,乃至整个生命科学具有无法估量的深远影响。
“这是一本名副其实的世界蛋白质万年历。”DeepMind 在博客中写道。
很多关注深度学习领域的朋友可能知道,DeepMind 多年前专为预测蛋白质结构而开发了 AlphaFold 算法。
上周,DeepMind 刚刚公开了 AlphaFold 2 系统的相关论文和源代码。AlphaFold 2 被誉为“蛋白质折叠结构预测”这一生物学方面长达50年重要问题的当前最优解,将准确性平均分提升到了92.4(百分制),误差不超过一个原子的大小。
今天 Deepmind 发布的蛋白质组预测图,正是基于这项技术。
“感谢 AlphaFold 团队长达5年的不懈努力,以及我们合作伙伴的帮助,我们现在终于可以将这些关键的信息公之于众。”
今天 DeepMind 正式发布的人类蛋白质组预测图,包括了:
1)人类大约2万种蛋白质当中,98.5%的蛋白质;
2)20种科研常用的重要生物体(如小鼠、果蝇、大肠杆菌等)的蛋白质。
DeepMind 还和欧洲生物信息研究所 (EMBL-EBI) 合作,将这些蛋白质结构预测图,整理成一个 AlphaFold 蛋白质结构数据库 ( AlphaFold Protein Structure Database, 简称 APDB) ,并且对全世界免费开放。
在这个数据库中,输入蛋白质的编号/名字/基因,或者生物名,即可快速查找到对应的蛋白质,并且查看 AlphaFold 2 预测的高准确度折叠图。
视频来源:DeepMind
比如下图中显示的就是 PE-PGRS family protein PE_PGRS33。这是一种与结核病相关的蛋白质。数据库包括了对蛋白的家族和基因信息等提供了相关介绍,并且提供一个可以拖拽交互的3D结构图,其中颜色越冷的部分,表示 AlphaFold 在该部分的预测可信度越高:
该公司还宣布,在接下来的几个月里,研究团队还将继续扩大 PDB 的内容,覆盖所有目前已知的超过1亿种蛋白质当中的绝大部分。
我们都听说过蛋白质。想要了解一个蛋白质“长啥样”,其实有多种视图可以采用。比如:
1)空间填充图,方便看到蛋白质分子结构;
2)飘带图,可以更加准确地显示蛋白质当中的α-氨基酸分子链条的折叠结构;
3)表面图,可以看到蛋白质可以与水分子接触的表面。
而今天我们主要讨论的蛋白质折叠结构就是通过飘带图所表示的。
为什么了解和预测蛋白质折叠结构很重要?
蛋白质其实是一种复杂的“生物机器”。每一种蛋白质都有其独特的功能:有的负责在机体内运输代谢物质,比如血红蛋白;有的负责加速生物化学反应,比如淀粉酶;有的负责调节新陈代谢,比如胰岛素;有的则直接构成生物机体组织,比如胶原蛋白等。
虽然功能多种多样,但其实所有已知的蛋白质的结构都是由21种已知的氨基酸构成的。这些氨基酸当中也只包含碳、氢、氧、氮、硫和硒这六种元素。
但是,这些氨基酸在链条上的排列组合、链条的折叠方式,以及最终折叠的结构,决定了蛋白质的最终功能。
因此,准确了解蛋白质的折叠结构对于生命科学、环境科学等人类目前面对的重要课题都十分关键。
DeepMind 本次发布的内容让人类对于自己物种蛋白质组所了解的信息翻了一倍。
一些蛋白质研究方面的顶级机构和人士,对这次 DeepMind 发布的内容做出了极高的评价。
朴次茅斯大学生物酶技术创新中心主任 John McGeehan 教授表示,“过去我们花费数月甚至数年的工作,现在 AlphaFold 只用一个周末就可以做到。”
“被忽视疾病药物研发倡议”(DNDI) 的 Ben Perry 相信,AlphaFold 将会开启新的研究领域,“我们非常兴奋地看到,最尖端的 AI 技术正在聚焦于帮助那些最贫困的人口。”
“我们相信,这个项目代表了截至目前 AI 对于推进科学知识进步,所作出的最有价值的贡献,并且是 AI 能够为人类带来帮助的优秀案例,”DeepMind 在博客中写道,“我们的发现将助力生物学和医学在未来更多的新发现。”
注:封面图来自于 DeepMind,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。
0 条评论
请「登录」后评论