血红蛋白病

首页 » 常识 » 诊断 » 人工智能破解生物学50年来的一个重大挑战
TUhjnbcbe - 2022/10/13 21:38:00
北京好看扁平疣医院 http://m.39.net/pf/a_8846266.html

本文选自中国工程院院刊《Engineering》年第6期

作者:SeanONeill

来源:ArtificialIntelligenceCracksa50-Year-OldGrandChallengeinBiology[J].Engineering,,7(6):-.

编者按

蛋白质是由生物体或合成过程所产生的氨基酸构成,自然扭曲并折叠在一起,呈弯曲结构、螺旋结构和折叠结构等复杂形状。年11月下旬,谷歌公司旗下的专注研究人工智能的子公司DeepMindTechnologies宣布,其AlphaFold系统在基因序列预测蛋白质的复杂形状方面取得重大突破。

中国工程院院刊《Engineering》年第6期刊发《人工智能破解生物学50年来的一个重大挑战》。文章指出,蛋白质折叠是生物学领域中的一个“圣杯”问题,人工智能应有助于更快实现这一重大科学问题。AlphaFold系统能够从其训练中获得原子级认知的水平是一项惊人的突破,为整个生物学领域带来了机遇,同时,也为药物发现带来契机。此外,诸如AlphaFold系统之类的技术还可用于探索分解工业废物或旧塑料的蛋白质和酶,如有效吸收大气中的碳。

年11月下旬,谷歌母公司Alphabet旗下子公司DeepMindTechnologies(总部位于伦敦,专注于研究人工智能)宣布其AlphaFold系统在仅凭基因序列预测蛋白质的复杂形状方面已达到“无与伦比的精准度”(unparalleledlevelsofaccuracy)。这一壮举遇到生物学50年来的一个重大挑战,即预测蛋白质如何折叠。该挑战的成功破解预计会对药物研发以及蛋白质设计的新兴领域产生重大影响,甚至可能有助于我们应对新冠病*肺炎疫情,特别是如今迅速出现的多种严重急性呼吸综合征冠状病*2(SARS-CoV-2)变异株。

DeepMind创始人兼时任首席执行官DemisHassabis表示:“蛋白质折叠是生物学领域中的一个圣杯问题。我们一直推测人工智能应有助于更快实现这些重大科学突破。”

蛋白质是复杂的大分子,在生物界的各个方面都起着关键作用。蛋白质形状决定了其功能:血红蛋白运输营养物质,酶催化化学反应,胶原蛋白提供结构,胰岛素调节血糖,抗体提供免疫力。这些蛋白质以及其他所有蛋白质均由标准遗传密码中同一组20种氨基酸以长链相连的方式组成。

蛋白质是由生物体或合成过程所产生的氨基酸构成,自然扭曲并折叠在一起,形成复杂形状,呈弯曲结构、螺旋结构和折叠结构。例如,抗体蛋白质为“Y”形,这使其能够锁定且有助于中和引起疾病的细菌或病*。相反,有害基因突变会导致产生错误折叠的非功能性蛋白质,如囊性纤维化的蛋白质。

产生蛋白质的密码包含在脱氧核糖核酸(DNA)内。不过,尽管DNA测序揭示了给定蛋白质所包含的氨基酸序列,但是并不能说明它们如何折叠成最终形状。蛋白质序列越大,就越难预测其形状。理论上,典型蛋白质分子链可折叠成的构象是一个天文数字,因此使用蛮力去预测其形状几乎是不可能的。

蛋白质折叠问题始于年,当时,获得诺贝尔化学奖的美国生物化学家ChristianAnfinsen宣称蛋白质氨基酸序列应足以确定其在特定环境中的折叠形状。然而,几十年来,准确确定靶蛋白形状的方法只有核磁共振和X射线晶体分析,以及最近的冷冻电子显微镜等技术,但是这些方法往往价格高昂且费时。此类实验工作可能需要数年时间才能描绘出单个蛋白质的形状,而且无法保证成功。

年,为聚集全球科学家共同解决此问题,美国马里兰大学细胞生物学与分子遗传学教授JohnMoult及其同事开展了一项大型实验,旨在评估生成蛋白质结构的计算方法。这项工作成为两年一次的蛋白质结构预测关键评估(CriticalAssessmentofStructurePrediction,CASP)活动,Hassabis称之为“蛋白质折叠领域的奥林匹克竞赛”。

CASP竞赛分为三个滚动阶段:①收集约个靶蛋白,近期实验室工作已揭露其形状,但至关重要的是,尚未发布成果;②向世界各地的研究团队提供这些靶蛋白的基因序列,然后使用软件系统开展工作以预测其形状;③对提交的预测形状进行盲审。CASP主要使用称为“全局距离测试”(globaldistancetest,GDT)的度量标准(范围介于0~)来判断预测形状的精准度。Moult表示,GDT分数在90分左右,即可视为与人类通过实验方法获取的结果相当。

自年以来,研究进展一直稳定但缓慢,直到年第13届CASP竞赛,DeepMind团队首次参赛并提出早期版本的AlphaFold系统。该团队以相当大的优势获胜,在CASP竞赛中一鸣惊人,但AlphaFold系统预测的形状仍与靶蛋白的实际结构相去甚远,其GDT中位数评分为59分(图1)。

图1在两年一度的CASP竞赛中,获胜团队在最困难类别(自由建模类别)中使用GDT预测的中位数精准度。DeepMind团队的AlphaFold系统在年和年竞赛中均排名第一。图片来源:DeepMind,经许可

然而,在年第14届CASP竞赛中,DeepMind团队带来了经过全面改进的AlphaFold系统,这次结果惊人。Moult表示:“简直不可思议。当你看到一个令人惊讶的预测时,你会想,‘这是怎么回事?’。当你拥有三个或四个令人难以置信的准确的结构预测时,你就会意识到发生了非常重要的事情。”

AlphaFold系统在最困难类别中获得的GDT评分为87分,在所有靶蛋白中的GDT中位数评分为92.4分(图2)。该系统的平均误差约为0.16nm——大约为一个原子的宽度。为解决这一问题,DeepMind团队开发了一种新型的基于注意力的神经网络系统。在机器学习中,注意力系指模仿人类注意力的设计,即系统识别出数据的关键方面并赋予这些方面更多权重,而对那些它认为不太重要的数据很少

1
查看完整版本: 人工智能破解生物学50年来的一个重大挑战