作者:苗千
10-15·阅读时长6分钟
本年度诺贝尔化学奖被授予工作与蛋白质结构相关的大卫·贝克(David Baker)、戴密斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John Jumper)三位科学家。理解蛋白质的结构为何如此重要又如此困难,人工智能工具对于人类研究蛋白质能起到哪些作用?关于这些问题,瑞典皇家科学院院士、诺贝尔化学奖评委邹晓冬在发布会后接受了本刊的专访。
三联生活周刊:今年的诺贝尔物理学奖就授予了与人工智能相关的领域,化学奖同样与人工智能相关,感觉人工智能成了今年诺贝尔奖的一个主题。诺贝尔委员会在开会时会对此有所交流吗?
邹晓冬:物理学奖和化学奖的评奖是完全独立的。诺奖评选首先要根据本年的提名,就是说获奖者是从那些被提名的候选人中挑选出来的。人工智能现在在科学研究的各个领域都起到了非常重要的作用,因此今年的物理学奖和化学奖被提名者中有从事人工智能方向的候选人。今年的化学奖授予了三位破解蛋白质三维结构密码的科学家。他们的贡献对化学领域有着重大的突破,同时还可以为人类造福。
三联生活周刊:这三位获奖者的工作都与蛋白质的三维结构有关。为什么理解蛋白质的三维结构这么重要?
邹晓冬:生物的每一个功能都与蛋白质有关,而蛋白质的功能又与它的三维结构直接相关。想象一下,如果你闭上口鼻不再呼吸,你的生命就快结束了。氧气对生命来说非常重要。我们吸入的氧气要首先通过一个大型膜蛋白氧化还原酶转化为水分子,通过它的三维结构就可以了解从氧气到水分子的化学反应机理。
所有蛋白质分子都是由20种氨基酸组成的。而这20种氨基酸通过不同排列方式能形成不同的三维结构。也就是说氨基酸的每一种排列方式都对应一种蛋白质的三维结构,而这个结构本身决定了这种蛋白质在生物体内的作用——它可以作肌肉,也可以作荷尔蒙,也可以作抗体,等等。所以说理解蛋白质的结构非常重要。理解蛋白质在生物体内怎么工作也有很重要的医学价值。生物界已知的蛋白有2亿多种,这个数字非常大。它们的三维结构近年来被谷歌DeepMind公司戴密斯·哈萨比斯和约翰·江珀的团队开发出的“AlphaFold2”利用深度学习方式全部预测出来了。
三联生活周刊:那么以前想要理解蛋白质的三维结构为什么这么困难?
邹晓冬:就是因为技术手段不够。我们以前是通过X射线的单晶衍射做蛋白质晶体的解析,这是一种实验手段,需要蛋白提纯和结晶等多个步骤,不但费时费财,而且还不一定能成功。30多年前我在结构化学专业做博士研究时,如果能够解析出一种蛋白质的结构就可以拿一个博士学位。可见研究蛋白质的结构和功能非常重要,但也非常困难。历史上先后已有几十个诺贝尔奖分别授予了发展晶体解析学方法的科学家,可以用其解析蛋白质的结构和研究蛋白质功能。
随着计算机技术的发展,及同步辐射、冷冻电镜等新技术出现,蛋白质结构的解析速度越来越快了。但即便速度在加快,全球科学家们至今用实验方法共解析出了大约20万种蛋白质,花费了60多年的时间。那如果要用实验手段解析生物界所有已知的2亿种蛋白质结构,需要多少人、花费多少时间呢?可以说是完全不可能。所以我们需要人工智能来帮助预测蛋白质的结构。现在可以说人工智能工具(AlphaFold2)在一定程度上把分析蛋白质结构的问题解决了。它对蛋白质结构预测的准确度已经足够让科学家们利用这个工具进行各种领域的研究。比如从生物学或是医学角度去了解蛋白质在进化过程中的作用,哪种酶可以有效降解塑料,或者哪种蛋白对于某种疾病能够起到重要作用等。这就使大家能够解决很多相关的重要问题,然后进行更进一步的研究。当然预测结果没有实验解析这么准,很多情况下仍然需要实验结构来证实。
另外大卫·贝克发展的蛋白质设计方法,可以制造出在自然界中没有的蛋白质。比如说我们可以设计出一种和某种毒药分子发生作用会发光的蛋白质,然后利用它进行毒药检测;还可以设计其他功能,比如说设计疫苗。既然现在已经预测了自然界所有的蛋白质,我们就可以直接去数据库里查找对某种特定功能有帮助的结构。
AlphaFold2出现仅仅4年时间,现在世界上已经有190多个国家的200多万个科学家都在使用这个工具。特别是相对贫穷的国家,在没有先进实验仪器的条件下,科学家们也可以利用这个工具来进行研究,这对人类社会的进步非常重要。
现在AlphaFold工具已经出现了,预测蛋白质结构已经不是一个问题,那么接下来的问题就是怎么把结构解析得更准确,目前AlphaFold的能力还没有到这一步。比如要真正理解药物分子和不同结构的蛋白质的相互作用,我们还需要更高准确度的蛋白质结构。现在要达到这一步还是需要实验手段来完成,人工智能工具还要在这个方向进一步努力。
三联生活周刊:今年有三个科学家获得诺贝尔化学奖。其中戴密斯·哈萨比斯和约翰·江珀在DeepMind公司研究AlphaFold,而大卫·贝克是用一种叫“Rosetta”的工具进行蛋白质设计。你能介绍一下AlphaFold和Rosetta这两个工具的关系吗?
邹晓冬:我首先要特别提到一个蛋白质结构的数据库,叫作蛋白质数据库(Protein Data Bank, PDB)。它已有50多年的历史,里边包含了60多年来科学家们解析出的所有约20万种蛋白质的三维结构。AlphaFold和Rosetta的发展都是建立在蛋白质数据库基础上的。与AlphaFold 不同,Rosetta并不是基于人工神经网络,而是根据物理学和化学的一些基本原理。Rosetta的功能就是通过对蛋白质中各种片段氨基酸链结构的分析找出规律,利用计算机来预测蛋白质结构并用其设计全新的蛋白质结构。贝克从20世纪90年代就开始进行这项研究,利用它设计出很多药物分子和材料分子。在机器学习技术出现之后,他也开发了一个叫作“RosettaFold”的工具,使用人工智能技术预测蛋白质结构。
可以说蛋白质预测和蛋白质设计的方向是相反的。蛋白质预测是从一个自然界中已知蛋白的氨基酸序列,来预测这个蛋白质折叠的三维结构;蛋白质设计则是先设计出一个三维结构,通常希望这个三维结构具有某种功能,然后再去找与它可能匹配的氨基酸序列,再通过实验把这种蛋白质结构合成出来。
三联生活周刊:有没有某种蛋白质因为结构过于复杂,人工智能工具也没有办法解决?
邹晓冬:有的,因为并不是所有的蛋白质都具有非常规整的三维结构。有些蛋白质的某一部分氨基酸具有比较无序的结构。对于这样的蛋白质人工智能工具也还没有办法弄清楚它们的三维结构,但是AlphaFold2可以猜测出蛋白质各个部分的结构预测准确度。
三联生活周刊:除了解析蛋白质三维结构之外,人工智能工具还能够在这个领域解决哪些重大问题?
邹晓冬:哈萨比斯在谷歌DeepMind开发出下围棋的人工智能“AlphaGo”之后,希望能够用人工智能解决科学界的一个重大挑战。而他的朋友告诉他,预测蛋白质三维结构是大家公认的一个科学大挑战,人们花了50多年的时间都没能解决这个问题。现在哈萨比斯和江珀带领的团队开发出的AlphaFold2在很大程度上解决了这个科学界的难题。在今天人工智能的发展多种多样,我当然希望更多学者和进行人工智能研究的公司能够把人工智能工具应用到解决科学问题上来。
三联生活周刊:你作为诺贝尔奖的评委之一,会不会看到在未来有更多的人工智能专家获得诺贝尔科学类的奖项?
邹晓冬:我并不排除这种可能。诺贝尔化学奖并不是只授予化学家,研究“边缘科学”的学者有自己的优势。他们可以把自己的研究方向与化学结合起来,解决化学领域的重大科学问题。未来诺贝尔化学奖还有可能会授予这些进行“边缘科学”研究的学者。
三联生活周刊:人工智能工具在短时间内就在全世界造成了很大的影响。你作为一个科学家,会不会担心人工智能的参与让科学范式发生转变?
邹晓冬:对于科学研究来说,人工智能是一个非常有用的工具。我们的学生每天都在使用这些工具。它会加速科学的发展,帮助我们找到新的方向。但是现在人工智能工具并不是那么完善,它得出的很多结果并不一定是正确的,所以你必须要有自我分析判断的能力。以前我们认为教科书上的知识都是对的,而现在对于信息对错的分析能力非常重要,要有自己的判断。只要能够正确地应用这个工具,就一定能够加快科学的发展。
发表文章326篇 获得0个推荐 粉丝3924人
喵
现在下载APP,注册有红包哦!
三联生活周刊官方APP,你想看的都在这里