2016 年,AlphaGo 在“人机大战”中战胜世界围棋冠军曾一度让人们感受到 AI 之强大;时隔数载,2022 年 ChatGPT 横空出世再一次让人们领略到 AI 的惊艳。现如今,AI 堪称当前科技界最热门的话题之一,它不但改变了人们的生活,同时也为科学研究带来了更多可能。作为一种将“AI”和“科研”深度融合的新兴科技形态 —— AI for Science(人工智能驱动的科学研究,简称 AI4S)正迅速崛起。
“我觉得 AI 有望驱动一种全新的 Science 范式。为了实现特定的科学目标,人类肯定是需要一些工具的,而 AI 可能成为一种全新的工具,所以这里面有很大的机会。”谈及 AI 和 Science 之间的关系,清华大学智能产业研究院副研究员博士表示。
2017 年博士毕业于南京大学,他的主要研究方向是面向离散符号的生成式人工智能,主要应用包括文本生成、创新药物分子和材料分子生成等。2022 年,他加入清华大学智能产业研究院担任副研究员。从 2020 年起,他开始尝试将在文本生成中已经成熟的一些技术用于生成药物分子,目前已经在相关方向上开展了一些成功的探索,并且连续在 ICML、NeurIPS、ICLR 等会议上担任分子生成方向的领域主席。
伴随着生命科学与生物医药领域的数字化、自动化进程,以 AI 技术、基于数据驱动的研究范式为人类探索和解决生命健康问题提供了强大助力。近十年来,AI 在驱动药物研发和个性化医疗中取得大量新的突破,尤其是自 2020 年以来,AI 在蛋白质结构预测、新药物靶点发现等方面的创新性研究已成为国际前沿研究热点。
“其实可以把蛋白质看作是一门‘外语’,一条蛋白质序列可以认为是一个句子,只不过这门语言是用来描述生物体的,而人类既不会‘读’也不会‘写’,那是否可以借助 AI 对于这门语言进行‘读’和‘写’,一旦实现了‘读写’那将会给整个生命科学领域带来革命性的突破和更为广阔的想象空间。”说道。
聚焦到药物研发这个细分领域,通常情况下金贝体育官方,一款新药研发成功往往需要耗时十年、投资十亿美元,即“双十定律”。如何降低研发费用,提高成功率,缩短研发周期成为当前医药开发产业的当务之急,而 AI 的快速发展为药物研发开辟了全新的思路。
▲图|药物研发的主要环节(来源:2023 版《AI4S 全球发展观察与展望》)
“就现阶段而言,AI 辅助药物设计在整个药物研发流程中主要期望起到加速的作用,即给定靶点并在考虑多种约束条件的情况下,通过 AI 尝试快速地设计出一个具有高活性的分子。”表示。
理想情况下,随着 AI 在药物设计方向上的进一步发展,药物研发过程中的大部分实验可以像汽车、飞机等工业领域实现仿真模拟,通过计算手段进行测试和筛选,再通过真实实验进一步的验证和筛选,能够大幅减少真实实验带来的时间和经济成本的消耗。
“相较于传统的药物研发流程,AI 辅助药物设计优势主要体现在速度快。”指出,“而现阶段面临的挑战主要是可靠性不够。毕竟一个有活性的分子候选得到后还要面临冗长的后续流程,分子设计只是整个复杂流程中的一个部分,不是全部。”他补充说。
“如果未来有一天 AI 分子设计能考虑很多复杂的条件,同时进一步提高精度水平,那么 AI 将会在药物研发全流程中发挥更大的作用,并将有望改变整个药物研发的流程。”他指出。
博士毕业后进入字节跳动人工智能实验室(ByteDance AI Lab),期间历任研究员、高级研究员和研究经理,他作为负责人从零组建了文本生成中台和AI 辅助药物设计两个方向的研发团队。
围绕文本生成,和团队曾发表了多篇研究论文,其中,他们设计的“文本生成模型词表设计方案”曾入选 2021 年度计算语言学协会(ACL)年会最佳论文奖,此外,他们开发的相关产品目前已经应用于全球 20 余个国家和地区,创造的经济价值超 10 亿元。
“聚焦生成式 AI 领域,我先前的研究主要专注于文本方面,现阶段则主要侧重于用我熟悉的面向离散符号的生成模型去做分子设计,比如药物小分子、材料分子,甚至是设计具有特定功能的蛋白质等。”他介绍道。
谈及研究方向从自然语言处理(NLP)到 AI for Science 的转变,表示主要源于一个契机。在一次 Study group 上,他介绍符号生成模型开发以及文本生成方面的研究进展,时任字节跳动副总裁兼人工智能实验室主任的马维英博士指出,“既然能够生成文本,那么与人类生活息息相关其他符号(比如分子、蛋白质等)是不是也同样能够生成。”
“文本是由词组成的句子,其本质上是由具有一定排列和结构的符号组成,原子是构成分子的基本单位,氨基酸是构成蛋白质的基本单位,如果把原子和氨基酸也看作是一种符号,那么这种符号生成模型也可用于生成分子和蛋白质,毕竟它们本质上都是由符号形成的结构;另外,分子和蛋白质的也具有巨大的应用价值。”介绍道。
“源于这次契机,我在字节跳动搭建了 AI 辅助药物设计团队,也是那时起,我研究方向从生成文本转向生成分子。”他表示。
据介绍,现阶段和团队正在开发蛋白质大分子和通用型小分子设计模型。“一方面,类似于 NLP 的研究进程,我们把蛋白质看作是一种语言开展大量生成式预训练;围绕蛋白质生成式预训练,如何把蛋白质演化信息更好地融入到生成式预训练中,这是我们目前正在研究的课题之一。”周浩表示。
“另一方面,我们也在开发通用型小分子设计模型,既能用来开发新药物,也能用来设计新材料,比如设计 OLED 荧光材料分子,以及用于新能源领域的薄膜材料分子等;围绕分子生成,相较于文本、图片,分子的数据既连续(比如结构)也离散(比如化学键、原子形态),因此直接借用传统文本生成模型可能行不通,我们目前正在开发适合分子数据模态的新型生成模型,以期能够普遍性地提高分子生成的准确率金贝体育官方。”他介绍说。
“此外,与文本、图片的生成有所不同,分子的生成设计可用数据非常少,在这种情况下训练的模型所生成的结果不具备鲁棒性,这也是当前分子生成面临的一大挑战。”他指出,“我们希望借鉴超大规模语言模型所取得的成功来训练大规模的分子模型,实现在少样本学习情况下生成的结果具有鲁棒性、变得可用。如何在少样本场景下做精准、鲁棒的分子设计是我们当前想要解决的核心科学问题。”
对于 AI for Science 的应用前景,在看来,“AI 的定位在不同的应用场景里可能不太一样,但最终肯定是帮助人类快速地对显式的或隐式的以往经验做抽象,成为某种可调用的能力金贝体育官方,从而在特定应用中低边际成本地使用。”他指出。
“我觉得 AI for Science 可能在生化环材等各个传统学科发挥作用的行业中体现其全新的价值,具体地,比如我们现在做的药物设计、材料设计都有可能在未来依靠 AI 实现一些研究以及产业上的突破。”他说道,“当然,目前还没有到那个阶段,这需要相关研究者以及从业者共同努力去实现。”他补充说。
展望未来,表达了自己的期望,“我希望 AI for Science 作为一个全新的研究方向也好,一个全新的研究思路也好,未来能够真真切切地帮助到各个科学方向的进展,在一些方向上做到科学突破。”他总结道。金贝体育官方金贝体育官方