2025-04-17 17:21:20 互联网
在全球AI竞技场上,美国凭借先发优势,在AI行业长期占据领先地位。然而,近期DeepSeek推出的低成本且高性能的开源模型R1,在通用AGI领域挑战了现有技术范式。面对这一创新,Meta迅速展开研究,OpenAI等AI巨头也被迫加快迭代步伐以跟进。DeepSeek的突破不仅显示了美国在AI领域的长期主导地位并非不可撼动,也改变了全球对中国企业的刻板印象——中国企业正从技术的模仿者,跃升为前沿创新的引领者。
要实现在全球AI竞赛中的领先地位,必须注重通用AGI与垂直AI的协同发展。作为AI的基石,通用AGI具备强大的认知和适应能力,能够处理广泛的复杂任务,是实现智能社会的核心支撑;而垂直AI则专注于与特定行业的深度融合,依托丰富的领域数据和专业知识,强调应用落地,具有更强的短期商业化潜力,是各行各业获得增量的关键动力。
以AI制药为例,中国科学院院士陈凯先在公开场合表示,AI为制药行业带来的潜在价值可达1.2万亿美元。他指出,国外研究显示,人工智能技术的应用可以将药物设计时间缩短70%,并将药物设计成功率提升10倍。
从全球市场格局来看,美国在AI制药领域处于领先地位。据贝哲斯咨询报告,2024年,美国在全球 AI制药市场的占比高达54.4%,而英国和欧盟各占约12%。与之相比,以中国为主的亚太地区,仍处于起步阶段。
显然,我国医药行业尚未迎来属于自己的“DeepSeek”时刻,关键原因之一在于尚未实现底层技术的突破。例如,DeepMind的AlphaFold就属于“卡脖子”的核心技术。
蛋白质结构预测工具AlphaFold是AI在生命科学应用领域的标杆,极大推动了全球生物医学研究的进展。通过深度学习算法,AlphaFold能够根据蛋白质的氨基酸序列预测其三维结构,解决了长期困扰生物学家的难题,并为药物研发提供了重要基础。它使研究人员能更准确地理解药物靶点的结构,从而设计出更有效的药物分子。
目前,AlphaFold3已开源,可用于非商业用途的研究。对此,复旦大学复杂体系多尺度研究院院长马剑鹏曾评论说,“有些人说AlphaFold开源了,我们国家不用搞了,这是大错特错。首先,他们所谓的开源只是表层结构开源了,底层技术没有开源。第二,你把它拿来你只能做他们的东西,你没有办法提高,就像航空发动机你买来可以,你能往前在进一步吗?不可能。”
当前,我国仍处于探索和模仿AlphaFold的阶段,在构建蛋白质静态结构数据库方面,部分研究方法借鉴了AlphaFold的思路,并几乎完全聚焦于研发更优的算法以实现超越。尽管投入了大量科学研究资源,实际效果并不理想。
那么,如何复刻DeepSeek模式,实现“从模仿到超越”呢?
回顾DeepSeek的技术路径,他们没有简单地追随传统大模型的技术路线,而是通过一系列创新设计,实现了显著的性能提升和成本优化。例如,DeepSeek的R1采用了混合专家架构(MoE),取代了传统Transformer架构中的前馈网络(FFN)层。这一架构设计不仅保持了模型的高性能,还显著降低了计算量和显存占用。
再从客观角度分析AlphaFold的优劣势。尽管AlphaFold在蛋白质静态结构预测方面表现出色,但也存在一些先天的局限性。其训练数据主要来源于实验数据,擅长静态蛋白质结构的预测,但在蛋白质动态构象变化建模上存在明显短板,难以精准模拟蛋白质折叠路径、构象转换以及相互作用机制,尤其是在靶蛋白与分子对接时,AlphaFold的预测结果可能存在较大偏差。此外,AlphaFold的训练数据高度依赖静态蛋白质结构库,而这些数据的增长速度较慢,现有的氨基酸序列和蛋白质三维结构数据量有限,且许多数据已经得到充分利用,无法为新的预测任务提供更多支持。
因此,借鉴DeepSeek的成功经验,同时规避AlphaFold的局限,我们可以制定以下三步策略,以实现从“模仿”到“超越”的突破:
技术路径:选择构建蛋白质动态结构数据库
蛋白质在生物体内并非静态存在,其功能和行为与动态变化密切相关。许多生物过程依赖于蛋白质的动态变化,而这些变化对于药物设计和分子对接至关重要。因此,我们可以跳出由AlphaFold主导的静态结构预测框架,转而探索动态结构预测,以推动技术的跨越式进展。
构建动态蛋白质结构数据库是实现技术跨越的核心步骤。传统的蛋白质静态结构数据库仅包含蛋白质在特定条件下的单一结构,而动态结构数据库则能够记录蛋白质在不同状态下的构象变化、能量状态及其与其他分子的相互作用。这种转变不仅能更全面地反映蛋白质的生物学功能,还能为药物发现和分子设计提供更有价值的数据支持。
分子动力学模拟是构建此类动态数据库的关键工具。通过模拟原子间的相互作用力,分子动力学模拟能够在纳秒到微秒的时间尺度上追踪蛋白质的运动轨迹,从而捕捉其构象变化。为了确保模拟结果的准确性,还需结合实验技术(如核磁共振、冷冻电子显微镜)进行验证。例如,核磁共振可以提供溶液中蛋白质的结构信息,而冷冻电子显微镜则适用于观察较大蛋白质复合物的结构细节。
例如,复旦大学研究团队创建的Dynamic PDB数据集,通过模拟捕捉了约12,600个蛋白质的构象变化,并提供了包括原子速度、力、势能和动能等物理属性的全面信息,为研究提供了宝贵的数据支持。该数据集提供了精细的时间采样间隔(1皮秒),能够捕捉更详细的蛋白质动态路径,有助于研究者更全面地理解蛋白质的重要构象变化。
数据积累:打造规模化、高质量的蛋白质动态结构数据库
AlphaFold之所以能在蛋白质静态结构预测领域取得显著进展,主要得益于超过20万套蛋白质结构数据和上亿条蛋白质序列的支持。这些丰富的数据资源为人工智能模型的训练和优化奠定了坚实的基础。然而,如果我们的动态结构数据库在规模和多样性上有所欠缺,则难以全面捕捉蛋白质复杂的动态变化。因此,构建一个规模至少与AlphaFold相当,甚至更大的蛋白质动态结构数据库是实现进一步突破的关键。
构建大规模、高质量、多维度的动态结构数据库的核心在于实现动态数据的多维度采集和持续积累。分子动力学模拟可以提供关于蛋白质动态行为的原子级别信息,是理解蛋白质动态的重要工具。同时,为了更全面地捕捉蛋白质在其复杂生物环境中的动态变化,我们需要整合多种互补的实验方法。其中,高通量蛋白质组学技术,例如数据非依赖型采集(DIA)质谱分析,能够快速且准确地鉴定并定量细胞和组织中的数千种蛋白质,为构建大规模动态结构数据库提供海量且高质量的实验数据,并逐步实现深度覆盖。 此外,通过构建和分析动态蛋白质网络,可以深入探索蛋白质在不同生物过程中的调控机制。这些网络揭示了蛋白质间相互作用的时间和空间动态变化,为进一步研究提供了重要线索。
同时,确保数据质量至关重要,这需要严格进行实验验证、数据标准化和整合,以保证数据的准确性、一致性和可用性。只有这样,才能为AI模型的训练和优化提供更全面、更可靠的数据基础,从而推动蛋白质结构预测领域的创新和发展。
研发范式:“计算+实验”,加速AI在蛋白质结构预测中的应用
在完成动态数据积累后,为了更准确地预测蛋白质的动态结构和功能,我们可以借助“计算+实验”的新型研发范式,加速人工智能在蛋白质结构预测领域的应用。
“计算+实验”方法利用计算机科学、数学模型和算法预测和分析实验结果,从而在实验设计、数据分析和结果验证中提供支持。这种方法尤其适用于复杂系统的分析与优化,特别是在生命科学和药物研发领域。通过AI进行初步预测、分子动力学模拟验证与优化,并借助实验技术进行进一步验证,形成了一个持续的反馈闭环,不断改进模型并提高预测精度。
具体而言,AI可以用于对蛋白质结构进行初步预测,而分子动力学模拟则用于验证和优化这些预测结果。通过这种方式,模拟结果不仅能够反馈至AI模型改进其算法,还能通过实验技术(如冷冻电子显微镜、核磁共振等)进行验证,将实验数据纳入训练数据集,从而增强AI模型的泛化能力。
美国人工智能制药公司Relay Therapeutics的案例验证了这一方法的有效性。Relay利用第二代安腾超级计算机进行长时间的分子动力学模拟,将传统的静态结构基础药物设计升级为动态运动基础的药物设计,从而观察到生物学相关的蛋白质运动,并结合冷冻电子显微镜和 X 射线晶体学等实验技术验证和优化模拟结果。通过对FGFR2激酶的详细分析,他们发现了此前未知的口袋结构,深入理解了靶点蛋白的运动及其与功能之间的关系。最终,Relay在18个月内以低于1亿美元的成本成功研发出治疗胆管癌的新药RLY-4008,突破了传统药物研发中的“10亿美元、10年周期”的行业瓶颈。
可见,在超算安腾的支持下,基于“计算+实验”研发范式,分子动力学模拟所提供的动态数据精度已接近实验精度,为推动蛋白质结构预测和药物研发开辟了新的可能性。
当下,中国式创新模式已经被海外科技圈认可。Uber优步的创始人特拉维斯Travis Kalanick最近在参加All In播客节目时,谈到了他对中国式创新的理解,当时Uber在中国推出的任何新功能都能被滴滴等对手以“史诗般的强度”来复制,但随着时间推移,滴滴在本地化服务、支付整合等方面进行了创新,最终在某些方面超越了Uber,成为行业的领导者。展望未来,我们有理由相信,在不久的将来,各行各业将会涌现出更多具有中国特色的创新模式。