嘉峪检测网 2025-04-14 08:49
导读:Nature杂志采访了该领域的活跃研究人员,通过汇总其观点,形成具有实操性的四个潜在方向,发表在2月27日的outlook栏目文章《人工智能促进药物发现的四种方法》。
人工智能(AI)在理论上可以针对药物发现的两大痛点:长周期和高投入。AI可以分析类药分子的三维结构来预测与靶点蛋白的匹配,也能评估药物在体内复杂环境下的表现。然而,尽管药物发现阶段产生的数据规模庞大,但缺少适配机器学习的数据收采集规范等一系列问题使得AI尚未深度赋能药物发现。
大规模的高质量生化数据是AI最终能改变药物发现的前提。如何提高数据规范性,进而提高AI训练质量和最终表现?Nature杂志采访了该领域的活跃研究人员,通过汇总其观点,形成具有实操性的四个潜在方向,发表在2月27日的outlook栏目文章《人工智能促进药物发现的四种方法》(Four ways to power-up AI for drug discovery)中。
规范数据记录和实验方法(Standardize reporting and methods)
批次效应(Batch Effect)描述了数据产生过程中非生物学因素(如运行批次、操作人员)引入的变异。如果不对汇总数据进行预处理,AI可能将批次效应错误识别为具有生物学意义。早期建立的大型数据库(如生物活性分子数据库ChEMBL)因此无法完全适配AI需求,不同来源的实验设计和设备差异,使数据难以直接用于比较分析。
制定规则约束实验开展和数据记录被认为是最佳方法之一,由此可以在产生数据前进行质量保证。同时,在数据产生之后的数据集准备环节也可以进行约束。以下为实践案例:
人类细胞图谱计划(Human Cell Atlas) :绘制了数百万个人体细胞图谱,采用严格标准统一实验流程;其高质量的一致性细胞数据是筛选潜在药物靶点的AI算法的理想素材。
数据集基准测试平台Polaris:提出数据集质量检查和报告规范的指导方针,明确要求创建者提供数据来源、生成方法及使用指导,并由专家对公开数据集进行审核和认证,确保模型训练数据的可靠性。
认识到阴性结果的价值(Recognize the value of negative results)
药物发现的公开数据,无论来源于实验室还是制药公司,都是以阳性结果为主。当用于训练AI的数据缺少反向样本时,AI获得的知识以及提供的建议都会存在偏倚。比如当AI基于已发表的结果推荐伯胺化合物用于新抗生素发现时,对于现实中已积累大量未公布的失败数据的研究人员来说,AI的建议就是空洞无效的。
将反向样本(阴性结果数据)纳入AI训练的数据范围是解决该问题的第一步:
Avoid-ome 项目:由美国卫生高级研究计划局(US Advanced Research Projects Agency for Health)资助、加州大学旧金山分校领导,专注于构建与ADME相关的蛋白质结合实验和结构数据集,明确标注阴性结果,帮助AI模型识别药物发现后期才会暴露的药代动力学缺陷。
共享行业数据和专业知识(Share industry data and expertise)
阴性数据的缺乏很大程度上来自利益相关的闭源策略。出于商业和竞争因素,制药公司在药物发现中所积累的大量高质量数据并未完全公开。在诺华工作过的受访者透露,诺华积累了数万个化合物与受体蛋白结合的数据,这将作为其信息资源而不便分享。
官方背景的合作计划是促进分享的一种方式。欧盟资助了名为Melloddy的项目,该项目采用联合学习方法,允许十家公司合作训练模型,而不会向竞争对手泄露敏感信息。使用共享数据训练的AI模型能够更准确的预测给定分子的构效关系。
但合作会再次引发数据规范的问题,在质量上,不同公司来源的数据必然逊色于单一大型制药企业内部规范管理的数据。此外,为了保障合作中的隐私性而做的数据匿名化也会削弱数据丰富度。
因此,建立和维护统一管理的公共数据库依然是当前最可行的路径。英国生物库(UK Biobank)接受了来自政府和慈善机构的超过5亿英镑的资助,为研究人员提供了超过50万人的基因、生活史、健康信息的高质量数据。2024年时任FDA局长Robert M. Califf回忆欧洲之行时,专门肯定了英国生物库对多来源数据的统一建设。因此部分研究者也提出,虽然大型制药公司无法直接共享私有数据,但可以资助公共数据库来推进相关领域研究。
欧洲刚刚启动的健康数据空间计划范围更广,且贯彻“人人为我、我为人人”的理念,允许制药公司共享共用,可能会成为AI药物开发的数据宝库。
物尽其用:归纳整理已有数据(Do more with what you have)
规范新增数据、纳入阴性结果并提倡共享,以上方法覆盖了“如何增加新的可用数据”;除此之外,已有的海量公共数据也有挖掘和清洗的价值。Insilico Medicine公司汇总了现有的文献、出版物、临床试验、专利数据以及其他数据库,这些数据的产生消耗了美国政府数十亿美金的拨款,将其适应AI需求所作的努力依然是有价值的。
Insilico引入分数来评估数据质量,帮助算法权衡该数据的重要性和真实性。通过评分,AI能够识别出学术造假史和股价下跌等不良因素对数据的影响。其药物发现平台PandaOmics于2019年底发现一个纤维化疾病相关靶点,随后其生成式AI平台Chemistry42找到了阻断该靶点的化合物,从靶点发现到候选药物用时仅18个月,成为AI缩短研发周期的经典案例。现有公共数据库,如方向一中提到的ChEMBL,正是其训练相关AI算法的材料。
该公司CEO指出,尽管大型数据库存在缺陷,但可以创建更小的高质量数据集,在其训练基础上进行控制优化。通过自动化实验室产生标准化的特定数据,即可盘活已经投入巨大的历史研究。
来源:识林