登录

人工智能赋能的现代中药数智化研究进展

嘉峪检测网 2025-05-11 11:31

导读:本文回顾并总结了AI 在中医药研发中的应用进展,从分子、网络、语言和多模态等多个层面系统阐述了AI 赋能中医药发展的关键技术。

摘  要Abstract 

 

中医药作为中华民族的宝贵财富,长期以来在预防和治疗疾病方面发挥着独特优势,在国内外科学界受到广泛关注。但中药原料质量标准不规范、物质组成复杂、作用机制不清和不良反应不明等问题制约现代中药产业的发展。而“数智中药”概念的提出对中医药数据质量和人工智能(AI)特异算法模型提出更高要求,成为推动中医药行业发展的新动力。中药研发现代化、数智化有望为中医药现代化带来更多机遇和创新。本文回顾并总结了AI 在中医药研发中的应用进展,从分子、网络、语言和多模态等多个层面系统阐述了AI 赋能中医药发展的关键技术,并提出基于“计算+ 语言”双模型的数智本草大模型,以期为推动中医药智能化发展提供新的研究思路和技术路径。

 

Traditional Chinese medicine (TCM), a treasured heritage of the Chinese nation, has long played a vital role in disease prevention and treatment. It has attracted increasing attention from domestic and international scientific communities.However, challenges such as inconsistent raw material standards, complex chemical compositions, unclear mechanisms of action, insufficient understanding of adverse reaction have hindered the development of the modern TCM industry. The concept of “digital & intelligent TCM” raises higher demands for data quality and AI-specific algorithm models, emerging as a new driving force in the modernization of TCM. The digital transformation of TCM research and development presents new opportunities and innovations. This article reviews the latest progress in the application of AI in TCM, and systematically elaborates on key AI technologies from molecular, network, language, and multimodal perspectives. Furthermore, it proposes an integrated intelligent platform, “Digital Herbal Intelligence,” based on a dual "Computing + Language" model, aiming to offer novel research directions and technological paths for the intelligent development of TCM.

 

关键词Key words 

 

中医药;人工智能;数智中药;多模态;“计算+ 语言”双模型

 

traditional Chinese medicine; artificial intelligence; digital & intelligent TCM; multimodality; "computing + language"dual model

 

《“十四五”中医药信息化发展规划》提出:“开展云计算、大数据、物联网、人工智能、5G、区块链、智能感知等新一代信息技术在中医药领域的集成应用研究,探索一批中医药数字化应用场景建设”[1-2]。2024 年初,“数智中药”的概念被创造性地提出, 它以人工智能(artificial intelligence,AI) 等科学技术为突破,创新性配置包含中医药海量数据的新型生产要素,结合云计算、大模型等新型技术手段,通过实施中药产品的“六化三精”,即组方配伍数智化、物质基础数智化、量时毒效数智化、生产质控数智化、临床应用数智化、消费认知数智化和用药精准、生产精智、疗效精确,打造数智中药研发新范式,为推动中药产业全链条的跨越式转型升级提供新的思路和方法[3]。

 

AI 在现代中药数智化研发中可发挥关键作用, 相关技术包括机器学习(machine learning,ML)、深度学习(deep learning,DL)、自然语言处理(natural language processing,NLP)和知识图谱(knowledge graph,KG) 等。AI 通过其强大的数据处理能力,可以实现对中医药海量数据的筛选、分析和归纳,以及古代医家诊治经验与现代临床数据的融合等[4-6] ;同时,AI 的应用能够从复杂的数据中识别出有价值的信息,使中医药海量数据的结构化和标准化成为可能,有利于揭示中药复杂物质基础与作用机制、临床疗效之间的内在联系。因此,AI 的应用极大地提高了数智中药的研发效率和疗效评估的精准性,为中药现代化转型提供了技术支持[7]。AI 在中药研发中的应用场景主要包括方剂推荐、天然产物筛选、药物靶点确证、药材质量标准控制和辅助诊疗等,见表1[8-34]。

 

 

本文从4 个层面阐述了AI 赋能中医药发展的技术路径,包括在分子层面探索AI 在天然产物研发中的应用、在网络层面揭示AI在中药质量控制和方剂优化中的价值、在自然语言层面展现AI 在中医诊断和大模型构建中的潜力,以及在多模态层面展示AI 在复方研制和智能诊疗中的创新。此外,还提出构建基于“计算+ 语言”双模型的数智本草大模型,为中医药的智能化发展提供系统性解决方案,见图1。

 

 

目前,AI 正在重塑中医药研发范式,从分子设计到多模态融合,从KG 到大模型构建,AI 赋能正推动中医药进入数智化发展新阶段。本文系统梳理了AI 在中医药各层面的创新应用,以展现数智中药的发展现状,揭示AI 驱动中医药现代化的广阔前景,为中医药高质量发展提供新的思路和方向。

 

1. AI 赋能基于分子层面的数智中药研发

 

基于分子结构的分子指纹(molecular fingerprints,MF)技术可以低计算成本的方式表示大规模化学数据集中化合物的化学性质,将多种类型的分子描述符转化成计算机可读格式,同时保持其固有的物理化学性质[35]。MF 分为2D 指纹和3D 指纹。其中,大多数MF 的编码方法仅使用2D 分子图形信息,包括结构键型指纹( 如MACCS)、子结构指纹(如Daylight)和散列指纹(如ECFP)等;而3D 指纹主要是药效团指纹。MF 是一维的二进制向量,其中每一个位点代表了分子中某一特定的结构特征或属性的有无。例如,某一位点可能代表分子中是否含有苯环,或者某个特定的官能团是否存在,见图2。目前MF 已被广泛应用于天然产物质量标准化、药物发现、靶点确证和药物虚拟筛选等领域。

 

1.1 天然产物靶点发现

 

中药成分靶点的发现和天然产物挖掘的准确预测对于新药的发现至关重要。单纯使用生物学实验来验证药物靶标结合谱需要大量时间和精力,AI 算法在减少药物搜索空间方面具有显著优势。天然产物靶点预测工具(Swiss TargetPrediction[36]、SuperPred[37]、TargetHunter[38]和SEA[39] 等) 在天然产物靶点发现中发挥着重要作用, 见表2。例如,Xu 等[40] 借助TargetHunter 发现了鼠尾草主要成分salvinorin A 的潜在靶标, 包括毒蕈碱样乙酰胆碱受体2、大麻素受体和多巴胺受体2 等。此外,DL 算法在预测药物靶点方面也表现出了良好的性能, 包括DeepPurpose[41]、DeepDTA[42]、DeepChem[43]、DeepCOP[44]、DrugAI[45] 等。Keum 等[46] 构建了6 类蛋白预测模型, 并通过ML 算法预测化合物与靶蛋白之间的相互作用,结果提示有几种重要疾病相关蛋白被预测为天然产物的靶标。Liang 等[47] 从公共数据库中收集了天然产物及其衍生物的活性数据,并评估了8 种天然产物靶标预测方法的性能,包括支持向量机(support vector machine,SVM)、极值梯度增强(extremegradient boosting,XGBoost)、随机森林(random forest,RF)、K- 近邻算法(K-nearestneighbor,KNN)、朴素贝叶斯(naive Bayes,NB)、前馈神经网络(feedforward neuralnetwork,FNN)、图神经网络(graph neural network,GNN)和递归神经网络(recurrentneural networks,RNN),最后建立了比传统模型训练表现更好的天然产物特异性靶标预测模型。

 

1.2 天然产物虚拟筛选

 

基于AI 算法对天然产物数据库进行筛选, 可以发现具有药理活性的先导化合物, 主要方法包括基于结构的虚拟筛选(structure-based virtual screening,SBVS) 和基于配体的虚拟筛选(ligand-based virtual screening,LBVS), 见表2。Deng 等[48] 结合SBVS、LBVS 和AI 算法(如RF、KNN)来验证分子对接结果,发现山楂和香蒲中含有的活性成分1,2- 二甲基苯和香蒲酸可能是神经退行性疾病的有效抑制剂。Zhao 等[49]利用分子对接技术,首次鉴定出2 种具有高抑制活性的PTP1B天然产物抑制剂黄芩苷和杨梅素,二者抑制活性均高于阳性对照成分熊果酸,并通过动物实验证实黄芩苷具有较好的降糖作用。此外,DL 算法通过分析大量的天然产物数据和生物活性数据、学习分子结构与生物活性之间的关系,能够预测新分子的活性和性质,从而筛选出潜在的药物候选分子,提高筛选的准确率。Zhang 等[50]利用NB 和递归分割(recursive partitioning,RP) 算法, 基于ECFP 和MACCS 分子指纹,构建了52 个阿尔兹海默病(Alzheimer disease,AD) 相关靶标的活性分子预测模型;通过对中国天然产物化学成分数据库(China Natural Products Chemical Composition Database,CNPC)、中药系统药理学数据库与分析平台(Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform,TCMSP) 数据库中相关成分进行筛选, 发现了12 种潜在的多靶点抗AD 化合物。Guo 等[51] 利用8999 个化合物的大规模数据集进行预训练, 再基于938 种已知具有抗幽门螺杆菌活性的化合物进行微调,构建了DL 模型并成功筛选出小檗碱衍生物8,通过化学蛋白质组学结合液相色谱- 串联质谱(liquid chromatography mass spectrometry/mass spectrometry,LC-MS/MS)技术鉴定出SecA 和BamD 为小檗碱衍生物8 的直接作用靶点,利用表面等离子体共振(surfaceplasmon resonance,SPR)和细胞热转变分析(cellular thermal shift assay,CESTA)验证了小檗碱衍生物8 与这两个靶蛋白的特异性相互作用小,同时发现小檗碱衍生物8 具有较优的抗菌活性和药代动力学特性,为抗幽门螺杆菌药物开发提供了新策略。

 

1.3 天然产物结构解析和合成

 

天然产物的结构优化对于发现具有治疗潜力的活性成分、提高药效、降低毒性和改善药代动力学特性至关重要。Morehouse等[52] 提出了质谱结构相似性网络注释平台(SNAP-MS), 该平台与来自分子网络的天然产物图谱中的化学相似性分组相匹配,有效解决了天然产物库中跨仪器平台间二级质谱碎片差异性的标准化难题, 同时突破了传统光谱参考库覆盖率低的局限性。Li 等[53] 使用消息传递神经网络(message passing neural networks,MPNNs) 构建了一个二元分类模型,其中每个分子的规范SMILES 字符串利用RDKit 中可用的规范化算法生成,每个字符串都唯一表征其相应的化学结构,并结合分子对接和分子动力学模拟,从天然产物中鉴定出2 种新的组织蛋白酶L(cathepsin L,CTSL)抑制剂。Hu 等[54] 总结了ML 辅助MS 和核磁共振谱数据分析以确定天然产物化学结构的最新进展,并提出ML 辅助结构解析,主要涉及基于ML 学习算法的MS/MS 图谱相似性计算、MS/MS 图谱预测和MF 生成方案,为未来深度融合计算机辅助结构解析,加速天然产物研究提供了有益的借鉴。Mikulak-Klucznik 等[55] 利用计算机辅助设计程序Chematica对复杂天然产物进行合成路径预测,可以实现各种ML 分子力学和量子力学例程,并估计反应产量;设置heuristic 规则, 以评估是否容易发生副反应和重排反应;此外,在合成规划中,通过heuristic 规则或神经网络评分函数来决定。实验结果表明,算法生成的合成路线在路径可行性(如步骤经济性、立体选择性控制)等关键指标上,与药物设计专家的路径高度吻合,且研究团队已成功通过实验室合成验证了3 种计算机设计的天然产物衍生物,证实了该方法的实用性与可靠性,见表2。

 

2. AI 赋能基于网络的中药创新组方及其重定位

 

基于网络的方法通过揭示中药方剂- 疾病- 证候- 靶点- 通路之间的作用机制来实现中药组方及其重定位。其中,主要涉及系统理解宏观对象(如方剂、证型和症状等)与微观对象(如天然产物、疾病和基因等)之间的多层次关系,并确定能够系统地耦合这些宏观和微观对象的网络元素。从方法论的角度来看,基于网络的方法可以分为3 个步骤:①基于NLP 或者KG,从中医药古籍或组学数据中挖掘宏观或微观对象之间的关系,并作为数据支撑。②基于网络关系进行推理,主要对中药/ 天然产物- 疾病(从方到病)、疾病/ 综合征- 基因-天然产物/ 方剂(从病到方)等关系进行分析和预测。③根据推断的网络关系, 探讨可能的药物协同作用、方剂配伍和方剂生成等。

 

2.1 中药质量标志物(Q-marker)的标准化

 

由于中药固有的多组分、多靶点特征,中药质量控制和生物活性评价体系正面临越来越多的关注和挑战。目前,《中国药典》采用的质量控制体系通常以化学标志物作为核心指导依据,运用紫外- 可见光分光光度法、薄层色谱法、高效液相色谱法、气相色谱法或高效液相色谱- 质谱法等多种方法,测定中药原材料、提取物、中成药、中药饮片以及方剂等的各类化学标志物及其含量,进而开展中药真伪鉴定和质量评价工作[56-57]。然而, 现行《中国药典》及质量控制相关专著仍存在明显的局限性,化学标志物与整体疗效之间的关联机制也存在疑问,例如单一化学标志物难以反映整体药效,化学标志物间协同/ 拮抗效应未被量化,化学标志物代谢转化与体内动力学过程未被追踪等。

 

近年来, 有学者提出了Q-marker 的概念[58-59],以解决中药质量标准化问题。例如,通过建立黄芪的指纹图谱并应用网络药理学分析,张淑娟等[60] 选择了3 种不同的成分作为黄芪的潜在Q-marker 进行标记;Hu 等[61]结合化学模式识别、网络药理学和实验验证方法,确定了蛛丝毛蓝耳草的Q-marker,并深入探讨了其生理机制。Li 等[62] 将网络药理学与色谱指纹图谱、多组分定量分析相结合来评估黄芪质量,该方法可全面反映黄芪中各种化学成分的总体分布情况,并精准鉴定Q-marker,为中药质量控制提供了新思路。此外,其他基于AI 的Q-marker 评估方法还包括组学研究[63],吸收、分布、代谢和排泄(ADME)筛选[64],分子对接和分子动力学模拟[65] 等,见表3。

 

2.2 中药配伍预测

 

中医方剂推荐一直是中医学研究的热点,在临床诊疗中发挥着不可或缺的作用。然而,患者的临床表现往往是个性化的,如何根据不同表现推荐相应的中药方剂是亟待解决的问题。目前,预测有效药物组合的计算方法包括基于特征、基于相似性测量和基于ML 的方法[66-67]。近年来,Li 等[68] 建立了一种基于距离的互信息模型(distance-based mutual information model,DMIM)方法来识别中药生物分子疾病多层网络中的“ 协同模块”,揭示中药的有效组合模式。Wang 等[69] 提出了一种基于网络的方法来量化中药药对之间的相互作用。具体而言,通过搜索并构建中药药对的蛋白质- 蛋白质相互作用网络,研究人员确定了成分和靶标上的最短距离、中心距离、内核距离和分离距离等多个拓扑阈值,推断了中药作用机制的基本原理,并探索了基于网络拓扑识别协同化合物相互作用的中药组合规律。Wang 等[70]采用基于网络的方法研究了中药方剂中相关靶模块之间的分子网络相互作用模式,并进一步探索了中药组合分布与处方之间的相关性,发现分级处方越多,相应效果越好,验证了中医方剂理论中君臣佐使的配伍原则,为网络药理学领域的多药联合开发提供了参考, 并为慢性病联合治疗的临床应用提供了指导。此外,Wang 等[69] 还研究收集了中医药综合数据库(Traditional Chinese Medicine Integrated Database,TCMID)中的中药-成分- 靶点网络数据, 并从公共数据库(IntAct、InnateDB、PINA 和HPRD 等)中提取蛋白质- 蛋白质相互作用数据,通过确定多个基于网络的距离,包括天然产物和靶标水平上的最短距离、中心距离、内核距离和分离距离等,发现常用的中药药对往往具有更短的距离,更有可能影响人类相互作用组中的邻近蛋白质;该研究进一步提出运用网络药理学框架对中药相互作用的程度进行量化评估,这一方法有助于更有效地探索中药组合的潜在空间,通过解析网络拓扑结构来识别具有协同作用的天然产物相互作用机制,见表3。

 

2.3 中药药效和药性的预测

 

中医药以临床医学实践为根基,依据患者个体症状表现,结合中药药性理论指导用药,进而衍生出种类繁多的、可治疗疾病的中药方剂。然而,尽管临床实践数据以及针对单味中药和(或)方剂的相关研究均表明某些中药治疗手段的有效性,但目前对于中药治疗疾病的具体药效机制仍缺乏清晰且深入的认识。而基于网络的方法为阐释中药和(或)方剂治疗疾病的药效机制提供了可解释的研究途径。Gan 等[71]建立了一个网络医学框架,将症状相关蛋白质和中药靶点映射到人类蛋白质- 蛋白质相互作用网络上,并分析其拓扑关系,以预测中药治疗该症状的有效性,揭示了中医症状“通用模块”治疗疾病的科学原理。Liu 等[72] 通过GNN 结合中药饮片特性,拟合了中药饮片与方剂药效的复杂非线性映射关系,并预测了中药饮片与方剂药效之间的关系。结果发现,与SVM、NB、逻辑回归、梯度提升决策树(gradient boosting decisiontree ,GBDN)和KNN 等经典ML 模型相比, 特性增强图卷积网络(enhanced graph convolutional network,EGCN) 具有更高的预测精度。Hu 等[73] 通过计算处方中中药的药性(即四气:寒、热、温、凉)、药味(即五味:酸、苦、甘、辛、咸)和归经(心、肝、脾、肺、肾)的比重,分析了单味中药黄连,黄连- 黄芩药对,以及经典中药方剂黄连解毒汤、白虎解毒汤和牡丹汤之间的药性关系,探索了传统中药性质和相容性的新方法,有助于验证和阐释中药组合理论,见表3。

 

2.4 中药方剂推荐

 

目前,药物开发成本急剧增加,新靶点发现面临的挑战也日益增加。基于网络的方法可以量化复杂中药和(或) 天然产物靶点和疾病之间的相互作用,有利于预测新的药物- 疾病关联,为药物再利用和不良反应检测提供了合适的方法[74-75]。比如,Zhao 等[31] 构建了一种基于多图卷积网络(multi-scaledynamic graph convolutional network,MGCN) 的处方推荐模型来分析中医症状和治疗处方之间的多元关系,结果表明,MGCN 优于对照组算法SVM,可明显提高中药处方推荐的准确性。Yang 等[76] 通过构建中药KG,引入中药药效作为辅助信息,提出了一种具有多层信息融合的图卷积模型来实现中药方剂的推荐,结果显示,与基线模型相比,该模型的精确度和召回率均有很大的提升。Dong 等[77] 提出了PresRecST 模型,该模型基于患者症状、治疗方法和中药的KG,整合渐进式推荐任务的知识图的嵌入向量,并与中医医生遵循的实际诊断和治疗程序密切相关,为方剂推荐和辅助诊疗提供了一种新的方法,见表3。

 

2.5 天然产物在中药创新中的应用

 

天然产物不仅具有丰富的骨架多样性和结构复杂性,还在新药发现中展现出巨大优势,且与传统化学合成分子相比,其通常具有较低的毒性和不良反应以及多靶点作用等独特优势。Huang等[78] 基于系统药理学的方法整合了药物靶点网络和三阴性乳腺癌的大规模基因组图谱,筛选出黄酮类化合物汉黄芩苷为有效的血管生成抑制剂,为天然产物治疗慢性病的药物发现提供了一种新方法。Wu 等[79] 设计了基于网络的方法和特权子结构识别的工作流程,并从天然产物库中筛选出56 个醌氧化还原酶1[NAD(P)H:quinone 1,NQO1] 抑制剂,其中,有7 个在细胞水平上显示出具有NQO1 抑制活性,提示其可能具备成为先导化合物的开发潜力;此外,网络分析结果表明,蛇床子素不仅能抑制碳酸酐酶Ⅸ和Ⅻ,还能抑制NQO1,进而对多种肿瘤类型具有抑制作用。Wang 等[80]提出了一种综合化学特征分析、定量分析、异源物质分析、网络药理学及生物活性评价的研究方法,成功从枳实薤白桂枝汤中筛选出9 个有效成分。此外,结合虚拟筛选、化学蛋白质组学和代谢组学等多种先进技术可以显著提高天然产物靶点鉴定的准确性与效率[81-82],见表3。

 

3. AI 赋能基于自然语言的中医药诊疗和药物研发

 

随着大数据在中医药行业的蓬勃发展,约80% 的诊疗数据(包括文本、图像、信号等)在生成后仍然是非结构化的,且未得到充分开发利用。作为一种AI 技术,NLP 可利用句法和语义分析对文本数据进行处理和分析,并有效应对自然语言数所面临的挑战,助力人们实现从耗时、手动和孤立的传统NLP 管理模式,向文本和语音数据分析的自动化、大规模和标准流程转型,进而推动中医药研究模式从以经验为主、宏观为主,转变为以数据为基础、宏观与微观相结合[83]。目前,基于NLP 的方法在中医药诊疗和药物研发方面得到了广泛的应用。NLP 建模和特征学习技术包括基于transformer 的双向编码器表示(bidirectional encoder representations fromtransformers,BERT)、onehot、word2ve2c、卷积神经网络(convolutional neural network,CNN)和GNN 等,见表4。其中,one-hot 和word2ve2c 是表征中药或者中药方剂特征的常用方法,即将中药的名称、特征(药性、药味)和功效等单词或者短句映射到固定长度的实数向量中,以表示单词语义。例如,Cheng等[84] 使用一个五维向量来表示方剂中的中药功效。中药名称和功效由word2vec 嵌入,中药的特征由23 位one-hot 嵌入,二维矩阵的每一行对应一种中药,描述中药的药性、药味、归经和毒性,其中维度1 表示该中药符合此描述,而维度0 则相反。然后将中药向量表示作为二维矩阵输入CNN 进行卷积运算。

 

3.1 方剂推荐和分类

 

中医医生主要通过对患者的临床症状进行诊断,来确定治疗用的方剂,而缺少表型和成分信息在微观层面的融合表征。Zhou等[85] 提出了一种基于DL 算法的智能方剂推荐系统(FordNet),通过卷积提取了20 000 多份电子健康记录表型信息特征, 运用向量化的方法从由中药、方剂和靶标组成的异质网络中提取中药特征,然后基于该信息构建融合了表型信息和分子信息的中药方剂特征。临床评估结果表明,FordNet 具备高效学习中医医师有效经验的能力,进而实现新方剂的合理推荐。Cheng 等[84] 提出了一种S-TextBLCNN 模型,用于中药方剂的疗效分类。该模型使用NLP 来学习和实现不同中药的定量表达, 选择中药名称、药性和功效3 类特征对中药进行编码,通过DL 模型建立二元分类器,对中医文献中收集的2664 个治疗中风的方剂进行分类。结果表明,方剂特征表示与S-TextBLCNN 模型的结合可有效提高方剂疗效分类的准确性,为中药方剂配伍研究提供了新的研究思路。

 

3.2 疾病辨证和分类及中药工艺流程

 

在中医对疾病的认识和治疗体系中,阴阳失衡、气血失调被视为潜在的致病根源。中医诊疗强调整体观念、辨证论治,通常需要综合考虑人体症状、环境因素和患者的个人体质,从而提供个性化的医疗服务。Lin 等[86] 通过整合经典中医古籍《黄帝内经》文本数据,引入NLP 来量化不同精神疾病描述与五脏六腑、情志的对应关系。结果表明,心脏与精神障碍类疾病最相关,而与精神疾病相关的重要情志因素是怒、忧与思。Zhou 等[87] 通过使用NLP 算法构建了一个高质量的中医症状归一化模型(BERT 分类模型),有效解决了中医症状具有相同含义但字面表达不同的问题。Yao 等[88] 利用未标记的临床语料库对BERT 语言模型进行微调,实现了对中医的临床记录进行疾病分类,并揭示了临床文本中的指示性特征。Li 等[89] 利用词向量技术构建了中药名称和药用部位的特征向量,使用改进的词频-逆文档频率对特征向量进行加权处理,并利用NLP 的文本分类方法将其拓展至中药复方煎煮领域,为有效、科学地延长中药复方煎煮时间提供了技术支持。

 

3.3 辅助诊断

 

根据中医药理论, 人体脏腑、阴阳、气血的生理病理变化可以通过四诊法(即望、闻、问、切)进行诊察。然而,四诊作为辨证论治的基础,容易受到外部客观条件(如环境、光源等)和医生主观判断的影响,缺乏客观的定量指标。将KG 与中医诊断相结合,可以高效地收集、组织和分析大量中医专家医疗病例数据、临床诊疗信息和医患对话记录等,使系统能够根据用户报告的疾病、症状和体征提供诊断结果和治疗计划,以及实现个性化的中医健康状况识别,推动疾病模式模型的发展,增强中医实践的客观性和科学性[90-92]。例如,Ye 等[93] 提出了一种基于知识的辩证决策支持模型(knowledge-based decision support model for syndrome differentiation,KDSD), 将医疗文本与KG 实体表示(fusing medical text with KG entity representation,F-MT-KER)相融合, 并使用BERT 模型获取医疗记录文本的矢量表示,证明了基于预训练模型和KG 的多标签分类方法可以更好地模拟复杂病例的中医辨证。Yin等[94] 将临床医学知识与电子病历相结合, 开发出一种基于KG 的耳鸣诊断方法, 该方法很好地阐释了不同患者耳鸣症状相似的原因, 为医生提供了一种可靠且可解释的诊断工具,有望提高耳鸣诊断的准确性。

 

3.4 中医药大模型

 

随着NLP、BERT 和生成式预训练转换器(generative pretrained transformer,GPT)等训练模型的快速发展,中医药领域正经历一场数字化和智能化的变革。中医药大模型作为代表,旨在整合和分析海量中医药文献、中医药数据库、临床研究资料和医案等数据,通过训练大语言模型,将其应用于中医药现代化的研发和辅助医疗中[95-96]。目前,中医药大模型主要包括中医药辅助诊疗大模型(如神农中医药大模型、TCMLLM-PR 大模型、仲景中医大模型等)和中药研发大模型(如数智本草大模型、岐黄问道大模型等)。部分已发布的中医药辅助诊疗和研发大模型,见表5。

 

 

数智本草大模型是由天士力与华为云联合开发的中医药语言大模型和计算大模型。与ChatGPT 和其他中医药大模型相比,数智本草大模型具有参数量更大、产业证据更全、数据更丰富的明显优势。数智本草大模型对应的“配置”,一方面依托华为澎湃算力与向量库等先进工具,另一方面注入了中医药守正(包含1000 余部中医药古籍及其翻译版本、9 万余首方剂、4 万余种中成药等)、创新(包含4000 多万篇文献摘要、300 多万个天然产物等)、产业化(10 万余份临床方案、16 万余项中药专利以及法规、政策、指南等)三大类海量数据。数智本草大模型通过智能问答、交互计算、文档生成和智能应用4 种模式,可实现方剂机制解析、药物重定位、创新方剂生成、天然产物筛选和分子优化等全链条研发辅助。TCMLLMPR通过整合真实世界的临床病历、医学经典和中医教材等数据,构建了一个包含68 000 条处方推荐说明的微调数据集。在ChatGLM 大模型上进行大规模指令微调,以实现中医临床辅助诊疗(疾病证候诊断、处方推荐等)以及中医知识问答等任务。神农中医药大模型预先基于大量中医文献进行了训练,构建了一个能够理解中医术语和概念的语言模型。该模型可以捕捉中医方剂、疾病症状和治疗方法之间的复杂关系,并集成了中医KG,使其能够执行复杂的推理任务,包括病因病机推理、处方分析和疗效预测等。

 

4. AI 赋能基于多模态数据融合的中医诊疗和中药研发

 

中医药多模态数据整合了来自不同层面的信息资源,具体涵盖:丰富的文本资料(如中医药古籍、现代研究论文等)、视觉图像数据(如舌诊图像、医学影像等)、声音记录(如脉诊分析音频等),以及通过传感器采集的病理生理参数。此外,该数据体系还包含化合物数据(用于中药成分研究)、临床数据(反映患者健康状况和治疗效果)、基因组和蛋白质组信息(用于探索个体化治疗差异)、代谢组和微生物组数据(揭示药物作用机制),以及药物相互作用信息、患者反馈数据、流行病学统计结果、政策法规文件和教育资源材料等。基于多模态数据的整合和分析,AI 在方剂提取流程和工艺优化、疾病诊断辅助、方剂推荐和优化等方面发挥着重要作用,见表6。

 

4.1 中药提取工艺与质量控制

 

中药提取工艺是中药制备流程中的关键环节,也是保障中药质量和临床疗效的重要前提。Ma等[97] 为进一步优化中药复方提取工艺参数,以次生代谢产物和多糖的定量核磁、指纹图谱和分子量等多类型数据为优化目标,以NSGA-Ⅱ为框架构建了一个ML辅助的数据驱动型多目标优化模型。该模型突破了传统优化工艺中只能考察少量指标却需要进行大量反复实验测定的瓶颈,为多类型指标下的中药高效提取及其智能化工业生产提供了新的方法和模式。

 

随着中药现代化和国际化进程的加速,中药质量控制的要求不断提高。Lu 等[98] 通过对全过程质量控制策略,基于化学活性的筛选方法,疗效、安全性和一致性的组合策略,以及中医药理论指导方法等进行整合,获得了更全面、精准的Q-marker。这一研究成果为基于中药自身特性和原理构建新的质量控制模式提供了有效支撑。

 

4.2 中医面诊和处方推荐

 

舌象在中医临床医学的诊断和治疗中占据重要地位,基于舌象的辨证是生成中药处方的重要依据。因此,基于自动构建技术探索舌象与中药处方的相关性十分具有研究价值。Zhao 等[99] 提出了一种基于图像编码器和多标签分类的中药推荐框架,即通过对面部和舌象的视觉诊断,实现中药处方的自动推荐。结果表明,通过利用真实的面部和舌象图像进行实验,该框架生成了与真实样本高度相似的处方数据。Hu 等[100]通过构建单/ 双卷积通道和全连接层的神经网络模型,模拟中医医生使用真实世界的舌象图像及其对应处方的相关性,验证了所提出的基于舌象图像自动构建中药处方方法的可行性,并为从更多物理信息中自动构建中药处方提供了参考。

 

4.3 症状辨证与体质辨证

 

当前,人类对预防医学和医疗保健的需求持续增加。根据世界卫生组织发布的《世界卫生组织传统医学战略:2014~2023》(WHO Traditional Medicine Strategy: 2024-2023),世界上80%的人口在一定程度上仍然选择中医药作为初级医疗保健手段[101]。在症状辨证研究方面,Jiang等[102] 在临床专家的帮助下,对8676 张舌象进行了注释,共分为7 类,包括裂舌、齿痕舌、瘀舌、斑舌、油腻苔、脱皮苔和烂苔。同时, 利用DL 模型快速区域卷积神经网络(faster region based convolutional neural networks,faster R-CNN) 对舌象图像进行分类,揭示了体检人群的舌头特征与性别、年龄、代谢性疾病之间的关系。在体质辨证研究方面,Chien 等[103] 基于人口统计学和实验室基础数据,采用逻辑回归、Bayes 和决策树等算法,分析并构建了代谢综合征与中医体质的关联模型,结果发现,代谢综合征患者的发病年龄呈现提前的趋势;痰湿体质在代谢综合征高危中医体质分类中的占比达90.6%。未来该方法有望进一步拓展应用,包括通过中医体质辨证手段对代谢综合征进行预测,并为患者推荐个性化药物、饮食及护理方案。

 

5. AI 赋能数智中药开发的“计算+ 语言”双模型平台

 

随着中药研究的持续深入,传统方法在解析中药复杂成分和作用机制方面面临着巨大挑战,例如,中药成分复杂、药效多样且作用机制有待进一步明晰;数智中药与新药研发路径的衔接仍不清晰,导致中药研发效率较低等。因此,业界迫切需要开发更为先进的研究方法,构建一个能够整合计算能力和语言理解能力的双模型平台。该平台不仅能从多层面分析中药成分和药效,提供精准预测和决策支持,还能深入理解和解析中医药理论与现代科学的内在联系[104]。

 

在数智中药理念的指引下,数智本草大模型依托海量的中医药数据、基于盘古大模型构建而成,是中医药语言大模型与计算大模型的有机融合。其中,中医药数据集具备以下关键特点:①多样化数据源整合。该数据集有效集成了结构化数据、文本数据等多种类型数据。②海量数据处理。通过大规模数据清洗、去重、标签化处理,该数据集实现了对海量数据的有效整合。③ KG 构建。基于上述数据处理,构建了涵盖中医药实体数据类型和多种文本数据类型的KG。以“ 星斗云”系统中开发的LTM-TCM 中药智能化数据平台为例,该平台在分子和表型水平上将中医与现代医学联系起来,是目前世界最大规模的中药综合数据库[105]。

 

数智本草大模型通过多年数据积累和算法优化,与天士力自主研发的“星斗云”系统成功联动,实现了中药“计算+ 语言”双模型功能。具体而言,中药语言大模型不仅整合了传统中医药知识,还融合了现代药物研发的先进技术,通过大规模数据集成和KG构建,形成了一个覆盖中医药领域的综合性知识体系,可以实现在中医药知识问答、疾病方剂报告、名家开方模型构建等多个场景的应用。同时,中药语言大模型可以联动中药计算大模型,实现天然产物虚拟筛选、结构优化和方剂机制精准解析等功能,见图3。例如,基于已有的方剂、已上市的产品,运用KG 等技术,针对“方”形成了药效组分– 作用靶点– 基因网络的中药数字化解析方法,中药计算大模型已经实现了对复方丹参滴丸等中药制剂作用机制的数字化解析,融合真实世界经验与分子机制,为更精准挖掘中药传统现代理论提供了行业标准[106]。

 

数智本草大模型具有广泛的应用场景,可面向中医大夫、中医药专家、药店店员等用户群体,提供问诊协助、处方推荐、中医药溯源查询、药物多维筛选、中医知识传承、经验总结等服务,以提高诊疗效率与精准率,实现诊学研一体化,推动中医药事业的现代化发展。

 

6. 讨论

 

因缺乏足够的科学证据支持,中医药在全球范围内的推广应用面临诸多挑战。AI 技术的引入有利于缩小中医药与现代科学之间的差距,使中医药诊疗过程更加定量、客观和规范,同时也为中西医结合诊疗搭建起了沟通的桥梁。未来在AI 的帮助下,有望揭示更多关于中医药疗效的科学证据,并可能形成更为统一的治疗指南,特别是在中医药理论的阐释方面。

 

尽管AI 在中医药领域的应用蕴含着前所未有的机遇,但同样也带来了许多挑战。例如,在中医药研发过程中,仍存在以下难题:①中药药效物质基础、作用机制和理论思维较为复杂,导致难以精准预测中药有效成分、药材特性及功效之间的关联,进而阐释中医药的复杂机制。②中药的量效关系尚不明确,且中药有效成分的均质化问题有待解决。③中医药强调守正创新,即需要在坚实的理论基础上,提供真实世界研究信息的支持。然而,中医药典籍浩如烟海,从中提取关键信息难度较大。④中医药研发人员通常需要经过多年的学习与培训,才能熟悉中西医等多领域、多学科知识等。

 

针对上述问题,可采取以下策略:①利用系统药理学和ML等方法,对中医药典籍进行向量化处理,建立标准化、高质量的中药数据库;基于KG 构建中药成分- 靶点- 疾病多尺度网络关系,以揭示中药复方多成分、多靶点、多通路作用模式的核心内涵。②利用真实世界研究收集和分析中医药在实际临床应用中的数据,然后基于AI 模型和算法实现对中药方剂有效性和安全性的更精准预测。③在中医GPT 问答系统中,优化人机交互设计,提升用户体验,以增强中医药研发人员对中医药知识的了解和热爱。

 

7. 结语

 

本文分析梳理了现阶段AI 技术在中医药研发及产业化中的应用情况,笔者认为AI 作为中医药与现代医学之间桥梁的重要作用已经凸显。相关技术的发展为后续深入探索AI 在中医药数智化与实践中的发展方向和策略提供了宝贵的新见解。尽管AI 为中医药带来了革命性的机遇,但其在应用于中医药领域时仍面临一系列挑战。因此,研究者应加大力度开发适用于中医药行业的技术和算法,推动中医药的数智化、现代化进程,从而为公众提供更优质的医疗保健服务。

 

引用本文

 

郭鹏飞,魏宇,杨鹏程,赵倩,雷玮华,胡蕴慧,王文佳*.人工智能赋能的现代中药数智化研究进展[J].中国食品药品监管.2025.4(255):20-39.

 

来源:中国食品药品监管杂志

关键词: 人工智能 中药

相关资讯

我要检测 电话咨询