代谢组学(metabolomics)可以收集、检测和分析对生物活性和病理条件高度敏感的各种小分子代谢物,准确、稳健和低成本的代谢组学检测方法为未来的疾病诊断提供了希望。近年来,越来越多的研究借助人工智能的方法,对组学数据进行分析并建立合适有效的检测或验证模型,应用于疾病诊断、分型及疗效预测。
机器学习(machinelearning, ML)与代谢组学结合诊断是当前一个极具吸引力和前景的概念,但以往的工作主要集中在模型构建上,而不是选择关键的代谢物进行疾病检测。近日,北京大学基础医学院尹玉新教授团队与中科院、中国人民解放军总医院合作者应用机器学习结合脂质组学和多组学技术综合分析胰腺导管腺癌(胰腺癌)的代谢特征,开发出人工智能辅助的PDAC血清代谢检测方法,在超过1000例的大型外部验证队列以及包含胰腺良性病变的前瞻临床队列中分别实现了86.74%,85.00%的分类检测准确性,其检测效能显著优于CA19-9与CT检查。该项题为“Metabolic detection andsystems analyses of pancreatic ductal adenocarcinoma through machine learning,lipidomics, and multi-omics”的研究于2021年12月22日在Science Advances杂志在线发表。
在大多数医疗应用程序中,ML方法通常是在一个数据集上进行评估的。相比之下,ML辅助代谢性PDAC检测方法已经由一个大型外部验证队列(n = 1003)进行了测试和评估,表明了该方法性能的稳定性。处理速度快和精度高的特点使得这种PDAC检测方法在未来的具有很好的应用潜力。
传统上,代谢组学或脂质组学的数据维数降低和生物标志物筛选主要是基于方差分析(ANOVA)、最小二乘判别分析(PLS-DA)。本研究创新性地应用了基于支持向量机(SVM)的贪心算法(greedy algorithm),在血清脂质组学数据的特征选择上表现出了优异的性能。
对1033例不同阶段的PDAC患者进行测试发现,该方法在大型外部验证队列中准确率为86.74%,曲线下面积(AUC)为0.9351,前瞻性临床队列中准确率为85.00%,AUC为0.9389。
在选择的特征代谢物中有17种类型的脂质,包括4种溶血磷脂酰胆碱(LPC)、7种磷脂酰胆碱(PC)、3种鞘磷脂(SMs)、1种溶血磷脂酰乙醇胺(LPE)、1种磷脂酰乙醇胺(PE)和1种甘油二酯(DG)。LPC、PC和PE参与甘油磷脂代谢,SMs参与鞘脂代谢。组织蛋白质组学和单细胞测序分析显示,在PDAC细胞中甘油磷脂和鞘脂代谢途径被扰乱。这些代谢产物的一系列变化可能反映了PDAC起始和发育过程中脂质代谢及相关信号转导途径的改变、癌细胞的增殖和凋亡抵抗。本研究中将ML分析的血清脂质组学、组织蛋白质组学、单细胞测序等技术相结合,从外周循环血液和组织空间脂质组学的整合角度来表征PDAC的脂质代谢特征。
本工作建立了代谢组学结合ML和贪心算法的方法,利用ML细化了靶向代谢组学的疾病检测程序。目前除CA19-9外,PDAC诊断尚无可用的基于液体的检测方法。然而,CA19-9检测亦有明显局限性,如良性胰胆疾病患者由于胆道梗阻也会表现为CA19-9升高,易被误诊为胰腺癌。ML辅助的代谢性PDAC检测方法具有准确、高灵敏度、微创(以血清为基础)和无放射性的特点,可能有助于临床医生更全面、更准确地进行PDAC诊断以及后续治疗。因此,将其纳入目前的诊断方法可能对PDAC高危患者的常规诊断程序起到补充作用。
「当然,这项研究的一些局限性。」
该模型选取的特征还不能区分PDAC的早期或晚期阶段,也不能用来预测PDAC患者的预后。并且该方法主要是基于东亚人群进行,是否适用于其他人群中PDAC的检测还有待进一步研究。运用代谢组学数据还必须考虑到其他代谢性疾病如肥胖、糖尿病与PDAC之间的关系,否则ML辅助代谢性PDAC检测方法的性能可能会受到代谢相关混杂因素的影响。该方法,还应结合CA19-9、腹部超声、CT等现有的检测手段,对PDAC筛查和检测结果做出谨慎解释。