哪种AI模型最擅长用基因预测疾病?——一项模拟研究

2026-03-04 田医生 MedSci原创 发表于上海

该研究通过严谨的模拟实验,为选择合适的疾病风险预测模型提供了实证指导,并深化了对PRS作为预测指标有效性的理解。

深度解析医学证据,DeepEvidence为你支撑决策

国外研究团队系统评估了不同机器学习模型在基于基因型数据预测复杂疾病风险方面的性能表现,并探讨其与多基因风险评分(Polygenic Risk Score, PRS)之间的关系。

团队构建了一个蒙特卡洛模拟框架,生成包含500个致病风险单核苷酸多态性(SNP)和50个无效(null)SNP的“模型基因组”。这些风险SNP根据不同的遗传模式(加性、显性、隐性及其混合模式)以及效应强度(由渗透率参数γ控制)进行参数化。

在每种设定下,研究者分别生成2000个病例和2000个对照的训练集与测试集,并采用四种经典的二元分类器——逻辑回归(Logistic Regression, LR)、朴素贝叶斯(Naïve Bayes, NB)、随机森林(Random Forests, RF)和前馈多层神经网络(Neural Networks, NN)——来预测疾病表型。部分分析还引入了LASSO回归进行特征选择,以考察其对模型性能的影响。

研究的主要发现如下:

1. 模型性能比较:在所有测试的遗传架构和效应强度范围内,随机森林(RF)模型始终表现出最高的预测准确性(以AUC衡量),其次是逻辑回归和朴素贝叶斯,而神经网络的表现最差。这种性能差异在隐性遗传模式下尤为显著,表明RF能更有效地捕捉非线性或复杂的基因型-表型关系。

2. 遗传模式的影响:对于相同的效应强度,显性遗传模式最容易被模型识别(AUC增长最快),其次是加性模式,而隐性模式最难预测。这说明风险等位基因的作用方式直接影响了预测模型的效能。

3. 特征选择的作用有限:引入LASSO进行特征选择并未显著提升任何模型的AUC。作者认为,这是因为模拟场景中无效位点的比例较低(仅10%),与真实世界中全基因组关联研究(GWAS)后筛选出的SNP集合更为接近,在此情况下,移除少量噪声位点带来的收益微乎其微。

4. PRS与预测准确性的关系:研究证实,病例组与对照组之间的平均PRS差异(ΔPRS)与模型的AUC呈强正相关。作者进一步将观测到的AUC与Dudbridge(2013)提出的两种理论模型(对数风险模型和易感性阈值模型)的预测值进行了比较。结果表明,当风险效应较小时,对数风险模型能很好地拟合观测数据;而当风险效应较强时,易感性阈值模型的预测更为准确。这一发现为理解PRS在不同遗传架构下的解释力提供了理论依据。

5. 混合遗传模式:在同时包含加性和非加性(显性或隐性)效应的混合模型中,预测性能主要由占多数的加性位点决定,而非加性位点的影响相对较小。

该研究通过严谨的模拟实验,为选择合适的疾病风险预测模型提供了实证指导,并深化了对PRS作为预测指标有效性的理解。研究强调,在缺乏上位性(epistasis)和连锁不平衡(LD)的理想化假设下,随机森林是稳健且高效的首选方法,而PRS的预测价值与其背后的遗传架构密切相关。

参考文献:

Max, Shpak,Eric, Parfitt,Soroush, Mahmoudiandehkordi et al. Evaluating genetic-based disease prediction approaches through simulation.[J] .Hum Genet, 2026, 145: 14.

评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2302382, encodeId=6b91230238222, content=看来神经网络需要多吃点"随机森林"补补脑子了🌲🌲🌲 毕竟连基因预测这种活儿都干不过随机森林,这AI界的"内卷"也太严重了吧!建议神经网络去报个培训班,学学怎么在隐性遗传模式下不"隐"身😂, beContent=null, objectType=article, channel=null, level=null, likeNumber=35, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://wx.qlogo.cn/mmhead/Q3auHgzwzM62hhmdZXtt9qxlVvXIXPHdENG7pbGbrNUUT9kYOl7QSA/0, createdBy=7d4a2077155, createdName=chenzhaolin1, createdTime=Wed Mar 04 14:34:36 CST 2026, time=2026-03-04, status=1, ipAttribution=浙江省), GetPortalCommentsPageByObjectIdResponse(id=2302374, encodeId=8fa623023e445, content=<a href='/topic/show?id=0c1711500e59' target=_blank style='color:#2F92EE;'>#AI模型#</a> <a href='/topic/show?id=27d113e59009' target=_blank style='color:#2F92EE;'>#基因预测疾病#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=41, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=115007, encryptionId=0c1711500e59, topicName=AI模型), TopicDto(id=137590, encryptionId=27d113e59009, topicName=基因预测疾病)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Wed Mar 04 13:49:06 CST 2026, time=2026-03-04, status=1, ipAttribution=上海)]
    2026-03-04 chenzhaolin1 来自浙江省

    看来神经网络需要多吃点"随机森林"补补脑子了🌲🌲🌲 毕竟连基因预测这种活儿都干不过随机森林,这AI界的"内卷"也太严重了吧!建议神经网络去报个培训班,学学怎么在隐性遗传模式下不"隐"身😂

    0

  2. [GetPortalCommentsPageByObjectIdResponse(id=2302382, encodeId=6b91230238222, content=看来神经网络需要多吃点"随机森林"补补脑子了🌲🌲🌲 毕竟连基因预测这种活儿都干不过随机森林,这AI界的"内卷"也太严重了吧!建议神经网络去报个培训班,学学怎么在隐性遗传模式下不"隐"身😂, beContent=null, objectType=article, channel=null, level=null, likeNumber=35, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://wx.qlogo.cn/mmhead/Q3auHgzwzM62hhmdZXtt9qxlVvXIXPHdENG7pbGbrNUUT9kYOl7QSA/0, createdBy=7d4a2077155, createdName=chenzhaolin1, createdTime=Wed Mar 04 14:34:36 CST 2026, time=2026-03-04, status=1, ipAttribution=浙江省), GetPortalCommentsPageByObjectIdResponse(id=2302374, encodeId=8fa623023e445, content=<a href='/topic/show?id=0c1711500e59' target=_blank style='color:#2F92EE;'>#AI模型#</a> <a href='/topic/show?id=27d113e59009' target=_blank style='color:#2F92EE;'>#基因预测疾病#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=41, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=115007, encryptionId=0c1711500e59, topicName=AI模型), TopicDto(id=137590, encryptionId=27d113e59009, topicName=基因预测疾病)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Wed Mar 04 13:49:06 CST 2026, time=2026-03-04, status=1, ipAttribution=上海)]
    2026-03-04 梅斯管理员 来自上海

相关资讯

J Hepatol:基于CT成像生物标志物的AI模型预测慢性乙型肝炎患者肝细胞癌

这项研究结合影像生物标志物和临床变量,建立了CHB患者HCC的高精度AI预测模型。此模型利用来自基于深度学习的CT自动分割算法的成像生物标志物,包括内脏脂肪体积、肌骨疏松症和肝脏脂肪变性。

API/SDK/MCP是什么? Agent到ArXiv MCP:科研自动化与AI模型终极评测 即将开播

API/SDK/MCP是什么? Agent到ArXiv MCP:科研自动化与AI模型终极评测 即将开播。

Nature:不止是“看片”高手!全开放AI模型Ark+,或将重塑未来医学影像诊断

《Nature》研究推出完全开源的 AI 基础模型 Ark+,通过循环累积多源异构数据知识,在胸部 X 光诊断中展现出超越闭源模型的性能,且具备强适应性、稳健性,为医疗 AI 开源协作奠定基础。

Nature:微软研究院/华盛顿大学等合作推出基于真实世界数据的数字病理学全切片AI模型

Prov-GigaPath是一种开放权重的基础模型,可在各种数字病理任务中实现最先进的性能,证明了真实世界数据和全切片建模的重要性。

哈佛研究发现:仅凭面部照片,或能算出寿命长短,预测死亡风险!

该研究提出了一种创新性的AI模型,旨在通过人脸照片识别健康状态。

Nature Machine Intelligence:同济大学刘琦团队开发基于元学习的AI模型,用于抗原-TCR亲和力识别及肿瘤新生抗原免疫原性预测

MHC-多肽复合物与TCR亲和力的计算识别(pMHC-TCR binding recognition)是揭示肿瘤、自身免疫性疾病和病毒感染性疾病等疾病发生发展机制的重要手段。

Nature Medicine:阿里联手浙肿发布全球首个胃癌影像筛查AI模型,平扫CT+AI实现大规模胃癌早筛

浙江省肿瘤医院与阿里达摩院研发的胃癌影像筛查 AI 模型 DAMO GRAPE 登《Nature Medicine》,用平扫 CT 识别早期胃癌,提升检出率,具卫生经济学优势。