哪种AI模型最擅长用基因预测疾病?——一项模拟研究
2026-03-04 田医生 MedSci原创 发表于上海
该研究通过严谨的模拟实验,为选择合适的疾病风险预测模型提供了实证指导,并深化了对PRS作为预测指标有效性的理解。
国外研究团队系统评估了不同机器学习模型在基于基因型数据预测复杂疾病风险方面的性能表现,并探讨其与多基因风险评分(Polygenic Risk Score, PRS)之间的关系。
团队构建了一个蒙特卡洛模拟框架,生成包含500个致病风险单核苷酸多态性(SNP)和50个无效(null)SNP的“模型基因组”。这些风险SNP根据不同的遗传模式(加性、显性、隐性及其混合模式)以及效应强度(由渗透率参数γ控制)进行参数化。
在每种设定下,研究者分别生成2000个病例和2000个对照的训练集与测试集,并采用四种经典的二元分类器——逻辑回归(Logistic Regression, LR)、朴素贝叶斯(Naïve Bayes, NB)、随机森林(Random Forests, RF)和前馈多层神经网络(Neural Networks, NN)——来预测疾病表型。部分分析还引入了LASSO回归进行特征选择,以考察其对模型性能的影响。
研究的主要发现如下:
1. 模型性能比较:在所有测试的遗传架构和效应强度范围内,随机森林(RF)模型始终表现出最高的预测准确性(以AUC衡量),其次是逻辑回归和朴素贝叶斯,而神经网络的表现最差。这种性能差异在隐性遗传模式下尤为显著,表明RF能更有效地捕捉非线性或复杂的基因型-表型关系。
2. 遗传模式的影响:对于相同的效应强度,显性遗传模式最容易被模型识别(AUC增长最快),其次是加性模式,而隐性模式最难预测。这说明风险等位基因的作用方式直接影响了预测模型的效能。
3. 特征选择的作用有限:引入LASSO进行特征选择并未显著提升任何模型的AUC。作者认为,这是因为模拟场景中无效位点的比例较低(仅10%),与真实世界中全基因组关联研究(GWAS)后筛选出的SNP集合更为接近,在此情况下,移除少量噪声位点带来的收益微乎其微。
4. PRS与预测准确性的关系:研究证实,病例组与对照组之间的平均PRS差异(ΔPRS)与模型的AUC呈强正相关。作者进一步将观测到的AUC与Dudbridge(2013)提出的两种理论模型(对数风险模型和易感性阈值模型)的预测值进行了比较。结果表明,当风险效应较小时,对数风险模型能很好地拟合观测数据;而当风险效应较强时,易感性阈值模型的预测更为准确。这一发现为理解PRS在不同遗传架构下的解释力提供了理论依据。
5. 混合遗传模式:在同时包含加性和非加性(显性或隐性)效应的混合模型中,预测性能主要由占多数的加性位点决定,而非加性位点的影响相对较小。
该研究通过严谨的模拟实验,为选择合适的疾病风险预测模型提供了实证指导,并深化了对PRS作为预测指标有效性的理解。研究强调,在缺乏上位性(epistasis)和连锁不平衡(LD)的理想化假设下,随机森林是稳健且高效的首选方法,而PRS的预测价值与其背后的遗传架构密切相关。
参考文献:
Max, Shpak,Eric, Parfitt,Soroush, Mahmoudiandehkordi et al. Evaluating genetic-based disease prediction approaches through simulation.[J] .Hum Genet, 2026, 145: 14.
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言









看来神经网络需要多吃点"随机森林"补补脑子了🌲🌲🌲 毕竟连基因预测这种活儿都干不过随机森林,这AI界的"内卷"也太严重了吧!建议神经网络去报个培训班,学学怎么在隐性遗传模式下不"隐"身😂
35 举报
#AI模型# #基因预测疾病#
41 举报