统计模型选择的一些基本思想和方法

2018-10-31 高涛 MedSci原创

引言 有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计,或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论,不少人认为机器学习侧重于目标预测,而统计学习侧重于机制理解和建模。个人更加直观的理解是,统计学习侧重于从概率分布来描述数据生成机制,除了预测之外,还关心结果(参数假设、误差分布假设)的检验,而机器学习侧重

引言 有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计,或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论,不少人认为机器学习侧重于目标预测,而统计学习侧重于机制理解和建模。个人更加直观的理解是,统计学习侧重于从概率分布来描述数据生成机制,除了预测之外,还关心结果(参数假设、误差分布假设)的检验,而机器学习侧重于从函数拟合角度来描述数据生成机制,基本目的就是为了拟合和预测,缺乏严谨的参数、误差的检验机制,比如下式:Y=f(X)+ϵY=f(X)+ϵ 统计学习目标是获取Pr(Y|X)Pr(Y|X)X,Y,ϵX,Y,ϵ的分布假设,因此最后会衍生出对参数假设和误差分布的假设检验,以验证整个概率分布的假设的正确性,比如经典的线性模型、非参数回归等模型,预测能力并不是其主要目的; 而机器学习基本不会从概率分布的角度着手,虽然可能也会涉及X,YX,Yff,对误差的假设基本忽略,也不会涉及参数和误差的检验,模型好坏基本由预测效果来判断,同时也会提供一些比较一般的误差上界,所以机器学习中不会出现参数估计渐进性、一致性等结果

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1047631, encodeId=b76e104e631f3, content=梅斯里提供了很多疾病的模型计算公式,赞一个!, beContent=null, objectType=article, channel=null, level=null, likeNumber=39, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=f0620, createdName=CHANGE, createdTime=Wed Oct 31 17:25:00 CST 2018, time=2018-10-31, status=1, ipAttribution=)]
    2018-10-31 CHANGE

    梅斯里提供了很多疾病的模型计算公式,赞一个!

    0

相关资讯

国家统计局:2017年全国公立医院1.2万家

国家统计局2月28日发布《2017年国民经济和社会发展统计公报》。

单因素分析和多因素分析的结果不一致,咋整?

我们在做统计分析时,很多人都习惯这样的分析套路:先进行统计描述,然后做单因素分析,最后再进行多因素分析。在阅读文献时,我们也会发现,不管是一般的统计描述还是单因素分析,往往能够支持研究人员作出结论的,还是要看最终的多因素分析结果。在前期推送的内容中我们也讲过,多因素分析的目的是通过控制其它多个混杂因素的影响,找出具有独立作用的影响因素,并估计其效应大小。既然这样的话,做单因素分析还有什么用呢,

加权均数差 VS 标准化均数差

两组比较研究Meta分析ESsm 的计算是基于结果变量(反应变量)为连续性分布的比较组的均数、标准差和样本量的大小,如果纳入的研究这几个统计量都具备,且各研究的结果变量采用相同的操作,比如变量的定义相同、测量的方法相同、变量的赋值相同且为连续性变量,则可直接利用原始研究各组间比较的均数差构建效应统计量,这种效应统计量称为未标化的均差效应统计量。但在大多数情况下,纳入Meta-analysis的各研

“先做单因素,有意义的做多因素”——这种思路对吗?(上)

很多人在做多因素分析的时候,往往都按这种方式:首先把所有因素挨个做个单因素分析,然后单因素分析有意义的变量,再放到多因素分析中,最后得到一个多因素分析模型。然后完事,发表文章。当然,在单因素分析的那一步,有的人用0.05作为水准,P小于0.05的变量纳入多因素,有的则以0.1或0.15、0.2等为水准,P小于0.1或0.15、0.2的变量才纳入多因素分析。无数人都曾问过我这个问题:我先做单因素分析

JAMA:美国儿童及青少年处方药使用变化趋势(1999-2014)

研究发现,美国青少年及儿童处方药使用率呈下降趋势,儿童及青少年中哮喘、多动症及避孕药具的使用增加,而抗生素、抗组胺和上呼吸道药物的使用率下降

正常值范围的估计的统计学测量

在医学科研中有时需要根据样本数据推论总体中个体值范围,其中最常用的是估计正常值范围。一、正常值范围的意义正常人体的解剖、生理、生化、心理等各种数据的波动范围称正常值范围,简称正常值。如成人白细胞总数的正常值为4000~10000个/mm3。以一定数量“正常人”为样本,观察某个或几个变量,根据所得样本数据,推论总体中变量值的范围,称正常值范围估计。一些与人体有关的外界环境如噪音强度、粉尘浓度、昆