用Poisson回归预测一棵苹果树上有几个坏苹果

2019-09-16 小白学统计 小白学统计

Poisson回归跟logistic回归有一定关联,但并不一样。logistic回归用于分析某事件发生的情况,如发生和不发生。而Poisson回归则用于分析发生次数,发生了多少次。比如,要预测一棵树的坏苹果,logistic回归可以预测一棵树上有没有坏苹果,这是有和无的问题。而Poisson回归可以预测一棵树上有几个坏苹果,这是有多少个的问题。如果用专业来说,logistic回归的因变量是个分类变

Poisson回归跟logistic回归有一定关联,但并不一样。logistic回归用于分析某事件发生的情况,如发生和不发生。而Poisson回归则用于分析发生次数,发生了多少次。

比如,要预测一棵树的坏苹果,logistic回归可以预测一棵树上有没有坏苹果,这是有和无的问题。而Poisson回归可以预测一棵树上有几个坏苹果,这是有多少个的问题。如果用专业来说,logistic回归的因变量是个分类变量(常用二分类),而Poisson回归的因变量是计数(count)变量。

Poisson回归服从Poisson分布,什么是Poisson分布?从实际角度来说,就是那种在单位时间、空间内发生的罕见事件。比如你每天上班在路上捡到钱这种事件,某医院里每天接到的投诉数,某城市每年癌发生的例数。

注意这里的条件是,在单位时间、空间。这个“单位”是个很随意的词,你可以说在10年内发生癌的例数,你也可以说在1天内死于车祸的例数。所以,正是由于单位可大可小,所以,理论上,你把单位缩小了,很多本来你觉得不罕见的事件,也变得罕见了。所以,从这个角度来讲,Poisson分布其实是很常见的。

Poisson分布还要注意一个问题是,发生在每个单位空间、时间里的事件,是相互独立的,也就是说,你今天捡到钱,这是一个事件,跟你明天能不能捡到钱,没有什么关系。或者,张三发生胃癌,跟李四发生胃癌,也没什么关系。这就叫独立。

Poisson分布的函数是这样的:



可能大家不喜欢看这种公式、函数之类的。但对于一个分布来说,其实他就是一个式子。根据这个公式,只要把相应的参数代入,就能得到相应的值。

任何分布的形状,都是由1个或几个参数来决定的。对于Poisson分布而言,它只由一个参数来决定,就是均值,也就是上面公式中的lambda(打不出lambda这个字母,只好写名字了)。

lambda是Poisson分布中唯一的参数,只要知道了lambda的值,就能确定Poisson分布的形状。

比如均值=1和4的两个Poisson分布形状如下:



Poisson分布有一个很明显的特点,就是均值=方差。这也就是为什么Poisson分布只有一个参数的原因。如果大家仔细想想,其它分布一般都有2个参数,通常均值用来决定位置,方差用来决定形状。典型的如正态分布。但是由于Poisson分布的方差与均值相等,所以其实就1个参数了。但它实际上也可以认为是2个参数,只不过2个参数相等而已。

那什么是Poisson回归呢?就是因变量是服从Poisson分布的变量,这就是Poisson回归。

那我们就来举个例子,预测一下,一颗苹果树上有几个坏苹果。为什么可以用Poisson回归呢?因为在一棵树上出现坏苹果,这是罕见事件,就可以考虑用Poisson回归。

首先声明,本例纯属虚构,只是为了演示而已。假定想看看三种套袋方式对出现坏苹果的影响,进而预测不同套袋方式可能会出现多少坏苹果。假定数据(部分)如下:



上图中,group表示三种套袋方式,分别用1、2、3表示,num表示出现的坏苹果个数,f表示频数。比如第1行数据表示,第一组中,有10棵树出现的坏苹果数是0,有2棵树出现了2个坏苹果,……。

其实前面讲了一堆,但是真正操作还是很容易的,只要有了数据,有了因变量和自变量,找个软件就可以分析了。比如本例,num就是因变量,group就是自变量,当然,还要考虑到f作为频数。

下面就是分析结果:



可以看出,第2种与第1种方式相比,坏苹果数平均多0.2624个;第3种与第1种方式相比,坏苹果平均多1.7918个。

这就可以建立一个预测模型,仅含1个变量的预测模型(当然,实际中通常更多的是含多个预测变量)。

log(num)=-0.2624+0.2624(第2种)+1.7918(第3种)

实际应用中,如果要预测的话,很简单,如果你用的是第2种套袋方式,那显然,第2种就是1,第3种没有用,就是0,所以这时候预测的结果就是:

log(num)=-0.2624+0.2624*1=0

再反推num就是exp(0)=1

也就是说,如果用第2种套袋方式,预测平均每个苹果树出现坏苹果的个数是1个。

同样可以预测出:如果用第1种套袋方式,预测平均每个苹果树出现坏苹果的个数是0.8个。如果用第3种套袋方式,预测平均每个苹果树出现坏苹果的个数是4.6个。

给大家留个简单问题:这里坏苹果是个计数资料,可以考虑用Poisson回归,但是用Poisson回归一定正确吗?有没有什么问题呢?感兴趣的朋友可以想想。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1518709, encodeId=6db91518e0910, content=<a href='/topic/show?id=79e18e15994' target=_blank style='color:#2F92EE;'>#苹果#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=42, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=87159, encryptionId=79e18e15994, topicName=苹果)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=f67111173924, createdName=okhuali, createdTime=Wed Sep 18 01:56:00 CST 2019, time=2019-09-18, status=1, ipAttribution=)]
    2019-09-18 okhuali