• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

威尔逊置信区间排序

Alg admin 来源:csdn 3个月前 (09-22) 354次浏览 0个评论 扫描二维码

对于召回的一些数据如何给这些数据来排名,然后根据这个排名来显示数据,这就需要使用“威尔逊区间”了。 首先我们讨论的情况是每个项目只有两种选择,且项目之间是相互独立的,就是项目符合“二项分布”的。 如[1]中所举的例子中可以看出,无论得分情况为

得分 = 赞成票 – 反对票

还是

得分 = 赞成票 / 全部票

都会出现错误的情况。 有一种计算得分的策略是,通过某事件发生的概率的最低置信区间来对项目进行排序。 所谓”置信区间”,就是说,以某个概率而言,p 会落在的那个区间。比如,某个产品的好评率是 80%,但是这个值不一定可信。根据统计学,我们只能说,有 95%的把握可以断定,好评率在 75%到 85%之间,即置信区间是[75%, 85%]。 而“威尔逊区间”就是为了计算这个“置信区间”的。

二项分布的置信区间有多种计算公式,最常见的是”正态区间”(Normal approximation interval),但是这种算法对于小样本的情况下准确度是很低的。 威尔逊区间的计算公式如下:

$$\frac{\overline p +\frac{z^2}{2n}}{1+\frac{z^2}{2n}} \pm \frac{z}{1+\frac{z^2}{2n}} \sqrt{ \frac{\overline p(1- \overline p)}{n} + \frac{z^2}{4n^2}}$$

其中,\(\overline p\)表示的是一件事发生的概率,n 表示发生的总次数,z 表示置信水平,一般取 0.95。 这样通过计算每个项目的“威尔逊区间”就能得到最终的排名。


Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明威尔逊置信区间排序
喜欢 (0)
admin
关于作者:

您必须 登录 才能发表评论!