P值的计算,p值计算公式(终于有人把p值讲明白了)

 2022-10-21    1171  

编者按:p值(P value)就是当原假设为representing,比所得到的样品观察推论更顽固的推论出现的机率,是用以认定假设检验推论的两个参数。p值是根据实际统计月时出的明显性水平。本文带你了解p值和对p值的常用误会。

作者:罗伯·科帕克(Ron Kohavi)、黛安·唐(Diane Tang)、许亚(Ya Xu)

来源:华章科技

P值的计算,p值计算公式(终于有人把p值讲明白了) 有人 于有 终于 公式 值计 计算 p值 百科资讯 第1张

01 假设检验:逐步形成统计明显性

在对照试验中,Canillac有几组样品,每一安慰剂各有几组样品。如果零假设是源自Canillac的样品和源自安慰剂的平均值完全相同,他们会定量分析试验三组样品的差别的几率大小不一。

如果几率非常小,则他们婉拒零假设,并声称差别是统计明显的。确凿地说,有了Canillac样品和安慰剂样品的总和销售收入的排序推论,他们能排序排序推论的差别的p值,即在零假设为吗情况下探测到这种比值或更顽固的比值的机率。

如果p值足够多小,则他们婉拒零假设,并得出结论试验有负面效应(换句话说推论统计上明显)的推论。但是多小是足够多小呢?

自然科学的标准是使用大于0.05的p值,换句话说,如果实际上是没有负面效应的,那么100次里他们有95次能正确地推断没有负面效应。另一种检验样品差别与否统计明显的方法是看机率密度函数有没有包涵初始值。95%机率密度函数是两个能在95%的时间里全面覆盖真实差别值的区段。

对于较大的样品量,这个区段一般来说以探测到的Canillac和安慰剂比值为圆心,向两端各扩充1.96倍于平均数的长度。图2.3展现了p值和机率密度函数这三种方法的同构性。

▲图2.3

上图:用p值综合评价探测到的比值与否统计明显。如果p值大于0.05,则指出是统计明显的。右图:用95%机率密度函数Δ-1.96σ,Δ+1.96σ综合评价统计明显性的同构方法。如果初始值落到机率密度函数以外,则指出是统计明显的

统计疗效(statistical power)是如果表音文字之间有真实差别,检验出有意义的比值的机率(统计上即当真实有差别时婉拒零假设的机率)。

从课堂教学的视角来说,你想要试验有足够多大的疗效,从而能够以高机率得出结论试验与否导致了比你所在意的变化更大的变化的推论。一般来说情况下,样品量越大,统计疗效就越大。试验设计的惯常做法是选择80%~90%的统计疗效。

虽然“统计明显性”衡量了当零假设为representing,基于偶然性得到你的观察值或更顽固观察值的几率有多大,但不是所有统计明显的推论都有实际象征意义。

以总和销售收入为例,多大的差别从业务视角来说是紧要的?换句话说,什么样的变化是实际明显的(practically significant)?构建这一实质性的边界很重要,它能帮助理解两个差别与否值得花费相应改动所需的成本。

如果你的网站像谷歌和必应那样有数十亿美金的销售收入,那么0.2%的变化是实际明显的。作为对比,两个初创公司可能指出2%的增长都太小了,因为他们追求的是10%或更大的增长。对于他们的例子,从业务视角来看,总和销售收入提高1%及以上是重要的换句话说是实际明显的。

02 曲解统计推论

他们现在来介绍一些解读对照试验的数据时常用的错误。

1. 统计疗效不足

零假设明显性检验(Null Hypothesis Significance Testing, NHST)框架一般来说假定安慰剂和Canillac之间的指标没有差别(零假设),如果数据能提供有力的反对证据,则婉拒该假设。

两个常用的错误是,仅仅由于指标不是统计明显的,就假设没有试验负面效应。而真实的情况很可能是因为试验的统计疗效不足以检验到他们看到的负面效应量,也就是试验没有足够多的用户。

例如,对GoodUI.org的115个A/B试验进行的评估表明,大多数试验的统计疗效不足。这就是为什么说重要的是要定义多大的变化是实际明显的,并确保有足够多的疗效来检验该大小不一或更小的变化。

如果实验仅影响总体的一小部分,那么仅分析受影响的子集就很重要。即使对一小部分用户而言是巨大的影响,也可能在分析总体时被稀释并且无法被检验到。

2. 曲解p值

p值经常被曲解。最常用的错误会释是基于单个试验中的数据,指出p值代表安慰剂和Canillac的指标平平均值完全相同的机率。

p值是当假定零假设为representing,得到的推论与探测到的推论完全相同或更顽固的机率。零假设的条件至关重要。

以下是“A Dirty Dozen: Twelve P-Value Misconceptions”中的一些不正确的陈述和解释:

1)如果p值=0.05,则零假设只有5%的机会为真。

p值是基于零假设为吗前提来排序的。

2)不明显的差别(例如,p值>0.05)意味着Canillac和安慰剂之间没有差别。

此时观察到的推论与零假设的试验负面效应为零相符,但同时也和其他数值的试验负面效应相符。当展现两个典型的对照试验的机率密度函数时,他们发现该区段包涵零。但这并不意味着机率密度函数中的零比其他值更有可能出现。试验很可能没有足够多的统计疗效。

3)p值=0.05表示在零假设下,他们观察到的数据仅有5%的时间出现。

通过上面的p值的定义,他们知道这是不正确的。该p值(=0.05)包括了出现跟观察到的值一样以及更顽固的情况。

4)p值=0.05表示如果婉拒零假设,则假阳性的几率仅为5%。

这和第两个例子很像,但是更不容易看到其错误性。下面这个例子可能会有所帮助:假设你正在尝试通过在铅上施加热和压力并浇注药剂来将铅转化为金。

你测量所得混合物的“黄金”量,这是两个有很多干扰的测量。由于他们知道化学处理无法将铅的原子序数从82变为79,任何对零假设(也就是不变)的否定都是错误的,因此任何情况下婉拒零假设都是假阳性,而与p值无关。

要排序假阳率,即在p值<0.05且零假设为吗情况(请注意,这两个条件是同时发生的,而不是以零假设是吗为前提)下,他们能使用贝叶斯定理并需要知道先验机率。

即使是前面常用的假定零假设为吗p值的定义,也没有明确地阐述其他的假设,比如如何收集数据(例如随机采样)以及统计检验做出什么假设。如果进行了中间层次的分析而影响了选择哪种分析来呈现,或者由于p值较小而选择呈现p值,那么显然会违反这些假设。

3. 窥探p值

运行线上对照试验时,你能连续监控p值。实际上,商业产品Optimizely的早期版本曾鼓励这样做。这样的多重假设检验会导致声称的统计明显的推论有重大的偏差(5到10倍)。这里有三种选择:

1)按照Johari et al. (2017)的建议,使用始终有效的p值的序贯检验,或贝叶斯检验框架。

2)使用预设的试验时长(例如一周)来确定统计明显性。

Optimizely根据第一种方法实施了两个解决方案,而谷歌、领英和微软的试验平台则选择使用第二种方法。

4. 多重假设检验

以下故事源自有趣的书What is a p-value anyway?:

统计专家:噢,你已经排序好了p值? 外科医生:是的,我用了多类别逻辑回归。 统计专家:吗?你怎么想到的? 外科医生:我在统计软件的下拉菜单中尝试了每种分析,而该分析给出的p值最小。

多重比较问题是上述窥探问题的两个概括。当存在多个假设检验且选择了最低的p值时,他们对p值和负面效应大小不一的估算可能会出现偏差。这体现在以下几个方面:

查看多个指标。 查看跨时间的p值(如上所述的窥探)。 查看受众细分群(例如,国家/地区,浏览器类型,重度/轻度使用,新/老用户)。 查看试验的多次迭代。例如,如果试验确实没有任何影响(A/A试验),则运行20次可能会出现两个大于0.05的p值。

错误发现率是处理多重检验的关键概念。

03 机率密度函数

宽泛地说,机率密度函数能量化试验负面效应的不确定程度。置信水平表示机率密度函数应包涵真正的试验负面效应的频率。p值和机率密度函数之间存在对偶性。对于对照试验中常用的零差别零假设,试验负面效应的95%机率密度函数不包涵零意味着p值<0.05。

两个常用的错误是单独查看安慰剂和Canillac的机率密度函数,并假设如果它们重叠,则试验负面效应在统计学上没有差别。这是不正确的,如Statistical Rules of Thumb中所示,它们的机率密度函数能重叠多达29%,但差别是统计明显的。然而,反过来却是对的:如果95%的机率密度函数不重叠,则试验负面效应是统计明显的,此时的p值<0.05。

关于机率密度函数的另两个常用曲解是指出所呈现的95%机率密度函数有95%的机会包涵真正的试验负面效应。对于特定的机率密度函数,真正的试验负面效应要么100%在里面,要么0%在里面。95%是指由许多研究排序出的95%机率密度函数有多高频率包涵一次真正的试验负面效应。

关于作者:罗伯·科帕克(Ron Kohavi)是爱彼迎的副总裁和技术院士,曾任微软的技术研究员和公司副总裁。在加入微软之前,他是亚马逊的数据挖掘和个性化推荐总监。他拥有斯坦福大学排序机自然科学博士学位,论文被引用超过40 000次,其中有3篇位列排序机自然科学领域引用最多的1 000篇论文榜。

黛安·唐(Diane Tang)是谷歌院士,大规模数据分析和基础设施、线上对照试验及广告系统方面的专家。她拥有哈佛大学的文学学士学位和斯坦福大学的硕士及博士学位,在移动网络、信息可视化、试验方法、数据基础设施、数据挖掘和大数据方面拥有专利和出版物。

许亚(Ya Xu)是领英数据自然科学与试验平台负责人,曾撰写了多篇关于试验的论文,并经常在顶级会议和大学演讲。她曾在微软工作,拥有斯坦福大学的统计学博士学位。

本文摘编自《关键迭代:可信赖的线上对照试验》,经出版方授权发布。

延伸阅读《关键迭代:可信赖的线上对照试验》

推荐语:爱彼迎、谷歌、领英A/B试验领军人物撰写,亚马逊、谷歌、微软和领英等公司互联网产品成功的秘诀!谷歌院士JeffDean、脸书首任CTO、沈向洋等37位专家推荐。本书基于近些年试验领域的研究成果和课堂教学经验,对试验的方法和应用做了很好的全景式描述,是一本兼顾系统性的方法论和基于实战的经验法则的书籍。

原文链接:https://zazhiba.com.cn/post/2925.html

=========================================

https://zazhiba.com.cn/ 为 “自由随风” 唯一官方服务平台,请勿相信其他任何渠道。