Kruskal – Wallis测试
![Kruskal Wallis测试](https://assets.technologynetworks.com/production/dynamic/images/content/370025/the-kruskal-wallis-test-370025-960x540.jpg?cb=12154510)
Kruskal -Wallis测试是什么?
Kruskal – Wallis检验是用于比较连续或离散变量的两个或多个组的统计测试。这是一项非参数测试,这意味着它不假定数据的特定分布,并且类似于单向方差分析(ANOVA)。Kruskal Wallis测试有时被称为Ranks或Kruskal Wallis单向方差分析的单向方差分析。
Kruskal – Wallis检验的假设如下:
- 零假设(H0)是人口中位数是平等的。
- 替代假设(H1)是人口中位数不等,或者人口中位数与其他群体之一的人口中位数不同。
Kruskal – Wallis测试假设
Kruskal – Wallis检验的假设如下:
- 假定数据是非正常的或进行偏斜的分布。当数据遵循正态分布时,应使用单向方差分析。
- 感兴趣的变量应具有两个或更多独立的组。该测试最常用于三个或更多组的分析中 - 用于分析两个组,应使用Mann-Whitney U检验。
- 假定数据在两组之间进行类似的分布。
- 数据应随机选择独立样本,因为组应彼此之间没有关系。
- 每个组样本应至少有5个观测值,以进行足够的样本量。
这些假设与Mann - Whitney U测试,由于Kruskal – Wallis检验本质上是该测试的扩展,并具有两个以上的独立样本。与Mann-Whitney U检验类似,Kruskal – Wallis测试基于对数据进行排名和计算测试统计量。
何时使用Kruskal – Wallis测试
当数据正态性的假设不存在时,Kruskal Wallis检验和其他非参数(或无分配)测试对于检验假设很有用。他们对数据分布的形状没有任何假设,这使得它们在数据集很小时特别有用。重要的是要注意,在进行非参数统计测试时,它们往往比参数统计结果更保守(p值更大)。当感兴趣的变量连续(例如年龄,身高,血压)或离散的任何数字时,应使用KRUSKAL WALLIS测试访问,家庭中的人数)。
Kruskal – Wallis手工测试
在心理学领域工作的研究人员可能对年轻人的睡眠习惯与他们的心理健康之间的关系感兴趣。他们对15名年轻人进行了一项小调查,他们平均每晚睡觉超过8小时,6-8小时或不到6小时。然后,他们使用经过验证的分数来衡量自己的心理健康。表1显示了跨睡眠类别收集的原始健康状况分数以及每个类别中的中位健康得分。
每晚睡眠时间 |
福利得分值 |
中位数 |
> 8小时 |
42、34、57、69、55 |
55 |
6-8小时 |
29、66、46、68、42 |
46 |
<6小时 |
16、32、35、66、59 |
35 |
由于我们正在使用离散结果变量,三个独立的组,一个较小的样本量,不能假定组中的正态分布,因此Kruskal – Wallis检验适合测试睡眠类别的福祉得分是否存在差异。广泛使用的统计软件可以轻松地计算此统计测试,但是我们可以手工做到这一点五个步骤。
第一步:提出无效的假设
此示例中的假设如下:
- 零假设(H0)是,在睡眠群体之间的中值福利评分相等,或者中位数之间的差异为零。
- 另一种假设(H1)是,在至少一个睡眠组中,人口中间的福利评分与其他群体之一的种群中位数不同。
第二步:对数据进行排序并分配排名
接下来,我们将所有组的数据分类为上升顺序,并将等级分配给福利得分,如表2所示。
睡眠类别 |
<6 |
6-8 |
<6 |
> 8 |
<6 |
> 8 |
6-8 |
6-8 |
> 8 |
> 8 |
<6 |
6-8 |
<6 |
6-8 |
> 8 |
分数 |
16 |
29 |
32 |
34 |
35 |
42 |
42 |
46 |
55 |
57 |
59 |
66 |
66 |
68 |
69 |
秩 |
1 |
2 |
3 |
4 |
5 |
6.5 |
6.5 |
8 |
9 |
10 |
11 |
12.5 |
12.5 |
14 |
15 |
表2
请注意,当有两个相同的分数时,分配的等级是两个等级的平均值,如果它们彼此不同,则可以分配。
第三步:将每个组的排名添加
接下来,我们找到每个睡眠组中的总数,我们可以称为“ Tj”,通过简单地使用表2中的信息将每个组的等级添加在一起:
- t1(<6小时睡眠组的总数):1 + 3 + 5 + 11 + 12.5 = 32.5
- t2(6-8小时睡眠组的总排名):2 + 6.5 + 8 + 12.5 + 14 = 43
- t3(> 8小时睡眠组的总数):4 + 6.5 + 9 + 10 + 15 = 44.5
第四步:计算H统计量
与其他统计检验一样,我们使用测试统计量评估了该假设,在Kruskal -Wallis检验的情况下,该假设称为H统计量。H统计量由以下公式给出:
![Kruskal Wallis测试的公式](https://cdn.technologynetworks.com/tn/images/body/54021-tn-seo-image-kruskal-wallis-v1-ic_11675941803721.png)
信用:技术网络捷克葡萄牙直播
在公式中,n是所有组中观测值的总数(在我们的示例中n = 15),tj是每个组的总数(t1= 32.5,t2= 43和T3= 44.5)和n我是每个组中的观察数(n1= 5,n2= 5和n3= 5)。该值12在该公式中保持恒定,因为它与排名组之间的平方之和的平均值自然存在。
我们应该解决的公式的第一部分是代表每个组等级总数,平方并将结果除以每个组中的观测值的数量,然后再将这些数字划分在一起。在公式中,j = 1告诉我们总和的第一个值是最终值(在我们的示例C = 3中,因为有3组)。可以找到有关求和符号的入门这里。
![Kruskal Wallis测试的公式](https://cdn.technologynetworks.com/tn/images/body/54021-tn-seo-image-kruskal-wallis-v1-ic_21675942089732.png)
信用:技术网络捷克葡萄牙直播
接下来,我们可以将此值和观测值总数插入完整公式中,以找到H:
![Kruskal Wallis测试的公式](https://cdn.technologynetworks.com/tn/images/body/54021-tn-seo-image-kruskal-wallis-v1-ic_31675942124292.png)
信用:技术网络捷克葡萄牙直播
这为我们提供了H = 0.855的测试统计量。该测试的自由度(DF)由减去组的数量给出,因此我们有2 df。
第五步:获取和解释P值
我们的最后一步是将H值与A进行比较关键的卡方值并解释获得的p值。该值源自卡方分布,这是通常在非参数统计中使用的人群值的理论分布。在我们的示例中,具有2 df和0.05显着性水平,我们获得> 0.05的p值估计,我们计算出的H统计量远小于5.991的临界值(使用统计软件计算的精确p值为p = =0.652)。这意味着获得与我们偶然发现的值一样大的值的可能性为0.652。这是一个很大的p值,因此我们得出结论,没有足够的证据拒绝零假设,即三个睡眠群体的福利得分有任何差异。