The effects of class rarity on the evaluation of supervised healthcare fraud detection models

Herland, Matthew; Bauder, Richard A.; Khoshgoftaar, Taghi M.

doi:10.1186/s40537-019-0181-8

Journal of Big Data

Table 9 ANOVA tests

From: The effects of class rarity on the evaluation of supervised healthcare fraud detection models

Term	Df	Sum Sq	Mean Sq	F value	Pr(>F)
(a) Four factor: Train_Test
Datasets	3	1.96516	0.65505	1600.558663	0
Learner	2	0.66409	0.33205	811.3215437	1.29E−270
Pos count	4	2.33669	0.58417	1427.367028	0
Ratio	5	0.30092	0.06018	147.0525251	1.17E−136
Dataset:learner	6	0.22145	0.03691	90.18221558	2.05E−102
Dataset:pos count	7	0.05788	0.00827	20.2044874	1.61E−26
Learner:pos count	8	0.03291	0.00411	10.0523189	7.04E−14
Dataset:ratio	15	0.08724	0.00582	14.21108373	2.17E−35
Learner:ratio	10	0.46537	0.04654	113.7087576	2.69E−194
Pos count:ratio	20	0.05443	0.00272	6.649302133	3.98E−18
Dataset:learner:pos count	14	0.02401	0.00171	4.189763574	2.52E−07
Dataset:learner:ratio	30	0.11577	0.00386	9.428942232	2.99E−40
Dataset:pos count:ratio	35	0.01306	0.00037	0.911606914	0.61790442
Learner:pos count:ratio	40	0.10682	0.00267	6.52539348	3.70E−32
Dataset:learner:pos count:ratio	70	0.04795	0.00068	1.673573178	4.56E−04
Residuals	2430	0.99452	0.00041	–	–
(b) Four factor: Train_CV
Datasets	7	26.98719	3.85531	2641.872038	0
Learner	2	1.34356	0.67178	460.3389767	5.33E−194
Pos count	3	6.30292	2.10097	1439.702651	0
Ratio	5	1.25714	0.25143	172.2919289	3.65E−178
Dataset:learner	14	0.79698	0.05693	39.00963177	2.86E−105
Dataset:pos count	4	0.34344	0.08586	58.83679308	2.58E−49
Learner:pos count	6	0.07181	0.01197	8.201310311	7.04E−09
Dataset:ratio	35	0.32743	0.00936	6.410645904	3.43E−29
Learner:ratio	10	1.36440	0.13644	93.49620948	1.03E−187
Pos count:ratio	15	0.13786	0.00919	6.298014086	1.64E−13
Dataset:learner:pos count	8	0.04741	0.00593	4.061371638	7.71E−05
Dataset:learner:ratio	70	0.42329	0.00605	4.143770726	3.52E−28
Dataset:pos count:ratio	20	0.01735	0.00087	0.594299086	0.919852682
Learner:pos count:ratio	30	0.08452	0.00282	1.9304991	0.001663456
Dataset:learner:pos count:ratio	40	0.07660	0.00192	1.312296909	0.089594623
Residuals	13230	19.30669	0.00146	–	–
(c) Two factor: Train_Test and Train_CV
Evaluation method	1	0.45439	0.45439	103.9411081	2.59E−24
Residuals	12598	55.07319	0.00437	–	–

Back to article page