ฉันกำลังเปรียบเทียบประสิทธิภาพของอัลกอริทึมหลายชุดในชุดข้อมูลหลายชุด ตั้งแต่ผู้การวัดประสิทธิภาพการทำงานไม่ได้รับประกันว่าจะกระจายตามปกติผมเลือกทดสอบฟรีดแมนกับโพสต์-hoc ทดสอบ Nemenyi ขึ้นอยู่กับDemšar (2006)

จากนั้นฉันก็พบกระดาษอื่นที่นอกเหนือจากการแนะนำวิธีอื่น ๆ เช่นการทดสอบ Quade ด้วยการทดสอบหลังการทำ Shaffer ที่ตามมาพวกเขาใช้การทดสอบ Nemenyi ต่างกัน

ฉันจะใช้การทดสอบ Nemenyi หลังการทดสอบอย่างถูกต้องได้อย่างไร

1. การใช้สถิติช่วง Studentized

ในบทความของDemšarมันบอกว่าจะปฏิเสธสมมติฐานว่าง (ไม่มีความแตกต่างของประสิทธิภาพของสองอัลกอริธึม) ถ้าค่าเฉลี่ยความแตกต่างอันดับมากกว่าระยะทางวิกฤติซีดี

C D = q_{α} \sqrt{\frac{k (k + 1)}{6 N}}

$CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}}$

"โดยที่ค่าวิกฤตqαขึ้นอยู่กับสถิติของช่วง Studentized หารด้วย " $\sqrt{2}.$

หลังจากขุดค้นพบว่าคุณสามารถค้นหา "ค่าวิกฤต" สำหรับ $\alpha = 0.05$ บางตัวเช่นในตารางสำหรับสำหรับองศาอิสระที่ไม่มีที่สิ้นสุด (ที่ด้านล่างของแต่ละตาราง)

2. หรือใช้การแจกแจงแบบปกติ?

เมื่อฉันคิดว่าฉันรู้ว่าต้องทำอะไรฉันพบกระดาษอีกฉบับที่ทำให้ฉันสับสนอีกครั้งเพราะพวกเขาใช้การแจกแจงแบบปกติเท่านั้น Demšarระบุสิ่งที่คล้ายกันในหน้า 12:

สถิติการทดสอบสำหรับการเปรียบเทียบคลาส i-th และ j-th โดยใช้วิธีการเหล่านี้คือ ค่า Z จะใช้ในการ Fi อันดับความน่าจะเป็นที่สอดคล้องกันจากตารางของการกระจายปกติแล้วจะถูกเมื่อเทียบกับที่เหมาะสม\การทดสอบแตกต่างกันในวิธีที่พวกเขาปรับค่าของเพื่อชดเชยการเปรียบเทียบหลาย ๆ
$z = \frac{(R_{i} - R_{j})}{\sqrt{\frac{k (k + 1)}{6 N}}}$ $z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}}$ $\alpha$ $\alpha$

ในย่อหน้านี้เขากำลังพูดถึงการเปรียบเทียบอัลกอริธึมทั้งหมดกับอัลกอริธึมการควบคุม แต่คำพูด "แตกต่างกันไปในวิธีที่พวกเขาปรับ ... เพื่อชดเชยการเปรียบเทียบหลาย ๆ " แนะนำว่านี่ควรจะทดสอบ Nemenyi ด้วย

ดังนั้นสิ่งที่ดูเหมือนว่าตรรกะให้ฉันเป็นในการคำนวณP -value อยู่บนพื้นฐานของสถิติทดสอบซึ่งกระจายตามปกติและถูกต้องที่หนึ่งโดยการหารผ่าน 2 $z$ $k(k-1)/2$

อย่างไรก็ตามมันให้ผลต่างต่างกันอย่างสิ้นเชิงในการปฏิเสธสมมติฐานว่าง และตอนนี้ฉันติดอยู่และไม่รู้วิธีการสมัคร ฉันเอนตัวไปทางข้างหนึ่งโดยใช้การแจกแจงแบบปกติเพราะมันง่ายกว่าและสมเหตุสมผลกว่าสำหรับฉัน ฉันไม่จำเป็นต้องค้นหาค่าในตารางและฉันไม่ผูกพันกับค่าความสำคัญบางอย่าง

จากนั้นอีกครั้งฉันไม่เคยทำงานกับสถิติช่วงของนักเรียนและฉันไม่เข้าใจ

nonparametric multiple-comparisons post-hoc

— ทหารยาม
แหล่งที่มา

5

ฉันเพิ่งเริ่มดูคำถามนี้

ดังที่ได้กล่าวไว้ก่อนหน้านี้เมื่อเราใช้การแจกแจงแบบปกติเพื่อคำนวณค่า p สำหรับการทดสอบแต่ละครั้งค่า p เหล่านี้จะไม่นำการทดสอบหลายรายการมาพิจารณา เพื่อแก้ไขให้ถูกต้องและควบคุมอัตราความผิดพลาดที่เหมาะสำหรับครอบครัวเราจำเป็นต้องปรับเปลี่ยนบางอย่าง Bonferonni กล่าวคือการแบ่งระดับนัยสำคัญหรือการคูณค่า p-raw ด้วยจำนวนการทดสอบเป็นเพียงการแก้ไขที่เป็นไปได้เพียงอย่างเดียว มีการแก้ไขค่า p-value การทดสอบอื่น ๆ จำนวนมากซึ่งในหลาย ๆ กรณีมีความระมัดระวังน้อยกว่า

การแก้ไขค่า p เหล่านี้ไม่ได้นำโครงสร้างเฉพาะของการทดสอบสมมติฐานมาพิจารณา

ฉันคุ้นเคยกับการเปรียบเทียบข้อมูลต้นฉบับแบบเป็นคู่มากกว่าการแปลงข้อมูลแบบอันดับในการทดสอบ Kruskal-Wallis หรือ Friedman ในกรณีนั้นคือการทดสอบ Tukey HSD สถิติการทดสอบสำหรับการเปรียบเทียบแบบหลายครั้งจะถูกกระจายตามการแจกแจงช่วงของนักเรียนซึ่งเป็นการแจกแจงสำหรับการเปรียบเทียบแบบเป็นคู่ทั้งหมดภายใต้สมมติฐานของกลุ่มตัวอย่างอิสระ มันขึ้นอยู่กับความน่าจะเป็นของการแจกแจงปกติหลายตัวแปรซึ่งสามารถคำนวณได้จากการรวมตัวเลข แต่มักใช้จากตาราง

การคาดเดาของฉันเนื่องจากฉันไม่ทราบทฤษฎีคือการแจกแจงช่วงที่นักเรียนได้สามารถนำไปใช้กับกรณีของการจัดระดับการทดสอบในลักษณะที่คล้ายคลึงกับในการเปรียบเทียบแบบคู่ Tukey HSD

ดังนั้นการใช้ (2) การแจกแจงปกติบวกการแก้ไขค่า p-value หลายการทดสอบและการใช้ (1) การแจกแจงช่วงนักเรียนเป็นสองวิธีที่แตกต่างกันของการได้รับการกระจายโดยประมาณของสถิติการทดสอบ อย่างไรก็ตามหากสมมติฐานสำหรับการใช้งานของการกระจายช่วงนักเรียนเป็นที่พอใจแล้วก็ควรให้การประมาณที่ดีขึ้นเพราะมันถูกออกแบบมาสำหรับปัญหาเฉพาะของการเปรียบเทียบแบบคู่ทั้งหมด

— โจเซฟ
แหล่งที่มา

1

เท่าที่ฉันรู้เมื่อเปรียบเทียบเพียง 2 อัลกอริทึมDemšarแนะนำการทดสอบยศ Wilcoxon ที่ลงนามมากกว่า Friedman + posthoc ฉันเป็นเรื่องน่าเศร้าเช่นเดียวกับที่คุณสับสนเมื่อมันมาถึงการแยกแยะว่าสิ่งที่การหารด้วย k-1 ของdemšarควรจะหมายถึง

— 5xum
แหล่งที่มา

1

การหารด้วย (k-1) คือเมื่อคุณเปรียบเทียบอัลกอริธึมหลายตัวกับวิธีการควบคุม แต่นี่เป็นสิ่งที่เทียบกับแต่ละคนดังนั้น NxN ส่วนที่ฉันสามารถเข้าใจได้ แต่ความสัมพันธ์กับการแจกแจงช่วงของนักเรียนนั้นเกินความเข้าใจของฉัน

— ยาม

@ ผู้เข้าร่วม: คุณต้องคูณด้วยปัจจัยการปรับที่นี่ไม่ได้คูณ โปรดดูคำตอบของฉันด้านบน

— Chris

0

ฉันยังพบกับเควสติโนว่าจะคำนวณค่า p จากการแจกแจงแบบปกติหรือแบบกระจาย น่าเสียดายที่ฉันยังไม่สามารถตอบได้เพราะเอกสารต่างกันสื่อสารวิธีการต่าง

อย่างไรก็ตามสำหรับการคำนวณ p-values ที่ปรับแล้วคุณต้องคูณ p-value ที่ไม่ได้แก้ไขด้วยปัจจัยการปรับเช่น p * (k-1) ในกรณีที่เปรียบเทียบกับวิธีการควบคุมหนึ่งวิธีหรือ p * (k * (k-1 )) / 2) สำหรับการเปรียบเทียบ nxn

สิ่งที่คุณควรหารด้วยปัจจัยการปรับคือค่าอัลฟาถ้าเทียบกับค่า p ที่ไม่ได้ปรับ

— คริส
แหล่งที่มา

วิธีการใช้การทดสอบ Nemenyi อย่างถูกต้องหลังการทดสอบฟรีดแมน

ฉันจะใช้การทดสอบ Nemenyi หลังการทดสอบอย่างถูกต้องได้อย่างไร