วิธีการใช้การทดสอบ Nemenyi อย่างถูกต้องหลังการทดสอบฟรีดแมน


11

ฉันกำลังเปรียบเทียบประสิทธิภาพของอัลกอริทึมหลายชุดในชุดข้อมูลหลายชุด ตั้งแต่ผู้การวัดประสิทธิภาพการทำงานไม่ได้รับประกันว่าจะกระจายตามปกติผมเลือกทดสอบฟรีดแมนกับโพสต์-hoc ทดสอบ Nemenyi ขึ้นอยู่กับDemšar (2006)

จากนั้นฉันก็พบกระดาษอื่นที่นอกเหนือจากการแนะนำวิธีอื่น ๆ เช่นการทดสอบ Quade ด้วยการทดสอบหลังการทำ Shaffer ที่ตามมาพวกเขาใช้การทดสอบ Nemenyi ต่างกัน

ฉันจะใช้การทดสอบ Nemenyi หลังการทดสอบอย่างถูกต้องได้อย่างไร

1. การใช้สถิติช่วง Studentized

ในบทความของDemšarมันบอกว่าจะปฏิเสธสมมติฐานว่าง (ไม่มีความแตกต่างของประสิทธิภาพของสองอัลกอริธึม) ถ้าค่าเฉลี่ยความแตกต่างอันดับมากกว่าระยะทางวิกฤติซีดี

CD=qαk(k+1)6N

"โดยที่ค่าวิกฤตqαขึ้นอยู่กับสถิติของช่วง Studentized หารด้วย "2.

หลังจากขุดค้นพบว่าคุณสามารถค้นหา "ค่าวิกฤต" สำหรับα=0.05บางตัวเช่นในตารางสำหรับสำหรับองศาอิสระที่ไม่มีที่สิ้นสุด (ที่ด้านล่างของแต่ละตาราง)

2. หรือใช้การแจกแจงแบบปกติ?

เมื่อฉันคิดว่าฉันรู้ว่าต้องทำอะไรฉันพบกระดาษอีกฉบับที่ทำให้ฉันสับสนอีกครั้งเพราะพวกเขาใช้การแจกแจงแบบปกติเท่านั้น Demšarระบุสิ่งที่คล้ายกันในหน้า 12:

สถิติการทดสอบสำหรับการเปรียบเทียบคลาส i-th และ j-th โดยใช้วิธีการเหล่านี้คือ ค่า Z จะใช้ในการ Fi อันดับความน่าจะเป็นที่สอดคล้องกันจากตารางของการกระจายปกติแล้วจะถูกเมื่อเทียบกับที่เหมาะสม\การทดสอบแตกต่างกันในวิธีที่พวกเขาปรับค่าของเพื่อชดเชยการเปรียบเทียบหลาย ๆ

z=(RiRj)k(k+1)6N
αα

ในย่อหน้านี้เขากำลังพูดถึงการเปรียบเทียบอัลกอริธึมทั้งหมดกับอัลกอริธึมการควบคุม แต่คำพูด "แตกต่างกันไปในวิธีที่พวกเขาปรับ ... เพื่อชดเชยการเปรียบเทียบหลาย ๆ " แนะนำว่านี่ควรจะทดสอบ Nemenyi ด้วย

ดังนั้นสิ่งที่ดูเหมือนว่าตรรกะให้ฉันเป็นในการคำนวณP -value อยู่บนพื้นฐานของสถิติทดสอบซึ่งกระจายตามปกติและถูกต้องที่หนึ่งโดยการหารผ่าน 2zk(k1)/2

อย่างไรก็ตามมันให้ผลต่างต่างกันอย่างสิ้นเชิงในการปฏิเสธสมมติฐานว่าง และตอนนี้ฉันติดอยู่และไม่รู้วิธีการสมัคร ฉันเอนตัวไปทางข้างหนึ่งโดยใช้การแจกแจงแบบปกติเพราะมันง่ายกว่าและสมเหตุสมผลกว่าสำหรับฉัน ฉันไม่จำเป็นต้องค้นหาค่าในตารางและฉันไม่ผูกพันกับค่าความสำคัญบางอย่าง

จากนั้นอีกครั้งฉันไม่เคยทำงานกับสถิติช่วงของนักเรียนและฉันไม่เข้าใจ

คำตอบ:


5

ฉันเพิ่งเริ่มดูคำถามนี้

ดังที่ได้กล่าวไว้ก่อนหน้านี้เมื่อเราใช้การแจกแจงแบบปกติเพื่อคำนวณค่า p สำหรับการทดสอบแต่ละครั้งค่า p เหล่านี้จะไม่นำการทดสอบหลายรายการมาพิจารณา เพื่อแก้ไขให้ถูกต้องและควบคุมอัตราความผิดพลาดที่เหมาะสำหรับครอบครัวเราจำเป็นต้องปรับเปลี่ยนบางอย่าง Bonferonni กล่าวคือการแบ่งระดับนัยสำคัญหรือการคูณค่า p-raw ด้วยจำนวนการทดสอบเป็นเพียงการแก้ไขที่เป็นไปได้เพียงอย่างเดียว มีการแก้ไขค่า p-value การทดสอบอื่น ๆ จำนวนมากซึ่งในหลาย ๆ กรณีมีความระมัดระวังน้อยกว่า

การแก้ไขค่า p เหล่านี้ไม่ได้นำโครงสร้างเฉพาะของการทดสอบสมมติฐานมาพิจารณา

ฉันคุ้นเคยกับการเปรียบเทียบข้อมูลต้นฉบับแบบเป็นคู่มากกว่าการแปลงข้อมูลแบบอันดับในการทดสอบ Kruskal-Wallis หรือ Friedman ในกรณีนั้นคือการทดสอบ Tukey HSD สถิติการทดสอบสำหรับการเปรียบเทียบแบบหลายครั้งจะถูกกระจายตามการแจกแจงช่วงของนักเรียนซึ่งเป็นการแจกแจงสำหรับการเปรียบเทียบแบบเป็นคู่ทั้งหมดภายใต้สมมติฐานของกลุ่มตัวอย่างอิสระ มันขึ้นอยู่กับความน่าจะเป็นของการแจกแจงปกติหลายตัวแปรซึ่งสามารถคำนวณได้จากการรวมตัวเลข แต่มักใช้จากตาราง

การคาดเดาของฉันเนื่องจากฉันไม่ทราบทฤษฎีคือการแจกแจงช่วงที่นักเรียนได้สามารถนำไปใช้กับกรณีของการจัดระดับการทดสอบในลักษณะที่คล้ายคลึงกับในการเปรียบเทียบแบบคู่ Tukey HSD

ดังนั้นการใช้ (2) การแจกแจงปกติบวกการแก้ไขค่า p-value หลายการทดสอบและการใช้ (1) การแจกแจงช่วงนักเรียนเป็นสองวิธีที่แตกต่างกันของการได้รับการกระจายโดยประมาณของสถิติการทดสอบ อย่างไรก็ตามหากสมมติฐานสำหรับการใช้งานของการกระจายช่วงนักเรียนเป็นที่พอใจแล้วก็ควรให้การประมาณที่ดีขึ้นเพราะมันถูกออกแบบมาสำหรับปัญหาเฉพาะของการเปรียบเทียบแบบคู่ทั้งหมด


1

เท่าที่ฉันรู้เมื่อเปรียบเทียบเพียง 2 อัลกอริทึมDemšarแนะนำการทดสอบยศ Wilcoxon ที่ลงนามมากกว่า Friedman + posthoc ฉันเป็นเรื่องน่าเศร้าเช่นเดียวกับที่คุณสับสนเมื่อมันมาถึงการแยกแยะว่าสิ่งที่การหารด้วย k-1 ของdemšarควรจะหมายถึง


1
การหารด้วย (k-1) คือเมื่อคุณเปรียบเทียบอัลกอริธึมหลายตัวกับวิธีการควบคุม แต่นี่เป็นสิ่งที่เทียบกับแต่ละคนดังนั้น NxN ส่วนที่ฉันสามารถเข้าใจได้ แต่ความสัมพันธ์กับการแจกแจงช่วงของนักเรียนนั้นเกินความเข้าใจของฉัน
ยาม

@ ผู้เข้าร่วม: คุณต้องคูณด้วยปัจจัยการปรับที่นี่ไม่ได้คูณ โปรดดูคำตอบของฉันด้านบน
Chris

0

ฉันยังพบกับเควสติโนว่าจะคำนวณค่า p จากการแจกแจงแบบปกติหรือแบบกระจาย น่าเสียดายที่ฉันยังไม่สามารถตอบได้เพราะเอกสารต่างกันสื่อสารวิธีการต่าง

อย่างไรก็ตามสำหรับการคำนวณ p-values ​​ที่ปรับแล้วคุณต้องคูณ p-value ที่ไม่ได้แก้ไขด้วยปัจจัยการปรับเช่น p * (k-1) ในกรณีที่เปรียบเทียบกับวิธีการควบคุมหนึ่งวิธีหรือ p * (k * (k-1 )) / 2) สำหรับการเปรียบเทียบ nxn

สิ่งที่คุณควรหารด้วยปัจจัยการปรับคือค่าอัลฟาถ้าเทียบกับค่า p ที่ไม่ได้ปรับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.