ขนาดของเอฟเฟกต์สำหรับ Wilcoxon ได้ลงลายมือชื่อทดสอบยศแล้วหรือยัง?


18

ผู้เขียนบางคน (เช่น Pallant, 2007, p. 225; ดูภาพด้านล่าง) แนะนำให้คำนวณขนาดของเอฟเฟกต์สำหรับการทดสอบยศของวิลคอกซันโดยการแบ่งสถิติการทดสอบด้วยสแควร์รูทของจำนวนการสังเกต:

R=Znx+nY

Zคือผลลัพธ์สถิติการทดสอบโดย SPSS (ดูภาพด้านล่าง) และโดยwilcoxsign_testใน R (ดูคำถามที่เกี่ยวข้องของฉัน: teststatistic vs linearstatistic ใน wilcoxsign_test )

คนอื่น ๆ แนะนำ Bravais-Pearson ( ) หรือ Spearman ( ) สัมประสิทธิ์สหสัมพันธ์ (ขึ้นอยู่กับชนิดของข้อมูล)R=โอโวลต์(XY)sd(X)×sd(Y)RS

เมื่อคุณคำนวณพวกเขาทั้งสองrจะไม่เหมือนกันจากระยะไกล เช่นสำหรับข้อมูลปัจจุบันของฉัน:

r = 0.23 (สำหรับ )R=Znx+nY

r = 0.43 (เพียร์สัน)

ขนาดของเอฟเฟ็กต์เหล่านี้ค่อนข้างแตกต่างกัน

ดังนั้นขนาดของเอฟเฟกต์ที่ถูกต้องที่จะใช้คืออะไรและทั้งสองrเกี่ยวข้องกันอย่างไร


หน้า 224 (ส่วนล่าง) และ 225 จาก Pallant, J. (2007) คู่มือการอยู่รอด SPSS:

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่


1
อ่าใช่ดูเหมือนว่าบางทีที่มัน
Glen_b -Reinstate Monica

3
ฉันควรปล่อยให้มันเป็นอย่างนั้น - หาก Bravais สมควรได้รับเครดิตในภาษาหนึ่งเขาสมควรได้รับในอีกภาษาหนึ่ง! ฉันซาบซึ้งในการเติมเต็มช่องว่างในการศึกษาของฉัน
Glen_b -Reinstate Monica

1
ใช่เพราะฉันต้องการการทดสอบที่สามารถจัดการความสัมพันธ์

2
nnn=nx+nY

1
โดยส่วนตัวฉันคิดว่า Z / sqrt (n) อาจเป็นตัวเลือกเดียว Wikipedia เกี่ยวกับ Mann-Whitney เชื่อมโยงกับกระดาษ pdf โดย Kirby ซึ่งพิจารณาการจับคู่ Wilcoxon ด้วยเช่นกัน ฉันไม่ได้อ่านบทความด้วยตัวเอง
ttnphns

คำตอบ:


6
  • หากคุณไม่มีความสัมพันธ์ฉันจะรายงานสัดส่วนหลังจากค่าที่น้อยกว่าค่าที่สอดคล้องกันก่อนหน้า
  • หากคุณมีความสัมพันธ์คุณสามารถรายงานสัดส่วนของค่าหลังจากที่น้อยกว่าก่อนจากจำนวนรวมของคู่ที่ไม่ผูกหรือรายงานสัดส่วนทั้งสาม (<, =,>) และบางทีผลรวมของสองอย่างใดก็ได้ มีความหมายมากขึ้น ตัวอย่างเช่นคุณสามารถพูดได้ว่า '33% มีความกลัวสถิติน้อยลง 57% ไม่เปลี่ยนแปลงและ 10% มีความกลัวมากขึ้นหลังจากจบหลักสูตรซึ่ง 90% เหมือนหรือดีกว่าก่อน '

ยังไม่มีข้อความZยังไม่มีข้อความZ/ยังไม่มีข้อความZ/ยังไม่มีข้อความ

มีรอยย่นอีกอย่างหนึ่งคือ ในขณะที่คุณต้องการประมาณการขนาดของเอฟเฟกต์โดยรวมผู้คนมักใช้การทดสอบยศวิลคอกซันลงข้อมูลที่มีลำดับเฉพาะ นั่นคือที่พวกเขาไม่ไว้วางใจว่าข้อมูลสามารถระบุขนาดของการเปลี่ยนแปลงภายในนักเรียนได้อย่างน่าเชื่อถือ แต่มีเพียงการเปลี่ยนแปลงที่เกิดขึ้นเท่านั้น นั่นทำให้ฉันได้สัดส่วนที่ดีขึ้นตามที่กล่าวไว้


ในทางกลับกันถ้าคุณเชื่อมั่นว่าค่านั้นมีความหมายอย่างแท้จริง (เช่นคุณใช้การทดสอบระดับที่มีการเซ็นชื่อเท่านั้นสำหรับความทนทานต่อค่าปกติและค่าผิดปกติ) คุณสามารถใช้ค่าเฉลี่ยหรือผลต่างมัธยฐานหรือค่าเฉลี่ยมาตรฐาน เป็นการวัดผลกระทบ


2
+1 การวัดผลที่เสนอของคุณนั้นสามารถเข้าใจได้ง่ายและเกี่ยวข้องกับสถิติทดสอบ
จอห์น

2

การประเมินข้อมูลประเภทใดเป็นการยากมากที่จะให้คำแนะนำที่ดีที่นี่ และนั่นคือทั้งหมดที่คุณจะได้รับ ไม่มีสิ่งใดที่จะวัดขนาดเอฟเฟ็กต์ที่ดีที่สุดสำหรับคำถามเช่นนี้ ... อาจจะเคย

ขนาดเอฟเฟกต์ที่กล่าวถึงในคำถามคือขนาดเอฟเฟกต์มาตรฐานทั้งหมด แต่เป็นไปได้โดยสิ้นเชิงว่าค่าเฉลี่ยหรือค่ามัธยฐานของมาตรการเดิมนั้นใช้ได้ ตัวอย่างเช่นหากคุณวัดระยะเวลาที่ใช้ในกระบวนการผลิตให้เสร็จสมบูรณ์ความแตกต่างของเวลาควรเป็นขนาดเอฟเฟกต์ที่สมเหตุสมผลอย่างสมบูรณ์ การเปลี่ยนแปลงใด ๆ ในกระบวนการการวัดในอนาคตการตรวจวัดข้ามระบบและการตรวจวัดข้ามโรงงานจะเป็นไปตามเวลาที่กำหนด คุณอาจต้องการค่าเฉลี่ยหรือบางทีคุณต้องการค่ามัธยฐานหรือแม้กระทั่งโหมด แต่สิ่งแรกที่คุณต้องทำคือดูที่มาตราส่วนการวัดจริงและดูว่าขนาดของเอฟเฟกต์นั้นสมเหตุสมผลหรือไม่ที่จะตีความและเชื่อมต่อกับตัววัด

เพื่อช่วยในการคิดเกี่ยวกับสิ่งนั้นผลกระทบที่ควรเป็นมาตรฐานคือสิ่งที่วัดได้ทางอ้อมและในหลาย ๆ ด้าน ตัวอย่างเช่นเครื่องชั่งจิตวิทยาอาจแตกต่างกันไปตามกาลเวลาและในหลาย ๆ วิธีและพยายามที่จะได้รับตัวแปรพื้นฐานที่ไม่ได้รับการประเมินโดยตรง ในกรณีเหล่านั้นคุณต้องการขนาดผลมาตรฐาน

ด้วยขนาดเอฟเฟ็คที่เป็นมาตรฐานปัญหาสำคัญไม่ได้เป็นเพียงสิ่งที่ใช้ แต่หมายถึงอะไร เมื่อคุณพูดถึงคำถามของคุณคุณก็ไม่รู้เหมือนกันว่ามันหมายถึงอะไรและนั่นเป็นสิ่งสำคัญ หากคุณไม่ทราบว่าเอฟเฟกต์ที่ได้มาตรฐานคืออะไรคุณไม่สามารถรายงานได้อย่างถูกต้องตีความอย่างถูกต้องหรือใช้อย่างถูกต้อง นอกจากนี้หากมีหลายวิธีที่คุณต้องการหารือเกี่ยวกับข้อมูลจะไม่มีอะไรหยุดคุณจากการรายงานมากกว่าหนึ่งขนาดผล คุณสามารถพูดคุยข้อมูลของคุณในแง่ของความสัมพันธ์เชิงเส้นเช่นเดียวกับความสัมพันธ์ชั่วขณะของผลิตภัณฑ์หรือในแง่ของความสัมพันธ์ระหว่างอันดับกับ Spearmanrและความแตกต่างระหว่างสิ่งเหล่านั้นหรือเพียงแค่ให้ข้อมูลทั้งหมดในตาราง ไม่มีอะไรผิดปกติเลย แต่มากกว่าสิ่งใดที่คุณจะต้องตัดสินใจว่าคุณต้องการให้ผลลัพธ์ของคุณหมายถึงอะไร นั่นเป็นสิ่งที่ไม่สามารถตอบได้จากข้อมูลที่ให้มาและอาจต้องใช้ข้อมูลและความรู้เฉพาะของโดเมนมากกว่าที่สมเหตุสมผลสำหรับคำถามในฟอรัมประเภทนี้

และคิดเสมอว่า meta-analytically เกี่ยวกับวิธีที่คุณรายงานผลกระทบ ผู้คนในอนาคตจะสามารถรับผลลัพธ์ที่ฉันรายงานและรวมเข้ากับผู้อื่นได้หรือไม่ อาจมีมาตรฐานในสาขาของคุณสำหรับสิ่งเหล่านี้ บางทีคุณอาจเลือกการทดสอบแบบไม่อิงพารามิเตอร์เนื่องจากคุณไม่เชื่อถือข้อสรุปที่คนอื่นทำไว้เกี่ยวกับการแจกแจงพื้นฐานและคุณต้องการอนุรักษ์นิยมมากกว่าในสมมติฐานของคุณในสาขาที่ใช้การทดสอบแบบอิงพารามิเตอร์เป็นหลัก ในกรณีนี้ไม่มีอะไรผิดปกติกับการเพิ่มขนาดเอฟเฟกต์ที่มักใช้กับการทดสอบพารามิเตอร์ ประเด็นเหล่านี้และอื่น ๆ อีกมากมายจำเป็นต้องได้รับการพิจารณาเมื่อคิดถึงวิธีที่คุณค้นพบในงานวิจัยที่คล้ายกัน โดยทั่วไปสถิติพรรณนาที่ดีจะช่วยแก้ปัญหาเหล่านี้ได้

นั่นคือคำแนะนำหลัก ฉันมีความคิดเห็นเพิ่มเติมเล็กน้อย หากคุณต้องการให้ขนาดเอฟเฟกต์ของคุณมีความสัมพันธ์อย่างมากกับการทดสอบคุณได้ทำZตามคำแนะนำที่ดีที่สุดแล้ว ขนาดเอฟเฟกต์มาตรฐานของคุณจะมีความหมายเหมือนกับการทดสอบ แต่ทันทีที่คุณไม่ทำอย่างนั้นก็ไม่มีอะไรผิดปกติกับการใช้สิ่งอื่นมากที่สุดแม้แต่บางอย่างเช่นของ Cohen dที่เกี่ยวข้องกับการทดสอบแบบพารามิเตอร์ ไม่มีข้อสันนิษฐานของภาวะปกติสำหรับวิธีการคำนวณค่าเบี่ยงเบนมาตรฐานหรือdคะแนน ในความเป็นจริงมีสมมติฐานที่อ่อนแอกว่าค่าสัมประสิทธิ์สหสัมพันธ์ที่แนะนำ และรายงานมาตรการอธิบายที่ดีเสมอ อีกครั้งมาตรการเชิงพรรณนาไม่มีสมมติฐานที่คุณกำลังละเมิด แต่โปรดจำไว้ว่าความหมายที่แท้จริงของพวกเขา คุณรายงานสถิติเชิงพรรณนาที่พูดบางอย่างเกี่ยวกับข้อมูลของคุณที่คุณต้องการพูดและวิธีการและค่ามัธยฐานพูดในสิ่งที่แตกต่างกัน

หากคุณต้องการหารือเกี่ยวกับการวัดซ้ำ ๆ กับขนาดเอฟเฟกต์อิสระนั่นเป็นคำถามใหม่ทั้งหมด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.