ความเหมาะสมของ Wilcoxon ลงนามทดสอบระดับ


11

ฉันแหย่ไปรอบ ๆ ในจดหมายเหตุตรวจสอบความถูกต้องของ Cross และดูเหมือนจะไม่พบคำตอบสำหรับคำถามของฉัน คำถามของฉันมีดังต่อไปนี้: Wikipedia ให้ข้อสมมติฐานสามข้อที่จำเป็นสำหรับการทดสอบระดับวิลคอกซันที่ลงนาม (แก้ไขเล็กน้อยสำหรับคำถามของฉัน):

ให้ Zi = Xi-Yi สำหรับ i = 1, ... , n

  1. ความแตกต่างของ Zi นั้นถือว่าเป็นอิสระ

  2. (a.) Zi แต่ละคนมาจากประชากรที่ต่อเนื่องกันและ (b.) Zi แต่ละคนมีความสมมาตรเกี่ยวกับค่ามัธยฐานทั่วไป

  3. ค่าที่ตัวแทน Xi และ Yi ถูกสั่ง ... ดังนั้นการเปรียบเทียบ 'มากกว่า', 'น้อยกว่า' และ 'เท่ากับ' มีประโยชน์

เอกสารประกอบสำหรับ? wilcox.test ใน R อย่างไรก็ตามดูเหมือนว่าบ่งชี้ว่า (2.b) เป็นสิ่งที่ทดสอบโดยขั้นตอนจริง:

"... หากทั้ง x และ y ได้รับและจับคู่เป็น TRUE การทดสอบระดับวิลคอกซันลงนามโมฆะว่าการแจกแจง ... ของ x - y (ในกรณีตัวอย่างที่จับคู่ทั้งสอง) มีความสมมาตรเกี่ยวกับ mu"

เสียงนี้ให้ฉันเป็นแม้ว่าการทดสอบจะดำเนินการสำหรับสมมติฐานว่า "Z มีการกระจายไปรอบ ๆ หมู่บ้าน symetrically เฉลี่ย = SomeMu" - ดังกล่าวว่าการปฏิเสธสำหรับ null อาจจะเป็นทั้งการปฏิเสธของสมมาตรหรือปฏิเสธที่หมู่บ้านรอบที่ Z คือสมมาตรคือ SomeMu

นี่เป็นความเข้าใจที่ถูกต้องของเอกสาร R สำหรับ wilcox.test หรือไม่? เหตุผลนี้เป็นสิ่งสำคัญแน่นอนว่าฉันกำลังทำการทดสอบแบบจับคู่ความแตกต่างจำนวนหนึ่งในข้อมูลก่อนและหลัง ("X" และ "Y" ด้านบน) ข้อมูล "ก่อน" และ "หลัง" เป็นรายบุคคลมีความเบ้สูง แต่ความแตกต่างไม่เบ้เกือบเท่ากัน (แม้ว่าจะยังค่อนข้างเบ้) โดยที่ฉันหมายความว่าข้อมูล "ก่อน" หรือ "หลังจาก" ที่พิจารณาโดยลำพังนั้นมีความเบ้ ~ 7 ถึง 21 (ขึ้นอยู่กับตัวอย่างที่ฉันดู) ในขณะที่ข้อมูล "ความแตกต่าง" มีความเบ้ ~ = 0.5 ถึง 5 ยังเบ้ แต่ไม่มากนัก

หากมีความเบ้ในข้อมูล "ความแตกต่าง" ของฉันจะทำให้การทดสอบ Wilcoxon ให้ผลลัพธ์ที่เป็นเท็จ / ลำเอียง (ตามที่บทความของ Wikipedia ดูเหมือนจะบ่งบอก) การเบ้อาจเป็นปัญหาใหญ่ อย่างไรก็ตามหากการทดสอบ Wilcoxon เป็นการทดสอบว่าการกระจายความแตกต่างนั้นเป็น "สมมาตรรอบ mu = SomeMu" (ดูเหมือนว่า wilcox.test จะบ่งบอก) หรือไม่นั้นเป็นเรื่องที่น่ากังวลน้อยกว่า

ดังนั้นคำถามของฉันคือ:

  1. การตีความข้างต้นใดถูกต้อง ความเบ้ในการแจกแจง "ความแตกต่าง" ของฉันจะทำให้การทดสอบแบบวิลคอกซันของฉันมีความเอนเอียงหรือไม่?

  2. หากเบ้เป็นกังวล: "วิธีเบ้มากเป็นกังวล"

  3. หากการทดสอบระดับวิลคอกซันลงนามดูเหมือนไม่เหมาะสมอย่างไม่มีการลดที่นี่คำแนะนำใด ๆ สำหรับสิ่งที่ฉันควรใช้

ขอบคุณมาก. หากคุณมีข้อเสนอแนะเพิ่มเติมใด ๆ เกี่ยวกับวิธีที่ฉันจะทำการวิเคราะห์นี้ฉันมีความสุขมากกว่าที่จะได้ยินพวกเขา (แม้ว่าฉันยังสามารถเปิดกระทู้อื่นสำหรับวัตถุประสงค์นั้น) นี่เป็นคำถามแรกของฉันเกี่ยวกับการตรวจสอบข้าม หากคุณมีข้อเสนอแนะ / ความคิดเห็นเกี่ยวกับวิธีที่ฉันถามคำถามนี้ฉันก็เปิดรับเช่นกัน!


พื้นหลังเล็กน้อย: ฉันกำลังวิเคราะห์ชุดข้อมูลที่มีข้อสังเกตเกี่ยวกับสิ่งที่ฉันจะเรียกว่า "ข้อผิดพลาดในการผลิตของ บริษัท " ฉันมีการสังเกตเกี่ยวกับข้อผิดพลาดที่เกิดขึ้นในกระบวนการผลิตก่อนและหลังการตรวจสอบความประหลาดใจและหนึ่งในเป้าหมายของการวิเคราะห์คือการตอบคำถาม "การตรวจสอบสร้างความแตกต่างในจำนวนข้อผิดพลาดที่เกิดขึ้นหรือไม่"

ชุดข้อมูลมีลักษณะดังนี้:

ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0 
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0

มีการสังเกตการณ์ประมาณ 4,000 ครั้ง ตัวแปรอื่น ๆ คือการสังเกตแบบ catagorical ที่บอกลักษณะของ บริษัท ขนาดอาจเล็กกลางหรือใหญ่และแต่ละ บริษัท มีขนาดเดียวและขนาดเดียว บริษัท สามารถเป็น "ประเภท" ใด ๆ หรือทั้งหมด

ฉันถูกขอให้ทำการทดสอบแบบง่าย ๆ เพื่อดูว่ามีความแตกต่างอย่างมีนัยสำคัญทางสถิติในอัตราความผิดพลาดที่สังเกตได้ก่อนและหลังการตรวจสอบสำหรับทุก บริษัท และกลุ่มย่อยต่างๆหรือไม่ (ขึ้นอยู่กับขนาดและประเภท) การทดสอบ T ออกเนื่องจากข้อมูลมีความเบ้อย่างรุนแรงทั้งก่อนและหลังตัวอย่างเช่นใน R ก่อนข้อมูลดูเหมือนว่า:

summary(errorsBefore)
# Min.  1st Qu.  Median   Mean  3rd Qu.    Max
# 0.000  0.000    4.000  12.00    13.00  470.0

(สิ่งเหล่านี้ถูกสร้างขึ้น - ฉันเกรงว่าฉันไม่สามารถโพสต์ข้อมูลจริงหรือการจัดการที่แท้จริงของมันเนื่องจากปัญหาด้านกรรมสิทธิ์ / ความเป็นส่วนตัว - ขอโทษด้วย!)

ความแตกต่างของคู่นั้นมีการรวมศูนย์มากขึ้น แต่ก็ยังไม่ค่อยเหมาะกับการแจกแจงแบบปกติมากเกินไป ข้อมูลที่แตกต่างมีลักษณะดังนี้:

summary(errorsBefore-errorsAfter)
# Min.   1st Qu.  Median   Mean  3rd Qu.    Max
# -110.0  -2.000   0.000  0.005   2.000   140.0

มีข้อเสนอแนะว่าฉันใช้การทดสอบระดับวิลคอกซันลงนามและหลังจากการย่อของ? wilcox.test และ Wikipedia และที่นี่ดูเหมือนว่าการทดสอบจะใช้ เมื่อพิจารณาจากข้อสันนิษฐานข้างต้นฉันเชื่อว่า (1) นั้นใช้ได้ดีกับกระบวนการสร้างข้อมูล ข้อสมมติฐาน (2.a) ไม่เป็นความจริงสำหรับข้อมูลของฉัน แต่เป็นการสนทนาที่นี่: ทางเลือกของการทดสอบ Wilcoxon เมื่อการแจกแจงไม่ต่อเนื่อง? ดูเหมือนจะบ่งบอกว่าสิ่งนี้ไม่ได้เป็นเรื่องกังวลมากนัก อัสสัมชัญ (3) ไม่เป็นไร ข้อกังวลเดียวของฉัน (ฉันเชื่อ) คืออัสสัมชัญ (2.b)

หนึ่งบันทึกเพิ่มเติมบางปีต่อมา: ในที่สุดฉันก็ใช้หลักสูตรสถิติแบบไม่อิงพารามิเตอร์ที่ยอดเยี่ยมและใช้เวลามากในการทดสอบผลรวมลำดับ ฝังอยู่ในสมมติฐาน (2.a), "Zi แต่ละตัวมาจากประชากรต่อเนื่องเดียวกัน" เป็นความคิดที่ว่าทั้งสองตัวอย่างข้าวต้มมาจากประชากรที่มีความแปรปรวนเท่ากัน - สิ่งนี้กลายเป็นสิ่งที่สำคัญอย่างยิ่ง หากคุณมีข้อกังวลเกี่ยวกับความแปรปรวนที่แตกต่างกันในประชากรของคุณ (ซึ่งคุณวาดตัวอย่าง) คุณควรกังวลเกี่ยวกับการใช้ WMW


ขอบคุณสำหรับคำตอบทั้งสอง! พวกเขาทั้งสองช่วยฉันอย่างเท่าเทียมกัน ฉันจะต้อง "เลือกทั้งคู่" ถ้าทำได้ ไมค์ชี้ไปที่ความเข้าใจเชิงทฤษฎีบางอย่างซึ่งเป็นประโยชน์อย่างมากต่อแนวคิดแม้ว่า Aniko จะตอบคำถามเดิมของฉันได้โดยตรง ขอบคุณทั้งคุณ!
CompEcon

คำตอบ:


8

วิกิพีเดียทำให้คุณเข้าใจผิดว่า "... หากทั้ง x และ y ได้รับและจับคู่เป็น TRUE การทดสอบของ Wilcoxon ได้รับการจัดอันดับเป็นโมฆะว่าการแจกแจง ... ของ x - y (ในกรณีตัวอย่างสองคู่) นั้นสมมาตร ดำเนินการเกี่ยวกับ mu "

Zผม=xผม-Yผม

LN(xผม)LN(Yผม)

ผม? ฉันจะทำทั้งสองอย่างและทำอย่างอื่นที่ฉันสามารถปรุงได้ (การทดสอบอัตราส่วนความน่าจะเป็นของปัวซองนับตามขนาดของ บริษัท หรือไม่) การทดสอบสมมติฐานเป็นเรื่องเกี่ยวกับการพิจารณาว่ามีหลักฐานที่น่าเชื่อถือหรือไม่และบางคนก็เชื่อมั่นเป็นจำนวนมาก


อานั่นทำให้รู้สึกมาก โดยเฉพาะตอนนี้ฉันกลับถึงบ้านแล้วดึงหนังสือ DeGroot & Schervish เล่มเก่าออกมาซึ่งมีคำอธิบายที่ดีเกี่ยวกับสิ่งที่การทดสอบเครื่องหมายเหล่านี้กำลังทำอยู่ น่าอัศจรรย์ และขอบคุณสำหรับความคิดทั่วไปเกี่ยวกับการทดสอบสมมติฐาน :) ฉันชอบมุมมอง หมายเหตุเล็กน้อยหนึ่งรายการ: ส่วนที่คุณทราบว่าทำให้เข้าใจผิดจริง ๆ มาจาก R จากเอกสารสำหรับ wilcox.test นี่มันรบกวนฉันนิดหน่อย ...
CompEcon

9

ทั้งหน้าวิกิพีเดียและหน้าความช่วยเหลือ R นั้นถูกต้องและพยายามที่จะพูดในสิ่งเดียวกันพวกเขาเพียง แต่พูดวลีต่างกัน

บทความ Wikipedia ระบุสมมติฐานเป็น (มัธยฐาน = 0) vs (มัธยฐาน! = 0) และบอกว่าคุณสามารถสรุปได้จากการทดสอบหากความแตกต่างนั้นมีการแจกแจงแบบสมมาตร (+ สมมติฐานอื่น ๆ )

หน้าความช่วยเหลือ R มีความเฉพาะเจาะจงมากขึ้นโดยระบุสมมติฐานเป็น (มัธยฐาน = 0 และความแตกต่างมีการแจกแจงแบบสมมาตร) เทียบกับ (อย่างน้อยหนึ่งในนั้นเป็นเท็จ) ดังนั้นมันจึงย้ายสมมติฐานไปเป็นสมมติฐานว่าง ฉันคิดว่าพวกเขาได้ทำเช่นนี้เพื่อเน้นความต้องการความสมมาตร: ด้วยความแตกต่างที่เบ้การทดสอบอันดับที่ลงนามจะปฏิเสธสมมติฐานว่างแม้ว่าค่ามัธยฐานจะตายแล้วก็ตาม ถ้าคุณอ่านตำราเรียนมันอาจบอกคุณได้ว่าสมมติฐานว่างที่กำลังทดสอบคือ P (X> Y) = 0.5 - ส่วนที่เหลือจริง ๆ แล้วตามมาจากนี้

ในแง่ของการประยุกต์ใช้คำถามนั้นแน่นอนว่าคุณใส่ใจเป็นพิเศษเกี่ยวกับค่ามัธยฐาน (และจากนั้นความเบ้เป็นปัญหาและการทดสอบค่ามัธยฐานเป็นทางเลือกที่เป็นไปได้) หรือไม่ว่าคุณจะสนใจเรื่องการกระจายทั้งหมดหรือไม่ y)! = 0.5 เป็นหลักฐานการเปลี่ยนแปลง


1
ตกลงนี่เหมาะสมแล้ว ขอบคุณสำหรับการเข้า! ฉันสังเกตเห็นว่าหน้าวิกิพีเดียสำหรับการทดสอบค่ามัธยฐานกล่าวว่าการทดสอบ Mann-Whitney-U ที่ไม่ได้จับคู่เป็นที่ต้องการ สิ่งนี้ทำให้ฉันคิดได้ทันทีว่าฉันเริ่มจากตรงไหนก่อนโดยคิดว่าการทดสอบ Wilcoxon ที่จับคู่นั้นใช้ข้อมูลมากขึ้น บางทีสิ่งที่ฉันพยายามคิดจริงๆคือสิ่งที่คุณหมายถึงเมื่อคุณพูดว่า "ใส่ใจเป็นพิเศษกับค่ามัธยฐาน ... หรือประมาณการแจกแจงทั้งหมด" ฉันสนใจเกี่ยวกับการแจกแจงทั้งหมด แต่ฉันอธิบายลักษณะผ่านค่ามัธยฐาน ..
CompEcon
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.