ฉันสามารถใช้การทดสอบการเปลี่ยนรูปแบบเพื่อหลีกเลี่ยงปัญหาการเปรียบเทียบหลายอย่างในบริบทของสัดส่วนได้หรือไม่


9

ฉันกำลังประเมินประสิทธิผลของวิธีการต่าง ๆ 5 วิธีเพื่อทำนายผลลัพธ์ไบนารีแบบใดแบบหนึ่ง (เรียกว่า 'ความสำเร็จ' และ 'ความล้มเหลว') ข้อมูลมีลักษณะดังนี้:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

ฉันต้องการทำการทดสอบระหว่าง 5 วิธีเพื่อประเมินความเหนือกว่าของวิธีการ ในคำอื่น ๆ ฉันต้องการสั่งซื้อวิธีการในการปฏิบัติตามวิธีที่ 1> วิธีที่ 2> ... วิธีที่ 5 เพื่อหลีกเลี่ยงปัญหาของการเปรียบเทียบหลายฉันวางแผนที่จะทำแบบทดสอบการเปลี่ยนรูปตามบรรทัดต่อไปนี้:

ขั้นตอนที่ 1: รวบรวมข้อมูลทั้งหมดเพื่อให้ขนาดตัวอย่างโดยรวมคือ 114 กับความสำเร็จโดยรวม 37 รายการ

ขั้นตอนที่ 2: สุ่มแบ่งข้อมูลออกเป็น 5 กลุ่มด้วยขนาดตัวอย่างที่สอดคล้องกันของ 28, 19, 24, 21 และ 22

ขั้นตอนที่ 3: เพิ่มตัวนับถ้าลำดับที่สังเกตของ Percent_Success จากขั้นตอนที่ 2 สอดคล้องกับการเรียงลำดับข้อมูลของฉัน

ขั้นตอนที่ 4: ทำซ้ำขั้นตอนที่ 2 และ 3 หลายครั้ง (พูด 10,000)

p-value ที่ต้องการ = ค่าตัวนับสุดท้าย / 10000

คำถาม:

  1. ขั้นตอนข้างต้นตกลงหรือไม่

  2. มีอะไรใน R ที่จะทำให้ฉันสามารถทำการทดสอบข้างต้นได้หรือไม่?

  3. ข้อเสนอแนะสำหรับการปรับปรุงหรือวิธีการอื่นจะเป็นประโยชน์


@whuber คุณอาจมีรหัส R เพื่อแบ่งปันวิธีที่คุณทำสิ่งนี้หรือไม่?
B_Miner

คำตอบ:


6

ขั้นตอนที่เสนอไม่ตอบคำถามของคุณ เพียงประมาณความถี่ภายใต้สมมติฐานว่างซึ่งคำสั่งที่คุณสังเกตเห็นจะเกิดขึ้น แต่ภายใต้ค่าว่างนั้นสำหรับการประมาณที่ดีคำสั่งซื้อทั้งหมดมีแนวโน้มเท่ากันดังนั้นการคำนวณของคุณจะสร้างมูลค่าใกล้เคียงกับ 1/5! = ประมาณ 0.83% นั่นบอกอะไรเราเลย

การสังเกตุที่ชัดเจนอีกอย่างหนึ่ง: การสั่งซื้อตามข้อมูลของคุณคือ 4> 5> 3> 2> 1. ค่าประมาณของคุณที่เหนือกว่าสัมพัทธ์คือ 0.61 - 0.40 = 21%, 0.40 - 0.21 = 11% เป็นต้น

ทีนี้สมมติว่าคำถามของคุณเกี่ยวข้องกับขอบเขตที่ความแตกต่างของสัดส่วนอาจเป็นเพราะโอกาสภายใต้สมมติฐานว่างไม่แตกต่างกัน คุณสามารถประเมินคำถามสิบข้อนี้ด้วยการทดสอบการเปลี่ยนรูป อย่างไรก็ตามในการวนซ้ำแต่ละครั้งคุณต้องติดตามตัวบ่งชี้สิบตัวที่มีความแตกต่างสัมพัทธ์ตามสัดส่วน(52)=10

สำหรับข้อมูลของคุณการจำลองด้วย 100,000 ซ้ำจะให้ผลลัพธ์

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

ความแตกต่างของสัดส่วนระหว่างวิธีที่ 4 และวิธีที่ 1, 2 และ 3 นั้นไม่น่าจะเกิดจากโอกาส (โดยมีความน่าจะเป็นประมาณ 0.03%, 0.37%, 0.88% ตามลำดับ) แต่ความแตกต่างอื่น ๆ อาจเป็น มีหลักฐานบางอย่าง (p = 2.44%) ของความแตกต่างระหว่างวิธีที่ 1 และ 5 ดังนั้นคุณจึงมั่นใจได้ว่าความแตกต่างของสัดส่วนที่เกี่ยวข้องกับความสัมพันธ์ 4> 3, 4> 2 และ 4> 1 ล้วน แต่เป็นบวก และมีแนวโน้มมากที่สุดคือความแตกต่างใน 5> 1


1
นั่นเป็นคำตอบที่ดีกว่าของฉันมาก! ฉันอ่านคำถามไม่ถูกต้องฉันกลัว (โดยเฉพาะขั้นตอนที่ 3) ฉันคิดถึงการลบคำตอบของฉัน แต่ฉันยืนหยัดด้วยความสามารถในการตีความวิธีการแบบเบย์ที่มากขึ้นนั่นคือการจัดอันดับที่น่าสนใจจริงๆ
เปิดเครื่อง

เพียงเพื่อให้แน่ใจว่าฉันเข้าใจถูกต้อง - ตัวบ่งชี้ที่ติดตามความแตกต่างสัมพัทธ์ระหว่างวิธีที่ 4 และ 5 จะได้รับการอัปเดตทุกครั้งที่เราเห็นความแตกต่างที่มากกว่า 0.21
sxv

@sxv ใช่ถูกต้อง (จริง ๆ แล้วฉันใช้มากกว่าหรือเท่ากับความสัมพันธ์เกิดขึ้นฉันคิดว่าการรวมความเสมอภาคระหว่างผลลัพธ์ที่สำคัญคือสิ่งที่ถูกต้องที่ต้องทำเพราะเรากำลังประเมินความน่าจะเป็นที่ความแตกต่างนี้มีขนาดใหญ่หรือใหญ่ขึ้นโดยบังเอิญ)
whuber

1

ขั้นตอนการทดสอบการเปลี่ยนรูปแบบ Monte-Carlo ที่แนะนำของคุณจะสร้างค่า p สำหรับการทดสอบสมมติฐานว่างว่าความน่าจะเป็นของความสำเร็จจะเหมือนกันสำหรับวิธีการทั้งหมด แต่มีเหตุผลเล็กน้อยที่จะทำการทดสอบการเปลี่ยนรูปของMonte Carloที่นี่เมื่อการทดสอบการเปลี่ยนแปลงที่สอดคล้องกันนั้นเป็นไปได้อย่างสมบูรณ์แบบ นั่นคือการทดสอบที่แน่นอนของ Fisher (บางคนจองชื่อไว้ที่ตาราง 2x2 ซึ่งในกรณีนี้เป็นการทดสอบที่มีเงื่อนไข) ฉันเพิ่งพิมพ์ข้อมูลของคุณลงใน Stata และ -tabi ... , แน่นอน - ให้ p = .0067 (สำหรับการเปรียบเทียบ, การทดสอบไคสแควร์ของ Pearson ให้ p = .0059) ฉันแน่ใจว่ามีฟังก์ชั่นที่เทียบเท่าใน R ซึ่งผู้เชี่ยวชาญด้าน R จะเพิ่มในไม่ช้า

หากคุณต้องการดูการจัดอันดับที่ดีที่สุดคุณอาจใช้วิธีการแบบเบย์ที่ดีที่สุดเพราะสามารถตีความได้ง่าย ๆ ว่าความน่าจะเป็นที่แต่ละวิธีนั้นดีที่สุดอันดับสองอันดับสามอันดับสาม ... ที่มาในราคาที่กำหนดให้คุณใส่นักบวชในความน่าจะเป็นของคุณแน่นอน การประเมินความน่าจะเป็นสูงสุดของการจัดอันดับเป็นเพียงการสั่งซื้อที่สังเกต แต่มันยากที่จะประเมินความไม่แน่นอนในการจัดอันดับในกรอบการทำงานของผู้ใช้บ่อยในวิธีที่สามารถตีความได้ง่ายเท่าที่ฉันทราบ

ฉันรู้ว่าฉันยังไม่ได้พูดถึงการเปรียบเทียบหลายครั้ง แต่ฉันไม่เห็นว่าสิ่งนี้เกิดขึ้นได้อย่างไร


2
การทดสอบที่แม่นยำของฟิชเชอร์และไคสแควร์ของเพียร์สันทดสอบสมมติฐานว่างว่าทั้ง 5 วิธีมีประสิทธิภาพเท่าเทียมกันกับทางเลือกที่อย่างน้อย 1 นั้นดีกว่าวิธีอื่น ค่า p บอกฉันว่าโมฆะถูกปฏิเสธ ดังนั้นหากฉันต้องการทราบว่าวิธีไหนดีกว่าวิธีอื่น ๆ ฉันจะไม่ทำการเปรียบเทียบ 10 คู่
sxv
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.