ทีนี้ถ้าคุณรู้ความแปรปรวนของคู่ที่ไม่คู่กับคู่ (ซึ่งโดยทั่วไปแล้วจะเป็นข้อตกลงที่เล็กกว่า) น้ำหนักที่เหมาะสมสำหรับการประมาณความแตกต่างในกลุ่มที่สองหมายถึงว่าน้ำหนักจะแปรผกผันกับความแปรปรวนของแต่ละคน การประมาณความแตกต่างในวิธีการ
[แก้ไข: ปรากฎว่าเมื่อประมาณค่าความแปรปรวนสิ่งนี้เรียกว่าตัวประมาณ Graybill-Deal มีกระดาษอยู่สองสามเล่ม นี่คือหนึ่ง]
ความจำเป็นในการประมาณค่าความแปรปรวนทำให้เกิดความยากลำบาก (อัตราส่วนผลลัพธ์ของการประมาณค่าความแปรปรวนคือ F และฉันคิดว่าน้ำหนักที่ได้มีการแจกแจงแบบเบต้าและสถิติที่ได้นั้นซับซ้อนมาก) แต่เนื่องจากคุณกำลังพิจารณา bootstrapping นี่อาจเป็น น้อยกว่าความกังวล
ความเป็นไปได้ทางเลือกซึ่งอาจจะดีกว่าในบางแง่มุม (หรืออย่างน้อยก็มีความทนทานต่อการไม่ได้มาตรฐานเนื่องจากเรากำลังเล่นกับอัตราส่วนความแปรปรวน) ที่มีการสูญเสียประสิทธิภาพน้อยมากที่ปกติคือพื้นฐานของการกะ การทดสอบอันดับคู่และไม่ได้รับการจับคู่ - ในแต่ละกรณีการประเมินแบบ Hodges-Lehmann ในกรณีที่ไม่มีการจับคู่ขึ้นอยู่กับค่ามัธยฐานของความแตกต่างระหว่างคู่ตัวอย่างและในกรณีที่จับคู่ค่ามัธยฐานของความแตกต่างระหว่างคู่ อีกครั้งความแปรปรวนเชิงเส้นถ่วงน้ำหนักต่ำสุดของชุดค่าผสมเชิงเส้นของทั้งสองจะเป็นกับน้ำหนักเป็นสัดส่วนกับผกผันของความแปรปรวน ในกรณีนี้ฉันอาจจะเอนตัวไปที่การเปลี่ยนแปลง (/ การสุ่ม) แทนการบู๊ต - แต่ขึ้นอยู่กับว่าคุณใช้บูทสแตรปของคุณอย่างไรพวกเขาสามารถจบลงในที่เดียวกันได้
ไม่ว่าในกรณีใดคุณอาจต้องการเพิ่มความแปรปรวน / ลดอัตราส่วนความแปรปรวนของคุณ การเข้าไปอยู่ใน ballpark ที่ถูกต้องสำหรับน้ำหนักนั้นดี แต่คุณจะสูญเสียประสิทธิภาพที่น้อยมากตามปกติโดยทำให้แข็งแรงขึ้นเล็กน้อย ---
ความคิดเพิ่มเติมบางอย่างที่ฉันไม่ชัดเจนพอในหัวของฉันมาก่อน:
ปัญหานี้มีความคล้ายคลึงกันอย่างชัดเจนกับปัญหาของ Behrens-Fisher แต่ก็ยากกว่า
หากเรากำหนดน้ำหนักเราก็สามารถตีค่าประมาณของ Welch-Satterthwaite โครงสร้างของปัญหาเหมือนกัน
ปัญหาของเราคือเราต้องการเพิ่มประสิทธิภาพน้ำหนักซึ่งหมายความว่าน้ำหนักไม่ได้รับการแก้ไข - และแน่นอนมีแนวโน้มที่จะเพิ่มสถิติสูงสุด (อย่างน้อยประมาณเกือบทุกตัวอย่างขนาดใหญ่เนื่องจากน้ำหนักชุดใด ๆ เป็นปริมาณแบบสุ่มโดยประมาณเท่ากัน ตัวเศษและเรากำลังพยายามย่อส่วนซึ่งทั้งสองไม่เป็นอิสระ)
ฉันคาดว่านี่จะทำให้การประมาณไคสแควร์แย่ลงและจะส่งผลกระทบต่อ df ของการประมาณยังคงเพิ่มขึ้นต่อไป
[หากปัญหานี้เกิดขึ้นได้ก็อาจกลายเป็นกฎง่ายๆที่จะพูดว่า 'คุณสามารถทำได้เกือบจะดีถ้าคุณใช้ข้อมูลที่จับคู่ภายใต้สถานการณ์เหล่านี้เท่านั้น เงื่อนไขและส่วนที่เหลือรูปแบบน้ำหนักคงที่นี้มักจะใกล้เคียงกับความเหมาะสมที่สุด - แต่ฉันจะไม่กลั้นลมหายใจรอโอกาสนั้น กฎการตัดสินใจดังกล่าวจะมีผลกระทบต่อความสำคัญที่แท้จริงในแต่ละกรณี แต่ถ้าผลนั้นไม่ใหญ่เช่นกฎของหัวแม่มือจะให้วิธีที่ง่ายสำหรับผู้ใช้ซอฟต์แวร์ที่มีอยู่เดิมดังนั้นจึงเป็นที่ต้องการ พยายามระบุกฎเช่นนั้นสำหรับผู้ใช้ในสถานการณ์เช่นนี้]
---
แก้ไข: หมายเหตุถึงตนเอง - จำเป็นต้องกลับมาและกรอกรายละเอียดของการทำงานในการทดสอบ 'ตัวอย่างที่ทับซ้อนกัน' โดยเฉพาะอย่างยิ่งการทดสอบตัวอย่างที่ซ้ำซ้อน
---
มันเกิดขึ้นกับฉันว่าการทดสอบการสุ่มควรใช้ได้ -
เมื่อข้อมูลถูกจับคู่คุณสุ่มอนุญาตฉลากกลุ่มภายในคู่
โดยที่ข้อมูลไม่ถูกจับคู่ แต่สันนิษฐานว่ามีการแจกแจงทั่วไป (ภายใต้ค่า null) คุณอนุญาตการมอบหมายกลุ่ม
ตอนนี้คุณสามารถกำหนดน้ำหนักให้กับการประมาณการเปลี่ยนแปลงสองครั้งจากการประมาณค่าความแปรปรวนแบบสัมพัทธ์ ( w1= 1 / ( 1 +v1v2)) คำนวณการประมาณน้ำหนักกะของแต่ละตัวอย่างแบบสุ่มและดูว่ากลุ่มตัวอย่างเหมาะสมกับการกระจายแบบสุ่มหรือไม่
(เพิ่มในภายหลังมาก)
กระดาษที่เกี่ยวข้องอาจเป็นไปได้:
Derrick, B. , Russ B. , Toher, D. , และ White, P. (2017),
"สถิติทดสอบสำหรับการเปรียบเทียบค่าเฉลี่ยของสองตัวอย่างที่มีทั้งการสังเกตแบบจับคู่และอิสระ"
วารสารวิธีการทางสถิติประยุกต์สมัยใหม่อาจ ปีที่ 16 หมายเลข 1, 137-157
ดอย: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm