ฉันควรใช้ t-test กับข้อมูลที่มีการบิดเบือนสูงหรือไม่ ขอหลักฐานทางวิทยาศาสตร์


15

ฉันมีตัวอย่างจากชุดข้อมูลที่มีการบิดเบือนสูง (ดูคล้ายการแจกแจงแบบเอ็กซ์โปเนนเชียล) เกี่ยวกับการมีส่วนร่วมของผู้ใช้ (เช่น: จำนวนโพสต์) ที่มีขนาดต่างกัน (แต่ไม่น้อยกว่า 200) และฉันต้องการเปรียบเทียบค่าเฉลี่ย สำหรับสิ่งนั้นฉันใช้การทดสอบ t สองแบบที่ไม่มีการจับคู่ (และการทดสอบ t กับปัจจัยของ Welch เมื่อตัวอย่างมีความแปรปรวนต่างกัน) อย่างที่ฉันได้ยินมาว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่จริง ๆ มันไม่สำคัญว่ากลุ่มตัวอย่างจะไม่แจกแจงแบบปกติ

มีคนกำลังตรวจสอบสิ่งที่ฉันทำบอกว่าการทดสอบที่ฉันใช้ไม่เหมาะกับข้อมูลของฉัน พวกเขาแนะนำให้บันทึกการแปลงตัวอย่างของฉันก่อนใช้การทดสอบ t

ฉันเป็นผู้เริ่มต้นดังนั้นฉันจึงสับสนในการตอบคำถามการวิจัยของฉันด้วย "บันทึกการเข้าร่วมการวัด"

พวกเขาผิดหรือเปล่า? ฉันผิดหรือเปล่า? หากพวกเขาคิดผิดมีหนังสือหรือเอกสารทางวิทยาศาสตร์ที่ฉันสามารถอ้างอิง / แสดงได้หรือไม่? หากฉันผิดฉันควรใช้การทดสอบแบบใด


1
t-test มีสมมติฐานการกระจายปกติ csic.cornell.edu/Elrod/t-test/t-test-assumptions.html คุณอาจคิดว่าการแจกแจงแบบ t ซึ่งใกล้เคียงกับปกติเมื่อตัวอย่างมีขนาดใหญ่พอ
rdorlearn

6
"การพิสูจน์ทางวิทยาศาสตร์" หมายถึงอะไรในบริบทนี้
Glen_b -Reinstate Monica

1
ฉันคิดว่าข้อสันนิษฐานคือวิธีการทั้งหมดของตัวอย่างที่เป็นไปได้ทั้งหมดจากประชากรบางกลุ่มควรเป็นปกติ ดังนั้นโดย CLT มันจะเป็นจริงสำหรับชุดข้อมูลของฉันด้วย
Milena Araujo

1
หลักฐานทางวิทยาศาสตร์ = สิ่งที่เกี่ยวข้องกับการศึกษา: หนังสือกระดาษ ฯลฯ
Milena Araujo

คำตอบ:


36

ฉันจะไม่เรียกว่า 'เอ็กซ์โพเนนเชียล' โดยเฉพาะอย่างยิ่งเอียง ตัวอย่างของบันทึกนั้นเอียงซ้ายอย่างชัดเจนและโมเมนต์ความเบ้เพียง 2

1) การใช้ t-test กับข้อมูลเลขชี้กำลังและnใกล้ 500 นั้นเป็น เรื่องปกติ :

a) ตัวเศษของสถิติการทดสอบควรจะดี: หากข้อมูลเป็นเลขชี้กำลังเอกซ์โพเนนเชียลกับมาตราส่วนทั่วไป (และไม่หนักกว่าที่เป็นจริงมากกว่านั้น) ค่าเฉลี่ยของพวกมันคือการแจกแจงแกมมาด้วยพารามิเตอร์รูปร่างเท่ากับจำนวนการสังเกต การกระจายของมันดูปกติมากสำหรับพารามิเตอร์รูปร่างที่มีขนาดใหญ่กว่าประมาณ 40 หรือมากกว่านั้น (ขึ้นอยู่กับว่าคุณต้องการความแม่นยำมากแค่ไหน

สิ่งนี้มีความสามารถในการพิสูจน์ทางคณิตศาสตร์ แต่คณิตศาสตร์ไม่ใช่วิทยาศาสตร์ คุณสามารถตรวจสอบสังเกตุผ่านการจำลองแน่นอน แต่ถ้าคุณผิดเกี่ยวกับเลขชี้กำลังคุณอาจต้องการตัวอย่างที่มีขนาดใหญ่กว่า นี่คือสิ่งที่การกระจายตัวของผลรวมตัวอย่าง (และดังนั้นค่าเฉลี่ยตัวอย่าง) ของข้อมูลเอ็กซ์โปเนนเชียลดูเหมือนว่าเมื่อ n = 40:

ป้อนคำอธิบายรูปภาพที่นี่

เบ้เล็กน้อยมาก ความเบ้นี้ลดลงเมื่อรากที่สองของขนาดตัวอย่าง ดังนั้นที่ n = 160 มันครึ่งหนึ่งเอียง ที่ n = 640 เป็นหนึ่งในสี่ที่เอียง:

ป้อนคำอธิบายรูปภาพที่นี่

ว่านี่คือสมมาตรอย่างมีประสิทธิภาพสามารถมองเห็นได้โดยพลิกมันเกี่ยวกับค่าเฉลี่ยและพล็อตมันไปด้านบน:

ป้อนคำอธิบายรูปภาพที่นี่

สีน้ำเงินคือต้นฉบับสีแดงจะพลิก อย่างที่คุณเห็นมันเกือบจะเป็นเรื่องบังเอิญ

-

n=40

ป้อนคำอธิบายรูปภาพที่นี่

n=500

-

c) สิ่งที่สำคัญจริงๆคือการกระจายของสถิติทั้งหมดภายใต้ null ความธรรมดาของตัวเศษไม่เพียงพอที่จะทำให้สถิติมีค่าการแจกแจงแบบที อย่างไรก็ตามในกรณีเลขชี้กำลังข้อมูลนั่นก็ไม่ใช่ปัญหามากเช่นกัน:

ป้อนคำอธิบายรูปภาพที่นี่

n=40n=500n=500

อย่างไรก็ตามโปรดทราบว่าสำหรับข้อมูลชี้แจงจริงค่าเบี่ยงเบนมาตรฐานจะแตกต่างกันเฉพาะในกรณีที่ค่าเฉลี่ยแตกต่างกัน หากข้อสันนิษฐานแบบเอ็กซ์โปเนนเชียลนั้นเป็นจริงภายใต้ค่า Null คุณไม่จำเป็นต้องกังวลเกี่ยวกับความแปรปรวนของประชากรที่แตกต่างกัน ดังนั้นการทดสอบความแปรปรวนแบบเท่ากันควรยังคงไม่เป็นไร (ในกรณีนี้การประมาณที่ดีที่คุณเห็นในฮิสโตแกรมอาจดีกว่าเล็กน้อย)


2) การบันทึกอาจยังทำให้คุณเข้าใจได้

เข้าสู่ระบบλ1เข้าสู่ระบบλ2λ1λ2

[หากคุณทำการทดสอบนั้นในบันทึกฉันอยากจะแนะนำให้ทำการทดสอบความแปรปรวนเท่ากันในกรณีนั้น]

ดังนั้นด้วยการแทรกแซงเพียงแค่ประโยคหนึ่งหรือสองประโยคที่พิสูจน์ความเชื่อมโยงซึ่งคล้ายกับสิ่งที่ฉันมี - คุณควรจะสามารถเขียนบทสรุปของคุณไม่เกี่ยวกับบันทึกของตัวชี้วัดการมีส่วนร่วม แต่เกี่ยวกับตัวชี้วัดการมีส่วนร่วม


3) มีสิ่งอื่นอีกมากมายที่คุณสามารถทำได้!

a) คุณสามารถทำการทดสอบที่เหมาะสมกับข้อมูลชี้แจง มันง่ายที่จะได้รับอัตราส่วนการทดสอบตามความน่าจะเป็น ตามที่เกิดขึ้นสำหรับข้อมูลเอ็กซ์โปเนนเชียลคุณจะได้รับการทดสอบ F ตัวอย่างขนาดเล็ก (ตามอัตราส่วนของค่าเฉลี่ย) สำหรับสถานการณ์นี้ในกรณีที่เป็นหนึ่งเดียว โดยทั่วไปแล้วทั้งสองจะไม่ได้สัดส่วนเทลด์ LRT เท่ากันในแต่ละกลุ่มตัวอย่างขนาดเล็กสำหรับหาง (สิ่งนี้ควรมีพลังที่ดีกว่าการทดสอบ t-test แต่พลังของการทดสอบ t-t นั้นค่อนข้างสมเหตุสมผลและฉันคาดหวังว่าจะไม่แตกต่างกันมากในขนาดตัวอย่างของคุณ)

b) คุณสามารถทำการทดสอบการเรียงสับเปลี่ยน - แม้แต่ทดสอบบนการทดสอบ t หากคุณต้องการ ดังนั้นสิ่งเดียวที่เปลี่ยนแปลงคือการคำนวณค่า p หรือคุณอาจทำการทดสอบ resampling อื่น ๆ เช่นการทดสอบ bootstrap นี่ควรมีพลังที่ดีแม้ว่ามันจะขึ้นอยู่กับสถิติการทดสอบที่คุณเลือกเมื่อเทียบกับการกระจายตัวที่คุณมี

c) คุณสามารถทำการทดสอบแบบไม่มีพารามิเตอร์ตามอันดับ (เช่น Wilcoxon-Mann-Whitney) หากคุณสันนิษฐานว่าหากการแจกแจงแตกต่างกันพวกเขาจะแตกต่างกันโดยปัจจัยสเกล (เหมาะสำหรับการแจกแจงแบบเบ้หลากหลายรวมถึงเลขชี้กำลัง) คุณก็สามารถได้รับช่วงความมั่นใจสำหรับอัตราส่วนของพารามิเตอร์สเกลได้

[เพื่อจุดประสงค์นั้นฉันขอแนะนำให้ทำงานในระดับบันทึก (การเปลี่ยนตำแหน่งในบันทึกเป็นบันทึกการเปลี่ยนระดับ) มันจะไม่เปลี่ยนค่า p แต่จะช่วยให้คุณสามารถยกระดับการประมาณจุดและขีด จำกัด CI เพื่อให้ได้ช่วงเวลาสำหรับการเลื่อนระดับ]

สิ่งนี้ควรมีพลังที่ดีเช่นกันหากคุณอยู่ในสถานการณ์แบบเอ็กซ์โปเนนเชียล แต่ก็ไม่ดีเท่าการใช้การทดสอบ t


การอ้างอิงที่พิจารณาชุดของกรณีที่กว้างขึ้นอย่างมากสำหรับทางเลือกการเปลี่ยนตำแหน่ง (ทั้งความแปรปรวนและความหลากหลายของความเบ้ภายใต้ค่า null เป็นต้น) คือ

Fagerland, MW และ L. Sandvik (2009),
"ประสิทธิภาพของการทดสอบตำแหน่งสองตัวอย่างห้าครั้งสำหรับการแจกแจงแบบเบ้ด้วยความแปรปรวนที่ไม่เท่ากัน"
การทดลองทางคลินิกร่วมสมัย , 30 , 490–496

โดยทั่วไปมีแนวโน้มที่จะแนะนำ Welch U-test (หนึ่งในหลาย ๆ การทดสอบที่พิจารณาโดย Welch และเป็นเพียงการทดสอบเดียว) หากคุณไม่ได้ใช้สถิติ Welch เดียวกันทั้งหมดคำแนะนำอาจแตกต่างกันบ้าง (แต่อาจไม่มากนัก) [โปรดทราบว่าหากการแจกแจงของคุณเป็นเลขชี้กำลังคุณกำลังสนใจอีกทางเลือกหนึ่งยกเว้นว่าคุณใช้บันทึก ... ซึ่งในกรณีนี้คุณจะไม่มีความแปรปรวนไม่เท่ากัน]


4
คำตอบที่ดี! ฉันตกตะลึงจริงๆว่าคุณเก็บข้อมูลเท่าไหร่ในโพสต์เดียว
Christian Sauer

@Glen_b นี่เป็นคำตอบที่ยอดเยี่ยม! ขอบคุณมาก. อีกหนึ่งคำถาม: ตัวอย่างของฉันมาจากชุดข้อมูลเดียวกัน ฉันต้องการเปรียบเทียบตัวอย่างของผู้ใช้ที่มีคุณสมบัติ X และผู้ใช้ที่มีคุณสมบัติ Y ตัวอย่างสำหรับผู้ใช้ X อยู่ที่ ~ 500 และตัวอย่างสำหรับผู้ใช้ Y อยู่ที่ ~ 10,000 มีขนาดแตกต่างกันมาก แต่ดูเหมือนจะไม่มีความแตกต่างในรูปร่างของพวกเขา (ดูที่ความหนาแน่นและแปลงความน่าจะเป็น) จะเป็นปัญหาในการใช้การทดสอบ t หรือไม่?
Milena Araujo

เมื่อคุณพูดว่า "ขนาดแตกต่างกันมาก" คุณกำลังพูดถึงขนาดตัวอย่าง (10,000 vs 500) หรือในค่าทั่วไปภายในแต่ละกลุ่ม? (บังเอิญเป็นแบบต่อเนื่องหรือไม่ต่อเนื่องกันเหล่านี้มีค่าน้อยที่สุดสำหรับข้อมูลประเภทนี้หรือไม่บันทึกมีรูปร่างคล้ายกัน - หรือว่ามันเป็นแค่การเปลี่ยนสเกลที่เรากำลังพิจารณาอยู่)
Glen_b

1
คุณอาจจะดีกว่าด้วยตารางสำหรับข้อมูลเช่นนั้น ข้อมูลที่สำคัญคือมันไม่เพียง แต่ไม่ต่อเนื่อง แต่ค่าเกือบทั้งหมดอยู่ในจำนวนคำถามน้อยที่สุด หากคุณพล็อตฮิสโตแกรมให้พล็อตโดยไม่มีการโยกเยกและตรวจสอบให้แน่ใจว่าค่าต่ำทั้งหมดแยกจากกัน (แถบสำหรับแต่ละ 0, 1, 2 ไม่รวมกัน) มันเป็นการดีกว่าที่จะตัดขวาและกระจายออกไปทางซ้ายมากขึ้น (ซึ่งข้อมูลเกือบทั้งหมด) ตราบใดที่คุณทำให้ชัดเจนว่ามีทางด้านขวาถ้าคุณตัดออก รวมข้อมูลเกี่ยวกับสิ่งที่คุณวัดและสิ่งที่คุณพยายามบรรลุ ... (ctd)
Glen_b

1
@ScottH ส่วนที่ 1.c ของคำตอบของฉันพูดถึงเรื่องนี้อย่างชัดเจนและดูว่ามันมีความสำคัญมากแค่ไหนในกรณีที่มีการอภิปราย (ประมาณการแจกแจงเอ็กซ์โพเนนเชียลที่ขนาดตัวอย่างใกล้เคียงกัน)
Glen_b
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.