ทำไมไม่ใช้การแจกแจงแบบ T เพื่อประมาณค่าเฉลี่ยเมื่อกลุ่มตัวอย่างมีขนาดใหญ่


17

หลักสูตรสถิติพื้นฐานมักแนะนำให้ใช้การแจกแจงแบบปกติเพื่อประมาณค่าเฉลี่ยของพารามิเตอร์ประชากรเมื่อขนาดตัวอย่างnมีขนาดใหญ่ (โดยทั่วไปแล้วจะมากกว่า 30 หรือ 50) การแจกแจงแบบ T ของนักเรียนใช้สำหรับกลุ่มตัวอย่างขนาดเล็กลงเพื่ออธิบายความไม่แน่นอนในค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่าง เมื่อขนาดตัวอย่างมีขนาดใหญ่ค่าเบี่ยงเบนมาตรฐานตัวอย่างจะให้ข้อมูลที่ดีเกี่ยวกับค่าเบี่ยงเบนมาตรฐานประชากรทำให้สามารถประมาณการกระจายตัวแบบปกติได้ ฉันเข้าใจ.

แต่ทำไมต้องใช้การประมาณเมื่อคุณได้รับช่วงความมั่นใจอย่างแน่นอน ไม่ว่าขนาดของกลุ่มตัวอย่างจะเป็นอะไรจุดของการใช้การแจกแจงแบบปกติคือถ้าเป็นเพียงการประมาณบางอย่างที่คุณจะได้รับจากการแจกแจงแบบ T


@Glen_b ใช่ว่าจะเป็นตัวประมาณช่วงเวลา เกี่ยวกับช่วงเวลาเหล่านี้: "คุณต้องใช้ตาราง t-distribution เมื่อทำงานปัญหาเมื่อไม่ทราบค่าเบี่ยงเบนมาตรฐานประชากร (σ) และขนาดตัวอย่างเล็ก (n <30)" (จาก web.pdx.edu/~stipakb/ ดาวน์โหลด / PA551 / NormalVersusTdistribution.doc) เหตุใดผู้คนจึงไม่ใช้การแจกแจงแบบ T ตลอดเวลาเมื่อไม่ทราบค่าเบี่ยงเบนมาตรฐานประชากร (แม้ว่า n> 30)
Pertinax

คำตอบ:


15

เพียงเพื่อให้ความกระจ่างเกี่ยวกับชื่อเรื่องเราไม่ได้ใช้การแจกแจงแบบ t เพื่อประมาณค่าเฉลี่ย (ในแง่ของการประมาณจุดอย่างน้อย) แต่เพื่อสร้างช่วงเวลาสำหรับมัน

แต่ทำไมต้องใช้การประมาณเมื่อคุณได้รับช่วงความมั่นใจอย่างแน่นอน

มันเป็นคำถามที่ดี (ตราบใดที่เราไม่ได้รับการยืนยันเกินไปใน 'ว่า' เนื่องจากสมมติฐานเพื่อให้เป็นว่าเสื้อกระจายจะไม่ถือจริง)

"คุณต้องใช้ตารางการแจกแจง t เมื่อเกิดปัญหาในการทำงานเมื่อไม่ทราบค่าเบี่ยงเบนมาตรฐานประชากร (σ) และขนาดตัวอย่างเล็ก (n <30)"

เหตุใดผู้คนจึงไม่ใช้การแจกแจงแบบ T ตลอดเวลาเมื่อไม่ทราบค่าเบี่ยงเบนมาตรฐานประชากร (แม้ว่า n> 30)

ฉันถือว่าคำแนะนำเป็น - ที่ดีที่สุด - อาจทำให้เข้าใจผิด ในบางสถานการณ์ควรใช้การแจกแจงแบบ t เมื่อองศาอิสระมีขนาดใหญ่กว่านั้น

ในกรณีที่การประมาณการตามปกตินั้นสมเหตุสมผลขึ้นอยู่กับความหลากหลายของสิ่งต่าง ๆ (และขึ้นอยู่กับสถานการณ์) อย่างไรก็ตามเนื่องจาก (กับคอมพิวเตอร์) ไม่ใช่เรื่องยากเลยที่จะใช้tถึงแม้ว่า df มีขนาดใหญ่มากคุณต้องสงสัยว่าทำไมต้องกังวลเกี่ยวกับการทำสิ่งที่แตกต่างที่ n = 30

หากขนาดตัวอย่างมีขนาดใหญ่จริง ๆ มันจะไม่สร้างความแตกต่างที่เห็นได้ชัดเจนในช่วงความเชื่อมั่น แต่ฉันไม่คิดว่า n = 30 จะใกล้เคียงกับ 'ใหญ่จริงๆ' เสมอ


มีสถานการณ์หนึ่งที่อาจทำให้รู้สึกถึงการใช้งานปกติมากกว่าt - นั่นคือเมื่อข้อมูลของคุณไม่ชัดเจนตรงตามเงื่อนไขที่จะได้รับการแจกแจงแบบ t แต่คุณยังสามารถโต้แย้งสำหรับค่าเฉลี่ยปกติของค่าเฉลี่ย (ถ้าnค่อนข้างใหญ่) อย่างไรก็ตามในสถานการณ์เหล่านั้นบ่อยครั้งที่ t เป็นค่าประมาณที่ดีในทางปฏิบัติและอาจค่อนข้างปลอดภัยกว่า [ในสถานการณ์เช่นนั้นฉันอาจจะอยากสำรวจด้วยการจำลองสถานการณ์]


2
ฉันมีบางแห่งที่อ่านในเอกสารฉบับนี้ว่าเป็นสิ่งที่ดีเมื่อα = 5 % แต่ฉันไม่แน่ใจว่าเพียงพอ n=30α=5%
Stéphane Laurent

1
@ StéphaneLaurentสำหรับจุดประสงค์ส่วนใหญ่ควรปรับ 5% แต่การตัดสินนั้นขึ้นอยู่กับแต่ละบุคคลเป็นอย่างมาก มีสถานการณ์ - ฉันพบหนึ่งวันนี้เท่านั้น - ที่ระดับข้อผิดพลาดนั้นอาจเพียงพอที่จะสำคัญ
Glen_b -Reinstate Monica

2
@ StéphaneLaurentคุณอาจได้รับข้อมูลเชิงลึกที่ดีจาก Johnson, VE (2013) มาตรฐานฉบับปรับปรุงสำหรับหลักฐานทางสถิติ กิจการของ National Academy of Sciences , 110 (48): 19313–19317 นี้เหมาะกับบทความในการโพสต์ทำไมผลการวิจัยที่เผยแพร่เป็นเท็จวิจารณ์ของการวิจัย ( ลา Goes วิธีวิทยาศาสตร์ผิด )
อเล็กซิส

4
@ StéphaneLaurentบทความของคุณตอบคำถามของฉัน สำหรับการบันทึกการแปลคร่าว ๆ ของบทสรุป: "การใช้การแจกแจงแบบปกติเป็นการประมาณค่า t-distribution ของนักเรียนเป็นผลมาจากข้อ จำกัด ทางเทคโนโลยีของศตวรรษที่ 20 ข้อ จำกัด เหล่านี้ได้หายไปกับซอฟต์แวร์ทางสถิติที่ทันสมัยและไม่มีอีกต่อไป เหตุผลใด ๆ ที่จะใช้การประมาณที่ไม่อนุรักษ์นิยมเหล่านี้ "
Pertinax

2
@TheThunderChimp Caveat: หากทราบความแปรปรวนของประชากร (เช่นการประมาณสัดส่วนประชากร - ค่าเฉลี่ยของตัวแปร dichotomous) ดังนั้นมาตรฐานปกติ ( z ) และไม่ใช่การแจกแจงtที่เหมาะสม
Alexis

7

มันเป็นยุคสมัย มีหลายคนในสถิติ

หากคุณไม่มีคอมพิวเตอร์มันยากที่จะใช้การแจกแจงแบบ t และง่ายกว่าการใช้การแจกแจงแบบปกติ เมื่อขนาดตัวอย่างใหญ่ขึ้นการแจกแจงทั้งสองจะคล้ายกัน (ขนาดใหญ่ 'ใหญ่' คือคำถามอื่น)


1
ดูเหมือนจะเป็นคำตอบที่ค่อนข้างตื้นสำหรับคำถามที่ลึกกว่า
Alexis

2
ไม่แน่ใจคุณหมายถึงอะไร. คุณไม่คิดว่าเป็นเหตุผลเหรอ? (คำตอบที่ได้รับการโหวตมากที่สุดคือประเด็นเดียวกัน - แม้ว่าจะมีความละเอียดและประณีตมากกว่านี้)
Jeremy Miles

1
ฉัน downvoted เพราะคำตอบของคุณอ่านถึงฉันชอบ: เพราะประวัติศาสตร์ สรุปคำถามของคุณโดยย่อ
Alexis

2
ขอบคุณที่แจ้งให้เราทราบ - มันดีกว่า downvote นิรนามที่ฉันไม่รู้เหตุผล
Jeremy Miles

3
ในอดีตหนึ่ง "ใช้" การกระจายเหล่านี้โดยการค้นหาค่าในตาราง วิธีเดียวที่จะใช้การแจกแจงแบบปกติได้ง่ายกว่าคือการที่ไม่ต้องเลือกคอลัมน์ที่สอดคล้องกับองศาอิสระ นั่นเป็นความกังวลแทบจะไม่ สิ่งที่ได้ใช้วงเงินได้ว่าในบางจุดมันทำให้รู้สึกเล็ก ๆ น้อย ๆ เพื่อขยายตารางองศาขนาดใหญ่ของเสรีภาพ: หนังสือที่จะกลายเป็นมีขนาดใหญ่เกินไป
whuber

1

เพราะในทั้งสองกรณี (ใช้การแจกแจงแบบปกติหรือการแจกแจงแบบ t), ค่าการแจกแจงแบบสะสมจะได้รับเป็นตัวเลข (ไม่มีรูปแบบปิดสำหรับอินทิกรัลของ อี-x2หรืออินทิกรัลของความหนาแน่น t) ฟังก์ชั่นการแจกแจงสะสมของการแจกแจงแบบ t ที่มี n-degree of freedom มีแนวโน้มที่จะเป็น CDF ของมาตรฐานปกติเช่นn. หาก n มีขนาดใหญ่ข้อผิดพลาดตัวเลขในการประมาณอินทิกรัลจะน้อยกว่าข้อผิดพลาดที่ทำโดยการแทนที่ความหนาแน่น t ด้วยความหนาแน่นปกติ
กล่าวอีกนัยหนึ่ง t-value "ถูกต้อง" ไม่ใช่ "แน่นอน" และภายในข้อผิดพลาดการประมาณค่าจะเหมือนกันกับค่า CDF สำหรับมาตรฐานปกติ


1
ที่ขนาดทำข้อผิดพลาดในการประมาณตัวเลขทีเกินดุลกำไรจากการใช้มันได้หรือไม่
jona

2
แน่นอนคุณสามารถคำนวณค่า t เพื่อความแม่นยำโดยพลการและเพื่อให้พวกเขาสามารถแม่นยำเท่ากับปริมาณที่คุณกำลังเปรียบเทียบกับ
Neil G

"กล่าวอีกนัยหนึ่ง t-value" ถูกต้อง "ไม่ใช่" แน่นอน "และภายในข้อผิดพลาดการประมาณค่าจะเป็นค่าเดียวกันกับค่า CDF สำหรับมาตรฐานปกติ" ฉันไม่แน่ใจว่านี่เป็นกฎง่ายๆ
shadowtalker

2
คำตอบนี้พลาดจุด ตัวอย่างเช่นค่าของการแจกแจงแบบปกติสะสมและการแจกแจงแบบสะสมของนักเรียนที่-2 จะแยกไม่ออกในตัวเลขนัยสำคัญที่ 16 (นั่นคือประมาณความแม่นยำสองเท่า) เฉพาะเมื่อขนาดตัวอย่างเกิน 5.9325×1016. สิ่งนี้บ่งชี้ว่าข้อผิดพลาดที่เป็นตัวเลขไม่ได้เป็นปัญหาสำหรับปัญหาที่เกิดขึ้นจริง
whuber

1
Whuber คุณพูดถูก ฉันใช้ "ข้อผิดพลาดเชิงตัวเลข" ไม่ถูกต้อง ฉันหมายถึงข้อผิดพลาดทั้งหมดในการจัดการตัวเลข: การประมาณเชิงตัวเลขของอินทิกรัลข้อผิดพลาดเชิงตัวเลขสำหรับการทำงานกับความแม่นยำแน่นอนและข้อผิดพลาดเชิงตัวเลขเนื่องจากการตัดปลาย หากใครสามารถทำงานด้วยความแม่นยำที่ไม่มีที่สิ้นสุดจะไม่มีเหตุผลสำหรับการแทนที่การแจกแจงแบบปกติ
VictorZurkowski
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.