ทำไมเราควรใช้ข้อผิดพลาด t แทนข้อผิดพลาดปกติ?


30

ในบล็อกโพสต์นี้โดย Andrew Gelman มีข้อความต่อไปนี้:

แบบจำลองของ Bayesian เมื่อ 50 ปีที่แล้วดูเรียบง่ายอย่างสิ้นหวัง (ยกเว้นแน่นอนสำหรับปัญหาง่าย ๆ ) และฉันคาดหวังว่าแบบจำลองของ Bayesian ในวันนี้จะดูเรียบง่ายอย่างสิ้นหวัง 50 ปี (สำหรับตัวอย่างง่ายๆ: เราควรใช้ t แทนข้อผิดพลาดทั่วไปทุกที่ทุกเวลา แต่เรายังไม่ทำเช่นนี้เพราะความคุ้นเคยนิสัยและความสะดวกสบายทางคณิตศาสตร์สิ่งเหล่านี้อาจเป็นเหตุผลที่ดี ในการเมืองอนุรักษ์นิยมมีข้อโต้แย้งที่ดีหลายประการ - แต่ฉันคิดว่าท้ายที่สุดเมื่อเราคุ้นเคยกับแบบจำลองที่ซับซ้อนกว่านี้เราจะไปในทิศทางนั้น)

ทำไมเราควร "ใช้ t เป็นประจำแทนที่จะเป็นข้อผิดพลาดทั่วไปทุกที่"

คำตอบ:


40

เพราะการสมมติว่าข้อผิดพลาดปกตินั้นมีประสิทธิภาพเหมือนกับสมมติว่าข้อผิดพลาดขนาดใหญ่ไม่ได้เกิดขึ้น! การแจกแจงแบบปกติมีหางที่เบาความคลาดเคลื่อนนอกส่วนเบี่ยงเบนมาตรฐานมีโอกาสน้อยมากข้อผิดพลาดนอกส่วนเบี่ยงเบนมาตรฐานนั้นเป็นไปไม่ได้ ในทางปฏิบัติสมมติฐานนั้นไม่ค่อยเป็นจริง เมื่อทำการวิเคราะห์ชุดข้อมูลขนาดเล็กที่เป็นระเบียบจากการทดลองที่ออกแบบมาอย่างดีสิ่งนี้อาจไม่สำคัญหากเราทำการวิเคราะห์สารตกค้างที่ดี ด้วยข้อมูลที่มีคุณภาพน้อยลงมันอาจมีความสำคัญมากกว่านั้น±3±6

เมื่อใช้วิธีการที่น่าจะเป็นไปตามวิธี (หรือแบบเบย์) ผลของภาวะปกตินี้ (ดังที่ได้กล่าวไว้ข้างต้นอย่างมีประสิทธิภาพนี่คือ "ไม่มีข้อผิดพลาดใหญ่" - ข้อสันนิษฐาน!) คือการอนุมานที่แข็งแกร่งน้อยมาก ผลของการวิเคราะห์นั้นได้รับอิทธิพลอย่างมากจากความผิดพลาดครั้งใหญ่! สิ่งนี้จะต้องเป็นเช่นนั้นเนื่องจากการสันนิษฐานว่า "ไม่มีข้อผิดพลาดขนาดใหญ่" บังคับให้วิธีการของเราในการตีความข้อผิดพลาดขนาดใหญ่เป็นข้อผิดพลาดเล็กน้อยและสามารถเกิดขึ้นได้โดยการย้ายพารามิเตอร์ค่าเฉลี่ยเพื่อทำให้ข้อผิดพลาดทั้งหมดเล็กลง วิธีหนึ่งในการหลีกเลี่ยงสิ่งนั่นคือการใช้สิ่งที่เรียกว่า "วิธีการที่มีประสิทธิภาพ" ดูที่ http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

แต่แอนดรูเจลแมนจะไม่ทำสิ่งนี้เนื่องจากวิธีการที่แข็งแกร่งมักจะถูกนำเสนอในลักษณะที่ไม่ใช้เบย์สูง การใช้ข้อผิดพลาดเสื้อกระจายในรูปแบบความน่าจะเป็น / คชกรรมเป็นวิธีที่แตกต่างกันเพื่อให้ได้วิธีการที่มีประสิทธิภาพในขณะที่ -distribution มีหางหนักกว่าปกติดังนั้นเพื่อช่วยให้สัดส่วนขนาดใหญ่ของข้อผิดพลาดที่มีขนาดใหญ่ จำนวนองศาของพารามิเตอร์เสรีภาพที่ควรได้รับการแก้ไขล่วงหน้าไม่ได้ประเมินจากข้อมูลตั้งแต่การประมาณค่าดังกล่าวจะทำลายคุณสมบัติความทนทานของวิธีการ (*) (มันยังเป็นปัญหาที่ยากมากฟังก์ชั่นความน่าจะเป็นสำหรับที่ จำนวนองศาอิสระสามารถถูก จำกัด ได้ซึ่งนำไปสู่เครื่องมือประมาณค่าที่ไม่มีประสิทธิภาพ (ไม่สอดคล้องกัน)เสื้อν

ตัวอย่างเช่นหากคุณคิดว่า (กลัว) ที่มากถึง 1 ในสิบข้อสังเกตอาจเป็น "ข้อผิดพลาดใหญ่" (สูงกว่า 3 sd) จากนั้นคุณสามารถใช้ -distribution กับ 2 องศาอิสระเพิ่มจำนวนนั้นถ้า สัดส่วนของความผิดพลาดใหญ่เชื่อว่ามีขนาดเล็กลงเสื้อ

ฉันควรทราบว่าสิ่งที่ฉันได้กล่าวไว้ข้างต้นสำหรับรุ่นที่มีอิสระ -distributed ข้อผิดพลาด นอกจากนี้ยังมีข้อเสนอของหลายตัวแปร -distribution (ซึ่งไม่เป็นอิสระ) เป็นการกระจายข้อผิดพลาด propsal ที่ถูกวิพากษ์วิจารณ์อย่างหนักในกระดาษ "เสื้อผ้าใหม่จักรพรรดิ: วิจารณ์ของหลายตัวแปรแบบการถดถอย" โดย TS Breusch, JC โรเบิร์ตและ AH เวลส์ใน Statistica Neerlandica (1997) ฉบับ 51, nr 3, PP. 269-286 ที่พวกเขาแสดงให้เห็นว่าหลายตัวแปรกระจายความผิดพลาดคือสังเกตุความแตกต่างจากปกติ แต่การวิจารณ์ที่ไม่ได้ส่งผลกระทบต่อความเป็นอิสระรุ่น เสื้อเสื้อเสื้อเสื้อเสื้อ

(*) ข้อมูลอ้างอิงหนึ่งฉบับระบุว่านี่คือ MASS ของ Venables & Ripley --- สถิติประยุกต์สมัยใหม่พร้อม S (หน้า 110 ในรุ่นที่ 4)


3
คำตอบที่ดี (+1) หมายเหตุว่าแม้ในขณะแก้ไขสมการประเมินจะมีการกำหนดป่วยถ้าดังนั้นผมจึงใช้เวลาในการหมายความว่า Gelman หมายความว่ากับการกระจายพารามิเตอร์จับจ้องไปที่ 2 ดังที่แสดงในคำตอบสำหรับคำถามที่เกี่ยวข้องนี้สถานที่นี้ค่อนข้างมีข้อ จำกัด ที่แข็งแกร่งต่อความแข็งแกร่งที่สามารถคาดหวังได้จากวิธีการนี้ νν2เสื้อνν>2
user603

2
คำตอบที่ดีและแสดงความคิดเห็น แต่: 1. Gelman กำลังปกป้องขั้นตอนมาตรฐานที่จะดีกว่าสมมติว่าข้อผิดพลาดปกติ ดังนั้นเราควรเปรียบเทียบข้อผิดพลาดธรรมดา (ธรรมดา) กับการแจกแจง T สำหรับข้อผิดพลาด 2. ในคำถามที่เกี่ยวข้องซึ่งลิงก์โดยผู้ใช้ 603 เราควรทราบว่าหาก qe มีข้อมูลก่อนหน้าเราควรใช้มัน Bayes เก่งด้วยข้อมูลก่อน และใน exmaple เรามีข้อมูลก่อนหน้านี้ที่ไม่ได้ใช้ 3. ด้วยการตรวจสอบการคาดการณ์หลังเราd know that the model proposed isnดีพอ
Manoel Galdino

1
@Neil G: ใช่ แต่ cauchy คือ ! การระบุที่แน่นอนว่าการแจกแจงแบบหนาเพื่อการใช้หลักสูตรนั้นต้องการการวิเคราะห์มากขึ้น เสื้อ1
kjetil b halvorsen

1
ไม่การแจกแจงแบบ t เป็นเพียงทางเลือกเดียวเนื่องจากการแจกแจงแบบ t เป็นแบบพยากรณ์หลังของแบบจำลองเกาส์เซียน Gelman ไม่เพียงแค่เลือกการแจกแจงแบบกระจาย
Neil G

1
ดู: Murphy, Kevin P. "การวิเคราะห์การผันแบบเบส์ของการแจกแจงแบบเกาส์" def 1.2σ2 (2007): 16. เขาได้รับการแจกแจงแบบทีเป็นแบบทำนายล่วงหน้าของแบบจำลองเกาส์เซียน มันไม่ได้เป็นเพียงแค่กรณีของผู้สร้างแบบจำลองที่เลือกการแจกแจงแบบหนาโดยพลการ
Neil G

10

มันไม่ได้เป็นเพียงเรื่องของ "หางที่หนักกว่า" - มีการกระจายมากมายที่มีรูปร่างเป็นระฆังและมีหางที่หนัก

การแจกแจงแบบ T เป็นแบบทำนายล่วงหน้าของโมเดลเกาส์เซียน หากคุณตั้งสมมติฐานเกาส์เซียน แต่มีหลักฐานที่ จำกัด ดังนั้นรูปแบบที่เกิดขึ้นนั้นจำเป็นต้องทำการพยากรณ์แบบกระจายที ในขีด จำกัด เนื่องจากจำนวนหลักฐานที่คุณมีต่ออินฟินิตี้คุณจะจบลงด้วยการทำนายแบบเกาส์เนื่องจากขีด จำกัด ของการแจกแจงแบบ t คือเกาส์เซียน

ทำไมสิ่งนี้ถึงเกิดขึ้น เนื่องจากมีหลักฐานจำนวน จำกัด จึงมีความไม่แน่นอนในพารามิเตอร์ของแบบจำลองของคุณ ในกรณีของแบบจำลองเกาส์เซียนความไม่แน่นอนในค่าเฉลี่ยจะเพิ่มความแปรปรวนเพียงอย่างเดียว (กล่าวคือการทำนายแบบหลังของแบบเกาส์ที่มีความแปรปรวนที่รู้จักกันยังคงเป็นแบบเกาส์) แต่ความไม่แน่นอนเกี่ยวกับความแปรปรวนเป็นสิ่งที่ทำให้เกิดหางที่หนัก หากแบบจำลองได้รับการฝึกอบรมโดยมีหลักฐานไม่ จำกัด จะไม่มีความไม่แน่นอนในความแปรปรวน (หรือค่าเฉลี่ย) อีกต่อไปและคุณสามารถใช้แบบจำลองของคุณเพื่อทำนายแบบเกาส์ได้

อาร์กิวเมนต์นี้ใช้กับโมเดล Gaussian นอกจากนี้ยังใช้กับพารามิเตอร์ที่อนุมานได้ว่ามีความเป็นไปได้ของ Gaussian รับข้อมูล จำกัด ความไม่แน่นอนเกี่ยวกับพารามิเตอร์คือ t- กระจาย เมื่อใดก็ตามที่มีสมมติฐานปกติ (ด้วยค่าเฉลี่ยและความแปรปรวนที่ไม่รู้จัก) และข้อมูล จำกัด จะมีการทำนายหลัง t- กระจาย

มีการแจกแจงการทำนายหลังที่คล้ายกันสำหรับโมเดลเบย์ทั้งหมด Gelman แนะนำว่าเราควรใช้สิ่งเหล่านั้น ความกังวลของเขาจะบรรเทาลงด้วยหลักฐานที่เพียงพอ


คุณสามารถสำรองข้อมูลนี้ด้วยการอ้างอิงบางส่วนได้หรือไม่?
kjetil b halvorsen

2
@kjetilbhalvorsen: Murphy, Kevin P. "การวิเคราะห์การผันแบบเบส์ของการแจกแจงแบบเกาส์" def 1.2σ2 (2007): 16.
Neil G

มุมมองที่น่าสนใจฉันไม่เคยได้ยินเรื่องนี้มาก่อน ดังนั้นข้อผิดพลาดแบบกระจายจึงนำไปสู่การทำนายแบบกระจาย สำหรับฉันนี่เป็นข้อโต้แย้งที่สนับสนุนการใช้ข้อผิดพลาดแบบเกาส์ต่อไป ถ้าคุณคาดหวังที่มีเงื่อนไขค่าผิดปกติในรูปแบบข้อผิดพลาดที่มีเงื่อนไขไม่จำเป็นเพื่อให้พวกเขา จำนวนนี้เป็นข้อสันนิษฐานที่ว่าค่าที่อยู่ห่างไกลทั้งหมดมาจากค่าที่อยู่ภายนอกของตัวทำนาย ฉันไม่คิดว่าการสันนิษฐานนั้นแย่มากในหลายกรณี และบนพื้นฐานของสุนทรียศาสตร์ล้วนๆฉันไม่เห็นว่าทำไมการแจกแจงแบบมีเงื่อนไขและส่วนเกินต้องตรงกัน
shadowtalker

@ssdecontrol "ข้อผิดพลาดแบบกระจายยังนำไปสู่การทำนายแบบกระจายแบบกระจายหรือไม่" ฉันไม่รู้ แต่ฉันก็ไม่คิดอย่างนั้น สำหรับฉันมุมมองนี้มีประโยชน์มากสำหรับความเข้าใจที่เข้าใจได้ง่ายว่าทำไมการทดสอบ t จึงใช้งานได้
Neil G
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.