เหตุใดข้อสันนิษฐานเรื่อง Normality ในการถดถอยเชิงเส้น


15

คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?


5
เราไม่เลือกสมมติฐานปกติ มันเกิดขึ้นเป็นกรณีที่เมื่อข้อผิดพลาดเป็นเรื่องปกติสัมประสิทธิ์ของโมเดลนั้นเป็นไปตามการแจกแจงปกติและสามารถใช้การทดสอบ F ที่แน่นอนเพื่อทดสอบสมมติฐานเกี่ยวกับพวกเขา
AdamO

10
เพราะคณิตศาสตร์นั้นใช้งานง่ายพอที่ผู้คนสามารถใช้งานได้ก่อนคอมพิวเตอร์สมัยใหม่
Nat

1
@ Adamo ฉันไม่เข้าใจ คุณระบุเหตุผลว่าทำไมเราถึงเลือก
JiK

2
@JiK หากฉันสามารถเลือกการแจกแจงได้ก็ไม่จำเป็นต้องมีสถิติเลย โลกทั้งใบน่าจะเป็น
AdamO

1
@ Adamo คุณสามารถเลือกสมมติฐานสำหรับโมเดลของคุณเมื่อคุณทำการอนุมานเชิงสถิติดังนั้นฉันไม่คิดว่านั่นหมายความว่าไม่มีสถิติ
JiK

คำตอบ:


29

เราเลือกการแจกแจงข้อผิดพลาดอื่น ๆ ในหลายกรณีคุณสามารถทำได้ค่อนข้างง่าย หากคุณใช้การประมาณโอกาสสูงสุดสิ่งนี้จะเปลี่ยนฟังก์ชันการสูญเสีย แน่นอนในทางปฏิบัติ

Laplace (ข้อผิดพลาด exponential สองเท่า) สอดคล้องกับการถดถอยแบบเบี่ยงเบนสัมบูรณ์น้อยที่สุด / L1การถดถอย มีการใช้การถดถอยด้วย t-errors เป็นครั้งคราว (ในบางกรณีเนื่องจากมีความทนทานต่อข้อผิดพลาดรวมมากขึ้น) ถึงแม้ว่าพวกเขาจะมีข้อเสีย - ความน่าจะเป็น (และดังนั้นการสูญเสียเชิงลบ) อาจมีหลายโหมด

ข้อผิดพลาด Uniform สอดคล้องกับLการสูญเสีย (ลดค่าเบี่ยงเบนสูงสุด); การถดถอยเช่นนี้บางครั้งเรียกว่าการประมาณ Chebyshev (แต่ระวังเพราะมีสิ่งอื่นที่มีชื่อเดียวกันเป็นหลัก) บางครั้งก็ทำเช่นนี้ (จริงๆแล้วสำหรับการถดถอยอย่างง่ายและชุดข้อมูลขนาดเล็กที่มีข้อผิดพลาดล้อมรอบและการแพร่กระจายแบบคงที่มักจะง่ายพอที่จะค้นหาด้วยมือโดยตรงบนพล็อตแม้ว่าในทางปฏิบัติคุณสามารถใช้วิธีการเขียนโปรแกรมเชิงเส้น จริง ๆ แล้วปัญหาการถดถอยของLและL1นั้นเป็นสองทางซึ่งกันและกันซึ่งอาจนำไปสู่ทางลัดที่สะดวกในบางครั้งสำหรับปัญหาบางอย่าง)

ในความเป็นจริงต่อไปนี้เป็นตัวอย่างของรูปแบบ "ข้อผิดพลาดที่เหมือนกัน" ที่พอดีกับข้อมูลด้วยมือ:

L- อินฟินิตี้ถดถอยติดตั้งด้วยมือ  จุด "ต่ำสุด" สองจุดใต้แถบจุดข้อมูลจะถูกทำเครื่องหมายและจุดสองจุด "สูงที่สุด" เหนือแถบข้อมูลจะถูกทำเครื่องหมาย

ง่ายต่อการระบุ (โดยการเลื่อนเส้นตรงไปยังข้อมูล) ว่าจุดที่มีการทำเครื่องหมายสี่จุดนั้นเป็นเพียงตัวเลือกเดียวที่อยู่ในชุดที่ใช้งานอยู่ สามของพวกเขาจะฟอร์มชุดที่ใช้งานจริง (และการตรวจสอบเล็กน้อยในไม่ช้าระบุว่าสามนำไปสู่วงแคบที่ครอบคลุมข้อมูลทั้งหมด) เส้นที่กึ่งกลางของแถบนั้น (ทำเครื่องหมายด้วยสีแดง) จะเป็นค่าประมาณความน่าจะเป็นสูงสุดของเส้น

มีตัวเลือกรูปแบบอื่น ๆ ให้เลือกมากมายและมีการใช้งานในทางปฏิบัติค่อนข้างน้อย

โปรดทราบว่าหากคุณมีข้อผิดพลาดเพิ่มเติมที่เป็นอิสระและแพร่กระจายอย่างต่อเนื่องพร้อมกับความหนาแน่นของฟอร์ม kexp(c.g(ε)) , การเพิ่มความเป็นไปได้สูงสุดจะสอดคล้องกับการลดig(ei) , โดยที่eiคือiส่วนที่เหลือ

อย่างไรก็ตามมีหลายเหตุผลว่าอย่างน้อยกำลังสองเป็นตัวเลือกยอดนิยมซึ่งส่วนใหญ่ไม่ต้องการสมมติฐานใด ๆ


2
คำตอบที่ดี คุณจะช่วยเพิ่มลิงค์ที่ให้รายละเอียดเพิ่มเติมเกี่ยวกับการใช้รูปแบบเหล่านี้ในทางปฏิบัติหรือไม่?
rgk

(+1) คำตอบที่ดี คุณจะคิดร่วมกัน R-รหัสที่ใช้สำหรับการกระชับ -Regression สาย? L
COOLSerdash

1
ตามที่ฉันอธิบายไว้ในข้อความฉันได้ติดตั้งด้วยมือในแบบที่คล้ายกับวิธีที่ฉันอธิบาย ในขณะที่มันสามารถทำได้อย่างง่ายดายโดยใช้รหัส แต่ฉันเปิดพล็อตใน MS Paint และระบุจุดสามจุดในชุดที่ใช้งานอยู่ (รวมสองจุดที่ให้ความชัน) - จากนั้นย้ายเส้นครึ่งทางไปยังจุดที่สาม (โดยการลดระยะห่างในแนวดิ่งเป็นพิกเซลลงครึ่งหนึ่งและเลื่อนแถวขึ้นเป็นพิกเซลจำนวนมาก) - จุดที่แสดงให้เห็นถึงความเรียบง่ายของมัน เด็กสามารถสอนให้ทำ
Glen_b -Reinstate Monica

@Glen_b แน่นอนฉันเป็นวัยรุ่นเมื่อฉันถูกสอนให้ทำตรงนั้นในห้องทดลองฟิสิกส์น้องใหม่
ปีเตอร์เลียวโปลด์

9

มักใช้สมมติฐานปกติ / เสียนเนื่องจากเป็นทางเลือกที่สะดวกที่สุดในการคำนวณ การคำนวณความน่าจะเป็นสูงสุดของสัมประสิทธิ์การถดถอยเป็นปัญหาการลดกำลังสองซึ่งสามารถแก้ไขได้โดยใช้พีชคณิตเชิงเส้นบริสุทธิ์ ตัวเลือกอื่นของการกระจายสัญญาณรบกวนทำให้เกิดปัญหาการปรับให้เหมาะสมที่ซับซ้อนซึ่งโดยทั่วไปจะต้องแก้ไขเป็นตัวเลข โดยเฉพาะอย่างยิ่งปัญหาอาจไม่นูนทำให้เกิดภาวะแทรกซ้อนเพิ่มเติม

ความเป็นปกติไม่จำเป็นต้องเป็นสมมติฐานที่ดีโดยทั่วไป การกระจายตัวแบบปกติมีหางที่เบาบางมากและสิ่งนี้ทำให้การประเมินการถดถอยค่อนข้างอ่อนไหวต่อค่าผิดปกติ ทางเลือกอื่นเช่น Laplace หรือการแจกแจงของนักเรียนมักจะดีกว่าหากข้อมูลการวัดมีค่าผิดปกติ

ดูข้อมูลสถิติที่แข็งแกร่งของหนังสือของ Peter Huber สำหรับข้อมูลเพิ่มเติม


2

เมื่อทำงานกับสมมุติฐานเหล่านั้นการถดถอยตามกำลังสองและความน่าจะเป็นสูงสุดจะให้ทางออกเหมือนกัน นอกจากนี้คุณยังสามารถรับการทดสอบ F แบบง่าย ๆ สำหรับค่าสัมประสิทธิ์นัยสำคัญรวมถึงช่วงความมั่นใจสำหรับการทำนายของคุณ

สรุปแล้วเหตุผลที่เราเลือกกระจายแบบปกติก็คือคุณสมบัติซึ่งมักจะทำให้ง่ายขึ้น นอกจากนี้ยังไม่ได้เป็นข้อ จำกัด ที่เข้มงวดมากเนื่องจากข้อมูลประเภทอื่น ๆ จำนวนมากจะเป็น "แบบปกติ"

อย่างไรก็ตามดังที่กล่าวไว้ในคำตอบก่อนหน้ามีความเป็นไปได้ที่จะกำหนดตัวแบบการถดถอยสำหรับการแจกแจงแบบอื่น ปกติเพิ่งจะเกิดขึ้นอีกครั้งหนึ่ง


2

Glen_b ได้อธิบายอย่างที่ OLS ถดถอยสามารถทั่วไป (การเพิ่มโอกาสแทนของการลดผลรวมของสี่เหลี่ยม) และเราทำเลือกแจกแจงอื่น ๆ

แต่ทำไมการกระจายปกติเลือกเพื่อบ่อย ?

เหตุผลก็คือการกระจายตัวแบบปกติเกิดขึ้นในหลาย ๆ ที่ตามธรรมชาติ เหมือนกันกับที่เรามักจะเห็นอัตราส่วนทองคำหรือตัวเลขฟีโบนักชีที่เกิดขึ้นตามธรรมชาติในสถานที่ต่าง ๆ ในธรรมชาติ

การแจกแจงแบบปกติคือการกระจายแบบ จำกัด สำหรับผลรวมของตัวแปรที่มีความแปรปรวนแบบ จำกัด (หรือมีข้อ จำกัด ที่เข้มงวดน้อยกว่าเช่นกัน) และโดยไม่ จำกัด จำนวนมันเป็นการประมาณที่ดีสำหรับผลรวมของจำนวน จำกัด ของตัวแปร ดังนั้นเนื่องจากข้อผิดพลาดที่สังเกตได้หลายอย่างเกิดขึ้นเนื่องจากผลรวมของข้อผิดพลาดเล็ก ๆ น้อย ๆ ที่ไม่ได้สังเกตดังนั้นการแจกแจงแบบปกติจึงเป็นการประมาณที่ดี

ดูเพิ่มเติมที่นี่ความสำคัญของการแจกแจงแบบปกติ

ที่เครื่องผลิตถั่วของ Galton แสดงหลักการอย่างสังหรณ์ใจ

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png


-1

ทำไมเราไม่เลือกดิสทริบิวชันอื่น ๆ

yiRxiRnxi

y^i=wxi.

การสูญเสียที่น่าประหลาดใจมักเป็นการสูญเสียที่สมเหตุสมผลที่สุด:

L=logP(yixi).

คุณสามารถคิดถึงการถดถอยเชิงเส้นโดยใช้ความหนาแน่นปกติพร้อมความแปรปรวนคงที่ในสมการข้างต้น:

L=logP(yixi)(yiy^i)2.

สิ่งนี้นำไปสู่การปรับปรุงน้ำหนัก:

wL=(y^iyi)xi


โดยทั่วไปถ้าคุณใช้การแจกแจงแบบเลขชี้กำลังแบบอื่นแบบจำลองนี้เรียกว่าแบบจำลองเชิงเส้นแบบทั่วไป การกระจายที่แตกต่างกันนั้นสอดคล้องกับความหนาแน่นที่ต่างกัน แต่สามารถทำให้เป็นทางการได้ง่ายขึ้นโดยการเปลี่ยนการทำนายน้ำหนักและเป้าหมาย

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk

η :

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,
ซึ่งมีรูปแบบที่มีความสุขเช่นเดียวกับการถดถอยเชิงเส้น


เท่าที่ฉันรู้ gradient log-normalizer สามารถเป็นฟังก์ชั่น monotonic, analytic และ monotonic ใด ๆ ก็ได้ฟังก์ชัน analytic คือ gradient log-normalizer ของตระกูล exponential บางตัว


นี้เป็นอย่างมากในระยะสั้นและคลุมเครือเกินไปสำหรับมาตรฐานของเราโปรดอธิบายsurprisal
kjetil b halvorsen

1
"ฟังก์ชั่นลิงก์แต่ละอันสอดคล้องกับการกระจายตัวแบบต่างกัน" นี่มันคลุมเครือมาก ฟังก์ชั่นการเชื่อมโยงไม่ได้เกี่ยวข้องกับการสรุปให้เป็นข้อสันนิษฐานการกระจายตัวที่แตกต่างกัน แต่จะรวมถึงส่วน (เชิงเส้น) ที่อธิบายความหมายของการกระจาย
Sextus Empiricus

1
บทความที่เชื่อมโยงมีอยู่ในส่วน '3.1 การแจกแจงแบบปกติ'> "โดยทั่วไปดังที่แสดงใน Nelder (1968) เราสามารถพิจารณาแบบจำลองที่มีการแปลงเชิงเส้น และการปรับสภาพให้เป็นมาตรฐาน ก." ฉันไม่รู้ว่า gradient log-normalizer ของคุณหมายถึงอะไรและบางทีคุณกำลังพูดถึงการแปลง normalizing นี้ แต่นั่นไม่ใช่ฟังก์ชัน link ฟังก์ชัน link ใน GLM เกี่ยวข้องกับการแปลงแบบ linearizing
Sextus Empiricus

1
โดยทั่วไปฟังก์ชั่นการเชื่อมโยงบางอย่างจะใช้กับสมมติฐานการกระจายบางอย่าง แต่นี่ไม่ใช่ความจำเป็น ดังนั้นสมมติฐานการกระจายตัวของฉันจึงเป็นเรื่องปกติในตัวอย่างนั้นและไม่ใช่ปัวซอง (นั่นคือเจตนา) ตัวอย่างที่ดีกว่า (ในทางปฏิบัติและเป็นที่รู้จักกันดีกว่า) คือตัวแปรการกระจายแบบทวินาม / เบอร์นูอิลลีที่ผู้คนทำงานกับแบบจำลอง probit หรือแบบจำลอง logit ดังนั้นฟังก์ชันการเชื่อมโยงที่แตกต่างกัน
Sextus Empiricus

1
@Neil G: ฉันเป็นคนขี้เกียจเหรอ? คุณสามารถรวมประหลาดใจได้อย่างง่ายดายในโพสต์ต้นฉบับใช่หรือไม่ นอกจากนี้เมื่อฉันแสดงความคิดเห็นเช่นนี้เป็นมากกว่าสำหรับเว็บไซต์ตัวเอง เว็บไซต์นี้ควรจะอยู่ในตัวเอง ฉันสามารถเดาความหมาย (แม้ว่ามันจะเป็นคำศัพท์ที่ไม่เป็นมาตรฐานในสถิติ) อย่างที่คุณเห็นจากคำตอบของฉันนี่เอนโทรปี
kjetil b halvorsen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.