เหตุใดวิธีการกำลังสองน้อยที่สุดและความน่าจะเป็นสูงสุดของการถดถอยจึงไม่เท่ากันเมื่อข้อผิดพลาดไม่กระจายตามปกติ


10

ชื่อกล่าวมันทั้งหมด ฉันเข้าใจว่ากำลังสองน้อยที่สุดและโอกาสสูงสุดจะให้ผลเหมือนกันสำหรับสัมประสิทธิ์การถดถอยหากข้อผิดพลาดของโมเดลกระจายตามปกติ แต่จะเกิดอะไรขึ้นหากข้อผิดพลาดไม่ได้รับการแจกจ่ายตามปกติ ทำไมทั้งสองวิธีจึงไม่เท่ากันอีกต่อไป?


คุณหมายถึง (a) ใช้ MLE หรือไม่เมื่อข้อสันนิษฐานเกี่ยวกับภาวะปกติหรือไม่หรือ (b) ใช้ฟังก์ชันความเป็นไปได้ที่ไม่ใช่แบบเกาส์เซียน?
ทิม

(a) เมื่อไม่พบข้อสันนิษฐานเกี่ยวกับภาวะปกติ
Shuklaswag

แม้ว่าเมื่อสมมติฐานไม่เป็นไปตาม (เช่นค่าที่สังเกตได้จะไม่กระจายแบบเกาส์เซียน) ... ถ้าคุณคำนวณ MLE ด้วยการใช้ฟังก์ชันความเป็นไปได้แบบเกาส์นั้น วิธีการหาค่าเหมาะที่สุดนั้นมีความเท่าเทียมกันทางคณิตศาสตร์และไม่ขึ้นกับว่าสมมติฐานของภาวะปกตินั้นถูกต้องหรือไม่
Sextus Empiricus

แม้จะมีการแจกแจงแบบปกติสี่เหลี่ยมจัตุรัสที่น้อยที่สุดก็ยังคงความแปรปรวน
CodesInChaos

ดูเพิ่มเติมที่เกี่ยวข้องกับคำถามนี้: stats.stackexchange.com/questions/173621/…
kjetil b halvorsen

คำตอบ:


16

คำตอบสั้น ๆ

ความหนาแน่นของความน่าจะเป็นของตัวแปรกระจายแบบเกาส์หลายตัวแปรโดยมีค่าเฉลี่ยเกี่ยวข้องกับยุคลิด ระยะห่างระหว่างค่าเฉลี่ยและตัวแปร ( ) หรือกล่าวอีกอย่างคือผลรวมของกำลังสองx=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


คำตอบยาว ๆ

หากคุณคูณการแจกแจงแบบเกาส์หลายครั้งสำหรับข้อผิดพลาดของคุณซึ่งคุณถือว่าส่วนเบี่ยงเบนเท่ากันคุณจะได้ผลบวกกำลังสองn

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

หรือในรูปแบบลอการิทึมที่สะดวก:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

ดังนั้นการปรับให้เหมาะสมที่สุดเพื่อลดผลรวมของกำลังสองเท่ากับการเพิ่มความน่าจะเป็น (บันทึก) (เช่นผลิตภัณฑ์ของการแจกแจงแบบเกาส์หลายแบบหรือการกระจายแบบหลายตัวแปรแบบเกาส์)μ

นี่คือความแตกต่างของสี่เหลี่ยมจัตุรัสภายในโครงสร้างเลขชี้กำลัง, , ซึ่งการกระจายอื่นไม่มี(μx)exp[(xiμ)2]


เปรียบเทียบกับกรณีสำหรับการแจกแจงปัวซอง

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

ซึ่งมีค่ามากที่สุดเมื่อลดสิ่งต่อไปนี้:

μjlog(μj)xij

ซึ่งเป็นสัตว์ร้ายที่แตกต่างกัน


นอกจากนี้ (ประวัติ)

ประวัติความเป็นมาของการแจกแจงแบบปกติ (ไม่สนใจว่า deMoivre จะได้รับการแจกแจงแบบนี้เป็นการประมาณค่าสำหรับการแจกแจงทวินาม) เป็นการค้นพบการแจกแจงที่ทำให้ MLE สอดคล้องกับวิธีกำลังสองน้อยที่สุด (แทนที่จะเป็นวิธีกำลังสองน้อยที่สุด) ที่สามารถแสดง MLE ของการแจกแจงแบบปกติวิธีแรกคือวิธีกำลังสองน้อยที่สุดวิธีที่สองคือการกระจายแบบเกาส์)

โปรดทราบว่า Gauss เชื่อมต่อ 'วิธีการโอกาสสูงสุด' กับ 'วิธีการกำลังสองน้อย' มาพร้อมกับ 'การกระจายแบบเกาส์'เป็นการกระจายข้อผิดพลาดเพียงอย่างเดียวที่นำเราไปสู่ ทำการเชื่อมต่อระหว่างสองวิธีนี้ex2

จากการแปลของชาร์ลส์เฮนรีเดวิส (ทฤษฎีการเคลื่อนที่ของวัตถุสวรรค์เคลื่อนไปรอบดวงอาทิตย์ในส่วนที่เป็นรูปกรวยคำแปลของ "Theoria motus" ของเกาส์ด้วยภาคผนวก) ...

เกาส์กำหนด:

ดังนั้นความน่าจะเป็นที่จะได้รับมอบหมายให้แต่ละข้อผิดพลาดจะแสดงออกโดยการทำงานของซึ่งเราจะใช้แสดงโดย\ΔΔψΔ

(ตัวเอียงทำโดยฉัน)

และดำเนินการต่อ ( ในมาตรา 177 หน้า 258 ):

... ดังนั้นจึงสรุปได้ว่าต้องเป็นปริมาณคงที่ ซึ่งเราจะใช้แสดงโดยkดังนั้นเราจึงมีแสดงถึงฐานของลอการิทึมไฮเปอร์โบลิกโดยและสมมติว่าψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

สิ้นสุด (หลังจากการทำให้เป็นมาตรฐานและการทำให้ )k<0

ψΔ=hπehhΔΔ


เขียนโดยStackExchangeStrike


คุณจำความรู้นี้ได้จากที่ใด คุณต้องการเพิ่มแหล่งที่มาในโพสต์ของคุณหรือไม่ (ฉันมีเวลายากที่จะหาหนังสือเรียนที่อธิบายเรื่องนี้ได้ดี)
Joooeey

@Jooeey ฉันได้เพิ่มชื่อของแหล่งข้อมูลสำหรับคำพูดที่แปลแล้วของ Gauss รวมถึงลิงก์ไปยังแหล่งข้อมูลออนไลน์หนึ่งในหลายแหล่ง ข้อความต้นฉบับนี้หนัก แต่คุณควรพบกับสนธิสัญญาเบา ๆ ในรายละเอียดของประวัติของการแจกแจงแบบปกติ
Sextus Empiricus

ฟังก์ชั่นโอกาสเกิดขึ้นในหลาย ๆ ที่ หากคุณมองหาแหล่งที่ฉันได้รับ 'ความรู้' นี้ฉันเดาว่าฉันสามารถพูดบทความ 1900 ของเพียร์สันเกี่ยวกับการทดสอบไคสแควร์ซึ่งการแจกแจงปกติหลายตัวแปรได้รับการรักษาทางเรขาคณิต ฟิชเชอร์ยังใช้การแทนเชิงเรขาคณิตหลายครั้ง (มีตัวอย่างหนึ่งบทความนี้ในยุค 20 เกี่ยวกับประสิทธิภาพของการประมาณค่าที่ซึ่งเขาเปรียบเทียบข้อผิดพลาดกำลังสองเฉลี่ยและค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์และที่ที่เขาพูดถึงพื้นผิวในอวกาศ)
Sextus Empiricus

@Joooeey ฉันได้มีการอ้างอิงถึงบทความที่ฟิชเชอร์ก่อนที่นี่ และคำตอบของฉันที่นี่ใช้มุมมองทางเรขาคณิตเพื่อรับคุณสมบัติของการแจกแจงแบบ t เกี่ยวข้องกับฟิชเชอร์เช่นกัน (ฉันเชื่อว่าบทความที่เขาพิสูจน์การแจกแจงแบบ T ของ Gosset หรืออาจเป็นบทความในภายหลังเล็กน้อย)
Sextus Empiricus

5

เนื่องจาก MLE นั้นได้มาจากการสันนิษฐานของการกระจายที่เหลือตามปกติ

สังเกตได้ว่า

minβ  Xβy2

ยังไม่มีความหมายน่าจะเป็น : เพียงแค่หาที่ลดฟังก์ชั่นการสูญเสียกำลังสอง ทุกอย่างกำหนดขึ้นและไม่มีส่วนประกอบแบบสุ่มในนั้นβ

แนวคิดของความน่าจะเป็นและโอกาสที่จะเกิดขึ้นคืออะไร

y=Xβ+ϵ

ที่ซึ่งเราพิจารณาว่าเป็นตัวแปรสุ่มและถูกกระจายตามปกติϵyϵ


@ Matthew Drury ทำไมต้องเปลี่ยนสัญกรณ์เมทริกซ์และเพิ่มเครื่องหมายผลรวม?
Haitao Du

ฉันคิดว่ามันจะชัดเจน แต่ถ้าคุณอ้างว่าคำสั่งไม่มีความหมายเชิงสมมาตรคุณไม่สามารถใช้การแสดงออกด้วยสัญลักษณ์ที่ตีความได้ดีที่สุดเป็นตัวแปรสุ่ม ปัญหาการเพิ่มประสิทธิภาพที่คุณกำลังอ้างถึงนั้นเกี่ยวข้องกับข้อมูลคงที่ฉันได้ระบุไว้อย่างชัดเจนแล้ว
Matthew Drury

5

สี่เหลี่ยมจัตุรัสที่น้อยที่สุดและความเป็นไปได้สูงสุด (Gaussian) จะเท่ากันเสมอ นั่นคือพวกมันถูกย่อเล็กสุดด้วยค่าสัมประสิทธิ์ชุดเดียวกัน

การเปลี่ยนข้อสมมติฐานเกี่ยวกับข้อผิดพลาดจะเปลี่ยนฟังก์ชั่นความน่าจะเป็นของคุณ (การเพิ่มความเป็นไปได้ของแบบจำลองให้มากที่สุดเท่ากับการเพิ่มความเป็นไปได้สูงสุดของคำผิดพลาด) และด้วยเหตุนี้ฟังก์ชันจะไม่ถูกย่อ

ดังนั้นในทางปฏิบัติทั้งสองจะเหมือนกัน แต่ในทางทฤษฎีเมื่อคุณเพิ่มโอกาสที่แตกต่างกันคุณจะได้คำตอบที่แตกต่างจากสแควร์สน้อยที่สุด


"หรือเทียบเท่าเสมอ"
nbro

0

ตัวอย่างที่เป็นรูปธรรม: สมมติว่าเราใช้ฟังก์ชันข้อผิดพลาดอย่างง่าย p (1) =. 9, p (-9) = .10 ถ้าเราเอาสองจุดออกมา LS ก็แค่เอาเส้นผ่านมันไป ในทางกลับกัน ML จะถือว่าจุดทั้งสองเป็นหนึ่งหน่วยที่สูงเกินไปและจะนำเส้นผ่านจุดที่เลื่อนลงบนหน่วย


2
ตัวอย่างของคุณไม่ชัดเจน โดยเฉพาะอย่างยิ่งเป็นการยากที่จะดูว่าคุณกำลังพยายามอธิบายโมเดลใดหรือเหตุใด ML จึงให้ผลลัพธ์ที่คุณอ้างสิทธิ์ คุณช่วยอธิบายเพิ่มเติมในคำตอบนี้ได้ไหม?
whuber

โมเดลคือข้อผิดพลาด y = mx + b + โดยที่ข้อผิดพลาดมีโอกาส 90% ที่จะ +1 และ 10% โอกาสเป็น -9 เมื่อพิจารณาถึงจุดใด ๆ จุดที่แท้จริงจะมีโอกาส 90% ที่จะเป็นหนึ่งหน่วยด้านล่างและโอกาส 10% ที่จะเป็นหน่วยที่เก้าข้างต้น ดังนั้น ML ให้จุดที่แท้จริงคือหนึ่งหน่วยด้านล่าง คุณไม่เข้าใจเกี่ยวกับสิ่งนี้
สะสม

2
ความคิดเห็นของคุณมีประโยชน์ แต่คำตอบของคุณยังไม่ได้อธิบายแบบจำลองที่ชัดเจนหรือเข้าใจได้ คุณสามารถรวมคำอธิบายนั้นไว้ในคำตอบได้หรือไม่? มันเป็นตัวอย่างที่ดี
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.