ชื่อกล่าวมันทั้งหมด ฉันเข้าใจว่ากำลังสองน้อยที่สุดและโอกาสสูงสุดจะให้ผลเหมือนกันสำหรับสัมประสิทธิ์การถดถอยหากข้อผิดพลาดของโมเดลกระจายตามปกติ แต่จะเกิดอะไรขึ้นหากข้อผิดพลาดไม่ได้รับการแจกจ่ายตามปกติ ทำไมทั้งสองวิธีจึงไม่เท่ากันอีกต่อไป?
ชื่อกล่าวมันทั้งหมด ฉันเข้าใจว่ากำลังสองน้อยที่สุดและโอกาสสูงสุดจะให้ผลเหมือนกันสำหรับสัมประสิทธิ์การถดถอยหากข้อผิดพลาดของโมเดลกระจายตามปกติ แต่จะเกิดอะไรขึ้นหากข้อผิดพลาดไม่ได้รับการแจกจ่ายตามปกติ ทำไมทั้งสองวิธีจึงไม่เท่ากันอีกต่อไป?
คำตอบ:
ความหนาแน่นของความน่าจะเป็นของตัวแปรกระจายแบบเกาส์หลายตัวแปรโดยมีค่าเฉลี่ยเกี่ยวข้องกับยุคลิด ระยะห่างระหว่างค่าเฉลี่ยและตัวแปร ( ) หรือกล่าวอีกอย่างคือผลรวมของกำลังสอง
หากคุณคูณการแจกแจงแบบเกาส์หลายครั้งสำหรับข้อผิดพลาดของคุณซึ่งคุณถือว่าส่วนเบี่ยงเบนเท่ากันคุณจะได้ผลบวกกำลังสอง
หรือในรูปแบบลอการิทึมที่สะดวก:
ดังนั้นการปรับให้เหมาะสมที่สุดเพื่อลดผลรวมของกำลังสองเท่ากับการเพิ่มความน่าจะเป็น (บันทึก) (เช่นผลิตภัณฑ์ของการแจกแจงแบบเกาส์หลายแบบหรือการกระจายแบบหลายตัวแปรแบบเกาส์)
นี่คือความแตกต่างของสี่เหลี่ยมจัตุรัสภายในโครงสร้างเลขชี้กำลัง, , ซึ่งการกระจายอื่นไม่มี
เปรียบเทียบกับกรณีสำหรับการแจกแจงปัวซอง
ซึ่งมีค่ามากที่สุดเมื่อลดสิ่งต่อไปนี้:
ซึ่งเป็นสัตว์ร้ายที่แตกต่างกัน
ประวัติความเป็นมาของการแจกแจงแบบปกติ (ไม่สนใจว่า deMoivre จะได้รับการแจกแจงแบบนี้เป็นการประมาณค่าสำหรับการแจกแจงทวินาม) เป็นการค้นพบการแจกแจงที่ทำให้ MLE สอดคล้องกับวิธีกำลังสองน้อยที่สุด (แทนที่จะเป็นวิธีกำลังสองน้อยที่สุด) ที่สามารถแสดง MLE ของการแจกแจงแบบปกติวิธีแรกคือวิธีกำลังสองน้อยที่สุดวิธีที่สองคือการกระจายแบบเกาส์)
โปรดทราบว่า Gauss เชื่อมต่อ 'วิธีการโอกาสสูงสุด' กับ 'วิธีการกำลังสองน้อย' มาพร้อมกับ 'การกระจายแบบเกาส์'เป็นการกระจายข้อผิดพลาดเพียงอย่างเดียวที่นำเราไปสู่ ทำการเชื่อมต่อระหว่างสองวิธีนี้
จากการแปลของชาร์ลส์เฮนรีเดวิส (ทฤษฎีการเคลื่อนที่ของวัตถุสวรรค์เคลื่อนไปรอบดวงอาทิตย์ในส่วนที่เป็นรูปกรวยคำแปลของ "Theoria motus" ของเกาส์ด้วยภาคผนวก) ...
เกาส์กำหนด:
ดังนั้นความน่าจะเป็นที่จะได้รับมอบหมายให้แต่ละข้อผิดพลาดจะแสดงออกโดยการทำงานของซึ่งเราจะใช้แสดงโดย\
(ตัวเอียงทำโดยฉัน)
และดำเนินการต่อ ( ในมาตรา 177 หน้า 258 ):
... ดังนั้นจึงสรุปได้ว่าต้องเป็นปริมาณคงที่ ซึ่งเราจะใช้แสดงโดยkดังนั้นเราจึงมีแสดงถึงฐานของลอการิทึมไฮเปอร์โบลิกโดยและสมมติว่า
สิ้นสุด (หลังจากการทำให้เป็นมาตรฐานและการทำให้ )
เขียนโดยStackExchangeStrike
เนื่องจาก MLE นั้นได้มาจากการสันนิษฐานของการกระจายที่เหลือตามปกติ
สังเกตได้ว่า
ยังไม่มีความหมายน่าจะเป็น : เพียงแค่หาที่ลดฟังก์ชั่นการสูญเสียกำลังสอง ทุกอย่างกำหนดขึ้นและไม่มีส่วนประกอบแบบสุ่มในนั้น
แนวคิดของความน่าจะเป็นและโอกาสที่จะเกิดขึ้นคืออะไร
ที่ซึ่งเราพิจารณาว่าเป็นตัวแปรสุ่มและถูกกระจายตามปกติϵ
สี่เหลี่ยมจัตุรัสที่น้อยที่สุดและความเป็นไปได้สูงสุด (Gaussian) จะเท่ากันเสมอ นั่นคือพวกมันถูกย่อเล็กสุดด้วยค่าสัมประสิทธิ์ชุดเดียวกัน
การเปลี่ยนข้อสมมติฐานเกี่ยวกับข้อผิดพลาดจะเปลี่ยนฟังก์ชั่นความน่าจะเป็นของคุณ (การเพิ่มความเป็นไปได้ของแบบจำลองให้มากที่สุดเท่ากับการเพิ่มความเป็นไปได้สูงสุดของคำผิดพลาด) และด้วยเหตุนี้ฟังก์ชันจะไม่ถูกย่อ
ดังนั้นในทางปฏิบัติทั้งสองจะเหมือนกัน แต่ในทางทฤษฎีเมื่อคุณเพิ่มโอกาสที่แตกต่างกันคุณจะได้คำตอบที่แตกต่างจากสแควร์สน้อยที่สุด
ตัวอย่างที่เป็นรูปธรรม: สมมติว่าเราใช้ฟังก์ชันข้อผิดพลาดอย่างง่าย p (1) =. 9, p (-9) = .10 ถ้าเราเอาสองจุดออกมา LS ก็แค่เอาเส้นผ่านมันไป ในทางกลับกัน ML จะถือว่าจุดทั้งสองเป็นหนึ่งหน่วยที่สูงเกินไปและจะนำเส้นผ่านจุดที่เลื่อนลงบนหน่วย