คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?
คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?
คำตอบ:
เราเลือกการแจกแจงข้อผิดพลาดอื่น ๆ ในหลายกรณีคุณสามารถทำได้ค่อนข้างง่าย หากคุณใช้การประมาณโอกาสสูงสุดสิ่งนี้จะเปลี่ยนฟังก์ชันการสูญเสีย แน่นอนในทางปฏิบัติ
Laplace (ข้อผิดพลาด exponential สองเท่า) สอดคล้องกับการถดถอยแบบเบี่ยงเบนสัมบูรณ์น้อยที่สุด / การถดถอย มีการใช้การถดถอยด้วย t-errors เป็นครั้งคราว (ในบางกรณีเนื่องจากมีความทนทานต่อข้อผิดพลาดรวมมากขึ้น) ถึงแม้ว่าพวกเขาจะมีข้อเสีย - ความน่าจะเป็น (และดังนั้นการสูญเสียเชิงลบ) อาจมีหลายโหมด
ข้อผิดพลาด Uniform สอดคล้องกับการสูญเสีย (ลดค่าเบี่ยงเบนสูงสุด); การถดถอยเช่นนี้บางครั้งเรียกว่าการประมาณ Chebyshev (แต่ระวังเพราะมีสิ่งอื่นที่มีชื่อเดียวกันเป็นหลัก) บางครั้งก็ทำเช่นนี้ (จริงๆแล้วสำหรับการถดถอยอย่างง่ายและชุดข้อมูลขนาดเล็กที่มีข้อผิดพลาดล้อมรอบและการแพร่กระจายแบบคงที่มักจะง่ายพอที่จะค้นหาด้วยมือโดยตรงบนพล็อตแม้ว่าในทางปฏิบัติคุณสามารถใช้วิธีการเขียนโปรแกรมเชิงเส้น จริง ๆ แล้วปัญหาการถดถอยของและนั้นเป็นสองทางซึ่งกันและกันซึ่งอาจนำไปสู่ทางลัดที่สะดวกในบางครั้งสำหรับปัญหาบางอย่าง)
ในความเป็นจริงต่อไปนี้เป็นตัวอย่างของรูปแบบ "ข้อผิดพลาดที่เหมือนกัน" ที่พอดีกับข้อมูลด้วยมือ:
ง่ายต่อการระบุ (โดยการเลื่อนเส้นตรงไปยังข้อมูล) ว่าจุดที่มีการทำเครื่องหมายสี่จุดนั้นเป็นเพียงตัวเลือกเดียวที่อยู่ในชุดที่ใช้งานอยู่ สามของพวกเขาจะฟอร์มชุดที่ใช้งานจริง (และการตรวจสอบเล็กน้อยในไม่ช้าระบุว่าสามนำไปสู่วงแคบที่ครอบคลุมข้อมูลทั้งหมด) เส้นที่กึ่งกลางของแถบนั้น (ทำเครื่องหมายด้วยสีแดง) จะเป็นค่าประมาณความน่าจะเป็นสูงสุดของเส้น
มีตัวเลือกรูปแบบอื่น ๆ ให้เลือกมากมายและมีการใช้งานในทางปฏิบัติค่อนข้างน้อย
โปรดทราบว่าหากคุณมีข้อผิดพลาดเพิ่มเติมที่เป็นอิสระและแพร่กระจายอย่างต่อเนื่องพร้อมกับความหนาแน่นของฟอร์ม , การเพิ่มความเป็นไปได้สูงสุดจะสอดคล้องกับการลด , โดยที่คือส่วนที่เหลือ
อย่างไรก็ตามมีหลายเหตุผลว่าอย่างน้อยกำลังสองเป็นตัวเลือกยอดนิยมซึ่งส่วนใหญ่ไม่ต้องการสมมติฐานใด ๆ
มักใช้สมมติฐานปกติ / เสียนเนื่องจากเป็นทางเลือกที่สะดวกที่สุดในการคำนวณ การคำนวณความน่าจะเป็นสูงสุดของสัมประสิทธิ์การถดถอยเป็นปัญหาการลดกำลังสองซึ่งสามารถแก้ไขได้โดยใช้พีชคณิตเชิงเส้นบริสุทธิ์ ตัวเลือกอื่นของการกระจายสัญญาณรบกวนทำให้เกิดปัญหาการปรับให้เหมาะสมที่ซับซ้อนซึ่งโดยทั่วไปจะต้องแก้ไขเป็นตัวเลข โดยเฉพาะอย่างยิ่งปัญหาอาจไม่นูนทำให้เกิดภาวะแทรกซ้อนเพิ่มเติม
ความเป็นปกติไม่จำเป็นต้องเป็นสมมติฐานที่ดีโดยทั่วไป การกระจายตัวแบบปกติมีหางที่เบาบางมากและสิ่งนี้ทำให้การประเมินการถดถอยค่อนข้างอ่อนไหวต่อค่าผิดปกติ ทางเลือกอื่นเช่น Laplace หรือการแจกแจงของนักเรียนมักจะดีกว่าหากข้อมูลการวัดมีค่าผิดปกติ
ดูข้อมูลสถิติที่แข็งแกร่งของหนังสือของ Peter Huber สำหรับข้อมูลเพิ่มเติม
เมื่อทำงานกับสมมุติฐานเหล่านั้นการถดถอยตามกำลังสองและความน่าจะเป็นสูงสุดจะให้ทางออกเหมือนกัน นอกจากนี้คุณยังสามารถรับการทดสอบ F แบบง่าย ๆ สำหรับค่าสัมประสิทธิ์นัยสำคัญรวมถึงช่วงความมั่นใจสำหรับการทำนายของคุณ
สรุปแล้วเหตุผลที่เราเลือกกระจายแบบปกติก็คือคุณสมบัติซึ่งมักจะทำให้ง่ายขึ้น นอกจากนี้ยังไม่ได้เป็นข้อ จำกัด ที่เข้มงวดมากเนื่องจากข้อมูลประเภทอื่น ๆ จำนวนมากจะเป็น "แบบปกติ"
อย่างไรก็ตามดังที่กล่าวไว้ในคำตอบก่อนหน้ามีความเป็นไปได้ที่จะกำหนดตัวแบบการถดถอยสำหรับการแจกแจงแบบอื่น ปกติเพิ่งจะเกิดขึ้นอีกครั้งหนึ่ง
Glen_b ได้อธิบายอย่างที่ OLS ถดถอยสามารถทั่วไป (การเพิ่มโอกาสแทนของการลดผลรวมของสี่เหลี่ยม) และเราทำเลือกแจกแจงอื่น ๆ
แต่ทำไมการกระจายปกติเลือกเพื่อบ่อย ?
เหตุผลก็คือการกระจายตัวแบบปกติเกิดขึ้นในหลาย ๆ ที่ตามธรรมชาติ เหมือนกันกับที่เรามักจะเห็นอัตราส่วนทองคำหรือตัวเลขฟีโบนักชีที่เกิดขึ้นตามธรรมชาติในสถานที่ต่าง ๆ ในธรรมชาติ
การแจกแจงแบบปกติคือการกระจายแบบ จำกัด สำหรับผลรวมของตัวแปรที่มีความแปรปรวนแบบ จำกัด (หรือมีข้อ จำกัด ที่เข้มงวดน้อยกว่าเช่นกัน) และโดยไม่ จำกัด จำนวนมันเป็นการประมาณที่ดีสำหรับผลรวมของจำนวน จำกัด ของตัวแปร ดังนั้นเนื่องจากข้อผิดพลาดที่สังเกตได้หลายอย่างเกิดขึ้นเนื่องจากผลรวมของข้อผิดพลาดเล็ก ๆ น้อย ๆ ที่ไม่ได้สังเกตดังนั้นการแจกแจงแบบปกติจึงเป็นการประมาณที่ดี
ดูเพิ่มเติมที่นี่ความสำคัญของการแจกแจงแบบปกติ
ที่เครื่องผลิตถั่วของ Galton แสดงหลักการอย่างสังหรณ์ใจ
ทำไมเราไม่เลือกดิสทริบิวชันอื่น ๆ
การสูญเสียที่น่าประหลาดใจมักเป็นการสูญเสียที่สมเหตุสมผลที่สุด:
คุณสามารถคิดถึงการถดถอยเชิงเส้นโดยใช้ความหนาแน่นปกติพร้อมความแปรปรวนคงที่ในสมการข้างต้น:
สิ่งนี้นำไปสู่การปรับปรุงน้ำหนัก:
โดยทั่วไปถ้าคุณใช้การแจกแจงแบบเลขชี้กำลังแบบอื่นแบบจำลองนี้เรียกว่าแบบจำลองเชิงเส้นแบบทั่วไป การกระจายที่แตกต่างกันนั้นสอดคล้องกับความหนาแน่นที่ต่างกัน แต่สามารถทำให้เป็นทางการได้ง่ายขึ้นโดยการเปลี่ยนการทำนายน้ำหนักและเป้าหมาย
:
เท่าที่ฉันรู้ gradient log-normalizer สามารถเป็นฟังก์ชั่น monotonic, analytic และ monotonic ใด ๆ ก็ได้ฟังก์ชัน analytic คือ gradient log-normalizer ของตระกูล exponential บางตัว