การถดถอยเชิงเส้นอย่างง่ายสามารถทำได้โดยไม่ต้องใช้แปลงและพีชคณิตเชิงเส้น


47

ฉันตาบอดอย่างสมบูรณ์และมาจากพื้นหลังการเขียนโปรแกรม

สิ่งที่ฉันพยายามทำคือการเรียนรู้การเรียนรู้ของเครื่องและเมื่อต้องการทำสิ่งนี้ฉันต้องเรียนรู้เกี่ยวกับการถดถอยเชิงเส้นก่อน คำอธิบายทั้งหมดบนอินเทอร์เน็ตที่ฉันกำลังค้นหาเกี่ยวกับเรื่องนี้พล็อตข้อมูลก่อน ฉันกำลังมองหาคำอธิบายที่ใช้งานได้จริงของการถดถอยเชิงเส้นที่ไม่ได้ขึ้นอยู่กับกราฟและแปลง

นี่คือความเข้าใจของฉันเกี่ยวกับเป้าหมายของการถดถอยเชิงเส้นอย่างง่าย:

การถดถอยเชิงเส้นอย่างง่ายกำลังพยายามค้นหาสูตรที่เมื่อคุณให้Xแล้วจะให้การประมาณที่ใกล้เคียงที่สุดแก่Yคุณ

ดังนั้นที่ฉันเข้าใจมันสิ่งที่ต้องทำคือการเปรียบเทียบตัวทำนาย (ตัวอย่างเช่นพื้นที่ของบ้านในตารางฟุต) กับตัวแปรอิสระ (ราคา) ในตัวอย่างของฉันคุณอาจสร้างวิธีที่ไม่ได้มองเห็นเพื่อให้ได้สูตรที่ดีที่สุดในการคำนวณราคาของบ้านจากพื้นที่ ตัวอย่างเช่นคุณอาจได้รับพื้นที่และราคา 1,000 หลังในละแวกนั้นและแบ่งราคาออกเป็นพื้นที่ใช่ไหม ผลลัพธ์ (อย่างน้อยในอิหร่านที่ฉันอาศัยอยู่) จะมีความแปรปรวนเล็กน้อยมาก ดังนั้นคุณอาจได้รับสิ่งนี้:

Price = 2333 Rials * Area of the house

แน่นอนว่าคุณจะต้องผ่านบ้านทั้งหมด 1,000 หลังในชุดข้อมูลของคุณวางพื้นที่ในสูตรข้างต้นเปรียบเทียบราคากับราคาจริงจัดตารางผลลัพธ์ (ฉันเดาว่าจะป้องกันไม่ให้ผลต่างกันยกเลิก) จากนั้นรับตัวเลขแล้วเล่นต่อ2333ไปเรื่อยๆ ด้วยเครื่องหมายเพื่อลดข้อผิดพลาด

แน่นอนว่านี่คือตัวเลือกกำลังดุร้ายซึ่งอาจใช้เวลานานในการคำนวณข้อผิดพลาดและมาถึงตัวเลือกที่ดีที่สุด แต่คุณเห็นสิ่งที่ฉันกำลังพูด ฉันไม่ได้พูดอะไรเกี่ยวกับกราฟเส้นหรือจุดหรือพล็อตหรือวิธีที่ดีที่สุดในการปรับเส้นให้พอดีกับข้อมูลที่คุณมีอยู่

แล้วทำไมคุณต้องใช้พล็อตกระจายและพีชคณิตเชิงเส้นสำหรับสิ่งนี้ ไม่มีวิธีที่ไม่ใช่ภาพหรือ?

ก่อนอื่นฉันคิดถูกหรือไม่? ถ้าไม่ฉันชอบที่จะได้รับการแก้ไข แม้ว่าฉันจะเป็นหรือไม่มีสูตรวิธีใดที่จะไม่เล่นกับพีชคณิตเชิงเส้นหรือไม่?

ฉันจะซาบซึ้งจริง ๆ ถ้าฉันได้รับตัวอย่างพร้อมคำอธิบายเพื่อที่ฉันจะได้ทำพร้อมกับข้อความเพื่อทดสอบความเข้าใจของฉัน


2
แต่คุณมีจินตนาการพิเศษที่สามารถควบคุมการมองเห็นได้หรือไม่? ถ้าใช่ฉันคิดว่า scatterplot สามารถถูกจินตนาการได้บ้าง ฉันสงสัยว่าสาระสำคัญของการถดถอยสามารถบันทึกได้ด้วยการคิดเชิงประพจน์ (เช่นคำพูด) เพียงอย่างเดียว
ttnphns

3
พื้นหลังคณิตศาสตร์ของคุณคืออะไร? หน้า Wikipedia เรียกว่าSimple Linear Regressionเป็นข้อความส่วนใหญ่และมีสิ่งที่ฉันคิดว่าเป็นคำอธิบายที่ชัดเจนพอสมควรในย่อหน้าแรก บทความนั้นเปรียบเทียบกับระดับของรายละเอียดที่คุณต้องการอย่างไร
shadowtalker

3
ฉันจะคิดต่อไปดูว่าฉันจะขึ้นมาได้หรือไม่ แต่คิดว่าการถดถอยเป็นการแก้สมการที่ไม่มีทางออก จุดข้อมูลทั้งหมดของคุณจะถูกทำนายอย่างไม่ถูกต้องโดย regressor ของคุณ (พื้นที่ของบ้าน) คุณกำลังมองหาสมการที่ทำให้เกิดข้อผิดพลาดได้มากที่สุด
Antoni Parellada

8
คำถามที่ยอดเยี่ยมเราต้องคิดเพิ่มเติมเกี่ยวกับการอธิบายแนวคิดของเรากับคนพิการ
อักกรา

4
คุณไม่จำเป็นต้องใช้พล็อต ที่จริงแล้วสำหรับการถดถอยเชิงเส้นหลายครั้ง (การถดถอยด้วยตัวทำนายหลายตัว) คุณไม่สามารถพล็อตพื้นที่ได้ อย่างไรก็ตามพีชคณิตเชิงเส้นยังคงใช้ได้ สูตรพีชคณิตเชิงเส้นทั้งหมดที่เกี่ยวข้องในการถดถอยเชิงเส้นสามารถลดลงเป็นการดำเนินการกับจำนวนสเกลาร์อย่างง่าย คุณไม่อยากทำแบบนั้นถ้าคุณให้ความสำคัญกับความมีสติ p+1
คาดคะเน

คำตอบ:


17

βEββ

βEβββ

β

แก้ไข: นี่คือลิงค์ไปยังบันทึกย่อที่มีแหล่งที่มาประเภทนี้ คณิตศาสตร์นั้นยุ่งเล็กน้อย แต่ที่สำคัญมันเป็นปัญหาแคลคูลัส


พระเจ้าช่วย. ที่สุด! ไม่ใช่วิธีเชิงเส้นพีชคณิตในการคำนวณนี้ แนวคิดที่คุณกำลังพูดถึงในคำตอบของคุณอยู่เหนือหัวของฉัน แต่ฉันจะดูเป็นอนุพันธ์ในความพยายามที่จะเข้าใจแนวความคิดนี้ดีขึ้น
Parham Doustdar

1
E(β)βE

4
β

2
สำหรับการถดถอยกำลังสองน้อยที่สุดคุณไม่จำเป็นต้องทำเกรเดียนต์ของการไล่ระดับสีเนื่องจากคุณสามารถแก้สมการซึ่งเป็นคำตอบได้ แต่นี่เป็นวิธีที่ดีในการทำความเข้าใจว่าการเรียนรู้ด้วยเครื่องเป็นอย่างไร มันจะลดลงเพื่อเลือกวิธีการวัดความผิดพลาดจากนั้นหาวิธีที่จะลดสมการข้อผิดพลาดให้น้อยที่สุด ผลลัพธ์คือสมการการประมาณที่ดีที่สุดที่เรียนผ่านข้อมูล ฉันหวังว่าจะช่วยคุณในเส้นทางสู่การเรียนรู้ของเครื่อง!
Chris Rackauckas

10

ความเข้าใจของคุณอยู่ใกล้ แต่ความต้องการบางส่วนขยาย: ง่ายการถดถอยเชิงเส้นพยายามหาสูตรว่าเมื่อคุณได้ให้Xมันจะช่วยให้คุณมีการประมาณค่าใกล้เคียงที่สุดของY อยู่บนพื้นฐานของความสัมพันธ์เชิงเส้นตรงระหว่าง และX Y

ตัวอย่างราคาบ้านของคุณเมื่อขยายออกไปเล็กน้อยแสดงให้เห็นว่าทำไมคุณถึงมีแผนการกระจายและสิ่งที่คล้ายคลึง ก่อนอื่นเพียงแบ่งราคาตามพื้นที่ใช้ไม่ได้ในกรณีอื่น ๆ เช่นราคาที่ดินในเมืองบ้านเกิดของฉันซึ่งกฎระเบียบเกี่ยวกับการก่อสร้างหมายความว่าเพียงแค่มีกรรมสิทธิ์ที่ดินซึ่งคุณสามารถสร้างบ้านได้ก็มีมูลค่าสูง ดังนั้นราคาที่ดินจึงไม่ได้เป็นสัดส่วนกับพื้นที่ การเพิ่มขึ้นของพื้นที่พัสดุแต่ละครั้งอาจเพิ่มมูลค่าพัสดุเท่ากันแต่ถ้าคุณลงไปที่หีบห่อที่เป็นตำนานของ 0 พื้นที่ก็จะยังคงมีราคาที่เกี่ยวข้องซึ่งแสดงถึงมูลค่าของการเป็นเจ้าของที่ดิน ที่ได้รับอนุมัติให้สร้าง

นั่นยังคงเป็นความสัมพันธ์เชิงเส้นตรงระหว่างพื้นที่และค่า แต่มีจุดตัดในความสัมพันธ์ซึ่งแสดงถึงมูลค่าของการเป็นเจ้าของพัสดุ สิ่งที่ทำให้สิ่งนี้อย่างไรก็ตามความสัมพันธ์เชิงเส้นคือการเปลี่ยนแปลงมูลค่าต่อหน่วยการเปลี่ยนแปลงในพื้นที่ความชันหรือสัมประสิทธิ์การถดถอยมักจะเหมือนกันเสมอโดยไม่คำนึงถึงขนาดของพื้นที่หรือค่า

ดังนั้นบอกว่าคุณรู้อยู่แล้วว่าทั้งการสกัดกั้นและความชันที่เกี่ยวข้องกับพื้นที่พัสดุกับค่าและคุณเปรียบเทียบค่าจากความสัมพันธ์เชิงเส้นนั้นกับค่าจริงที่แสดงโดยยอดขายล่าสุด คุณจะพบว่าค่าที่คาดการณ์และเกิดขึ้นจริงมักจะไม่ตรงกัน ความคลาดเคลื่อนเหล่านี้แสดงถึงข้อผิดพลาดในแบบจำลองของคุณและส่งผลให้เกิดการกระจายของค่ารอบความสัมพันธ์ที่คาดการณ์ไว้ คุณจะได้พล็อตกระจายของจุดที่กระจัดกระจายรอบ ๆ ความสัมพันธ์เส้นตรงที่คาดการณ์ไว้ระหว่างพื้นที่และค่า

ในตัวอย่างที่ใช้งานได้จริงส่วนใหญ่คุณยังไม่รู้การสกัดกั้นและความชันดังนั้นคุณต้องลองประเมินจากข้อมูล นั่นคือสิ่งที่การถดถอยเชิงเส้นพยายามทำ

คุณอาจคิดถึงการถดถอยเชิงเส้นและการสร้างแบบจำลองที่เกี่ยวข้องได้ดีขึ้นจากมุมมองของการประมาณค่าความน่าจะเป็นสูงสุดซึ่งเป็นการค้นหาค่าพารามิเตอร์เฉพาะในแบบจำลองของคุณที่ทำให้ข้อมูลมีความเป็นไปได้มากที่สุด มันคล้ายกับวิธีการ "กำลังดุร้าย" ที่คุณเสนอในคำถามของคุณ แต่ด้วยวิธีการที่แตกต่างกันบ้างสำหรับสิ่งที่คุณพยายามปรับให้เหมาะสม ด้วยวิธีการคำนวณที่ทันสมัยและการออกแบบที่ชาญฉลาดของรูปแบบการค้นหาสามารถทำได้อย่างรวดเร็ว

การประมาณค่าความน่าจะเป็นสูงสุดสามารถกำหนดแนวคิดในรูปแบบที่ไม่ต้องการพล็อตกราฟิกและคล้ายกับที่คุณคิดอยู่แล้ว ในกรณีของการถดถอยเชิงเส้นทั้งการถดถอยอย่างน้อยกำลังสองมาตรฐานและโอกาสสูงสุดให้การประมาณค่าตัดขวางและความชันเท่ากัน

การคิดในแง่ของความน่าจะเป็นสูงสุดนั้นมีข้อได้เปรียบเพิ่มเติมว่ามันจะขยายไปสู่สถานการณ์อื่นที่ดีกว่าซึ่งไม่มีความสัมพันธ์เชิงเส้นอย่างเคร่งครัด ตัวอย่างที่ดีคือการถดถอยโลจิสติกซึ่งคุณพยายามประเมินความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นตามตัวแปรตัวทำนาย ที่สามารถทำได้โดยโอกาสสูงสุด แต่แตกต่างจากการถดถอยเชิงเส้นมาตรฐานไม่มีสมการง่าย ๆ ที่ก่อให้เกิดการสกัดกั้นและความลาดชันในการถดถอยโลจิสติก


1
x2

@fcop คุณถูกต้อง ฉันเริ่มจากตัวอย่างที่มีให้โดย OP ซึ่งเป็นสัดส่วนระหว่างค่าและพื้นที่ ฉันมักจะคิดเกี่ยวกับค่าที่แปลงของตัวแปรทำนายดั้งเดิมเป็นตัวแปรอิสระที่แท้จริงในการถดถอยเมื่อมีการใช้การแปลงเช่นพลังงานหรือบันทึก ฉันคิดว่าท้ายที่สุดแล้วในทางปฏิบัติส่วนใหญ่จะเป็นความแตกต่างในคำศัพท์แม้ว่าจะมีความแตกต่างในตัวแบบข้อผิดพลาดโดยนัย
EdM

ฉันเห็นประเด็นของคุณอย่างไรก็ตามมันเป็นคำตอบที่ดี (+1)

6

ก่อนอื่นคำชมของฉัน มันยากสำหรับทุกคนที่จะต่อสู้กับสถิติ (ฉันเป็นหมอดังนั้นคุณสามารถเดาได้ว่ามันยากสำหรับฉัน) ...

ฉันสามารถเสนอไม่ได้เป็นคำอธิบายภาพเพื่อการถดถอยเชิงเส้นแต่สิ่งที่ใกล้มากกคำอธิบายสัมผัสการถดถอยเชิงเส้น

ลองนึกภาพคุณกำลังเข้าห้องจากประตู ห้องพักมีรูปร่างมากกว่าหรือน้อยกว่าและประตูอยู่ที่มุมซ้ายล่าง คุณต้องการที่จะไปที่ห้องถัดไปซึ่งมีประตูที่คุณคาดว่าจะอยู่ที่มุมบนขวาไม่มากก็น้อย ลองนึกภาพว่าคุณไม่สามารถบอกได้อย่างชัดเจนว่าประตูถัดไปอยู่ที่ไหน (แต่เคย!) แต่มีบางคนกระจัดกระจายอยู่ในห้องและพวกเขาสามารถบอกคุณได้ว่าจะต้องไปทางไหน พวกเขาไม่เห็นเช่นกัน แต่พวกเขาสามารถบอกคุณได้ว่ามีอะไรอยู่ใกล้พวกเขา เส้นทางสุดท้ายที่คุณจะไปถึงประตูถัดไปซึ่งนำทางโดยคนนี้นั้นคล้ายกับเส้นถดถอยซึ่งลดระยะห่างระหว่างคนเหล่านี้และพาคุณไปที่ประตูใกล้กับ (ถ้าไม่ได้อยู่) เส้นทางที่ถูกต้อง


1
(+1) ฉันชอบตัวอย่างของคุณเป็นอย่างมากและเป็นเรื่องตลกที่โดยบังเอิญเราใช้ภาพประกอบที่คล้ายคลึงกันมากสำหรับปัญหานี้!
ทิม

"ห้องมีรูปร่างค่อนข้างมากหรือน้อย" - สำหรับคนตาบอดคืออะไร ด้วยประโยคนี้คุณจะพาเรากลับไปที่จุดเริ่มต้น
Aksakal

4
ฉันไม่เห็นด้วย ปล่อยให้พวกเขาเดิน 10 ฟุตในทิศทางเดียวจากนั้นให้พวกเขาหมุน 90 ° (เช่น armspan) และปล่อยให้พวกเขาเดินอีก 10 ฟุต นี่เป็นสี่เหลี่ยมจัตุรัสถ้าคุณมองไม่เห็นอย่างถูกต้อง
Joe_74

@ GiuseppeBiondi-Zoccai ถ้าฉันสร้างแบบจำลองของความกดดันในห้องที่อุณหภูมิทำไมฉันต้องนำสี่เหลี่ยมและเส้นและแนวความคิดเชิงพื้นที่อื่น ๆ ขึ้นมา? แน่นอนว่าสะดวกถ้าคุณไม่ตาบอด แต่สำหรับคนตาบอดการเปรียบเทียบเชิงพื้นที่เหล่านี้ไม่ได้นำอะไรมาที่โต๊ะสำหรับปัญหาที่เกิดขึ้นพวกเขาเพียงแค่สร้างความยุ่งยากให้กับงานนิทรรศการ
อักษะกัล

2
อีกครั้งฉันไม่เห็นด้วยอย่างสุภาพ ... ข้อสันนิษฐานของฉันคือคนตาบอดได้พัฒนาทักษะเชิงพื้นที่โดยเฉพาะอย่างยิ่ง อย่างไรก็ตามตัวอย่างที่ใช้งานได้ดีและยิ่ง merrier มากขึ้น
Joe_74

3

YX

Y=β0+β1X+ε

β0yx

Xตัวแปรคือพื้นที่ของบ้านแบ่งออกเป็นสามกลุ่ม: "เล็ก", "กลาง" และ "ใหญ่" บ้าน (พวกเขาอธิบายวิธีการตัดสินใจอย่างเหมาะสมที่สุด แต่นี่เป็นสิ่งที่มีความสำคัญน้อยกว่า) จากนั้นคำนวณขนาดเฉลี่ยของบ้าน "เล็ก" และขนาดเฉลี่ยของบ้าน "ใหญ่" คำนวณราคาเฉลี่ยของบ้าน "เล็ก" และหนึ่ง "ใหญ่" ตอนนี้ลดข้อมูลของคุณเป็นสองจุด - ศูนย์กลางของกลุ่มเมฆของดาต้าพอยน์สำหรับบ้านขนาดเล็กและใหญ่กระจายอยู่ในพื้นที่และลบดาต้าพอยน์ทั้งหมดเกี่ยวกับบ้าน "กลาง" คุณเหลือสองจุดในพื้นที่สองมิติ เส้นถดถอยคือเส้นที่เชื่อมจุดต่าง ๆ - คุณสามารถคิดว่ามันเป็นทิศทางจากจุดหนึ่งไปยังอีกจุดหนึ่ง β1

สิ่งเดียวกันนี้เกิดขึ้นเมื่อเรามีคะแนนมากขึ้นกระจัดกระจายไปทั่วพื้นที่: เส้นถดถอยพบทางของเธอโดยลดระยะห่างของสแควร์ให้เหลือน้อยที่สุดทุกจุด ดังนั้นเส้นจะผ่านจุดศูนย์กลางของคลาวด์ของจุดที่กระจัดกระจายอยู่ในอวกาศ แทนที่จะเชื่อมต่อสองจุดคุณสามารถคิดว่ามันเป็นการเชื่อมต่อจุดกลางดังกล่าวไม่ จำกัด จำนวน


Gelman, A. , & Park, DK (2012) แบ่งตัวทำนายผลในไตรมาสที่สามหรือสามและไตรมาสหรือสาม นักสถิติชาวอเมริกัน, 62 (4), 1-8


3

คำตอบสั้น ๆ คือใช่ เส้นใดดีที่สุดผ่านจุดกลางของทุกจุดที่ประกอบไปด้วยทั้งหมดหรือเพียงแค่พื้นผิวของเครื่องบินหรือหอก วาดมัน; ในหัวของคุณหรือบนภาพ คุณกำลังมองหาและที่บรรทัดโดดเดี่ยวซึ่งทุกจุด (ที่น่าสนใจไม่ว่าคุณจะพล็อตพวกเขาหรือไม่) ที่จะมีส่วนร่วมในการเบี่ยงเบนรวมน้อยที่สุด (ในหมู่คะแนน) จากบรรทัดนั้น หากคุณทำด้วยตาเปล่าโดยนัยโดยสามัญสำนึกคุณจะประมาณ (ดีอย่างน่าทึ่ง) ผลการคำนวณทางคณิตศาสตร์ สำหรับการที่มีสูตรที่รบกวนสายตาและอาจไม่เข้าท่า ในปัญหาเชิงวิศวกรรมและวิทยาศาสตร์ที่คล้ายกันกรงขังที่ยังเชิญชวนประเมินเบื้องต้นด้วยตา แต่ในสิ่งที่เราควรจะเกิดขึ้นโดยสิ้นเชิงกับ "ทดสอบ" ความน่าจะเป็นที่เป็นเส้น มันลงจากที่นั่น อย่างไรก็ตาม เห็นได้ชัดว่าคุณพยายามที่จะสอนเครื่องจักรให้มีขนาดมากขึ้น (มีผล) metes และขอบเขตของ (a) ยุ้งข้าวขนาดใหญ่และ (b) ปศุสัตว์กระจัดกระจายอยู่ข้างใน หากคุณให้เครื่องของคุณมีจำนวนเท่าใดในภาพ (กราฟิก, พีชคณิต) ของอสังหาริมทรัพย์และผู้อยู่อาศัยมันควรจะสามารถคิดออก (กึ่งกลางแบ่งหยดอย่างเป็นระเบียบเรียบร้อยในสองแบ่งคำนวณเป็นบรรทัด) สิ่งที่คุณต้องการให้ทำ ตำราสถิติใด ๆ ที่เหมาะสม (ขอให้ครูหรืออาจารย์ชื่อมากกว่าหนึ่ง) ควรสะกดทั้งจุดถดถอยเชิงเส้นในตอนแรกและวิธีการทำในกรณีที่ง่ายที่สุด (ตั้งแต่กรณีที่ไม่ง่าย) จำนวนของเพรทเซิลในภายหลังคุณจะเอามันลงไป หากคุณให้เครื่องของคุณมีจำนวนเท่าใดในภาพ (กราฟิก, พีชคณิต) ของอสังหาริมทรัพย์และผู้อยู่อาศัยมันควรจะสามารถคิดออก (กึ่งกลางแบ่งหยดอย่างเป็นระเบียบเรียบร้อยในสองแบ่งคำนวณเป็นบรรทัด) สิ่งที่คุณต้องการให้ทำ ตำราสถิติใด ๆ ที่เหมาะสม (ขอให้ครูหรืออาจารย์ชื่อมากกว่าหนึ่ง) ควรสะกดทั้งจุดถดถอยเชิงเส้นในตอนแรกและวิธีการทำในกรณีที่ง่ายที่สุด (ตั้งแต่กรณีที่ไม่ง่าย) จำนวนของเพรทเซิลในภายหลังคุณจะเอามันลงไป หากคุณให้เครื่องของคุณมีจำนวนเท่าใดในภาพ (กราฟิก, พีชคณิต) ของอสังหาริมทรัพย์และผู้อยู่อาศัยมันควรจะสามารถคิดออก (กึ่งกลางแบ่งหยดอย่างเป็นระเบียบเรียบร้อยในสองแบ่งคำนวณเป็นบรรทัด) สิ่งที่คุณต้องการให้ทำ ตำราสถิติใด ๆ ที่เหมาะสม (ขอให้ครูหรืออาจารย์ชื่อมากกว่าหนึ่ง) ควรสะกดทั้งจุดถดถอยเชิงเส้นในตอนแรกและวิธีการทำในกรณีที่ง่ายที่สุด (ตั้งแต่กรณีที่ไม่ง่าย) จำนวนของเพรทเซิลในภายหลังคุณจะเอามันลงไป ตำราสถิติใด ๆ ที่เหมาะสม (ขอให้ครูหรืออาจารย์ชื่อมากกว่าหนึ่ง) ควรสะกดทั้งจุดถดถอยเชิงเส้นในตอนแรกและวิธีการทำในกรณีที่ง่ายที่สุด (ตั้งแต่กรณีที่ไม่ง่าย) จำนวนของเพรทเซิลในภายหลังคุณจะเอามันลงไป ตำราสถิติใด ๆ ที่เหมาะสม (ขอให้ครูหรืออาจารย์ชื่อมากกว่าหนึ่ง) ควรสะกดทั้งจุดถดถอยเชิงเส้นในตอนแรกและวิธีการทำในกรณีที่ง่ายที่สุด (ตั้งแต่กรณีที่ไม่ง่าย) จำนวนของเพรทเซิลในภายหลังคุณจะเอามันลงไป


ในอีกครั้ง: ความคิดเห็นของ Silverfish ใน supra โพสต์ของฉัน (ดูเหมือนไม่มีวิธีอื่นที่ง่ายกว่านี้เพื่อเพิ่มความคิดเห็นในความคิดเห็นนั้น) ใช่ OP เป็นคนตาบอดคือการเรียนรู้การเรียนรู้ของเครื่องและร้องขอการปฏิบัติจริงโดยไม่ต้องแปลงหรือกราฟ เขาสามารถแยกแยะ "visualizing" จาก "vision", visualizes และมีรูปภาพจริงในหัวของเขาและมีความคิดพื้นฐานของร่างกายทุกชนิดในวัตถุรอบตัวเขา (บ้านท่ามกลางคนอื่น) ดังนั้นเขาจึงยังคง " วาด "ทั้งทางคณิตศาสตร์และอื่น ๆ ในหัวของเขาและอาจวางรูปร่างที่ดีของ 2D และ 3D ลงในกระดาษ ปัจจุบันมีหนังสือและตำราอื่น ๆ มากมายที่มีอยู่ในอักษรเบรลล์ทางกายภาพเช่นเดียวกับเสียงอิเล็กทรอนิกส์ในคอมพิวเตอร์ของตัวเอง (เช่นฟอรั่มพจนานุกรม ฯลฯ ) และโรงเรียนหลายแห่งสำหรับคนตาบอดมีหลักสูตรที่ค่อนข้างสมบูรณ์ แทนที่จะเป็นเครื่องบินหรือหอกโซฟาหรืออ้อยก็ไม่จำเป็นที่จะต้องเหมาะสมมากกว่าและอาจมีข้อความสถิติ เขามีความกังวลน้อยลงเกี่ยวกับวิธีที่เครื่องเรียนรู้ที่จะพล็อตและกราฟหรือคำนวณการถดถอยจากนั้นวิธีที่เครื่องจักรอาจเรียนรู้ที่จะทำสิ่งที่เท่าเทียมกัน (และพื้นฐานมากขึ้น) เพื่อที่จะเข้าใจการถดถอย หลีกเลี่ยงหรืออะไรก็ตาม) แรงผลักดันที่สำคัญ (เช่นเดียวกับคนตาบอดและนักเรียนที่มองเห็น) ยังคงเป็นวิธีการจินตนาการสิ่งที่ไม่สามารถมองเห็นได้ (เช่นแนวคิดเรื่องเส้นตรงมากกว่าตัวอย่างของเส้นลากตั้งแต่ก่อนยุคลิดและพีธากอรัส) และวิธีการมองภาพ จุดประสงค์พื้นฐานของการเชิงเส้นแบบพิเศษ (การถดถอยซึ่งจุดพื้นฐานเหมาะสมที่สุดกับการเบี่ยงเบนน้อยที่สุด ตั้งแต่ต้นในวิชาคณิตศาสตร์และสถิติ) ผลลัพธ์ที่ได้จากการถดถอยของ Lineprinter ของ Fortran นั้นแทบจะ "มองเห็น" จนกระทั่งหลอมรวมจิตใจ แต่แม้แต่ประเด็นพื้นฐานของการถดถอยก็คือจินตภาพ (เส้นที่ไม่ได้อยู่ที่นั่นจนกว่ามันจะถูกสร้างขึ้นเพื่อวัตถุประสงค์)


2
บางทีฉันอาจเข้าใจผิดคำตอบนี้ แต่ "วาดในหัวของคุณหรือบนภาพ" ดูเหมือนว่าจะพลาดจุดของคำถาม: คำถามเดิมถูกวางโดยคนที่ตาบอดอย่างสมบูรณ์และมองหาไม่ใช่ - วิธีการมองเห็นของการถดถอยใกล้
Silverfish

@Silverfish การตอบสนอง (ยาวเกินไปสำหรับความคิดเห็น) ได้รับการแก้ไขในคำตอบข้างต้น

ขอบคุณ ฉันคิดว่า downvote ค่อนข้างรุนแรง (ไม่ใช่ฉัน) แต่ตัวเลือกภาษาบางอย่างในคำตอบนี้โชคร้าย (เช่นมีการอ้างอิงหลายอย่างเกี่ยวกับการทำสิ่งต่าง ๆ "ด้วยตา") อย่างไรก็ตามฉันสามารถเข้าใจได้ว่าทำไมคุณถึงต้องการแยกความแตกต่างระหว่างการรับรู้ทางสายตาและสิ่งที่สามารถมองเห็นได้ด้วยตาความคิด
Silverfish

2
ฉันเห็นภาพสิ่งต่าง ๆ ในใจ เป็นเพียงว่าฉันไม่ได้ใช้วิธีการสร้างภาพข้อมูลแบบเดียวกัน มันไม่ได้เป็นเรื่องของการไม่ได้ใช้หรือdraw visualizeเป็นเพียงเรื่องของการใช้แนวคิดเพื่อให้ได้ภาพข้อมูลไม่ใช่วิธีอื่น ฉันพบว่าสิ่งนี้เกิดขึ้นในหลาย ๆ ที่ในวิชาคณิตศาสตร์ เพื่ออธิบายเรื่องที่ยากมักใช้รูปร่างและรูปภาพแทนที่จะเกี่ยวข้องกับการคำนวณกับแนวคิดที่ผู้เรียนรู้จากชีวิตจริง
Parham Doustdar

3

เหตุผลที่แปลงถูกนำมาใช้ในระดับสากลเพื่อแนะนำการถดถอยอย่างง่าย - การตอบสนองที่ทำนายโดยตัวทำนายเดียว - คือพวกเขาช่วยทำความเข้าใจ

อย่างไรก็ตามฉันเชื่อว่าฉันสามารถให้รสชาติที่อาจช่วยในการทำความเข้าใจว่าเกิดอะไรขึ้น ในส่วนนี้ฉันจะเน้นไปที่การพยายามถ่ายทอดความเข้าใจที่พวกเขาให้ซึ่งอาจช่วยในด้านอื่น ๆ ที่คุณมักจะพบเจอในการอ่านเกี่ยวกับการถดถอย ดังนั้นคำตอบนี้ส่วนใหญ่จะเกี่ยวข้องกับลักษณะเฉพาะของโพสต์ของคุณ

ลองนึกภาพคุณกำลังนั่งอยู่หน้าโต๊ะทรงสี่เหลี่ยมขนาดใหญ่เช่นโต๊ะทำงานธรรมดาโต๊ะยาวเต็มตัว (อาจยาว 1.8 เมตร) กว้างครึ่งหนึ่ง

คุณนั่งอยู่หน้าโต๊ะในตำแหน่งปกติตรงกลางด้านยาวด้านหนึ่ง บนโต๊ะนี้มีเล็บจำนวนมาก (ที่มีหัวค่อนข้างราบเรียบ) ถูกตอกลงบนพื้นผิวด้านบนเพื่อให้แต่ละเล็บโผล่ขึ้นมาเล็กน้อย (พอที่จะรู้สึกว่าพวกมันอยู่ที่ไหนและเพียงพอที่จะผูกเชือกกับพวกเขาหรือผูกยางรัด )

เล็บเหล่านี้อยู่ในระยะที่แตกต่างจากขอบโต๊ะของคุณในลักษณะที่ไปยังปลายด้านหนึ่ง (พูดถึงปลายด้านซ้าย) โดยทั่วไปพวกเขาจะอยู่ใกล้กับขอบโต๊ะของคุณและจากนั้นเมื่อคุณขยับไปทางปลายเล็บ มีแนวโน้มที่จะอยู่ห่างจากขอบของคุณ

ยิ่งไปกว่านั้นลองจินตนาการว่ามันจะมีประโยชน์หากมีความรู้สึกว่าเล็บอยู่ห่างจากขอบของคุณโดยเฉลี่ยเท่าไรในทุกตำแหน่ง

เลือกสถานที่บางแห่งตามขอบโต๊ะและวางมือตรงนั้นจากนั้นไปข้างหน้าตรงข้ามโต๊ะลากมือของคุณกลับมาหาคุณจากนั้นค่อยๆขยับมือไปมาบนหัวเล็บ คุณพบการกระแทกหลายสิบครั้งจากเล็บเหล่านี้ - เล็บที่อยู่ในความกว้างที่แคบของมือของคุณ (ขณะที่มันเคลื่อนตรงจากขอบของคุณในระยะทางคงที่จากปลายด้านซ้ายของโต๊ะ) ส่วนหรือแถบกว้างประมาณสิบเซนติเมตร .

แนวคิดก็คือหาระยะเฉลี่ยโดยเฉลี่ยจากเล็บของคุณในส่วนเล็ก ๆ นั้น โดยสัญชาตญาณมันเป็นแค่จุดศูนย์กลางของการกระแทกที่เราตี แต่ถ้าเราวัดระยะห่างแต่ละจุดในแต่ละส่วนของโต๊ะกว้างเราสามารถคำนวณค่าเฉลี่ยเหล่านั้นได้อย่างง่ายดาย

ตัวอย่างเช่นเราสามารถใช้ประโยชน์จากT-Squareที่หัวเลื่อนไปตามขอบโต๊ะและเพลาที่วิ่งไปทางด้านอื่น ๆ ของโต๊ะทำงาน แต่อยู่เหนือโต๊ะดังนั้นเราจึงไม่ต้องตะปูเพราะมันเลื่อนไปทางซ้าย หรือขวา - เมื่อเราผ่านตะปูที่กำหนดเราจะได้ระยะทางตามแกนของ T-Square

ดังนั้นเมื่อสถานที่ต่าง ๆ ตามขอบของเราเราทำแบบฝึกหัดนี้เพื่อค้นหาเล็บทั้งหมดในแถบมือกว้างวิ่งไปมาและออกไปจากเราและหาระยะเฉลี่ยของพวกเขาออกไป บางทีเราอาจแบ่งโต๊ะออกเป็นแถบกว้างมือไปตามขอบของเรา (ดังนั้นเล็บทุกอันจะถูกพบในแถบเดียว)

ทีนี้ลองนึกภาพว่ามีแถบ 21 เส้นบอกว่า, อันแรกที่ขอบด้านซ้ายและอันสุดท้ายที่ขอบด้านขวา หมายถึงห่างจากขอบโต๊ะของเราในขณะที่เราเดินข้ามเส้น

สิ่งเหล่านี้หมายถึงการประมาณค่าการถดถอยแบบไม่มีพารามิเตอร์อย่างง่ายของความคาดหวังของ y (ระยะทางห่างของเรา) ที่ได้รับ x (ระยะทางตามขอบของเราจากปลายด้านซ้าย) นั่นคือ E (y | x) นี่คือตัวประมาณการถดถอยแบบไม่มีพารามิเตอร์ที่เรียกว่า regressogram

ถ้าสตริปเหล่านั้นเพิ่มขึ้นอย่างสม่ำเสมอ - นั่นคือโดยทั่วไปค่าเฉลี่ยจะเพิ่มขึ้นตามจำนวนต่อแถบที่เท่ากันเมื่อเราเคลื่อนที่ข้ามสตริป - จากนั้นเราสามารถประมาณฟังก์ชันการถดถอยของเราได้ดีขึ้นโดยสมมติว่าค่าคาดหวังของ y ฟังก์ชั่นของ x - นั่นคือค่าที่คาดหวังของ y ที่ได้รับ x เป็นค่าคงที่บวกกับผลคูณของ x ค่าคงที่นี้แสดงให้เห็นว่าเล็บมีแนวโน้มที่จะเป็นอย่างไรเมื่อเราที่ x เป็นศูนย์ (บ่อยครั้งที่เราอาจวางไว้ที่ขอบด้านซ้ายสุดขีด แต่ไม่จำเป็นต้อง) และค่าเฉลี่ยของ x ที่รวดเร็วโดยเฉลี่ย การเปลี่ยนแปลงในขณะที่เราเลื่อนไปทางขวาหนึ่งเซนติเมตร (พูด)

แต่จะหาฟังก์ชั่นเชิงเส้นแบบนั้นได้อย่างไร?

ลองนึกภาพว่าเราผูกยางรัดหนึ่งเส้นไว้ที่หัวเล็บแต่ละอันแล้วยึดติดกับแท่งยางบางที่ยาววางเหนือโต๊ะบนเล็บเพื่อให้มันอยู่ใกล้กับ "กลาง" ของแต่ละแถบที่เรามี สำหรับ.

เราแนบแถบในลักษณะที่พวกเขาเพียงยืดในทิศทางไปและออกจากเรา (ไม่ซ้ายหรือขวา) - ซ้ายกับตัวเองพวกเขาจะดึงเพื่อให้ทิศทางของการยืดที่มุมขวาด้วยไม้ แต่ที่นี่เราป้องกันไม่ให้เพื่อให้ทิศทางของการยืดของพวกเขายังคงอยู่ในทิศทางไปทางหรือออกจากขอบของโต๊ะของเรา ตอนนี้เราปล่อยให้แท่งปักลงเมื่อวงดึงมันไปที่เล็บแต่ละอันด้วยเล็บที่อยู่ไกลกว่า (พร้อมกับแถบยางยืดที่ยาวกว่า) ซึ่งดึงยากกว่าเล็บที่อยู่ใกล้กับแท่ง

จากนั้นผลรวมของทุกวงที่ดึงบนแท่งจะเป็น (อย่างน้อยที่สุด) เพื่อดึงแท่งเพื่อลดผลรวมของความยาวกำลังสองของแถบยางยืด ในทิศทางนั้นตรงข้ามกับตารางระยะทางจากขอบของตารางของเราไปยังไม้ที่ตำแหน่ง x ที่กำหนดใด ๆ จะเป็นการประมาณค่าคาดหวังของ y ที่เราได้รับ x

นี่คือการประมาณการถดถอยเชิงเส้น

ลองจินตนาการว่าแทนที่จะเป็นเล็บเรามีผลไม้มากมาย (เช่นแอปเปิ้ลเล็ก ๆ ) แขวนจากต้นไม้ใหญ่และเราต้องการหาระยะเฉลี่ยของผลไม้เหนือพื้นดินเพราะมันแตกต่างกันไปตามตำแหน่งบนพื้นดิน ลองจินตนาการว่าในกรณีนี้ความสูงเหนือพื้นดินจะใหญ่ขึ้นเมื่อเราก้าวไปข้างหน้าและใหญ่ขึ้นเล็กน้อยในขณะที่เราเดินไปทางขวาอีกครั้งในแบบปกติดังนั้นแต่ละก้าวไปข้างหน้าโดยทั่วไปจะเปลี่ยนความสูงเฉลี่ยโดยประมาณเท่ากัน ด้านขวาจะเปลี่ยนค่าเฉลี่ยด้วยจำนวนคงที่อย่างคร่าว ๆ (แต่จำนวนก้าวที่ถูกต้องของการเปลี่ยนแปลงในค่าเฉลี่ยนั้นแตกต่างจากจำนวนการเปลี่ยนแปลงก้าวไปข้างหน้า)

หากเราลดผลรวมของระยะห่างแนวตั้งยกกำลังสองจากผลไม้เป็นแผ่นแบนบาง ๆ (อาจเป็นแผ่นบาง ๆ ของพลาสติกแข็งมาก) เพื่อหาว่าค่าเฉลี่ยความสูงเปลี่ยนแปลงอย่างไรเมื่อเราก้าวไปข้างหน้าหรือก้าวไปทางขวานั่นจะเป็น การถดถอยเชิงเส้นพร้อมตัวทำนายสองตัว - การถดถอยหลายครั้ง

นี่เป็นเพียงสองกรณีที่แผนการสามารถช่วยให้เข้าใจได้ (พวกเขาสามารถแสดงสิ่งที่ฉันเพิ่งอธิบายได้อย่างรวดเร็ว แต่หวังว่าคุณจะรู้ว่ามีพื้นฐานที่จะทำให้ความคิดเดียวกันนี้เป็นแนวคิด) นอกเหนือจากสองกรณีที่ง่ายที่สุดนั้นเราเหลือเพียงคณิตศาสตร์เท่านั้น

ตอนนี้นำตัวอย่างราคาบ้านของคุณ คุณสามารถแทนพื้นที่บ้านทุกหลังด้วยระยะทางตามขอบโต๊ะ - แทนขนาดบ้านที่ใหญ่ที่สุดเป็นตำแหน่งที่อยู่ใกล้กับขอบด้านขวาทุกขนาดของบ้านอื่น ๆ จะอยู่ในตำแหน่งที่อยู่ทางด้านซ้ายซึ่งจะมีบางเซนติเมตร จำนวนตารางเมตร ตอนนี้ระยะทางแสดงราคาขาย เป็นตัวแทนของบ้านที่แพงที่สุดเนื่องจากระยะทางใกล้กับขอบโต๊ะที่ไกลที่สุด (เช่นขอบที่ไกลที่สุดจากเก้าอี้ของคุณ) และทุก ๆ เซนติเมตรที่เลื่อนออกไปจะเป็นตัวแทนของ Rials

สำหรับจินตนาการปัจจุบันเราเลือกตัวแทนเพื่อให้ขอบด้านซ้ายของโต๊ะสอดคล้องกับพื้นที่บ้านเป็นศูนย์และใกล้กับราคาบ้านที่ 0 จากนั้นเราวางตะปูสำหรับแต่ละบ้าน

เราอาจจะไม่มีเล็บอยู่ใกล้กับขอบด้านซ้ายของเรา (ส่วนใหญ่จะอยู่ทางด้านขวาและอยู่ห่างจากเรา) เพราะนี่ไม่ใช่ทางเลือกที่ดีของเครื่องชั่ง แต่การเลือกแบบไม่มีการสกัดกั้นทำให้ วิธีที่ดีกว่าเพื่อหารือเกี่ยวกับมัน

ตอนนี้ในแบบจำลองของคุณคุณบังคับให้ไม้ผ่านห่วงของสตริงที่มุมซ้ายของขอบใกล้ของโต๊ะ - ดังนั้นบังคับให้แบบจำลองที่ติดตั้งให้มีราคาเป็นศูนย์สำหรับพื้นที่ศูนย์ซึ่งอาจดูเป็นธรรมชาติ - แต่ลองคิดดูว่ามี ส่วนประกอบของราคาค่อนข้างคงที่ซึ่งส่งผลต่อการขายทุกครั้ง จากนั้นมันก็สมเหตุสมผลที่จะมีการสกัดกั้นที่แตกต่างจากศูนย์

ไม่ว่าในกรณีใดเมื่อมีการเพิ่มของวงดังกล่าวการออกกำลังกายด้วยแถบยางเหมือนเดิมจะพบว่าการประมาณกำลังสองน้อยที่สุดของสาย


ว้าวขอบคุณสำหรับคำตอบเชิงพื้นที่ที่มีความยาวนี้ มันอธิบายได้มากมาย ขอบคุณ
Parham Doustdar

2

คุณเคยพบเครื่องปิ้งขนมปังที่คุณมักจะได้รับจากโรงแรมหรือไม่ คุณวางขนมปังบนสายพานลำเลียงที่ปลายด้านหนึ่งและมันจะออกมาเป็นขนมปังปิ้งที่ปลายอีกด้านหนึ่ง น่าเสียดายที่เครื่องปิ้งขนมปังที่โรงแรมราคาถูกเครื่องทำความร้อนได้ย้ายไปที่ความสูงและระยะทางแบบสุ่มจากทางเข้าสู่เครื่องปิ้งขนมปัง คุณไม่สามารถย้ายตัวทำความร้อนหรืองอทางเดินของสายพาน (ซึ่งเป็นทางตรงโดยวิธี (นี่คือที่บิตเชิงเส้นเข้ามา) แต่คุณสามารถปรับความสูงและเอียงของสายพานได้

เมื่อพิจารณาตำแหน่งของตัวทำความร้อนทั้งหมดการถดถอยเชิงเส้นจะบอกความสูงและมุมที่ถูกต้องในการวางสายพานเพื่อให้ความร้อนโดยรวมมากที่สุด นี่เป็นเพราะการถดถอยเชิงเส้นจะลดระยะห่างเฉลี่ยระหว่างขนมปังและเครื่องทำความร้อน

งานวันหยุดครั้งแรกของฉันคือการถดถอยเชิงเส้นด้วยมือ คนที่พูดว่าคุณไม่ต้องการทำอย่างนั้นถูกต้อง !!!


2

คำอธิบายที่ฉันชอบเกี่ยวกับการถดถอยเชิงเส้นคือรูปทรงเรขาคณิต แต่ไม่ใช่ภาพ มันปฏิบัติต่อชุดข้อมูลเป็นจุดเดียวในพื้นที่มิติสูงแทนที่จะแบ่งเป็นก้อนเมฆในพื้นที่สองมิติ

ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

D

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ

DM(ρ,β)D

DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.
กล่าวอีกนัยหนึ่งระยะห่างระหว่างจุดข้อมูลกับจุดตัวอย่างคือข้อผิดพลาดกำลังสองรวมของแบบจำลอง! การลดความคลาดเคลื่อนกำลังสองรวมของแบบจำลองลดลงเป็นสิ่งเดียวกันกับการลดระยะห่างระหว่างตัวแบบและข้อมูลในพื้นที่ข้อมูล

ρβDM(ρ,β)


1

@Chris Rackauckas และคำตอบของ @ EDM นั้นตรงประเด็น มีหลายวิธีในการเข้าใกล้การถดถอยเชิงเส้นอย่างง่ายที่ไม่ต้องมีการวางแผนหรือคำอธิบายภาพของการประมาณกำลังสองน้อยที่สุดแบบธรรมดา

ฉันอาจเพิ่มว่าการใช้ scatterplots เป็นเครื่องมือการเรียนการสอนเพื่อเรียนรู้วิธีการสร้างแบบจำลองใหม่ ๆ ไม่ว่าจะเป็นโมเดลพาราเมทริกของโรงเรียนเก่าสิ่งการเรียนรู้ของเครื่องจักรขั้นสูงหรืออัลกอริทึมแบบเบส์การสร้างกราฟสามารถช่วยลดเวลา อัลกอริทึมทำ

การสร้างกราฟเป็นสิ่งที่สำคัญมากสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจเมื่อคุณเริ่มทำงานกับชุดข้อมูลใหม่เป็นครั้งแรก ฉันมีสถานการณ์ที่ฉันเก็บรวบรวมข้อมูลจำนวนมากทำงานตามทฤษฎีวางแผนแบบจำลองของฉันอย่างรอบคอบแล้ววิ่งตามเพื่อผลลัพธ์ที่ไม่มีพลังในการทำนาย การพล็อตความสัมพันธ์แบบ bivariate สามารถทำให้เกิดการคาดเดาได้: ในตัวอย่างของคุณอาจเป็นไปได้ว่าราคาบ้านมีความสัมพันธ์เชิงเส้นตรงกับพื้นที่ แต่บางทีความสัมพันธ์อาจไม่ใช่เชิงเส้น Scatterplots ช่วยให้คุณตัดสินใจได้ว่าคุณต้องการเงื่อนไขการสั่งซื้อที่สูงขึ้นในการถดถอยหรือหากคุณต้องการใช้วิธีการอื่นที่แตกต่างจากการถดถอยเชิงเส้นหรือถ้าคุณต้องการใช้วิธีการแบบไม่มีพารามิเตอร์


1

Google สำหรับ Anscombe Quartet

มันแสดงข้อมูล 4 ชุดซึ่งการตรวจสอบตัวเลขไม่แสดงความแตกต่างมากนัก

อย่างไรก็ตามในการสร้างพล็อตกระจายภาพ

มันให้มุมมองที่ชัดเจนว่าทำไมคุณควรพล็อตข้อมูลถดถอยหรือไม่ถดถอย :-)


0

เราต้องการมีทางออกที่ช่วยลดความแตกต่างระหว่างค่าที่คาดการณ์และค่าจริง

y=bx+a

yy

หากเราสมมติว่าการกระจายข้อผิดพลาดโดยปกติแล้วการกระจายนั้นปรากฎว่ามีวิธีการวิเคราะห์ปัญหาการลดลงนี้ ผลรวมของความแตกต่างกำลังสองเป็นค่าที่ดีที่สุดเพื่อลดขนาดให้พอดีที่สุด แต่ความเป็นปกติไม่จำเป็นต้องใช้ในกรณีทั่วไป

มีไม่มากไปกว่านั้นจริงๆ

y=bx+a

ทุกวันนี้มันเหลือไว้เป็นความเข้าใจ แต่ไม่จำเป็นต้องเข้าใจการถดถอยเชิงเส้นจริงๆ

แก้ไข: แทนที่ปกติของข้อผิดพลาดด้วยรายการที่ถูกต้อง แต่น้อยกระชับ ความเป็นปกติธรรมดานั้นจำเป็นต้องมีวิธีการวิเคราะห์และสามารถสันนิษฐานได้ว่าเป็นกรณีที่ใช้งานได้จริงจำนวนมากและในกรณีที่ผลรวมของกำลังสองนั้นเหมาะสมที่สุดไม่เพียง แต่สำหรับตัวประมาณเชิงเส้นและโอกาสสูงสุดเช่นกัน

หากสมมติฐานของการแจกแจงความคลาดเคลื่อนเป็นไปได้ผลรวมของกำลังสองจะดีที่สุดในการประมาณค่าแบบเชิงเส้นและไม่เชิงเส้นและเป็นการเพิ่มโอกาสสูงสุด


1
ไม่จำเป็นต้องใช้การแจกแจงแบบปกติสำหรับทุกสิ่งที่คุณอธิบาย
Aksakal

กรุณาตรวจสอบคำอธิบายนี้stats.stackexchange.com/a/1516/98469
Diego

ลิงค์ไม่มีส่วนเกี่ยวข้องกับคำตอบของคุณ หากคุณขยายเป็นคุณสมบัติตัวอย่างขนาดเล็กหรือ MLE คุณสามารถนำสมมติฐานการแจกแจงแบบปกติมาใช้ได้ แต่เนื่องจากคำอธิบาย OLS ในคำตอบของคุณไม่จำเป็นต้องมีการแจกแจงแบบปกติ ในความเป็นจริง t เพื่อลดผลรวมของกำลังสองคุณไม่จำเป็นต้องมีการแจกแจงหรือสถิติเลย มันเป็นพีชคณิตบริสุทธิ์
Aksakal

ประเด็นคือว่าทำไมเราจึงลดผลรวมของกำลังสองลงและไม่ได้วัดอื่น ๆ ไม่เกี่ยวกับวิธีการหาผลรวมของกำลังสอง
Diego

การลดผลรวมของกำลังสองน้อยที่สุดนั้นไม่เกี่ยวกับการแจกแจงแบบปกติ มันเป็นแค่ฟังก์ชั่นการสูญเสียของคุณ การแจกแจงข้อผิดพลาดอื่น ๆ สามารถใช้กับฟังก์ชันการสูญเสียนี้ได้ คุณต้องการการแจกแจงในบางกรณีเช่นหากคุณต้องการทำการอนุมานเกี่ยวกับค่าพารามิเตอร์ในตัวอย่างเล็ก ๆ ฯลฯ แม้ในกรณีนี้คุณสามารถใช้การแจกแจงแบบอื่นฉันไม่แน่ใจว่าทำไมคุณถึงติดอยู่ในภาวะปกติ
Aksakal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.