ทำไมถึงต้องศึกษาการถดถอยเชิงเส้น


13

ให้ตัวแปรสุ่มสองตัวและเราสามารถคำนวณ "สัมประสิทธิ์สหสัมพันธ์"และสร้างเส้นที่เหมาะสมที่สุดระหว่างตัวแปรสุ่มสองตัวนี้ คำถามของฉันคือทำไมη ξηc

1) มีตัวแปรสุ่มเป็นและซึ่งจะขึ้นอยู่ในทางที่เลวร้ายที่สุดคือและแม้จะมีนี้ 0 ถ้าใครคนหนึ่งคิดตามการถดถอยเชิงเส้นก็จะทำให้คนตาบอดโดยสิ้นเชิงη ξ = F ( η ) C = 0ξηξ=f(η)c=0

2) ทำไมต้องเป็นเส้นตรง มีความสัมพันธ์ประเภทอื่น ๆ ที่สามารถมีอยู่ระหว่างตัวแปรสุ่ม ทำไมหนึ่งเดียวที่ออกมาจากคนอื่น ๆ ทั้งหมด?


18
มันเหมือนกับถามว่าทำไมคุณถึงมีไขควงเมื่อบางครั้งคุณพบเล็บ
Sycorax พูดว่า Reinstate Monica

6
นอกจากนี้คุณยังดูเหมือนจะสมมติว่าสมมติฐานที่ว่ามีคนออกมีที่เดียวที่ดูแลเกี่ยวกับการถดถอยเชิงเส้น: "ถ้าอย่างใดอย่างหนึ่งเท่านั้นคิดตามการถดถอยเชิงเส้น", "ทำไมเดียวที่หนึ่งออกมาจากคนอื่น ๆ ทั้งหมด " ดูเหมือนว่าชาวฟางคนหนึ่งสำหรับฉันแน่นอนว่ามันไร้สาระที่จะยึดมั่นในเครื่องมือหรือมุมมองเดียวเท่านั้น
Matthew Drury

7
เส้นตรง "โดยเฉพาะ" เป็นเรื่องเกี่ยวกับการรวมกันเชิงเส้นของฟังก์ชันพื้นฐานซึ่งโดยทั่วไปค่อนข้างจริง
GeoMatt22

2
@MatthewDrury ไม่มีคนทำฟางและฉันไม่ได้คิดอะไรเลยฉันแค่ถามคำถามโดยใช้วิธีคิดทางพยาธิวิทยา - สุดขั้ว - ความคิดเพื่อแสดงจุดอ่อนในวิธีการ ทำไมคุณคิดว่าฉันคิดแบบนั้น? การถดถอยเป็นหัวข้อที่มีขนาดใหญ่มากสำหรับนักสถิติ ฉันไม่เข้าใจสิ่งที่พิเศษเกี่ยวกับมันที่มีการศึกษามาก
Nicolas Bourbaki

8
สำหรับผู้ที่ลงมาอย่างหนักกับคำถามนี้: ฉันคิดว่าคุณลืมกลับไปเมื่อคุณได้เรียนรู้เกี่ยวกับการถดถอยเชิงเส้นครั้งแรกและได้รับการบอกว่า "หนึ่งในสมมติฐานคือว่ามีผลเชิงเส้น" คุณคิดกับตัวเองว่า "แต่เอฟเฟกต์ไม่เคยเป็นเส้นตรง!" มีโอกาสมากหลังจากที่จำนวนมากของขบคิดคุณเชื่อตัวเองว่าแม้นี้ถดถอยเชิงเส้นยังคงเป็นเครื่องมือพื้นฐานที่จะได้รับทั้งความเข้าใจและการใช้ ตอนนี้เพียงแค่รีเซ็ตตัวคุณให้กลับมาก่อนที่คุณจะไตร่ตรองอย่างถี่ถ้วน ฉันคิดว่ามันเป็นคำถามที่ดีที่นักเรียนสถิติทุกคนควรใช้เวลาพิจารณาอย่างถี่ถ้วน
หน้าผา AB

คำตอบ:


10

ฉันเห็นด้วยว่าความสัมพันธ์ไม่ใช่ทั้งหมดเป็นเส้นตรงในตัวเอง แต่ความสัมพันธ์ค่อนข้างมากสามารถประมาณเป็นเส้นตรงได้ เราได้เห็นกรณีต่าง ๆ ในคณิตศาสตร์เช่นชุดอนุกรมหรืออนุกรมฟูริเยร์ประเด็นสำคัญที่นี่คือ geomatt22 กล่าวในความคิดเห็นคุณสามารถแปลงข้อมูลไม่เชิงเส้นโดยทั่วไปและใช้การแปลงบางชนิดด้วยฟังก์ชันพื้นฐานและทำให้เป็นเชิงเส้น ความสัมพันธ์ เหตุผลที่มหาวิทยาลัยระบุเฉพาะ 'ตัวแบบการถดถอยเชิงเส้นหลายแบบ' (รวมถึงตัวแบบการถดถอยแบบง่าย) นั้นเป็นเพราะพวกมันเป็นตัวต่อของโมเดลที่มีระดับสูงกว่าซึ่งก็เป็นแบบเส้นตรง

การพูดทางคณิตศาสตร์ตราบใดที่คุณสามารถพิสูจน์ได้ว่าการประมาณเชิงเส้นบางอย่างนั้นมีความหนาแน่นสูงในอวกาศของฮิลแบร์ตคุณจะสามารถใช้การประมาณเพื่อเป็นตัวแทนของฟังก์ชันในอวกาศได้


2
เผง ไม่มีใครพูดถึงมัน แต่อย่างที่คำตอบนี้บอกไว้โดยทั่วไปคุณสามารถใช้การแปลงกับตัวแปรของคุณเพื่อทำให้ความสัมพันธ์เป็นเส้นตรง ยิ่งไปกว่านั้น: ก) มันเป็นเรื่องง่ายที่จะหาค่าสูงสุดทั่วโลกสำหรับการถดถอยเชิงเส้นและ b) โมเดลอื่น ๆ อีกมากมายรวมถึงเครือข่ายประสาทประสาทจะเข้าใจได้ง่ายขึ้นถ้าคุณรู้ว่าการถดถอยแบบโลจิสติกส์
Ricardo Cruz

7

แบบจำลองที่คุณอ้างถึงคือการถดถอยเชิงเส้นอย่างง่ายหรือที่รู้จักกันว่า "เส้นที่เหมาะสมที่สุด" (ฉันสับสนกับแบบจำลองและวิธีการประมาณที่นี่) เป็นที่ยอมรับง่ายมาก (ดังที่ชื่อกล่าวไว้) ทำไมต้องเรียน? ฉันเห็นเหตุผลมากมาย ในต่อไปนี้ฉันคิดว่าแนวคิดของตัวแปรสุ่มได้รับการแนะนำอย่างไม่เป็นทางการเพราะคุณพูดถึงมันในคำถามของคุณ

  1. น้ำท่วมทุ่งแน่นอนว่าสำหรับคุณเห็นได้ชัดว่าตัวแปรสุ่มที่มีมูลค่าจริงกับช่วงเวลาที่ จำกัด ลำดับที่สองสร้างพื้นที่ฮิลแบร์ต อาจจะเห็นได้ชัดเมื่อคุณศึกษาทฤษฎีความน่าจะเป็นครั้งแรก แต่สถิติไม่ได้สอนเฉพาะกับนักเรียนคณิตศาสตร์เท่านั้น: มีสาธารณะที่กว้างขึ้นตั้งแต่ฟิสิกส์ฟิสิกส์เศรษฐศาสตร์วิทยาศาสตร์คอมพิวเตอร์วิทยาศาสตร์สังคม ฯลฯ นักเรียนเหล่านี้อาจพบสถิติในช่วงเริ่มต้นของการศึกษา พวกเขาอาจหรืออาจไม่ได้รับการ expoused กับพีชคณิตเชิงเส้นและแม้ในกรณีแรกพวกเขาอาจไม่ได้เห็นมันจากมุมมองที่เป็นนามธรรมมากขึ้นของหลักสูตรคณิตศาสตร์ สำหรับนักเรียนเหล่านี้แนวคิดของการประมาณตัวแปรสุ่มโดยตัวแปรสุ่มอื่นนั้นไม่ได้เกิดขึ้นทันที แม้แต่คุณสมบัติพื้นฐานของโมเดลเชิงเส้นอย่างง่ายเช่นความจริงที่ว่าข้อผิดพลาดและตัวทำนายนั้นเป็นตัวแปรสุ่มแบบมุมฉาก บางครั้งก็แปลกใจกับพวกเขา ความจริงที่ว่าคุณสามารถกำหนด "มุม" ระหว่างตัวแปรสุ่ม (วัตถุ "น่ารังเกียจ"! ฟังก์ชั่นที่วัดได้จากพื้นที่ความน่าจะเป็นพื้นที่ที่วัดได้) อาจชัดเจนสำหรับคุณ แต่ไม่จำเป็นต้องเป็นน้องใหม่ ดังนั้นหากการศึกษาปริภูมิเวกเตอร์เริ่มต้นด้วยระนาบแบบยุคลิดที่ดีมันไม่สมเหตุสมผลเลยหรือที่จะเริ่มต้นการศึกษาแบบจำลองทางสถิติด้วยสิ่งที่ง่ายที่สุด?
  2. ขั้นตอน : ด้วยการถดถอยเชิงเส้นอย่างง่ายคุณสามารถแนะนำแนวคิดของการประมาณค่าพารามิเตอร์และวิธีการของกำลังสองน้อยที่สุดข้อผิดพลาดมาตรฐาน ฯลฯ ในกรณีที่ง่ายที่สุด หากคุณคิดว่านี่เป็นเรื่องไม่สำคัญโปรดจำไว้ว่ามีผู้เชี่ยวชาญหลายคนที่ใช้สถิติในงาน / การวิจัยของพวกเขา อย่างไรก็ตามเมื่อกรณีที่ง่ายที่สุดได้รับการคุ้มครองคุณสามารถไปที่การถดถอยเชิงเส้นหลาย ๆ แบบจำลองเชิงเส้นทั้งหมดจะพร้อมใช้งานสำหรับการประมาณค่า กล่าวอีกนัยหนึ่งถ้าฉันสามารถพอดีกับรูปแบบ (โดย OLS หรือ LARS ในกรณีที่จำเป็นต้องทำให้เป็นมาตรฐานเป็นต้น) ฉันสามารถ พอดีทุกรุ่นξ= N ฉัน= 0 βฉันϕ(ηi)+ϵξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ. นี่เป็นคลาสที่ทรงพลังจริงๆซึ่งดังที่บันทึกไว้โดย @DaeyoungLim สามารถประมาณฟังก์ชั่นทั้งหมดในพื้นที่ Hilbert ได้ถ้าคุณมีฟังก์ชั่นพื้นฐานที่ไม่มีที่สิ้นสุดและถ้าพวกมันสร้างพื้นที่ย่อยแบบเวกเตอร์ซึ่งหนาแน่นในพื้นที่ Hilbert .
  3. ในทางปฏิบัติ : มีแอปพลิเคชันที่ประสบความสำเร็จมากมายของการถดถอยเชิงเส้นอย่างง่าย กฎหมาย Okun ของเศรษฐศาสตร์กฎหมายฮุค , กฎของโอห์มและกฎหมายชาร์ลส์ในฟิสิกส์ความสัมพันธ์ระหว่างความดันโลหิตและอายุในการแพทย์ (I ไม่มีความคิดถ้ามันมีชื่อ!) เป็นตัวอย่างของการถดถอยเชิงเส้นที่เรียบง่ายที่มีองศาที่แตกต่างของ ความถูกต้อง

5

อีกเหตุผลคือวิธีการถดถอยที่น่ารักให้การรักษาแบบครบวงจรของเทคนิคเช่น ANOVA สำหรับฉันแล้วการรักษาแบบ 'เบื้องต้น' ของ ANOVA นั้นค่อนข้างคลุมเครือ แต่การรักษาแบบถดถอยนั้นชัดเจน ฉันสงสัยว่าสิ่งนี้เกี่ยวข้องกับวิธีการถดถอยแบบจำลองอย่างชัดเจนทำให้มีข้อสันนิษฐานบางอย่างว่าในการรักษาแบบ 'เบื้องต้น' นั้นมีนัยและไม่มีการตรวจสอบ นอกจากนี้ความชัดเจนทางแนวคิดที่นำเสนอโดยมุมมองที่รวมดังกล่าวมาพร้อมกับประโยชน์ในทางปฏิบัติที่คล้ายกันเมื่อเวลามาถึงการใช้วิธีการในซอฟต์แวร์ทางสถิติ

หลักการนี้ใช้ไม่เพียง แต่กับ ANOVA เท่านั้น แต่ใช้กับส่วนขยายเช่น splines แบบ จำกัด ลูกบาศก์ซึ่งตอบคำถามที่สองของคุณ


3

ความนิยมของการถดถอยเชิงเส้นนั้นเกิดจากความสามารถในการตีความซึ่งก็คือคนที่ไม่ใช่ด้านเทคนิคสามารถเข้าใจค่าสัมประสิทธิ์ของพารามิเตอร์พร้อมคำอธิบายเพียงเล็กน้อย สิ่งนี้ช่วยเพิ่มมูลค่าอย่างมากในสถานการณ์ทางธุรกิจที่ผู้ใช้ผลลัพธ์หรือการคาดการณ์อาจไม่เข้าใจคณิตศาสตร์ / สถิติอย่างลึกซึ้ง

ใช่มีสมมติฐานและข้อ จำกัด เกี่ยวกับเทคนิคนี้ (เช่นเดียวกับวิธีการทั้งหมด) และอาจไม่เหมาะสมที่สุดในหลายกรณี แต่การถดถอยเชิงเส้นมีความแข็งแกร่งมากและมักจะทำงานได้ดีแม้ในกรณีที่มีการละเมิดสมมติฐาน

ด้วยเหตุผลเหล่านี้จึงควรค่าแก่การศึกษา


-2

สิ่งที่อาจไม่เกี่ยวข้อง dirctly

หากคุณมีสองชุดและว่าและถ้าคุณสงสัยว่ามีความสัมพันธ์ระหว่างและy ที่คุณสามารถพล็อตระหว่างกับเพื่อตรวจสอบความสัมพันธ์ของพวกเขาy c o v ( x , y ) = 0 x y y xxycov(x,y)=0xyyx

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.