ฉันรู้ว่าในการถดถอยเชิงเส้นตัวแปรตอบสนองจะต้องต่อเนื่อง แต่ทำไมถึงเป็นเช่นนั้น? ฉันไม่สามารถหาข้อมูลออนไลน์ที่อธิบายได้ว่าทำไมฉันไม่สามารถใช้ข้อมูลแยกสำหรับตัวแปรตอบกลับ
ฉันรู้ว่าในการถดถอยเชิงเส้นตัวแปรตอบสนองจะต้องต่อเนื่อง แต่ทำไมถึงเป็นเช่นนั้น? ฉันไม่สามารถหาข้อมูลออนไลน์ที่อธิบายได้ว่าทำไมฉันไม่สามารถใช้ข้อมูลแยกสำหรับตัวแปรตอบกลับ
คำตอบ:
ไม่มีอะไรหยุดคุณโดยใช้การถดถอยเชิงเส้นในสองคอลัมน์ของตัวเลขที่คุณต้องการ มีหลายครั้งที่อาจเป็นตัวเลือกที่สมเหตุสมผล
อย่างไรก็ตามคุณสมบัติของสิ่งที่คุณออกไปไม่จำเป็นว่าจะมีประโยชน์ (เช่นไม่จำเป็นต้องเป็นสิ่งที่คุณต้องการให้เป็น)
โดยทั่วไปแล้วการถดถอยคุณกำลังพยายามปรับความสัมพันธ์ระหว่างค่าเฉลี่ยตามเงื่อนไขของ Y และตัวทำนาย - นั่นคือความสัมพันธ์ที่เหมาะสมของบางรูปแบบ ; การสร้างแบบจำลองเนื้อหาพฤติกรรมของความคาดหวังตามเงื่อนไขคือ 'ถดถอย' คืออะไร [การถดถอยเชิงเส้นคือเมื่อคุณใช้รูปแบบเฉพาะสำหรับ ]g
ตัวอย่างเช่นพิจารณากรณีสุดขีดของความไม่ลงรอยกันซึ่งเป็นตัวแปรตอบกลับซึ่งการแจกแจงอยู่ที่ 0 หรือ 1 และใช้ค่า 1 ที่มีความน่าจะเป็นซึ่งเปลี่ยนแปลงตามการทำนาย ( ) บางตัวที่เปลี่ยนแปลง นั่นคือx)E ( Y | x ) = P ( Y = 1 | X = x )
หากคุณเหมาะสมกับความสัมพันธ์แบบนั้นกับตัวแบบการถดถอยเชิงเส้นนอกเหนือจากช่วงแคบ ๆ มันจะทำนายค่าสำหรับที่เป็นไปไม่ได้ - ต่ำกว่าหรือสูงกว่า :0 1
ที่จริงแล้วมันเป็นไปได้ที่จะเห็นว่าเมื่อความคาดหวังเข้าใกล้ขอบเขตค่าจะต้องนำค่าที่ขอบเขตนั้นมาใช้บ่อยขึ้นเรื่อย ๆ ดังนั้นความแปรปรวนของมันจึงน้อยลงถ้าความคาดหวังอยู่ใกล้กลาง - ความแปรปรวนจะต้องลดลงเป็น 0 ดังนั้นการถดถอยปกติทำให้น้ำหนักไม่ถูกต้องทำให้ข้อมูลในภูมิภาคต่ำกว่าความคาดหวังตามเงื่อนไขใกล้ 0 หรือ 1 เอฟเฟกต์ SImilar จะเกิดขึ้นหากคุณมีตัวแปรที่ล้อมรอบระหว่าง a และ b พูด (เช่นการสังเกตแต่ละครั้ง จากจำนวนที่เป็นไปได้ทั้งหมดที่ทราบสำหรับการสังเกตนั้น)
นอกจากนี้เราคาดหวังว่าค่าเฉลี่ยของเงื่อนไขจะไม่แสดงถึงขีด จำกัด บนและล่างซึ่งหมายความว่าโดยปกติแล้วความสัมพันธ์จะโค้งไม่ตรงดังนั้นการถดถอยเชิงเส้นของเราน่าจะผิดภายในช่วงของข้อมูลเช่นกัน
ปัญหาที่คล้ายกันเกิดขึ้นกับข้อมูลที่ล้อมรอบด้านเดียวเท่านั้น (เช่นจำนวนที่ไม่มีขอบเขตด้านบน) เมื่อคุณอยู่ใกล้กับขอบเขตนั้น
เป็นไปได้ (ถ้าหายาก) เพื่อให้มีข้อมูลที่ไม่ต่อเนื่องซึ่งไม่ จำกัด ขอบเขตที่ปลายทั้งสองด้าน ถ้าตัวแปรมีค่าต่างกันมากความไม่น่าจะเป็นไปได้ค่อนข้างน้อยตราบใดที่คำอธิบายของค่าเฉลี่ยและความแปรปรวนมีเหตุผล
นี่คือตัวอย่างที่เหมาะสมอย่างยิ่งที่จะใช้การถดถอยเชิงเส้นใน:
แม้ว่าในแถบค่า x บาง ๆ มีค่า y ที่แตกต่างกันเพียงไม่กี่อย่างที่น่าจะสังเกตได้ (ประมาณ 10 รอบสำหรับช่วงกว้าง 1) การคาดหวังนั้นสามารถประมาณได้ดีและแม้แต่ข้อผิดพลาดมาตรฐานและ p- ค่าและช่วงความเชื่อมั่นทั้งหมดจะสมเหตุสมผลมากหรือน้อยในกรณีนี้โดยเฉพาะ ช่วงเวลาการทำนายจะมีแนวโน้มที่จะทำงานได้ค่อนข้างดี (เนื่องจากการไม่ได้มาตรฐานจะมีผลกระทบโดยตรงมากขึ้นในกรณีนั้น)
-
หากคุณต้องการทำการทดสอบสมมติฐานหรือคำนวณความเชื่อมั่นหรือช่วงเวลาการคาดการณ์ขั้นตอนปกติจะทำให้สมมติฐานเป็นปกติ ในบางสถานการณ์ที่สำคัญ อย่างไรก็ตามมีความเป็นไปได้ที่จะอนุมานโดยไม่มีการตั้งสมมติฐานโดยเฉพาะ
ฉันไม่สามารถแสดงความคิดเห็นดังนั้นฉันจะตอบ: ในการถดถอยเชิงเส้นปกติตัวแปรตอบสนองไม่จำเป็นต้องต่อเนื่องสันนิษฐานของคุณไม่ได้:
แต่คือ:
การถดถอยเชิงเส้นปกติเกิดขึ้นจากการย่อขนาดของส่วนที่เหลือกำลังสองซึ่งเป็นวิธีที่เชื่อว่าเหมาะสมสำหรับตัวแปรต่อเนื่องและไม่ต่อเนื่อง (ดูทฤษฎีบทเกาส์ - มาร์กอฟ) แน่นอนว่าโดยทั่วไปจะใช้ความเชื่อมั่นหรือการทำนายช่วงเวลาและการทดสอบสมมติฐานวางอยู่บนสมมติฐานการแจกแจงปกติเช่น Glen_b ชี้ให้เห็นอย่างถูกต้อง แต่การประมาณ OLS ของพารามิเตอร์ไม่ได้
ในการถดถอยเชิงเส้นเหตุผลที่เราต้องการการตอบสนองอย่างต่อเนื่องคือการต่อสู้จากสมมติฐานที่เราทำ หากตัวแปรอิสระต่อเนื่องเราจะถือว่าความสัมพันธ์เชิงเส้นระหว่างและคือy
โดยที่เหลือเป็นเรื่องปกติ และรูปแบบสูตรที่เรารู้ว่านั้นต่อเนื่องy
ในอีกรูปแบบเชิงเส้นทั่วไปตัวแปรตอบสนองสามารถแยก / เด็ดขาด (ถดถอยโลจิสติก) หรือนับ (ปัวซองถดถอย)
แก้ไขที่อยู่ที่เครื่องหมาย 999 และแสดงความคิดเห็นใหม่อีกครั้ง
การถดถอยเชิงเส้นเป็นคำทั่วไปที่ผู้ใช้อาจแตกต่างกัน ไม่มีอะไรที่จะป้องกันไม่ให้เราใช้กับตัวแปรที่ไม่ต่อเนื่องหรือตัวแปรอิสระและตัวแปรตามไม่ได้เป็นเชิงเส้น
หากเราสมมติว่าไม่มีอะไรและรันการถดถอยเชิงเส้นเราก็ยังสามารถได้ผลลัพธ์ และถ้าผลลัพธ์ตรงตามความต้องการของเรากระบวนการทั้งหมดก็โอเค อย่างไรก็ตามอย่างที่ Glan_b พูด
หากคุณต้องการทำการทดสอบสมมติฐานหรือคำนวณความเชื่อมั่นหรือช่วงเวลาการคาดการณ์ขั้นตอนปกติจะทำให้สมมติฐานเป็นปกติ
ฉันมีคำตอบนี้เพราะฉันคิดว่า OP ขอให้การถดถอยเชิงเส้นจากหนังสือสถิติแบบดั้งเดิมที่เรามักจะมีสมมติฐานนี้เมื่อสอนการถดถอยเชิงเส้น
จากมุมมองเชิงทฤษฎีคำตอบข้างต้นนั้นถูกต้อง อย่างไรก็ตามในแง่ปฏิบัติทั้งหมดขึ้นอยู่กับโดเมนของข้อมูลของคุณและพลังการทำนายของแบบจำลองของคุณ
ตัวอย่างหนึ่งในชีวิตจริงคือโมเดลการล้มละลาย MDS แบบเก่า นี่เป็นหนึ่งในคะแนนความเสี่ยงเริ่มต้นที่ผู้ให้สินเชื่อเครดิตใช้ในการทำนายโอกาสที่ผู้กู้จะประกาศล้มละลาย รุ่นนี้ใช้ข้อมูลรายละเอียดจากรายงานเครดิตของผู้กู้และและสถานะไบนารี 0/1 เพื่อระบุว่าล้มละลายในช่วงการทำนาย จากนั้นป้อนข้อมูลนั้นลงใน ... อืม .. คุณเดาเอาเอง
การถดถอยเชิงเส้นแบบธรรมดา
ฉันเคยมีโอกาสพูดคุยกับหนึ่งในผู้ที่สร้างแบบจำลองนี้ ฉันถามเขาเกี่ยวกับการละเมิดสมมติฐาน เขาอธิบายว่าถึงแม้ว่ามันจะละเมิดสมมติฐานอย่างสมบูรณ์เกี่ยวกับของเหลือ ฯลฯ ก็ไม่สนใจ
ปรากฎ ...
โมเดลการถดถอยเชิงเส้น 0/1 นี้ (เมื่อปรับขนาด / ให้เป็นคะแนนที่อ่านง่ายและจับคู่กับการตัดที่เหมาะสม) ได้รับการตรวจสอบอย่างละเอียดเทียบกับตัวอย่างข้อมูลที่ค้างอยู่และดำเนินการเป็นอย่างดี / ไม่ดีสำหรับการล้มละลาย
แบบจำลองนี้ใช้สำหรับปีเป็นคะแนนเครดิตอันดับสองเพื่อป้องกันการล้มละลายเคียงข้างกับคะแนนความเสี่ยงของ FICO (ซึ่งออกแบบมาเพื่อทำนายการผิดนัดชำระเครดิต 60+ วัน)