ในการถดถอยเชิงเส้นเหตุใดตัวแปรตอบสนองจึงต้องต่อเนื่อง


13

ฉันรู้ว่าในการถดถอยเชิงเส้นตัวแปรตอบสนองจะต้องต่อเนื่อง แต่ทำไมถึงเป็นเช่นนั้น? ฉันไม่สามารถหาข้อมูลออนไลน์ที่อธิบายได้ว่าทำไมฉันไม่สามารถใช้ข้อมูลแยกสำหรับตัวแปรตอบกลับ

คำตอบ:


25

ไม่มีอะไรหยุดคุณโดยใช้การถดถอยเชิงเส้นในสองคอลัมน์ของตัวเลขที่คุณต้องการ มีหลายครั้งที่อาจเป็นตัวเลือกที่สมเหตุสมผล

อย่างไรก็ตามคุณสมบัติของสิ่งที่คุณออกไปไม่จำเป็นว่าจะมีประโยชน์ (เช่นไม่จำเป็นต้องเป็นสิ่งที่คุณต้องการให้เป็น)

โดยทั่วไปแล้วการถดถอยคุณกำลังพยายามปรับความสัมพันธ์ระหว่างค่าเฉลี่ยตามเงื่อนไขของ Y และตัวทำนาย - นั่นคือความสัมพันธ์ที่เหมาะสมของบางรูปแบบ ; การสร้างแบบจำลองเนื้อหาพฤติกรรมของความคาดหวังตามเงื่อนไขคือ 'ถดถอย' คืออะไร [การถดถอยเชิงเส้นคือเมื่อคุณใช้รูปแบบเฉพาะสำหรับ ]gE(Y|x)=g(x)g

ตัวอย่างเช่นพิจารณากรณีสุดขีดของความไม่ลงรอยกันซึ่งเป็นตัวแปรตอบกลับซึ่งการแจกแจงอยู่ที่ 0 หรือ 1 และใช้ค่า 1 ที่มีความน่าจะเป็นซึ่งเปลี่ยนแปลงตามการทำนาย ( ) บางตัวที่เปลี่ยนแปลง นั่นคือx)E ( Y | x ) = P ( Y = 1 | X = x )xE(Y|x)=P(Y=1|X=x)

หากคุณเหมาะสมกับความสัมพันธ์แบบนั้นกับตัวแบบการถดถอยเชิงเส้นนอกเหนือจากช่วงแคบ ๆ มันจะทำนายค่าสำหรับที่เป็นไปไม่ได้ - ต่ำกว่าหรือสูงกว่า :0 1E(Y)01

ข้อมูล 0-1 และกำลังสองน้อยที่สุดพอดี

ที่จริงแล้วมันเป็นไปได้ที่จะเห็นว่าเมื่อความคาดหวังเข้าใกล้ขอบเขตค่าจะต้องนำค่าที่ขอบเขตนั้นมาใช้บ่อยขึ้นเรื่อย ๆ ดังนั้นความแปรปรวนของมันจึงน้อยลงถ้าความคาดหวังอยู่ใกล้กลาง - ความแปรปรวนจะต้องลดลงเป็น 0 ดังนั้นการถดถอยปกติทำให้น้ำหนักไม่ถูกต้องทำให้ข้อมูลในภูมิภาคต่ำกว่าความคาดหวังตามเงื่อนไขใกล้ 0 หรือ 1 เอฟเฟกต์ SImilar จะเกิดขึ้นหากคุณมีตัวแปรที่ล้อมรอบระหว่าง a และ b พูด (เช่นการสังเกตแต่ละครั้ง จากจำนวนที่เป็นไปได้ทั้งหมดที่ทราบสำหรับการสังเกตนั้น)

นอกจากนี้เราคาดหวังว่าค่าเฉลี่ยของเงื่อนไขจะไม่แสดงถึงขีด จำกัด บนและล่างซึ่งหมายความว่าโดยปกติแล้วความสัมพันธ์จะโค้งไม่ตรงดังนั้นการถดถอยเชิงเส้นของเราน่าจะผิดภายในช่วงของข้อมูลเช่นกัน

ปัญหาที่คล้ายกันเกิดขึ้นกับข้อมูลที่ล้อมรอบด้านเดียวเท่านั้น (เช่นจำนวนที่ไม่มีขอบเขตด้านบน) เมื่อคุณอยู่ใกล้กับขอบเขตนั้น

เป็นไปได้ (ถ้าหายาก) เพื่อให้มีข้อมูลที่ไม่ต่อเนื่องซึ่งไม่ จำกัด ขอบเขตที่ปลายทั้งสองด้าน ถ้าตัวแปรมีค่าต่างกันมากความไม่น่าจะเป็นไปได้ค่อนข้างน้อยตราบใดที่คำอธิบายของค่าเฉลี่ยและความแปรปรวนมีเหตุผล

นี่คือตัวอย่างที่เหมาะสมอย่างยิ่งที่จะใช้การถดถอยเชิงเส้นใน:

เนื้อเรื่องแสดงการแยก y เป็นฟังก์ชันของ x โดยที่การถดถอยเชิงเส้นสมเหตุสมผล

แม้ว่าในแถบค่า x บาง ๆ มีค่า y ที่แตกต่างกันเพียงไม่กี่อย่างที่น่าจะสังเกตได้ (ประมาณ 10 รอบสำหรับช่วงกว้าง 1) การคาดหวังนั้นสามารถประมาณได้ดีและแม้แต่ข้อผิดพลาดมาตรฐานและ p- ค่าและช่วงความเชื่อมั่นทั้งหมดจะสมเหตุสมผลมากหรือน้อยในกรณีนี้โดยเฉพาะ ช่วงเวลาการทำนายจะมีแนวโน้มที่จะทำงานได้ค่อนข้างดี (เนื่องจากการไม่ได้มาตรฐานจะมีผลกระทบโดยตรงมากขึ้นในกรณีนั้น)

-

หากคุณต้องการทำการทดสอบสมมติฐานหรือคำนวณความเชื่อมั่นหรือช่วงเวลาการคาดการณ์ขั้นตอนปกติจะทำให้สมมติฐานเป็นปกติ ในบางสถานการณ์ที่สำคัญ อย่างไรก็ตามมีความเป็นไปได้ที่จะอนุมานโดยไม่มีการตั้งสมมติฐานโดยเฉพาะ


ขอบคุณไม่แน่ใจว่าฉันเข้าใจทุกสิ่งที่คุณพูด แต่ฉันจะทำงานให้
ilovestats

3
หากคุณมีคำถามเฉพาะฉันสามารถลองตอบคำถามเหล่านี้ได้
Glen_b

@ilovestats ฉันมี MA ในสาขาเศรษฐมิติและฉันสามารถรับประกันได้ว่าคำตอบนี้คุ้มค่าที่จะเข้าใจทุกคำ คำตอบที่ยอดเยี่ยมด้วยพื้นฐานที่เรียบง่าย / ดีในการแนะนำการถดถอยโลจิสติก
d8aninja

3

ฉันไม่สามารถแสดงความคิดเห็นดังนั้นฉันจะตอบ: ในการถดถอยเชิงเส้นปกติตัวแปรตอบสนองไม่จำเป็นต้องต่อเนื่องสันนิษฐานของคุณไม่ได้:

y=β0+β1x

แต่คือ:

E[y]=β0+β1x.

การถดถอยเชิงเส้นปกติเกิดขึ้นจากการย่อขนาดของส่วนที่เหลือกำลังสองซึ่งเป็นวิธีที่เชื่อว่าเหมาะสมสำหรับตัวแปรต่อเนื่องและไม่ต่อเนื่อง (ดูทฤษฎีบทเกาส์ - มาร์กอฟ) แน่นอนว่าโดยทั่วไปจะใช้ความเชื่อมั่นหรือการทำนายช่วงเวลาและการทดสอบสมมติฐานวางอยู่บนสมมติฐานการแจกแจงปกติเช่น Glen_b ชี้ให้เห็นอย่างถูกต้อง แต่การประมาณ OLS ของพารามิเตอร์ไม่ได้


2

ในการถดถอยเชิงเส้นเหตุผลที่เราต้องการการตอบสนองอย่างต่อเนื่องคือการต่อสู้จากสมมติฐานที่เราทำ หากตัวแปรอิสระต่อเนื่องเราจะถือว่าความสัมพันธ์เชิงเส้นระหว่างและคือxyxy

y=β0+β1x+ϵ

โดยที่เหลือเป็นเรื่องปกติ และรูปแบบสูตรที่เรารู้ว่านั้นต่อเนื่องyϵy

ในอีกรูปแบบเชิงเส้นทั่วไปตัวแปรตอบสนองสามารถแยก / เด็ดขาด (ถดถอยโลจิสติก) หรือนับ (ปัวซองถดถอย)


แก้ไขที่อยู่ที่เครื่องหมาย 999 และแสดงความคิดเห็นใหม่อีกครั้ง

การถดถอยเชิงเส้นเป็นคำทั่วไปที่ผู้ใช้อาจแตกต่างกัน ไม่มีอะไรที่จะป้องกันไม่ให้เราใช้กับตัวแปรที่ไม่ต่อเนื่องหรือตัวแปรอิสระและตัวแปรตามไม่ได้เป็นเชิงเส้น

หากเราสมมติว่าไม่มีอะไรและรันการถดถอยเชิงเส้นเราก็ยังสามารถได้ผลลัพธ์ และถ้าผลลัพธ์ตรงตามความต้องการของเรากระบวนการทั้งหมดก็โอเค อย่างไรก็ตามอย่างที่ Glan_b พูด

หากคุณต้องการทำการทดสอบสมมติฐานหรือคำนวณความเชื่อมั่นหรือช่วงเวลาการคาดการณ์ขั้นตอนปกติจะทำให้สมมติฐานเป็นปกติ

ฉันมีคำตอบนี้เพราะฉันคิดว่า OP ขอให้การถดถอยเชิงเส้นจากหนังสือสถิติแบบดั้งเดิมที่เรามักจะมีสมมติฐานนี้เมื่อสอนการถดถอยเชิงเส้น


ขอบคุณฉันเข้าใจคำอธิบายของคุณ นิยมมากที่สุด
ilovestats

1
คุณสามารถอธิบายได้หรือไม่ว่าทำไมตัวแปรอธิบายสามารถเป็นแบบต่อเนื่องหรือไม่ต่อเนื่องได้ ในคำอธิบายของคุณคุณพูด (และสมเหตุสมผล) ว่าตัวแปรอิสระ x นั้นต่อเนื่อง
ilovestats

2
ฉันไม่คิดว่าคำตอบนี้ถูกต้อง ตัวแปรการตอบสนองไม่ถือว่าเป็นฟังก์ชันที่กำหนดขึ้นของตัวแปรอธิบายและไม่จำเป็นต้องคิดว่าตัวแปรอธิบายนั้นต่อเนื่อง
mark999

2
ผลลัพธ์อาจไม่ต่อเนื่องหรือขัดแย้งคำตอบนี้ผิดธรรมดา
Repmat

@Repmat ขอบคุณสำหรับความคิดเห็นของคุณโปรดตรวจสอบการแก้ไขของฉัน
Haitao Du

0

มันไม่ได้ หากรูปแบบการทำงานใครสนใจ?

จากมุมมองเชิงทฤษฎีคำตอบข้างต้นนั้นถูกต้อง อย่างไรก็ตามในแง่ปฏิบัติทั้งหมดขึ้นอยู่กับโดเมนของข้อมูลของคุณและพลังการทำนายของแบบจำลองของคุณ

ตัวอย่างหนึ่งในชีวิตจริงคือโมเดลการล้มละลาย MDS แบบเก่า นี่เป็นหนึ่งในคะแนนความเสี่ยงเริ่มต้นที่ผู้ให้สินเชื่อเครดิตใช้ในการทำนายโอกาสที่ผู้กู้จะประกาศล้มละลาย รุ่นนี้ใช้ข้อมูลรายละเอียดจากรายงานเครดิตของผู้กู้และและสถานะไบนารี 0/1 เพื่อระบุว่าล้มละลายในช่วงการทำนาย จากนั้นป้อนข้อมูลนั้นลงใน ... อืม .. คุณเดาเอาเอง

การถดถอยเชิงเส้นแบบธรรมดา

ฉันเคยมีโอกาสพูดคุยกับหนึ่งในผู้ที่สร้างแบบจำลองนี้ ฉันถามเขาเกี่ยวกับการละเมิดสมมติฐาน เขาอธิบายว่าถึงแม้ว่ามันจะละเมิดสมมติฐานอย่างสมบูรณ์เกี่ยวกับของเหลือ ฯลฯ ก็ไม่สนใจ

ปรากฎ ...

โมเดลการถดถอยเชิงเส้น 0/1 นี้ (เมื่อปรับขนาด / ให้เป็นคะแนนที่อ่านง่ายและจับคู่กับการตัดที่เหมาะสม) ได้รับการตรวจสอบอย่างละเอียดเทียบกับตัวอย่างข้อมูลที่ค้างอยู่และดำเนินการเป็นอย่างดี / ไม่ดีสำหรับการล้มละลาย

แบบจำลองนี้ใช้สำหรับปีเป็นคะแนนเครดิตอันดับสองเพื่อป้องกันการล้มละลายเคียงข้างกับคะแนนความเสี่ยงของ FICO (ซึ่งออกแบบมาเพื่อทำนายการผิดนัดชำระเครดิต 60+ วัน)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.