13

ฉันรู้ว่าในการถดถอยเชิงเส้นตัวแปรตอบสนองจะต้องต่อเนื่อง แต่ทำไมถึงเป็นเช่นนั้น? ฉันไม่สามารถหาข้อมูลออนไลน์ที่อธิบายได้ว่าทำไมฉันไม่สามารถใช้ข้อมูลแยกสำหรับตัวแปรตอบกลับ

regression linear

— ilovestats
แหล่งที่มา

25

ไม่มีอะไรหยุดคุณโดยใช้การถดถอยเชิงเส้นในสองคอลัมน์ของตัวเลขที่คุณต้องการ มีหลายครั้งที่อาจเป็นตัวเลือกที่สมเหตุสมผล

อย่างไรก็ตามคุณสมบัติของสิ่งที่คุณออกไปไม่จำเป็นว่าจะมีประโยชน์ (เช่นไม่จำเป็นต้องเป็นสิ่งที่คุณต้องการให้เป็น)

โดยทั่วไปแล้วการถดถอยคุณกำลังพยายามปรับความสัมพันธ์ระหว่างค่าเฉลี่ยตามเงื่อนไขของ Y และตัวทำนาย - นั่นคือความสัมพันธ์ที่เหมาะสมของบางรูปแบบ ; การสร้างแบบจำลองเนื้อหาพฤติกรรมของความคาดหวังตามเงื่อนไขคือ 'ถดถอย' คืออะไร [การถดถอยเชิงเส้นคือเมื่อคุณใช้รูปแบบเฉพาะสำหรับ ] $E(Y|x) = g(x)$ $g$

ตัวอย่างเช่นพิจารณากรณีสุดขีดของความไม่ลงรอยกันซึ่งเป็นตัวแปรตอบกลับซึ่งการแจกแจงอยู่ที่ 0 หรือ 1 และใช้ค่า 1 ที่มีความน่าจะเป็นซึ่งเปลี่ยนแปลงตามการทำนาย ( ) บางตัวที่เปลี่ยนแปลง นั่นคือx) $x$ $E(Y|x) = P(Y=1|X=x)$

หากคุณเหมาะสมกับความสัมพันธ์แบบนั้นกับตัวแบบการถดถอยเชิงเส้นนอกเหนือจากช่วงแคบ ๆ มันจะทำนายค่าสำหรับที่เป็นไปไม่ได้ - ต่ำกว่าหรือสูงกว่า : $E(Y)$ $0$ $1$

ที่จริงแล้วมันเป็นไปได้ที่จะเห็นว่าเมื่อความคาดหวังเข้าใกล้ขอบเขตค่าจะต้องนำค่าที่ขอบเขตนั้นมาใช้บ่อยขึ้นเรื่อย ๆ ดังนั้นความแปรปรวนของมันจึงน้อยลงถ้าความคาดหวังอยู่ใกล้กลาง - ความแปรปรวนจะต้องลดลงเป็น 0 ดังนั้นการถดถอยปกติทำให้น้ำหนักไม่ถูกต้องทำให้ข้อมูลในภูมิภาคต่ำกว่าความคาดหวังตามเงื่อนไขใกล้ 0 หรือ 1 เอฟเฟกต์ SImilar จะเกิดขึ้นหากคุณมีตัวแปรที่ล้อมรอบระหว่าง a และ b พูด (เช่นการสังเกตแต่ละครั้ง จากจำนวนที่เป็นไปได้ทั้งหมดที่ทราบสำหรับการสังเกตนั้น)

นอกจากนี้เราคาดหวังว่าค่าเฉลี่ยของเงื่อนไขจะไม่แสดงถึงขีด จำกัด บนและล่างซึ่งหมายความว่าโดยปกติแล้วความสัมพันธ์จะโค้งไม่ตรงดังนั้นการถดถอยเชิงเส้นของเราน่าจะผิดภายในช่วงของข้อมูลเช่นกัน

ปัญหาที่คล้ายกันเกิดขึ้นกับข้อมูลที่ล้อมรอบด้านเดียวเท่านั้น (เช่นจำนวนที่ไม่มีขอบเขตด้านบน) เมื่อคุณอยู่ใกล้กับขอบเขตนั้น

เป็นไปได้ (ถ้าหายาก) เพื่อให้มีข้อมูลที่ไม่ต่อเนื่องซึ่งไม่ จำกัด ขอบเขตที่ปลายทั้งสองด้าน ถ้าตัวแปรมีค่าต่างกันมากความไม่น่าจะเป็นไปได้ค่อนข้างน้อยตราบใดที่คำอธิบายของค่าเฉลี่ยและความแปรปรวนมีเหตุผล

นี่คือตัวอย่างที่เหมาะสมอย่างยิ่งที่จะใช้การถดถอยเชิงเส้นใน:

แม้ว่าในแถบค่า x บาง ๆ มีค่า y ที่แตกต่างกันเพียงไม่กี่อย่างที่น่าจะสังเกตได้ (ประมาณ 10 รอบสำหรับช่วงกว้าง 1) การคาดหวังนั้นสามารถประมาณได้ดีและแม้แต่ข้อผิดพลาดมาตรฐานและ p- ค่าและช่วงความเชื่อมั่นทั้งหมดจะสมเหตุสมผลมากหรือน้อยในกรณีนี้โดยเฉพาะ ช่วงเวลาการทำนายจะมีแนวโน้มที่จะทำงานได้ค่อนข้างดี (เนื่องจากการไม่ได้มาตรฐานจะมีผลกระทบโดยตรงมากขึ้นในกรณีนั้น)

-

หากคุณต้องการทำการทดสอบสมมติฐานหรือคำนวณความเชื่อมั่นหรือช่วงเวลาการคาดการณ์ขั้นตอนปกติจะทำให้สมมติฐานเป็นปกติ ในบางสถานการณ์ที่สำคัญ อย่างไรก็ตามมีความเป็นไปได้ที่จะอนุมานโดยไม่มีการตั้งสมมติฐานโดยเฉพาะ

— Glen_b -Reinstate Monica
แหล่งที่มา

ขอบคุณไม่แน่ใจว่าฉันเข้าใจทุกสิ่งที่คุณพูด แต่ฉันจะทำงานให้

— ilovestats

3

หากคุณมีคำถามเฉพาะฉันสามารถลองตอบคำถามเหล่านี้ได้

— Glen_b

@ilovestats ฉันมี MA ในสาขาเศรษฐมิติและฉันสามารถรับประกันได้ว่าคำตอบนี้คุ้มค่าที่จะเข้าใจทุกคำ คำตอบที่ยอดเยี่ยมด้วยพื้นฐานที่เรียบง่าย / ดีในการแนะนำการถดถอยโลจิสติก

— d8aninja

3

ฉันไม่สามารถแสดงความคิดเห็นดังนั้นฉันจะตอบ: ในการถดถอยเชิงเส้นปกติตัวแปรตอบสนองไม่จำเป็นต้องต่อเนื่องสันนิษฐานของคุณไม่ได้:

y = β_{0} + β_{1} x

$y = β_0 + β_1x$

แต่คือ:

E [y] = β_{0} + β_{1} x .

$E[y] = β_0 + β_1x.$

การถดถอยเชิงเส้นปกติเกิดขึ้นจากการย่อขนาดของส่วนที่เหลือกำลังสองซึ่งเป็นวิธีที่เชื่อว่าเหมาะสมสำหรับตัวแปรต่อเนื่องและไม่ต่อเนื่อง (ดูทฤษฎีบทเกาส์ - มาร์กอฟ) แน่นอนว่าโดยทั่วไปจะใช้ความเชื่อมั่นหรือการทำนายช่วงเวลาและการทดสอบสมมติฐานวางอยู่บนสมมติฐานการแจกแจงปกติเช่น Glen_b ชี้ให้เห็นอย่างถูกต้อง แต่การประมาณ OLS ของพารามิเตอร์ไม่ได้

— คาร์โล
แหล่งที่มา

2

ในการถดถอยเชิงเส้นเหตุผลที่เราต้องการการตอบสนองอย่างต่อเนื่องคือการต่อสู้จากสมมติฐานที่เราทำ หากตัวแปรอิสระต่อเนื่องเราจะถือว่าความสัมพันธ์เชิงเส้นระหว่างและคือ $x$ $x$ $y$

y = β_{0} + β_{1} x + ϵ

$y=\beta_0+\beta_1 x+\epsilon$

โดยที่เหลือเป็นเรื่องปกติ และรูปแบบสูตรที่เรารู้ว่านั้นต่อเนื่อง $\epsilon$ $y$

ในอีกรูปแบบเชิงเส้นทั่วไปตัวแปรตอบสนองสามารถแยก / เด็ดขาด (ถดถอยโลจิสติก) หรือนับ (ปัวซองถดถอย)

แก้ไขที่อยู่ที่เครื่องหมาย 999 และแสดงความคิดเห็นใหม่อีกครั้ง

การถดถอยเชิงเส้นเป็นคำทั่วไปที่ผู้ใช้อาจแตกต่างกัน ไม่มีอะไรที่จะป้องกันไม่ให้เราใช้กับตัวแปรที่ไม่ต่อเนื่องหรือตัวแปรอิสระและตัวแปรตามไม่ได้เป็นเชิงเส้น

หากเราสมมติว่าไม่มีอะไรและรันการถดถอยเชิงเส้นเราก็ยังสามารถได้ผลลัพธ์ และถ้าผลลัพธ์ตรงตามความต้องการของเรากระบวนการทั้งหมดก็โอเค อย่างไรก็ตามอย่างที่ Glan_b พูด

หากคุณต้องการทำการทดสอบสมมติฐานหรือคำนวณความเชื่อมั่นหรือช่วงเวลาการคาดการณ์ขั้นตอนปกติจะทำให้สมมติฐานเป็นปกติ

ฉันมีคำตอบนี้เพราะฉันคิดว่า OP ขอให้การถดถอยเชิงเส้นจากหนังสือสถิติแบบดั้งเดิมที่เรามักจะมีสมมติฐานนี้เมื่อสอนการถดถอยเชิงเส้น

— ไห่เทาดู
แหล่งที่มา

ขอบคุณฉันเข้าใจคำอธิบายของคุณ นิยมมากที่สุด

— ilovestats

1

คุณสามารถอธิบายได้หรือไม่ว่าทำไมตัวแปรอธิบายสามารถเป็นแบบต่อเนื่องหรือไม่ต่อเนื่องได้ ในคำอธิบายของคุณคุณพูด (และสมเหตุสมผล) ว่าตัวแปรอิสระ x นั้นต่อเนื่อง

— ilovestats

2

ฉันไม่คิดว่าคำตอบนี้ถูกต้อง ตัวแปรการตอบสนองไม่ถือว่าเป็นฟังก์ชันที่กำหนดขึ้นของตัวแปรอธิบายและไม่จำเป็นต้องคิดว่าตัวแปรอธิบายนั้นต่อเนื่อง

— mark999

2

ผลลัพธ์อาจไม่ต่อเนื่องหรือขัดแย้งคำตอบนี้ผิดธรรมดา

— Repmat

@Repmat ขอบคุณสำหรับความคิดเห็นของคุณโปรดตรวจสอบการแก้ไขของฉัน

— Haitao Du

0

มันไม่ได้ หากรูปแบบการทำงานใครสนใจ?

จากมุมมองเชิงทฤษฎีคำตอบข้างต้นนั้นถูกต้อง อย่างไรก็ตามในแง่ปฏิบัติทั้งหมดขึ้นอยู่กับโดเมนของข้อมูลของคุณและพลังการทำนายของแบบจำลองของคุณ

ตัวอย่างหนึ่งในชีวิตจริงคือโมเดลการล้มละลาย MDS แบบเก่า นี่เป็นหนึ่งในคะแนนความเสี่ยงเริ่มต้นที่ผู้ให้สินเชื่อเครดิตใช้ในการทำนายโอกาสที่ผู้กู้จะประกาศล้มละลาย รุ่นนี้ใช้ข้อมูลรายละเอียดจากรายงานเครดิตของผู้กู้และและสถานะไบนารี 0/1 เพื่อระบุว่าล้มละลายในช่วงการทำนาย จากนั้นป้อนข้อมูลนั้นลงใน ... อืม .. คุณเดาเอาเอง

การถดถอยเชิงเส้นแบบธรรมดา

ฉันเคยมีโอกาสพูดคุยกับหนึ่งในผู้ที่สร้างแบบจำลองนี้ ฉันถามเขาเกี่ยวกับการละเมิดสมมติฐาน เขาอธิบายว่าถึงแม้ว่ามันจะละเมิดสมมติฐานอย่างสมบูรณ์เกี่ยวกับของเหลือ ฯลฯ ก็ไม่สนใจ

ปรากฎ ...

โมเดลการถดถอยเชิงเส้น 0/1 นี้ (เมื่อปรับขนาด / ให้เป็นคะแนนที่อ่านง่ายและจับคู่กับการตัดที่เหมาะสม) ได้รับการตรวจสอบอย่างละเอียดเทียบกับตัวอย่างข้อมูลที่ค้างอยู่และดำเนินการเป็นอย่างดี / ไม่ดีสำหรับการล้มละลาย

แบบจำลองนี้ใช้สำหรับปีเป็นคะแนนเครดิตอันดับสองเพื่อป้องกันการล้มละลายเคียงข้างกับคะแนนความเสี่ยงของ FICO (ซึ่งออกแบบมาเพื่อทำนายการผิดนัดชำระเครดิต 60+ วัน)

— เจย์สตีเวนส์
แหล่งที่มา

ในการถดถอยเชิงเส้นเหตุใดตัวแปรตอบสนองจึงต้องต่อเนื่อง

มันไม่ได้ หากรูปแบบการทำงานใครสนใจ?