มันสมเหตุสมผลหรือไม่ที่จะเพิ่มคำกำลังสอง แต่ไม่ใช่เชิงเส้นตรงกับแบบจำลอง?


57

ฉันมีแบบจำลอง (ผสม) ที่หนึ่งในตัวทำนายของฉันควรจะมีการจัดลำดับความสำคัญก่อนที่จะเกี่ยวข้องกับสมการกำลังสองเท่านั้น (เนื่องจากการจัดการทดลอง) ดังนั้นฉันต้องการเพิ่มเฉพาะคำกำลังสองเข้ากับโมเดล มีสองสิ่งที่ขัดขวางไม่ให้ทำเช่นนั้น:

  1. ฉันคิดว่าฉันอ่านมาแล้วว่าคุณควรจะรวมพหุนามลำดับที่ต่ำลงไปเสมอ ฉันลืมที่ฉันพบมันและในวรรณคดีที่ฉันดู (เช่น Faraway, 2002; Fox, 2002) ฉันไม่สามารถหาคำอธิบายที่ดีได้
  2. เมื่อฉันเพิ่มทั้งคำเชิงเส้นและกำลังสองทั้งสองมีความสำคัญ เมื่อฉันเพิ่มเพียงหนึ่งเดียวพวกเขาไม่สำคัญ อย่างไรก็ตามความสัมพันธ์เชิงเส้นของตัวทำนายและข้อมูลไม่สามารถตีความได้

บริบทของคำถามของฉันมีลักษณะเป็นแบบผสมโดยlme4เฉพาะ แต่ฉันอยากได้คำตอบที่สามารถอธิบายได้ว่าทำไมมันถึงเป็นหรือทำไมมันไม่เป็นไรที่จะรวมพหุนามลำดับที่สูงกว่าและไม่ใช่พหุนามลำดับที่ต่ำกว่า

หากจำเป็นฉันสามารถให้ข้อมูลได้


5
ฉันคิดว่าคำตอบสำหรับคำถามนี้อาจเป็นประโยชน์

6
ใช่ฉันเห็นด้วยกับ Procrastinator และคำถามในการโต้ตอบนั้นเป็นข้อพิจารณาเดียวกัน เรามีคำถามที่โหวตอย่างมากในหัวข้อ นอกเหนือจากข้อเสนอแนะของ Pro แล้วโปรดดูข้อกำหนดการโต้ตอบทั้งหมดต้องการคำศัพท์เฉพาะในรูปแบบการถดถอยหรือไม่ และจะเกิดอะไรขึ้นถ้าการปฏิสัมพันธ์ทำความสะอาดผลกระทบโดยตรงของฉันในการถดถอย .
Andy W

ขอบคุณสำหรับการเตือนคำถามเหล่านี้ จากคำตอบที่ให้ไว้ดูเหมือนว่ามันเป็นกลยุทธ์ที่โอเคถ้าคุณมีเหตุผลที่ดีก่อนที่จะรวมเฉพาะคำกำลังสองและไม่ผิดต่อ คำถามที่ยังคงเป็นคำถามเกี่ยวกับความสามารถในการปรับขนาดได้ (ดู: stats.stackexchange.com/a/27726/442 ) ฉันควรกำหนดตัวแปรของฉันให้อยู่ตรงกลางก่อนที่จะปรับให้เหมาะสมเมื่อใช้เฉพาะคำที่มีกำลังสองเท่านั้นหรือไม่
Henrik

1
@Henrik - คำตอบของฉันในลิงค์ที่คุณโพสต์นั้นเกี่ยวข้องกับวิธีการอนุมานแบบจำลองโดยขึ้นอยู่กับการเปลี่ยนแปลงโดยพลการในค่าของตัวทำนาย (เช่นหมายถึงการอยู่กึ่งกลาง) - มันไม่พึงปรารถนาที่จะมีข้อสรุปที่ชัดเจน คำถามคือ 'ไม่' ด้วยเหตุผลเดียวกัน
มาโคร

2
ปัญหาของสมการกำลังสองเชิงเส้นตรงกับแนวความคิดแตกต่างจากการโต้ตอบที่ฉันคิดว่านี่ไม่ควรพิจารณาซ้ำ
gung - Reinstate Monica

คำตอบ:


66

1. ทำไมรวมคำเชิงเส้น

มันเป็นความสว่างที่จะสังเกตเห็นว่าความสัมพันธ์กำลังสองสามารถเขียนได้สองวิธี:

y=a0+a1x+a2x2=a2(xb)2+c

2a2b=a1a2b2+c=a0x=b

a1x

y=a0+a2x2=a2(x0)2+c

c=a0a0b=0

x=0a1x

2. จะเข้าใจการเปลี่ยนแปลงที่สำคัญได้อย่างไรเมื่อรวมอยู่ในเงื่อนไขหรือไม่?

นี้จะกล่าวถึงในรายละเอียดมากในหัวข้อที่เกี่ยวข้องhttps://stats.stackexchange.com/a/28493

a2a1b


1
ขอบคุณมาก คำตอบที่ดี ดังนั้นถ้าฉันตั้งศูนย์ extremum เชิงทฤษฎีที่ 0 (จริง ๆ แล้วมันเป็นขั้นต่ำ) ฉันก็โอเคกับคำเชิงเส้นตรง สิ่งนี้นำไปสู่การทำนายกำลังสองอย่างมีนัยสำคัญสูง (ไม่มีเส้นตรง)
Henrik

หากทั้งเงื่อนไขเชิงเส้นและสมการกำลังสองของตัวแปรมีความสัมพันธ์กันฉันสามารถรวมทั้งสองอย่างไว้ในแบบจำลองได้หรือไม่หรือฉันควรยกเว้นหนึ่งข้อ (ซึ่งฉันคิดว่ามันควรเป็นกำลังสอง)
mtao

@Teresa ไม่มีเหตุผลทั่วไปที่จะกำจัดคำที่สัมพันธ์กันในการถดถอย (หากเป็นเช่นนั้นโมเดลการถดถอยส่วนใหญ่ที่เคยสร้างมาจะมีปัญหา!) คำศัพท์ที่มีความสัมพันธ์กันอย่างมากซึ่งไม่มีส่วนใดที่มีความหมายกับแบบจำลองที่เหมาะสมเมื่อเทียบกับคำใดคำหนึ่งเพียงอย่างเดียว
whuber

@whuber ขอบคุณมาก! นอกจากนี้สำหรับโมเดลการถดถอยโลจิสติกฉันใช้อัตราส่วนอัตราต่อรองในการประมาณขนาดผลกระทบ แต่เฉพาะกับคำเชิงเส้นเท่านั้น เมื่อฉันมีเส้นตรงและกำลังสองฉันสามารถใช้วิธีการเดียวกันและตีความผลลัพธ์ด้วยวิธีเดียวกันได้หรือไม่
mtao

ไม่มาก เหตุผลก็คือคุณไม่สามารถเปลี่ยนเงื่อนไขเชิงเส้นและกำลังสองแยกกันได้ คุณต้องพิจารณาว่าการตอบสนองจะเปลี่ยนแปลงอย่างไรเมื่อคุณเปลี่ยนตัวแปรดั้งเดิมเล็กน้อย
whuber

22

@whuber ได้รับคำตอบที่ยอดเยี่ยมจริงๆที่นี่ ฉันแค่ต้องการเพิ่มจุดเล็ก ๆ ฟรี คำถามระบุว่า "ความสัมพันธ์เชิงเส้นของตัวทำนายและข้อมูลไม่สามารถตีความได้" คำแนะนำนี้มีความเข้าใจผิดที่พบบ่อยแม้ว่าฉันมักจะได้ยินมันที่ปลายอีกด้านหนึ่ง


GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(เกรดเฉลี่ยหมายถึงเกรดเฉลี่ย
อันดับเป็นลำดับของเกรดเฉลี่ยของนักเรียนเทียบกับนักเรียนคนอื่น ๆ ในโรงเรียนมัธยมเดียวกัน &
SAT หมายถึง 'แบบทดสอบความถนัดทางวิชาการ' ซึ่งเป็นมาตรฐานแบบทดสอบทั่วประเทศสำหรับนักเรียนที่ไปมหาวิทยาลัย)

β1

อย่างไรก็ตามสิ่งสำคัญคือต้องทราบว่าไม่อนุญาตให้ตีความแบบจำลองในลักษณะนี้ได้เสมอไป กรณีที่เห็นได้ชัดอย่างหนึ่งคือเมื่อมีการโต้ตอบระหว่างตัวแปรบางตัวเนื่องจากมันจะเป็นไปไม่ได้ที่คำแต่ละคำจะแตกต่างกันและยังคงมีความคงที่อื่น - คงที่ความจำเป็นคำโต้ตอบจะเปลี่ยนไปเช่นกัน ดังนั้นเมื่อมีการโต้ตอบกันเราจะไม่ตีความผลกระทบหลัก แต่เป็นผลกระทบที่เข้าใจง่ายเท่านั้น


y^=β0+β1x+β2x2
xxx2x2xx17pp1xyy^x
dydx=β1+2β2x
yxy xyxoldxnew. นี่เป็นเพียงลักษณะของความสัมพันธ์แบบ curvilinear

1
การตอบสนองที่ยอดเยี่ยม! นี้ทำให้ผมนึกถึงการตอบสนองที่ดีเยี่ยมไม่กี่ CHL ผู้ใช้มีการให้บริการในการตีความผลกระทบการทำงานร่วมกัน เขาให้การอ้างอิงบทความในการตอบสนองนี้อะไรคือวิธีปฏิบัติที่ดีที่สุดในการระบุเอฟเฟกต์การโต้ตอบ? . และให้ตัวอย่างที่ยอดเยี่ยมในการแสดงปฏิสัมพันธ์แบบกราฟิกโดยใช้ coplots ในการตอบสนองนี้การปฏิสัมพันธ์เป็นไปได้ระหว่างตัวแปรต่อเนื่องสองตัวหรือไม่ .
Andy W

1
สำหรับคำตอบของ Gung ฉันแค่อยากจะบอกว่าการสร้างแบบจำลองทางสถิติเกี่ยวข้องกับเสียงรบกวนซึ่งสามารถปิดบังรายละเอียดในแบบจำลองการถดถอยพหุนาม ฉันคิดว่าประเด็นที่อยู่ตรงกลางที่ Bill Huber ยกมานั้นเป็นเกรตาหนึ่งเพราะใน formualtion หนึ่งคำเชิงเส้นหายไป ความแรงของความโค้งในสัญญาณบ่งบอกถึงความต้องการคำสั่งที่สูงกว่าคำสั่งแรก แต่จริงๆแล้วเราไม่ได้บอกอะไรเกี่ยวกับความต้องการคำเชิงเส้นด้วยเช่นกัน
Michael Chernick

7

x=0

Y=b0+b2(xx¯)2x¯xx=x¯

คำแถลงของคุณว่าคำเชิงเส้นและสมการกำลังสองมีความสำคัญเมื่อทั้งคู่ถูกป้อนต้องการการชี้แจงบางอย่าง ตัวอย่างเช่น SAS อาจรายงานการทดสอบ Type I และ / หรือการทดสอบ Type III สำหรับตัวอย่างนั้น ฉันพิมพ์ทดสอบเชิงเส้นก่อนที่จะใส่ในกำลังสอง Type III ทดสอบเส้นตรงกับสมการกำลังสองในรูปแบบ


2
x2x=0x=x¯xx2ที่เกิดขึ้น
gung - Reinstate Monica

ในบันทึกอื่นคุณสามารถอ้างถึงการมีส่วนร่วมของผู้ใช้โดยการระบุชื่อผู้ใช้ของพวกเขาเป็นไปได้ด้วยสัญลักษณ์ 'ที่' เช่นในกรณีนี้คำตอบ '@ whuber ของถูกต้องในเป้าหมาย ... ' (ความเชื่อมั่นที่ฉันเห็นด้วย)
gung - Reinstate Monica

1
ขอขอบคุณ Emil ที่ช่วยเตือนพวกเขา: พวกเขาทั้งคู่ควรค่าแก่การนึกถึง
whuber

3

Brambor, Clark และ Golder (2006) (ซึ่งมาพร้อมกับภาคผนวกอินเทอร์เน็ต ) มีวิธีที่ชัดเจนในการทำความเข้าใจรูปแบบปฏิสัมพันธ์และวิธีหลีกเลี่ยงข้อผิดพลาดทั่วไปรวมถึงสาเหตุที่คุณควร (เกือบ) เสมอรวมถึงคำสั่งที่ต่ำกว่าเสมอ ( "คำที่เป็นส่วนประกอบ") ในแบบจำลองการโต้ตอบ

นักวิเคราะห์ควรรวมคำที่เป็นส่วนประกอบทั้งหมดเมื่อระบุตัวแบบการปฏิสัมพันธ์แบบหลายค่ายกเว้นในสถานการณ์ที่หายากมาก โดยคำที่เป็นส่วนประกอบเราหมายถึงองค์ประกอบแต่ละอย่างที่เป็นคำที่ใช้ในการโต้ตอบ [ .. ]

X2XZJXX2XZJXZXJZJXZJ

ความล้มเหลวในการทำเช่นนั้นอาจส่งผลให้มีรูปแบบที่ไม่ได้ระบุซึ่งจะนำไปสู่การประมาณการแบบเอนเอียง สิ่งนี้อาจทำให้เกิดข้อผิดพลาดได้

ZXZXZβ0β1β3

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.