วิธีรวมและเข้ากับการถดถอยและจะรวมศูนย์ไว้ที่ใด


9

ฉันต้องการรวมคำว่าxและ square x2 (ตัวแปรทำนาย) ลงในการถดถอยเพราะฉันคิดว่าค่าต่ำของxมีผลในเชิงบวกต่อตัวแปรตามและค่าสูงมีผลกระทบเชิงลบ x2ควรจับผลกระทบของค่าที่สูงขึ้น ฉันจึงคาดหวังว่าสัมประสิทธิ์ของxจะเป็นค่าบวกและค่าสัมประสิทธิ์ของx2จะเป็นค่าลบ นอกจากxผมยังรวมถึงตัวแปรอื่น ๆ

ฉันอ่านในบางกระทู้ที่นี่เป็นความคิดที่ดีที่จะจัดวางตัวแปรในกรณีนี้เพื่อหลีกเลี่ยง เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน

  1. ฉันควรจะอยู่ตรงกลางทั้งสองตัวแปรแยก (ที่ค่าเฉลี่ย) หรือควรจะฉันเพียงศูนย์และจากนั้นใช้ตารางหรือฉันควรเพียงศูนย์และรวมถึงต้นฉบับ ?xx2x

  2. มันเป็นปัญหาหรือไม่ถ้าเป็นจำนวนตัวแปร?x

เพื่อหลีกเลี่ยงเป็นตัวแปรนับฉันคิดถึงการหารมันด้วยพื้นที่ที่กำหนดตามหลักวิชาเช่น 5 ตารางกิโลเมตร นี่ควรจะคล้ายกับการคำนวณความหนาแน่นของจุดx

อย่างไรก็ตามฉันกลัวว่าในสถานการณ์นี้การสันนิษฐานเบื้องต้นของฉันเกี่ยวกับเครื่องหมายของสัมประสิทธิ์จะไม่ถืออีกต่อไปเช่นเมื่อและx² = 4x=2x²=4

x=2/5 km2 = 0.4 km2

แต่x2จากนั้นก็จะมีขนาดเล็กเพราะ x2=(2/5)2=0.160.16


1
ซอฟต์แวร์การถดถอยของคุณจะจัดการกับปัญหาตัวเลขโดยอัตโนมัติโดยเฉพาะอย่างยิ่งมีแนวโน้มที่จะอยู่ตรงกลางและเป็นมาตรฐานข้อมูลของคุณภายใน วิธีตอบคำถามของคุณเกี่ยวกับการจัดกึ่งกลางลงมาเป็นวิธีที่คุณต้องการตีความสัมประสิทธิ์
whuber

คำตอบ:


4

คำถามของคุณในความเป็นจริงประกอบด้วยคำถามย่อยหลายคำถามซึ่งฉันจะพยายามตอบคำถามให้ดีที่สุด

  • วิธีการแยกความแตกต่างของการพึ่งพาค่าต่ำและสูงในการถดถอยหรือไม่?

การพิจารณาและเป็นวิธีการทำ แต่คุณแน่ใจหรือว่าการทดสอบของคุณเป็นข้อสรุป? คุณจะสามารถสรุปสิ่งที่มีประโยชน์สำหรับผลลัพธ์ที่เป็นไปได้ทั้งหมดของการถดถอยหรือไม่? ฉันคิดว่าการวางคำถามอย่างชัดเจนล่วงหน้าสามารถช่วยได้และการถามคำถามที่คล้ายกันและคำถามที่เกี่ยวข้องสามารถช่วยได้เช่นกัน ตัวอย่างเช่นคุณสามารถพิจารณาขีด จำกัด ของที่ความชันของการถดถอยต่างกัน ซึ่งสามารถทำได้โดยใช้ตัวแปรผู้ดูแล หากความลาดชันที่แตกต่างกัน (ในขณะที่การสกัดกั้นเดียวกัน) เข้ากันได้คุณจะไม่มีความแตกต่างมิฉะนั้นคุณจะต้องระบุเหตุผลที่ชัดเจนสำหรับความแตกต่างxx2x

  • คุณควรจัดกึ่งกลางและปรับรูปแบบเมื่อใด

ฉันคิดว่าคำถามนี้ไม่ควรนำมาผสมกับคำถามแรกและการทดสอบและฉันเกรงว่าการมีศูนย์กลางอยู่ที่หรือก่อนหน้าอาจทำให้เกิดอคติกับผลลัพธ์ ฉันจะแนะนำไม่ให้อยู่กึ่งกลางอย่างน้อยในระยะแรก โปรดจำไว้ว่าคุณอาจจะไม่ตายไปจากความหลากสีผู้เขียนหลายคนอ้างว่ามันเทียบเท่ากับการทำงานกับกลุ่มตัวอย่างที่มีขนาดเล็กกว่า ( ที่นี่และที่นี่ )xx2

  • การแปลงตัวแปรจำนวนที่ไม่ต่อเนื่องในตัวแปรทศนิยม (ต่อเนื่อง) เปลี่ยนการตีความผลลัพธ์หรือไม่

ใช่มันจะได้ แต่สิ่งนี้จะขึ้นอยู่กับ 2 คะแนนแรกดังนั้นฉันขอแนะนำให้คุณพูดคุยทีละอย่าง ฉันไม่เห็นเหตุผลที่การถดถอยจะไม่ทำงานหากไม่มีการเปลี่ยนแปลงนี้ดังนั้นฉันขอแนะนำให้คุณเพิกเฉยตอนนี้ โปรดทราบว่าด้วยการหารด้วยองค์ประกอบทั่วไปคุณกำลังเปลี่ยนสเกลที่แต่มีวิธีที่แตกต่างกันโดยสิ้นเชิงในการดูมันอย่างที่ฉันเขียนไว้ด้านบนซึ่งเกณฑ์นี้ถูกพิจารณาอย่างชัดเจนมากขึ้นx2=x


ขอบคุณมากสำหรับคำตอบของคุณโดยเฉพาะอย่างยิ่งสำหรับลิงก์ !!!
ปีเตอร์

มันเป็นความสุขที่ได้ช่วย =)
pedrofigueira

4

โดยทั่วไปการอยู่ตรงกลางอาจช่วยลดความหลากสี แต่ "คุณอาจจะไม่ตายจากความหลากหลายทางชีวภาพ" (ดูคำตอบของ predrofigueira)

สิ่งสำคัญที่สุดคือการทำให้การอยู่ตรงกลางเป็นสิ่งจำเป็นเพื่อทำให้การสกัดกั้นมีความหมาย ในรูปแบบที่เรียบง่ายตัดถูกกำหนดให้เป็นผลที่คาดหวังสำหรับ 0 ถ้าค่าเป็นศูนย์ไม่ได้มีความหมายทั้งตัวรับคือ มันมักจะมีประโยชน์ในการจัดตำแหน่งตัวแปรรอบค่าเฉลี่ย ในกรณีนี้คือการทำนายของแบบฟอร์มและตัดเป็นผลที่คาดว่าจะเป็นเรื่องที่มีค่าในเท่ากับค่าเฉลี่ย{x}yi=α+βxi+εx=0xx(xix¯)αxix¯

ในกรณีเช่นนี้คุณต้องอยู่ตรงกลางและตามด้วยสแควร์ คุณไม่สามารถแยกกึ่งกลางและเนื่องจากคุณกำลังถอยหลังผลลัพธ์ของตัวแปร "ใหม่",ดังนั้นคุณต้องกำหนดตัวแปรใหม่นี้ การจัดกึ่งกลางหมายถึงอะไรxxx2(xix¯)x2

คุณสามารถจัดให้มีตัวแปรนับได้ถ้าค่าเฉลี่ยนั้นมีความหมายแต่คุณสามารถปรับขนาดได้ ตัวอย่างเช่นถ้าและ "2" อาจจะเป็นพื้นฐานที่คุณสามารถลบ 2: (x_i-2)การสกัดกั้นจะกลายเป็นผลลัพธ์ที่คาดหวังสำหรับหัวเรื่องที่มีค่าในเท่ากับ "2" ซึ่งเป็นค่าอ้างอิงx=1,2,3,4,5(xi2)=1,0,1,2,3xi

การหารไม่มีปัญหา: สัมประสิทธิ์โดยประมาณของคุณจะใหญ่ขึ้น! Gelman and Hill , §4.1, ยกตัวอย่าง: start earn

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

หนึ่งนิ้วมิลลิเมตรดังนั้นเป็น1,300หนึ่งนิ้ว emiles ดังนั้นคือ1.6E-5 แต่สมการทั้งสามนี้มีความเท่าเทียมกันโดยสิ้นเชิง25.4511300/25.41.6e5810000001300/1.6e5


ที่เกี่ยวข้อง
Henrik

ขอบคุณสำหรับคำตอบของคุณ Sergio มันช่วยฉันได้จริงๆ น่าเสียดายที่ฉันสามารถทำเครื่องหมายคำตอบเดียวเป็นคำตอบที่ยอมรับได้เท่านั้น
ปีเตอร์

ไม่เป็นไร และไม่ต้องกังวล ;-)
Sergio

1

ฉันคิดว่าค่าต่ำของ x มีผลในเชิงบวกต่อตัวแปรตามและค่าสูงมีผลกระทบเชิงลบ

ในขณะที่ฉันชื่นชมการปฏิบัติต่อการเป็นศูนย์กลางและการตีความสัมประสิทธิ์ของผู้อื่นสิ่งที่คุณอธิบายไว้ที่นี่เป็นเพียงผลเชิงเส้นตรง ในคำอื่น ๆ สิ่งที่คุณได้อธิบายไม่ได้ระบุว่าจำเป็นต้องทดสอบตารางใด ๆx


ในมุมมองของฉันถ้าผล (บางส่วน) ของกับ (หรือดีกว่าใน ) คือx_i ผลกระทบดังกล่าวจะคงที่พวกเขาไม่ได้ขึ้นอยู่กับระดับของ x_iหากรูปแบบคือแล้วผลกระทบบางส่วนของเป็นและขึ้นอยู่กับระดับของx_2สิ่งนี้อาจเกิดขึ้นในรุ่นอื่นด้วยเช่นในรุ่น spline แบบเส้นตรง แต่ไม่ได้อยู่ในโมเดลเชิงเส้น (ระดับ 1) ฉันผิดหรือเปล่า? y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xiy=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
Sergio

@ rolando2: ฉันไม่แน่ใจว่าเราพูดถึงเรื่อง samte หรือไม่ หากฉันรวมเฉพาะตัวแปรตัวทำนายปกติฉันจะได้รับค่าสัมประสิทธิ์โดยประมาณสำหรับตัวทำนายนั้นซึ่งเป็นค่าบวกหรือค่าลบ จากสัมประสิทธิ์ฉันสามารถพูดได้ว่าโดยการเพิ่มหนึ่งหน่วยลงใน x, y จะเพิ่มขึ้นหรือลดลงตามจำนวนที่แน่นอน แต่ฉันไม่สามารถหาวิธีนี้ได้ว่าค่าน้อย ๆ จะนำไปสู่การเพิ่มขึ้นของ y ในขณะที่ค่าที่สูงกว่า (จากจุดที่ไม่ทราบแน่ชัด) นำไปสู่การลดลงของ y
ปีเตอร์

@Peter - ฉันเข้าใจและฉันขอแนะนำให้คุณแก้ไขคำถาม "ฉันถือว่า" ประโยคของคุณที่จะอ่าน: "ฉันคิดว่าในบางภูมิภาคของ x ค่าที่สูงขึ้นของ x มีผลในเชิงบวกต่อตัวแปรตามในขณะที่ในภูมิภาคอื่น ๆ ค่าที่สูงกว่ามีผลกระทบเชิงลบ "
rolando2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.