วิธีการสร้างแบบจำลองตัวแปรเป้าหมายที่ถูกผูกไว้?


17

ฉันมี 5 ตัวแปรและฉันพยายามที่จะทำนายตัวแปรเป้าหมายของฉันซึ่งจะต้องอยู่ในช่วง 0 ถึง 70

ฉันจะใช้ข้อมูลชิ้นนี้ในการสร้างแบบจำลองเป้าหมายได้ดีขึ้นได้อย่างไร

คำตอบ:


21

คุณไม่จำเป็นต้องทำอะไรเลย เป็นไปได้ที่ผู้ทำนายจะทำงานได้ดี แม้ว่าค่าตัวแปรทำนายกับค่านอกช่วงที่อาจจะหนีบคาดการณ์ในช่วง (นั่นคือการใช้งานmax(0,min(70,y^))แทนY ) จะทำดี ตรวจสอบความถูกต้องของโมเดลเพื่อดูว่าใช้งานได้หรือไม่y^

อย่างไรก็ตามช่วงที่ถูก จำกัด เพิ่มความเป็นไปได้ของความสัมพันธ์แบบไม่เชิงเส้นระหว่างตัวแปรตาม ( y ) และตัวแปรอิสระ ( xi ) ตัวชี้วัดเพิ่มเติมบางประการของเรื่องนี้รวมถึง:

  • รูปแบบมากขึ้นในมูลค่าคงเหลือเมื่อปีอยู่ในช่วงกลางของตนเมื่อเทียบกับการเปลี่ยนแปลงในสิ่งตกค้างในตอนท้ายของช่วงอย่างใดอย่างหนึ่งy^

  • เหตุผลเชิงทฤษฎีสำหรับความสัมพันธ์ที่ไม่ใช่เชิงเส้นเฉพาะ

  • หลักฐานของข้อมูลจำเพาะรุ่นผิดพลาด (ได้รับในรูปแบบปกติ)

  • ความสำคัญของข้อตกลงการกำลังสองหรือสูงใบสั่งในxiฉัน

พิจารณาการแสดงออกที่ไม่เชิงเส้นของyในกรณีที่เงื่อนไขเหล่านี้ถือ

มีหลายวิธีที่จะกลับมาแสดงในการสร้างความสัมพันธ์เชิงเส้นมากขึ้นด้วยxฉัน ยกตัวอย่างเช่นใด ๆ ฟังก์ชั่นที่เพิ่มขึ้นกำหนดไว้ในช่วง[ 0 , 70 ]สามารถ "พับ" เพื่อสร้างฟังก์ชั่นที่เพิ่มขึ้นสมมาตรผ่านY ( Y ) - F ( 70 - Y ) ถ้าfมีขนาดใหญ่และลบโดยพลการเมื่ออาร์กิวเมนต์เข้าใกล้0รุ่นพับของfจะจับคู่[ 0 , 70 ]yxif[0,70]yf(y)f(70y)f0f[0,70]เป็นตัวเลขจริงทั้งหมด ตัวอย่างของฟังก์ชั่นดังกล่าวรวมถึงลอการิทึมและพลังงานเชิงลบใด ๆ การใช้ลอการิทึมเทียบเท่ากับ "ลิงค์ logit" ที่แนะนำโดย @ user603 อีกวิธีหนึ่งก็คือการปล่อยให้เป็น CDF ผกผันของการแจกแจงความน่าใด ๆ และกำหนด( Y ) = G ( Y / 70 ) การใช้การแจกแจงแบบปกติจะให้การแปลง "probit"Gf(y)=G(y/70)

วิธีหนึ่งที่จะใช้ประโยชน์จากครอบครัวของการเปลี่ยนแปลงคือการทดลอง: ลองการเปลี่ยนแปลงที่น่าจะเป็นไปได้ทำการถดถอยอย่างรวดเร็วของการแปลงเทียบกับx iและทดสอบส่วนที่เหลือ: พวกมันน่าจะเป็นอิสระจากค่าทำนายของy (homoscedastic และ uncorrelated ) นี่เป็นสัญญาณของความสัมพันธ์เชิงเส้นกับตัวแปรอิสระ มันจะช่วยได้เช่นกันหากค่าตกค้างของค่าที่ทำนายกลับมามีแนวโน้มที่จะมีขนาดเล็ก สิ่งนี้บ่งชี้ว่าการเปลี่ยนแปลงได้รับการปรับปรุงให้เหมาะสม ที่จะต้านทานผลกระทบของค่าผิดปกติใช้วิธีการถดถอยที่แข็งแกร่งเช่นreweighted ซ้ำสองน้อยที่สุดyxผมY


1
+1 คำตอบยอดเยี่ยม! คุณสามารถคาดการณ์หรือให้การอ้างอิงว่าทำไม "การเปลี่ยนแปลงที่มากขึ้นในค่าที่เหลือเมื่อ y_hat อยู่ในช่วงของช่วงเปรียบเทียบกับการเปลี่ยนแปลงในส่วนที่เหลือที่ปลายทั้งสองของช่วง" เป็นข้อบ่งชี้ของการไม่เชิงเส้น?
Andy McKenzie

1
@Andy ตามทฤษฎีแล้ว heteroscedasticity นั้นไม่มีความเกี่ยวข้องโดยตรงกับความไม่เชิงเส้น แต่ในทางปฏิบัติมักจะพบว่าการเปลี่ยนแปลงความแปรปรวนของความแปรปรวนมีความสัมพันธ์เชิงเส้นตรง เส้นโค้งใด ๆ ที่เพิ่มขึ้นอย่างต่อเนื่องจากขั้นต่ำ (เช่น 0) ถึงสูงสุด (เช่น 70) จะมีความชันสูงสุดที่ใดที่หนึ่งในช่วงของช่วงนั้นมักจะทำให้เกิดความแปรปรวนที่เหลือมากขึ้นที่นั่น นั่นคือเหตุผลที่เราคาดว่าจะเห็นเศษที่เหลือเพื่อแสดงความแปรปรวนมากขึ้นในช่วงกลางและน้อยกว่าในตอนท้าย หากที่ไม่กรณีที่เราสามารถหวังสำหรับความสัมพันธ์เชิงเส้นกับuntransformedตัวแปร
whuber

5

เป็นสิ่งสำคัญที่จะต้องพิจารณาว่าทำไมค่าของคุณจึงอยู่ในช่วง 0-70 ตัวอย่างเช่นหากจำนวนของคำตอบที่ถูกต้องในการทดสอบ 70 คำถามคุณควรพิจารณาแบบจำลองสำหรับตัวแปร "จำนวนของความสำเร็จ" เช่นการถดถอยแบบทวินามที่เกินขนาด เหตุผลอื่นอาจนำคุณไปสู่โซลูชันอื่น ๆ


2

การแปลงข้อมูล: จัดเก็บข้อมูลของคุณให้อยู่ใน[0,1]และสร้างโมเดลโดยใช้โมเดล glm พร้อมลิงก์ logit

แก้ไข: เมื่อคุณปรับขนาดเวกเตอร์ใหม่ (เช่นแบ่งองค์ประกอบทั้งหมดตามรายการที่ใหญ่ที่สุด) ตามกฎก่อนที่คุณจะทำเช่นนั้นหน้าจอ (ดวงตา) สำหรับค่าผิดปกติ

UPDATE

สมมติว่าคุณมีการเข้าถึง R ผมจะดำเนินการส่วนการสร้างแบบจำลองที่มีประสิทธิภาพประจำ GLM ดูglmrob()ในแพคเกจrobustbaserobustbase


3
การยึดข้อมูลตามที่แนะนำที่นี่จะทำให้มีความลาดเอียงในการถดถอย
whuber

1
นอกจากนี้ฉันไม่เห็นค่าทันทีในการจับยึดตามปริมาณตัวอย่างเมื่อช่วงที่แท้จริงของข้อมูลเป็นที่รู้จักกันมาก่อน
พระคาร์ดินัล

@ Cardinal ประเด็นก็คือ (เช่น) อาจ 99% ของข้อมูลอยู่ใน [0,1] และค่าที่เหลือเท่ากับ 70: ข้อ จำกัด ขนาดกะทัดรัดในช่วงไม่รับประกันการขาดค่าใช้จ่าย! ดังนั้นฉันจึงเห็นด้วยกับวิญญาณของคำแนะนำที่นำเสนอโดย @ user603 แม้ว่าฉันจะกังวลเกี่ยวกับอคติที่เป็นไปได้ในแนวทางที่เสนอ
whuber

@whuber: ความชอบของฉันในการตั้งค่าแบบนี้คือการใช้ GLM ที่ทนทานต่อค่าผิดปกติมากกว่าการหนีบแบบนี้ จากนั้นปล่อยให้แบบจำลองนั้นปรับได้โดยใช้ค่า "ค่าตัด" และ "ความชัน"
พระคาร์ดินัล

@ Cardinal ใช่นั่นเป็นทางออกที่ถูกต้อง ฉันหวังว่าการใช้ GLM ดังกล่าวจะยังคงมาพร้อมกับขั้นตอนการวินิจฉัยเพื่อตรวจสอบความเป็นเส้นตรง (โดยประมาณ) และความเป็นอิสระของสารตกค้าง
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.