ฉันมี 5 ตัวแปรและฉันพยายามที่จะทำนายตัวแปรเป้าหมายของฉันซึ่งจะต้องอยู่ในช่วง 0 ถึง 70
ฉันจะใช้ข้อมูลชิ้นนี้ในการสร้างแบบจำลองเป้าหมายได้ดีขึ้นได้อย่างไร
ฉันมี 5 ตัวแปรและฉันพยายามที่จะทำนายตัวแปรเป้าหมายของฉันซึ่งจะต้องอยู่ในช่วง 0 ถึง 70
ฉันจะใช้ข้อมูลชิ้นนี้ในการสร้างแบบจำลองเป้าหมายได้ดีขึ้นได้อย่างไร
คำตอบ:
คุณไม่จำเป็นต้องทำอะไรเลย เป็นไปได้ที่ผู้ทำนายจะทำงานได้ดี แม้ว่าค่าตัวแปรทำนายกับค่านอกช่วงที่อาจจะหนีบคาดการณ์ในช่วง (นั่นคือการใช้งานแทนY ) จะทำดี ตรวจสอบความถูกต้องของโมเดลเพื่อดูว่าใช้งานได้หรือไม่
อย่างไรก็ตามช่วงที่ถูก จำกัด เพิ่มความเป็นไปได้ของความสัมพันธ์แบบไม่เชิงเส้นระหว่างตัวแปรตาม ( ) และตัวแปรอิสระ ( ) ตัวชี้วัดเพิ่มเติมบางประการของเรื่องนี้รวมถึง:
รูปแบบมากขึ้นในมูลค่าคงเหลือเมื่อปีอยู่ในช่วงกลางของตนเมื่อเทียบกับการเปลี่ยนแปลงในสิ่งตกค้างในตอนท้ายของช่วงอย่างใดอย่างหนึ่ง
เหตุผลเชิงทฤษฎีสำหรับความสัมพันธ์ที่ไม่ใช่เชิงเส้นเฉพาะ
หลักฐานของข้อมูลจำเพาะรุ่นผิดพลาด (ได้รับในรูปแบบปกติ)
ความสำคัญของข้อตกลงการกำลังสองหรือสูงใบสั่งในฉัน
พิจารณาการแสดงออกที่ไม่เชิงเส้นของในกรณีที่เงื่อนไขเหล่านี้ถือ
มีหลายวิธีที่จะกลับมาแสดงในการสร้างความสัมพันธ์เชิงเส้นมากขึ้นด้วยxฉัน ยกตัวอย่างเช่นใด ๆ ฟังก์ชั่นที่เพิ่มขึ้นฉกำหนดไว้ในช่วง[ 0 , 70 ]สามารถ "พับ" เพื่อสร้างฟังก์ชั่นที่เพิ่มขึ้นสมมาตรผ่านY → ฉ( Y ) - F ( 70 - Y ) ถ้าfมีขนาดใหญ่และลบโดยพลการเมื่ออาร์กิวเมนต์เข้าใกล้0รุ่นพับของfจะจับคู่[ 0 , 70 ]เป็นตัวเลขจริงทั้งหมด ตัวอย่างของฟังก์ชั่นดังกล่าวรวมถึงลอการิทึมและพลังงานเชิงลบใด ๆ การใช้ลอการิทึมเทียบเท่ากับ "ลิงค์ logit" ที่แนะนำโดย @ user603 อีกวิธีหนึ่งก็คือการปล่อยให้เป็น CDF ผกผันของการแจกแจงความน่าใด ๆ และกำหนดฉ( Y ) = G ( Y / 70 ) การใช้การแจกแจงแบบปกติจะให้การแปลง "probit"
วิธีหนึ่งที่จะใช้ประโยชน์จากครอบครัวของการเปลี่ยนแปลงคือการทดลอง: ลองการเปลี่ยนแปลงที่น่าจะเป็นไปได้ทำการถดถอยอย่างรวดเร็วของการแปลงเทียบกับx iและทดสอบส่วนที่เหลือ: พวกมันน่าจะเป็นอิสระจากค่าทำนายของy (homoscedastic และ uncorrelated ) นี่เป็นสัญญาณของความสัมพันธ์เชิงเส้นกับตัวแปรอิสระ มันจะช่วยได้เช่นกันหากค่าตกค้างของค่าที่ทำนายกลับมามีแนวโน้มที่จะมีขนาดเล็ก สิ่งนี้บ่งชี้ว่าการเปลี่ยนแปลงได้รับการปรับปรุงให้เหมาะสม ที่จะต้านทานผลกระทบของค่าผิดปกติใช้วิธีการถดถอยที่แข็งแกร่งเช่นreweighted ซ้ำสองน้อยที่สุด
เป็นสิ่งสำคัญที่จะต้องพิจารณาว่าทำไมค่าของคุณจึงอยู่ในช่วง 0-70 ตัวอย่างเช่นหากจำนวนของคำตอบที่ถูกต้องในการทดสอบ 70 คำถามคุณควรพิจารณาแบบจำลองสำหรับตัวแปร "จำนวนของความสำเร็จ" เช่นการถดถอยแบบทวินามที่เกินขนาด เหตุผลอื่นอาจนำคุณไปสู่โซลูชันอื่น ๆ
การแปลงข้อมูล: จัดเก็บข้อมูลของคุณให้อยู่ในและสร้างโมเดลโดยใช้โมเดล glm พร้อมลิงก์ logit
แก้ไข: เมื่อคุณปรับขนาดเวกเตอร์ใหม่ (เช่นแบ่งองค์ประกอบทั้งหมดตามรายการที่ใหญ่ที่สุด) ตามกฎก่อนที่คุณจะทำเช่นนั้นหน้าจอ (ดวงตา) สำหรับค่าผิดปกติ
UPDATE
สมมติว่าคุณมีการเข้าถึง R ผมจะดำเนินการส่วนการสร้างแบบจำลองที่มีประสิทธิภาพประจำ GLM ดูในแพคเกจrobustbase