แปลงตัวแปรต่อเนื่องสำหรับการถดถอยโลจิสติก


11

ฉันมีข้อมูลการสำรวจขนาดใหญ่ตัวแปรผลลัพธ์ไบนารีและตัวแปรอธิบายมากมายรวมถึงไบนารีและต่อเนื่อง ฉันกำลังสร้างชุดแบบจำลอง (ทดลองกับทั้ง GLM และ GLM แบบผสม) และใช้วิธีการทางทฤษฎีข้อมูลเพื่อเลือกแบบจำลองชั้นนำ ฉันตรวจสอบคำอธิบายอย่างระมัดระวัง (ทั้งแบบต่อเนื่องและแบบแบ่งหมวดหมู่) สำหรับความสัมพันธ์และฉันใช้เฉพาะในรูปแบบเดียวกันที่มีค่าสัมประสิทธิ์ Pearson หรือ Phicorr น้อยกว่า 0.3 ฉันต้องการให้โอกาสต่อเนื่องของตัวแปรทั้งหมดในการแข่งขันกับนางแบบชั้นนำ จากประสบการณ์ของฉันการเปลี่ยนสิ่งที่ต้องการโดยยึดตามความเบ้ปรับปรุงโมเดลที่พวกเขาเข้าร่วม (AIC ที่ต่ำกว่า)

คำถามแรกของฉันคือ: การปรับปรุงนี้เพราะการเปลี่ยนแปลงช่วยเพิ่มความเป็นเชิงเส้นกับ logit หรือไม่ หรือการแก้ไขความเบ้ช่วยปรับปรุงความสมดุลของตัวแปรอธิบายอย่างใดด้วยการทำให้ข้อมูลสมมาตรมากขึ้น? ฉันหวังว่าฉันจะเข้าใจเหตุผลทางคณิตศาสตร์ที่อยู่เบื้องหลังเรื่องนี้ แต่สำหรับตอนนี้ถ้าใครบางคนสามารถอธิบายสิ่งนี้ในแง่ง่ายนั่นจะเป็นการดี หากคุณมีการอ้างอิงใด ๆ ที่ฉันสามารถใช้ได้ฉันจะขอบคุณมันจริงๆ

เว็บไซต์อินเทอร์เน็ตหลายแห่งบอกว่าเพราะความเป็นมาตรฐานไม่ใช่ข้อสันนิษฐานในการถดถอยโลจิสติกแบบไบนารีอย่าเปลี่ยนตัวแปร แต่ฉันรู้สึกว่าถ้าไม่เปลี่ยนตัวแปรของฉันฉันจะเสียเปรียบเมื่อเทียบกับคนอื่น ๆ และอาจส่งผลกระทบต่อสิ่งที่โมเดลชั้นนำและเปลี่ยนการอนุมาน (ดีมันมักจะไม่ได้ ตัวแปรของฉันบางอย่างทำงานได้ดีขึ้นเมื่อบันทึกการเปลี่ยนแปลงบางอย่างเมื่อยกกำลังสอง (ทิศทางที่แตกต่างกันของความลาดเอียง) และบางตัวแปรที่ไม่ได้เปลี่ยนแปลง

ใครบางคนจะสามารถให้แนวทางแก่ฉันในการระวังการเปลี่ยนตัวแปรอธิบายสำหรับการถดถอยโลจิสติกและถ้าไม่ทำมันทำไมไม่


2
FF110P(Y=1|β,X)=F(Xβ)กระดาษนี้

แม้ว่าจะเขียนในบริบทที่แตกต่างกัน แต่สิ่งที่คุณถามอยู่ในคำตอบของฉัน (หรือในลิงก์ในคำตอบของฉัน) ที่นี่: โดยทั่วไปแล้วการกระจาย X และ Y มีแนวโน้มที่จะส่งผลให้เกิดการกระจายตามปกติ
gung - Reinstate Monica

คำตอบ:


3

xlog(x)

เนื่องจากคุณบอกว่าคุณมี "ข้อมูลขนาดใหญ่" คุณสามารถดูเป็นเส้นโค้งเพื่อให้ข้อมูลพูดถึงการแปลง ... ตัวอย่างเช่นแพคเกจ mgcv ในอาร์ แต่แม้จะใช้เทคโนโลยีดังกล่าว (หรือวิธีอื่น ๆ เพื่อค้นหาการเปลี่ยนแปลงโดยอัตโนมัติ) ทดสอบที่ดีที่สุดคือการถามตัวเองว่าสิ่งที่ทำให้ความรู้สึกทางวิทยาศาสตร์ people คนอื่น ๆ ในสาขาของคุณทำอะไรกับข้อมูลที่คล้ายกัน


ขอบคุณสำหรับการสนับสนุนความกังวลของฉัน: แน่นอนฉันมี แต่เกี่ยวกับสิ่งที่ทำให้รู้สึกทางชีวภาพ ปัญหาคือที่จริงฉันมีสองชุดข้อมูลที่เกี่ยวข้องและฉันต้องการที่จะสรุปจากทั้งสองในเวลาเดียวกัน แต่ในเซตย่อยหนึ่งตัวแปรความหนาแน่นดีที่สุดในโมเดลที่ไม่ได้เปลี่ยนรูปในขณะที่การแปลงบันทึกอื่น ๆ จะดีที่สุด การแปลงบันทึกช่วยปรับปรุงความสัมพันธ์ในชุดข้อมูลที่มีค่าต่ำกว่าสำหรับตัวแปรนั้นดังนั้นจึงเป็นเรื่องยากมากที่จะกระทบยอดชุดข้อมูลทั้งสองนี้ที่ฉันคิดว่านอกเสียจากว่าฉันจะไม่เปลี่ยนแปลงตัวแปรทั้งสองอย่าง
Zsuzsa

1
ผู้เชี่ยวชาญในสาขาแทบจะไม่สามารถรู้ apriori การเปลี่ยนแปลง "ถูกต้อง" สำหรับตัวแปร ฉันแทบไม่เคยเห็นความสัมพันธ์เชิงเส้นดังนั้นเมื่อขนาดตัวอย่างรับประกันฉันผ่อนคลายสมมติฐานนี้โดยใช้เส้นโค้งการถดถอย ฉันสร้างผลลัพธ์ที่ตีความได้ด้วยรูปภาพ
Frank Harrell

3

ปัญหาที่สำคัญคือสิ่งที่ตัวเลขควรจะเป็นตัวแทนในโลกแห่งความจริงและสิ่งที่เป็นความสัมพันธ์สมมติฐานระหว่างตัวแปรเหล่านั้นและตัวแปรตาม คุณอาจปรับปรุงแบบจำลองของคุณโดย 'ล้างข้อมูล' แต่ถ้ามันไม่ได้สะท้อนถึงโลกแห่งความจริงคุณจะประสบความสำเร็จ บางทีการกระจายของข้อมูลของคุณอาจหมายถึงวิธีการสร้างแบบจำลองของคุณไม่ถูกต้องและคุณต้องการแนวทางที่แตกต่างกันโดยสิ้นเชิงบางทีข้อมูลของคุณอาจมีปัญหา

ทำไมคุณลบตัวแปรถ้าพวกมันมีความสัมพันธ์> .3 อยู่เหนือฉัน บางทีสิ่งเหล่านั้นเกี่ยวข้องกันจริงๆและทั้งคู่มีความสำคัญต่อตัวแปรตาม คุณสามารถจัดการกับสิ่งนี้ด้วยดัชนีหรือฟังก์ชั่นที่แสดงถึงการมีส่วนร่วมของตัวแปรที่เกี่ยวข้อง ดูเหมือนว่าคุณกำลังสุ่มสี่สุ่มห้าข้อมูลตามเกณฑ์ทางสถิติโดยพลการ ทำไมไม่ใช้ corr> .31 หรือ .33

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.