วิธีจัดการกับตัวแปรเด็ดขาดที่ไม่ใช่แบบไบนารีในการถดถอยโลจิสติก (SPSS)


10

ฉันต้องทำการถดถอยโลจิสติกแบบไบนารีด้วยตัวแปรอิสระจำนวนมาก ส่วนใหญ่เป็นไบนารี แต่ตัวแปรเด็ดขาดบางส่วนมีมากกว่าสองระดับ

วิธีที่ดีที่สุดในการจัดการกับตัวแปรดังกล่าวคืออะไร?

ตัวอย่างเช่นสำหรับตัวแปรที่มีค่าที่เป็นไปได้สามค่าฉันคิดว่าต้องสร้างตัวแปรจำลองสองตัว จากนั้นในขั้นตอนการถดถอยแบบชาญฉลาดควรทดสอบตัวแปรจำลองทั้งสองพร้อมกันหรือทดสอบแยกกัน

ฉันจะใช้ SPSS แต่ฉันจำไม่ได้ดีดังนั้น: SPSS จะจัดการกับสถานการณ์นี้ได้อย่างไร

ยิ่งไปกว่านั้นสำหรับตัวแปรหมวดหมู่ตามลำดับมันเป็นสิ่งที่ดีหรือไม่ที่จะใช้ตัวแปรจำลองที่สร้างสเกลตามลำดับขึ้นมาใหม่? (ตัวอย่างเช่นการใช้สามตัวแปรดัมมี่สำหรับ 4 รัฐตัวแปรลำดับใส่0-0-0ระดับ , ระดับ2 , ระดับ3และระดับ4แทน, , และสำหรับ 4 ระดับ.)11-0-021-1-031-1-140-0-01-0-00-1-00-0-1


2
นี่เป็นเพียงคำตอบบางส่วน: แม้ว่าคุณจะสร้างหุ่นจำลองอย่างชัดเจน (แทนที่จะใช้ความสามารถโดยนัยของซอฟต์แวร์) ให้รวมเข้าด้วยกันในการวิเคราะห์ทั้งหมด โดยเฉพาะอย่างยิ่งพวกเขาควรเข้าด้วยกันและทิ้งไว้ด้วยกันในการถดถอยแบบขั้นตอนด้วยค่า p- คำนวณอย่างเหมาะสมสำหรับจำนวนรวมของตัวแปรที่เกี่ยวข้อง (นี่คือคำแนะนำของ Hosmer & Lemeshow ต่อไปและมันก็สมเหตุสมผลดี)
whuber

ผมเขียนโพสต์ในขณะที่กลับมาอยู่บนทรัพยากรการถดถอยโลจิสติกพหุนามในโปรแกรม SPSS
Jeromy Anglim

คุณกำลังพูดถึงตัวแปรอิสระของคุณ เป็นเพียงตัวแปรตามที่ต้องเป็นเลขฐานสองสำหรับการถดถอยโลจิสติก
จอห์น

1
สิ่งหนึ่งที่ควรทราบที่นี่คือคุณไม่ควรใช้ขั้นตอนการเลือกแบบขั้นตอนเลย พวกเขาไม่ถูกต้อง หากไม่ได้ทำให้ความรู้สึก / คุณต้องการที่จะเข้าใจว่าทำไมมันอาจจะช่วยให้คุณสามารถอ่านคำตอบของฉันที่นี่: อัลกอริทึมสำหรับอัตโนมัติแบบเลือก
gung - Reinstate Monica

คำตอบ:


10

เว็บไซต์ UCLA มีบทช่วยสอนที่ยอดเยี่ยมสำหรับทุกขั้นตอนโดยแบ่งตามประเภทซอฟต์แวร์ที่คุณคุ้นเคย ตรวจสอบเอาต์พุต SPSS ข้อเขียน: Logistic Regression - ตัวแปร SES ที่กล่าวถึงนั้นเป็นหมวดหมู่ (ไม่ใช่ไบนารี) SPSS จะสร้างตัวแปรตัวบ่งชี้ให้คุณโดยอัตโนมัติ นอกจากนี้ยังมีหน้าทุ่มเทให้กับหมวดหมู่ทำนายในการถดถอยด้วย SPSSซึ่งมีข้อมูลที่เฉพาะเจาะจงเกี่ยวกับวิธีการเปลี่ยน codings เริ่มต้นและระดับหน้าไปยังถดถอยโลจิสติ


7

การถดถอยโลจิสติกเป็นวิธีการที่ยืดหยุ่นได้ มันสามารถใช้เป็นตัวแปรอิสระที่จัดหมวดหมู่ตัวแปรได้ ซอฟต์แวร์ส่วนใหญ่ที่ใช้ Logistic regression ควรอนุญาตให้คุณใช้ตัวแปรเด็ดขาด

ตัวอย่างเช่นสมมติว่าหนึ่งในตัวแปรเด็ดขาดของคุณคืออุณหภูมิที่กำหนดไว้ในสามหมวดหมู่: เย็น / อ่อน / ร้อน ตามที่คุณแนะนำคุณสามารถตีความได้ว่าเป็นตัวแปรจำลองที่แยกกันสามตัวโดยแต่ละค่ามีค่า 1 หรือ 0 แต่ซอฟต์แวร์ควรอนุญาตให้คุณใช้ตัวแปรเด็ดขาดเดียวแทนค่าข้อความเย็น / อ่อน / ร้อน และการถดถอยโลจิทจะได้ค่าสัมประสิทธิ์ (หรือค่าคงที่) สำหรับแต่ละเงื่อนไขอุณหภูมิทั้งสาม หากไม่มีนัยสำคัญซอฟต์แวร์หรือผู้ใช้สามารถนำออกมาได้อย่างง่ายดาย (หลังจากสังเกตค่า t stat และ p)

ประโยชน์หลักของการจัดกลุ่มหมวดหมู่ตัวแปรเด็ดขาดเป็นตัวแปรเด็ดขาดเดียวคือประสิทธิภาพของรูปแบบ คอลัมน์เดียวในแบบจำลองของคุณสามารถจัดการได้หลายหมวดหมู่ตามต้องการสำหรับตัวแปรเด็ดขาดเดียว หากคุณใช้ตัวแปรดัมมี่สำหรับตัวแปรหมวดหมู่แต่ละหมวดหมู่โมเดลของคุณสามารถโตขึ้นอย่างรวดเร็วเพื่อให้มีคอลัมน์จำนวนมากที่ฟุ่มเฟือยตามตัวเลือกดังกล่าว


1
@gaetan ฉันไม่เข้าใจคำพูดเกี่ยวกับคอลัมน์เดี่ยวและคอลัมน์หลายคอลัมน์ คุณกำลังแนะนำว่าตัวแปรเด็ดขาดควรเขียนเป็น 1, 2, 3 ฯลฯ ในคอลัมน์เดียวแทนที่จะใช้ตัวแปรดัมมี่? ฉันไม่แน่ใจว่าเหมาะสมกับฉันในขณะที่คุณกำลังกำหนดข้อ จำกัด โดยนัยว่าความแตกต่างของผลกระทบต่อ dv ระหว่าง leve1s 1 และ 2 จะเหมือนกับความแตกต่างของผลกระทบต่อ dv ระหว่างระดับ 2 และ 3 บางทีฉันอาจ ฉันคิดถึงบางสิ่ง

1
@Getan ฉันไม่แน่ใจว่าฉันจะติดตามคุณ XLStat แปลงค่า 'text' ของ cold, mild หรือ hot เป็นค่าตัวเลขเพื่อจุดประสงค์ในการประมาณค่าอย่างไร หากมีวิธีการที่จะให้คุณประเมินผลกระทบของตัวแปรเด็ดขาดโดยไม่ใช้ตัวแปรดัมมี่แน่นอนว่าควรเป็นอิสระจากซอฟต์แวร์ที่คุณใช้เนื่องจากควรมีบางแนวคิดเชิงตรรกะ / แบบจำลองพื้นฐาน

kk1

1
@Gatean Ok ในกรณีนี้สามารถทำได้เหมือนกันใน SPSS (คุณมีตัวเลือกระหว่างตัวเลข / ลำดับ / ชื่อสำหรับแต่ละตัวแปร) - จากนั้นเมทริกซ์การออกแบบจะถูกสร้างขึ้นตามลำดับ
chl

2
@Gaetan @chl เพื่อสรุปความเข้าใจของฉัน: คุณสมบัติของ SPSS และ XLStat โดยที่คุณสามารถระบุขนาดการวัด (เล็กน้อย, ลำดับ, ฯลฯ ) ลดขนาดไฟล์ข้อมูล อย่างไรก็ตามในทั้งสองกรณีซอฟต์แวร์ใช้รูปแบบการเข้ารหัสที่ถูกต้อง (เช่นขยายตัวแปรที่มีหมวดหมู่ J เป็นตัวแปรจำลอง J-1) เป็นส่วนหนึ่งของกระบวนการประเมินในพื้นหลัง นั่นจะเป็นการประเมินสถานการณ์อย่างยุติธรรมหรือไม่?

0

เท่าที่ความเข้าใจของฉันดำเนินต่อไปมันเป็นการดีที่จะใช้ตัวแปรจำลองสำหรับข้อมูลหมวดหมู่ / ข้อมูลระบุในขณะที่ข้อมูลลำดับเราสามารถใช้การเข้ารหัส 1,2,3 สำหรับระดับที่แตกต่างกัน สำหรับตัวแปรดัมมี่เราจะทำการเข้ารหัส 1 หากเป็นจริงสำหรับการรับบริการเฉพาะและ 0 เป็นอย่างอื่น นอกจากนี้ตัวแปรจำลองจะมีค่าน้อยกว่า 1 ของระดับตัวอย่างเช่นในไบนารี่เรามี 1 การสังเกต '0' ทั้งหมดในตัวแปรจำลองจะทำ 1 โดยอัตโนมัติสำหรับรหัสจำลองที่ไม่ได้เข้ารหัส

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.