การวิเคราะห์ค่าสัมประสิทธิ์การถดถอยโลจิสติก


12

นี่คือรายการของค่าสัมประสิทธิ์การถดถอยโลจิสติก (อันแรกคือการสกัดกั้น)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

ฉันพบว่ามันแปลกที่การสกัดกั้นต่ำมากและฉันมีสัมประสิทธิ์ที่เท่ากับ 0 จริง ๆ แล้วฉันไม่แน่ใจว่าฉันจะตีความสิ่งนี้ได้อย่างไร 0 บ่งชี้ว่าตัวแปรที่ระบุไม่มีผลกับโมเดลเลยหรือไม่? แต่การสกัดกั้นที่เกิดขึ้นจากการใส่คอลัมน์ของคน ๆ หนึ่งนั้นสำคัญจริงๆหรือ? หรือข้อมูลของฉันเป็นเพียงอึและโมเดลไม่สามารถเหมาะสมกับมัน


2
ช่วงหรือค่าเบี่ยงเบนมาตรฐานของตัวแปรอื่น ๆ ของคุณคืออะไร? มีความแตกต่างใหญ่ระหว่างค่าเบี่ยงเบนมาตรฐานของตัวแปรโดยประมาณเป็นศูนย์เปรียบเทียบกับส่วนอื่น ๆ หรือไม่? คุณอาจคาดหวังว่าสัมประสิทธิ์เป็นศูนย์ถ้าค่าเบี่ยงเบนมาตรฐานมีค่าน้อยเมื่อเทียบกับค่าอื่น ๆ (ความแม่นยำเชิงตัวเลข) โดยทั่วไปแล้วการสกัดกั้นหมายความว่าคุณมีตัวแปรที่มีค่าเฉลี่ยมาก (อยู่ห่างจากศูนย์) การตั้งค่าตัวแปรของคุณให้อยู่ตรงกลางจะทำให้การสกัดกั้นสามารถตีความได้มากกว่าและจะไม่เปลี่ยน betas สำหรับตัวแปรอื่น ๆ
ความน่าจะเป็นทางการที่

1
ถ้าคุณลบ 1027 จากค่าทั้งหมดของตัวแปรที่หกการสกัดกั้นของคุณจะใกล้เคียงกับ 0 นั่นจะทำให้คุณรู้สึกดีขึ้นหรือไม่? :-)
whuber

4
การแสดงรายการค่าสัมประสิทธิ์เช่นนี้ซึ่งไม่มีบริบทเลยมีแนวโน้มว่า "Joe มี 31 นั่นไม่มากใช่ไหม" โดยไม่บอกวันที่ 31 สิ่งที่ 31 คัน? มาก. เด็ก 31 คน? ห่าหนึ่งอย่างมาก! 31 ดอลลาร์? ไม่มาก.
Peter Flom - Reinstate Monica

1
เกี่ยวกับค่าสัมประสิทธิ์ของศูนย์: ฉันสามารถเห็นสิ่งนี้เกิดขึ้นเป็นสิ่งประดิษฐ์ของสัมประสิทธิ์ทั้งหมดของคุณลงใน XL ก่อนที่จะวางมันที่นี่ - สิ่งที่ดูเหมือนว่าสอดคล้องกับจำนวนทศนิยมที่เราเห็น อาจเป็นหนึ่งในเซลล์ XL เหล่านั้นถูกตั้งค่าเป็นปัดเศษเป็นจำนวนเต็มทำให้เกิดศูนย์ ฉันมีสิ่งนี้เกิดขึ้น
rolando2

ขอบคุณทุกท่านที่ให้การสนับสนุน! ฉันขอขอบคุณทุกท่านจริงๆ! คำถามมากมายของฉันได้รับคำตอบ
shiu6rewgu

คำตอบ:


16

คุณได้รับข้อมูลที่ดีมากในความคิดเห็นในความคิดของฉัน ฉันสงสัยว่าข้อเท็จจริงพื้นฐานบางอย่างเกี่ยวกับการถดถอยโลจิสติกจะช่วยทำให้สิ่งเหล่านี้เข้าใจได้มากขึ้นหรือไม่ดังนั้นในใจขอให้ฉันบอกสองสิ่ง ในการถดถอยโลจิสติกสัมประสิทธิ์อยู่ในระดับโลจิสติก (จึงชื่อ ... ) หากคุณกำลังจะเสียบค่าตัวแปรร่วมของคุณสำหรับการสังเกตคูณพวกเขาโดยค่าสัมประสิทธิ์และรวมพวกเขาคุณจะได้รับlogit
e 2.718281828 e 2 = 7.389056 7.389056

logit=β0+β1x1+β2x2+...+βkxk
Logit เป็นตัวเลขที่ไม่สมเหตุสมผลกับทุกคนดังนั้นจึงเป็นเรื่องยากมากที่จะรู้ว่าจะทำอย่างไรกับตัวเลขที่ดูตลก (เช่นสูงหรือต่ำมาก) วิธีที่ดีที่สุดในการทำความเข้าใจสิ่งเหล่านี้คือการแปลงจากระดับเดิม (บันทึก) เป็นสิ่งที่คุณสามารถเข้าใจได้โดยเฉพาะความน่าจะเป็น ในการทำเช่นนั้นคุณต้องใช้ logit และยกกำลังมัน นั่นหมายความว่าคุณจะใช้หมายเลขe ( ) แล้วเพิ่มเป็นพลังของ logit ลองนึกภาพการเข้าสู่ระบบของคุณคือ 2: สิ่งนี้จะให้อัตราต่อรองแก่คุณ คุณสามารถแปลงอัตราต่อรองเป็นความน่าจะเป็นโดยการหารอัตราต่อรองด้วยหนึ่งบวกอัตราต่อรอง: ผู้คนมักจะพบความน่าจะเป็นที่จะจัดการได้ง่ายขึ้น e2.718281828
e2=7.389056
7.3890561+7.389056=0.880797

สำหรับแบบจำลองของคุณให้จินตนาการว่าคุณสังเกตว่าค่าของตัวแปรทั้งหมดเป็น 0 ทั้งหมดจากนั้นสัมประสิทธิ์ของคุณทั้งหมดจะเลื่อนออกและคุณจะเหลือเพียงค่าสกัดกั้นเท่านั้น หากเราแจกแจงค่าของคุณเราจะได้รับ 0 เป็นอัตราต่อรอง (ถ้าเป็น -700 อัตราต่อรองจะเป็นคูณแต่ฉันไม่สามารถให้คอมพิวเตอร์ให้ค่า -1060 แก่ฉันได้ มันมีขนาดเล็กเกินไปที่กำหนดขีด จำกัด ตัวเลขของซอฟต์แวร์ของฉัน) การแปลงอัตราต่อรองเหล่านั้นเป็นความน่าจะเป็น ( 0 / ( 1 + 0 )9.8×103050/(1+0)) ให้เรา 0 อีกครั้ง ดังนั้นสิ่งที่ผลลัพธ์ของคุณกำลังบอกคุณคือเหตุการณ์ของคุณ (ไม่ว่ามันจะเป็นอะไร) ก็ไม่ได้เกิดขึ้นเมื่อตัวแปรทั้งหมดของคุณมีค่าเท่ากับ 0 แน่นอนมันขึ้นอยู่กับสิ่งที่เรากำลังพูดถึง นี้. สมการการถดถอยโลจิสติกมาตรฐาน (เช่นไม่มีเงื่อนไขกำลังสอง) ถือว่าจำเป็นเสมอว่าความสัมพันธ์ระหว่าง covariate และความน่าจะเป็นที่จะประสบความสำเร็จนั้นอาจเพิ่มขึ้นหรือลดลงซ้ำซากจำเจ. นั่นหมายความว่ามันจะใหญ่ขึ้นเรื่อย ๆ (หรือเล็กกว่าและเล็กกว่า) และถ้าคุณไปไกลในทิศทางเดียวคุณจะได้ตัวเลขที่เล็กคอมพิวเตอร์ของฉันไม่สามารถแยกพวกเขาออกจาก 0 นั่นเป็นเพียง ธรรมชาติของสัตว์ร้าย ตามที่เกิดขึ้นสำหรับแบบจำลองของคุณการไปไกลจริงๆจะไปที่ค่าความแปรปรวนร่วมของคุณเท่ากับ 0

สำหรับค่าสัมประสิทธิ์ 0 หมายความว่าตัวแปรนั้นไม่มีผลตามที่คุณแนะนำ ตอนนี้มันค่อนข้างสมเหตุสมผลที่ตัวแปรจะไม่มีผลกระทบอย่างไรก็ตามคุณจะไม่ได้ค่าสัมประสิทธิ์เท่ากับ 0 ฉันไม่รู้ว่าทำไมมันถึงเกิดขึ้นในกรณีนี้ ความคิดเห็นมีข้อเสนอแนะที่เป็นไปได้ ฉันสามารถเสนออื่นซึ่งเป็นที่อาจไม่มีการเปลี่ยนแปลงในตัวแปรนั้น ตัวอย่างเช่นหากคุณมีตัวแปรที่มีรหัสสำหรับเพศ แต่มีเพียงผู้หญิงในตัวอย่างของคุณ ฉันไม่รู้ว่านี่เป็นคำตอบที่แท้จริงหรือไม่ (ตัวอย่างเช่นคืนNAในกรณีนั้น แต่ซอฟต์แวร์ต่างกัน) - เป็นเพียงคำแนะนำอื่น


2
3067003746010460

10

การตีความการสกัดกั้น

คุณสามารถนึกถึงการถดถอยโลจิสติกว่าให้ความน่าจะเป็นหลังของการเป็น '1' การสกัดกั้นแสดงก่อนหน้านี้ในหมวดหมู่ที่ได้รับมาจากชุดข้อมูล: โดยเฉพาะมันเป็นการประเมินเชิงประจักษ์ของบันทึก (p (Y = 1) / p (Y = 0) โดยตัวมันเองเมื่อแบบจำลองมีการสกัดกั้นเท่านั้นสำหรับกรณีใน คลาส 'อ้างอิง' เมื่อมี covariates ที่เป็นหมวดหมู่และสำหรับกรณีที่ covariates อยู่ที่ 0 โดยทั่วไป (แต่ตีความได้น้อยกว่า) ดังนั้นจำนวนลบที่รุนแรงของคุณอาจจะบอกคุณว่า '1 นั้นหาได้ยากในกรณีของคุณที่มีลักษณะโดย การมีเพื่อนร่วมระบบทั้งหมดที่ 0 อีกครั้งอาจไม่มีข้อสังเกตใด ๆ ดังนั้นจึงไม่คุ้มค่าที่จะกังวลเกี่ยวกับค่าดักจับ การสนทนานี้ค่อนข้างชัดเจน

เนื่องจากการแยกข้อกังวลระหว่างพารามิเตอร์ได้อย่างสะดวกคุณสามารถแก้ไขความไม่สมดุลของหมวดหมู่ได้โดยการฝึกอบรมเรื่องตัวอย่างที่สมดุลดีขึ้นและปรับการดักเท่านั้น ดูกษัตริย์และเซงเพื่อพูดคุยอย่างถี่ถ้วน


ลิงก์ไปยัง "การสนทนานี้" ดูเหมือนจะตายไปแล้ว มีโอกาสกู้ลิงค์นี้ไหม?
Alexey Grigorev

1
@ alexey-grigorev ฉันได้อัปเดตลิงค์ UCLA
conjugateprior

และรวบรวมโหวต แปลกมาก.
ผัน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.