สัมประสิทธิ์การถดถอยโลจิสติกมีความหมายหรือไม่?


14

ฉันมีปัญหาการจำแนกเลขฐานสองจากคุณสมบัติหลายอย่าง สัมประสิทธิ์ของการถดถอยโลจิสติก (ทำให้เป็นปกติ) มีความหมายที่ตีความได้หรือไม่?

ฉันคิดว่าพวกเขาสามารถระบุขนาดของอิทธิพลได้เนื่องจากฟีเจอร์นั้นได้รับการปรับให้เป็นมาตรฐานล่วงหน้า อย่างไรก็ตามในปัญหาของฉันค่าสัมประสิทธิ์ดูเหมือนจะขึ้นอยู่กับคุณสมบัติที่ฉันเลือก แม้แต่สัญลักษณ์ของสัมประสิทธิ์ก็เปลี่ยนไปด้วยชุดคุณสมบัติที่แตกต่างกันซึ่งเลือกเป็นอินพุต

มันสมเหตุสมผลหรือไม่ที่จะตรวจสอบคุณค่าของสัมประสิทธิ์และวิธีที่ถูกต้องในการค้นหาสัมประสิทธิ์ที่มีความหมายมากที่สุดและระบุความหมายด้วยคำพูดคืออะไร? มีบางรุ่นที่ติดตั้งและสัญลักษณ์ของสัมประสิทธิ์ของพวกเขาไม่ถูกต้อง - แม้ว่าพวกเขาเรียงลำดับข้อมูลพอดี?

(ความสัมพันธ์สูงสุดที่ฉันมีระหว่างฟีเจอร์ต่าง ๆ มีเพียง 0.25 แต่นั่นมีบทบาทอย่างแน่นอน?)


คุณช่วยอธิบายความหมายของการทำให้เป็นมาตรฐานได้หรือไม่? คุณมีเงื่อนไขการลงโทษ L2 หรือไม่และหากเป็นเช่นนั้นคุณค้นหาปัจจัยที่ดีที่สุดแล้วเช่นโดยการตรวจสอบความถูกต้องข้าม?
seanv507

ใช่ฉันอนุญาตให้มีการปรับโทษ L2 ในค่าสัมประสิทธิ์ ฉันค้นหาปัจจัยการทำให้เป็นมาตรฐานที่ดีที่สุดแล้ว แต่ฉันยังไม่ได้ใช้การเลือกคุณลักษณะ อย่างไรก็ตามมันทำให้ฉันรู้สึกไม่แน่ใจเกี่ยวกับมันเนื่องจากค่าสัมประสิทธิ์ขึ้นอยู่กับการเลือกคุณสมบัติที่ฉันมี สมมติว่าแต่ละคุณลักษณะมีผลบวกหรือลบของคลาสบวกฉันจะกำหนดความแข็งแกร่งและทิศทางของพวกเขาได้อย่างไร
Gerenuk

คำตอบ:


14

สัมประสิทธิ์จากผลลัพธ์มีความหมายถึงแม้ว่าคนส่วนใหญ่จะไม่เข้าใจง่าย แต่ก็ไม่ใช่สำหรับฉัน นั่นคือเหตุผลที่ผู้คนเปลี่ยนเป็นอัตราต่อรอง อย่างไรก็ตามบันทึกของอัตราต่อรองเป็นค่าสัมประสิทธิ์; ค่าสัมประสิทธิ์ exponentiated เท่ากับอัตราส่วนอัตราต่อรอง

สัมประสิทธิ์มีประโยชน์มากที่สุดสำหรับการเสียบเข้ากับสูตรที่ให้ความน่าจะเป็นที่คาดการณ์ว่าจะอยู่ในแต่ละระดับของตัวแปรตาม

เช่นใน R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

การประมาณพารามิเตอร์สำหรับอายุคือ 1.64 สิ่งนี้หมายความว่า? ถ้าคุณรวมมันกับการประมาณค่าพารามิเตอร์สำหรับจุดตัด (-21.24) คุณจะได้สูตรที่ทำนายโอกาสของการมีประจำเดือนครั้งแรก:

P(M)=11+อี21.24-1.64* * * *aก.อี

อี1.64=5.16


4

การตีความค่าสัมประสิทธิ์โดยตรงนั้นทำได้ยากและทำให้เข้าใจผิดได้ คุณไม่รับประกันเกี่ยวกับวิธีกำหนดน้ำหนักระหว่างตัวแปร

ตัวอย่างด่วนคล้ายกับสถานการณ์ที่คุณอธิบาย: ฉันได้ทำงานในรูปแบบของการโต้ตอบของผู้ใช้กับเว็บไซต์ โมเดลนั้นมีตัวแปรสองตัวที่แทนจำนวน "คลิก" ระหว่างชั่วโมงแรกและระหว่างชั่วโมงที่สองของเซสชันผู้ใช้ ตัวแปรเหล่านี้มีความสัมพันธ์กันอย่างมาก หากค่าสัมประสิทธิ์ทั้งคู่สำหรับตัวแปรเหล่านั้นเป็นค่าบวกเราสามารถเข้าใจผิดได้ง่ายและเชื่อว่าค่าสัมประสิทธิ์ที่สูงขึ้นอาจบ่งบอกถึงความสำคัญ "สูง" อย่างไรก็ตามโดยการเพิ่ม / ลบอื่น ๆตัวแปรที่เราสามารถจบลงด้วยโมเดลที่ตัวแปรแรกมีเครื่องหมายบวกและลบอื่น ๆ เหตุผลที่เราลงเอยนั้นคือเนื่องจากมีความสัมพันธ์ที่สำคัญ (แม้ว่าจะต่ำ) ระหว่างคู่ส่วนใหญ่ของตัวแปรที่มีอยู่เราไม่มีข้อสรุปที่ปลอดภัยเกี่ยวกับความสำคัญของตัวแปรโดยใช้สัมประสิทธิ์ (ยินดีที่จะเรียนรู้จากชุมชนถ้า การตีความนี้ถูกต้อง)

ถ้าคุณต้องการสร้างแบบจำลองที่ง่ายต่อการตีความความคิดเดียวก็คือการใช้ Lasso (การย่อขนาดของบรรทัดฐาน L1 ให้น้อยที่สุด) สิ่งที่นำไปสู่การแก้ปัญหากระจัดกระจายคือตัวแปรมีความสัมพันธ์กันน้อยลง อย่างไรก็ตามวิธีการนั้นจะไม่เลือกทั้งสองตัวแปรของตัวอย่างก่อนหน้านี้อย่างง่ายดาย - หนึ่งจะเป็นศูนย์ wighted

หากคุณต้องการประเมินความสำคัญของตัวแปรเฉพาะหรือชุดของตัวแปรฉันขอแนะนำให้ใช้วิธีการเลือกคุณสมบัติโดยตรง วิธีการดังกล่าวนำไปสู่ข้อมูลเชิงลึกที่มีความหมายและการจัดอันดับทั่วโลกถึงความสำคัญของตัวแปรตามเกณฑ์บางอย่าง


0

สัมประสิทธิ์มีความหมายอย่างแน่นอนที่สุด ในบางแพ็กเกจซอฟต์แวร์โมเดลสามารถถูกนำไปใช้อย่างใดอย่างหนึ่งในสองวิธีในการผลิตสัมประสิทธิ์ทั้งสองประเภท ตัวอย่างเช่นใน Stata เราสามารถใช้คำสั่ง Logistic หรือคำสั่ง logit ในการใช้งานหนึ่งแบบจำลองให้ค่าสัมประสิทธิ์แบบดั้งเดิมในขณะที่ใช้งานแบบอื่นแบบจำลองจะให้อัตราต่อรอง

คุณอาจพบว่าคน ๆ หนึ่งมีความหมายต่อคุณมากกว่าคนอื่น

เกี่ยวกับคำถามของคุณที่ "... สัมประสิทธิ์ดูเหมือนจะขึ้นอยู่กับความไว ... "

คุณกำลังบอกว่าผลลัพธ์ขึ้นอยู่กับตัวแปรใดที่คุณใส่ในโมเดล?

ถ้าเป็นเช่นนั้นใช่นี่เป็นความจริงของชีวิตเมื่อทำการวิเคราะห์การถดถอย เหตุผลของเรื่องนี้ก็คือการวิเคราะห์การถดถอยกำลังมองหาตัวเลขจำนวนมากและกระทืบมันด้วยวิธีอัตโนมัติ

ผลลัพธ์ขึ้นอยู่กับว่าตัวแปรเกี่ยวข้องกันอย่างไรและไม่ได้วัดตัวแปรใด มันเป็นศิลปะอย่างที่มันเป็นวิทยาศาสตร์

ยิ่งไปกว่านั้นถ้าแบบจำลองมีตัวทำนายมากเกินไปเมื่อเทียบกับขนาดตัวอย่างสัญญาณอาจพลิกกลับอย่างบ้าคลั่ง - ฉันคิดว่าสิ่งนี้บอกว่าแบบจำลองนั้นใช้ตัวแปรที่มีผลเล็กน้อยในการ "ปรับ" ค่าประมาณของสิ่งนั้น ที่มีเอฟเฟกต์ใหญ่ (เช่นปุ่มปรับระดับเสียงขนาดเล็กเพื่อปรับเทียบขนาดเล็ก) เมื่อสิ่งนี้เกิดขึ้นฉันมักจะไม่เชื่อใจตัวแปรที่มีเอฟเฟกต์เล็กน้อย

ในทางกลับกันอาจเป็นเพราะสัญญาณเริ่มเปลี่ยนเมื่อคุณเพิ่มนักทำนายใหม่เพราะคุณเข้าใกล้ความจริงเชิงสาเหตุมากขึ้น

ตัวอย่างเช่นสมมติว่ากรีนแลนด์บรั่นดีอาจไม่ดีต่อสุขภาพ แต่รายได้ดีต่อสุขภาพ หากละเว้นรายได้และคนรวยดื่มบรั่นดีมากขึ้นโมเดลอาจ "รับ" อิทธิพลของรายได้ที่ละไว้และ "พูด" ว่าแอลกอฮอล์นั้นดีต่อสุขภาพของคุณ

ไม่ต้องสงสัยเลยว่ามันเป็นความจริงของชีวิตที่สัมประสิทธิ์ขึ้นอยู่กับตัวแปรอื่น ๆ ที่รวมอยู่ หากต้องการเรียนรู้เพิ่มเติมให้ดูที่ "ละเว้นตัวแปรอคติ" และ "ความสัมพันธ์ปลอม" หากคุณยังไม่เคยพบกับแนวคิดเหล่านี้มาก่อนพยายามค้นหาข้อมูลเบื้องต้นเกี่ยวกับหลักสูตรสถิติที่ตรงกับความต้องการของคุณ - สิ่งนี้สามารถสร้างความแตกต่างอย่างมากในการทำแบบจำลอง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.