ความหมายของ p-value ของตัวแปรตัวแบบการถดถอยโลจิสติก


9

ดังนั้นฉันจึงทำงานกับแบบจำลองการถดถอยโลจิสติกในอาร์แม้ว่าฉันจะยังใหม่กับสถิติฉันรู้สึกว่าฉันมีความเข้าใจเล็กน้อยเกี่ยวกับแบบจำลองการถดถอยในตอนนี้ แต่ยังมีบางสิ่งที่รบกวนฉัน:

เมื่อมองไปที่รูปภาพที่เชื่อมโยงคุณจะเห็นสรุป R พิมพ์สำหรับรุ่นตัวอย่างที่ฉันสร้างขึ้น รูปแบบการพยายามที่จะคาดการณ์ว่าอีเมลในชุดข้อมูลที่จะได้รับการ refound หรือไม่ (ตัวแปรไบนารีisRefound) และชุดข้อมูลที่มีสองตัวแปรที่เกี่ยวข้องอย่างใกล้ชิดกับisRefoundคือnext24และnext7days- เหล่านี้เป็นยังไบนารีและบอกได้ว่า mail จะได้รับการคลิกในครั้งต่อไป 24 ชั่วโมง / 7 วันถัดจากจุดปัจจุบันในบันทึก

ค่า p สูงควรระบุว่าผลกระทบที่ตัวแปรนี้มีต่อการทำนายแบบจำลองนั้นค่อนข้างสุ่มใช่ไหม? จากนี้ฉันไม่เข้าใจว่าทำไมความแม่นยำของแบบจำลองการคาดการณ์จึงลดลงต่ำกว่า 10% เมื่อตัวแปรสองตัวนี้ไม่ได้อยู่ในสูตรการคำนวณ หากตัวแปรเหล่านี้แสดงความสำคัญต่ำทำไมการลบออกจากแบบจำลองมีผลกระทบอย่างมาก

ขอแสดงความนับถือและขอขอบคุณล่วงหน้า Rickyfox

ป้อนคำอธิบายรูปภาพที่นี่


แก้ไข:

ครั้งแรกที่ฉันลบเฉพาะ next24 ซึ่งควรให้ผลกระทบต่ำเพราะ coef มันค่อนข้างเล็ก ตามที่คาดไว้มีการเปลี่ยนแปลงเล็กน้อย - ไม่ต้องอัปโหลดรูปภาพสำหรับสิ่งนั้น

การลบรุ่นถัดไป 7 วันมีผลกระทบอย่างมากต่อโมเดล: AIC 200k ขึ้นไปความแม่นยำลดลงถึง 16% และเรียกคืนได้ถึง 73%

ป้อนคำอธิบายรูปภาพที่นี่


1
ถ้าคุณมีisRefound ~ day + next24และละเว้นตัวแปรอื่นทั้งหมด
smillig

คำตอบ:


11

โดยทั่วไปดูเหมือนว่าคุณกำลังมีปัญหาความสัมพันธ์แบบหลายฝ่าย มีเนื้อหามากมายเกี่ยวกับเรื่องนี้เริ่มจากเว็บไซต์นี้หรือวิกิพีเดีย

สั้น ๆ ตัวทำนายสองตัวนั้นดูเหมือนจะเกี่ยวข้องกับผลลัพธ์ของคุณอย่างแท้จริง แต่พวกมันก็มีความสัมพันธ์อย่างมากกับกันและกัน (โปรดทราบว่ามีตัวแปรมากกว่าสองตัว แน่นอนว่าเป็นเรื่องที่สมเหตุสมผล: อีเมลทั้งหมดที่คลิกภายใน 24 ชั่วโมงก็ถูกคลิกภายใน 7 วัน (ตามคำจำกัดความ) และอีเมลส่วนใหญ่อาจไม่ถูกคลิกเลย (ไม่ใช่ใน 24 ชั่วโมงและไม่ใช่ใน 7 วัน)

วิธีหนึ่งที่แสดงในผลลัพธ์ที่คุณนำเสนอคือข้อผิดพลาดมาตรฐานขนาดใหญ่อย่างไม่น่าเชื่อ / CI สำหรับค่าสัมประสิทธิ์ที่เกี่ยวข้อง (ตัดสินจากความจริงที่คุณใช้ bigglm และค่าสัมประสิทธิ์ขนาดเล็กแม้จะสำคัญมากดูเหมือนว่าขนาดตัวอย่างของคุณควรมากกว่าเพียงพอ เพื่อให้ได้ค่าประมาณที่ดี) สิ่งอื่น ๆ ที่คุณสามารถทำได้เพื่อตรวจจับปัญหาประเภทนี้: ดูความสัมพันธ์แบบคู่จับคู่ลบหนึ่งในตัวแปรต้องสงสัย (ตามที่แนะนำโดย @Nick Sabbe) ทดสอบความสำคัญสำหรับตัวแปรทั้งสองร่วมกัน

โดยทั่วไปค่า p สูงไม่ได้หมายความว่าเอฟเฟกต์มีขนาดเล็กหรือสุ่ม แต่ไม่มีหลักฐานว่าสัมประสิทธิ์แตกต่างจาก 0 มันยังใหญ่มากคุณก็ไม่รู้ (เพราะตัวอย่าง ขนาดเล็กเกินไปหรือมีปัญหาอื่น ๆ เกี่ยวกับรุ่น)


1
โปรดทราบว่าผลลัพธ์ใหม่ที่คุณโพสต์แสดงให้เห็นว่าตัวแปรอื่น ๆ อาจเกี่ยวข้องเช่นกัน (หรือมีปัญหาอื่นที่ฉันไม่เห็น) เพราะมิฉะนั้นคุณคาดว่า SE จะต่ำกว่ามากเมื่อรวมหนึ่งในสองตัวแปรเท่านั้น .
งานเลี้ยง

ใช่สังเกตแล้วว่า แต่ขอขอบคุณ ฉันจะทำแก้ไขในภายหลังเพื่อให้คุณรู้ว่าสิ่งที่อาจจะเกิดขึ้นนี้ถ้าคุณสนใจ
deemel
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.