การรักษาระดับตัวแปรเด็ดขาด 'ไม่ทราบ / ปฏิเสธ'

9

ฉันกำลังสร้างแบบจำลองการทำนายโรคเบาหวานโดยใช้การถดถอยโลจิสติก ชุดข้อมูลที่ใช้คือ ระบบเฝ้าระวังปัจจัยเสี่ยง (BRFSS)ของศูนย์ควบคุมโรค (CDC) หนึ่งในตัวแปรอิสระคือความดันโลหิตสูง มันเป็นหมวดหมู่ที่มีระดับต่อไปนี้ 'ใช่', 'ไม่', 'ไม่ทราบ / ปฏิเสธ' ฉันควรลบแถวเหล่านั้นด้วย 'ไม่ทราบ / ปฏิเสธ' ในขณะที่สร้างแบบจำลองหรือไม่ มีความแตกต่างอะไรในการรักษาหรือลบแถวเหล่านั้นออกจากแบบจำลอง

logistic missing-data

— user3897
แหล่งที่มา

6

ฉันแค่สงสัยเกี่ยวกับคำถามเดียวกันทั้งหมดเมื่อวิเคราะห์ข้อมูลการสำรวจโรงพยาบาลแห่งชาติล่าสุด ตัวแปรหลายตัวมีค่าที่ขาดหายไปมากเช่นสถานะการสมรสและประเภทของขั้นตอน ปัญหานี้มาถึงความสนใจของฉันเพราะหมวดหมู่เหล่านี้ปรากฏขึ้นกับผลกระทบที่แข็งแกร่ง (และที่สำคัญ) ในการวิเคราะห์การถดถอยโลจิสติกส่วนใหญ่ที่ฉันกำลังทำงาน

มีใครสงสัยว่าทำไมรหัสที่หายไปจะได้รับ ในกรณีของสถานภาพการสมรสเป็นไปได้ที่ความล้มเหลวในการให้ข้อมูลนี้อาจเชื่อมโยงกับปัจจัยสำคัญเช่นสถานะทางเศรษฐกิจและสังคมหรือประเภทของโรค ในกรณีของคุณที่มีความดันโลหิตสูงเราควรถามว่าทำไมค่าจะไม่เป็นที่รู้จักหรือปฏิเสธ? สิ่งนี้อาจเกี่ยวข้องกับการปฏิบัติที่สถาบัน (อาจเป็นวิธีการที่หละหลวม) หรือแม้แต่กับบุคคล (เช่นความเชื่อทางศาสนา) ลักษณะเหล่านั้นอาจเกี่ยวข้องกับโรคเบาหวาน ดังนั้นดูเหมือนว่าจะดำเนินการต่อไปตามที่คุณคาดไว้แทนที่จะเขียนโค้ดเหล่านี้ว่าหายไป (ยกเว้นการวิเคราะห์ทั้งหมด) หรือพยายามที่จะกำหนดค่า (ซึ่งปิดบังข้อมูลที่พวกเขาให้และสามารถมีอคติผลลัพธ์) ไม่ยากอีกต่อไปที่จะทำ: คุณเพียงแค่ต้องแน่ใจว่าตัวแปรนี้ถือเป็นหมวดหมู่และคุณจะได้ค่าสัมประสิทธิ์เพิ่มขึ้นอีกหนึ่งตัวในผลลัพธ์การถดถอย นอกจากนี้ฉันสงสัยว่าชุดข้อมูล BRFSS มีขนาดใหญ่พอที่คุณไม่ต้องกังวลเกี่ยวกับพลังงาน

— whuber
แหล่งที่มา

2

นอกจากนี้ DK อาจมีความหมายที่แท้จริงเช่นบุคคลเหล่านั้นไม่ใส่ใจสุขภาพและมีความเสี่ยง

— Brandon Bertelsen

2

ก่อนอื่นคุณต้องคิดก่อนว่าข้อมูลที่หายไปนั้นหายไปอย่างสมบูรณ์แบบสุ่ม (MCAR), ขาดแบบสุ่ม (MAR) หรือขาดหายไปไม่สุ่ม (MNAR) เป็นการลบ (ในคำอื่น ๆ การวิเคราะห์แบบสมบูรณ์) อาจนำไปสู่ผลลัพธ์ที่เอนเอียง ทางเลือกคือการให้น้ำหนักความน่าจะเป็นแบบผกผัน, การใส่หลายแบบ, วิธีการแบบเต็มความน่าจะเป็นและวิธีการเพิ่มความทนทานเป็นสองเท่า การใส่ร้ายหลายครั้งด้วยสมการที่ถูกล่ามโซ่ (MICE) ถ้าบ่อยครั้งวิธีที่ง่ายที่สุดที่จะไป

— GaBorgulya
แหล่งที่มา

ขอบคุณ. มันเป็นข้อมูลการสำรวจและฉันไม่แน่ใจว่ามันคือ MAR หรือ MNAR ยกตัวอย่างเช่นมีตัวแปรที่ระบุว่า 1) "ไม่ว่าจะเป็นคนที่เป็นโรคเบาหวานหรือไม่" และอีกตัวแปรหนึ่ง (2) ไม่ว่าเขาจะทานอินซูลิน? ฉันเห็นว่าตัวแปร (2) มีรายการเฉพาะเมื่อตัวแปร (1) คือ 'ใช่' (เช่นบุคคลที่เป็นโรคเบาหวาน). มิฉะนั้น (2) จะว่างเปล่า นอกจากนี้ (2) มี 'ใช่', 'ไม่', 'ไม่ทราบ / ปฏิเสธ' เป็นคำตอบสำหรับกรณีเบาหวาน ดังนั้นฉันจะจัดการเซลล์ว่างและตอบแบบสำรวจ 'ไม่ทราบ / ปฏิเสธ' ได้อย่างไร

— user3897

ฉันต้องการเรียนรู้เกี่ยวกับการใส่ร้ายหลายครั้งและกำลังมองหาสื่อการเรียนรู้ออนไลน์ คุณสามารถแนะนำสื่อการเรียนรู้สำหรับ MI ได้ไหม

— user3897

0

คุณมีเหตุผลหรือไม่ที่จะคิดว่าการศึกษาผู้ป่วยโรคเบาหวานมีแนวโน้มมากขึ้นหรือน้อยลงที่จะตอบสนองต่อ DK / R? ถ้าไม่ใช่ (และฉันประหลาดใจมากที่พบว่าคุณทำ) รวมถึงตัวทำนายนี้ในรุ่นที่ไม่มีกรณีเหล่านี้จะส่งผลให้เกิดเสียง นั่นคือคุณจะมีความแม่นยำน้อยลงในการประเมินว่า "ใช่" กับ "ไม่" มีผลต่อความน่าจะเป็นของเบาหวานโดยประมาณ (เพราะคุณกำลังพยายามจำลองแบบอิทธิพลของ "ใช่" หรือ "ไม่" เทียบกับการตอบสนอง DK / R แบบสุ่มเมื่อเทียบกับเพียงแค่ "ใช่" กับ "ไม่") ตัวเลือกที่ตรงไปตรงมาที่สุดคือการแยกเคสที่มีการตอบกลับ DK / R สมมติว่าคำตอบ "ใช่ / ไม่ใช่" ของพวกเขาหายไปโดยการสุ่มแน่นอนการยกเว้นพวกเขาจะไม่ทำให้คุณประเมินอิทธิพลของ "ใช่" และ "no." อย่างไรก็ตามวิธีการดังกล่าวจะลดขนาดตัวอย่างของคุณและทำให้ลดพลังงานทางสถิติโดยคำนึงถึงตัวทำนายที่เหลืออยู่ หากคุณมี DK / R จำนวนมากในตัวแปรนี้คุณอาจต้องการใส่คำตอบเป็น "ใช่" / "ไม่" โดยการใส่หลายครั้ง (อาจจะมากที่สุดอาจเป็นเพียงกลยุทธ์การใส่ค่าที่หายไป)

— dmk38
แหล่งที่มา