การรักษาระดับตัวแปรเด็ดขาด 'ไม่ทราบ / ปฏิเสธ'


9

ฉันกำลังสร้างแบบจำลองการทำนายโรคเบาหวานโดยใช้การถดถอยโลจิสติก ชุดข้อมูลที่ใช้คือ ระบบเฝ้าระวังปัจจัยเสี่ยง (BRFSS)ของศูนย์ควบคุมโรค (CDC) หนึ่งในตัวแปรอิสระคือความดันโลหิตสูง มันเป็นหมวดหมู่ที่มีระดับต่อไปนี้ 'ใช่', 'ไม่', 'ไม่ทราบ / ปฏิเสธ' ฉันควรลบแถวเหล่านั้นด้วย 'ไม่ทราบ / ปฏิเสธ' ในขณะที่สร้างแบบจำลองหรือไม่ มีความแตกต่างอะไรในการรักษาหรือลบแถวเหล่านั้นออกจากแบบจำลอง

คำตอบ:


6

ฉันแค่สงสัยเกี่ยวกับคำถามเดียวกันทั้งหมดเมื่อวิเคราะห์ข้อมูลการสำรวจโรงพยาบาลแห่งชาติล่าสุด ตัวแปรหลายตัวมีค่าที่ขาดหายไปมากเช่นสถานะการสมรสและประเภทของขั้นตอน ปัญหานี้มาถึงความสนใจของฉันเพราะหมวดหมู่เหล่านี้ปรากฏขึ้นกับผลกระทบที่แข็งแกร่ง (และที่สำคัญ) ในการวิเคราะห์การถดถอยโลจิสติกส่วนใหญ่ที่ฉันกำลังทำงาน

มีใครสงสัยว่าทำไมรหัสที่หายไปจะได้รับ ในกรณีของสถานภาพการสมรสเป็นไปได้ที่ความล้มเหลวในการให้ข้อมูลนี้อาจเชื่อมโยงกับปัจจัยสำคัญเช่นสถานะทางเศรษฐกิจและสังคมหรือประเภทของโรค ในกรณีของคุณที่มีความดันโลหิตสูงเราควรถามว่าทำไมค่าจะไม่เป็นที่รู้จักหรือปฏิเสธ? สิ่งนี้อาจเกี่ยวข้องกับการปฏิบัติที่สถาบัน (อาจเป็นวิธีการที่หละหลวม) หรือแม้แต่กับบุคคล (เช่นความเชื่อทางศาสนา) ลักษณะเหล่านั้นอาจเกี่ยวข้องกับโรคเบาหวาน ดังนั้นดูเหมือนว่าจะดำเนินการต่อไปตามที่คุณคาดไว้แทนที่จะเขียนโค้ดเหล่านี้ว่าหายไป (ยกเว้นการวิเคราะห์ทั้งหมด) หรือพยายามที่จะกำหนดค่า (ซึ่งปิดบังข้อมูลที่พวกเขาให้และสามารถมีอคติผลลัพธ์) ไม่ยากอีกต่อไปที่จะทำ: คุณเพียงแค่ต้องแน่ใจว่าตัวแปรนี้ถือเป็นหมวดหมู่และคุณจะได้ค่าสัมประสิทธิ์เพิ่มขึ้นอีกหนึ่งตัวในผลลัพธ์การถดถอย นอกจากนี้ฉันสงสัยว่าชุดข้อมูล BRFSS มีขนาดใหญ่พอที่คุณไม่ต้องกังวลเกี่ยวกับพลังงาน


2
นอกจากนี้ DK อาจมีความหมายที่แท้จริงเช่นบุคคลเหล่านั้นไม่ใส่ใจสุขภาพและมีความเสี่ยง
Brandon Bertelsen

2

ก่อนอื่นคุณต้องคิดก่อนว่าข้อมูลที่หายไปนั้นหายไปอย่างสมบูรณ์แบบสุ่ม (MCAR), ขาดแบบสุ่ม (MAR) หรือขาดหายไปไม่สุ่ม (MNAR) เป็นการลบ (ในคำอื่น ๆ การวิเคราะห์แบบสมบูรณ์) อาจนำไปสู่ผลลัพธ์ที่เอนเอียง ทางเลือกคือการให้น้ำหนักความน่าจะเป็นแบบผกผัน, การใส่หลายแบบ, วิธีการแบบเต็มความน่าจะเป็นและวิธีการเพิ่มความทนทานเป็นสองเท่า การใส่ร้ายหลายครั้งด้วยสมการที่ถูกล่ามโซ่ (MICE) ถ้าบ่อยครั้งวิธีที่ง่ายที่สุดที่จะไป


ขอบคุณ. มันเป็นข้อมูลการสำรวจและฉันไม่แน่ใจว่ามันคือ MAR หรือ MNAR ยกตัวอย่างเช่นมีตัวแปรที่ระบุว่า 1) "ไม่ว่าจะเป็นคนที่เป็นโรคเบาหวานหรือไม่" และอีกตัวแปรหนึ่ง (2) ไม่ว่าเขาจะทานอินซูลิน? ฉันเห็นว่าตัวแปร (2) มีรายการเฉพาะเมื่อตัวแปร (1) คือ 'ใช่' (เช่นบุคคลที่เป็นโรคเบาหวาน). มิฉะนั้น (2) จะว่างเปล่า นอกจากนี้ (2) มี 'ใช่', 'ไม่', 'ไม่ทราบ / ปฏิเสธ' เป็นคำตอบสำหรับกรณีเบาหวาน ดังนั้นฉันจะจัดการเซลล์ว่างและตอบแบบสำรวจ 'ไม่ทราบ / ปฏิเสธ' ได้อย่างไร
user3897

ฉันต้องการเรียนรู้เกี่ยวกับการใส่ร้ายหลายครั้งและกำลังมองหาสื่อการเรียนรู้ออนไลน์ คุณสามารถแนะนำสื่อการเรียนรู้สำหรับ MI ได้ไหม
user3897

0

คุณมีเหตุผลหรือไม่ที่จะคิดว่าการศึกษาผู้ป่วยโรคเบาหวานมีแนวโน้มมากขึ้นหรือน้อยลงที่จะตอบสนองต่อ DK / R? ถ้าไม่ใช่ (และฉันประหลาดใจมากที่พบว่าคุณทำ) รวมถึงตัวทำนายนี้ในรุ่นที่ไม่มีกรณีเหล่านี้จะส่งผลให้เกิดเสียง นั่นคือคุณจะมีความแม่นยำน้อยลงในการประเมินว่า "ใช่" กับ "ไม่" มีผลต่อความน่าจะเป็นของเบาหวานโดยประมาณ (เพราะคุณกำลังพยายามจำลองแบบอิทธิพลของ "ใช่" หรือ "ไม่" เทียบกับการตอบสนอง DK / R แบบสุ่มเมื่อเทียบกับเพียงแค่ "ใช่" กับ "ไม่") ตัวเลือกที่ตรงไปตรงมาที่สุดคือการแยกเคสที่มีการตอบกลับ DK / R สมมติว่าคำตอบ "ใช่ / ไม่ใช่" ของพวกเขาหายไปโดยการสุ่มแน่นอนการยกเว้นพวกเขาจะไม่ทำให้คุณประเมินอิทธิพลของ "ใช่" และ "no." อย่างไรก็ตามวิธีการดังกล่าวจะลดขนาดตัวอย่างของคุณและทำให้ลดพลังงานทางสถิติโดยคำนึงถึงตัวทำนายที่เหลืออยู่ หากคุณมี DK / R จำนวนมากในตัวแปรนี้คุณอาจต้องการใส่คำตอบเป็น "ใช่" / "ไม่" โดยการใส่หลายครั้ง (อาจจะมากที่สุดอาจเป็นเพียงกลยุทธ์การใส่ค่าที่หายไป)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.