80% ของข้อมูลที่ขาดหายไปในตัวแปรเดียว


12

มีตัวแปรหนึ่งในข้อมูลของฉันมี 80% ของข้อมูลที่ขาดหายไป ข้อมูลขาดหายไปเนื่องจากไม่มีอยู่จริง (เช่นจำนวนเงินกู้ของธนาคารที่ บริษัท ค้างชำระ) ฉันเจอบทความที่บอกว่าวิธีการปรับตัวแปร dummy เป็นวิธีแก้ปัญหานี้ หมายความว่าฉันต้องเปลี่ยนตัวแปรต่อเนื่องนี้เป็นหมวดหมู่หรือไม่

นี่เป็นทางออกเดียวหรือไม่? ฉันไม่ต้องการวางตัวแปรนี้ตามที่คิดในทางทฤษฎีมันเป็นสิ่งสำคัญสำหรับคำถามการวิจัยของฉัน

คำตอบ:


21

ข้อมูล "หายไป" ในแง่ของการไม่รู้จักหรือหมายความว่าไม่มีเงินกู้ (ดังนั้นจำนวนเงินกู้เป็นศูนย์)? ดูเหมือนหลังในกรณีนี้คุณต้องมีหุ่นจำลองไบนารีเพิ่มเติมเพื่อระบุว่ามีเงินกู้หรือไม่ ไม่จำเป็นต้องทำการเปลี่ยนแปลงจำนวนเงินกู้ (นอกเหนือจากการแสดงซ้ำอย่างต่อเนื่องเช่นรูทหรือบันทึกเริ่มต้นซึ่งอาจถูกระบุโดยอาศัยการพิจารณาอื่น ๆ )

วิธีนี้ใช้งานได้ดีในการถดถอย ตัวอย่างง่ายๆคือแบบจำลองแนวคิดของแบบฟอร์ม

dependent variable (Y) = loan amount (X) + constant.

ด้วยการเพิ่มตัวบ่งชี้สินเชื่อ ( ) โมเดลการถดถอยคือI

Y=βII+βXX+β0+ϵ

กับแสดงถึงข้อผิดพลาดแบบสุ่มโดยไม่มีการคาดหวัง สัมประสิทธิ์ถูกตีความว่า:ϵ

β0เป็นความคาดหวังของสำหรับสถานการณ์ที่ไม่มีเงินให้กู้ยืมเพราะผู้มีลักษณะโดยและ0YX=0I=0

βXคือการเปลี่ยนแปลงเล็กน้อยในเทียบกับจำนวนเงินกู้ ( )YX

βI+β0เป็นจุดตัดของคดีที่เกี่ยวกับสินเชื่อ


2
พวกเขาจะไม่ได้รับการปฏิบัติเหมือนหายไปพวกเขาจะเข้าสู่การประเมินมูลค่าของสินเชื่อไม่มี บางทีคุณอาจไม่ได้ให้เงินกู้ 'NA' ซึ่งในกรณีนี้คุณจำเป็นต้องบันทึกเป็น 0
John

2
@ John ขอบคุณนั่นคือสิ่งที่ฉันแนะนำ จุดคือการแสดงค่าเงินกู้ ( ) ในทางที่เหมาะสม (เช่นบันทึก (จำนวน + 1)) และตั้งและสำหรับกรณีใด ๆ โดยไม่ต้องกู้ นี่เป็นเทคนิคมาตรฐานในการถดถอยรวมถึงการถดถอยโลจิสติก XX=0I=1
whuber

3
@ lcl23 หากฉันเข้าใจสถานการณ์อย่างถูกต้องการใส่ความไม่เหมาะสม: ข้อมูล "ขาดหาย" ของคุณจะไม่หายไป พวกเขาระบุว่าไม่มีการกู้ยืมเงิน
whuber

1
@Bababurg ฉันคิดว่าคุณอาจได้รับมันไปข้างหลัง แต่มันไม่สำคัญ - ทั้งสองรุ่น (โดยใช้เมื่อเทียบกับ ) จะเทียบเท่ากัน ค่าที่ทำนายในโมเดลที่มีและไม่มีตัวบ่งชี้ดังกล่าวจะแตกต่างกันดังนั้นฉันจึงไม่เข้าใจสิ่งที่คุณพยายามถาม โปรดทราบว่า "nondetect" ต่างจาก "ไม่มีตัวตน" อย่างมาก! หากขีด จำกัด การตรวจจับของคุณมีขนาดเล็กพอคุณไม่จำเป็นต้องแนะนำตัวจำลองสำหรับพวกเขา และหากมีความต้องการการแนะนำหุ่นอาจจะหยาบเกินไป ในกรณีนั้นให้พิจารณาวิธีการวิเคราะห์ข้อมูลเซ็นเซอร์หรือค่าช่วงเวลาแทน I(X=1)I(X=0)
whuber

1
คำตอบอยู่ตรงนี้ เมื่อหุ่นจำลองเป็นค่าจะถูกเพิ่มเข้าไปในการทำนาย เมื่อหุ่นจำลองเป็นค่านั้นจะลดลง นั่นคือทั้งหมดที่มีให้มัน 1βI0
whuber

1

ฉันคิดว่าคุณเข้าใจผิดข้อเสนอแนะของบทความ: ส่วนใหญ่เป็นเพราะข้อเสนอแนะทำให้รู้สึกไม่ จากนั้นคุณจะมีสองปัญหา: วิธีการถอดรหัสตัวแปรและค่าของมันยังคงหายไป สิ่งที่อาจแนะนำคือการสร้างตัวบ่งชี้การหายไป

วิธีการที่เกี่ยวข้องในการจัดการข้อมูลที่หายไปซึ่งตรงกับคำอธิบายนี้คือการปรับตัวบ่งชี้การหายไป นี่เป็นวิธีที่ง่ายและสะดวก แต่โดยทั่วไปแล้วมันมีอคติ อคตินั้นไม่สามารถทำได้ในความเลว สิ่งนี้ทำงานได้อย่างมีประสิทธิภาพพอดีกับสองโมเดลและเฉลี่ยเอฟเฟกต์ของพวกเขาเข้าด้วยกัน: โมเดลแรกคือโมเดลที่มีเงื่อนไขอย่างสมบูรณ์ส่วนที่สองคือโมเดลตัวประกอบสมบูรณ์. โมเดลที่มีเงื่อนไขอย่างสมบูรณ์คือโมเดลเคสที่สมบูรณ์ซึ่งการลบแต่ละการสังเกตที่มีค่าขาดหายไป ดังนั้นจึงเหมาะสมกับชุดย่อยของข้อมูล 20% ประการที่สองคือความพอดีกับส่วนที่เหลือ 80% ไม่ปรับค่าที่หายไปเลย ตัวแบบขอบนี้จะประเมินผลเช่นเดียวกับแบบจำลองเต็มรูปแบบเมื่อไม่มีการโต้ตอบที่ไม่วัดค่าเมื่อฟังก์ชันการเชื่อมโยงยุบได้และเมื่อข้อมูลหายไปที่ Random (MAR) เอฟเฟกต์เหล่านี้จะถูกรวมเข้าด้วยค่าเฉลี่ยถ่วงน้ำหนัก แม้จะอยู่ภายใต้เงื่อนไขในอุดมคติไม่มีการโต้ตอบที่ไม่วัดผลและการขาดข้อมูลแบบสุ่ม (MCAR) แต่วิธีการตัวบ่งชี้ที่หายไปนั้นนำไปสู่ผลกระทบแบบเอนเอียงเพราะแบบจำลองขอบและแบบจำลองตามเงื่อนไขนั้น แม้การคาดการณ์จะลำเอียงในกรณีนี้

ทางเลือกที่ดีกว่าคือการใช้การใส่หลายแบบ แม้ว่าเมื่อวัดจากปัจจัยที่ขาดหายไปส่วนใหญ่ไปที่ความชุกต่ำมาก MI ก็ทำงานได้ค่อนข้างดีในการสร้างการรับรู้ที่ซับซ้อนในสิ่งที่อาจเป็นไปได้ สมมติฐานที่จำเป็นเท่านั้นที่นี่คือ MAR


ฟังก์ชั่น "ลิงก์สามารถยุบได้" หมายความว่าอย่างไร
Matthew Drury

1
@ MatthewDrury โดยทั่วไป "การยุบตัว" หมายถึงการปรับค่าตัวแปรที่ทำนายผลลัพธ์ แต่ไม่ใช่ผลหลักจะเพิ่มความแม่นยำ แต่ไม่เปลี่ยนผลโดยประมาณ
AdamO

เจ๋งขอบคุณอดัม ไม่เคยได้ยินคำศัพท์นั้นมาก่อน
Matthew Drury
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.