- เมื่อแบ่งขั้วตัวแปรข้อมูลใดที่หายไปในกระบวนการ
- การแบ่งขั้วได้ช่วยในการวิเคราะห์อย่างไร
คำตอบ:
ข้อมูลใดหายไป: ขึ้นอยู่กับตัวแปร โดยทั่วไปแล้วโดยการแบ่งขั้วคุณยืนยันว่ามีผลกระทบเส้นตรงระหว่างตัวแปรหนึ่งกับอีกตัวแปรหนึ่ง ตัวอย่างเช่นพิจารณาการวัดอย่างต่อเนื่องของการสัมผัสกับมลพิษในการศึกษาโรคมะเร็ง หากคุณแบ่งขั้วเป็น "สูง" และ "ต่ำ" คุณยืนยันว่าสิ่งเหล่านั้นเป็นค่าสองค่าที่สำคัญ มีความเสี่ยงของการเกิดมะเร็งในระดับสูงและมีความเสี่ยงต่ำ แต่ถ้าความเสี่ยงเพิ่มขึ้นอย่างต่อเนื่องชั่วครู่แล้วแบนออกจากนั้นก็เพิ่มขึ้นอีกครั้งก่อนที่จะมีค่าสูงในที่สุด? ทั้งหมดนั้นสูญหายไป
สิ่งที่คุณจะได้รับ: ง่ายกว่า ตัวแปรแบบแบ่งขั้วมักจะจัดการกับสถิติได้ง่ายกว่ามาก มีเหตุผลที่จะทำมันมี - ถ้าตัวแปรอย่างต่อเนื่องตกอยู่ในสองกลุ่มที่ชัดเจนอยู่แล้วแต่ผมมักจะหลีกเลี่ยง dichotomizing เว้นแต่รูปแบบธรรมชาติของตัวแปรในสถานที่แรก มันก็มักจะมีประโยชน์ถ้าเขตข้อมูลของคุณเป็นสิ่งที่แยกขั้วต่อไปเพื่อให้มีรูปแบบของตัวแปรแบบแบ่งขั้ว ตัวอย่างเช่นหลายคนคิดว่าจำนวนเซลล์ CD4 น้อยกว่า 400 ถึงเกณฑ์ที่สำคัญสำหรับเอชไอวี ดังนั้นฉันมักจะมีตัวแปร 0/1 สำหรับ Above / Below 400 แต่ฉันจะเก็บตัวแปรนับ CD4 อย่างต่อเนื่องเช่นกัน สิ่งนี้จะช่วยประสานการศึกษาของคุณกับผู้อื่น
ฉันจะไม่เห็นด้วยกับปีเตอร์เล็กน้อย ในขณะที่การแบ่งตัวแปรต่อเนื่องขึ้นเป็นหมวดหมู่มักจะฉลาดกว่าการแบ่งขั้วแบบหยาบฉันค่อนข้างจะคัดค้านการจัดหมวดหมู่แบบควอไทล์ หมวดหมู่ดังกล่าวเป็นเรื่องยากมากที่จะให้การตีความที่มีความหมาย ฉันคิดว่าขั้นตอนแรกของคุณควรดูว่ามีการจัดหมวดหมู่ทางชีวภาพหรือทางคลินิกที่สามารถใช้ได้หรือไม่และมีเพียงครั้งเดียวที่ตัวเลือกเหล่านั้นหมดคุณควรใช้ปริมาณ
การแบ่งขั้วเพิ่มความคิดขลังเพื่อการวิเคราะห์ข้อมูล นี่เป็นแนวคิดที่ไม่ค่อยดีนัก
นี่คือบทความโดย Royston, Altman และ Sauerbrei ด้วยเหตุผลบางประการว่าทำไมจึงเป็นความคิดที่ไม่ดี
ความคิดของฉัน: ถ้าคุณแบ่งขั้วตามตัวแปรกล่าวคือน้ำหนักแรกเกิดที่ 2.5 กก. (ทำตลอดเวลา) จากนั้นคุณกำลังรักษาเด็กทารกที่เกิดที่ 2.49 กิโลกรัมเช่นเดียวกับที่เกิดที่ 1.5 กิโลกรัมและทารกที่เกิดที่ 2.51 กิโลกรัมเหมือนคนที่ 3.5 กก. สิ่งนี้ไม่สมเหตุสมผล
ทางเลือกที่ดีกว่าคือการถดถอยแบบเชิงปริมาณ ฉันเขียนเกี่ยวกับเรื่องนี้สำหรับ NESUG เมื่อเร็ว ๆ นี้ กระดาษนั่นอยู่ที่นี่
ข้อยกเว้นประการหนึ่งข้างต้นคือเมื่อหมวดหมู่มีแรงจูงใจอย่างมาก ตัวอย่างเช่นหากคุณกำลังทำงานกับพฤติกรรมการขับขี่คุณจะต้องจัดหมวดหมู่ตามอายุทางกฎหมายในการขับขี่
ฉันชอบและสนับสนุนคำตอบของ @ Epigrad และ @ Peter ฉันแค่อยากจะเพิ่มนั่นคือการแปรผันของช่วงเวลาในไบนารี่หนึ่งทำให้ตัวแปรเมทริก (อาจ) เพียงแค่เรียงอันดับหนึ่ง ด้วยตัวแปรไบนารีมันไม่เหมาะสมที่จะคำนวณค่าเฉลี่ยหรือความแปรปรวน (แม้จะมีบางคนทำ) และตามที่ฉันได้บันทึกไว้ที่อื่นการวิเคราะห์หลายตัวแปรบางอย่างกลายเป็นเหตุผลหรือไม่เหมาะสมตามหลักเหตุผล ตัวอย่างเช่นฉันคิดว่ามันไม่ถูกต้องที่จะใช้การจัดกลุ่มแบบลำดับชั้นเซนทรอย / วอร์ดหรือการวิเคราะห์ปัจจัยด้วยตัวแปรไบนารี
ลูกค้าของการตรวจสอบมักจะบังคับให้เราแยกขั้วตัวแปรที่เอาต์พุตเนื่องจากการคิดในแง่ของการเรียนไม่กี่ชั้นมากกว่าหนึ่งลักษณะต่อเนื่องง่ายกว่าข้อมูลดูเหมือนน้อยลงและมีขนาดใหญ่ขึ้น
อย่างไรก็ตามมีกรณีที่อาจมีการรับประกันการแบ่งขั้ว ตัวอย่างเช่นที่มี bimodality ที่แข็งแกร่งหรือเมื่อการวิเคราะห์ (เช่น MAMBAC หรืออื่น ๆ ) แสดงการปรากฏตัวของ 2 ชั้นแฝง