ผลกระทบของตัวแปรไดโคโตมิชอนคืออะไร?

เมื่อแบ่งขั้วตัวแปรข้อมูลใดที่หายไปในกระบวนการ
การแบ่งขั้วได้ช่วยในการวิเคราะห์อย่างไร

regression data-transformation binary-data

Gelman and Park มีบทความหนึ่งที่เปรียบเทียบการฝึกฝนการสร้างสามหมวดหมู่จากตัวแปรต่อเนื่องซึ่งต่างจากสองรายการ โดยปกติแล้วจะเป็นการดีที่สุดที่จะปล่อยตัวแปรไว้อย่างต่อเนื่องเนื่องจากเหตุผลอื่น ๆ ที่อธิบายไว้ด้านล่าง

— Michael Bishop

คำตอบ:

ข้อมูลใดหายไป: ขึ้นอยู่กับตัวแปร โดยทั่วไปแล้วโดยการแบ่งขั้วคุณยืนยันว่ามีผลกระทบเส้นตรงระหว่างตัวแปรหนึ่งกับอีกตัวแปรหนึ่ง ตัวอย่างเช่นพิจารณาการวัดอย่างต่อเนื่องของการสัมผัสกับมลพิษในการศึกษาโรคมะเร็ง หากคุณแบ่งขั้วเป็น "สูง" และ "ต่ำ" คุณยืนยันว่าสิ่งเหล่านั้นเป็นค่าสองค่าที่สำคัญ มีความเสี่ยงของการเกิดมะเร็งในระดับสูงและมีความเสี่ยงต่ำ แต่ถ้าความเสี่ยงเพิ่มขึ้นอย่างต่อเนื่องชั่วครู่แล้วแบนออกจากนั้นก็เพิ่มขึ้นอีกครั้งก่อนที่จะมีค่าสูงในที่สุด? ทั้งหมดนั้นสูญหายไป

สิ่งที่คุณจะได้รับ: ง่ายกว่า ตัวแปรแบบแบ่งขั้วมักจะจัดการกับสถิติได้ง่ายกว่ามาก มีเหตุผลที่จะทำมันมี - ถ้าตัวแปรอย่างต่อเนื่องตกอยู่ในสองกลุ่มที่ชัดเจนอยู่แล้วแต่ผมมักจะหลีกเลี่ยง dichotomizing เว้นแต่รูปแบบธรรมชาติของตัวแปรในสถานที่แรก มันก็มักจะมีประโยชน์ถ้าเขตข้อมูลของคุณเป็นสิ่งที่แยกขั้วต่อไปเพื่อให้มีรูปแบบของตัวแปรแบบแบ่งขั้ว ตัวอย่างเช่นหลายคนคิดว่าจำนวนเซลล์ CD4 น้อยกว่า 400 ถึงเกณฑ์ที่สำคัญสำหรับเอชไอวี ดังนั้นฉันมักจะมีตัวแปร 0/1 สำหรับ Above / Below 400 แต่ฉันจะเก็บตัวแปรนับ CD4 อย่างต่อเนื่องเช่นกัน สิ่งนี้จะช่วยประสานการศึกษาของคุณกับผู้อื่น

ฉันจะไม่เห็นด้วยกับปีเตอร์เล็กน้อย ในขณะที่การแบ่งตัวแปรต่อเนื่องขึ้นเป็นหมวดหมู่มักจะฉลาดกว่าการแบ่งขั้วแบบหยาบฉันค่อนข้างจะคัดค้านการจัดหมวดหมู่แบบควอไทล์ หมวดหมู่ดังกล่าวเป็นเรื่องยากมากที่จะให้การตีความที่มีความหมาย ฉันคิดว่าขั้นตอนแรกของคุณควรดูว่ามีการจัดหมวดหมู่ทางชีวภาพหรือทางคลินิกที่สามารถใช้ได้หรือไม่และมีเพียงครั้งเดียวที่ตัวเลือกเหล่านั้นหมดคุณควรใช้ปริมาณ

— Fomite
แหล่งที่มา

สวัสดี @epigrad ฉันคิดว่าการถดถอยเชิงปริมาณมีการตีความที่ค่อนข้างง่าย มันคล้ายกับการถดถอย OLS ปกติมากยกเว้นการแทนที่ "XXX เปอร์เซนต์" สำหรับ "หมายถึง"

— Peter Flom - Reinstate Monica

@ PeterFlom ขออภัยฉันควรจะชัดเจนมากขึ้น ฉันพบว่าพวกเขายากที่จะเขียนเป็นการตีความทางคลินิก / ทางชีวภาพที่เกี่ยวข้องเมื่อเปรียบเทียบกับหมวดหมู่ที่สร้างขึ้นจากหลักฐานทางคลินิก / ชีวภาพ นี่เป็นความลำเอียงเฉพาะในส่วนของฉัน

— Fomite

โอ้ตกลง @epigrad ที่เหมาะสม และฉันจะแก้ไขคำตอบเพื่อรวมกรณีนี้

— Peter Flom - Reinstate Monica

ดูเหมือนว่า EpiGrad และ @PeterFlom ตีความ "quantile regression" ต่างกัน EpiGrad พูดเกี่ยวกับการแบ่งตัวแปร X ออกเป็นกลุ่มที่กำหนดโดย quantiles ในขณะที่ Peter Flom พูดถึงการสร้างแบบจำลองพูด quantile ที่ 90 ของการตอบสนองแทนที่จะเป็นค่าเฉลี่ย

— Aniko

@Aniko นั่นอาจเป็นไปได้เช่นกัน ฉันสันนิษฐาน (อาจไม่ถูกต้อง) ว่าปีเตอร์หมายถึงการจัดหมวดหมู่ข้อมูลเป็นปริมาณและใช้ในรูปแบบการถดถอย แนวโน้มทั่วไป (และน่ารำคาญ) ในสาขาของฉัน นั่นอาจไม่เป็นเช่นนั้น

— Fomite

การแบ่งขั้วเพิ่มความคิดขลังเพื่อการวิเคราะห์ข้อมูล นี่เป็นแนวคิดที่ไม่ค่อยดีนัก

นี่คือบทความโดย Royston, Altman และ Sauerbrei ด้วยเหตุผลบางประการว่าทำไมจึงเป็นความคิดที่ไม่ดี

ความคิดของฉัน: ถ้าคุณแบ่งขั้วตามตัวแปรกล่าวคือน้ำหนักแรกเกิดที่ 2.5 กก. (ทำตลอดเวลา) จากนั้นคุณกำลังรักษาเด็กทารกที่เกิดที่ 2.49 กิโลกรัมเช่นเดียวกับที่เกิดที่ 1.5 กิโลกรัมและทารกที่เกิดที่ 2.51 กิโลกรัมเหมือนคนที่ 3.5 กก. สิ่งนี้ไม่สมเหตุสมผล

ทางเลือกที่ดีกว่าคือการถดถอยแบบเชิงปริมาณ ฉันเขียนเกี่ยวกับเรื่องนี้สำหรับ NESUG เมื่อเร็ว ๆ นี้ กระดาษนั่นอยู่ที่นี่

ข้อยกเว้นประการหนึ่งข้างต้นคือเมื่อหมวดหมู่มีแรงจูงใจอย่างมาก ตัวอย่างเช่นหากคุณกำลังทำงานกับพฤติกรรมการขับขี่คุณจะต้องจัดหมวดหมู่ตามอายุทางกฎหมายในการขับขี่

— Peter Flom - Reinstate Monica
แหล่งที่มา

ปีเตอร์พูดอย่างสวยงาม ฉันไม่สามารถจินตนาการถึงสถานการณ์ที่การแบ่งขั้วในการวิเคราะห์เป็นความคิดที่ดี

— Frank Harrell

ฉันชอบและสนับสนุนคำตอบของ @ Epigrad และ @ Peter ฉันแค่อยากจะเพิ่มนั่นคือการแปรผันของช่วงเวลาในไบนารี่หนึ่งทำให้ตัวแปรเมทริก (อาจ) เพียงแค่เรียงอันดับหนึ่ง ด้วยตัวแปรไบนารีมันไม่เหมาะสมที่จะคำนวณค่าเฉลี่ยหรือความแปรปรวน (แม้จะมีบางคนทำ) และตามที่ฉันได้บันทึกไว้ที่อื่นการวิเคราะห์หลายตัวแปรบางอย่างกลายเป็นเหตุผลหรือไม่เหมาะสมตามหลักเหตุผล ตัวอย่างเช่นฉันคิดว่ามันไม่ถูกต้องที่จะใช้การจัดกลุ่มแบบลำดับชั้นเซนทรอย / วอร์ดหรือการวิเคราะห์ปัจจัยด้วยตัวแปรไบนารี

ลูกค้าของการตรวจสอบมักจะบังคับให้เราแยกขั้วตัวแปรที่เอาต์พุตเนื่องจากการคิดในแง่ของการเรียนไม่กี่ชั้นมากกว่าหนึ่งลักษณะต่อเนื่องง่ายกว่าข้อมูลดูเหมือนน้อยลงและมีขนาดใหญ่ขึ้น

อย่างไรก็ตามมีกรณีที่อาจมีการรับประกันการแบ่งขั้ว ตัวอย่างเช่นที่มี bimodality ที่แข็งแกร่งหรือเมื่อการวิเคราะห์ (เช่น MAMBAC หรืออื่น ๆ ) แสดงการปรากฏตัวของ 2 ชั้นแฝง

— ttnphns
แหล่งที่มา

ฉันมีเวลายากที่จะเข้าใจข้อโต้แย้งของคุณ และหากลูกค้าต้องการให้เรามีส่วนร่วมในการฝึกฝนเชิงสถิติที่ไม่ดี หมายเหตุ: trichotomise ไม่ใช่คำศัพท์ Dichotomization = dicho (สอง) + tomous (cut) ดังนั้นมันจะเป็น tritomize / tritomise หากใช้

— Frank Harrell

Passage บนไคลเอนต์เป็นเรื่องน่าเสียใจไม่ใช่การโต้แย้ง สำหรับชาวกรีกคุณพูดถูก ฉันลบคำ

— ttnphns

ขอบคุณ ฉันพยายามเท่าที่เป็นไปได้อย่างมนุษย์ปุถุชนในการแปลวายทางสถิติเป็นการกระทำที่ถูกต้องแม้ว่าจะเป็นกระบวนการศึกษาที่เข้มข้นกับลูกค้า

— Frank Harrell