จะไปจากข้อมูลอย่างต่อเนื่องเพื่อจัดหมวดหมู่ผิดเสมอ?


14

เมื่อฉันอ่านเกี่ยวกับวิธีการตั้งค่าข้อมูลของคุณสิ่งหนึ่งที่ฉันมักจะเจอคือการเปลี่ยนข้อมูลต่อเนื่องเป็นข้อมูลเชิงหมวดหมู่ไม่ใช่ความคิดที่ดีเนื่องจากคุณอาจทำข้อสรุปที่ผิดได้เป็นอย่างดีหากกำหนดเกณฑ์ไม่ดี

อย่างไรก็ตามปัจจุบันฉันมีข้อมูลบางอย่าง (ค่า PSA สำหรับผู้ป่วยมะเร็งต่อมลูกหมาก) ซึ่งฉันคิดว่าฉันทามติร่วมกันคือถ้าคุณอายุต่ำกว่า 4 คุณอาจไม่ได้รับมันหากคุณอยู่สูงกว่าคุณมีความเสี่ยง สูงกว่า 10 และ 20 คุณอาจมีมัน อะไรแบบนั้น. ในกรณีนั้นจะยังไม่ถูกต้องหรือไม่ที่จะจัดหมวดหมู่ค่า PSA ต่อเนื่องของฉันเป็นกลุ่มที่สมมติว่า 0-4, 4-10 และ> 10 หรือว่าจริง ๆ แล้วก็โอเคตั้งแต่เกณฑ์ "ตั้งใจดี" เพื่อพูด


5
มันขึ้นอยู่กับ (ตามปกติ) ตัวอย่างเช่นหากคุณกำลังศึกษาว่าแพทย์จะตัดสินใจอย่างไรและพวกเขาตัดสินใจตามหมวดหมู่เหล่านี้คุณควรใช้หมวดหมู่เดียวกัน หากคุณกำลังศึกษาผลกระทบทางชีวภาพที่เกี่ยวข้องกับ PSA ที่ได้รับการยกระดับอยู่แล้วน่าจะไม่ต้องการจัดหมวดหมู่ PSA เลย ดังนั้นจึงไม่มีคำตอบที่ชัดเจนสำหรับคำถามทั่วไปของคุณ "ไม่เป็นไร"
whuber

คุณพยายามทำอะไรกับข้อมูล ไม่ใช่ขอบเขตที่มักเกี่ยวข้องกับสิ่งที่คุณต้องการทราบดังนั้นการวางไว้ด้วยมือจึงขอร้องคำถาม?
RemcoGerlich

ฉันกำลังตั้งค่าข้อมูลสำหรับตัวแบบการถดถอยโลจิสติกส์ ดังนั้นคำถามหลักคือจริง ๆ แล้วว่าเพียงแค่ใช้ข้อมูลต่อเนื่องหรือมีข้อมูลไม่ต่อเนื่องแทน
Denver Dang

1
ฉันยังไม่ชัดเจนว่าข้อมูล 'ต่อเนื่อง' คืออะไร ไม่ใช่สิ่งที่มีอยู่จริง ไม่มีสิ่งเช่นการวัด / สถิติที่มีความแม่นยำไม่มีที่สิ้นสุด
JimmyJames

1
@BillHorvath ใช่ฉันไม่ได้เป็นหมอดังนั้นฉันไม่แน่ใจว่าสิ่งนี้ได้รับการพิจารณาแล้ว หากคุณเพียงแค่ดูที่หน้า Wiki มันระบุที่เดียว: "ระดับ PSA ระหว่าง 4 และ 10 ng / mL (นาโนกรัมต่อมิลลิลิตร) ถือว่าน่าสงสัยและควรพิจารณาการยืนยัน PSA ที่ผิดปกติด้วยการทดสอบซ้ำ " และสถานที่อื่น: "ความเสี่ยงต่ำ: PSA <10, คะแนน Gleason ≤ 6, และขั้นตอนทางคลินิก≤ T2a ความเสี่ยงระดับกลาง: PSA 10-20, คะแนน Gleason 7 หรือขั้นตอนทางคลินิก T2b / c ความเสี่ยงสูง: PSA> 20 , คะแนน Gleason ≥ 8 หรือระยะทางคลินิก≥ T3 "
เดนเวอร์แดง

คำตอบ:


23

มีความไม่ต่อเนื่องที่คมชัดตามเกณฑ์ของคุณหรือไม่

ตัวอย่างเช่นสมมติว่าคุณมีผู้ป่วย A และ B สองคนที่มีค่า 3.9 และ 4.1 และผู้ป่วย C และ D อีกสองคนที่มีค่า 6.7 และ 6.9 ความแตกต่างในโอกาสสำหรับมะเร็งระหว่าง A และ B มีขนาดใหญ่กว่าความแตกต่างที่สอดคล้องกันระหว่าง C และ D หรือไม่?

ถ้าใช่ก็ทำให้เสียความรู้สึก

ถ้าไม่เช่นนั้นเกณฑ์ของคุณอาจสมเหตุสมผลในการทำความเข้าใจข้อมูลของคุณ แต่พวกเขาจะไม่ "ตั้งใจดี" ในแง่ความหมายทางสถิติ อย่าแยกแยะ แต่ให้ใช้คะแนนการทดสอบของคุณ "ตามที่เป็น" และหากคุณสงสัยว่าชนิดของการไม่เป็นเชิงเส้นบางใช้เส้นโค้ง

ขอแนะนำอย่างมาก


2
ลิงค์ด้านล่างนั้นเต็มไปด้วยจุดที่ยอดเยี่ยม ผู้อ่านในอนาคตของคำตอบนี้ควรตรวจสอบ
eric_kernfeld

ฉันคิดว่า discretizing ไม่สมเหตุสมผลเว้นแต่จะมีการกระโดดครั้งใหญ่ในผลลัพธ์เมื่อมีการหยุดพักและถ้าผลลัพธ์ค่อนข้างเหมือนกันภายในกลุ่มเหล่านั้น มิฉะนั้นมีวิธีที่ดีกว่าในการเข้าใกล้ "กระโดด" ในฟังก์ชัน @Stephan Kolassa
LSC

1

ฉันคิดว่าคำตอบมาตรฐานคือมันไม่ดีอยู่เสมอเพราะคุณสูญเสียข้อมูลในกระบวนการ มันยากที่จะเชื่อว่ามีกรณีใด ๆ ที่คุณจะได้รับอะไรจากการใช้ข้อมูลช่วงเวลาตามธรรมชาติและทำให้เป็นหมวดหมู่


สถานการณ์ที่เหมาะสมนั้นจะเกิดขึ้นเมื่อความไม่ต่อเนื่องที่แท้จริงของความสัมพันธ์ของ x นั้น ๆ กับ DV และในหมวด "หมวดหมู่" ผลลัพธ์ที่ได้นั้นค่อนข้างเหมือนกัน
LSC
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.