คุณคิดถูกทั้งคู่ ดูหน้าของ Frank Harrell ที่นี่เพื่อดูรายการปัญหาที่ยาวเกี่ยวกับตัวแปร binning ที่ต่อเนื่อง หากคุณใช้ถังขยะสองสามตัวคุณจะทิ้งข้อมูลจำนวนมากไว้ในตัวทำนาย ถ้าคุณใช้หลายคนคุณมักจะใส่วิกผมในสิ่งที่ควรจะเรียบถ้าไม่ใช่แบบเส้นตรงความสัมพันธ์และใช้ความเป็นอิสระอย่างมาก โดยทั่วไปดีกว่าการใช้พหุนาม ( ) หรือ splines (พหุนามพหุนามที่รวมกันอย่างราบรื่น) สำหรับการทำนาย Binning เป็นเพียงความคิดที่ดีจริงๆเมื่อคุณคาดหวังว่าจะมีการหยุดตอบสนองที่จุดตัด - พูดว่าอุณหภูมิบางอย่างเดือดร้อนหรืออายุทางกฎหมายในการขับรถ - & เมื่อการตอบสนองนั้นแบนระหว่างพวกเขา ..x+x2+…
คุ้มค่าหรือไม่ - ก็เป็นวิธีที่ง่ายและรวดเร็วในการพิจารณาความโค้งโดยไม่ต้องคิดถึงมันและแบบจำลองอาจดีพอสำหรับสิ่งที่คุณใช้ มันมีแนวโน้มที่จะทำงานได้อย่างถูกต้องเมื่อคุณมีข้อมูลจำนวนมากเมื่อเทียบกับจำนวนผู้ทำนายแต่ละคนจะแบ่งออกเป็นหมวดหมู่มากมาย ในกรณีนี้ภายในแถบคาดการณ์แต่ละช่วงของการตอบสนองมีขนาดเล็ก & การตอบสนองโดยเฉลี่ยจะถูกกำหนดอย่างแม่นยำ
[แก้ไขเพื่อตอบสนองต่อความคิดเห็น:
บางครั้งมีการตัดมาตรฐานที่ใช้ในเขตข้อมูลสำหรับตัวแปรต่อเนื่องเช่นในการวัดความดันโลหิตยาอาจแบ่งได้เป็นต่ำปานกลางหรือสูง อาจมีหลายเหตุผลที่ดีสำหรับการใช้งานการตัดเช่นเมื่อคุณนำเสนอหรือใช้แบบจำลอง โดยเฉพาะอย่างยิ่งกฎการตัดสินใจมักใช้ข้อมูลน้อยกว่าแบบจำลองและอาจจำเป็นต้องใช้ง่าย แต่มันไม่ได้เป็นไปตามนั้นว่าการตัดออกเหล่านี้เหมาะสำหรับการคาดคะเนตัวทำนายเมื่อคุณพอดีกับแบบจำลอง
สมมติว่าการตอบสนองบางอย่างอาจแตกต่างกันไปตามความดันโลหิต หากคุณกำหนดกลุ่มความดันโลหิตสูงเป็นเครื่องทำนายผลการศึกษาของคุณผลกระทบที่คุณประเมินคือการตอบสนองโดยเฉลี่ยต่อความดันโลหิตของบุคคลในกลุ่มนั้น มันไม่ใช่การประมาณการการตอบสนองโดยเฉลี่ยของผู้ที่มีความดันโลหิตสูงในประชากรทั่วไปหรือผู้ที่อยู่ในกลุ่มความดันโลหิตสูงในการศึกษาอื่นเว้นแต่คุณจะใช้มาตรการเฉพาะเพื่อให้เป็นเช่นนั้น หากการกระจายของความดันโลหิตในประชากรทั่วไปเป็นที่รู้จักอย่างที่ฉันคิดว่ามันเป็นคุณจะดีกว่าที่จะคำนวณการตอบสนองเฉลี่ยของผู้ที่มีความดันโลหิตสูงในประชากรทั่วไปตามการคาดการณ์จากแบบจำลองที่มีความดันโลหิตเป็น ตัวแปรต่อเนื่อง การทำตัวหยาบคายทำให้แบบจำลองของคุณโดยประมาณเท่านั้น
โดยทั่วไปหากคุณมีคำถามเกี่ยวกับพฤติกรรมของการตอบสนองระหว่างการตัดให้พอดีกับโมเดลที่ดีที่สุดที่คุณสามารถทำได้ก่อนจากนั้นใช้มันเพื่อตอบคำถาม]
[เกี่ยวกับการนำเสนอ; ฉันคิดว่านี่เป็นปลาเฮอริ่งแดง:
(1) ความง่ายในการนำเสนอไม่เพียงทำให้การตัดสินใจสร้างแบบจำลองไม่ดี (และในกรณีที่การตัดสินใจทำตัวเป็นแบบอย่างที่ดีนั้นไม่จำเป็นต้องมีเหตุผลเพิ่มเติม) แน่นอนว่าสิ่งนี้ชัดเจนในตัวเอง ไม่มีใครแนะนำให้ทำการโต้ตอบที่สำคัญจากโมเดลเพราะมันยากที่จะนำเสนอ
(2) ไม่ว่าแบบไหนที่คุณเหมาะสมคุณยังสามารถแสดงผลลัพธ์ในรูปแบบของหมวดหมู่หากคุณคิดว่ามันจะช่วยในการตีความ แม้ว่า ...
(3) คุณต้องระมัดระวังเพื่อให้แน่ใจว่าไม่ได้ช่วยการตีความที่ผิดพลาดด้วยเหตุผลที่กล่าวมาข้างต้น
(4) ในความเป็นจริงมันไม่ยากที่จะนำเสนอการตอบสนองที่ไม่ใช่เชิงเส้น ความเห็นส่วนบุคคลชัดเจนและผู้ชมต่างกัน แต่ฉันไม่เคยเห็นกราฟของค่าการตอบสนองที่พอดีกับค่าตัวทำนายปริศนาตัวคนเพียงเพราะมันโค้ง การโต้ตอบการบันทึกเอฟเฟกต์แบบสุ่มความสัมพันธ์หลายแบบ ... - ทั้งหมดนี้ยากที่จะอธิบาย]
[จุดเพิ่มเติมที่นำขึ้นมาโดย @Roland คือความแม่นยำของการวัดของตัวทำนาย ฉันคิดว่าเขาแนะนำว่าการจัดหมวดหมู่นั้นอาจเหมาะสมเมื่อไม่แม่นยำเป็นพิเศษ สามัญสำนึกอาจแนะนำว่าคุณไม่ได้ปรับปรุงเรื่องโดยการระบุซ้ำแม้แต่น้อยแม่นยำและสามัญสำนึกจะถูกต้อง: MacCallum et al (2002), "ในการฝึกการแบ่งขั้วของตัวแปรเชิงปริมาณ", วิธีการทางจิตวิทยา , 7 , 1, pp17–19.]