2
Binning ที่เหมาะสมที่สุดที่เกี่ยวข้องกับตัวแปรตอบกลับที่กำหนด
ฉันกำลังมองหาวิธีการ binning ที่ดีที่สุด (discretization) ของตัวแปรต่อเนื่องที่เกี่ยวข้องกับการตอบสนองที่กำหนด (เป้าหมาย) ตัวแปรไบนารีและมีจำนวนช่วงเวลาสูงสุดเป็นพารามิเตอร์ ตัวอย่าง: ฉันมีชุดการสังเกตของผู้ที่มี "ความสูง" (ต่อเนื่องเป็นตัวเลข) และ "has_back_pains" (ไบนารี) ตัวแปร ฉันต้องการแยกความสูงออกเป็น 3 ช่วง (กลุ่ม) อย่างน้อยที่สุดด้วยสัดส่วนที่แตกต่างกันของคนที่มีอาการปวดหลังดังนั้นอัลกอริทึมจึงเพิ่มความแตกต่างระหว่างกลุ่ม (ด้วยข้อ จำกัด ที่กำหนดเช่นแต่ละช่วงเวลามีการสังเกตอย่างน้อย x) ทางออกที่ชัดเจนสำหรับปัญหานี้คือใช้ต้นไม้ตัดสินใจ (โมเดลหนึ่งตัวแปรแบบง่าย) แต่ฉันไม่สามารถหาฟังก์ชั่นใด ๆ ใน R ที่จะมี "จำนวนสาขาสูงสุด" เป็นพารามิเตอร์ - พวกเขาทั้งหมดแบ่งตัวแปร เป็น 2 gropus (<= x และ> x) SAS miner มีพารามิเตอร์ "branch branch" แต่ฉันกำลังมองหาโซลูชันที่ไม่ใช่เชิงพาณิชย์ ตัวแปรบางตัวของฉันมีค่าเฉพาะไม่กี่ค่า (และสามารถถือว่าเป็นตัวแปรแบบแยก) …