จะค้นหาและประเมิน discretization ที่เหมาะสมที่สุดสำหรับตัวแปรต่อเนื่องที่มีเกณฑ์อย่างไร


9

ฉันมีชุดข้อมูลที่มีตัวแปรต่อเนื่องและตัวแปรเป้าหมายไบนารี (0 และ 1)

ฉันต้องจำแนกตัวแปรต่อเนื่อง (สำหรับการถดถอยโลจิสติก) ด้วยความเคารพต่อตัวแปรเป้าหมายและด้วยข้อ จำกัด ที่ความถี่ของการสังเกตในแต่ละช่วงเวลาควรมีความสมดุล ฉันลองใช้กลไกการเรียนรู้ของเครื่องอย่าง Chi Merge ต้นไม้ตัดสินใจ การรวมกันของชี่ทำให้ฉันมีช่วงเวลาที่มีจำนวนไม่สมดุลมากในแต่ละช่วงเวลา (ช่วงเวลาที่มีการสังเกต 3 ครั้งและอีกช่วงหนึ่งมี 1,000 ครั้ง) ต้นไม้ตัดสินใจยากที่จะตีความ

ฉันได้ข้อสรุปว่าการแยกส่วนที่ดีที่สุดควรเพิ่มค่าสถิติระหว่างตัวแปรที่แยกส่วนกับตัวแปรเป้าหมายและควรมีช่วงเวลาที่มีจำนวนการสังเกตประมาณเท่ากันχ2

มีอัลกอริทึมสำหรับการแก้ปัญหานี้หรือไม่?

นี่มันมีลักษณะอย่างไรใน R (def คือตัวแปรเป้าหมายและ x เป็นตัวแปรที่จะแยกส่วน) ฉันคำนวณของ Tschuprow เพื่อประเมิน "สหสัมพันธ์" ระหว่างการแปลงและตัวแปรเป้าหมายเนื่องจากสถิติมีแนวโน้มที่จะเพิ่มขึ้นตามจำนวนช่วงเวลา ฉันไม่แน่ใจว่านี่เป็นวิธีที่ถูกต้องหรือไม่Tχ2

มีวิธีอื่นในการประเมินหรือไม่หาก discretization ของฉันนั้นดีที่สุดนอกเหนือจาก Tschuprow (เพิ่มขึ้นเมื่อจำนวนคลาสลดลง)?T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

2
คุณอาจรู้สิ่งนี้ แต่สำหรับบันทึก (1) ไม่จำเป็นหรือไม่บ่อยครั้งเป็นที่พึงปรารถนาที่จะแยกตัวพยากรณ์สำหรับการถดถอยโลจิสติก & & (2) โดยใช้การตอบสนองเพื่อกำหนดตัวทำนายที่แนะนำอคติเชิงบวกในการประเมินประสิทธิภาพการทำนายของโมเดล ดังนั้นสิ่งสำคัญคือการตรวจสอบความถูกต้องของขั้นตอนการฟิตติ้งทั้งหมด (เช่นรวมถึงวิธีการที่คุณใช้ในการสร้างตัวทำนาย)
Scortchi - Reinstate Monica

ตกลงฉันจะตรวจสอบ discretization อย่างไรงานนี้ได้อย่างไร
Charlotte

หากคุณกำลังใช้การตรวจสอบข้ามเช่นนั้นในแต่ละเท่าคุณไม่เพียง แต่ดำเนินการถดถอยโลจิสติกโดยใช้ discretization "ดีที่สุด" ของตัวทำนายที่กำหนดจากตัวอย่างทั้งหมด แต่คำนวณใหม่ discretization "ดีที่สุด"
Scortchi - Reinstate Monica

คำตอบ:


8

มีวิธีที่เป็นไปได้หลายวิธีในการแยกตัวแปรต่อเนื่อง: ดู[Garcia 2013]

ในหน้า 739 ฉันสามารถดูวิธีการอย่างน้อย 5 วิธีตามไคสแควร์ การเพิ่มประสิทธิภาพของ discretization นั้นขึ้นอยู่กับงานที่คุณต้องการใช้ตัวแปร discretised ในกรณีของการถดถอยโลจิสติกของคุณ และตามที่กล่าวไว้ใน Garcia2013 การค้นหาการแยกส่วนที่ดีที่สุดที่กำหนดให้กับงานคือ NP-complete

มีฮิวริสติกมากมาย ในบทความนี้พวกเขาพูดคุยอย่างน้อย 50 คน เมื่อพิจารณาถึงพื้นฐานการเรียนรู้ของเครื่อง (ฉันคิดว่าผู้คนในสถิติชอบสิ่งอื่น ๆ ) ฉันมักจะมีอคติต่อวิธีการอธิบายความยาวขั้นต่ำ (MDL) ของ Fayyad และ Irani ฉันเห็นมันมีอยู่ในแพคเกจ R ไม่ต่อเนื่อง

ดังที่คุณกล่าว Chi-square นั้นมีอคติต่อช่วงเวลาที่สูงและสถิติอื่น ๆ อีกมากมาย (ตามที่ได้รับข้อมูลที่ใช้ในวิธี MDL) คือ อย่างไรก็ตาม MDL พยายามหาการแลกเปลี่ยนที่ดีระหว่างการได้รับข้อมูลของตัวแปรที่แยกจากกันและคลาสและความซับซ้อน (จำนวนช่วงเวลา) ของตัวแปรที่แยกออก ให้มันลอง.


ดูเหมือนว่าลิงก์ Garcia 2013 ของคุณจะใช้งานไม่ได้ ... คุณจะโพสต์รายละเอียดเพิ่มเติมเกี่ยวกับบทความนี้หรือเชื่อมโยงใหม่ได้หรือไม่
Kiran K.

2
@KiranK ขอบคุณสำหรับการให้ฉันรู้ว่า. ฉันแก้ไขลิงก์
Simone
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.