เรื่องสั้น ๆ สั้น ๆ : ทำตามที่ @untitledprogrammer พูดลองทั้งสองรุ่นและตรวจสอบความถูกต้องเพื่อช่วยเลือก
ต้นไม้การตัดสินใจทั้งสอง (ขึ้นอยู่กับการใช้งานเช่น C4.5) และการถดถอยโลจิสติกควรจะสามารถจัดการข้อมูลอย่างต่อเนื่องและเป็นหมวดหมู่ได้ดี สำหรับการถดถอยโลจิสติกคุณจะต้องการรหัสหุ่นตัวแปรเด็ดขาดของคุณ
ตามที่ @untitledprogrammer พูดถึงมันเป็นการยากที่จะทราบว่านิรนัยใดจะดีกว่าโดยขึ้นอยู่กับประเภทของคุณลักษณะที่คุณมีอยู่อย่างต่อเนื่องหรืออย่างอื่น มันขึ้นอยู่กับปัญหาเฉพาะของคุณและข้อมูลที่คุณมี (ดูทฤษฎีบทอาหารกลางวันฟรี )
คุณจะต้องการที่จะเก็บไว้ในใจ แต่ที่รูปแบบการถดถอยโลจิสติคือการค้นหาขอบเขตการตัดสินใจเชิงเส้นเดียวในพื้นที่คุณสมบัติของคุณในขณะที่ต้นไม้ตัดสินใจเป็นหลักแบ่งพื้นที่คุณลักษณะของคุณลงในครึ่งพื้นที่ใช้แกนชิดขอบเขตการตัดสินใจเชิงเส้น ผลกระทบสุทธิคือคุณมีขอบเขตการตัดสินใจที่ไม่ใช่เชิงเส้นซึ่งอาจมากกว่าหนึ่ง
นี่เป็นสิ่งที่ดีเมื่อจุดข้อมูลของคุณไม่ได้ถูกคั่นด้วยไฮเปอร์เพลนเดียว แต่ในทางกลับกันต้นไม้การตัดสินใจมีความยืดหยุ่นสูง เพื่อต่อสู้กับสิ่งนี้คุณสามารถลองตัดแต่งกิ่ง การถดถอยโลจิสติกมีแนวโน้มที่จะอ่อนไหวน้อยลง
x yxY
ดังนั้นคุณต้องถามตัวเอง:
- ขอบเขตการตัดสินใจแบบใดที่เหมาะสมกับปัญหาเฉพาะของคุณมากขึ้น
- คุณต้องการสร้างความสมดุลระหว่างอคติและความแปรปรวนอย่างไร
- มีปฏิสัมพันธ์ระหว่างคุณสมบัติของฉันหรือไม่
แน่นอนว่าเป็นความคิดที่ดีที่จะลองทั้งสองรุ่นและทำการตรวจสอบข้าม วิธีนี้จะช่วยให้คุณทราบว่ามีข้อผิดพลาดในการวางนัยทั่วไปที่ดีกว่าแบบใด