ต้นไม้ตัดสินใจหรือการถดถอยโลจิสติก?


14

ฉันกำลังทำงานกับปัญหาการจำแนก ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดและตัวแปรต่อเนื่องจำนวนเท่ากัน ฉันจะรู้เทคนิคการใช้งานได้อย่างไร? ระหว่างต้นไม้ตัดสินใจกับการถดถอยโลจิสติกส์?

การสมมติว่าการถดถอยโลจิสติกจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่องและต้นไม้ตัดสินใจจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่อง + หมวดหมู่หรือไม่


คุณสามารถเพิ่มรายละเอียดเพิ่มเติมเช่นจำนวนแถวจำนวนคอลัมน์ (รวมถึงจำนวนหมวดหมู่ / ต่อเนื่อง) ได้หรือไม่
Nitesh

สวัสดี @Nitesh ฉันมีตัวแปรอินพุต 32 ตัวและตัวแปรเป้าหมาย 1 ตัว บันทึกอยู่ใกล้ 2.5 แสนสำหรับข้อมูลการฝึกอบรมและพูดประมาณ 1 แสนข้อมูลการทดสอบ ข้อมูลการทดสอบหมดเวลาแล้ว
อรุณ

คำตอบ:


22

เรื่องสั้น ๆ สั้น ๆ : ทำตามที่ @untitledprogrammer พูดลองทั้งสองรุ่นและตรวจสอบความถูกต้องเพื่อช่วยเลือก

ต้นไม้การตัดสินใจทั้งสอง (ขึ้นอยู่กับการใช้งานเช่น C4.5) และการถดถอยโลจิสติกควรจะสามารถจัดการข้อมูลอย่างต่อเนื่องและเป็นหมวดหมู่ได้ดี สำหรับการถดถอยโลจิสติกคุณจะต้องการรหัสหุ่นตัวแปรเด็ดขาดของคุณ

ตามที่ @untitledprogrammer พูดถึงมันเป็นการยากที่จะทราบว่านิรนัยใดจะดีกว่าโดยขึ้นอยู่กับประเภทของคุณลักษณะที่คุณมีอยู่อย่างต่อเนื่องหรืออย่างอื่น มันขึ้นอยู่กับปัญหาเฉพาะของคุณและข้อมูลที่คุณมี (ดูทฤษฎีบทอาหารกลางวันฟรี )

คุณจะต้องการที่จะเก็บไว้ในใจ แต่ที่รูปแบบการถดถอยโลจิสติคือการค้นหาขอบเขตการตัดสินใจเชิงเส้นเดียวในพื้นที่คุณสมบัติของคุณในขณะที่ต้นไม้ตัดสินใจเป็นหลักแบ่งพื้นที่คุณลักษณะของคุณลงในครึ่งพื้นที่ใช้แกนชิดขอบเขตการตัดสินใจเชิงเส้น ผลกระทบสุทธิคือคุณมีขอบเขตการตัดสินใจที่ไม่ใช่เชิงเส้นซึ่งอาจมากกว่าหนึ่ง

นี่เป็นสิ่งที่ดีเมื่อจุดข้อมูลของคุณไม่ได้ถูกคั่นด้วยไฮเปอร์เพลนเดียว แต่ในทางกลับกันต้นไม้การตัดสินใจมีความยืดหยุ่นสูง เพื่อต่อสู้กับสิ่งนี้คุณสามารถลองตัดแต่งกิ่ง การถดถอยโลจิสติกมีแนวโน้มที่จะอ่อนไหวน้อยลง

xYxY

ดังนั้นคุณต้องถามตัวเอง:

  • ขอบเขตการตัดสินใจแบบใดที่เหมาะสมกับปัญหาเฉพาะของคุณมากขึ้น
  • คุณต้องการสร้างความสมดุลระหว่างอคติและความแปรปรวนอย่างไร
  • มีปฏิสัมพันธ์ระหว่างคุณสมบัติของฉันหรือไม่

แน่นอนว่าเป็นความคิดที่ดีที่จะลองทั้งสองรุ่นและทำการตรวจสอบข้าม วิธีนี้จะช่วยให้คุณทราบว่ามีข้อผิดพลาดในการวางนัยทั่วไปที่ดีกว่าแบบใด


ตรง @Victor
untitledprogrammer

@Victor ขอบคุณมากสำหรับการอธิบายอย่างละเอียด
อรุณ

6

ลองใช้ทั้งต้นไม้ถดถอยและต้นไม้ตัดสินใจ เปรียบเทียบประสิทธิภาพของแต่ละเทคนิคโดยใช้การตรวจสอบความถูกต้องไขว้ 10 เท่า ยึดติดกับตัวที่มีประสิทธิภาพสูงกว่า มันจะเป็นการยากที่จะตัดสินว่าวิธีการใดจะเหมาะสมดีกว่าเพียงแค่รู้ว่าชุดข้อมูลของคุณนั้นต่อเนื่องและหรือจัดหมวดหมู่


1

มันขึ้นอยู่กับโครงสร้างของการกระจายข้อมูลของคุณ หากคุณมีเหตุผลที่เชื่อได้อย่างชัดเจนว่าข้อมูลนั้นประมาณว่ามีการกระจายตัวของเบอร์นูลีการถดถอยโลจิสติกแบบหลายกลุ่มจะทำงานได้ดีและให้ผลลัพธ์ที่สามารถตีความได้ อย่างไรก็ตามหากมีโครงสร้างแบบไม่เชิงเส้นในการแจกแจงพื้นฐานคุณควรพิจารณาวิธีการแบบไม่มีพารามิเตอร์อย่างจริงจัง

ในขณะที่คุณสามารถใช้แผนภูมิการตัดสินใจเป็นวิธีการแบบไม่มีพารามิเตอร์ของคุณคุณอาจลองพิจารณาสร้างป่าสุ่ม - นี่เป็นการสร้างต้นไม้การตัดสินใจแต่ละรายการเป็นจำนวนมากจากส่วนย่อยของข้อมูลและการจำแนกประเภทสุดท้ายคือการลงคะแนนแบบรวมกลุ่มของต้นไม้ทั้งหมด . ฟอเรสต์แบบสุ่มช่วยให้คุณมีความคิดในการแบ่งปันตัวแปรตัวทำนายแต่ละตัวที่ช่วยในการตอบสนอง

ปัจจัยที่ต้องคำนึงถึงก็คือการตีความ หากคุณเพียงแค่พยายามจัดประเภทข้อมูลคุณอาจไม่สนใจความสัมพันธ์พื้นฐานระหว่างตัวแปรอธิบายและการตอบสนอง อย่างไรก็ตามถ้าคุณสนใจในการตีความการถดถอยโลจิสติกพหุนามนั้นง่ายกว่ามากในการตีความวิธีการอิงพารามิเตอร์โดยทั่วไปเพราะพวกเขาตั้งสมมติฐานเกี่ยวกับการแจกแจงพื้นฐานให้บอกความสัมพันธ์ที่ตีความได้ง่ายขึ้น


0

ในการใช้ Decision Tree คุณควรแปลงตัวแปรต่อเนื่องเป็นหมวดหมู่

อีกอย่างหนึ่งการถดถอยโลจิสติกมักใช้ในการทำนายผลลัพธ์ตามความน่าจะเป็น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.