ต้นไม้ตัดสินใจกับเครือข่ายประสาท


20

ฉันกำลังใช้โครงสร้างการเรียนรู้ของเครื่องเพื่อพยายามทำนายการหลอกลวงในระบบการเงินเช่นธนาคาร ฯลฯ ... ซึ่งหมายความว่ามีข้อมูลที่แตกต่างกันมากมายที่สามารถใช้ในการฝึกอบรมโมเดลได้เช่น หมายเลขบัตรชื่อผู้ถือบัตรจำนวนประเทศ ฯลฯ ...

ฉันมีปัญหาในการตัดสินใจว่าโครงสร้างใดดีที่สุดสำหรับปัญหานี้ ฉันมีประสบการณ์กับต้นไม้ตัดสินใจ แต่ในปัจจุบันฉันเริ่มตั้งคำถามว่าเครือข่ายประสาทจะดีขึ้นสำหรับปัญหาแบบนี้หรือไม่ นอกจากนี้หากวิธีอื่นใดจะดีที่สุดโปรดสอนฉัน

ข้อดีข้อเสียของแต่ละโครงสร้างและโครงสร้างใดจะดีที่สุดสำหรับปัญหานี้

นอกจากนี้ฉันไม่แน่ใจเกี่ยวกับความจริงข้อนี้ แต่ฉันคิดว่าต้นไม้การตัดสินใจมีข้อได้เปรียบเหนือกว่าเครือข่ายประสาทในแง่ของความเร็วในการประมวลผล สิ่งนี้สำคัญเนื่องจากความเร็วเป็นปัจจัยสำคัญในโครงการนี้เช่นกัน

คำตอบ:


24

มีความแตกต่างมากมายระหว่างสองสิ่งนี้ แต่ในแง่การปฏิบัติมีสามสิ่งสำคัญที่ต้องพิจารณา: ความเร็วความสามารถในการตีความและความถูกต้อง

ต้นไม้ตัดสินใจ

  • ควรฝึกให้เร็วกว่าเดิม (แม้ว่าอัลกอริธึมทั้งสองจะสามารถฝึกได้ช้าขึ้นอยู่กับอัลกอริทึมที่แน่นอนและจำนวน / มิติข้อมูล) นี่เป็นเพราะต้นไม้การตัดสินใจโดยเนื้อแท้ "ทิ้ง" คุณสมบัติการป้อนข้อมูลที่ไม่พบว่ามีประโยชน์ในขณะที่ตาข่ายประสาทจะใช้พวกเขาทั้งหมดเว้นแต่คุณจะเลือกคุณลักษณะบางอย่างเป็นขั้นตอนการประมวลผลล่วงหน้า
  • หากเป็นเรื่องสำคัญที่จะต้องเข้าใจในสิ่งที่แบบจำลองกำลังทำอยู่ต้นไม้นั้นสามารถตีความได้มาก
  • ฟังก์ชั่นเฉพาะรุ่นที่มีการแยกข้อมูลแบบขนานกับแกนซึ่งอาจไม่เป็นเช่นนั้น
  • คุณอาจต้องการให้แน่ใจว่าได้ตัดต้นไม้เพื่อหลีกเลี่ยงการกระชับมากเกินไป

ตาข่ายประสาท

  • ช้าลง (ทั้งสำหรับการฝึกอบรมและการจำแนก) และตีความได้น้อยกว่า
  • หากข้อมูลของคุณมาถึงสตรีมคุณสามารถทำการอัปเดตแบบเพิ่มหน่วยด้วยการไล่ระดับสีแบบสุ่ม (ซึ่งแตกต่างจากแผนผังการตัดสินใจซึ่งใช้อัลกอริทึมการเรียนรู้แบบแบ็ตช์)
  • สามารถจำลองฟังก์ชั่นตามอำเภอใจมากขึ้น (การตอบโต้แบบไม่เชิงเส้นและอื่น ๆ ) ดังนั้นอาจมีความแม่นยำมากขึ้นหากมีข้อมูลการฝึกอบรมเพียงพอ แต่ก็มีแนวโน้มที่จะกระชับเกินไปเช่นกัน

คุณอาจต้องการลองใช้ทั้งสองและเรียกใช้การทดสอบบางอย่างกับข้อมูลของคุณเพื่อดูว่าแบบไหนดีกว่าและเวลาในการวัดประสิทธิภาพ หรือคุณสามารถใช้บางอย่างเช่นWeka GUI ที่ใช้ตัวอย่างพร้อมข้อมูลตัวอย่างเพื่อทดสอบไดรฟ์ทั้งสองวิธี

อาจเป็นไปได้ว่าการใช้ "การห่อ" หรืออัลกอริธึม "เพิ่ม" กับต้นไม้ตัดสินใจจะปรับปรุงความแม่นยำในขณะที่ยังคงความเรียบง่ายและความเร็วไว้ด้วย แต่ในระยะสั้นหากความเร็วและความสามารถในการตีความมีความสำคัญจริง ๆ ต้นไม้ก็น่าจะเริ่มได้ มิเช่นนั้นขึ้นอยู่กับว่าคุณจะมีการสำรวจเชิงประจักษ์ที่ต้องทำ


คุณดูเหมือนจะรู้อะไรเล็กน้อยเกี่ยวกับเรื่องนี้คุณมีประสบการณ์กับเครือข่ายแบบเบย์หรือวิธีการเรียนรู้ของเครื่องอื่น ๆ ที่อาจช่วยแก้ไขปัญหานี้หรือไม่?
Topo

1
ฉันไม่ได้ใช้ประโยชน์จากเครือข่าย Bayesian เต็มรูปแบบส่วนใหญ่ไร้เดียงสา Bayes และโมเดลหัวข้อ ฉันไม่เคยทำงานเกี่ยวกับปัญหาการตรวจจับการโกง แต่Bayes ที่ไม่ซื่อตรงหรือการถดถอยโลจิสติกส์อาจเป็นวิธีการที่สมเหตุสมผลเช่นกัน
เสี้ยน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.