วิธีการรวมผลลัพธ์ของการถดถอยโลจิสติกและฟอเรสต์แบบสุ่ม


12

ฉันยังใหม่กับการเรียนรู้ของเครื่อง ฉันใช้การถดถอยโลจิสติกและฟอเรสต์แบบสุ่มบนชุดข้อมูลเดียวกัน ดังนั้นฉันจึงได้รับความสำคัญของตัวแปร (สัมประสิทธิ์สัมบูรณ์สำหรับการถดถอยโลจิสติกและความสำคัญของตัวแปรสำหรับฟอเรสต์แบบสุ่ม) ฉันกำลังคิดที่จะรวมสองสิ่งนี้เข้าด้วยกันเพื่อให้ได้ตัวแปรที่มีความสำคัญขั้นสุดท้าย ใครสามารถแบ่งปันประสบการณ์ของเขา / เธอ? ฉันได้ตรวจสอบการบรรจุถุงการส่งเสริมการสร้างแบบจำลองชุด แต่ไม่ใช่สิ่งที่ฉันต้องการ พวกเขารวมข้อมูลสำหรับรุ่นเดียวกันในแบบจำลองมากกว่า สิ่งที่ฉันกำลังมองหาคือการรวมผลของหลายรุ่น


5
การสร้างแบบจำลองวงดนตรียังสามารถรวมรูปแบบ ดูการลงคะแนนเสียงข้างมากเช่น ดูเพิ่มเติมการซ้อน
pat

4
ที่จริงแล้วการใช้ขนาดของสัมประสิทธิ์ไม่ใช่วิธีที่ดีในการพิจารณา "ความสำคัญของตัวแปร" ในการถดถอยโลจิสติก แม้ว่าคุณจะดูค่าสัมประสิทธิ์มาตรฐานนั่นไม่ใช่วิธีที่ดี ทำไม? โปรดจำไว้ว่าสัมประสิทธิ์เป็นเพียงการประมาณและมีข้อผิดพลาดที่เกี่ยวข้อง การเลือกค่าสัมประสิทธิ์ตามขนาดหมายความว่าคุณเลือกขนาดที่คุณประเมินค่าสัมประสิทธิ์เกินขนาดและปล่อยค่าที่คุณประเมินขนาดค่าสัมประสิทธิ์ต่ำกว่า
user765195

คำตอบ:


12

อาจขึ้นอยู่กับสิ่งที่คุณต้องการใช้ตัวแปรสำคัญสำหรับ มันจะใช้เป็นเกณฑ์สำหรับการเลือกคุณสมบัติสำหรับรูปแบบการจำแนกประเภทที่สามหรือไม่? ในกรณีนี้คุณสามารถลองคำนวณค่าเฉลี่ยถ่วงน้ำหนักนำเข้าตัวแปร (บางทีหลังจากปรับเวกเตอร์ที่มีความสำคัญของตัวแปรแต่ละตัวให้เป็นความยาวหน่วย) สำหรับค่าต่าง ๆ และน้ำหนักเฉลี่ยแล้วทำการเบิกค่าที่ให้คะแนนคะแนนสอบผ่านที่ดีที่สุดสำหรับรอบสุดท้าย แบบ

สำหรับการรวมผลลัพธ์ของโมเดลการถดถอยโลจิสติกและโมเดลฟอเรสต์แบบสุ่ม (โดยไม่พิจารณาถึงความสำคัญของตัวแปร) บล็อกโพสต์ต่อไปนี้เป็นข้อมูลที่ดีมากและแสดงให้เห็นว่าค่าเฉลี่ยของเอาต์พุตเพียงอย่างเดียว


1
ขอบคุณสำหรับการตอบกลับของคุณ. บล็อกที่คุณกล่าวถึงเป็นการศึกษาที่น่าสนใจจริงๆ ฉันคิดว่าฉันมีความคิด ข้อกังวลเพียงอย่างเดียวคือสูตรเอนโทรปีของเขา ดูเหมือนว่าแตกต่างจากที่ฉันพบทางออนไลน์ การใช้งานของเขา: cross.entropy <- ฟังก์ชัน (เป้าหมาย, คาดการณ์) {ทำนายแล้ว = pmax (1e-10, pmin (1-1e-10, ทำนาย)) - ผลรวม (เป้าหมาย * บันทึก (ทำนาย) + (1 - เป้าหมาย) * log (1 - ทำนายไว้))}
user1946504

2
และเมื่อฉันใช้แนวคิดเดียวกันกับชุดข้อมูลของตัวเองฉันใช้ข้อผิดพลาดการแบ่งประเภทเป็นเกณฑ์พล็อตไม่เหมือนกัน ป่าสุ่มออกมาดีกว่าการถดถอยโลจิสติก ข้อผิดพลาดการแบ่งประเภทของ RF คือ 0.2 สำหรับ LR คือ 0.4 ในเวลาเดียวกัน AUC สำหรับ RF คือ 0.8 สำหรับ LR คือ 0.73
user1946504

5

(แสดงความคิดเห็นในการตอบสนองและข้อเสนอแนะข้างต้น)

ขอบคุณที่อ่านบล็อก!

ฟังก์ชั่นข้อผิดพลาดข้ามเอนโทรปีมีการโกงเล็กน้อยโดยตัดค่าที่คาดการณ์ไว้เป็น [1e-10, 1-1e-10] เป็นวิธีที่ประหยัดและง่ายต่อการป้องกันข้อผิดพลาดในฟังก์ชั่นบันทึก มิฉะนั้นนี่คือสูตรมาตรฐาน

สำหรับชุดข้อมูลเป็นไปได้มากที่จะมีชุดข้อมูลที่ฟอเรสต์แบบสุ่มอยู่เหนือกว่าบันทึก reg และบันทึก reg เพิ่มอะไรให้กับวงดนตรี ตรวจสอบให้แน่ใจว่าคุณกำลังใช้ข้อมูลที่ระงับไว้ - ฟอเรสต์แบบสุ่มเกือบทุกครั้งจะมีผลลัพธ์ที่ยอดเยี่ยมในข้อมูลการฝึกอบรมเนื่องจากมีพารามิเตอร์ที่มีประสิทธิภาพมากกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.