อะไรคือความแตกต่างในทางปฏิบัติและการตีความระหว่างทางเลือกและการถดถอยโลจิสติก?

คำถามล่าสุดเกี่ยวกับทางเลือกในการถดถอยโลจิสติกใน Rให้ผลหลากหลายของคำตอบรวมถึง randomForest, gbm, rpart, bayesglm และโมเดลเสริมทั่วไป อะไรคือความแตกต่างในทางปฏิบัติและการตีความระหว่างวิธีการเหล่านี้กับการถดถอยโลจิสติก พวกเขาตั้งสมมติฐานอะไรบ้าง (หรือไม่ทำให้) สัมพันธ์กับการถดถอยโลจิสติกส์? เหมาะสำหรับการทดสอบสมมติฐานหรือไม่? เป็นต้น

r hypothesis-testing logistic random-forest

— russellpierce
แหล่งที่มา

คำเตือน:มันอยู่ไกลจากการตอบคำถามอย่างเต็มรูปแบบ!

ฉันคิดว่ามีอย่างน้อยสองระดับที่ต้องพิจารณาก่อนสร้างความแตกต่างระหว่างวิธีการดังกล่าวทั้งหมด:

ไม่ว่าจะเป็นรูปแบบเดียวที่ติดตั้งหรือไม่:สิ่งนี้จะช่วยต่อต้านวิธีการเช่นการถดถอยโลจิสติกเทียบกับ RF หรือการไล่ระดับสีไล่โทนสี (หรือโดยทั่วไปวิธีการทั้งมวล ) และยังให้ความสำคัญกับการประมาณค่าพารามิเตอร์ การคำนวณความแม่นยำในการทำนาย
ไม่ว่าตัวแปรทั้งหมดจะได้รับการพิจารณาหรือไม่:นี่คือพื้นฐานของการเลือกคุณลักษณะในแง่ที่ว่าการลงโทษหรือการทำให้เป็นมาตรฐานอนุญาตให้จัดการกับชุดข้อมูล "ผิดปกติ" (เช่นใหญ่และ / หรือขนาดเล็ก) และปรับปรุงความเป็นไปได้ทั่วไป $p$ $n$

นี่คือประเด็นอื่น ๆ ที่ฉันคิดว่าเกี่ยวข้องกับคำถาม

ในกรณีที่เราพิจารณาหลายรุ่น - รุ่นเดียวกันนั้นติดตั้งอยู่บนชุดย่อยที่แตกต่างกัน (บุคคลและ / หรือตัวแปร) ของข้อมูลที่มีอยู่หรือตัวแบบการแข่งขันที่แตกต่างกันถูกติดตั้งในชุดข้อมูลเดียวกัน-สามารถใช้การตรวจสอบข้ามได้ overfitting และดำเนินการเลือกรูปแบบหรือคุณสมบัติแม้ว่า CV จะไม่ จำกัด เฉพาะกรณีนี้ (สามารถใช้กับGAMsหรือ GLM ที่ถูกลงโทษได้เป็นต้น) นอกจากนี้ยังมีปัญหาการตีความแบบดั้งเดิม: โมเดลที่ซับซ้อนมากขึ้นมักหมายถึงการตีความที่ซับซ้อนมากขึ้น (พารามิเตอร์เพิ่มเติมสมมติฐานที่เข้มงวดมากขึ้น ฯลฯ )

ไล่โทนสีการส่งเสริมและ RFs เอาชนะข้อ จำกัด ของต้นไม้ตัดสินใจเดียวขอบคุณการส่งเสริมการมีแนวคิดหลักคือการรวมการส่งออกของหลายขั้นตอนวิธีการเรียนรู้ที่อ่อนแอเพื่อที่จะสร้างกฎการตัดสินใจที่ถูกต้องมากขึ้นและมีเสถียรภาพและบรรจุถุงที่เรา "เฉลี่ย" ผลมากกว่า ชุดข้อมูลที่ resampled อีกครั้ง พรึบพวกเขามักจะมองว่าเป็นชนิดของกล่องดำในการเปรียบเทียบบางส่วนให้มากขึ้นรุ่น "คลาสสิก" ซึ่งรายละเอียดที่ชัดเจนสำหรับรูปแบบที่มีให้ (ฉันสามารถคิดสามชั้นเรียนของโมเดล: parameteric , กึ่งพารา , ไม่ใช่ตัวแปร ) แต่ ฉันคิดว่าการสนทนาที่จัดขึ้นภายใต้หัวข้ออื่นThe Two Cultures: สถิติกับการเรียนรู้ของเครื่อง? ให้มุมมองที่น่าสนใจ

ต่อไปนี้เป็นบทความเกี่ยวกับการเลือกคุณสมบัติและเทคนิค ML บางประการ:

Saeys, Y, Inza, I และLarrañaga, P. บทวิจารณ์ของเทคนิคการเลือกคุณสมบัติในชีวสารสนเทศศาสตร์ , ชีวสารสนเทศศาสตร์ (2007) 23 (19): 2507-2517
Dougherty, ER, Hua J และ Sima, C. ประสิทธิภาพของวิธีการเลือกคุณสมบัติจีโนมิกส์ปัจจุบัน (2009) 10 (6): 365–374
Boulesteix, AL และ Strobl, C. การเลือกลักษณนามที่ดีที่สุดและอคติเชิงลบในการประมาณอัตราข้อผิดพลาด: การศึกษาเชิงประจักษ์เกี่ยวกับการทำนายเชิงมิติวิธีการวิจัยทางการแพทย์ BMC (2009) 9:85
Caruana วิจัยและ Niculescu-Mizil, A. ประจักษ์เปรียบเทียบภายใต้การควบคุมการเรียนรู้ขั้นตอนวิธี การดำเนินการประชุมนานาชาติเรื่องการเรียนรู้ของเครื่องจักร (2549) ครั้งที่ 23
Friedman, J, Hastie, T และ Tibshirani, R. การถดถอยโลจิสติกแบบเสริม: มุมมองทางสถิติของการส่งเสริมแอน statist (2000) 28 (2): 337-407 (ด้วยการสนทนา)
Olden, JD, Lawler, JJ, และ Poff, NL วิธีการเรียนรู้ของเครื่องโดยไม่มีน้ำตา: ไพรเมอร์สำหรับนักนิเวศวิทยา , Q Rev Biol (2008) 83 (2): 171-93

และแน่นอนองค์ประกอบของการเรียนรู้ทางสถิติโดย Hastie and coll. เต็มไปด้วยภาพประกอบและการอ้างอิง นอกจากนี้อย่าลืมตรวจสอบบทเรียนการทำเหมืองข้อมูลทางสถิติจาก Andrew Moore

— CHL
แหล่งที่มา