คำถามติดแท็ก random-forest

ฟอเรสต์แบบสุ่มเป็นวิธีการเรียนรู้ด้วยเครื่องจักรโดยใช้การผสมผสานเอาท์พุทของต้นไม้ตัดสินใจจำนวนมาก

9
ได้รับความรู้จากป่าสุ่ม
ป่าสุ่มถือเป็นกล่องดำ แต่เมื่อเร็ว ๆ นี้ฉันกำลังคิดว่าจะได้ความรู้อะไรจากป่าสุ่ม? สิ่งที่ชัดเจนที่สุดคือความสำคัญของตัวแปรในตัวแปรที่ง่ายที่สุดสามารถทำได้เพียงแค่คำนวณจำนวนการเกิดขึ้นของตัวแปร สิ่งที่สองที่ฉันคิดคือการโต้ตอบ ฉันคิดว่าถ้าจำนวนต้นไม้มีขนาดใหญ่เพียงพอจำนวนของตัวแปรคู่ที่สามารถทดสอบได้ (เช่นความเป็นอิสระของไคสแควร์) สิ่งที่สามคือความไม่แปรปรวนของตัวแปร ความคิดแรกของฉันคือการดูแผนภูมิของคะแนน Vs ตัวแปร แต่ฉันยังไม่แน่ใจว่ามันสมเหตุสมผลหรือไม่ เพิ่ม 23.01.2012 แรงจูงใจ ฉันต้องการใช้ความรู้นี้เพื่อปรับปรุงแบบจำลอง logit ฉันคิดว่า (หรืออย่างน้อยก็หวังว่า) เป็นไปได้ที่จะพบปฏิสัมพันธ์และความไม่เป็นเชิงเส้นที่ถูกมองข้าม

2
ต้นไม้ไล่ระดับสีไล่ระดับเทียบกับป่าสุ่ม
การส่งเสริมต้นไม้ไล่โทนสีตามที่เสนอโดยฟรีดแมนใช้ต้นไม้ตัดสินใจเป็นผู้เรียนพื้นฐาน ฉันสงสัยว่าเราควรสร้างแผนภูมิการตัดสินใจพื้นฐานที่ซับซ้อนที่สุดเท่าที่จะเป็นไปได้ (โตเต็มที่) หรือง่ายกว่านี้หรือไม่? มีคำอธิบายสำหรับการเลือกหรือไม่? ป่าสุ่มเป็นอีกวิธีการหนึ่งที่ใช้ต้นไม้ตัดสินใจเป็นฐานในการเรียนรู้ จากความเข้าใจของฉันเรามักใช้ต้นไม้ตัดสินใจที่โตเต็มที่ในการทำซ้ำแต่ละครั้ง ฉันถูกไหม?

3
วิธีที่ดีที่สุดที่จะนำเสนอป่าสุ่มในสิ่งพิมพ์?
ฉันกำลังใช้อัลกอริธึมป่าแบบสุ่มเป็นตัวจําแนกที่มีประสิทธิภาพของสองกลุ่มในการศึกษาขนาดเล็กที่มีคุณสมบัติ 1,000 รายการ วิธีที่ดีที่สุดที่จะนำเสนอป่าสุ่มเพื่อให้มีข้อมูลเพียงพอที่จะทำให้มันทำซ้ำได้ในกระดาษคืออะไร? มีวิธีการลงจุดใน R เพื่อทำแผนผังต้นไม้จริงหรือไม่หากมีคุณสมบัติจำนวนน้อย? OOB ประมาณการอัตราข้อผิดพลาดเป็นสถิติที่ดีที่สุดในการอ้าง?

2
คำถามเชิงปฏิบัติเกี่ยวกับการปรับแต่งป่าสุ่ม
คำถามของฉันเกี่ยวกับป่าสุ่ม แนวคิดของลักษณนามที่สวยงามนี้ชัดเจนสำหรับฉัน แต่ยังมีคำถามการใช้งานมากมาย น่าเสียดายที่ฉันล้มเหลวในการหาคู่มือที่เป็นประโยชน์สำหรับ RF (ฉันค้นหาบางสิ่งเช่น "คู่มือปฏิบัติสำหรับเครื่อง Boltzman ที่ จำกัด การฝึกอบรม" โดย Geoffrey Hinton แต่สำหรับป่าสุ่ม! หนึ่งวิธีสามารถปรับคลื่นความถี่วิทยุในทางปฏิบัติได้อย่างไร? จริงหรือที่ต้นไม้จำนวนมากจะดีกว่าเสมอ มีข้อ จำกัด ที่สมเหตุสมผล (ยกเว้นความสามารถของ บริษัท แน่นอน) ในการเพิ่มจำนวนต้นไม้และวิธีการประมาณสำหรับชุดข้อมูลที่กำหนดหรือไม่? ความลึกของต้นไม้ล่ะ? วิธีการเลือกที่เหมาะสมหรือไม่ มีความรู้สึกอย่างไรในการทดสอบต้นไม้ที่มีความยาวต่างกันในป่าหนึ่งและคำแนะนำสำหรับสิ่งนั้นคืออะไร? มีพารามิเตอร์อื่น ๆ ที่ควรพิจารณาเมื่อฝึกอบรม RF หรือไม่ อาจสร้าง Algos สำหรับต้นไม้แต่ละต้น? เมื่อพวกเขาพูดว่า RF ทนต่อการ overfitting ความจริงเป็นอย่างไร ฉันจะขอบคุณคำตอบและ / หรือลิงก์ไปยังคู่มือหรือบทความที่ฉันอาจพลาดไปในขณะที่ค้นหา

3
วิธีการพล็อตแผนภูมิตัวอย่างจาก randomForest :: getTree () จริง ๆ ได้อย่างไร? [ปิด]
ทุกคนมีคำแนะนำห้องสมุดหรือรหัสเกี่ยวกับวิธีการพล็อตตัวอย่างต้นไม้สองสามต้นจาก: getTree(rfobj, k, labelVar=TRUE) (ใช่ฉันรู้ว่าคุณไม่ควรทำสิ่งนี้ในเชิงปฏิบัติ RF เป็นกล่องดำ ฯลฯ ฯลฯ ฉันต้องการให้มีสติตรวจสายตาต้นไม้เพื่อดูว่าตัวแปรใดที่ทำงานผิดพลาดหรือไม่จำเป็นต้องปรับแต่ง / รวม / แยก / แปลง / ตรวจสอบ ปัจจัยที่เข้ารหัสของฉันทำงานได้ดีเพียงใด ฯลฯ ) คำถามก่อนหน้าโดยไม่มีคำตอบที่ดี: วิธีที่จะทำให้ป่าสุ่มตีความได้มากขึ้น? นอกจากนี้ยังได้รับความรู้จากป่าสุ่ม ที่จริงผมอยากจะพล็อตต้นไม้ตัวอย่าง ดังนั้นอย่าเถียงกับฉันเกี่ยวกับเรื่องนี้อยู่แล้ว ฉันไม่ได้ถามเกี่ยวกับvarImpPlot(Variance Importance Plot) หรือpartialPlotหรือMDSPlotหรือแปลงอื่น ๆ เหล่านี้ฉันมีอยู่แล้ว แต่พวกมันไม่ได้ใช้แทนการดูต้นไม้ตัวอย่าง getTree(...,labelVar=TRUE)ใช่ครับผมสายตาสามารถตรวจสอบการส่งออกของ (ฉันเดาว่าplot.rf.tree()ผลงานจะได้รับการตอบรับดีมาก)

6
การทำนายของแบบจำลองฟอเรสต์มีช่วงเวลาการทำนายหรือไม่?
ถ้าฉันเรียกใช้randomForestแบบจำลองฉันสามารถทำการทำนายตามแบบจำลองได้ มีวิธีใดที่จะได้ช่วงเวลาการทำนายของการทำนายแต่ละครั้งเช่นที่ฉันรู้ว่า "แน่ใจ" โมเดลนั้นเป็นคำตอบของมันหรือไม่ ถ้าเป็นไปได้มันขึ้นอยู่กับความแปรปรวนของตัวแปรตามสำหรับโมเดลทั้งหมดหรือจะมีช่วงกว้างขึ้นและแคบขึ้นอยู่กับแผนผังการตัดสินใจเฉพาะที่ตามมาสำหรับการทำนายโดยเฉพาะ

5
ฟอเรสต์แบบสุ่มเป็นอัลกอริธึมการส่งเสริมหรือไม่
คำนิยามสั้น ๆ ของการส่งเสริม : ชุดผู้เรียนที่อ่อนแอสามารถสร้างผู้เรียนที่เข้มแข็งเพียงคนเดียวได้หรือไม่? ผู้เรียนที่อ่อนแอถูกกำหนดให้เป็นตัวจําแนกซึ่งมีความสัมพันธ์เพียงเล็กน้อยกับการจัดหมวดหมู่ที่แท้จริง (มันสามารถติดป้ายตัวอย่างที่ดีกว่าการคาดเดาแบบสุ่ม) คำจำกัดความโดยย่อของRandom Forest : ป่าสุ่มเติบโตต้นไม้จัดประเภทจำนวนมาก ในการจัดประเภทวัตถุใหม่จากอินพุตเวกเตอร์ให้ใส่เวกเตอร์อินพุตลงต้นไม้แต่ละต้นในป่า ต้นไม้แต่ละต้นให้การจำแนกประเภทและเราพูดว่าต้นไม้ "โหวต" สำหรับชั้นเรียนนั้น ป่าเลือกการจำแนกที่มีคะแนนมากที่สุด (เหนือต้นไม้ทั้งหมดในป่า) อีกคำนิยามสั้น ๆ ของป่าสุ่ม : ฟอเรสต์แบบสุ่มเป็นตัวประมาณเมตาที่เหมาะกับตัวจัดประเภทต้นไม้ตัดสินใจจำนวนมากบนตัวอย่างย่อยต่างๆของชุดข้อมูลและใช้ค่าเฉลี่ยเพื่อปรับปรุงความแม่นยำในการทำนายและควบคุมการปรับให้เหมาะสม ตามที่ฉันเข้าใจ Random Forest เป็นอัลกอริธึมการเพิ่มประสิทธิภาพซึ่งใช้ต้นไม้เป็นตัวแยกประเภทที่อ่อนแอ ฉันรู้ว่ามันยังใช้เทคนิคอื่น ๆ และปรับปรุงให้ดีขึ้น มีใครบางคนแก้ไขฉันว่า Random Forest ไม่ใช่อัลกอริธึมการส่งเสริมใช่หรือไม่ ใครบางคนสามารถอธิบายอย่างละเอียดเกี่ยวกับเรื่องนี้ทำไม Random Forest ไม่ได้เป็นอัลกอริทึมการส่งเสริม

3
ฟอเรสต์แบบสุ่มสามารถนำมาใช้สำหรับการเลือกคุณสมบัติในการถดถอยเชิงเส้นหลายแบบได้หรือไม่?
เนื่องจาก RF สามารถจัดการแบบไม่เป็นเชิงเส้น แต่ไม่สามารถให้ค่าสัมประสิทธิ์ได้คุณควรใช้ฟอเรสต์แบบสุ่มเพื่อรวบรวมคุณลักษณะที่สำคัญที่สุดจากนั้นจึงเสียบคุณลักษณะเหล่านั้นเข้ากับแบบจำลองการถดถอยเชิงเส้นหลายแบบเพื่อให้ได้ค่าสัมประสิทธิ์

4
เวลาการคำนวณฟอเรสต์แบบสุ่มใน R
ฉันใช้แพ็คเกจปาร์ตี้ใน R ที่มี 10,000 แถวและ 34 คุณสมบัติและคุณสมบัติตัวประกอบบางอย่างมีมากกว่า 300 ระดับ เวลาในการคำนวณยาวเกินไป (ใช้เวลาประมาณ 3 ชั่วโมงและยังไม่เสร็จ) ฉันต้องการทราบว่าองค์ประกอบใดมีผลกระทบอย่างใหญ่หลวงต่อเวลาการคำนวณของฟอเรสต์แบบสุ่ม มันมีปัจจัยหลายระดับหรือไม่ มีวิธีการใดที่ได้รับการปรับแต่งเพื่อปรับปรุงเวลาประมวลผล RF หรือไม่?
48 r  random-forest 

3
จำนวนต้นไม้ที่เหมาะสมในป่าสุ่มขึ้นอยู่กับจำนวนผู้ทำนายหรือไม่?
ใครสามารถอธิบายได้ว่าทำไมเราต้องมีต้นไม้จำนวนมากในป่าสุ่มเมื่อจำนวนผู้ทำนายมีมาก เราจะกำหนดจำนวนต้นไม้ที่เหมาะสมได้อย่างไร?

5
การใช้งานที่เพิ่มประสิทธิภาพของอัลกอริทึมป่าสุ่ม
ฉันได้สังเกตเห็นว่ามีการใช้งานไม่กี่ของป่าสุ่มเช่น ALGLIB, วาฟเฟิลและบางส่วนแพคเกจ R randomForestเช่น ใครช่วยบอกฉันได้ไหมว่าห้องสมุดเหล่านี้ได้รับการปรับให้เหมาะสมที่สุดหรือไม่? โดยพื้นฐานแล้วพวกเขาเทียบเท่ากับป่าสุ่มตามรายละเอียดในองค์ประกอบของการเรียนรู้ทางสถิติหรือมีเทคนิคพิเศษมากมายหรือไม่? ฉันหวังว่าคำถามนี้เฉพาะเจาะจงเพียงพอ เป็นตัวอย่างของประเภทของคำตอบที่ฉันกำลังมองหาถ้ามีคนถามฉันว่าแพคเกจพีชคณิตเชิงเส้น BLAS ได้รับการปรับให้เหมาะสมที่สุดฉันจะบอกว่ามันได้รับการปรับปรุงอย่างมากและส่วนใหญ่ไม่คุ้มค่าที่จะพยายามปรับปรุง

2
สมมติฐานป่าสุ่ม
ฉันเป็นคนใหม่ในป่าสุ่มดังนั้นฉันยังคงดิ้นรนกับแนวคิดพื้นฐานบางอย่าง ในการถดถอยเชิงเส้นเราถือว่าการสังเกตอย่างอิสระความแปรปรวนคงที่ ... อะไรคือสมมติฐาน / สมมติฐานพื้นฐานที่เราทำเมื่อเราใช้ฟอเรสต์แบบสุ่ม? อะไรคือความแตกต่างที่สำคัญระหว่างป่าสุ่มและอ่าวไร้เดียงสาในแง่ของสมมติฐานแบบจำลอง?

7
ทำไม Random Forest ไม่จัดการค่าที่ขาดหายไปในตัวทำนาย?
อะไรคือเหตุผลทางทฤษฎีที่จะไม่จัดการกับค่าที่ขาดหายไป? เครื่องเร่งการไล่ระดับสีต้นไม้การถดถอยจัดการค่าที่ขาดหายไป ทำไม Random Forest ถึงไม่ทำเช่นนั้น?

6
Random Forest - วิธีจัดการกับการสวมใส่ที่มากเกินไป
ฉันมีพื้นฐานด้านวิทยาการคอมพิวเตอร์ แต่ฉันพยายามสอนวิทยาศาสตร์ข้อมูลด้วยตนเองโดยการแก้ปัญหาทางอินเทอร์เน็ต ฉันได้พยายามแก้ไขปัญหานี้ในช่วงสองสามสัปดาห์ที่ผ่านมา (ประมาณ 900 แถวและ 10 ฟีเจอร์) ตอนแรกฉันใช้การถดถอยแบบโลจิสติกส์ แต่ตอนนี้ฉันเปลี่ยนเป็นป่าแบบสุ่ม เมื่อฉันใช้โมเดลฟอเรสต์แบบสุ่มบนข้อมูลการฝึกอบรมของฉันฉันจะได้รับค่าที่สูงมากสำหรับ auc (> 99%) อย่างไรก็ตามเมื่อฉันรันโมเดลเดียวกันกับข้อมูลการทดสอบผลลัพธ์จะไม่ดี (ความแม่นยำประมาณ 77%) สิ่งนี้ทำให้ฉันเชื่อว่าฉันเหมาะสมกว่าข้อมูลการฝึกอบรม อะไรคือวิธีปฏิบัติที่ดีที่สุดเกี่ยวกับการป้องกันการติดตั้งในป่าสุ่ม? ฉันใช้ r และ rstudio เป็นสภาพแวดล้อมการพัฒนาของฉัน ฉันใช้randomForestแพคเกจและได้ยอมรับค่าเริ่มต้นสำหรับพารามิเตอร์ทั้งหมด

2
การวัดความสำคัญของตัวแปรในป่าสุ่ม
ฉันเล่นกับป่าที่สุ่มเพื่อการถดถอยและฉันก็ลำบากที่จะหาว่าค่าเฉลี่ยความสำคัญสองอย่างนี้เป็นอย่างไรและควรตีความอย่างไร importance()ฟังก์ชั่นให้สองค่าสำหรับแต่ละตัวแปรและ%IncMSE IncNodePurityมีการตีความง่าย ๆ สำหรับค่า 2 ค่านี้หรือไม่? สำหรับIncNodePurityโดยเฉพาะอย่างยิ่งเป็นแบบนี้เพียงแค่จำนวนเงินที่ RSS เพิ่มขึ้นต่อไปนี้การกำจัดของตัวแปรที่หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.