คำถามติดแท็ก random-forest

ฟอเรสต์แบบสุ่มเป็นวิธีการเรียนรู้ด้วยเครื่องจักรโดยใช้การผสมผสานเอาท์พุทของต้นไม้ตัดสินใจจำนวนมาก

2
ป่าสุ่มสำหรับการถดถอยหลายตัวแปร
ฉันมีปัญหาการถดถอยหลายเอาท์พุทที่มีคุณสมบัติเข้าและเอาท์พุท เอาต์พุตมีโครงสร้างความสัมพันธ์ที่ไม่เป็นเชิงเส้นที่ซับซ้อนdxdxd_xdYdYd_y ฉันต้องการใช้ป่าสุ่มในการถดถอย เท่าที่ฉันสามารถบอกได้ป่าสุ่มสำหรับการถดถอยจะทำงานกับผลลัพธ์เดียวดังนั้นฉันจะต้องฝึกป่าสุ่มdYdYd_y - หนึ่งป่าสำหรับแต่ละผลผลิต สิ่งนี้จะละเว้นความสัมพันธ์ของพวกเขา มีส่วนขยายไปยังฟอเรสต์แบบสุ่มที่คำนึงถึงความสัมพันธ์ของผลผลิตหรือไม่ บางทีบางอย่างเช่นGaussian ถดถอยกระบวนการสำหรับการเรียนรู้หลายงาน

3
ฉันจะรวมเอฟเฟกต์แบบสุ่ม (หรือการวัดซ้ำ) ลงในป่าสุ่มได้อย่างไร
ฉันไม่แน่ใจด้วยซ้ำว่าคำถามนี้สมเหตุสมผลดี แต่ฉันคิดว่าฉันเห็นชื่อหนังสือสองเล่มที่พวกเขาเสนอป่าสุ่มโดยมีเอฟเฟกต์แบบสุ่ม เป็นไปได้ใน R?

5
ป่าสุ่มของ R ไม่สามารถจัดการได้มากกว่า 32 ระดับ วิธีแก้ปัญหาคืออะไร
แพ็คเกจสุ่มป่าของ R ไม่สามารถจัดการกับปัจจัยที่มีมากกว่า 32 ระดับ เมื่อได้รับมากกว่า 32 ระดับจะส่งข้อความแจ้งข้อผิดพลาด: ไม่สามารถจัดการตัวทำนายเชิงหมวดหมู่ที่มีมากกว่า 32 หมวดหมู่ แต่ข้อมูลที่ฉันมีมีหลายปัจจัย บางอันมี 1,000+ ระดับและบางอันมี 100+ ระดับ มันยังมี 'สถานะ' ของสหรัฐอเมริกาซึ่งก็คือ 52 ดังนั้นนี่คือคำถามของฉัน ทำไมถึงมีข้อ จำกัด เช่นนี้? RandomForest ปฏิเสธที่จะเรียกใช้แม้ในกรณีง่าย ๆ > d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with …

3
ตีความแกน y ของแปลงที่พึ่งพาบางส่วน
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันได้อ่านหัวข้ออื่น ๆ เกี่ยวกับพล็อตพึ่งพาบางส่วนและส่วนใหญ่อยู่ในวิธีการที่คุณพล็อตพวกเขาด้วยแพคเกจที่แตกต่างกันไม่ใช่วิธีที่คุณสามารถตีความได้อย่างถูกต้องดังนั้น: ฉันอ่านและสร้างแผนการพึ่งพาบางส่วนในปริมาณที่พอใช้ ฉันรู้ว่าพวกเขาวัดผลกระทบเล็กน้อยของตัวแปรในฟังก์ชั่นƒS (withS) ด้วยค่าเฉลี่ยผลกระทบของตัวแปรอื่นทั้งหมด ((c) จากแบบจำลองของฉัน ค่า y ที่สูงกว่าหมายความว่าพวกเขามีอิทธิพลต่อการทำนายชั้นเรียนของฉันอย่างแม่นยำ อย่างไรก็ตามฉันไม่พอใจกับการตีความเชิงคุณภาพนี้ โมเดลของฉัน (ฟอเรสต์แบบสุ่ม) กำลังทำนายคลาสรอบคอบสองคลาส "ใช่ต้นไม้" และ "ไม่มีต้นไม้" TRI เป็นตัวแปรที่พิสูจน์แล้วว่าเป็นตัวแปรที่ดีสำหรับเรื่องนี้ สิ่งที่ฉันเริ่มคิดว่าค่า Y กำลังแสดงความน่าจะเป็นสำหรับการจำแนกประเภทที่ถูกต้อง ตัวอย่าง: y (0.2) แสดงว่าค่า TRI ของ> ~ 30 มีโอกาส 20% ในการระบุการจำแนกประเภท True Positive อย่างถูกต้อง อยู่ที่ไหนตรงกันข้าม y (-0.2) แสดงว่าค่า TRI …

4
“ การเรียนรู้แบบมีผู้ควบคุมกึ่ง” - การทำเกินนี้หรือไม่
ฉันอ่านรายงานเกี่ยวกับวิธีแก้ปัญหาการชนะของการแข่งขัน Kaggle ( การจำแนกประเภทมัลแวร์ ) รายงานสามารถพบได้ในโพสต์ฟอรั่มนี้ ปัญหาคือปัญหาการจัดหมวดหมู่ (เก้าคลาสตัวชี้วัดคือการสูญเสียลอการิทึม) ที่มี 10,000 องค์ประกอบในชุดรถไฟ 10,000 ชิ้นส่วนในชุดทดสอบ ในระหว่างการแข่งขันแบบจำลองจะถูกประเมินเทียบกับ 30% ของชุดทดสอบ องค์ประกอบที่สำคัญอีกประการหนึ่งคือโมเดลมีประสิทธิภาพดีมาก (ใกล้เคียงกับความแม่นยำ 100%) ผู้เขียนใช้เทคนิคต่อไปนี้: อีกเทคนิคที่สำคัญที่เราเกิดขึ้นคือการเรียนรู้แบบ Semisupervised ก่อนอื่นเราสร้างฉลากเทียมของชุดทดสอบโดยเลือกความน่าจะเป็นสูงสุดของแบบจำลองที่ดีที่สุดของเรา จากนั้นเราคาดการณ์ชุดการทดสอบอีกครั้งในรูปแบบการตรวจสอบความถูกต้องทั้งข้อมูลรถไฟและข้อมูลการทดสอบ ตัวอย่างเช่นชุดข้อมูลการทดสอบแบ่งออกเป็น 4 ส่วน A, B, C และ D เราใช้ข้อมูลการฝึกอบรมทั้งหมดและทดสอบข้อมูล A, B, C พร้อมป้ายกำกับหลอกของพวกเขาพร้อมกันเป็นชุดฝึกอบรมใหม่และเราทำนายการทดสอบ ชุด D วิธีเดียวกันนี้ใช้ในการทำนาย A, B และ C วิธีการนี้คิดค้นโดย Xiaozhou ทำงานได้ดีอย่างน่าประหลาดใจและช่วยลดการสูญเสียการตรวจสอบข้ามท้องถิ่นการสูญเสีย LB สาธารณะและการสูญเสีย LB …

5
การสุ่มป่าเทียบกับการถดถอย
ฉันใช้โมเดลการถดถอย OLS ในชุดข้อมูลที่มี 5 ตัวแปรอิสระ ตัวแปรอิสระและตัวแปรตามมีทั้งต่อเนื่องและเกี่ยวข้องเชิงเส้น R Square อยู่ที่ประมาณ 99.3% แต่เมื่อฉันเรียกใช้เดียวกันโดยใช้ฟอเรสต์แบบสุ่มใน R ผลลัพธ์ของฉันคือ '% Var อธิบาย: 88.42' เหตุใดผลการสุ่มป่าจึงต่ำกว่าการถดถอย สมมติฐานของฉันคือป่าสุ่มจะดีเท่ากับ OLS regression

5
วิธีการควบคุมค่าใช้จ่ายของการจำแนกประเภทในป่าสุ่ม?
เป็นไปได้หรือไม่ที่จะควบคุมค่าใช้จ่ายในการจำแนกประเภทใน R แพ็คเกจแบบสุ่มป่าไม้ ? ในงานของฉันเองเชิงลบเท็จ (เช่นหายไปในข้อผิดพลาดที่บุคคลอาจมีโรค) มีราคาแพงกว่าบวกเท็จ แพ็คเกจrpartช่วยให้ผู้ใช้สามารถควบคุมค่าใช้จ่ายในการจำแนกประเภทได้โดยการระบุเมทริกซ์การสูญเสียไปยังการจัดประเภทน้ำหนักที่แตกต่างกัน มีอะไรที่คล้ายกันเกิดขึ้นเพื่อrandomForestอะไร? ตัวอย่างเช่นฉันควรใช้classwtตัวเลือกในการควบคุมเกณฑ์ของ Gini หรือไม่


3
การรวมโมเดลการเรียนรู้ของเครื่อง
ฉันยังใหม่กับการเรียนรู้ข้อมูล / การเรียนรู้ของเครื่อง / ฯลฯ และได้อ่านเกี่ยวกับวิธีการรวมแบบจำลองหลายแบบและแบบจำลองเดียวกันเพื่อปรับปรุงการทำนาย ความประทับใจของฉันจากการอ่านบทความสองเล่ม (ซึ่งมักจะน่าสนใจและยอดเยี่ยมเกี่ยวกับทฤษฎีและตัวอักษรกรีก แต่สั้น ๆ เกี่ยวกับรหัสและตัวอย่างจริง) คือมันควรจะเป็นเช่นนี้: ฉันใช้แบบจำลอง ( knn, RFและอื่น ๆ ) และรับรายการตัวแยกประเภทระหว่าง 0 และ 1 คำถามของฉันคือวิธีรวมรายการตัวแยกประเภทแต่ละรายการเหล่านี้หรือไม่ ฉันใช้โมเดลเดียวกันกับชุดการฝึกอบรมของฉันหรือไม่เพื่อให้จำนวนคอลัมน์ที่เข้าสู่โมเดลสุดท้ายเหมือนกันหรือมีเคล็ดลับอื่น ๆ อีกหรือไม่ มันจะดีถ้าคำแนะนำ / ตัวอย่างรวมถึงรหัส R หมายเหตุ: สำหรับชุดข้อมูลที่มีเส้น 100k ในชุดฝึกอบรมและ 70k ในชุดทดสอบและ 10 คอลัมน์

2
ป่าสุ่มสร้างป่าสุ่มอย่างไร
ฉันไม่ใช่ผู้เชี่ยวชาญของป่าสุ่ม แต่ฉันเข้าใจชัดเจนว่าปัญหาสำคัญของป่าสุ่มคือการสร้างต้นไม้ (สุ่ม) คุณช่วยอธิบายฉันได้อย่างไรว่าต้นไม้สร้างขึ้นได้อย่างไร? (เช่นการกระจายที่ใช้สำหรับการสร้างต้นไม้คืออะไร) ขอบคุณล่วงหน้า !

1
ประโยชน์ของการสุ่มแบบแบ่งชั้นและสุ่มตัวอย่างเพื่อสร้างข้อมูลการฝึกอบรมในการจำแนกประเภท
ฉันต้องการทราบว่ามีข้อได้เปรียบใด ๆ / บางส่วนของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทนการสุ่มตัวอย่างแบบสุ่มหรือไม่เมื่อแยกชุดข้อมูลเดิมเข้ากับชุดการฝึกอบรมและการทดสอบสำหรับการจำแนก การสุ่มตัวอย่างแบบแบ่งชั้นจะทำให้มีอคติต่อลักษณนามมากกว่าการสุ่มตัวอย่างแบบสุ่มหรือไม่? แอพพลิเคชั่นที่ฉันต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อเตรียมข้อมูลเป็นตัวจําแนกประเภทลอเรนซ์ป่าซึ่งผ่านการฝึกอบรมเมื่อวันที่2323\frac{2}{3}ของชุดข้อมูลดั้งเดิม ก่อนตัวแยกประเภทยังมีขั้นตอนของการสร้างตัวอย่างสังเคราะห์ (SMOTE [1]) ซึ่งปรับขนาดของคลาสให้สมดุล [1] Chawla, Nitesh V. และอื่น ๆ " SMOTE: เทคนิคการสุ่มตัวอย่างแบบสังเคราะห์ส่วนน้อย " วารสารวิจัยปัญญาประดิษฐ์ 16 (2002): 321-357

2
ป่าที่สุ่มขึ้นมามากเกินไป?
ฉันกำลังทดลองกับป่าสุ่มที่มี scikit เรียนรู้และฉันได้รับผลลัพธ์ที่ยอดเยี่ยมจากชุดการฝึกอบรมของฉัน แต่ผลลัพธ์ที่ได้ค่อนข้างแย่ในชุดการทดสอบของฉัน ... นี่คือปัญหา (ได้รับแรงบันดาลใจจากโป๊กเกอร์) ที่ฉันพยายามจะแก้ไข: เมื่อได้ไพ่ของผู้เล่น A, ไพ่ในหลุมของผู้เล่น B และไพ่ปัด (3 ใบ), ผู้เล่นคนไหนมีมือที่ดีที่สุด? ในทางคณิตศาสตร์นี่คือ 14 อินพุต (7 ใบ - หนึ่งอันดับและหนึ่งชุดสำหรับแต่ละคน) และหนึ่งเอาต์พุต (0 หรือ 1) นี่คือผลลัพธ์บางส่วนของฉัน: Training set size: 600k, test set size: 120k, number of trees: 25 Success rate in training set: 99.975% Success rate in testing …

11
เหตุใดการถดถอยแบบลอจิสติกจึงเรียกว่าอัลกอริทึมการเรียนรู้ของเครื่อง?
ถ้าฉันเข้าใจถูกต้องในอัลกอริทึมการเรียนรู้ของเครื่องโมเดลต้องเรียนรู้จากประสบการณ์ของมันเช่นเมื่อแบบจำลองให้การทำนายผิดสำหรับกรณีใหม่มันจะต้องปรับให้เข้ากับการสังเกตใหม่และในเวลานั้นแบบจำลองจะยิ่งดีขึ้น . ฉันไม่เห็นว่าการถดถอยโลจิสติกมีคุณสมบัตินี้ เหตุใดจึงยังถือว่าเป็นขั้นตอนวิธีการเรียนรู้ของเครื่อง? ความแตกต่างระหว่างการถดถอยโลจิสติกกับการถดถอยปกติในแง่ของ "การเรียนรู้" คืออะไร? ฉันมีคำถามเดียวกันสำหรับป่าสุ่ม! และคำจำกัดความของ "การเรียนรู้ของเครื่อง" คืออะไร?

3
ฟอเรสต์แบบสุ่มสำหรับการถดถอยนั้นเป็น "การถดถอย" ที่แท้จริงหรือไม่?
สุ่มป่าใช้สำหรับการถดถอย อย่างไรก็ตามจากสิ่งที่ฉันเข้าใจพวกเขากำหนดค่าเป้าหมายเฉลี่ยในแต่ละใบ เนื่องจากมีใบที่ จำกัด ในแต่ละต้นเท่านั้นจึงมีค่าเฉพาะที่เป้าหมายสามารถบรรลุได้จากโมเดลการถดถอยของเรา ดังนั้นมันไม่ใช่แค่การถดถอยแบบ 'ไม่ต่อเนื่อง' (เช่นฟังก์ชันขั้นตอน) และไม่เหมือนกับการถดถอยเชิงเส้นซึ่งเป็น 'ต่อเนื่อง'? ฉันเข้าใจสิ่งนี้ถูกต้องหรือไม่ ถ้าใช่ข้อได้เปรียบของป่าสุ่มในการถดถอยคืออะไร

1
ป่าสุ่มสุดขั้วแตกต่างจากป่าสุ่มอย่างไร
การใช้ ER มีประสิทธิภาพมากขึ้นหรือไม่ (เหมือนกันExtreme Gradient Boostingคือการเพิ่มระดับความลาดชัน) - ความแตกต่างสำคัญจากมุมมองของภาคปฏิบัติหรือไม่? มีแพ็คเกจ R ซึ่งใช้งานได้ มันเป็นอัลกอริธึมใหม่ที่เอาชนะการใช้งานแบบ "ทั่วไป" (แพคเกจ RandomForest จาก R) ไม่เพียง แต่ในแง่ของประสิทธิภาพหรือในบางพื้นที่เท่านั้น? Extreme Random Forest http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.