มีการใช้ฟอเรสต์แบบสุ่มที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่?


23

มีการใช้ฟอเรสต์แบบสุ่ม R ที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่? ฉันมีตัวแปรอินพุตบูลีนหลายพันล้านตัว แต่มีเพียงร้อยหรือมากกว่าเท่านั้นที่จะเป็น TRUE สำหรับตัวอย่างที่กำหนด

ฉันค่อนข้างใหม่สำหรับ R และสังเกตว่ามีแพ็คเกจ 'Matrix' สำหรับจัดการกับข้อมูลที่กระจัดกระจาย แต่แพ็คเกจ 'randomForest' มาตรฐานดูเหมือนจะไม่รู้จักชนิดข้อมูลนี้ หากมีความสำคัญข้อมูลอินพุตจะถูกสร้างขึ้นนอก R และนำเข้า

คำแนะนำใด ๆ? ฉันสามารถดูการใช้ Weka, Mahout หรือแพ็คเกจอื่น ๆ


เท่าที่ฉันสามารถบอกได้ไม่มีแพ็คเกจ R สำหรับต้นไม้การตัดสินใจเบาบาง ฉันเชื่อว่ามีอัลกอริทึมสำหรับต้นไม้ตัดสินใจกระจัดกระจายซึ่งหากนำไปใช้ใน R สามารถใช้ในการสร้างป่าสุ่ม
Zach

2
ต่อไปนี้เป็นผู้สมัครที่ดี: cs.cornell.edu/~nk/fest หากคุณสามารถส่งออกข้อมูลของคุณในรูปแบบ libsvm คุณสามารถใช้โปรแกรมบรรทัดคำสั่งนี้ รักที่จะเห็นพอร์ต R ...
Zach

Zach - ดูเหมือนว่าลิงก์จะตาย
Benoit_Plante

2
@ cmoibenlepro ลิงก์นั้นเป็นlowrank.net/nikos/fest
seanv507

ลิงก์ใช้งานได้ดีสำหรับฉัน
David Marx

คำตอบ:


13

ไม่ไม่มีการใช้ RF สำหรับข้อมูลที่กระจัดกระจายในอาร์ส่วนหนึ่งเป็นเพราะ RF ไม่เหมาะกับปัญหาประเภทนี้มาก - การเลือกถุงและ suboptimal ของการแยกอาจทำให้เสียข้อมูลเชิงลึกของโมเดลส่วนใหญ่ในพื้นที่ที่ไม่มีศูนย์เท่านั้น

ลองใช้วิธีเคอร์เนลหรือลองนึกถึงการแปลงข้อมูลของคุณให้เป็นตัวแทนอันเขียวชอุ่มมากขึ้นด้วยตัวอธิบาย (หรือใช้วิธีการลดขนาด)


คำตอบของ Hack-R ชี้ให้เห็นแพ็คเกจ xgboost ซึ่งสามารถทำฟอเรสต์แบบสุ่มได้อย่างสมบูรณ์แบบ
เอ็ดการ์

7

ที่จริงแล้วใช่มี

มันคือxgboostสิ่งที่ถูกสร้างขึ้นสำหรับ eXtreme gradient boosting ปัจจุบันนี้เป็นแพคเกจตัวเลือกสำหรับการใช้งานโมเดลที่มีเมทริกซ์กระจัดกระจายใน R สำหรับคนจำนวนมากและตามที่ลิงก์ด้านบนอธิบายไว้คุณสามารถใช้มันสำหรับ Random Forest โดยปรับแต่งพารามิเตอร์ !


4

แพ็คเกจ R "Ranger" ควรทำอย่างไร

https://cran.r-project.org/web/packages/ranger/ranger.pdf

การนำป่าสุ่มมาใช้ได้อย่างรวดเร็วโดยเฉพาะอย่างยิ่งเหมาะสำหรับข้อมูลมิติสูง

เมื่อเทียบกับป่าสุ่มแพ็คเกจนี้น่าจะเป็นการใช้งาน RF ที่เร็วที่สุดที่ฉันเคยเห็น มันปฏิบัติต่อตัวแปรเด็ดขาดในทางพื้นเมือง


-4

มีบล็อกที่เรียกว่า Quick-R ที่จะช่วยคุณเกี่ยวกับพื้นฐานของอาร์

R ใช้งานได้กับแพ็คเกจ แต่ละแพ็คเกจสามารถทำสิ่งที่แตกต่าง มีแพ็คเกจนี้เรียกว่า "randomForests" ซึ่งควรเป็นสิ่งที่คุณต้องการ

ระวังข้อมูลที่กระจัดกระจายจะทำให้เกิดปัญหาไม่ว่าคุณจะใช้วิธีใด สำหรับความรู้ของฉันมันเป็นปัญหาที่เปิดกว้างและการขุดข้อมูลโดยทั่วไปนั้นเป็นศิลปะมากกว่าวิทยาศาสตร์ ป่าสุ่มนั้นทำได้ดีมาก แต่ก็ไม่ใช่วิธีที่ดีที่สุด คุณอาจต้องการลองใช้โครงข่ายประสาทเทียมที่มีเลเยอร์มากมายซึ่งอาจช่วยได้


4
ไม่สุ่มป่าไม้ไม่ดีอย่างฉาวโฉ่กับข้อมูลที่กระจัดกระจายดังนั้นคำถามทั้งหมด พารามิเตอร์ classwt ไม่ได้ใช้อย่างถูกต้องตลอดทั้ง randomForest การสุ่มตัวอย่างด้วยตนเองเป็นวิธีหนึ่ง แต่จะทำให้เกิดข้อผิดพลาด OOB โดยวิธีการแพคเกจไม่ได้เรียกว่า 'สุ่มป่า'
smci

1
ส่วนต่างๆของสิ่งนี้เป็นความจริงไม่ใช่คำตอบของคำถาม
Sycorax พูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.