ฉันจะรวมเอฟเฟกต์แบบสุ่ม (หรือการวัดซ้ำ) ลงในป่าสุ่มได้อย่างไร


22

ฉันไม่แน่ใจด้วยซ้ำว่าคำถามนี้สมเหตุสมผลดี แต่ฉันคิดว่าฉันเห็นชื่อหนังสือสองเล่มที่พวกเขาเสนอป่าสุ่มโดยมีเอฟเฟกต์แบบสุ่ม เป็นไปได้ใน R?


1
ใช่มันไม่สมเหตุสมผลเลย คุณหมายถึงอะไรโดยเอฟเฟกต์แบบสุ่ม?
Simone

ฉันกำลังคิดถึงสิ่งที่คล้ายกับสิ่งที่คุณสามารถทำได้ด้วยฟังก์ชั่น lmer ซึ่งคุณสามารถรวมเอฟเฟกต์แบบสุ่มเป็น (1 | เอฟเฟกต์)
mguzmann

ดังนั้นนี่คือการจำลองการหลอมบนป่าสุ่มหรือไม่ econpapers.repec.org/article/bpjjqsprt/... researchgate.net/publication/...
EngrStudent - คืนสิทธิ์ให้กับโมนิกา

2
ฉันไม่แน่ใจเกี่ยวกับวิธีการสุ่มที่คุณกำลังดูที่อยู่ ป่าสุ่มเป็นการปรับปรุงที่ง่ายกว่าการห่อด้วยการตกแต่งต้นไม้ เหตุผลที่เรียกว่า 'สุ่ม' คือข้อเท็จจริงที่ว่าเมื่อใดก็ตามที่มีการพิจารณาการแยกในต้นไม้ผู้สมัครแบบแยกจะถูกเลือกจากชุดย่อย m ของตัวทำนาย p บอกว่า โดยปกติ m ~ sqrt (p) และทุกครั้งที่มีการแบ่งเกิดขึ้นจะมีการเลือกชุดย่อยของตัวทำนายแบบสุ่มดังนั้นฟอเรสต์แบบสุ่ม
psteelk

คำตอบ:


13

ไม่ได้ใช้ร่วมกันและควรใช้ความระมัดระวังก่อนที่จะรวมเข้าด้วยกัน

โดยทั่วไปจะใช้ฟอเรสต์แบบสุ่มเป็นตัวแยกประเภท เหตุผลที่คุณจะใช้ฟอเรสต์แบบสุ่มแทนวิธีอื่น (เช่นการจัดกลุ่ม K-mean) คือคุณอาจมีมิติข้อมูลจำนวนมากที่คุณต้องการจัดประเภท ปัญหาของการมีมิติข้อมูลขนาดใหญ่คือถ้าคุณต้องการทดสอบการรวมคำสั่งมิติทั้งหมดคุณจะมีตัวเลือกจำนวนมาก (มันจะเติบโตเร็วกว่าจำนวนมิติข้อมูล)

เอฟเฟกต์แบบสุ่มมักใช้ในการถดถอยด้วยการวัดซ้ำในสิ่งเดียวกัน พวกมันใช้กันอย่างแพร่หลายในแบบผสมเอฟเฟกต์ที่คำผสมหมายถึงเอฟเฟกต์ทั้งแบบคงที่และแบบสุ่ม ผลกระทบคงที่เป็นความคิดที่แสดงถึงพารามิเตอร์ที่คุณจะเห็นอีกครั้ง (เช่นยาหรืออายุของบุคคล) คิดว่าเอฟเฟกต์แบบสุ่มจะแสดงถึงอินสแตนซ์ของความแปรปรวนรอบพารามิเตอร์ที่คุณจะไม่เห็นอีกครั้ง (เช่นบุคคลที่ระบุ)

มีตัวอย่างที่ใช้ร่วมกันเมื่อมีข้อมูลคลัสเตอร์http://dx.doi.org/10.1080/00949655.2012.741599และhttp://www2.ims.nus.edus.co.th/Programs/014swclass/files/denis.pdf .

ฉันไม่ทราบแพ็คเกจ R ใด ๆ ที่สามารถทำการวิเคราะห์นี้ได้


2
นอกจากนี้ผู้เขียนงานนี้ยินดีที่จะแบ่งปันรหัส R ของการดำเนินงานกับคุณ เพียงส่งอีเมลถึงพวกเขา มันคือสิ่งที่ฉันทำ
Brash Equilibrium

ฉันติดต่อ Larocque ผู้ติดต่อฮัจแจมซึ่งส่งอีเมลฉันภายในสองสามวัน
Brash Equilibrium

2
คำเตือนที่เป็นธรรมแม้ว่ารหัส R ที่มีอยู่จะใช้ฟอเรสต์แบบสุ่มเท่านั้นสำหรับข้อมูลต่อเนื่อง คุณจะต้องขยายเพื่อจัดการกับข้อมูลที่เป็นหมวดหมู่
Brash Equilibrium

10

ใช่มันเป็นไปได้ คุณควรตรวจสอบ " RE-EM ต้นไม้: แนวทางการทำเหมืองข้อมูลสำหรับระยะยาวและข้อมูลคลัสเตอร์ " และแพคเกจที่เกี่ยวข้อง R REEMtree

ไม่นานมานี้ตั้งแต่ฉันดูกระดาษ ฉันจำได้ว่าผู้เขียนยังไม่ได้ลองสร้างตระการตาของต้นไม้เหล่านี้ แต่ก็ไม่มีอะไรแนะนำว่ามันจะไม่ทำงาน


1
REEMtree ไม่ใช่เอฟเฟกต์แบบสุ่มที่ใช้กับฟอเรสต์แบบสุ่ม มันใช้กับการแบ่งพาร์ติชันแบบเรียกซ้ำซึ่งเป็นเพียงส่วนหนึ่งของสิ่งที่จะเข้าสู่โมเดลฟอเรสต์แบบสุ่ม ดังนั้นฉันไม่คิดว่าคำตอบนี้ควรได้รับคะแนนที่สูงกว่าของ Bill Denney น่าเสียดายที่ upvote ของฉันถูกล็อค
Brash Equilibrium

1
มาเลยเมื่อคุณมีต้นไม้มันยากแค่ไหนในการสร้างป่า? และคุณยินดีต้อนรับ
Ben Ogorek

1
ทีนี้เมื่อเห็นว่าป่าสุ่มเพิ่มการสุ่มตัวอย่าง bootstrap อย่างไรปรับจำนวนฟีเจอร์ที่เลือกแบบสุ่มเพื่อลองรวมผลของต้นไม้เป็นต้นและเราต้องการผลแบบสุ่มในการทำนายป่าแบบสุ่มไม่ใช่การทำนายของต้นไม้แต่ละต้นในนั้น Forest, augmenting REEMtree ไม่ได้เป็นทางออกที่ดีเช่นเดียวกับการอ่านบทความที่ Bill อ้างและขอรหัส R จากผู้เขียน
Brash Equilibrium

8

ฟอเรสต์ผสมสุ่มป่า (MERFs) เป็นสิ่งที่ ในฐานะที่เป็นคำตอบข้างต้นรัฐมีการวิจัยที่ดีเกี่ยวกับพวกเขาโดยกลุ่มของดร. Larocque ที่ HEC Montreal กระดาษอยู่ที่นี่: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599

โดยพื้นฐานแล้วมันเป็นวิธีที่ดีในทางทฤษฎีในการรวมการสร้างแบบจำลองที่ไม่ใช่เชิงเส้นของป่าสุ่มกับเอฟเฟกต์แบบสุ่มเชิงเส้น

เราเพิ่งเปิดตัวแพ็คเกจโอเพ่นซอร์สใน Python ที่ใช้ MERF โดยใช้อัลกอริทึมด้านบนในบทความ

เราเขียนโพสต์บล็อกโดยละเอียดเกี่ยวกับแพคเกจและวิธีใช้สำหรับชุดข้อมูลแบบกลุ่ม


1
ความคิดใด ๆ ในการใช้สิ่งนี้ใน R หรือเพิ่มฟังก์ชั่นการพล็อตพึ่งพาบางส่วน
OliverFishCode
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.