ความใกล้ชิดในป่าสุ่มมีความหมายอย่างไร

13

ฉันเจอคำศัพท์ใกล้เคียงในป่าสุ่ม แต่ฉันไม่เข้าใจว่ามันทำอะไรในป่าสุ่ม มันช่วยในการจำแนกประเภทได้อย่างไร?

machine-learning random-forest

13

คำว่า "ความใกล้ชิด" หมายถึง "ความใกล้ชิด" หรือ "ความใกล้ชิด" ระหว่างคู่คดี

ความใกล้เคียงถูกคำนวณสำหรับแต่ละคู่ของกรณี / การสังเกต / จุดตัวอย่าง หากสองกรณีใช้โหนดเทอร์มินัลเดียวกันผ่านหนึ่งทรีความใกล้ชิดจะเพิ่มขึ้นหนึ่งต้น ในตอนท้ายของการวิ่งของต้นไม้ทั้งหมดความใกล้ชิดเป็นปกติโดยการหารด้วยจำนวนของต้นไม้ ความแปรปรวนถูกนำมาใช้ในการแทนที่ข้อมูลที่หายไปการหาค่าผิดปกติและการสร้างมุมมองของข้อมูลในระดับต่ำ

proximities

พร็อกซิมิตี้ที่เกิดขึ้นเป็นเมทริกซ์ NxN หลังจากปลูกต้นไม้แล้วให้ใส่ข้อมูลทั้งหมดทั้งการฝึกอบรมและการอบลงต้นไม้ หากกรณี k และ n อยู่ในโหนดเทอร์มินัลเดียวกันจะเพิ่มความใกล้ชิดขึ้นทีละหนึ่ง ในตอนท้ายให้ปรับความใกล้เคียงเป็นปกติด้วยการหารด้วยจำนวนต้นไม้

ผู้ใช้ตั้งข้อสังเกตว่าด้วยชุดข้อมูลขนาดใหญ่พวกเขาไม่สามารถใส่เมทริกซ์ NxN ในหน่วยความจำที่รวดเร็ว การปรับเปลี่ยนลดขนาดหน่วยความจำที่ต้องการเป็น NxT โดยที่ T คือจำนวนต้นไม้ในฟอเรสต์ เพื่อเพิ่มความเร็วในการเร่งการคำนวณและการเปลี่ยนค่าที่ขาดหายไปซ้ำ ๆ ผู้ใช้จะได้รับตัวเลือกในการรักษาเฉพาะ proximities ที่ใหญ่ที่สุดของ nrnn ในแต่ละกรณี

เมื่อมีชุดการทดสอบความใกล้เคียงของแต่ละกรณีในชุดทดสอบที่มีแต่ละกรณีในชุดการฝึกอบรมสามารถคำนวณได้ จำนวนของการคำนวณเพิ่มเติมอยู่ในระดับปานกลาง

อ้างถึง: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

— sinalpha
แหล่งที่มา

"nrnn" หมายถึงอะไร ฉันกำลังอ่านหน้า Adele Cutler (หรืออาจเป็น Breiman ในขณะที่ฉันไม่สามารถบอกได้ว่าใครเป็นผู้เขียนสิ่งที่นี่) หน้า RFs และฉันไม่สามารถหาที่พวกเขากำหนด nrnn (อาจเป็นคำพีชคณิตเชิงเส้นที่ฉันไม่คุ้นเคยเป็นอย่างมาก

— Tanner Strunk

nrnn = จำนวนเพื่อนบ้านที่ใกล้ที่สุดที่จะคำนวณความใกล้เคียง ที่มา: math.usu.edu/adele/RandomForests/ENAR.pdfหน้า 161

— klumbard

0

โปรดทราบว่าผู้เขียนองค์ประกอบของการเรียนรู้ทางสถิติกล่าวว่า "พล็อตความใกล้เคียงสำหรับป่าสุ่มมักจะมีลักษณะคล้ายกันมากโดยไม่คำนึงถึงข้อมูลซึ่งทำให้เกิดข้อสงสัยในยูทิลิตี้ของพวกเขาพวกเขามักจะมีรูปร่างเป็นดาว เด่นชัดประสิทธิภาพการจำแนกที่ดีขึ้น " (p 595)

อย่างไรก็ตามฉันคิดว่าผู้เขียนเหล่านี้ไม่ได้พูดถึงวิธีที่ป่าสุ่มจัดการกับข้อมูลที่ขาดหายไปมาก (แม้ว่าพวกเขาจะพูดถึงข้อมูลที่หายไปกับต้นไม้ก่อนหน้านี้ในหนังสือ); บางทีอาจจะเป็นผู้เขียนก็ไม่ได้เน้นด้านนี้ของ RFs เท่าซึ่งทำให้รู้สึกพิจารณาหนังสือเล่มนี้เป็นอย่างมากและมีจำนวนมากของข้อมูลเกี่ยวกับจำนวนมากของเครื่องการเรียนรู้หัวข้อ / เทคนิค อย่างไรก็ตามฉันไม่คิดว่าการมีแปลงให้รูปร่างที่คล้ายกันสำหรับ RF และชุดข้อมูลใด ๆ หมายความว่าอะไรที่เป็นลบเกี่ยวกับ RFs โดยทั่วไป ตัวอย่างเช่นการถดถอยเชิงเส้นโดยทั่วไปมักจะมีลักษณะเหมือนกัน แต่ก็คุ้มค่าที่จะรู้ว่าจุดใดที่อยู่ใกล้กับเส้นและดูเหมือนว่าจะผิดไปจากมุมมองของการถดถอยเชิงเส้น ดังนั้น ... ความคิดเห็นของพวกเขาเกี่ยวกับการใช้ประโยชน์ของพล็อตเรื่องใกล้เคียงไม่สมเหตุสมผลสำหรับฉัน

— Tanner Strunk
แหล่งที่มา