ฉันเจอคำศัพท์ใกล้เคียงในป่าสุ่ม แต่ฉันไม่เข้าใจว่ามันทำอะไรในป่าสุ่ม มันช่วยในการจำแนกประเภทได้อย่างไร?
ฉันเจอคำศัพท์ใกล้เคียงในป่าสุ่ม แต่ฉันไม่เข้าใจว่ามันทำอะไรในป่าสุ่ม มันช่วยในการจำแนกประเภทได้อย่างไร?
คำตอบ:
คำว่า "ความใกล้ชิด" หมายถึง "ความใกล้ชิด" หรือ "ความใกล้ชิด" ระหว่างคู่คดี
ความใกล้เคียงถูกคำนวณสำหรับแต่ละคู่ของกรณี / การสังเกต / จุดตัวอย่าง หากสองกรณีใช้โหนดเทอร์มินัลเดียวกันผ่านหนึ่งทรีความใกล้ชิดจะเพิ่มขึ้นหนึ่งต้น ในตอนท้ายของการวิ่งของต้นไม้ทั้งหมดความใกล้ชิดเป็นปกติโดยการหารด้วยจำนวนของต้นไม้ ความแปรปรวนถูกนำมาใช้ในการแทนที่ข้อมูลที่หายไปการหาค่าผิดปกติและการสร้างมุมมองของข้อมูลในระดับต่ำ
proximities
พร็อกซิมิตี้ที่เกิดขึ้นเป็นเมทริกซ์ NxN หลังจากปลูกต้นไม้แล้วให้ใส่ข้อมูลทั้งหมดทั้งการฝึกอบรมและการอบลงต้นไม้ หากกรณี k และ n อยู่ในโหนดเทอร์มินัลเดียวกันจะเพิ่มความใกล้ชิดขึ้นทีละหนึ่ง ในตอนท้ายให้ปรับความใกล้เคียงเป็นปกติด้วยการหารด้วยจำนวนต้นไม้
ผู้ใช้ตั้งข้อสังเกตว่าด้วยชุดข้อมูลขนาดใหญ่พวกเขาไม่สามารถใส่เมทริกซ์ NxN ในหน่วยความจำที่รวดเร็ว การปรับเปลี่ยนลดขนาดหน่วยความจำที่ต้องการเป็น NxT โดยที่ T คือจำนวนต้นไม้ในฟอเรสต์ เพื่อเพิ่มความเร็วในการเร่งการคำนวณและการเปลี่ยนค่าที่ขาดหายไปซ้ำ ๆ ผู้ใช้จะได้รับตัวเลือกในการรักษาเฉพาะ proximities ที่ใหญ่ที่สุดของ nrnn ในแต่ละกรณี
เมื่อมีชุดการทดสอบความใกล้เคียงของแต่ละกรณีในชุดทดสอบที่มีแต่ละกรณีในชุดการฝึกอบรมสามารถคำนวณได้ จำนวนของการคำนวณเพิ่มเติมอยู่ในระดับปานกลาง
อ้างถึง: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
โปรดทราบว่าผู้เขียนองค์ประกอบของการเรียนรู้ทางสถิติกล่าวว่า "พล็อตความใกล้เคียงสำหรับป่าสุ่มมักจะมีลักษณะคล้ายกันมากโดยไม่คำนึงถึงข้อมูลซึ่งทำให้เกิดข้อสงสัยในยูทิลิตี้ของพวกเขาพวกเขามักจะมีรูปร่างเป็นดาว เด่นชัดประสิทธิภาพการจำแนกที่ดีขึ้น " (p 595)
อย่างไรก็ตามฉันคิดว่าผู้เขียนเหล่านี้ไม่ได้พูดถึงวิธีที่ป่าสุ่มจัดการกับข้อมูลที่ขาดหายไปมาก (แม้ว่าพวกเขาจะพูดถึงข้อมูลที่หายไปกับต้นไม้ก่อนหน้านี้ในหนังสือ); บางทีอาจจะเป็นผู้เขียนก็ไม่ได้เน้นด้านนี้ของ RFs เท่าซึ่งทำให้รู้สึกพิจารณาหนังสือเล่มนี้เป็นอย่างมากและมีจำนวนมากของข้อมูลเกี่ยวกับจำนวนมากของเครื่องการเรียนรู้หัวข้อ / เทคนิค อย่างไรก็ตามฉันไม่คิดว่าการมีแปลงให้รูปร่างที่คล้ายกันสำหรับ RF และชุดข้อมูลใด ๆ หมายความว่าอะไรที่เป็นลบเกี่ยวกับ RFs โดยทั่วไป ตัวอย่างเช่นการถดถอยเชิงเส้นโดยทั่วไปมักจะมีลักษณะเหมือนกัน แต่ก็คุ้มค่าที่จะรู้ว่าจุดใดที่อยู่ใกล้กับเส้นและดูเหมือนว่าจะผิดไปจากมุมมองของการถดถอยเชิงเส้น ดังนั้น ... ความคิดเห็นของพวกเขาเกี่ยวกับการใช้ประโยชน์ของพล็อตเรื่องใกล้เคียงไม่สมเหตุสมผลสำหรับฉัน