การแปลงเมทริกซ์ความคล้ายคลึงกันเป็นเมทริกซ์ระยะทาง (ยูคลิด)


27

ในอัลกอริธึม Random Forest, Breiman (ผู้เขียน) สร้างเมทริกซ์ความเหมือนกันดังนี้

  1. ส่งตัวอย่างการเรียนรู้ทั้งหมดลงต้นไม้ในป่า

  2. ถ้าสองตัวอย่างลงดินในองค์ประกอบที่สอดคล้องกันของการเพิ่มขึ้นของใบไม้เดียวกันในเมทริกซ์ความเหมือนกันทีละ 1

  3. ทำให้เมทริกซ์เป็นปกติด้วยจำนวนต้นไม้

เขาพูดว่า:

ความผิดปกติระหว่างเคส n และ k ก่อให้เกิดเมทริกซ์ {prox (n, k)} จากคำจำกัดความมันง่ายที่จะแสดงว่าเมทริกซ์นี้เป็นสมมาตรบวกแน่นอนและล้อมรอบด้วย 1 โดยมีองค์ประกอบเส้นทแยงมุมเท่ากับ 1 มันตามมาว่าค่า 1-prox (n, k) เป็นระยะกำลังสองในยูคลิด พื้นที่ของมิติไม่เกินจำนวนกรณี แหล่ง

ในการดำเนินการของเขาเขาใช้sqrt (1-prox)โดยที่proxเป็นเมทริกซ์ความคล้ายคลึงกันเพื่อแปลงเป็นเมทริกซ์ระยะทาง ฉันเดาว่ามันมีบางอย่างเกี่ยวกับ "ระยะทางตอร์เรสในอวกาศยูคลิด" - ยกมาจากข้างบน

ใครบางคนสามารถส่องแสงเล็ก ๆ น้อย ๆ ว่าทำไมมันตามมาว่า 1-prox เป็นระยะทางกำลังสองในอวกาศยูคลิดและทำไมเขาใช้รากกำลังสองเพื่อรับเมทริกซ์ระยะทาง

คำตอบ:


30

ป้อนคำอธิบายรูปภาพที่นี่

ตามทฤษฎีบทโคไซน์ในพื้นที่ยุคลิด (euclidean) ระยะทางสแควร์ระหว่างจุดสองจุด (เวกเตอร์) ที่ 1 และ 2 เป็นh_1 ความยาวกำลังสองและคือผลบวกของพิกัดกำลังสองของจุดที่ 1 และ 2 ตามลำดับ (ซึ่งเป็นด้านตรงข้ามมุมฉากของพีทาโกรัส) ปริมาณเรียกว่าผลิตภัณฑ์สเกลาร์ (= ผลิตภัณฑ์ดอท, = ผลิตภัณฑ์ภายใน) ของเวกเตอร์ 1 และ 2d122=ชั่วโมง12+ชั่วโมง22-2ชั่วโมง1ชั่วโมง2cosφชั่วโมง12ชั่วโมง22ชั่วโมง1ชั่วโมง2cosφ

ผลิตภัณฑ์สเกลาร์เรียกอีกอย่างว่ามุมคล้ายชนิดมุมระหว่าง 1 และ 2 และในปริภูมิแบบยุคลิดมันเป็นมาตรวัดความคล้ายคลึงที่ถูกต้องทางเรขาคณิตมากที่สุดเพราะมันถูกแปลงเป็นระยะทางแบบยุคลิดและง่าย (ดูที่นี่ด้วย )

สัมประสิทธิ์ความแปรปรวนร่วมและสหสัมพันธ์แบบเพียร์สันเป็นผลิตภัณฑ์สเกลาร์ หากคุณจัดกึ่งกลางข้อมูลหลายตัวแปรของคุณ (เพื่อให้จุดกำเนิดอยู่กึ่งกลางคลาวด์ของคะแนน) ดังนั้นค่าปกติของคือความแปรปรวนของเวกเตอร์ (ไม่ใช่ตัวแปร X และ Y ในรูปด้านบน) ในขณะที่สำหรับข้อมูลกึ่งกลางคือ Pearson ; ดังนั้นผลิตภัณฑ์เซนต์ตส์และเนวิสคือความแปรปรวนร่วม [โน้ตด้านข้าง หากคุณกำลังคิดว่าแปรปรวน / สหสัมพันธ์ระหว่างตัวแปรไม่ใช่จุดข้อมูลคุณอาจถามว่าเป็นไปได้หรือไม่ที่จะดึงตัวแปรให้เป็นเวกเตอร์เช่นเดียวกับรูปด้านบน ใช่เป็นไปได้เรียกว่า " หัวเรื่อง "ชั่วโมง2cosφRσ1σ2R12"วิธีการเป็นตัวแทนทฤษฎีโคไซน์ยังคงเป็นจริงโดยไม่คำนึงถึงสิ่งที่เป็น" เวกเตอร์ "ในกรณีนี้ - จุดข้อมูลหรือคุณลักษณะของข้อมูล]

ชั่วโมงsd2=2(1-s)d2d2=1-sRR

ssชั่วโมงd

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.