ระยะทางระหว่างตัวแปรที่ทำเมทริกซ์ความแปรปรวนร่วมคืออะไร


11

ฉันมีเมทริกซ์ความแปรปรวนร่วมและต้องการแบ่งพาร์ติชันตัวแปรเป็นกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น (ตัวอย่างเช่นเพื่อเรียงลำดับเมทริกซ์ความแปรปรวนร่วม)n×nk

มีฟังก์ชั่นระยะทางทั่วไประหว่างตัวแปร (เช่นระหว่างคอลัมน์ / แถวของเมทริกซ์ความแปรปรวนร่วมสี่เหลี่ยม) หรือไม่

หรือถ้ามีมากขึ้นมีการอ้างอิงที่ดีในหัวข้อ?


ทำไมคุณต้องการใช้การจัดกลุ่มแบบลำดับชั้นกับตัวแปร โดยทั่วไปเราคิดถึง data matrix , w / ตัวแปรในคอลัมน์ & การสังเกตในแถว หากคุณต้องการค้นหาการจัดกลุ่มแบบแฝงคุณสามารถลองเช่นการจัดกลุ่มแบบลำดับชั้นในแถว / การสังเกตหรือการวิเคราะห์ปัจจัยในคอลัมน์ / ตัวแปร X
gung - Reinstate Monica

@ Piotr, ใช่, ความแปรปรวนร่วม (หรือความสัมพันธ์หรือโคไซน์) สามารถแปลงได้อย่างง่ายดายและเป็นธรรมชาติเป็นระยะทางแบบยุคลิดเพราะมันเป็นผลิตภัณฑ์สเกลาร์ (= ความคล้ายคลึงกันเชิงมุมชนิด) รู้แปรปรวนร่วมระหว่างสองตัวแปรเช่นเดียวกับความแปรปรวนของพวกเขาหมายถึงโดยอัตโนมัติรู้dระหว่างตัวแปร:\ d2=σ12+σ222cov
ttnphns

หมายเหตุสูตรนี้หมายถึงความแปรปรวนเชิงลบคือระยะห่างที่มากกว่าความแปรปรวนเชิงบวก (และนี่คือกรณีจากมุมมองเชิงเรขาคณิต) หากคุณไม่ต้องการให้สัญลักษณ์ของความแปรปรวนร่วมมีบทบาทให้ยกเลิกเครื่องหมายลบ
ttnphns

@gung มันเป็นเมทริกซ์สมมาตรดังนั้นแถว ~ คอลัมน์ สำหรับฉันมันเป็นสิ่งสำคัญที่จะแบ่งมันออกเป็นชุดของตัวแปรไม่ใช่ 'หมุน' พวกเขาด้วยการวิเคราะห์ปัจจัย (ที่จริงแล้วฉันไม่ได้ทำงานกับ cov. matrix มาตรฐาน แต่เป็นเมทริกซ์ที่ซับซ้อน (เมทริกซ์ความหนาแน่นในกลศาสตร์ควอนตัม)
Piotr Migdal

@ttnphns ขอบคุณ สิ่งที่รบกวนจิตใจฉันคือฉันต้องการแยกตัวแปรที่ไม่เกี่ยวข้อง - ความสัมพันธ์เชิงลบสำหรับฉัน (เกือบ) และดี
Piotr Migdal

คำตอบ:


13

ความแปรปรวนร่วม (หรือสหพันธ์หรือโคไซน์) สามารถแปลงได้ง่ายและตามธรรมชาติเป็นระยะทางแบบยุคลิดโดยใช้กฎของโคไซน์เพราะมันเป็นผลิตภัณฑ์สเกลาร์ (= ความคล้ายคลึงกันเชิงมุมฐาน) ในอวกาศยูคลิด รู้แปรปรวนร่วมระหว่างสองตัวแปรฉันและเจเช่นเดียวกับความแปรปรวนของพวกเขาโดยอัตโนมัติหมายถึงการรู้dระหว่างตัวแปร: เจ (นั่น2 d ฉันjdij2=σi2+σj22covijdij2เป็นสัดส่วนโดยตรงกับระยะทางแบบยุคลิดแบบสแควร์ปกติ: คุณได้รับหลังถ้าคุณใช้ผลบวกของกำลังสองและผลรวมของการข้ามจุดแทนความแปรปรวนและความแปรปรวนร่วม ตัวแปรทั้งสองควรเป็นศูนย์กลางในขั้นต้น: การพูดถึง "ความแปรปรวนร่วม" คือนามแฝงของการคิดเกี่ยวกับข้อมูลที่มีวิธีการลบออก)

หมายเหตุสูตรนี้หมายความว่าความแปรปรวนเชิงลบเป็นระยะทางมากกว่าความแปรปรวนเชิงบวก (และนี่คือกรณีจากมุมมองทางเรขาคณิตเช่นเมื่อตัวแปรถูกมองว่าเป็นเวกเตอร์ในพื้นที่วัตถุ ) หากคุณไม่ต้องการให้สัญลักษณ์ของความแปรปรวนร่วมมีบทบาทให้ยกเลิกเครื่องหมายลบ การเพิกเฉยเครื่องหมายลบไม่ได้เป็นการดำเนินการ "patching ด้วยมือ" และรับประกันเมื่อจำเป็น: ถ้าเมทริกซ์covเป็นบวกแน่นอน, abs (cov)เมทริกซ์จะเป็นบวกแน่นอนเช่นกัน และด้วยเหตุนี้ระยะทางที่ได้จากสูตรข้างต้นจะเป็นระยะทางแบบยุคลิดจริง(ระยะทางแบบยุคลิดเป็นระยะทางแบบเมตริกที่เฉพาะเจาะจง)

ระยะทางแบบยุคลิดเป็นสากลในส่วนที่เกี่ยวกับการจัดกลุ่มตามลำดับชั้น : วิธีการจัดกลุ่มดังกล่าวมีผลบังคับใช้กับทั้ง euclidean หรือ Squared euclidean d แต่วิธีการบางอย่างเช่นการเชื่อมโยงโดยเฉลี่ยหรือการเชื่อมโยงที่สมบูรณ์สามารถใช้กับความแตกต่างหรือความคล้ายคลึงกันใด ๆ (ไม่ใช่แค่ระยะทางเมตริก) ดังนั้นคุณสามารถใช้วิธีดังกล่าวโดยตรงกับเมทริกซ์โคovหรือabs (โคov)หรือ - ตัวอย่างเช่น - กับแม็กซ์ (abs (โคฟ)) -เมทริกซ์ระยะทางabs (โคว) แน่นอนว่าผลการจัดกลุ่มอาจขึ้นอยู่กับลักษณะที่แน่นอนของความคล้ายคลึงกันที่ใช้ (dis)


dij2dij2

@HelloGoodbye ใช่ฉันหมายถึงสองตัวแปร (เวกเตอร์) ด้วยวิธีการที่เท่าเทียมกัน - จริงด้วยวิธีการลบออกในครั้งแรก
ttnphns

3

ทำไมไม่ใช้เมทริกซ์สหสัมพันธ์เพื่อทำการจัดกลุ่ม? สมมติว่าตัวแปรสุ่มของคุณอยู่กึ่งกลางโดยการคำนวณความสัมพันธ์ระหว่างตัวแปรที่คุณกำลังคำนวณระยะห่างความคล้ายคลึงโคไซน์ ระยะนี้ยังกล่าวถึงในลิงค์ของคุณ ระยะนี้สามารถใช้สำหรับการทำคลัสเตอร์แบบลำดับชั้น 1 - | ความคล้ายคลึงโคไซน์ที่เล็กกว่ายิ่งตัวแปรของคุณคล้ายกันมากเท่าใด


d(i,j)=1Aij2/(AiiAjj)

3
อาขอโทษสำหรับความเข้าใจผิด แหล่งที่ดีที่สุดที่ฉันรู้คือนี้ พวกเขาศึกษาคุณภาพของตัวชี้วัดหลายตัว (ที่ใช้ความสัมพันธ์) กับการจัดกลุ่มแบบลำดับชั้น สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะลองใช้ตัวชี้วัดจำนวนมากและดูว่าวิธีใดที่ทำงานได้ดีที่สุดสำหรับเป้าหมายและข้อมูลเฉพาะของฉัน
Jorge Banuelos

ลิงค์ดูเหมือนจะไม่ทำงานอีกต่อไป?
Matifou
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.