PCA และ MDS แบบคลาสสิคแตกต่างกันอย่างไร วิธีการเกี่ยวกับ MDS เมื่อเทียบกับที่ไม่ใช่ MDS? มีเวลาที่คุณจะชอบอีกอันไหม? การตีความต่างกันอย่างไร
PCA และ MDS แบบคลาสสิคแตกต่างกันอย่างไร วิธีการเกี่ยวกับ MDS เมื่อเทียบกับที่ไม่ใช่ MDS? มีเวลาที่คุณจะชอบอีกอันไหม? การตีความต่างกันอย่างไร
คำตอบ:
การวัด MDS แบบคลาสสิคของTorgersonนั้นกระทำโดยการเปลี่ยนระยะทางเป็นความคล้ายคลึงและทำการ PCA (eigen-decomposition หรือเอกพจน์ - ค่า - การสลายตัว) บนเหล่านั้น [ชื่ออื่นของขั้นตอนนี้ ( distances between objects -> similarities between them -> PCA
โดยที่การโหลดเป็นพิกัดที่ต้องการ) คือการวิเคราะห์พิกัดหลักหรือPCoA ] ดังนั้น PCA อาจถูกเรียกว่าอัลกอริธึมของ MDS ที่ง่ายที่สุด
Non-metric MDS ขึ้นอยู่กับขั้นตอนวิธี ALSCAL หรือ PROXSCAL แบบวนซ้ำ (หรืออัลกอริทึมที่คล้ายกัน) ซึ่งเป็นเทคนิคการทำแผนที่ที่หลากหลายกว่า PCA และสามารถนำไปใช้กับ MDS ของเมตริกได้เช่นกัน ในขณะที่ PCA ยังคง เมตรมิติที่สำคัญสำหรับคุณ ALSCAL / PROXSCAL เหมาะกับการกำหนดค่าเมตรขนาด (คุณก่อนกำหนดเมตร ) และผลิตซ้ำความแตกต่างบนแผนที่ขึ้นโดยตรงและถูกต้องกว่า PCA มักจะสามารถ (ดูส่วนภาพประกอบด้านล่าง)
ดังนั้น MDS และ PCA อาจไม่อยู่ในระดับเดียวกันที่จะเข้าแถวหรือตรงกันข้ามกัน PCA เป็นเพียงวิธีการในขณะที่ MDS เป็นระดับของการวิเคราะห์ ขณะทำแผนที่ PCA เป็นกรณีเฉพาะของ MDS ในอีกทางหนึ่ง PCA เป็นกรณีเฉพาะของการวิเคราะห์ปัจจัยซึ่งเป็นการลดข้อมูลเป็นมากกว่าการทำแผนที่ในขณะที่ MDS เป็นเพียงการทำแผนที่
สำหรับคำถามของคุณเกี่ยวกับตัวชี้วัด MDS เทียบกับตัวชี้วัดที่ไม่ใช่ตัวชี้วัดมีความคิดเห็นเพียงเล็กน้อยเพราะคำตอบนั้นตรงไปตรงมา ถ้าฉันเชื่อว่าความแตกต่างของอินพุตของฉันนั้นใกล้เคียงกับระยะทางแบบยุคลิดที่การแปลงเชิงเส้นจะเพียงพอต่อการแมปพวกมันในพื้นที่มิติ m ฉันจะชอบ MDS ตัวชี้วัด หากฉันไม่เชื่อการแปลงแบบโมโนโทนิกก็จำเป็นต้องใช้ MDS ที่ไม่ใช่ตัวชี้วัด
หมายเหตุเกี่ยวกับคำศัพท์สำหรับผู้อ่าน ภาคเรียนคลาสสิก (al) MDS (CMDS) สามารถมีความหมายที่แตกต่างกันสองแบบในวรรณกรรมอันกว้างขวางบน MDS ดังนั้นจึงเป็นสิ่งที่คลุมเครือและควรหลีกเลี่ยง คำจำกัดความหนึ่งคือ CMDS เป็นคำพ้องความหมายของ MDS ของ Torgerson อีกคำจำกัดความคือ CMDS คือ MDS ใด ๆ (โดยอัลกอริธึมใด ๆ การวิเคราะห์เมทริกหรืออเมทริก) ด้วยอินพุตเมทริกซ์เดียว (สำหรับแบบจำลองที่มีอยู่วิเคราะห์เมทริกซ์จำนวนมากในคราวเดียว - โมเดล "INDSCAL" และโมเดลจำลอง
ภาพประกอบคำตอบ cloud of points (ellipse) บางจุดถูกแมปบน mds-map แบบหนึ่งมิติ จุดคู่นั้นจะแสดงเป็นจุดสีแดง
MDS ที่ใช้ PCA (Torgerson's หรือ PCoA) ไม่ตรง มันช่วยลดระยะห่างกำลังสองระหว่างวัตถุในอวกาศดั้งเดิมและรูปภาพของพวกมันบนแผนที่ นี่ไม่ใช่งาน MDS ของแท้ มันสำเร็จเป็น MDS เพียงเท่าที่แกนหลักจูเนียร์ทิ้งจะอ่อนแอ หากอธิบายความแปรปรวนได้มากกว่าในอดีตสามารถสะท้อนระยะทางคู่ในคลาวด์อย่างมีนัยสำคัญโดยเฉพาะอย่างยิ่งสำหรับจุดที่อยู่ห่างกันไปตามวงรี ซ้ำ MDS จะชนะเสมอและโดยเฉพาะอย่างยิ่งเมื่อต้องการแผนที่ในมิติต่ำมาก การทำซ้ำ MDS จะประสบความสำเร็จมากขึ้นเมื่อรูปวงรีเมฆบาง แต่จะเติม mds-task ให้ดีกว่า PCoA โดยคุณสมบัติของเมทริกซ์การคูณสองครั้ง (อธิบายไว้ที่นี่P 2 ‖ D o ‖ 2 2 - ‖ D m ‖ 2 2) ปรากฏว่า PCoA ย่อขนาดเล็กสุดซึ่งแตกต่างจากการย่อเล็กสุดใด ๆ ข้างต้น
อีกครั้ง PCA แสดงคะแนนของคลาวด์ในพื้นที่ย่อยประหยัดทั้งองค์กรที่ได้เปรียบมากที่สุด มันไม่ได้โครงการระยะทางจากจำนวนสถานที่ญาติของจุดบนสเปซประหยัดมากที่สุดในที่เคารพเป็นซ้ำ MDS ไม่ได้ อย่างไรก็ตามในอดีต PCoA / PCA ถือเป็นวิธีการหนึ่งในการวัด MDS
เอ่อ ... ค่อนข้างแตกต่าง ใน PCA คุณจะได้รับข้อมูลต่อเนื่องหลายตัวแปร (เวกเตอร์หลายตัวแปรสำหรับแต่ละเรื่อง) และคุณพยายามคิดว่าคุณไม่ต้องการมิติหลายมิติในการทำให้เป็นแนวคิด ใน (ตัวชี้วัด) MDS คุณจะได้รับเมทริกซ์ของระยะทางระหว่างวัตถุและคุณพยายามที่จะหาตำแหน่งของวัตถุเหล่านี้ในอวกาศ (และคุณต้องการพื้นที่ 1D, 2D, 3D และอื่น ๆ ) ใน MDS ที่ไม่ใช่ตัวชี้วัดคุณรู้เพียงว่าวัตถุ 1 และ 2 นั้นอยู่ไกลกว่าวัตถุ 2 และ 3 ดังนั้นคุณจึงลองหาจำนวนนั้นเพื่อหามิติและตำแหน่ง
ด้วยจินตนาการที่เด่นชัดคุณสามารถพูดได้ว่าเป้าหมายทั่วไปของ PCA และ MDS คือการมองเห็นวัตถุในแบบ 2D หรือ 3D แต่เนื่องจากอินพุตแตกต่างกันวิธีการเหล่านี้จะไม่ถูกกล่าวถึงแม้จะเกี่ยวข้องกันในตำราเรียนหลายตัวแปรก็ตาม ฉันเดาว่าคุณสามารถแปลงข้อมูลที่ใช้งานได้สำหรับ PCA เป็นข้อมูลที่ใช้งานได้สำหรับ MDS (เช่นโดยการคำนวณระยะทาง Mahalanobis ระหว่างวัตถุโดยใช้เมทริกซ์ความแปรปรวนร่วมตัวอย่าง) แต่นั่นจะทำให้สูญเสียข้อมูลทันที: MDS ถูกกำหนดขึ้นเท่านั้น ไปยังตำแหน่งและการหมุนและสองหลังสามารถทำได้อย่างไม่เป็นทางการมากขึ้นด้วย PCA
ถ้าฉันจะแสดงผลลัพธ์ของ MDS ที่ไม่ใช่เมตริกอย่างคร่าวๆและต้องการให้พวกเขารู้คร่าวๆว่ามันทำอะไรโดยไม่ต้องลงรายละเอียดฉันสามารถพูดได้ว่า:
ด้วยมาตรการของความคล้ายคลึงกันหรือความแตกต่างที่เรามีเราพยายามทำแผนที่วัตถุ / วัตถุของเราในลักษณะที่ 'เมือง' ที่พวกเขาประกอบขึ้นมีระยะทางระหว่างพวกเขาที่ใกล้เคียงกับความคล้ายคลึงกันมากที่สุดเท่าที่เราจะทำได้ แต่เราสามารถแมปพวกมันได้อย่างสมบูรณ์ในพื้นที่มิติดังนั้นฉันจึงแสดงสองมิติข้อมูลมากที่สุดที่นี่ - เหมือนอย่างที่คุณจะทำใน PCA ถ้าคุณแสดงภาพที่มีองค์ประกอบหลักสองตัว
งานการวัดมาตราส่วนหลายมิติ (MDS) สามารถสรุปได้ดังนี้: ให้เมทริกซ์ ของระยะทางระหว่างคู่ระหว่างคะแนนหาจุดต่ำ - มิติฝังจุดข้อมูลในเช่นนั้น ยูคลิดระยะทางระหว่างพวกเขาประมาณระยะทางที่กำหนด:D n R k ‖ xฉัน - xเจ ‖ ≈ D ฉันเจ
ถ้า "เข้าใจ" ที่นี่เป็นที่เข้าใจกันโดยทั่วไปในความผิดพลาดของการสร้างใหม่นั่นคือถ้าเป้าหมายคือการลดฟังก์ชั่นต้นทุนที่เรียกว่า "ความเครียด":จากนั้นโซลูชันจะไม่เทียบเท่ากับ PCA โซลูชันไม่ได้รับจากสูตรปิดใด ๆ และต้องคำนวณโดยอัลกอริทึมการทำซ้ำโดยเฉพาะ
"Classical MDS" หรือที่รู้จักในชื่อ "Torgerson MDS" แทนที่ฟังก์ชันต้นทุนนี้โดยที่เกี่ยวข้องแต่ไม่เทียบเท่าหนึ่งเรียกว่า "สายพันธุ์":ซึ่งพยายามลดข้อผิดพลาดในการสร้างใหม่ของผลิตภัณฑ์สเกลาร์กึ่งกลางแทนระยะทาง ปรากฎว่าสามารถคำนวณได้จาก (ถ้าเป็นระยะทางแบบยุคลิด) และการลดข้อผิดพลาดในการสร้างใหม่นั้นเป็นสิ่งที่ PCA ทำดังที่แสดงไว้ในส่วนถัดไปK C D D Kค
ปล่อยให้ข้อมูลถูกรวบรวมในเมทริกซ์ของขนาดด้วยการสังเกตในแถวและคุณสมบัติในคอลัมน์ ให้เป็นเมทริกซ์กึ่งกลางที่มีค่าลบคอลัมน์ n × k X c
จากนั้น PCA จะทำการแยกย่อยค่าโดยมีคอลัมน์เป็นส่วนประกอบหลัก วิธีทั่วไปในการรับพวกมันคือ eigendecomposition ของเมทริกซ์ความแปรปรวนร่วมแต่วิธีที่เป็นไปได้อีกอย่างหนึ่งคือทำการ eigendecomposition ของ แกรมเมทริกซ์ : องค์ประกอบหลักคือสแควร์รูท ของค่าลักษณะเฉพาะ
มันง่ายที่จะเห็นว่าโดยที่คือเมทริกซ์ของคน จากนี้เราจะได้รับที่เป็นเมทริกซ์แกรมของข้อมูลที่ไม่ได้ใส่ไว้ สิ่งนี้มีประโยชน์: ถ้าเรามีเมทริกซ์ Gram ของข้อมูลที่ไม่ได้ใส่เข้าไปเราสามารถจัดให้อยู่ตรงกลางได้โดยไม่ต้องกลับไปที่เอง การดำเนินการนี้บางครั้งเรียกว่า
ทีนี้ลองพิจารณา matrixของระยะทางแบบยุคลิดคู่กับ. เมทริกซ์นี้สามารถแปลงเป็นเพื่อใช้ PCA ได้หรือไม่? ปรากฎว่าคำตอบคือใช่
อันที่จริงตามกฎของโคไซน์เราเห็นว่า Soแตกต่างจากโดยค่าคงที่ของแถวและคอลัมน์เท่านั้น (ที่นี่หมายถึงองค์ประกอบที่มีความฉลาด! หมายความว่าถ้าเรารวมศูนย์ไว้สองครั้งเราจะได้ :
ซึ่งหมายความว่าเริ่มต้นจากเมทริกซ์ของระยะทางแบบยุคลิดแบบคู่เราสามารถทำการ PCA และรับส่วนประกอบหลักได้ นี่คือสิ่งที่ MDS คลาสสิก (Torgerson) ทำ:ดังนั้นผลลัพธ์จึงเทียบเท่ากับ PCA
แน่นอนว่าหากเลือกการวัดระยะทางอื่นแทนจากนั้น MDS แบบคลาสสิคจะส่งผลให้เกิดสิ่งอื่น
การอ้างอิง: องค์ประกอบของการเรียนรู้เชิงสถิติ , ส่วนที่ 18.5.2
PCA ให้ผลลัพธ์ที่แน่นอนเช่นเดียวกับ MDS แบบคลาสสิกหากใช้ระยะทางแบบยุคลิด
ฉันอ้างถึง Cox & Cox (2001), หน้า 43-44:
มีความเป็นคู่ระหว่างการวิเคราะห์องค์ประกอบหลักและ PCO [การวิเคราะห์พิกัดหลักหรือ MDS แบบคลาสสิก] ซึ่งความแตกต่างได้รับจากระยะทางแบบยุคลิด
ส่วนใน Cox & Cox อธิบายได้อย่างชัดเจน:
same results as classical MDS
. โดย "Classical MDS" คุณจะต้องมีความหมาย MDS ของ Torgerson ที่นี่ จากนั้นคำสั่งนั้นเป็นจริงสำหรับ MDS ของ Torgerson คือ PCA (เริ่มจากเมทริกซ์ระยะทางเท่านั้น) หากนิยาม "Classical MDS" แตกต่างกัน (ดูคำตอบของฉัน) ข้อความนั้นไม่เป็นความจริง
การเปรียบเทียบ: "Metric MDS ให้ผลลัพธ์เหมือนกันเป็น PCA" - ขั้นตอน - เมื่อเราดูวิธีการใช้ SVD เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด แต่เกณฑ์มิติสูงที่อนุรักษ์ไว้นั้นแตกต่างกัน PCA ใช้เมทริกซ์ความแปรปรวนแบบกึ่งกลางในขณะที่ MDS ใช้เมทริกซ์แกรมที่ได้จากเมทริกซ์ระยะทางสองจุดกึ่งกลาง
จะทำให้เกิดความแตกต่างทางคณิตศาสตร์: PCA สามารถดูได้ว่าการเพิ่มเหนือภายใต้ข้อ จำกัด ที่คือ orthogonal ดังนั้นจึงให้แกน / ส่วนประกอบหลัก ในหลายมิติปรับเมทริกซ์กรัม (เมทริกซ์ PSD ที่สามารถแสดงเป็น ) จะถูกคำนวณจากระยะทางยุคลิดระหว่างแถวในและต่อไปนี้จะลดลงกว่าYลด:{2}XXZTZXY| | G-YTY| | 2 ฟ