การใช้ระยะทางแมนฮัตตันกับการเชื่อมโยงระหว่างคลัสเตอร์ของวอร์ดในการจัดกลุ่มตามลำดับชั้นเป็นเรื่องที่ดีหรือไม่?


15

ฉันใช้การจัดกลุ่มแบบลำดับชั้นเพื่อวิเคราะห์ข้อมูลอนุกรมเวลา รหัสของฉันถูกนำไปใช้โดยใช้ฟังก์ชั่นMathematicaDirectAgglomerate[...]ซึ่งสร้างกลุ่มแบบลำดับชั้นซึ่งกำหนดอินพุตต่อไปนี้:

  • เมทริกซ์ระยะทาง D

  • ชื่อของวิธีการที่ใช้เพื่อกำหนดการเชื่อมโยงระหว่างคลัสเตอร์

ฉันคำนวณระยะทางเมทริกซ์ D โดยใช้ระยะทางแมนฮัตตัน:

d(x,y)=i|xiyi|

โดยที่และn 150คือจำนวนจุดข้อมูลในอนุกรมเวลาของฉันi=1,,nn150

คำถามของฉันคือการใช้การเชื่อมโยงระหว่างคลัสเตอร์ของวอร์ดกับแมนฮัตตันนั้น แหล่งข้อมูลบางแหล่งชี้ให้เห็นว่าการเชื่อมโยงของวอร์ดควรใช้กับระยะยูคลิดเท่านั้น

โปรดทราบว่าDirectAgglomerate[...]คำนวณการเชื่อมโยงของ Ward โดยใช้เมทริกซ์ระยะทางเท่านั้นไม่ใช่แบบสำรวจดั้งเดิม น่าเสียดายที่ฉันไม่แน่ใจว่าMathematicaแก้ไขอัลกอริทึมดั้งเดิมของ Ward ซึ่ง (จากความเข้าใจของฉัน) ทำงานอย่างไรโดยการลดผลรวมของข้อผิดพลาดของกำลังสองของการสังเกตให้เหลือน้อยที่สุดซึ่งคำนวณโดยเทียบกับค่าเฉลี่ยของคลัสเตอร์ ตัวอย่างเช่นสำหรับคลัสเตอร์ที่ประกอบด้วยเวกเตอร์ของการสังเกตแบบ univariate Ward จะกำหนดผลรวมข้อผิดพลาดของกำลังสองเป็น:c

(j||cjmean(c)||2)2

(เครื่องมือซอฟต์แวร์อื่น ๆ เช่น Matlab และ R ยังใช้การจัดกลุ่มของ Ward โดยใช้เมทริกซ์ระยะทางดังนั้นคำถามจึงไม่เฉพาะเจาะจงกับ Mathematica)


ฉันเพิ่งวิเคราะห์ชุดข้อมูลขนาดใหญ่พอสมควรโดยใช้วิธีวอร์ด ในกรณีของฉันระยะทาง Manatthan ให้การจัดกลุ่มเหมือนกับระยะทางแบบยุคลิด ฉันไม่สามารถให้การพิสูจน์ทางคณิตศาสตร์แก่คุณในการรวมกันของวิธีการใด ๆ แต่อย่างน้อยในกรณีของฉัน - การจัดกลุ่มไม่ได้รับผลกระทบจากวิธีการทางไกล
nico

ฟังก์ชัน R ทั้งหมดไม่จำเป็นต้องรอเมทริกซ์ระยะทาง ดูเช่นวิธีใช้ออนไลน์สำหรับagnesในแพ็คเกจคลัสเตอร์
chl

จริง ๆ แล้วมันก็โอเคที่จะใช้ระยะทางใด ๆ ตรวจสอบvlado.fmf.uni-lj.si/pub/preprint/ward.pdfสิ่งเดียวที่จับได้คือค่าเฉลี่ยที่เรากำลังพูดถึงไม่ใช่ค่าเฉลี่ยทางคณิตศาสตร์อีกต่อไป แต่ค่า Frechet หมายถึง
Randy Lai

แต่เราสามารถใช้ระยะทางแมนฮัตตันเพื่อการเชื่อมโยงที่สมบูรณ์ได้หรือไม่?
Payel Banerjee

คำตอบ:


8

อัลกอริทึมการจัดกลุ่มวอร์ดเป็นวิธีการจัดกลุ่มลำดับชั้นที่ลดเกณฑ์ 'ความเฉื่อย' ในแต่ละขั้นตอน ความเฉื่อยนี้คำนวณหาผลรวมของส่วนที่เหลือกำลังสองระหว่างสัญญาณที่ลดลงและสัญญาณเริ่มต้น: เป็นการวัดความแปรปรวนของข้อผิดพลาดในความรู้สึก l2 (Euclidean) ที่จริงแล้วคุณยังพูดถึงมันในคำถามของคุณ นี่คือเหตุผลที่ฉันเชื่อว่ามันไม่มีเหตุผลที่จะนำไปใช้กับเมทริกซ์ระยะทางที่ไม่ใช่ระยะทางแบบยุคลิด l2

ในทางกลับกันการเชื่อมโยงเฉลี่ยหรือการจัดกลุ่มลำดับชั้นการเชื่อมโยงเดียวจะเหมาะอย่างยิ่งสำหรับระยะทางอื่น ๆ


2
ขอบคุณสำหรับความคิดเห็นของคุณ ฉันคิดว่าคุณถูกต้อง อย่างไรก็ตามในทางปฏิบัติดูเหมือนว่าการเชื่อมโยงของวอร์ดมักใช้กับระยะทางแบบยุคลิดที่ไม่ใช่ ฉันยังไม่แน่ใจว่าสิ่งใดที่เกี่ยวข้องกับเรื่องนี้
Rachel

มันอาจมาจากคนที่ใช้ Ward เพียงเพราะเป็นที่รู้จักกันดี ฉันจะบอกว่าวอร์ดไม่ได้รับประโยชน์ใด ๆ เมื่อเทียบกับการเชื่อมโยงเฉลี่ยในการตั้งค่านี้ อย่างไรก็ตามมันมีราคาแพงมากขึ้นในการคำนวณ (คุณต้องคำนวณสองช่วงแรกสำหรับการรวมแต่ละครั้งหรือเพื่อคำนวณล่วงหน้า) ดังนั้นจากมุมมองเชิงปฏิบัติฉันจะไปเพื่อเชื่อมโยงเฉลี่ย
Gael Varoquaux

1
ที่จริงแล้วความเฉื่อยจะถูกกำหนดโดยใช้ผลรวมของระยะทางกำลังสอง (ไม่จำเป็นต้องเป็นแบบยูคลิด) ดู vlado.fmf.uni-lj.si/pub/preprint/ward.pdf
Randy Lai

5

ฉันไม่สามารถคิดด้วยเหตุผลใดก็ได้ว่าทำไมวอร์ดควรสนับสนุนเมตริกใด ๆ วิธีการของวอร์ดเป็นเพียงอีกทางเลือกหนึ่งในการตัดสินใจว่าจะรวมกันเป็นกลุ่มใดในระหว่างการรวมตัว นี่คือความสำเร็จโดยการค้นหาทั้งสองกลุ่มที่มีฟิวชั่นจะลดข้อผิดพลาดบางอย่าง ( แหล่งที่มาของตัวอย่างสำหรับสูตร )

ดังนั้นมันจึงขึ้นอยู่กับสองแนวคิด:

  1. ค่าเฉลี่ยของเวกเตอร์ที่ (สำหรับเวกเตอร์ตัวเลข) โดยทั่วไปจะคำนวณโดยเฉลี่ยทุกมิติแยกจากกัน
  2. ระยะทางตัวชี้วัดคือแนวคิดของความคล้ายคลึงกันที่แสดงโดยตัวชี้วัดนี้

ดังนั้น: ตราบใดที่คุณสมบัติของตัวชี้วัดที่เลือก (เช่นการหมุน, การแปลหรือการแปรมาตราส่วน) สนองความต้องการของคุณ (และตัวชี้วัดนั้นเหมาะสมกับวิธีการคำนวณค่าเฉลี่ยของกลุ่ม) ฉันไม่เห็นเหตุผลใด ๆ ที่จะไม่ใช้ .

ฉันสงสัยว่าคนส่วนใหญ่แนะนำตัวชี้วัดแบบยุคลิดเพราะพวกเขา

  • ต้องการเพิ่มน้ำหนักของความแตกต่างระหว่างค่าเฉลี่ยของคลัสเตอร์และเวกเตอร์การสังเกตเดี่ยว (ซึ่งทำโดยการหาผลคูณ)
  • หรือเพราะมันออกมาเป็นตัวชี้วัดที่ดีที่สุดในการตรวจสอบตามข้อมูลของพวกเขา
  • หรือเพราะมันถูกใช้โดยทั่วไป

ขอบคุณสำหรับคำตอบของคุณ ฉันได้ชี้แจงคำถามของฉันเล็กน้อยเพื่อเน้นว่าอัลกอริทึม 'DirectAgglomerate [... ]' ใช้เมทริกซ์ระยะทางเท่านั้น เมื่อพิจารณาถึงสิ่งนี้การเชื่อมโยงของวอร์ดที่ได้รับการแก้ไขจะขึ้นอยู่กับสมมติฐานที่ว่าเมทริกซ์ระยะทางเป็นแบบยุคลิดหรือไม่ ตัวอย่างการใช้งานการเชื่อมโยงของวอร์ดของ Matlab นั้นสังเกตว่ามันเหมาะสำหรับระยะทางแบบยุคลิดเท่านั้น ( mathworks.com/help/toolbox/stats/linkage.html )
Rachel

1
@ ราเชล: เอ่อฉันเข้าใจแล้ว การใช้วอร์ดใด ๆ จะต้องคำนวณระยะห่างระหว่างสมาชิกคลัสเตอร์และเซนทรอยด์ โดยสังหรณ์ใจเป็นที่ชัดเจนว่าตัวชี้วัดที่ใช้ในการนี้ควรจะเทียบเท่ากับตัวชี้วัดที่ใช้ในการคำนวณระยะทางระหว่างการสังเกต ... ดังนั้น matlab ต้องใช้เมทริกซ์แบบยูคลิด แต่ตอนนี้คำถามเกิดขึ้นว่าทำไมการใช้งานไม่ได้ขอฟังก์ชั่นแทนเมทริกซ์ระยะทาง? ความเสียหายจะเกิดขึ้นมากเพียงใดเมื่อใช้เมตริกซ์ต่างกันสำหรับงานทั้งสอง ฉันยอมรับฉันไม่รู้ว่าถูกต้องแล้ว
steffen

สวัสดีลบตัวอย่าง เว็บไซต์อื่น ๆ
MonsterMMORPG

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.