สมมติว่าฉันมีห้าชุดที่ฉันต้องการจัดกลุ่ม ฉันเข้าใจว่าเทคนิค SimHashing อธิบายไว้ที่นี่:
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
ได้ผลสามกลุ่ม ( {A}
, {B,C,D}
และ{E}
) ตัวอย่างเช่นถ้าผลของมันคือ:
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
ในทำนองเดียวกันเทคนิค MinHashing ที่อธิบายไว้ในบทที่ 3 ของหนังสือ MMDS:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
ยังสามารถให้ผลเหมือนกันสามกลุ่มถ้าผลลัพธ์เป็น:
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(แต่ละชุดสอดคล้องกับลายเซ็น MH ที่ประกอบด้วย "แบนด์" สามชุดและสองชุดจะถูกจัดกลุ่มหากมีการจับคู่แถบลายเซ็นอย่างน้อยหนึ่งวงดนตรีวงอื่น ๆ จะหมายถึงโอกาสในการจับคู่ที่มากขึ้น)
อย่างไรก็ตามฉันมีคำถามหลายข้อที่เกี่ยวข้องกับสิ่งเหล่านี้:
(1) SH สามารถเข้าใจได้ว่าเป็นวงดนตรีรุ่นเดียวของ MH หรือไม่?
(2) MH จำเป็นต้องใช้ความหมายของการใช้โครงสร้างข้อมูลเช่น Union-Find เพื่อสร้างกลุ่มหรือไม่?
(3) ฉันคิดถูกหรือไม่ว่าทั้งสองกลุ่มเป็น "พรี - คลัสเตอร์" จริง ๆ แล้วในแง่ที่ว่าพวกเขาเป็นเพียงชุดของ "คู่สมัคร"?