การทำคลัสเตอร์ - สัญชาตญาณเบื้องหลังทฤษฎีบทความเป็นไปไม่ได้ของไคลน์เบิร์ก


17

ฉันกำลังคิดเกี่ยวกับการเขียนโพสต์บล็อกในการวิเคราะห์ที่น่าสนใจนี้โดยKleinberg (2002)ที่สำรวจความยากลำบากในการจัดกลุ่ม Kleinberg แสดงตัวอธิบายลักษณะสามเดเดอราตาที่ใช้งานง่ายสำหรับฟังก์ชั่นการจัดกลุ่มแล้วพิสูจน์ว่าไม่มีฟังก์ชันดังกล่าวอยู่ มีอัลกอริทึมการจัดกลุ่มจำนวนมากที่ satify เกณฑ์สองในสาม อย่างไรก็ตามไม่มีฟังก์ชั่นที่สามารถตอบสนองทั้งสามพร้อมกันได้

โดยสังเขปและอย่างไม่เป็นทางการทั้งสามผู้อธิบายที่เขาสรุปคือ:

  • มาตราส่วน - ค่าคงที่ : ถ้าเราแปลงข้อมูลเพื่อให้ทุกอย่างยืดออกไปในทุกทิศทางผลการจัดกลุ่มไม่ควรเปลี่ยนแปลง
  • ความสอดคล้อง : ถ้าเรายืดข้อมูลเพื่อให้ระยะห่างระหว่างกลุ่มเพิ่มขึ้นและ / หรือระยะทางภายในกลุ่มลดลงดังนั้นผลการจัดกลุ่มไม่ควรเปลี่ยนแปลง
  • ความสมบูรณ์ : ฟังก์ชันการจัดกลุ่มในทางทฤษฎีควรสามารถสร้างพาร์ติชัน / การจัดกลุ่มข้อมูลได้ตามอำเภอใจ (โดยไม่ทราบระยะห่างระหว่างสองจุด)

คำถาม:

(1)มีสัญชาตญาณภาพเรขาคณิตที่ดีที่สามารถแสดงความไม่สอดคล้องระหว่างเกณฑ์ทั้งสามนี้หรือไม่?

(2)นี่หมายถึงรายละเอียดทางเทคนิคของกระดาษ คุณจะต้องอ่านลิงก์ด้านบนเพื่อทำความเข้าใจในส่วนนี้ของคำถาม

ในกระดาษการพิสูจน์ทฤษฎีบท 3.1 เป็นเรื่องยากสำหรับฉันที่จะตามไปที่จุด ฉันติดอยู่ที่: "Let f . จะเป็นฟังก์ชั่นการจัดกลุ่มที่ตอบสนองความสอดคล้องเราอ้างว่าสำหรับการใด ๆ พาร์ทิชันΓRange(f)ที่มีอยู่จำนวนจริงบวก< ดังกล่าวว่าคู่( , )เป็นΓ - บังคับให้."a<b(a,b)Γ

ฉันไม่เห็นว่าสิ่งนี้จะเกิดขึ้นได้อย่างไร ... พาร์ทิชันด้านล่างตัวนับที่a>b (นั่นคือระยะห่างขั้นต่ำระหว่างกลุ่มไม่มากกว่าระยะทางสูงสุดภายในกลุ่ม)

counterexample?

แก้ไข:นี่ไม่ใช่ตัวอย่างที่ชัดเจนฉันสับสนตัวเอง (ดูคำตอบ)


เอกสารอื่น ๆ :


ในเรื่อง "ความสอดคล้อง": คุณลักษณะนี้เป็นที่ต้องการอย่างสังหรณ์ใจเฉพาะเมื่อกลุ่มแยกกันอยู่แล้ว เมื่อพวกเขาไม่ได้มีปัญหากับจำนวนของกลุ่มในข้อมูล - สำหรับการวิเคราะห์เนื่องจากมันไม่ได้รับการสนับสนุนมันเป็นคำถาม ดังนั้นจึงเป็นเรื่องปกติที่จะคาดหวังว่าเมื่อคุณค่อยๆเพิ่มระยะห่างระหว่างกลุ่ม (ตามที่คุณสร้างขึ้น) การวิเคราะห์จะเปลี่ยนการมอบหมายที่ทำในระหว่างกระบวนการทำคลัสเตอร์
ttnphns

เกี่ยวกับ "ความร่ำรวย": ฉันขอโทษฉันไม่เข้าใจความหมาย (อย่างน้อยก็เท่ากับที่คุณใส่ไว้) อัลกอริธึมการจัดกลุ่มมีจำนวนมากคุณจะคาดหวังได้อย่างไรว่าพวกเขาทั้งหมดปฏิบัติตามข้อกำหนดแฟนซีบางอย่าง
ttnphns

ในส่วนที่เกี่ยวกับรูปภาพของคุณ: จำเป็นต้องมีวิธีการจัดกลุ่มพิเศษเพื่อจดจำรูปแบบดังกล่าว วิธีการจัดกลุ่มแบบดั้งเดิม / ดั้งเดิมเกิดจากชีววิทยาและสังคมวิทยาซึ่งกลุ่มกระจุกนั้นเป็น "เกาะ" ที่หนาแน่นมากกว่าหรือน้อยกว่าไม่ใช่วงแหวนวงแหวน วิธีการเหล่านี้ไม่สามารถเรียกร้องให้จัดการกับข้อมูลในภาพได้
ttnphns

คุณอาจสนใจใน: Estivill-Castro, Vladimir "ทำไมอัลกอริทึมการจัดกลุ่มจำนวนมาก: กระดาษตำแหน่ง" จดหมายข่าว ACM SIGKDD สำรวจ 4.1 (2002): 65-75
Anony-Mousse - Reinstate Monica

ฉันไม่ได้อ่านกระดาษ แต่ในอัลกอริทึมการจัดกลุ่มจำนวนมากคุณมีเกณฑ์ระยะทาง (เช่น DBSCAN, การจัดกลุ่มแบบลำดับชั้น) หากคุณวัดระยะทางของระยะทางคุณต้องปรับเกณฑ์ของคุณด้วย ดังนั้นฉันไม่เห็นด้วยกับความต้องการขนาดคงที่ของเขา ฉันไม่เห็นด้วยกับความร่ำรวย ไม่ใช่ทุกพาร์ติชั่นจะต้องเป็นทางออกที่ถูกต้องสำหรับอัลกอริธึมทุกตัว มีพาร์ติชันแบบสุ่มนับล้าน
Anony-Mousse - Reinstate Monica

คำตอบ:


11

ไม่ทางใดก็ทางหนึ่งอัลกอริธึมการจัดกลุ่มทุกอย่างอาศัยแนวคิด "ความใกล้ชิด" ของคะแนน ดูเหมือนว่าชัดเจนว่าคุณสามารถใช้ความคิดแบบสัมพัทธ์ (มาตราส่วนไม่แปรปรวน) หรือความเชื่อแบบสัมบูรณ์ (ความสอดคล้อง) ของความใกล้ชิด แต่ไม่ใช่ทั้งสองอย่าง

ก่อนอื่นฉันจะพยายามอธิบายเรื่องนี้ให้เป็นตัวอย่างแล้วพูดต่อไปว่าสัญชาตญาณนี้เหมาะกับทฤษฎีบทของไคลน์เบิร์กอย่างไร

ตัวอย่างที่เป็นตัวอย่าง

สมมติว่าเรามีสองชุดและS 2จาก270คะแนนแต่ละชุดจัดเรียงในระนาบดังนี้:S1S2270

270 ชุดสองชุด

คุณอาจไม่เห็นคะแนนในภาพเหล่านี้ แต่นั่นเป็นเพราะจุดต่าง ๆ อยู่ใกล้กันมาก เราเห็นคะแนนมากขึ้นเมื่อเราซูมเข้า:270

ชุดที่ 1 พร้อมซูม

คุณอาจจะเห็นด้วยตนเองว่าในชุดข้อมูลทั้งสองชุดจะมีการจัดเรียงคะแนนเป็นสามกลุ่ม อย่างไรก็ตามปรากฎว่าหากคุณซูมเข้าไปที่สามกลุ่มใด ๆ ของคุณจะเห็นสิ่งต่อไปนี้:S2

ชุดที่ 2 พร้อมซูม

หากคุณเชื่อในความใกล้ชิดหรือความมั่นคงคุณจะยังคงรักษามันไว้ไม่ว่าคุณจะเห็นอะไรภายใต้กล้องจุลทรรศน์ประกอบด้วยเพียงสามกลุ่มเท่านั้น อันที่จริงความแตกต่างเพียงอย่างเดียวระหว่างS 1และS 2ก็คือภายในแต่ละกลุ่มจะมีบางจุดที่อยู่ใกล้กันมากขึ้น ในทางกลับกันถ้าคุณเชื่อในความคิดสัมพัทธ์ของความใกล้ชิดหรือในความแปรปรวนแบบสเกลคุณจะรู้สึกอยากจะโต้แย้งว่าS 2ประกอบด้วย3S2S1S2S23แต่กลุ่ม มุมมองเหล่านี้ไม่ถูกต้อง แต่คุณต้องเลือกทางเดียวหรืออย่างอื่น3×3=9

กรณีของค่าความแปรปรวนของ isometry

หากคุณเปรียบเทียบปรีชาข้างต้นกับทฤษฎีบทของไคลน์เบิร์กคุณจะพบว่าพวกเขามีความขัดแย้งเล็กน้อย อันที่จริงทฤษฎีบทของไคลน์เบิร์กดูเหมือนจะบอกว่าคุณสามารถบรรลุความแปรปรวนและความมั่นคงพร้อมกันตราบใดที่คุณไม่สนใจคุณสมบัติที่สามที่เรียกว่าความร่ำรวย อย่างไรก็ตามความร่ำรวยไม่ได้เป็นเพียงคุณสมบัติเดียวที่คุณสูญเสียหากคุณยืนยันความคงเส้นคงวาและความสม่ำเสมอ คุณสูญเสียคุณสมบัติที่สำคัญยิ่งกว่าไปอีก: isometry-invariance นี่คือคุณสมบัติที่ฉันจะไม่ยอมเสียสละ เนื่องจากไม่ปรากฏในกระดาษของ Kleinberg ฉันจะอยู่กับมันสักครู่

ในระยะสั้นอัลกอริทึมการจัดกลุ่มเป็นค่าคงที่ของรูปทรงเรขาคณิตหากผลลัพธ์ขึ้นอยู่กับระยะทางระหว่างจุดและไม่ได้อยู่ในข้อมูลเพิ่มเติมบางอย่างเช่นป้ายกำกับที่คุณแนบกับจุดของคุณหรือตามลำดับที่คุณกำหนดไว้ในจุด ฉันหวังว่านี่จะดูเหมือนสภาพที่ไม่รุนแรงและเป็นธรรมชาติมาก อัลกอริธึมทั้งหมดที่กล่าวถึงในกระดาษของ Kleinberg เป็นค่าคงที่เชิงมิติยกเว้นอัลกอริธึมเชื่อมโยงเดี่ยวที่มีเงื่อนไขการหยุด -cluster ตามคำอธิบายของไคลน์เบิร์กอัลกอริทึมนี้ใช้การเรียงลำดับตามคำศัพท์ตามจุดต่างๆดังนั้นผลลัพธ์ของมันอาจขึ้นอยู่กับว่าคุณติดป้ายกำกับไว้อย่างไร ตัวอย่างเช่นสำหรับชุดของสามจุดที่มีระยะเท่ากันเอาท์พุทของอัลกอริทึมเชื่อมโยงเดียวกับ2k2- เงื่อนไขการหยุดแบบกลุ่มจะให้คำตอบที่แตกต่างกันออกไปไม่ว่าคุณจะระบุจุดสามจุดของคุณว่า "cat", "dog", "mouse" (c <d <m) หรือเป็น "Tom", "Spike", "Jerry" (J <S <T):

การรวมกลุ่มของ {cat, dog, mouse} กับ {Tom, Spike, Jerry}

แน่นอนว่าพฤติกรรมที่ผิดธรรมชาตินี้สามารถซ่อมแซมได้อย่างง่ายดายโดยแทนที่เงื่อนไขการหยุด -cluster ด้วยเงื่อนไข“ ( k ) -cluster stop” ความคิดนั้นไม่ใช่เพื่อทำลายความสัมพันธ์ระหว่างจุดเท่ากันและหยุดการรวมกลุ่มทันทีที่เราไปถึงkกลุ่มส่วนใหญ่ อัลกอริธึมที่ได้รับการซ่อมแซมนี้จะยังคงสร้างกลุ่มkอยู่ตลอดเวลาและมันจะเป็นค่าคงที่แบบคงที่และขนาดคงที่ ตามข้อตกลงกับสัญชาตญาณที่ระบุข้างต้นอย่างไรก็ตามจะไม่สอดคล้องกันอีกต่อไปk(k) kk

สำหรับคำจำกัดความที่แม่นยำของ isometry invariance ให้จำไว้ว่า Kleinberg กำหนดอัลกอริธึมการจัดกลุ่มบนเซต จำกัดเป็นแผนที่ที่กำหนดให้แต่ละเมตริกบนSพาร์ติชันของS : Γ : {เมทริกซ์บน  S } { พาร์ติชันของ  S }SSS isometryฉันระหว่างสองเมตริกวันที่และ d 'ใน Sคือการเปลี่ยนแปลงฉัน: S Sดังกล่าวว่า d ' ( ฉัน( x ) , ฉัน( Y ) ) = d ( x , Y )สำหรับทุก จุด xและ y ที่ในS

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xyS

คำที่เกี่ยวข้อง:จัดกลุ่มอัลกอริทึมมีisometry คงที่ถ้ามันตอบสนองเงื่อนไขต่อไปนี้: สำหรับตัวชี้วัดใด ๆวันที่และd 'และ isometry ใด ๆฉันระหว่างพวกเขาจุดฉัน( x )และฉัน( Y )โกหกในคลัสเตอร์เดียวกันของΓ ( d ' )ถ้าหากจุดเดิมxและy ที่โกหกในคลัสเตอร์เดียวกันของΓ ( d )Γddii(x)i(y)Γ(d)xyΓ(d)

เมื่อเราคิดถึงอัลกอริธึมการจัดกลุ่มเรามักจะระบุเซตนามธรรมด้วยชุดของจุดที่เป็นรูปธรรมในระนาบหรือในพื้นที่รอบข้างอื่น ๆ และจินตนาการถึงการเปลี่ยนแปลงตัวชี้วัดของSในการเคลื่อนย้ายจุดSรอบ ๆ อันที่จริงนี่คือมุมมองที่เราได้รับในตัวอย่างตัวอย่างด้านบน ในบริบทนี้ isometry invariance นั้นหมายถึงอัลกอริทึมการจัดกลุ่มของเราไม่ตอบสนองต่อการหมุนการสะท้อนและการแปลSSS

ชุดของจุดในเครื่องบินและสองการหมุนของมัน

ความแตกต่างของทฤษฎีบทของไคลน์เบิร์ก

สัญชาตญาณที่ได้รับข้างต้นถูกจับโดยตัวแปรของทฤษฎีบทของไคลน์เบิร์ก

ทฤษฎีบท:ไม่มีอัลกอริทึมการจัดกลุ่ม isometry-invariant ที่ไม่สำคัญซึ่งสอดคล้องกันและไม่แปรเปลี่ยนขนาด

ที่นี่โดยอัลกอริธึมการจัดกลุ่มเล็ก ๆ น้อย ๆฉันหมายถึงหนึ่งในสองอัลกอริทึมต่อไปนี้:

  1. อัลกอริทึมที่กำหนดให้ทุกเมตริกในพาร์ติชันแยกซึ่งทุกคลัสเตอร์ประกอบด้วยจุดเดียวS

  2. อัลกอริทึมที่กำหนดให้ทุกตัวชี้วัดบนพาร์ติชันก้อนประกอบด้วยคลัสเตอร์เดียวS

การอ้างสิทธิ์คืออัลกอริธึมที่โง่เง่าเหล่านี้เป็นอัลกอริธึมค่าคงที่ของ isometry เพียงสองตัวเท่านั้นที่มีความสอดคล้องและไม่แปรผันตามขนาด

SΓdSd(x,y)=1xySΓΓ(d)Γ(d)เป็นพาร์ทิชันที่ไม่ต่อเนื่องหรือΓ(d)Γ(d)dS1dΓ(d)=Γ(d)ΓΓ(d)dS1Γ(d)=Γ(d)Γ

แน่นอนว่าการพิสูจน์นี้มีความใกล้เคียงกับบทพิสูจน์ทฤษฎีบทดั้งเดิมของ Kleinberg ที่ Margareta Ackerman กล่าวถึงในคำตอบของ Alex Williams


7

นี่คือสัญชาตญาณที่ฉันคิดขึ้นมา (ตัวอย่างจากโพสต์บล็อกของฉันที่นี่ )

ป้อนคำอธิบายรูปภาพที่นี่

d1d2d3d2d3d1d1d3d2d3


คุณหมายถึงด้านล่างซ้ายสำหรับ d2 หรือไม่ สิ่งหนึ่งที่ดีเกี่ยวกับไดอะแกรมของคุณคือมันแสดงให้เห็นว่าความสม่ำเสมอไม่ได้เป็นคุณสมบัติที่ต้องการโดยทั่วไป (หรือว่ามันมีสูตรแบบหลวมเกินไป)
xan

ใช่ด้านล่างซ้ายแก้ไขคำตอบตามนั้น ขอบคุณ!
Alex Williams

ก่อนที่ฉันจะเข้าใจคำตอบของคุณอย่างสมบูรณ์ฉันได้พบกับตรรกะที่กลายเป็นคู่ของคุณ: เริ่มต้นด้วยการจัดกลุ่มที่ทุกจุดอยู่ในกลุ่มเดียวกัน แปลงให้เป็นข้อตกลงอื่น ๆ โดยย่อให้เป็นแบบย่อส่วนของข้อตกลงอื่นและปรับให้เป็นแบบเต็มขนาดของข้อตกลงอื่น
xan
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.