หลักฐานการบรรจบกันของค่า k


20

สำหรับงานที่มอบหมายฉันถูกขอให้แสดงหลักฐานว่า k-หมายถึงการบรรจบกันในขั้นตอนจำนวน จำกัด

นี่คือสิ่งที่ฉันเขียน:

E()=Σxนาทีผม=1kx-ผม2
E()

ขั้นตอนที่ 2 อ้างถึงขั้นตอนที่ติดป้ายแต่ละจุดข้อมูลโดยศูนย์คลัสเตอร์ที่ใกล้ที่สุดและขั้นตอนที่ 3 เป็นขั้นตอนที่ศูนย์มีการปรับปรุงโดยใช้ค่าเฉลี่ย

สิ่งนี้ไม่เพียงพอที่จะพิสูจน์ว่าการบรรจบกันในขั้นตอนที่ จำกัด พลังงานมีขนาดเล็กลงเรื่อย ๆ แต่ก็ไม่ได้ตัดทอนความเป็นไปได้ที่จุดศูนย์กลางสามารถกระโดดได้โดยไม่ต้องเปลี่ยนพลังงานมากนัก กล่าวอีกนัยหนึ่งอาจมีพลังงานขั้นต่ำหลายอย่างและอัลกอริทึมสามารถข้ามไปมาระหว่างกันได้


5
คำแนะนำ: จะมีจุดศูนย์กลางที่เป็นไปได้จำนวนเท่าใด
whuber

คำตอบ:


35

อันดับแรกมีอย่างมากkNที่จะแบ่งพาร์ติชันข้อมูลNจุดออกเป็นkกลุ่ม; แต่ละพาร์ติชันดังกล่าวสามารถเรียกว่า "การจัดกลุ่ม" นี่เป็นจำนวนมาก แต่ จำกัด สำหรับขั้นตอนวิธีการทวนของแต่ละเราผลิตการจัดกลุ่มใหม่ขึ้นอยู่เฉพาะในการจัดกลุ่มเก่า สังเกตว่า

  1. หากการจัดกลุ่มเก่าเหมือนกันใหม่การจัดกลุ่มถัดไปจะเหมือนเดิม
  2. หากการจัดกลุ่มใหม่แตกต่างจากรุ่นเก่ากลุ่มใหม่จะมีต้นทุนที่ต่ำกว่า

เนื่องจากอัลกอริทึมวนซ้ำฟังก์ชันที่โดเมนเป็นเซต จำกัด ขอบเขตการวนซ้ำจึงต้องเข้าสู่วัฏจักร รอบไม่สามารถมีความยาวมากกว่าเพราะมิฉะนั้นโดย (2) คุณจะมีการจัดกลุ่มบางอย่างที่มีต้นทุนต่ำกว่าตัวเองซึ่งเป็นไปไม่ได้ ดังนั้นวงจรจะต้องมีความยาวตรง1ดังนั้น k-หมายถึงลู่เข้าในการวนซ้ำของจำนวนที่แน่นอน111


ทำไมคำสั่งซื้อถึงมีความหมาย? นั่นคือเหตุผลที่เราไม่มีเลือกการรวมกลุ่ม ? ยังไม่มีข้อความk
rrrrr

@rrrrr สูตรที่ถูกต้องคือที่เป็นตัวเลขสเตอร์ลิงของประเภทที่สอง มันไม่สำคัญว่าเพราะผมบอกว่าที่มากที่สุด N {nk}{nk} kยังไม่มีข้อความ
jkabrg

6

ในการเพิ่มบางสิ่ง: อัลกอริทึมจะมาบรรจบกันหรือไม่นั้นขึ้นอยู่กับเกณฑ์การหยุด หากคุณหยุดอัลกอริทึมเมื่อการกำหนดคลัสเตอร์ไม่เปลี่ยนแปลงอีกต่อไปคุณสามารถพิสูจน์ได้ว่าอัลกอริทึมนั้นไม่จำเป็นต้องมาบรรจบกัน (โดยมีเงื่อนไขว่าการกำหนดคลัสเตอร์ไม่ได้มีตัวแบ่งไทกคุมแบบกำหนดแน่นอนในกรณีที่ Centroid หลายตัวมีระยะทางเดียวกัน)

ป้อนคำอธิบายรูปภาพที่นี่

ที่นี่คุณมีจุดข้อมูล 8 จุด (จุด) และสองเซ็นทรอยด์ (กากบาทสีแดง) ตอนนี้จุดข้อมูลสีเขียวมีระยะทางเท่ากันกับทั้งทางซ้ายและทางขวาของเซนทรอยด์ สิ่งเดียวกันถือสำหรับจุดข้อมูลสีฟ้า ให้เราสมมติว่าฟังก์ชันการมอบหมายนั้นไม่ได้กำหนดไว้ในกรณีนี้ นอกจากนี้เราสมมติว่าในการวนซ้ำ 1 จุดสีเขียวจะถูกกำหนดให้กับกลุ่มด้านซ้ายและจุดสีฟ้าจะถูกกำหนดให้กับกลุ่มด้านขวา จากนั้นเราอัพเดทเซนทรอยด์ ปรากฎว่าในความเป็นจริงพวกเขาอยู่ในจุดเดียวกัน (นี่เป็นการคำนวณที่ง่ายสำหรับเซนทรอยด์ด้านซ้ายคุณเฉลี่ยพิกัดของจุดสีดำซ้ายสองจุดและจุดสีเขียวสองจุด -> (0, 0.5) เหมือนกับเซนทรอยด์ที่ถูกต้อง)

จากนั้นเมื่อเกิดการวนซ้ำ 2 สถานการณ์จะกลับมาเหมือนเดิมอีกครั้ง แต่ตอนนี้เราคิดว่าฟังก์ชั่นการมอบหมายงานที่ไม่ได้กำหนดค่าของเรา (ในกรณีของความสัมพันธ์) กำหนดจุดสีเขียวให้กับกลุ่มด้านขวาและจุดสีฟ้า เซนทรอยด์อีกครั้งจะไม่เปลี่ยนแปลง

การวนซ้ำ 3 ซ้ำอีกครั้งเหมือนกับการวนซ้ำ 1 ดังนั้นเราจึงมีกรณีที่การมอบหมายคลัสเตอร์เปลี่ยนแปลงอย่างต่อเนื่องและอัลกอริทึม (ด้วยเกณฑ์การหยุดนี้) ไม่ได้มาบรรจบกัน

โดยพื้นฐานแล้วเรามีการรับประกันว่าแต่ละขั้นตอนใน k-หมายถึงลดต้นทุนหรือทำให้เหมือนเดิม (เช่นแทน ) สิ่งนี้ทำให้ฉันสามารถสร้างกรณีที่ค่าใช้จ่ายเท่าเดิมผ่านซ้ำได้แม้ว่าการมอบหมายยังคงเปลี่ยนแปลง<

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.