ถ้าการจัดกลุ่ม k หมายถึงเป็นรูปแบบของการสร้างแบบจำลองแบบผสมผสานของเกาส์เซียนนั้นสามารถใช้เมื่อข้อมูลไม่ปกติหรือไม่?


21

ฉันกำลังอ่าน Bishop เกี่ยวกับอัลกอริทึม EM สำหรับ GMM และความสัมพันธ์ระหว่าง GMM และ k-mean

ในหนังสือเล่มนี้มันบอกว่า k-mean เป็นรุ่นที่กำหนดยากของ GMM ฉันสงสัยว่านั่นหมายความว่าถ้าข้อมูลที่ฉันพยายามจัดกลุ่มไม่ใช่ Gaussian ฉันไม่สามารถใช้วิธี k (หรืออย่างน้อยก็ไม่เหมาะที่จะใช้)? ตัวอย่างเช่นถ้าข้อมูลเป็นภาพของตัวเลขที่เขียนด้วยลายมือซึ่งประกอบด้วย 8 * 8 พิกเซลแต่ละรายการมีค่า 0 หรือ 1 (และถือว่าเป็นข้อมูลที่เป็นอิสระดังนั้นจึงควรเป็นส่วนผสมของเบอร์นูลี)

ฉันสับสนเล็กน้อยในเรื่องนี้และจะขอบคุณความคิดใด ๆ


2
ถ้าคุณถามว่ามันถูกต้องหรือไม่ที่จะทำการจัดกลุ่ม k-mean กับข้อมูลที่ไม่ปกติคำตอบคือใช่ถ้าข้อมูลนั้นถือว่าต่อเนื่อง ข้อมูลไบนารีไม่ต่อเนื่อง บางคนทำ k-mean กับข้อมูลดังกล่าวซึ่งอนุญาตให้ใช้แบบฮิวริสติกได้ แต่ไม่ถูกต้องตามหลักวิชา
ttnphns

ไม่มีตัวแบบความน่าจะเป็นสำหรับค่าเฉลี่ย k ดังนั้นจึงไม่มีสมมติฐานเชิงบรรทัดฐานสำหรับทำให้เป็นโมฆะ (ไม่ได้หมายความว่ามันจะทำงานได้ดี)
คาดเดา

1
@conjectures อืม ... แต่ k-menas นั้นเทียบเท่ากับ GMM และ GMM ถือว่าเป็นเรื่องปกติ
eddie.xie

@ttnphns ขอบคุณสำหรับคำตอบของคุณ! ดังนั้นฉันเดาว่าถ้าฉันใช้ TF-IDF เพื่อถ่ายโอนข้อความเป็นคะแนนและทำให้ต่อเนื่องฉันสามารถสมัครได้และใช้ได้หรือไม่
eddie.xie

ฉันรู้ทันทีว่า GMM นั้นเป็นส่วนผสม (ผลรวม) gaussians สองสามและมันควรจะแสดงการกระจายใดก็ตามที่มีการผสมพอสมควร ดังนั้นแม้ GMM และ K-หมายความว่าเทียบเท่าไม่ได้หมายความว่า K-หมายความว่าไม่สามารถใช้ข้อมูลที่ไม่ปกติเพราะ GMM สามารถแสดงการกระจายใด ๆ ถูกต้องหรือไม่
eddie.xie

คำตอบ:


20

ในสถานการณ์ทั่วไปของ GMM EM นั้นจะคำนึงถึงความแปรปรวนและความแปรปรวนร่วม สิ่งนี้ไม่ได้ทำในวิธี k

แต่อันที่จริงหนึ่งในฮิวริสติกที่เป็นที่นิยมสำหรับ k-mean (หมายเหตุ: k-หมายความว่าเป็นปัญหาไม่ใช่อัลกอริทึม) - อัลกอริทึม Lloyd - เป็นหลักอัลกอริทึม EM โดยใช้แบบจำลองเซนทรอยด์

เมื่อทำการจัดกลุ่มลักษณะ k-mean (เช่นการลดความแปรปรวน) คุณ

  • บังเอิญลดระยะทางแบบยุคลิดสแควร์สเนื่องเพราะ WCSS (ผลรวมภายในกลุ่มของสแควร์ส) ผลต่างความแปรปรวน = ระยะทางแบบยุคลิดแบบสแควร์
  • โดยบังเอิญกำหนดวัตถุให้กับกระจุกที่ใกล้ที่สุดโดยระยะทางแบบยุคลิดเพราะฟังก์ชัน sqrt เป็นเสียงเดียว (โปรดทราบว่าค่าเฉลี่ยไม่ได้ปรับระยะทางแบบยุคลิด แต่เพิ่มประสิทธิภาพให้กับฟังก์ชัน WCSS)
  • แทนกลุ่มที่ใช้เซนทรอยด์เท่านั้น
  • รับเซลล์รูปทรง Voronoi เช่นรูปหลายเหลี่ยม
  • มันทำงานได้ดีที่สุดกับกระจุกดาวทรงกลม

ฟังก์ชั่นวัตถุประสงค์ k- สามารถทำเป็นกรงเล็บเช่นนี้: ที่S = { S 1S k }คือการแบ่งพาร์ติชันที่เป็นไปได้ทั้งหมดของข้อมูลที่ตั้งค่าไว้ในพาร์ติชันk , Dคือมิติข้อมูลชุดข้อมูล, และเช่นx j d

argminSi=1kxjSid=1D(xjdμid)2
S={S1Sk}kDxjdมีการประสานงานของเช่น TH ในมิติdjd

เป็นที่ทราบกันโดยทั่วไปว่า k-mean ถือว่าเป็นกระจุกทรงกลม เป็นที่ยอมรับกันโดยทั่วไปว่ากลุ่ม k-mean คือเซลล์ Voronoi นั่นคือไม่เป็นทรงกลม ทั้งสองถูกต้องและผิดทั้งคู่ ก่อนอื่นกลุ่มไม่สมบูรณ์เซลล์ Voronoi แต่เพียงวัตถุที่รู้จักกันในนั้น ไม่จำเป็นต้องพิจารณาพื้นที่ที่ตายแล้วในระหว่างกลุ่มเพื่อเป็นส่วนหนึ่งของกลุ่มใดกลุ่มหนึ่งเนื่องจากการมีวัตถุจะส่งผลต่อผลลัพธ์ของอัลกอริทึม แต่มันก็ไม่ดีกว่าที่จะเรียกมันว่า "ทรงกลม" เช่นกันเพียงเพราะระยะทางแบบยุคลิดเป็นทรงกลม K-หมายความว่าไม่สนใจระยะทางแบบยุคลิด ทั้งหมดก็คือเป็นผู้แก้ปัญหาเพื่อลดความแปรปรวน และนั่นคือสิ่งที่คุณควรพิจารณา k-mean คือ: ลดความแปรปรวนให้น้อยที่สุด


ฉันขอแนะนำให้คุณปรับแต่งการแสดงออกเล็กน้อยเพื่อความแม่นยำมากขึ้น ยกตัวอย่างเช่นสิ่งที่จะminimize squared euclidean distanceหรือminimize the variances? จะต้องมีคำว่า "ผลรวมของ" หรือ "พูล" หรืออย่างนั้นเพราะเรามี 2+ กลุ่มใช่มั้ย
ttnphns

BTW เนื่องจาก k-หมายถึงลดผลรวมที่รวมไว้ภายในกลุ่มของ d ^ 2 หารด้วยจำนวนของวัตถุในกลุ่มที่เกี่ยวข้องจุดของคุณcoincidentally minimize Euclidean distance, because the sqrt function is monotoneคือแม่นยำไม่ถูกต้อง
ttnphns

เป้าหมายการทำงานที่เหมาะสมซึ่งคุณสามารถพิสูจน์บรรจบกันเป็น WCSS, ภายในคลัสเตอร์ sum-of-สี่เหลี่ยม และที่จริงแล้วมันไม่ได้ลดระยะทางแบบยุคลิด แต่มันระยะทางแบบเซนทรอยด์ที่ใกล้ที่สุดคือการกำหนดที่ดีที่สุดของ WCSS
Anony-Mousse - Reinstate Monica

ถ้อยคำของคุณยังคงน่าเสียดายที่น่าสงสัย วลีminimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance หมายถึงอะไร คุณกำลังพูดว่า "สแควร์ d's ระหว่างวัตถุในกลุ่มได้รับการลดลงเพราะ WCSS ของส่วนเบี่ยงเบนได้รับการลดลง" หรือแค่ "WCSS ของส่วนเบี่ยงเบนได้รับลดลงซึ่ง - เบี่ยงเบน - จะระยะทางแบบยุคลิดโดยธรรมชาติ"? หรือไม่
ttnphns

1
เห็นได้ชัดว่า k-mean เป็นตัวเลือกที่ดีถ้าคุณต้องการแบบจำลอง centroid ของข้อมูลของคุณ หากคุณต้องการปรับระยะทางให้เหมาะสมที่สุดให้ใช้การจัดกลุ่มแบบลำดับชั้น
Anony-Mousse - Reinstate Monica

8

GMM ใช้เนินเขาที่ทับซ้อนกันซึ่งทอดยาวไปจนถึงอนันต์ (แต่นับได้เพียง 3 ซิกม่าเท่านั้น) แต่ละจุดได้รับทั้งหมดภูเขาคะแนนความน่าจะเป็น นอกจากนี้ยังเนินเขาเป็น "รูปไข่" [ไม่เป็นไรพวกเขากำลังสมมาตรวงรี ] และโดยใช้เมทริกซ์ความแปรปรวนเต็มรูปแบบอาจจะเอียง

K-หมายถึงการกำหนดจุดไปยังคลัสเตอร์เดียวอย่างหนักดังนั้นคะแนนของศูนย์คลัสเตอร์อื่น ๆ จะถูกเพิกเฉย (ถูกรีเซ็ตเป็นศูนย์ / ไม่สนใจ) เนินเขาเป็นฟองสบู่ทรงกลม เมื่อฟองสบู่สองฟองสัมผัสกันเส้นแบ่งระหว่างพวกมันจะกลายเป็นระนาบแบน (ไฮเปอร์ -) เช่นเดียวกับเมื่อคุณเป่าฟองสบู่ฟองสบู่จำนวนมากฟองด้านในนั้นไม่แบน แต่มีกล่องดังนั้นเขตแดนระหว่างทรงกลม (ไฮเปอร์ -) จริง ๆ แล้วก่อตัวเป็นส่วนหนึ่งของพื้นที่ Voronoi ใน 2D สิ่งนี้มีลักษณะคล้ายรางหกเหลี่ยมอย่างใกล้ชิดคิดว่ารังผึ้ง (แม้ว่าแน่นอนว่าเซลล์ Voronoi ไม่รับประกันว่าจะเป็นรูปหกเหลี่ยม) K-หมายถึงเนินเขาที่อยู่รอบและไม่ได้รับการเอียงดังนั้นจึงมีพลังในการเป็นตัวแทนน้อย แต่จะคำนวณได้เร็วกว่ามากโดยเฉพาะในมิติที่สูงกว่า

เนื่องจาก K-mean ใช้การวัดระยะทางแบบยุคลิดจึงถือว่าขนาดนั้นเปรียบได้และมีน้ำหนักเท่ากัน ดังนั้นหากมิติ X มีหน่วยไมล์ต่อชั่วโมงแตกต่างกันไปตั้งแต่ 0 ถึง 80 และมิติ Y มีหน่วยปอนด์, แปรผันจาก 0 ถึง 400 และคุณอยู่ในวงกลมที่พอดีในพื้นที่ XY นี้ดังนั้นหนึ่งมิติ (และการแพร่กระจาย) กำลังจะมีประสิทธิภาพมากกว่ามิติอื่นและจะบดบังผลลัพธ์ นี่คือเหตุผลที่เป็นเรื่องธรรมดาที่จะทำให้ข้อมูลเป็นมาตรฐานเมื่อใช้วิธี K

ทั้ง GMM และ K-หมายถึงแบบจำลองข้อมูลโดยการปรับให้เหมาะสมที่สุดกับสิ่งที่ได้รับ GMM เหมาะกับไข่ที่เอียงและ K-หมายถึงทรงกลมที่ไม่เอียง แต่ข้อมูลพื้นฐานอาจมีรูปร่างเหมือนอะไรก็ได้อาจเป็นเกลียวหรือภาพวาดปิกัสโซและอัลกอริทึมแต่ละตัวจะยังคงทำงานและถ่ายภาพได้ดีที่สุด ไม่ว่ารูปแบบที่เกิดขึ้นจะมีลักษณะเช่นข้อมูลจริงหรือไม่นั้นขึ้นอยู่กับกระบวนการทางกายภาพพื้นฐานที่สร้างข้อมูล (ตัวอย่างเช่นการวัดการหน่วงเวลาเป็นด้านเดียว; แบบเกาส์เป็นแบบที่ดีหรือไม่?)

Rn

ดังนั้นภาพไบนารี 8x8 ของคุณจะถูกตีความว่าเป็น hypercube แบบ 64 มิติใน hyperquadrant แรก อัลกอริทึมจากนั้นใช้การเปรียบเทียบเชิงเรขาคณิตเพื่อค้นหากลุ่ม ระยะทางด้วยค่า K หมายถึงระยะทางแบบยุคลิดในพื้นที่ 64 มิติ เป็นวิธีหนึ่งที่จะทำ


โปรดทราบว่าอัลกอริธึมทั้งสองโดยปริยายถือว่าแกนอวกาศนั้นมีความหนาแน่นเท่ากันทุกจุดดังนั้นการปรับข้อมูลแบบเอ็กซ์โพเนนเชียลลอการิทึมหรือข้อมูลที่แตกต่างกันโดยทั่วไปจะได้รับประโยชน์จากการแปลงก่อนเพื่อทำการแมปข้อมูลใหม่
DragonLord
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.