วิธีการวัดรูปร่างของคลัสเตอร์?


14

ฉันรู้ว่าคำถามนี้ไม่ได้กำหนดไว้อย่างชัดเจน แต่บางกลุ่มมีแนวโน้มที่จะเป็นรูปไข่หรือนอนในพื้นที่มิติที่ต่ำกว่าในขณะที่คนอื่นมีรูปร่างไม่เชิงเส้น (ในตัวอย่าง 2D หรือ 3D)

มีการวัดความไม่เชิงเส้น (หรือ "รูปร่าง") ของกลุ่มใดบ้าง?

โปรดสังเกตว่าในพื้นที่ 2D และ 3D ไม่ใช่ปัญหาในการดูรูปร่างของคลัสเตอร์ใด ๆ แต่ในพื้นที่มิติที่สูงขึ้นเป็นปัญหาที่จะพูดบางอย่างเกี่ยวกับรูปร่าง โดยเฉพาะมีมาตรการว่าคลัสเตอร์นูนเป็นอย่างไร

ฉันได้รับแรงบันดาลใจสำหรับคำถามนี้จากคำถามการจัดกลุ่มอื่น ๆ ที่ผู้คนพูดถึงกลุ่ม แต่ไม่มีใครสามารถเห็นพวกเขา (ในพื้นที่มิติที่สูงขึ้น) นอกจากนี้ฉันรู้ว่ามีมาตรการไม่เชิงเส้นสำหรับเส้นโค้ง 2D


1
en.wikipedia.org/wiki/Topological_data_analysisอาจช่วยในกรณีที่รูปร่างไม่ตรงตามที่คุณหมายถึง
ziyuang

1
บางทีคุณอาจปรับแนวคิดของความกะทัดรัดเพื่อจุดประสงค์ของคุณ
user12719

คำตอบ:


4

ฉันชอบแบบจำลองการผสมผสานแบบเกาส์ (GMM)

หนึ่งในคุณสมบัติของพวกเขาคือในโดเมน probitพวกเขาทำหน้าที่เหมือนผู้สอดแทรกคำ สิ่งหนึ่งที่บ่งบอกถึงสิ่งนี้คือพวกมันสามารถทำหน้าที่เป็นพื้นฐานการทดแทน ซึ่งหมายความว่าสำหรับการแจกแจงแบบ non-gaussian เช่น lognormal, weibull หรือ crazier ที่ไม่ใช่การวิเคราะห์ตราบใดที่พบกับเกณฑ์บางอย่าง - GMM สามารถประมาณการกระจายตัวได้

ดังนั้นหากคุณทราบพารามิเตอร์ของการประมาณค่าที่เหมาะสมที่สุดของ AICc หรือ BIC โดยใช้ GMM คุณสามารถฉายภาพนั้นให้มีขนาดเล็กลง คุณสามารถหมุนและดูแกนหลักของส่วนประกอบของ GMM ที่ประมาณได้

ผลที่ตามมาจะเป็นวิธีที่ให้ข้อมูลและเข้าถึงได้ทางสายตาเพื่อดูส่วนที่สำคัญที่สุดของข้อมูลมิติที่สูงขึ้นโดยใช้การรับรู้ภาพ 3 มิติของเรา

แก้ไข: (แน่นอนสิ่งที่ whuber)

มีหลายวิธีในการดูรูปร่าง

  • คุณสามารถดูแนวโน้มในความหมาย lognormal จะถูกประมาณโดยชุดของ Gaussians ซึ่งหมายถึงได้ใกล้ชิดมากขึ้นและมีน้ำหนักที่เล็กลงตามความก้าวหน้า ผลรวมใกล้เคียงกับหางที่หนักกว่า ในมิติข้อมูลลำดับของส่วนประกอบดังกล่าวจะทำให้กลีบ คุณสามารถติดตามระยะทางระหว่างค่าเฉลี่ย (แปลงเป็นขนาดสูง) และทิศทางโคไซน์ระหว่างเช่นกัน สิ่งนี้จะแปลงเป็นมิติที่เข้าถึงได้มากขึ้น
  • คุณสามารถสร้างระบบ 3 มิติซึ่งมีแกนคือน้ำหนักขนาดของค่าเฉลี่ยและขนาดของความแปรปรวน / ความแปรปรวนร่วม หากคุณมีการนับกลุ่มที่สูงมากนี่เป็นวิธีการดูพวกเขาเปรียบเทียบกัน มันเป็นวิธีที่มีค่าในการแปลงชิ้นส่วน 50k ด้วยการวัดขนาด 2k แต่ละก้อนให้กลายเป็นเมฆไม่กี่ชิ้นในพื้นที่ 3 มิติ ฉันสามารถดำเนินการควบคุมกระบวนการในพื้นที่นั้นถ้าฉันเลือก ฉันชอบการวนซ้ำของการใช้ตัวควบคุมแบบผสมแบบเกาส์เซียนตามส่วนประกอบของตัวแบบแบบผสมแบบเกาส์ที่เหมาะกับพารามิเตอร์ส่วนหนึ่ง
  • ในแง่ของการขจัดความยุ่งเหยิงคุณสามารถทิ้งด้วยน้ำหนักที่น้อยมากหรือโดยน้ำหนักต่อความแปรปรวนร่วมหรือเช่นนั้น
  • R2
  • คุณอาจจะมองไปที่มันเหมือนฟองตัด ตำแหน่งของความน่าจะเป็นที่เท่ากัน (ศูนย์ Kullback-Leibler divergence) มีอยู่ระหว่างแต่ละกลุ่มของกลุ่ม GMM หากคุณติดตามตำแหน่งนั้นคุณสามารถกรองตามความน่าจะเป็นของการเป็นสมาชิกที่ตำแหน่งนั้นได้ มันจะให้คะแนนขอบเขตการจำแนกประเภทของคุณ สิ่งนี้จะช่วยให้คุณแยก "เหงา" คุณสามารถนับจำนวนของขอบเขตดังกล่าวเหนือขีด จำกัด ต่อสมาชิกและรับรายการ "connectness" ต่อคอมโพเนนต์ นอกจากนี้คุณยังสามารถดูมุมและระยะทางระหว่างสถานที่
  • คุณสามารถสุ่มตัวอย่างพื้นที่ได้อีกครั้งโดยใช้ตัวเลขสุ่มที่กำหนดให้กับ Gaussian PDF จากนั้นทำการวิเคราะห์องค์ประกอบหลักที่อยู่บนนั้นและดูที่รูปร่าง eigen และค่าลักษณะเฉพาะที่เกี่ยวข้อง

แก้ไข:

รูปร่างหมายถึงอะไร? พวกเขากล่าวว่าความเฉพาะเจาะจงเป็นจิตวิญญาณของการสื่อสารที่ดีทั้งหมด คุณหมายถึงอะไรเกี่ยวกับ "การวัด"

แนวคิดเกี่ยวกับความหมาย:

  • ความรู้สึกปกติของลูกตา / ความรู้สึกในรูปแบบทั่วไป (การเข้าถึงที่มองเห็นได้ในเชิงคุณภาพอย่างมาก)
  • การวัดรูปร่างของ GD&T (coplanarity, concentricity ฯลฯ ) (ปริมาณมาก)
  • บางสิ่งบางอย่างที่เป็นตัวเลข (ค่าลักษณะเฉพาะ, ความแปรปรวนร่วม, ฯลฯ ... )
  • พิกัดมิติที่มีประโยชน์ลดลง (เช่นพารามิเตอร์ GMM ​​กลายเป็นมิติข้อมูล)
  • ระบบลดเสียงรบกวน (เรียบในบางวิธีแล้วนำเสนอ)

"หลายวิธี" ส่วนใหญ่เป็นการเปลี่ยนแปลงบางอย่าง


3

สิ่งนี้อาจจะค่อนข้างง่าย แต่คุณอาจได้รับข้อมูลเชิงลึกด้วยการวิเคราะห์ค่าลักษณะเฉพาะในแต่ละกลุ่มของคุณ

สิ่งที่ฉันจะลองคือใช้จุดทั้งหมดที่กำหนดให้กับคลัสเตอร์และปรับให้เข้ากับ Gaussian หลายตัวแปร จากนั้นคุณสามารถคำนวณค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมที่พอดีและพล็อตพวกมัน มีหลายวิธีในการทำเช่นนี้ อาจจะมากที่สุดที่รู้จักกันดีและใช้กันอย่างแพร่หลายเรียกว่าการวิเคราะห์องค์ประกอบหลักหรือ PCA

เมื่อคุณมีค่าลักษณะเฉพาะ (เรียกอีกอย่างว่าสเปกตรัม) คุณสามารถตรวจสอบขนาดสัมพัทธ์ของพวกมันเพื่อพิจารณาว่า "ขยายออก" กระจุกอยู่ในมิติใด ยิ่งสเปกตรัมมีความถี่น้อยเท่าไรก็ยิ่งมีรูปร่าง "ซิการ์" มากเท่านั้นและยิ่งมีสเปกตรัมเท่ากันก็ยิ่งมีความกลมกลืนมากเท่านั้น คุณสามารถกำหนดเมตริกบางอย่างเพื่อระบุว่าค่าลักษณะเฉพาะนั้นไม่เหมือนกันอย่างไร (เอนโทรปีของสเปกตรัม) ดูhttp://en.wikipedia.org/wiki/Spectral_flatness

คุณสามารถตรวจสอบส่วนประกอบหลัก (eigenvector ที่เกี่ยวข้องกับค่าลักษณะเฉพาะขนาดใหญ่) เพื่อดูว่า "ที่ไหน" กลุ่ม "รูปซิการ์" ชี้ไปที่พื้นที่ข้อมูลของคุณ

โดยธรรมชาตินี่คือการประมาณคร่าวๆสำหรับคลัสเตอร์โดยพลการเนื่องจากมันจำลองเฉพาะจุดในคลัสเตอร์เป็นรูปวงรีเดี่ยว แต่อย่างที่ฉันบอกไปมันอาจทำให้คุณมีความเข้าใจมากขึ้น


+1 แบบง่ายๆอาจ; แต่มันดูมีประสิทธิภาพและใช้งานได้จริง ดูเหมือนจะไม่มีข้อได้เปรียบใด ๆ กับอุปกรณ์ Gaussian แบบหลายตัวแปร: เพียงใช้ SVD ของข้อมูลที่อยู่กึ่งกลางภายในคลัสเตอร์ (ซึ่งเป็น PCA หลักในคลัสเตอร์)
whuber

@ โฮ่ใช่ฉันคิดว่าคนที่ทำสิ่งเดียวกัน! ความเหมาะสมเป็นสิ่งที่ทฤษฎีบอกว่าเกิดขึ้นเบื้องหลังในขณะที่ PCA เป็นการใช้งานที่เป็นรูปธรรมของกระบวนการนั้น ฉันจะแก้ไขคำตอบเพื่อให้ชัดเจนยิ่งขึ้น
lmjohns3

2

อัลกอริธึมการจัดกลุ่มความสัมพันธ์เช่น 4C, ERiC หรือ LMCLUS มักจะพิจารณาว่าเป็นกระจุกเชิงเส้น นั่นคือไฮเปอร์ - เคมิติในพื้นที่มิติ ทีนี้สำหรับ 4C และ ERiC เป็นแบบเชิงเส้นในพื้นที่เท่านั้นดังนั้นในความเป็นจริงพวกมันจึงไม่ใช่แบบนูน แต่พวกเขายังคงพยายามตรวจจับกลุ่มของมิติท้องถิ่นที่ลดลง

การค้นหากลุ่มที่มีรูปร่างตามอำเภอใจในข้อมูลมิติสูงเป็นปัญหาที่ค่อนข้างยาก โดยเฉพาะอย่างยิ่งเนื่องจากคำสาปของส่วนข้อมูลซึ่งทำให้พื้นที่ค้นหาระเบิดและในเวลาเดียวกันก็ต้องการให้คุณมีข้อมูลอินพุตที่ใหญ่กว่ามากหากคุณยังต้องการผลลัพธ์ที่สำคัญ วิธีที่อัลกอริทึมมากเกินไปไม่สนใจว่าสิ่งที่พวกเขาพบนั้นยังคงมีความสำคัญหรืออาจสุ่ม

ดังนั้นในความเป็นจริงฉันเชื่อว่ามีปัญหาอื่น ๆ ที่ต้องแก้ไขก่อนที่จะคิดเกี่ยวกับความไม่นูนของกลุ่มเชิงซ้อนในพื้นที่มิติสูง

ดูความซับซ้อนของการคำนวณลำตัวนูนในมิติที่สูงขึ้น ...

นอกจากนี้คุณมีกรณีการใช้งานจริงสำหรับสิ่งนั้นนอกเหนือจากความอยากรู้อยากเห็นหรือไม่?


2

หากมิติข้อมูลของคุณไม่สูงกว่า 2 หรือ 3 อาจเป็นไปได้ที่จะฉายกลุ่มของความสนใจลงในพื้นที่ 2 มิติหลาย ๆ ครั้งและมองเห็นผลลัพธ์หรือใช้การวัดแบบ 2 มิติของความไม่เชิงเส้น ฉันคิดว่าเป็นเพราะวิธีการประมาณการสุ่มนี้http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf

การฉายแบบสุ่มสามารถนำมาใช้เพื่อลดมิติข้อมูลเพื่อสร้างดัชนี ทฤษฏีคือว่าถ้าจุดสองจุดนั้นอยู่ใกล้กันในมิติ D และคุณทำการฉายภาพแบบสุ่มเป็นมิติที่มี d

สำหรับความเป็นรูปธรรมคุณสามารถนึกภาพลูกโลกออกมาบนพื้นผิวที่เรียบ ไม่ว่าคุณจะฉายอย่างไรนิวยอร์กและนิวเจอร์ซีย์จะอยู่ด้วยกันได้ แต่จะไม่ค่อยผลักนิวยอร์กและลอนดอนเข้าด้วยกัน

ฉันไม่ทราบว่าสิ่งนี้จะช่วยให้คุณจริงจัง แต่อาจเป็นวิธีที่รวดเร็วในการมองเห็นกลุ่ม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.