การกระจายความน่าจะเป็นแบบคลัสเตอร์ - วิธีการและตัวชี้วัด?


13

ฉันมีจุดข้อมูลบางอย่างซึ่งแต่ละอันประกอบด้วย 5 เวกเตอร์ของผลลัพธ์ที่ไม่ต่อเนื่องแบบจับกันเป็นกลุ่มผลของเวกเตอร์แต่ละตัวที่สร้างโดยการกระจายตัวที่แตกต่างกัน (ชนิดที่ฉันไม่แน่ใจการคาดเดาที่ดีที่สุดของฉันคือ Weibull กฎหมาย (1 ถึง 0, ประมาณ)

ฉันกำลังมองหาที่จะใช้อัลกอริทึมการจัดกลุ่มเช่น K-Means เพื่อใส่แต่ละจุดข้อมูลลงในกลุ่มตามคุณลักษณะของการกระจายองค์ประกอบ 5 ฉันสงสัยว่ามีตัวชี้วัดระยะทางที่กำหนดไว้หรือไม่ซึ่งจะสวยงามสำหรับวัตถุประสงค์เหล่านี้ ฉันมีความคิดสามข้อ แต่ฉันไม่ใช่นักสถิติที่มีประสบการณ์ (เป็นนักวิทยาศาสตร์คอมพิวเตอร์การขุดข้อมูลเริ่มต้น) ดังนั้นฉันจึงมีความคิดเล็ก ๆ น้อย ๆ ว่าฉันอยู่ไกลแค่ไหน

  1. เนื่องจากฉันไม่รู้แน่ชัดว่าการแจกแจงแบบไหนฉันกำลังเข้าใกล้ปัญหาของฉันคือการสับการกระจายแต่ละครั้ง (ฉันมี 5 ต่อจุด) ลงในแต่ละค่าของข้อมูลที่ไม่ต่อเนื่อง (ฉันแพด แต่ละอันที่สอดคล้องกับความยาวเดียวกันกับศูนย์ที่ท้าย) และใช้แต่ละค่าเหล่านี้เป็นแอตทริบิวต์ที่แยกต่างหากสำหรับจุดข้อมูลเอง ฉันลองใช้ทั้งระยะทางแมนฮัตตันและระยะทางแบบยุคลิดเป็นตัวชี้วัดตามคุณลักษณะเหล่านี้สำหรับทั้ง PDF และ CDF

  2. อีกครั้งเนื่องจากฉันไม่ทราบว่ามีการแจกแจงแบบใดฉันจึงคิดว่าถ้าฉันจะวัดระยะห่างระหว่างการแจกแจงโดยรวมฉันสามารถใช้การทดสอบแบบไม่อิงพารามิเตอร์ระหว่างการแจกแจงเช่นการทดสอบ KS เพื่อค้นหาโอกาสที่การแจกแจงที่กำหนดถูกสร้างขึ้นโดย PDF ที่แตกต่างกัน ฉันคิดว่าตัวเลือกแรกของฉัน (ด้านบน) โดยใช้ระยะทางแมนฮัตตันจะเป็นขอบเขตบนของสิ่งที่ฉันอาจใช้วิธีนี้ (เนื่องจากสถิติ KS คือค่าสัมบูรณ์สูงสุดของความแตกต่างของ CDFs ซึ่งระยะทางแมนฮัตตันเป็น ผลรวมของค่าสัมบูรณ์ของความแตกต่างใน PDF) จากนั้นฉันพิจารณาการรวมสถิติ KS หรือค่า P ที่แตกต่างกันในแต่ละจุดข้อมูลอาจใช้ระยะทางแบบยุคลิด แต่อาจจะใช้ค่าสูงสุดเหล่านี้ทั้งหมด

  3. สุดท้ายในความพยายามที่จะใช้สิ่งเล็ก ๆ น้อย ๆ ที่ฉันสามารถตีความเกี่ยวกับรูปร่างของการแจกแจงฉันคิดว่าฉันอาจลองประเมินค่าพารามิเตอร์ของการแจกแจงให้พอดีกับเส้นโค้ง Weibull ฉันสามารถจัดกลุ่มการแจกแจงตามความแตกต่างของพารามิเตอร์สองตัวของการแจกแจงแบบ Weibull แลมบ์ดาและเค (สเกลและรูปร่าง) ซึ่งอาจเป็นมาตรฐานตามความแปรปรวนของพารามิเตอร์เหล่านี้หรือบางอย่างของการเรียงลำดับ นี่เป็นกรณีเดียวที่ฉันคิดว่าฉันอาจมีความคิดเกี่ยวกับวิธีทำให้พารามิเตอร์เป็นมาตรฐาน

ดังนั้นคำถามของฉันคือสิ่งที่คุณจะแนะนำการวัด / วิธีการสำหรับการรวมกลุ่มของการกระจาย? ฉันยังอยู่ในเส้นทางที่ถูกต้องกับสิ่งเหล่านี้หรือไม่? K-Means เป็นอัลกอริทึมที่ดีในการใช้งานหรือไม่?

แก้ไข: ชี้แจงข้อมูล

จุดข้อมูลแต่ละจุด (แต่ละวัตถุObjที่ฉันต้องการทำคลัสเตอร์) มี5 vectorsข้อมูลอยู่จริง ฉันรู้ว่ามีว่า 5 ขั้นตอนว่าวัตถุเหล่านี้สามารถอยู่ใน. เราจะบอก (สำหรับวัตถุประสงค์ของการทำให้เข้าใจง่าย) length Nว่าแต่ละเวกเตอร์คือ

หนึ่งของเวกเตอร์เหล่านี้ (เรียกว่าแต่ละคนvector i) คือการกระจายความน่าจะเป็นกับจำนวนเต็มx-valuesของ 1 ถึง N ซึ่งแต่ละสอดคล้องค่า y แสดงให้เห็นถึงความน่าจะเป็นของวัดvalue xในของวัตถุphase i ObjN คือค่า x สูงสุดที่ฉันคาดว่าจะวัดในระยะใด ๆ ของวัตถุ (นี่ไม่ใช่จำนวนที่แน่นอนในการวิเคราะห์ของฉัน)

ฉันพิจารณาความน่าจะเป็นเหล่านี้ในลักษณะดังต่อไปนี้:

  1. ฉันทำแบบเดี่ยวObjและใส่เข้าไปphase iเพื่อk trialsทำการวัดในแต่ละการทดลอง การวัดแต่ละครั้งเป็นจำนวนเต็มเดียว ฉันทำสิ่งนี้สำหรับแต่ละ 5 ขั้นตอนของวัตถุเดียวและในทางกลับกันสำหรับแต่ละวัตถุ ข้อมูลการวัดแบบดิบของฉันสำหรับวัตถุเดียวอาจมีลักษณะดังนี้:

    เวกเตอร์ 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    เวกเตอร์ 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0, 0]

    ...

    เวกเตอร์ 5 [16, ... ... , 0]

  2. จากนั้นฉันก็ทำให้เวกเตอร์แต่ละตัวเป็นปกติด้วยความเคารพต่อจำนวนการวัดทั้งหมดในเวกเตอร์นั้น นี้จะช่วยให้ฉันกระจายในเวกเตอร์ที่ซึ่งแต่ละที่สอดคล้องค่า y แสดงให้เห็นถึงความน่าจะเป็นของวัดในvalue xphase i


1
ไม่ชัดเจนสำหรับฉันว่าจุดข้อมูลของคุณสามารถ "มี" การแจกแจง คุณยกตัวอย่างได้ไหม ยิ่งไปกว่านั้น Weibull ไม่ใช่การกระจายความน่าจะเป็นแบบแยกดังนั้นจึงควรมีการชี้แจงเพิ่มเติมเป็นพิเศษ
mpiktas

@mpiktas: จุดข้อมูลแต่ละจุดแทนวัตถุที่มี 5 เฟสที่แตกต่างกัน พฤติกรรมของแต่ละเฟสของวัตถุสามารถแสดงตามทฤษฎีได้ด้วยฟังก์ชันการแจกแจงความน่าจะเป็นแบบต่อเนื่อง แต่ข้อมูลของฉันมีเพียงตัวอย่างที่ไม่ต่อเนื่อง การกระจาย Weibull น่าจะเป็นฟังก์ชัน "เชิงทฤษฎี" ที่อยู่เบื้องหลังข้อมูลของฉัน แต่ข้อมูลนั้นเป็นเพียงการวัดความหนาแน่นในช่วงเวลาที่ไม่ต่อเนื่อง
เครื่องจักรโหยหา

คำตอบ:


5

(การคำนวณ) Geometry สารสนเทศเป็นเขตข้อมูลที่เกี่ยวข้องกับปัญหาประเภทนี้อย่างแน่นอน K- หมายถึงมีส่วนขยายที่เรียกว่าBregman k- หมายถึงที่ใช้ divergences (ซึ่งยกกำลัง Euclidean ของมาตรฐาน K- หมายถึงเป็นกรณีเฉพาะ แต่ยัง Kullback-Leibler) ความแตกต่างที่กำหนดเกี่ยวข้องกับการแจกแจงเช่น Euclidean กำลังสองถึง Gaussian

คุณยังสามารถดูผลงานของFrank Nielsenได้เช่นกัน

นอกจากนี้คุณยังสามารถดูระยะทาง Wasserstein (การขนส่งที่ดีที่สุด) ที่กล่าวถึงระยะทาง Earth Mover ในโพสต์ก่อนหน้า


3

ในรายงานของพวกเขาเกี่ยวกับอัลกอริธึม EP-หมายถึง Henderson และคณะทบทวนวิธีการแก้ไขปัญหานี้และให้พวกเขาเอง พวกเขาพิจารณา:

  1. การจัดกลุ่มพารามิเตอร์ - กำหนดพารามิเตอร์สำหรับการแจกแจงตามความรู้ก่อนหน้าของการแจกแจงและการจัดกลุ่มตามพารามิเตอร์เหล่านั้น
    • โปรดทราบว่าที่นี่คุณสามารถใช้งานได้จริงกับข้อมูลไม่ใช่แค่การประมาณพารามิเตอร์ซึ่งมีประโยชน์หากคุณรู้ว่าข้อมูลของคุณมาจากการกระจายตัวที่แตกต่างกัน
  2. ฮิสโตแกรม binning - แยกข้อมูลลงในถังขยะและพิจารณาแต่ละ bin เป็นมิติที่จะใช้ในการจัดกลุ่มเชิงพื้นที่
  3. EP-หมายถึง (แนวทางของพวกเขา) - กำหนด centroids กระจาย (ส่วนผสมของการกระจายทั้งหมดที่กำหนดให้คลัสเตอร์) และลดผลรวมของกำลังสองของโลกผู้เสนอญัตติของระยะทางที่ (บางอย่างเช่นค่าที่คาดหวังของระยะห่างระหว่าง CDFS) ระหว่าง เซนทรอยด์แบบกระจายและการแจกแจงที่กำหนดให้กับคลัสเตอร์นั้นL1

อีกเทคนิคที่ฉันใช้กับความสำเร็จคือการจัดกลุ่มจุดที่สังเกตได้ทั้งหมดจากการแจกแจงทั้งหมดทีละรายการจากนั้นมอบหมายให้กับการกระจายตัวฉันความน่าจะเป็นแบบนุ่มนวลสอดคล้องกับสัดส่วนของจุดที่สิ้นสุดในแต่ละกลุ่ม ข้อเสียมันยากมากที่จะแยกการแจกแจงแบบนั้น ในทางกลับกันมันเป็นระบบทำให้เป็นปกติโดยอัตโนมัติและถือว่าการแจกแจงทั้งหมดเหมือนกัน ฉันจะใช้เมื่อต้องการคุณสมบัติการทำให้เป็นมาตรฐานเท่านั้น


1
ยินดีต้อนรับสู่เว็บไซต์ของเรา! โปรดทราบว่าคุณสามารถใช้มาร์กอัปลาเท็กซ์ได้ที่นี่โดยการใส่ข้อความไว้ในเครื่องหมายดอลลาร์เช่น$i$สร้างหรือสร้างซึ่งสามารถทำให้คุณแสดงออกได้ง่ายขึ้นลิตร2i$l_2$l2
Silverfish

1

คุณควรดำเนินการในสองขั้นตอน (1) การลดข้อมูลและ (2) การทำคลัสเตอร์

สำหรับขั้นตอน (1) คุณควรตรวจสอบข้อมูลของคุณอย่างรอบคอบและพิจารณาการกระจายความน่าจะเป็นที่สมเหตุสมผลสำหรับข้อมูลของคุณ คุณดูเหมือนจะคิดเกี่ยวกับขั้นตอนนี้แล้ว ขั้นตอนต่อไปคือการประมาณค่าพารามิเตอร์ของการแจกแจงเหล่านี้ คุณอาจใส่โมเดลแยกต่างหากสำหรับแต่ละหน่วยที่จะทำคลัสเตอร์หรืออาจเหมาะสมที่จะใช้รูปแบบที่ซับซ้อนยิ่งขึ้นเช่นโมเดลเชิงเส้นผสมทั่วไป

สำหรับขั้นตอน (2) คุณสามารถทำคลัสเตอร์โดยยึดตามการประมาณพารามิเตอร์เหล่านี้ ในขั้นตอนนี้คุณควรมีการประมาณการพารามิเตอร์จำนวนน้อยต่อหน่วย ตามที่อธิบายไว้ในคำตอบของโพสต์นี้คุณสามารถทำคลัสเตอร์กับการประมาณพารามิเตอร์เหล่านี้

คำตอบนี้ค่อนข้างคลุมเครือ - ไม่มีวิธีแก้ปัญหา "กระป๋อง" ที่นี่และจำเป็นต้องมีความเข้าใจด้านสถิติอย่างมากสำหรับแต่ละขั้นตอนในการเลือกจากจำนวนวิธีที่เกือบไม่มีที่สิ้นสุดซึ่งอาจเกี่ยวข้องกันขึ้นอยู่กับปัญหาเฉพาะของคุณ คำแถลงคำถามของคุณแสดงให้เห็นว่าคุณมีความรู้ทางสถิติด้วยตนเองค่อนข้างมากซึ่งน่ายกย่อง แต่คุณยังมีความเข้าใจผิดพื้นฐานเกี่ยวกับแนวคิดทางสถิติหลักเช่นความแตกต่างระหว่างการแจกแจงความน่าจะเป็นและการสังเกตจากการแจกแจงความน่าจะเป็น . ลองพิจารณา / ตรวจสอบหลักสูตรสถิติทางคณิตศาสตร์หนึ่งหรือสองหลักสูตร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.