ฉันมีจุดข้อมูลบางอย่างซึ่งแต่ละอันประกอบด้วย 5 เวกเตอร์ของผลลัพธ์ที่ไม่ต่อเนื่องแบบจับกันเป็นกลุ่มผลของเวกเตอร์แต่ละตัวที่สร้างโดยการกระจายตัวที่แตกต่างกัน (ชนิดที่ฉันไม่แน่ใจการคาดเดาที่ดีที่สุดของฉันคือ Weibull กฎหมาย (1 ถึง 0, ประมาณ)
ฉันกำลังมองหาที่จะใช้อัลกอริทึมการจัดกลุ่มเช่น K-Means เพื่อใส่แต่ละจุดข้อมูลลงในกลุ่มตามคุณลักษณะของการกระจายองค์ประกอบ 5 ฉันสงสัยว่ามีตัวชี้วัดระยะทางที่กำหนดไว้หรือไม่ซึ่งจะสวยงามสำหรับวัตถุประสงค์เหล่านี้ ฉันมีความคิดสามข้อ แต่ฉันไม่ใช่นักสถิติที่มีประสบการณ์ (เป็นนักวิทยาศาสตร์คอมพิวเตอร์การขุดข้อมูลเริ่มต้น) ดังนั้นฉันจึงมีความคิดเล็ก ๆ น้อย ๆ ว่าฉันอยู่ไกลแค่ไหน
เนื่องจากฉันไม่รู้แน่ชัดว่าการแจกแจงแบบไหนฉันกำลังเข้าใกล้ปัญหาของฉันคือการสับการกระจายแต่ละครั้ง (ฉันมี 5 ต่อจุด) ลงในแต่ละค่าของข้อมูลที่ไม่ต่อเนื่อง (ฉันแพด แต่ละอันที่สอดคล้องกับความยาวเดียวกันกับศูนย์ที่ท้าย) และใช้แต่ละค่าเหล่านี้เป็นแอตทริบิวต์ที่แยกต่างหากสำหรับจุดข้อมูลเอง ฉันลองใช้ทั้งระยะทางแมนฮัตตันและระยะทางแบบยุคลิดเป็นตัวชี้วัดตามคุณลักษณะเหล่านี้สำหรับทั้ง PDF และ CDF
อีกครั้งเนื่องจากฉันไม่ทราบว่ามีการแจกแจงแบบใดฉันจึงคิดว่าถ้าฉันจะวัดระยะห่างระหว่างการแจกแจงโดยรวมฉันสามารถใช้การทดสอบแบบไม่อิงพารามิเตอร์ระหว่างการแจกแจงเช่นการทดสอบ KS เพื่อค้นหาโอกาสที่การแจกแจงที่กำหนดถูกสร้างขึ้นโดย PDF ที่แตกต่างกัน ฉันคิดว่าตัวเลือกแรกของฉัน (ด้านบน) โดยใช้ระยะทางแมนฮัตตันจะเป็นขอบเขตบนของสิ่งที่ฉันอาจใช้วิธีนี้ (เนื่องจากสถิติ KS คือค่าสัมบูรณ์สูงสุดของความแตกต่างของ CDFs ซึ่งระยะทางแมนฮัตตันเป็น ผลรวมของค่าสัมบูรณ์ของความแตกต่างใน PDF) จากนั้นฉันพิจารณาการรวมสถิติ KS หรือค่า P ที่แตกต่างกันในแต่ละจุดข้อมูลอาจใช้ระยะทางแบบยุคลิด แต่อาจจะใช้ค่าสูงสุดเหล่านี้ทั้งหมด
สุดท้ายในความพยายามที่จะใช้สิ่งเล็ก ๆ น้อย ๆ ที่ฉันสามารถตีความเกี่ยวกับรูปร่างของการแจกแจงฉันคิดว่าฉันอาจลองประเมินค่าพารามิเตอร์ของการแจกแจงให้พอดีกับเส้นโค้ง Weibull ฉันสามารถจัดกลุ่มการแจกแจงตามความแตกต่างของพารามิเตอร์สองตัวของการแจกแจงแบบ Weibull แลมบ์ดาและเค (สเกลและรูปร่าง) ซึ่งอาจเป็นมาตรฐานตามความแปรปรวนของพารามิเตอร์เหล่านี้หรือบางอย่างของการเรียงลำดับ นี่เป็นกรณีเดียวที่ฉันคิดว่าฉันอาจมีความคิดเกี่ยวกับวิธีทำให้พารามิเตอร์เป็นมาตรฐาน
ดังนั้นคำถามของฉันคือสิ่งที่คุณจะแนะนำการวัด / วิธีการสำหรับการรวมกลุ่มของการกระจาย? ฉันยังอยู่ในเส้นทางที่ถูกต้องกับสิ่งเหล่านี้หรือไม่? K-Means เป็นอัลกอริทึมที่ดีในการใช้งานหรือไม่?
แก้ไข: ชี้แจงข้อมูล
จุดข้อมูลแต่ละจุด (แต่ละวัตถุObj
ที่ฉันต้องการทำคลัสเตอร์) มี5 vectors
ข้อมูลอยู่จริง ฉันรู้ว่ามีว่า 5 ขั้นตอนว่าวัตถุเหล่านี้สามารถอยู่ใน. เราจะบอก (สำหรับวัตถุประสงค์ของการทำให้เข้าใจง่าย) length N
ว่าแต่ละเวกเตอร์คือ
หนึ่งของเวกเตอร์เหล่านี้ (เรียกว่าแต่ละคนvector i
) คือการกระจายความน่าจะเป็นกับจำนวนเต็มx-values
ของ 1 ถึง N ซึ่งแต่ละสอดคล้องค่า y แสดงให้เห็นถึงความน่าจะเป็นของวัดvalue x
ในของวัตถุphase i
Obj
N คือค่า x สูงสุดที่ฉันคาดว่าจะวัดในระยะใด ๆ ของวัตถุ (นี่ไม่ใช่จำนวนที่แน่นอนในการวิเคราะห์ของฉัน)
ฉันพิจารณาความน่าจะเป็นเหล่านี้ในลักษณะดังต่อไปนี้:
ฉันทำแบบเดี่ยว
Obj
และใส่เข้าไปphase i
เพื่อk trials
ทำการวัดในแต่ละการทดลอง การวัดแต่ละครั้งเป็นจำนวนเต็มเดียว ฉันทำสิ่งนี้สำหรับแต่ละ 5 ขั้นตอนของวัตถุเดียวและในทางกลับกันสำหรับแต่ละวัตถุ ข้อมูลการวัดแบบดิบของฉันสำหรับวัตถุเดียวอาจมีลักษณะดังนี้:เวกเตอร์ 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]
เวกเตอร์ 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0, 0]
...
เวกเตอร์ 5 [16, ... ... , 0]
จากนั้นฉันก็ทำให้เวกเตอร์แต่ละตัวเป็นปกติด้วยความเคารพต่อจำนวนการวัดทั้งหมดในเวกเตอร์นั้น นี้จะช่วยให้ฉันกระจายในเวกเตอร์ที่ซึ่งแต่ละที่สอดคล้องค่า y แสดงให้เห็นถึงความน่าจะเป็นของวัดใน
value x
phase i