การประเมินกลุ่มของลูกโซ่มาร์คอฟอันดับหนึ่ง


10

ฉันจัดกลุ่มชุดข้อมูลของมาร์คอฟอันดับหนึ่งหลายพันกลุ่มเป็นกลุ่มประมาณ 10 กลุ่ม

มีวิธีที่แนะนำบางอย่างที่ฉันสามารถประเมินกลุ่มเหล่านี้และค้นหารายการในกลุ่มที่ใช้ร่วมกันและสิ่งที่แตกต่างจากกลุ่มอื่น ๆ ? ดังนั้นฉันสามารถสร้างคำสั่งเช่น "กระบวนการในกลุ่ม A มักจะอยู่ในสถานะ Y เมื่อพวกเขาไปถึงที่นั่นซึ่งไม่เป็นความจริงสำหรับกระบวนการในกลุ่มอื่น ๆ "

เมทริกซ์การเปลี่ยนแปลงของเชนมาร์คอฟนั้นใหญ่เกินกว่าที่จะ "มองและมอง" พวกมันค่อนข้างเบาบางหากสามารถช่วยได้

ความคิดของฉันคือการใช้เมทริกซ์การเปลี่ยนแปลงทั้งหมดในกลุ่มรวมพวกเขาและพล็อตมันเป็นความเข้มในภาพ (ในระดับจาก 0 ถึง 255) มีอะไรเป็น "มืออาชีพ" มากกว่านี้ที่ฉันควรลอง?


คุณรู้หรือไม่ว่ากระบวนการเหล่านี้เป็นเครือข่ายการตลาดอันดับหนึ่ง (และถ้าเป็นเช่นนั้นได้อย่างไร) สมมติว่าคำตอบสำหรับเรื่องนี้เป็นคำยืนยันแล้วคุณรู้อะไรเพิ่มเติมเกี่ยวกับโครงสร้างข้อมูลเบื้องต้น ? ฉันพยายามระบุสาเหตุที่คุณสนใจจัดกลุ่มตั้งแต่แรก; ฉันสงสัยว่าการรู้แบบนี้จะช่วยให้ผู้อ่านของเราแนะนำคุณอย่างมีประสิทธิภาพมากขึ้นในการแก้ปัญหา
พระคาร์ดินัล

ข้อมูลต้นฉบับคือกระแสการคลิกที่สร้างโดยผู้ใช้บนเว็บไซต์ของฉัน ฉันสร้างกระบวนการมาร์คอฟเพื่อให้แต่ละกระบวนการอธิบายการคลิกสตรีมของผู้ใช้คนหนึ่ง ฉันรู้ว่ามีหนังสือและเอกสารที่บอกว่าโซ่มาร์คอฟไม่เพียงพอสำหรับเรื่องนี้ แต่ข้อมูลของฉันไม่ได้รวม URL ที่แน่นอนที่ผู้ใช้ร้องขอเพียงแค่ "แอปพลิเคชัน" URL นั้นเป็นของ (เว็บไซต์ของฉันเป็นระบบข้อมูลที่แบ่งออกเป็น 105 เรียกว่า "แอปพลิเคชัน" ซึ่งส่วนใหญ่มีส่วนประกอบของเว็บไซต์เชื่อมโยงผ่านโฮมเพจและเมนูด้านข้างในทุกหน้า)
user7610

ฉันสนใจในการทำคลัสเตอร์เพราะฉันต้องการเปิดเผยกลุ่มผู้ใช้ที่มีรูปแบบคล้ายคลึงกันในการใช้เว็บไซต์ ฉันตั้งสมมติฐานว่ารูปแบบที่โซ่มาร์คอฟจับเพียงพอที่จะแยกแยะกลุ่มดังกล่าว ฉันตรวจสอบว่ากลุ่มที่ฉันสร้างขึ้นนั้นสอดคล้องกับบทบาทที่ผู้ใช้มีในไซต์อย่างไรและมักจะดูว่าในคลัสเตอร์มีผู้ใช้จำนวนมากจากบทบาทหนึ่งและมีเพียงไม่กี่บทบาทจากบทบาทอื่น ๆ ดังนั้นจึงมีแนวโน้ม หวังว่าจะช่วย
user7610

สวัสดีฉันพบปัญหาเดียวกัน สุดท้ายคุณแก้ปัญหาได้อย่างไร
น่าน

@ นานฉันไม่ได้ฉันต้องการเพียงแค่ในโครงการระยะดังนั้นฉันก็ทำอย่างอื่น ถ้าฉันต้องแก้มันตอนนี้ฉันจะลองดูที่en.wikipedia.org/wiki/…สำหรับการทำคลัสเตอร์ครั้งแรก t-SNE เป็นที่นิยมอย่างมากในทุกวันนี้และ IMO เหมาะสม ฉันหวังว่าผลลัพธ์ที่ฉันได้รับจะมีความหมายมากกว่าผลลัพธ์ที่ได้รับจากวิธีการเฉพาะกิจของฉัน และการใช้สิ่งที่ยอดเยี่ยมที่ค่อนข้างใหม่จะทำให้ครูพึงพอใจ;)
7610

คำตอบ:


1

ในการสร้างคำสั่งเกี่ยวกับพฤติกรรมของสภาวะคงที่ของแต่ละกลุ่มคุณสามารถคำนวณการแจกแจงสถานะคงที่ของแต่ละเมทริกซ์การเปลี่ยนแปลงโดย eigenvectors แล้วเปรียบเทียบกล่องแปลงตามกลุ่ม คุณอาจพบปัญหาในการคำนวณสถานะคงที่โดยไม่ต้องปรับให้เรียบก่อน

คุณจัดกลุ่มเมทริกซ์การเปลี่ยนแปลงเป็นอย่างไร ถ้าเป็นฉันฉันจะใช้การปรับให้เรียบกับสารเติมแต่งในแต่ละแถวจากนั้นใช้การแปลงอัตราส่วนล็อก - ศูนย์กลางของแต่ละแถวจากนั้นปรับเมทริกซ์ให้เรียบ

หากคุณกำลังทำคลัสเตอร์ด้วย K-Mean หรือตัวแปรคุณสามารถวิเคราะห์ศูนย์คลัสเตอร์ปกติได้ หรือเพียงแค่เลือกการสังเกตจากแต่ละกลุ่มและวิเคราะห์


0

ก่อนอื่นเพื่อให้ได้ความคิดเมทริกซ์ของคุณมีขนาด 105 x 105 สอดคล้องกับแอปพลิเคชันที่คุณพูดถึงหรือไม่? เมื่อคุณพูดว่า 'อยู่ในสถานะ Y' หมายความว่าติดแอปพลิเคชัน Y หรือไม่

จากนั้นฉันจะสมมติว่าผลลัพธ์เช่น "กระบวนการในคลัสเตอร์ A มักจะอยู่ในสถานะ Y เมื่อไปถึงที่นั่นซึ่งไม่เป็นความจริงสำหรับกระบวนการในกลุ่มอื่น" เป็นบิตที่ละเอียดเกินไปมีเพียง 10 คลัสเตอร์ คุณลองทำคลัสเตอร์ของโดเมนแอปพลิเคชันแล้วหรือไม่ - ถ้าฉันเข้าใจถูกต้องคุณสามารถจัดกลุ่มแอปพลิเคชัน 105 รายการตามพฤติกรรมของผู้ใช้ได้ ต่อไปคุณดูที่การปรากฏตัวของผู้ใช้มากกว่าการเปลี่ยนแปลงคือดูที่โปรไฟล์ของผู้ใช้ในแอปพลิเคชัน 105 หรือไม่ ดูเหมือนว่าคุณสามารถใช้สัมประสิทธิ์เพียร์สันระหว่างโปรไฟล์ผู้ใช้ได้ ไม่ว่าจะเป็นกลุ่มแอปพลิเคชันหรือแอปพลิเคชันเอง สิ่งนี้อาจขยายไปสู่ช่วงการเปลี่ยนภาพระหว่างแอปพลิเคชัน แต่ขณะนี้ฉันรู้สึกว่ามีความไม่ตรงกันอย่างมากระหว่างจำนวนกลุ่มและประเภทของผลลัพธ์ที่คุณสนใจ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.