ฉันมีความคิดเล็กน้อยที่จะแบ่งปันเกี่ยวกับการลดมิติในปัญหาการเรียนรู้ที่ไม่ได้รับการดูแล ในการตอบฉันคิดว่าความสนใจของคุณคือการตีความการมีส่วนร่วมของกลุ่มมนุษย์ "สัมผัสสูง" ซึ่งตรงข้ามกับการเรียนรู้ด้วยเครื่องอัตโนมัติแบบครบวงจรกล่องดำและ "การสัมผัสต่ำ" ซึ่งเป็นวิธีการตีความโดยเจตนา . ถ้าเป็นหลังทำไมคุณถึงถามคำถาม? นอกจากนี้โปรดทราบว่าฉันมีประสบการณ์มากมายในการใช้งานโซลูชันคลัสเตอร์ในสภาพแวดล้อมทางธุรกิจที่หลากหลายในช่วงหลายปีที่ผ่านมารวมถึงการตลาดเชิงกลยุทธ์ B2C, เทคโนโลยีด้าน B2B และนโยบายการศึกษา (การจัดกลุ่มนักเรียนและโรงเรียน)
ก่อนอื่นฉันมีคำถามเกี่ยวกับความคิดเห็นของคุณเกี่ยวกับ "การจัดกลุ่มชุดข้อมูลที่ต่างกัน" ฉันไม่รู้ว่าคุณหมายถึงอะไรหรืออาจส่งผลกระทบต่อวิธีการและหวังว่าคุณจะสามารถอธิบายรายละเอียดได้
ฉันต้องการท้าทายสมมติฐานของคุณใน # 1 ข้างต้นว่าโซลูชันที่ใช้ PCAs นั้น "ยากที่จะตีความ" สาเหตุของการใช้ PCA เป็นขั้นตอนเบื้องต้นในการจัดกลุ่มส่วนใหญ่เกี่ยวข้องกับสุขอนามัยของโซลูชันที่เกิดขึ้นเนื่องจากอัลกอริทึมการจัดกลุ่มจำนวนมากมีความอ่อนไหวต่อความซ้ำซ้อน PCA ยุบความซ้ำซ้อนนี้เป็นส่วนประกอบที่จัดการได้ซึ่งช่วยลดความท้าทายและความยากลำบากที่คุณจดบันทึกเกี่ยวกับการเลือกคุณสมบัติ ในขณะที่มันเป็นความจริงที่ว่าส่วนประกอบที่ส่งออกจาก PCA เบลอความละเอียดและความจำเพาะของคุณสมบัติแต่ละอย่างนั้นเป็นปัญหาหากคุณใช้ แต่เพียงผู้เดียวในองค์ประกอบเหล่านั้นในการวิเคราะห์ผลลัพธ์ กล่าวอีกนัยหนึ่งคุณไม่ได้ล็อคการใช้องค์ประกอบเฉพาะสำหรับการตีความคลัสเตอร์ ไม่เพียงแค่นั้นคุณไม่จำเป็นต้องสนใจสิ่งที่ขนาดปัจจัย "หมายถึง" ด้วยซ้ำ พวกเขาเป็นเพียงสื่อกลางและ (ท้ายที่สุด) หมายถึงการสิ้นสุดเพื่ออำนวยความสะดวกในการแก้ปัญหาที่ดำเนินการได้ แต่ในการทำให้ประเด็นนี้ฉันแตกต่างจากผู้ฝึกหัดหลายคนเนื่องจากทีมสามารถทำได้และใช้เวลาหลายสัปดาห์อย่างระมัดระวังในการสร้างโซลูชันปัจจัย สำหรับฉันนี่เป็นการเสียเวลาและเงินของลูกค้าอย่างไม่มีประสิทธิภาพ
ณ จุดนี้จะมีการพิจารณาทางเทคนิคเพื่อแก้ไขที่อยู่ สำหรับหนึ่งถ้าอัลกอริทึม PCA ของคุณไม่ได้ปรับขนาดคงที่ (เช่น OLS vs ML) แล้วโซลูชัน PCA ใด ๆ ที่ได้จะบิดเบี้ยวโหลดมากขึ้นในคุณสมบัติความแปรปรวนสูง ในกรณีเหล่านี้คุณสมบัติของคุณจำเป็นต้องได้รับการประมวลผลล่วงหน้าหรือแปลงในบางวิธีเพื่อทำให้ความแปรปรวนนี้แบน มีความเป็นไปได้จำนวนมากที่นี่รวมถึงการกำหนดค่ามาตรฐานช่วงหรือมาตรฐาน IQR มาตราส่วนแบบ ipsative และอื่น ๆ ใช้ประโยชน์จากการเปลี่ยนแปลงที่มอบโซลูชันที่ดีที่สุดและสามารถตีความได้มากที่สุด
เมื่อสร้างโซลูชันคลัสเตอร์การตีความจะได้รับแรงบันดาลใจที่ดีที่สุด (จากประสบการณ์ของฉัน) โดยการละเว้นส่วนประกอบและย้อนกลับไปในคุณสมบัติดั้งเดิมพร้อมกับข้อมูลอธิบายเพิ่มเติมที่ไม่ได้ใช้โดยตรงในโซลูชัน ณ จุดนี้การวิเคราะห์พฤติกรรมสองสามคำเป็นแนวทางที่ดีที่สุดในการทำความเข้าใจเชิงคุณภาพ สิ่งนี้สามารถทำได้ง่ายเหมือนกับการสร้างสเปรดชีตที่โปรไฟล์กลุ่มของคุณตามค่าเฉลี่ยหรือค่ามัธยฐานสำหรับแต่ละคุณลักษณะ (แถวของชีต) สำหรับแต่ละคลัสเตอร์ (คอลัมน์) รวมถึงคอลัมน์เพิ่มเติมที่แสดงถึงค่าเฉลี่ยทั้งหมดสำหรับตัวอย่างทั้งหมดของคุณ . จากนั้นโดยการจัดทำดัชนีค่าเฉลี่ยของคลัสเตอร์สำหรับแต่ละคุณลักษณะเทียบกับค่าเฉลี่ยแกรนด์ (และคูณด้วย 100) ฮิวริสติกถูกสร้างขึ้นซึ่งคล้ายกับคะแนนไอคิวตราบเท่าที่ "100" คือ "ปกติ" IQ หรือพฤติกรรมเฉลี่ย ดัชนีที่มีมากกว่า 120 รายการมีความเป็นไปได้สูงที่คุณลักษณะจะเป็น "จริง" เกี่ยวกับพฤติกรรมของกลุ่มและดัชนี 80 หรือน้อยกว่านั้นบ่งบอกถึงคุณลักษณะที่เป็น "ไม่จริง" ของกลุ่ม ดัชนีเหล่านี้ที่ 120+ และ 80 หรือน้อยกว่านั้นเหมือนการทดสอบพร็อกซีสำหรับความสำคัญของคุณลักษณะที่กำหนดในการผลักดันโซลูชัน แน่นอนคุณสามารถเรียกใช้ระหว่างการทดสอบกลุ่มที่มีความสำคัญและขึ้นอยู่กับขนาดของกลุ่มตัวอย่างจะได้รับคำตอบที่แตกต่างกันไปตามกฎของหัวแม่มือที่รวดเร็วและสกปรก
ตกลง ... หลังจากนั้นสมมติว่าคุณยังคงต่อต้านการใช้ PCA เป็นอินพุตโดยตรงในอัลกอริทึมการจัดกลุ่มปัญหายังคงเกี่ยวกับวิธีการเลือกชุดคุณลักษณะที่ลดลง PCA ยังคงมีประโยชน์ที่นี่เนื่องจาก PCAs นั้นเหมือนกับการถดถอยโดยไม่มีตัวแปรตาม คุณสมบัติการโหลดสูงสุดของแต่ละองค์ประกอบสามารถกลายเป็นอินพุตไปยังอัลกอริทึมคลัสเตอร์
ถึงจุดของคุณเกี่ยวกับฟีเจอร์จำนวนมากและขนาดตัวอย่างที่ค่อนข้างเล็กของข้อมูลกฎทั่วไปในการวิเคราะห์หลายตัวแปรแบบ "ข้อมูลครบถ้วน" นั้นมีการสังเกตอย่างน้อย 10 ข้อต่อฟีเจอร์ มีวิธีพิเศษบางอย่างที่สามารถยกระดับเพื่อแก้ไขปัญหานี้ ยกตัวอย่างเช่นบางส่วนกำลังสองน้อยที่สุด (PLS) ได้รับการพัฒนาเป็นครั้งแรกโดยเฮอร์แมนโวลด์ในปี 1990 หนังสือทฤษฎีประจักษ์นิยมของเขาเพื่อใช้ในด้านต่าง ๆ เช่นเคมีบำบัดซึ่งต้องเผชิญกับปัญหาที่แม่นยำนี้ มันคือการวิเคราะห์ปัจจัยในธรรมชาติ แต่มีความเข้มงวดน้อยกว่าในการกำหนดขนาดใหญ่ n เพื่อสร้างมิติ โซลูชันอื่น ๆ รวมถึงวิธีการเรียนรู้ด้วยเครื่อง "แบ่งและพิชิต" แบบป่าที่ใช้กับข้อมูลจำนวนมหาศาล วิธีการเหล่านี้ได้รับการตรวจสอบใน pdf นี้http://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
แต่สมมติว่าคุณตัดสินใจแล้วว่าคุณยังไม่ต้องการทำอะไรกับการวิเคราะห์ปัจจัยและตั้งค่าการเรียกใช้ขั้นตอนการคัดเลือกแบบ "เรียงลำดับ" แบบตายตัว ในมุมมองของฉันปัญหาที่สำคัญที่สุดคือการค้นหาตัวชี้วัดประสิทธิภาพหลังการทำดัชนี (ดัชนีดันน์) และอื่น ๆ เกี่ยวกับการระบุพร็อกซีที่เหมาะสมซึ่งเป็นตัวแปรตาม - เพื่อทำให้วิธีการนี้เป็นไปได้ การตัดสินใจนี้เป็นฟังก์ชั่นการตัดสินและสถานะ SME ของคุณทั้งหมด ไม่มี "แนวปฏิบัติที่ดีที่สุด" คำตอบที่ง่ายน้อยกว่ามากสำหรับเรื่องนี้และให้วิธีที่คุณอธิบายข้อมูลของคุณไม่มีความท้าทายเล็กน้อย
เมื่อทำการตัดสินใจแล้วมีตัวเลือกการเลือกตัวแปรที่เป็นไปได้หลายร้อยตัวให้เลือก การเลือกตัวแปรเป็นพื้นที่หัวข้อที่นักสถิติและน้องชายทุกคนตีพิมพ์บทความ วิธีที่คุณต้องการดูเหมือนจะเป็น "การเลือกไปข้างหน้าตามลำดับ" ไม่เป็นไร
เป็นที่น่าสังเกตว่ารูปแบบการเรียนรู้ภายใต้การดูแลมีอยู่ซึ่งพับในโซลูชันคลัสเตอร์ซึ่งเป็นส่วนหนึ่งของอัลกอริทึม ตัวอย่างของสิ่งนี้รวมถึงวิธีการขนาดใหญ่และมีความยืดหยุ่นสูงที่รู้จักกันในชื่อแบบจำลองระดับแฝง สาระสำคัญของโมเดล LC คือพวกเขามีสองขั้นตอน: ในขั้นตอนแรกกำหนด DV และสร้างแบบจำลองการถดถอย ในขั้นตอนที่สองความหลากหลายที่แตกต่างกันในเอาต์พุตที่เหลือจากตัวแบบ - เวกเตอร์แฝงตัวเดียว - ถูกแบ่งพาร์ติชันเป็น "คลาส" ที่แฝงอยู่ มีภาพรวมของการสร้างแบบจำลองในการอภิปราย LC CV นี้ที่นี่ ... ชั้นแฝง logit พหุนามรุ่นข้อสงสัย
หวังว่านี่จะช่วยได้