การเลือกคุณสมบัติสำหรับปัญหาการทำคลัสเตอร์


9

ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่แตกต่างกันโดยใช้อัลกอริทึมที่ไม่ได้รับการสำรอง (การจัดกลุ่ม) ปัญหาคือฉันมีคุณสมบัติหลายอย่าง (~ 500) และจำนวนคดีเล็กน้อย (200-300)

จนถึงตอนนี้ฉันเคยทำเฉพาะปัญหาการจำแนกซึ่งฉันมักจะมีข้อมูลที่ระบุว่าเป็นชุดฝึกอบรม ที่นั่นฉันใช้เกณฑ์บางอย่าง (เช่น random.forest.importance หรือ information.gain) สำหรับการเลือกคุณสมบัติล่วงหน้าจากนั้นฉันใช้การเลือกไปข้างหน้าตามลำดับสำหรับผู้เรียนที่แตกต่างกันเพื่อค้นหาคุณลักษณะที่เกี่ยวข้อง

ตอนนี้ฉันเห็นว่าในกรณีของการเรียนรู้ที่ไม่มีผู้ดูแลฉันไม่มีเกณฑ์สำหรับการเลือกล่วงหน้าและฉันไม่สามารถใช้การเลือกไปข้างหน้าตามลำดับ (อย่างน้อยไม่ได้อยู่ในแพ็คเกจ MLR)

ฉันสงสัยว่าฉันสามารถทำการวิเคราะห์องค์ประกอบหลักก่อนที่จะค้นหาคุณลักษณะจำนวนเล็กน้อยเพื่อนำไปใช้กับอัลกอริทึมการจัดกลุ่มของฉันหรือไม่ หรือคุณมีความคิดอื่น ๆ

ขอบคุณ

แก้ไข:

ตกลงดังนั้นหลังจากการวิจัยออนไลน์ฉันสามารถอัปเดตคำถามของฉันได้นิดหน่อย: ก่อนอื่นฉันได้อ่านบางบทความที่ไม่สนับสนุนการใช้ PCA ก่อนอัลกอริทึมการจัดกลุ่มเนื่องจากเหตุผลสองประการ:

  • พีซีเป็นฟังก์ชั่นของฟีเจอร์ทั้งหมดดังนั้นจึงยากที่จะสัมพันธ์กับผลลัพธ์ของชุดข้อมูล inital และทำให้ยากต่อการตีความ

  • ยิ่งไปกว่านั้นถ้าคุณมีปัญหาที่จริงแล้วคุณสมบัติเพียงเล็กน้อยของคุณมีประโยชน์ในการทำคลัสเตอร์ก็ไม่ได้กล่าวว่าคุณสมบัติเหล่านี้ยังอธิบายถึงความแปรปรวนที่ใหญ่ที่สุดในกลุ่มตัวอย่าง (ซึ่งเป็นสิ่งที่พีซีทำ)

PCA อยู่นอกโต๊ะ ...

ตอนนี้ฉันกลับไปที่แนวคิดเริ่มต้นของฉันเพื่อทำการเลือกการส่งต่อตามลำดับสำหรับการทำคลัสเตอร์

คุณต้องการแนะนำการวัดประสิทธิภาพแบบใด? (ฉันคิดเกี่ยวกับ Dunn-Index) อัลกอริทึมการจัดกลุ่มใดที่จะนำไปสู่กลุ่มที่มีขนาดเท่ากันหรือมากกว่า (สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะได้รับหนึ่งคลัสเตอร์ที่มีค่าผิดปกติเดียวและอีกส่วนที่เหลือทั้งหมด -> ดังนั้นฉันจะต้องการบางสิ่งที่ป้องกันอย่างใดต่อผู้ผิด)

หวังว่าพวกคุณจะช่วยฉัน ...


ป่าสุ่มสามารถนำไปใช้ในปัญหาที่ไม่ได้รับการดูแล และฉันคิดว่าคุณยังสามารถดึงข้อมูลที่เป็นประโยชน์บางอย่างในกระบวนการได้
amanita kiki

คำตอบ:


11

ฉันมีความคิดเล็กน้อยที่จะแบ่งปันเกี่ยวกับการลดมิติในปัญหาการเรียนรู้ที่ไม่ได้รับการดูแล ในการตอบฉันคิดว่าความสนใจของคุณคือการตีความการมีส่วนร่วมของกลุ่มมนุษย์ "สัมผัสสูง" ซึ่งตรงข้ามกับการเรียนรู้ด้วยเครื่องอัตโนมัติแบบครบวงจรกล่องดำและ "การสัมผัสต่ำ" ซึ่งเป็นวิธีการตีความโดยเจตนา . ถ้าเป็นหลังทำไมคุณถึงถามคำถาม? นอกจากนี้โปรดทราบว่าฉันมีประสบการณ์มากมายในการใช้งานโซลูชันคลัสเตอร์ในสภาพแวดล้อมทางธุรกิจที่หลากหลายในช่วงหลายปีที่ผ่านมารวมถึงการตลาดเชิงกลยุทธ์ B2C, เทคโนโลยีด้าน B2B และนโยบายการศึกษา (การจัดกลุ่มนักเรียนและโรงเรียน)

ก่อนอื่นฉันมีคำถามเกี่ยวกับความคิดเห็นของคุณเกี่ยวกับ "การจัดกลุ่มชุดข้อมูลที่ต่างกัน" ฉันไม่รู้ว่าคุณหมายถึงอะไรหรืออาจส่งผลกระทบต่อวิธีการและหวังว่าคุณจะสามารถอธิบายรายละเอียดได้

ฉันต้องการท้าทายสมมติฐานของคุณใน # 1 ข้างต้นว่าโซลูชันที่ใช้ PCAs นั้น "ยากที่จะตีความ" สาเหตุของการใช้ PCA เป็นขั้นตอนเบื้องต้นในการจัดกลุ่มส่วนใหญ่เกี่ยวข้องกับสุขอนามัยของโซลูชันที่เกิดขึ้นเนื่องจากอัลกอริทึมการจัดกลุ่มจำนวนมากมีความอ่อนไหวต่อความซ้ำซ้อน PCA ยุบความซ้ำซ้อนนี้เป็นส่วนประกอบที่จัดการได้ซึ่งช่วยลดความท้าทายและความยากลำบากที่คุณจดบันทึกเกี่ยวกับการเลือกคุณสมบัติ ในขณะที่มันเป็นความจริงที่ว่าส่วนประกอบที่ส่งออกจาก PCA เบลอความละเอียดและความจำเพาะของคุณสมบัติแต่ละอย่างนั้นเป็นปัญหาหากคุณใช้ แต่เพียงผู้เดียวในองค์ประกอบเหล่านั้นในการวิเคราะห์ผลลัพธ์ กล่าวอีกนัยหนึ่งคุณไม่ได้ล็อคการใช้องค์ประกอบเฉพาะสำหรับการตีความคลัสเตอร์ ไม่เพียงแค่นั้นคุณไม่จำเป็นต้องสนใจสิ่งที่ขนาดปัจจัย "หมายถึง" ด้วยซ้ำ พวกเขาเป็นเพียงสื่อกลางและ (ท้ายที่สุด) หมายถึงการสิ้นสุดเพื่ออำนวยความสะดวกในการแก้ปัญหาที่ดำเนินการได้ แต่ในการทำให้ประเด็นนี้ฉันแตกต่างจากผู้ฝึกหัดหลายคนเนื่องจากทีมสามารถทำได้และใช้เวลาหลายสัปดาห์อย่างระมัดระวังในการสร้างโซลูชันปัจจัย สำหรับฉันนี่เป็นการเสียเวลาและเงินของลูกค้าอย่างไม่มีประสิทธิภาพ

ณ จุดนี้จะมีการพิจารณาทางเทคนิคเพื่อแก้ไขที่อยู่ สำหรับหนึ่งถ้าอัลกอริทึม PCA ของคุณไม่ได้ปรับขนาดคงที่ (เช่น OLS vs ML) แล้วโซลูชัน PCA ใด ๆ ที่ได้จะบิดเบี้ยวโหลดมากขึ้นในคุณสมบัติความแปรปรวนสูง ในกรณีเหล่านี้คุณสมบัติของคุณจำเป็นต้องได้รับการประมวลผลล่วงหน้าหรือแปลงในบางวิธีเพื่อทำให้ความแปรปรวนนี้แบน มีความเป็นไปได้จำนวนมากที่นี่รวมถึงการกำหนดค่ามาตรฐานช่วงหรือมาตรฐาน IQR มาตราส่วนแบบ ipsative และอื่น ๆ ใช้ประโยชน์จากการเปลี่ยนแปลงที่มอบโซลูชันที่ดีที่สุดและสามารถตีความได้มากที่สุด

เมื่อสร้างโซลูชันคลัสเตอร์การตีความจะได้รับแรงบันดาลใจที่ดีที่สุด (จากประสบการณ์ของฉัน) โดยการละเว้นส่วนประกอบและย้อนกลับไปในคุณสมบัติดั้งเดิมพร้อมกับข้อมูลอธิบายเพิ่มเติมที่ไม่ได้ใช้โดยตรงในโซลูชัน ณ จุดนี้การวิเคราะห์พฤติกรรมสองสามคำเป็นแนวทางที่ดีที่สุดในการทำความเข้าใจเชิงคุณภาพ สิ่งนี้สามารถทำได้ง่ายเหมือนกับการสร้างสเปรดชีตที่โปรไฟล์กลุ่มของคุณตามค่าเฉลี่ยหรือค่ามัธยฐานสำหรับแต่ละคุณลักษณะ (แถวของชีต) สำหรับแต่ละคลัสเตอร์ (คอลัมน์) รวมถึงคอลัมน์เพิ่มเติมที่แสดงถึงค่าเฉลี่ยทั้งหมดสำหรับตัวอย่างทั้งหมดของคุณ . จากนั้นโดยการจัดทำดัชนีค่าเฉลี่ยของคลัสเตอร์สำหรับแต่ละคุณลักษณะเทียบกับค่าเฉลี่ยแกรนด์ (และคูณด้วย 100) ฮิวริสติกถูกสร้างขึ้นซึ่งคล้ายกับคะแนนไอคิวตราบเท่าที่ "100" คือ "ปกติ" IQ หรือพฤติกรรมเฉลี่ย ดัชนีที่มีมากกว่า 120 รายการมีความเป็นไปได้สูงที่คุณลักษณะจะเป็น "จริง" เกี่ยวกับพฤติกรรมของกลุ่มและดัชนี 80 หรือน้อยกว่านั้นบ่งบอกถึงคุณลักษณะที่เป็น "ไม่จริง" ของกลุ่ม ดัชนีเหล่านี้ที่ 120+ และ 80 หรือน้อยกว่านั้นเหมือนการทดสอบพร็อกซีสำหรับความสำคัญของคุณลักษณะที่กำหนดในการผลักดันโซลูชัน แน่นอนคุณสามารถเรียกใช้ระหว่างการทดสอบกลุ่มที่มีความสำคัญและขึ้นอยู่กับขนาดของกลุ่มตัวอย่างจะได้รับคำตอบที่แตกต่างกันไปตามกฎของหัวแม่มือที่รวดเร็วและสกปรก

ตกลง ... หลังจากนั้นสมมติว่าคุณยังคงต่อต้านการใช้ PCA เป็นอินพุตโดยตรงในอัลกอริทึมการจัดกลุ่มปัญหายังคงเกี่ยวกับวิธีการเลือกชุดคุณลักษณะที่ลดลง PCA ยังคงมีประโยชน์ที่นี่เนื่องจาก PCAs นั้นเหมือนกับการถดถอยโดยไม่มีตัวแปรตาม คุณสมบัติการโหลดสูงสุดของแต่ละองค์ประกอบสามารถกลายเป็นอินพุตไปยังอัลกอริทึมคลัสเตอร์

ถึงจุดของคุณเกี่ยวกับฟีเจอร์จำนวนมากและขนาดตัวอย่างที่ค่อนข้างเล็กของข้อมูลกฎทั่วไปในการวิเคราะห์หลายตัวแปรแบบ "ข้อมูลครบถ้วน" นั้นมีการสังเกตอย่างน้อย 10 ข้อต่อฟีเจอร์ มีวิธีพิเศษบางอย่างที่สามารถยกระดับเพื่อแก้ไขปัญหานี้ ยกตัวอย่างเช่นบางส่วนกำลังสองน้อยที่สุด (PLS) ได้รับการพัฒนาเป็นครั้งแรกโดยเฮอร์แมนโวลด์ในปี 1990 หนังสือทฤษฎีประจักษ์นิยมของเขาเพื่อใช้ในด้านต่าง ๆ เช่นเคมีบำบัดซึ่งต้องเผชิญกับปัญหาที่แม่นยำนี้ มันคือการวิเคราะห์ปัจจัยในธรรมชาติ แต่มีความเข้มงวดน้อยกว่าในการกำหนดขนาดใหญ่ n เพื่อสร้างมิติ โซลูชันอื่น ๆ รวมถึงวิธีการเรียนรู้ด้วยเครื่อง "แบ่งและพิชิต" แบบป่าที่ใช้กับข้อมูลจำนวนมหาศาล วิธีการเหล่านี้ได้รับการตรวจสอบใน pdf นี้http://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf

แต่สมมติว่าคุณตัดสินใจแล้วว่าคุณยังไม่ต้องการทำอะไรกับการวิเคราะห์ปัจจัยและตั้งค่าการเรียกใช้ขั้นตอนการคัดเลือกแบบ "เรียงลำดับ" แบบตายตัว ในมุมมองของฉันปัญหาที่สำคัญที่สุดคือการค้นหาตัวชี้วัดประสิทธิภาพหลังการทำดัชนี (ดัชนีดันน์) และอื่น ๆ เกี่ยวกับการระบุพร็อกซีที่เหมาะสมซึ่งเป็นตัวแปรตาม - เพื่อทำให้วิธีการนี้เป็นไปได้ การตัดสินใจนี้เป็นฟังก์ชั่นการตัดสินและสถานะ SME ของคุณทั้งหมด ไม่มี "แนวปฏิบัติที่ดีที่สุด" คำตอบที่ง่ายน้อยกว่ามากสำหรับเรื่องนี้และให้วิธีที่คุณอธิบายข้อมูลของคุณไม่มีความท้าทายเล็กน้อย

เมื่อทำการตัดสินใจแล้วมีตัวเลือกการเลือกตัวแปรที่เป็นไปได้หลายร้อยตัวให้เลือก การเลือกตัวแปรเป็นพื้นที่หัวข้อที่นักสถิติและน้องชายทุกคนตีพิมพ์บทความ วิธีที่คุณต้องการดูเหมือนจะเป็น "การเลือกไปข้างหน้าตามลำดับ" ไม่เป็นไร

เป็นที่น่าสังเกตว่ารูปแบบการเรียนรู้ภายใต้การดูแลมีอยู่ซึ่งพับในโซลูชันคลัสเตอร์ซึ่งเป็นส่วนหนึ่งของอัลกอริทึม ตัวอย่างของสิ่งนี้รวมถึงวิธีการขนาดใหญ่และมีความยืดหยุ่นสูงที่รู้จักกันในชื่อแบบจำลองระดับแฝง สาระสำคัญของโมเดล LC คือพวกเขามีสองขั้นตอน: ในขั้นตอนแรกกำหนด DV และสร้างแบบจำลองการถดถอย ในขั้นตอนที่สองความหลากหลายที่แตกต่างกันในเอาต์พุตที่เหลือจากตัวแบบ - เวกเตอร์แฝงตัวเดียว - ถูกแบ่งพาร์ติชันเป็น "คลาส" ที่แฝงอยู่ มีภาพรวมของการสร้างแบบจำลองในการอภิปราย LC CV นี้ที่นี่ ... ชั้นแฝง logit พหุนามรุ่นข้อสงสัย

หวังว่านี่จะช่วยได้


ขอบคุณที่สละเวลาตอบคำถามของฉันอย่างกว้างขวาง ก่อนอื่นมันเป็นเรื่องตลกที่คุณพูดถึงเคมีบำบัดเพราะมันเป็นสิ่งที่ฉันกำลังทำอยู่ ฉันกำลังพยายามค้นหากลุ่มในการวัดตัวอย่างที่แตกต่างกันและคุณสมบัติของฉันเป็นสัญญาณใน nmr-spectrum นี่ก็เป็นเหตุผลหลักที่ทำให้ฉันคิดถึงการยกเลิก PCA ตั้งแต่เนิ่น ๆ เนื่องจากเป้าหมายของการวิเคราะห์ของฉันคือการเชื่อมโยงกลุ่มกับคุณสมบัติที่แท้จริงจำนวนหนึ่ง (สัญญาณ) ฉันยังไม่ตายใช้การเลือกตามลำดับมันเป็นสิ่งที่ฉันใช้มาแล้ว ฉันจะดูลิงค์ที่คุณให้
JohnDoe

นั่นเป็นเรื่องตลกเกี่ยวกับเคมีบำบัด หนังสือของ Wold เป็นการอ่านที่ดีโดยทั่วไป "อาสาสมัคร" ประเภทใดที่ประกอบไปด้วยตัวอย่าง? และการถ่ายภาพ nmrs คืออะไร?
Mike Hunter

ตัวอย่างเป็นสารสกัดจากพืชน้ำและใช้ 1H-nmr ​​spectra งานของฉันคือการสำรวจอย่างหมดจด ฉันควรจะหากลุ่มใด ๆ ที่เราต้องการที่จะเกี่ยวข้องกับจีโนไทป์ที่แตกต่างกันในภายหลังหรือคุณสมบัติที่แตกต่างกันของพืชเช่นความต้านทานต่อความแห้งแล้ง - ความเครียด - ฯลฯ มันไม่ง่ายเลยที่จะหาจุดเริ่มต้นที่ดีสำหรับการค้นหาสารที่ถูกต้อง คุณสมบัติ / ที่ช่วยแบ่งกลุ่มตามที่จะมีกลุ่มที่แตกต่างกันทำโดยคุณสมบัติที่แตกต่างกันสำหรับคำถามที่แตกต่างกัน
JohnDoe

ดังนั้นฉันคิดว่าวิธีการเรียงลำดับอาจใช้งานได้ดีที่สุด: - ค้นหาชุดของคุณสมบัติเพื่อจัดกลุ่มข้อมูล - จากนั้นลบคุณลักษณะเหล่านั้นออกจากทั้งชุดและเริ่มต้นใหม่ด้วยวิธีนี้ฉันหวังว่าจะหากลุ่มหลายชุดที่ฉันสามารถ คำถามที่แตกต่าง
JohnDoe

1
สิ่งที่ต้องพิจารณาคือการเปรียบเทียบงานสำรวจใด ๆ กับกลุ่มของกลุ่มที่ได้รับการกำหนดล่วงหน้าหรือที่เรียกว่าการวิเคราะห์กลุ่ม "ยืนยัน" ฉันแนะนำสิ่งนี้เพราะดูเหมือนว่าคุณและทีมงานของคุณมีสมมุติฐานที่แข็งแกร่งบางประการเกี่ยวกับการสร้างกลุ่มเป็นหน้าที่ของพืชเช่น "ความต้านทานความเครียดจากภัยแล้ง" ฉันคิดว่าคุณจะพบว่างานสำรวจจะให้ข้อมูลเชิงลึกและผลลัพธ์ที่ยอดเยี่ยม การทำคลัสเตอร์แบบสำรวจจะใช้ประโยชน์จากข้อมูลที่มีอยู่ในข้อมูลของคุณได้อย่างเต็มที่ในขณะที่กฎการกำหนด "ยืนยัน" มักใช้ประโยชน์จากคุณสมบัติที่หลากหลาย
Mike Hunter

1

สิ่งที่คุณต้องมีคือคุณภาพของการจัดกลุ่ม นี่คือแนวคิด: คุณแบ่งข้อมูลบนรถไฟและทดสอบสร้างกลุ่มบนส่วนรถไฟ ใช้การจัดกลุ่มนี้เพื่อทำคลัสเตอร์แต่ละองค์ประกอบของชุดทดสอบ (โดยกลุ่มที่อยู่ใกล้ที่สุด); สร้างการจัดกลุ่มแยกต่างหากในชุดทดสอบ ค้นหาความคล้ายคลึงกันของการจัดกลุ่มในการทดสอบด้วยการทำคลัสเตอร์ที่คาดการณ์ไว้ ความคล้ายคลึงกันนี้เป็นเกณฑ์ของคุณภาพการทำคลัสเตอร์ ทีนี้วิธีวัดความคล้ายคลึงกันนี้ขึ้นอยู่กับคุณแล้ว เมื่อคุณได้รับแล้วคุณเลือกชุดย่อยของคุณสมบัติเพื่อเพิ่มความคล้ายคลึงกันนี้ให้สูงสุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.