การจัดกลุ่มล่วงหน้าช่วยในการสร้างแบบจำลองการทำนายที่ดีขึ้นหรือไม่?


9

สำหรับภารกิจของการปั่นแบบจำลองฉันกำลังพิจารณา:

  1. คำนวณ k กลุ่มสำหรับข้อมูล
  2. สร้างโมเดล k สำหรับแต่ละคลัสเตอร์แยกกัน

เหตุผลก็คือว่าไม่มีอะไรที่จะพิสูจน์ว่าประชากรของผู้ใต้บังคับบัญชาเป็นเนื้อเดียวกันดังนั้นจึงมีเหตุผลที่จะคิดว่ากระบวนการสร้างข้อมูลอาจแตกต่างกันสำหรับ "กลุ่ม" ที่แตกต่างกัน

คำถามของฉันคือมันเป็นวิธีการที่เหมาะสมหรือไม่ มันละเมิดอะไรหรือไม่หรือถือว่าไม่ดีด้วยเหตุผลบางอย่าง? ถ้าเป็นเช่นนั้นทำไม

ถ้าไม่คุณจะแบ่งปันแนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับปัญหานั้นหรือไม่ และสิ่งที่สอง - เป็นการดีกว่าหรือแย่กว่าการทำ preclustering กว่าโมเดลต้นไม้ (ตามที่กำหนดไว้ใน Witten, Frank - ต้นไม้จำแนก / ถดถอยด้วยแบบจำลองที่ใบไม้) สังหรณ์ใจดูเหมือนว่าสเตจต้นไม้ตัดสินใจเป็นเพียงรูปแบบการรวมกลุ่มอื่น idk หากมีข้อได้เปรียบเหนือการจัดกลุ่ม "ปกติ")

คำตอบ:


3

มีวิธีการที่เรียกว่าการถดถอยตามเข็มนาฬิกาที่แก้ปัญหาที่คล้ายกัน (กลุ่มแรกข้อมูลแล้วสร้างแบบจำลองการทำนาย) ดูตัวอย่างนี้


1
ฉันค้นหาที่นี่: tandfonline.com/doi/abs/10.1080/00273170701836653และพบในบทคัดย่อ: "n บางกรณีการเปลี่ยนแปลงส่วนใหญ่ในตัวแปรตอบสนองอธิบายได้โดยการจัดกลุ่มวัตถุโดยมีประโยชน์เพิ่มเติมเล็กน้อยจาก โมเดลการถดถอยภายในคลัสเตอร์ดังนั้นจึงมีความเป็นไปได้อย่างมากสำหรับการ overfitting ด้วยการถดถอยแบบคลัสเตอร์ " ดูเหมือนจะไม่ได้สัญญาเลย
Ziel

ตกลง แต่พวกเขาไม่ได้บอกว่ามันล้มเหลวเสมอ ฉันไม่เคยใช้วิธีการนั้นฉันรู้เพียงว่าอาจเป็นการผสมผสานระหว่างวิธีการดูแลและแบบไม่มีผู้ดูแล แต่มีเอกสารจำนวนน้อยที่ใช้วิธีนี้
Miroslav Sabo

นอกจากนี้แอพพลิเคชั่นส่วนใหญ่ที่ฉันพบนั้นเกี่ยวกับการตลาดและการเงินดังนั้นมันอาจจะเหมาะสำหรับข้อมูลประเภทนี้โดยเฉพาะ
Miroslav Sabo

1
ดูเหมือนว่าใช้งานง่ายมากสำหรับด้านการตลาด - ปั่นป่วนครอส / เพิ่มยอดขาย
Ziel

2

สองจุดที่ยาวเกินกว่าจะแสดงความคิดเห็นได้:

  • กลุ่มบริสุทธิ์ (เช่นมีกรณีของหนึ่งคลาสเท่านั้น) จะไม่มีปัญหาต่อ se: เรียกว่าตัวจําแนกคลาสหนึ่งคลาสแต่ละโมเดลเป็นอิสระจากคลาสอื่นทั้งหมด พวกเขาสามารถรับมือกับสิ่งนี้ได้อย่างสมบูรณ์แบบ

  • อย่างไรก็ตามถ้ากลุ่มข้อมูลในทางที่ค่อนข้างแยกออกจากกันเช่นกลุ่มค่อนข้างบริสุทธิ์ซึ่งหมายความว่ามีโครงสร้างที่แข็งแกร่งมากอยู่โครงสร้างที่การวิเคราะห์กลุ่มสามารถหาได้โดยไม่ต้องมีคำแนะนำโดยฉลากระดับ ซึ่งหมายความว่าตัวจําแนกบางประเภทเช่นวิธีเพื่อนบ้านที่ใกล้ที่สุดโดยใช้การวัดระยะทางแบบเดียวกับที่ใช้ในการวิเคราะห์กลุ่มมีความเหมาะสมกับข้อมูล

  • ความเป็นไปได้อื่น ๆ สถานการณ์ที่กลุ่มไม่บริสุทธิ์ แต่การรวมกันของกลุ่มและวิธีการจำแนกสามารถทำได้ดีเหมาะสำหรับต้นไม้ ต้นไม้จะทำส่วนหนึ่งของการทำคลัสเตอร์ (และโหนดบริสุทธิ์ไม่ถือเป็นปัญหา) ต่อไปนี้เป็นตัวอย่างของการประดิษฐ์ XOR-problem รุ่น 2 คลัสเตอร์:
    คลัสเตอร์ XOR

  • อีกวิธีในการรวมข้อมูลคลัสเตอร์โดยไม่ต้องเสี่ยงกับการมีกลุ่มบริสุทธิ์คือการใช้การจัดกลุ่มเป็นขั้นตอนการสร้างคุณลักษณะ: เพิ่มผลลัพธ์ของการวิเคราะห์คลัสเตอร์เป็นตัวแปรใหม่ในเมทริกซ์ข้อมูล

  • คุณถามว่ามันไม่ดีด้วยเหตุผลบางอย่าง: หนึ่งหลุมพรางคือ appoach นี้นำไปสู่รูปแบบที่มีอิสระหลายองศา คุณจะต้องระมัดระวังเป็นพิเศษไม่ให้เกินความเหมาะสม

  • ลองดูที่รูปแบบต้นไม้เช่นคำตอบของ mbq ​​ที่นี่ฉันคิดว่าพวกเขาใช้แนวคิดที่ใกล้เคียงกับที่คุณมองหา พวกเขาสามารถนำมาใช้เป็นป่าเช่นกัน: เช่นแพคเกจ R mobForest


1

วันนี้ฉันจัดการกับปัญหาที่คล้ายกัน ฉันมีหลายร้อยคุณสมบัติในการสร้างลักษณนาม หลังจากลองแบบจำลองที่แตกต่างกัน (เช่นป่าที่สุ่มเพิ่มการไล่ระดับสี ฯลฯ ... ) ฉันยังมีความแม่นยำ / การเรียกคืนต่ำ ดังนั้นฉันจึงพยายามทำคลัสเตอร์แล้วสร้างตัวแยกประเภทในกลุ่มที่แตกต่างกัน ความกังวลของฉันคือเหมือนกับที่ Anony-Mousse พูดว่าฉันจะรับข้อมูลเพิ่มเติมจากตัวจําแนกได้อย่างไรหากฉันใช้ข้อมูลทั้งหมดในการจัดกลุ่ม ดังนั้นนี่คือสิ่งที่ฉันจะทำต่อไป:

  1. ใช้คุณสมบัติบางอย่าง (น้อยกว่าตามความรู้เดิม) เพื่อทำการทำคลัสเตอร์
  2. ใช้คุณสมบัติอื่น ๆ (เพิ่มเติม) เพื่อฝึกฝนตัวแยกประเภท

ฉันคิดว่ามันอาจช่วยลดความซับซ้อนได้ด้วยหวังว่ามันจะช่วยได้


1

อาคาร k กลุ่มแล้ว kรุ่นที่สอดคล้องกันเป็นไปได้อย่างแน่นอน กรณีพยาธิวิทยาที่ระบุไว้ในความคิดเห็นนั้นกลุ่มแยกตัวแปรผลลัพธ์ที่จะก่อให้เกิดความยากลำบากสำหรับลักษณนามเป็นปัญหาทางทฤษฎี แต่ที่ฉันคิดว่าไม่น่า (โดยเฉพาะอย่างยิ่งในกรณีมิติสูง) นอกจากนี้หากคุณสามารถสร้างกลุ่มดังกล่าวคุณก็สามารถใช้กลุ่มเหล่านั้นเพื่อการคาดการณ์!

นอกจากนี้หากกระบวนการเริ่มต้นด้วย ยังไม่มีข้อความ ตัวอย่างลักษณนามสามารถใช้ได้ ยังไม่มีข้อความ/kตัวอย่าง ดังนั้นวิธีที่ทรงพลังยิ่งกว่าก็คือการใช้กลุ่มในการสร้างลักษณนามเดี่ยวที่รวมความหลากหลายในกลุ่มโดยใช้ส่วนผสมของการถดถอย ในการจัดกลุ่มตามรูปแบบหนึ่งถือว่าข้อมูลถูกสร้างขึ้นจากการกระจายผสมYผม~ยังไม่มีข้อความ(μผม,σผม2) ที่ไหน ผม=1 ด้วยความน่าจะเป็น π และ ผม=2 ด้วยความน่าจะเป็น 1-π และ μ1 μ2 และ σ12σ22. การถดถอยแบบผสมเป็นส่วนขยายที่อนุญาตให้ผู้ใช้สร้างแบบจำลองข้อมูลขึ้นอยู่กับตัวแปรร่วมμผม ถูกแทนที่ด้วย βผมXผม, ที่ไหน βผมจะต้องมีการประมาณ ในขณะที่ตัวอย่างนี้สำหรับ univariate กรณี Gaussian กรอบสามารถรองรับข้อมูลจำนวนมาก (multinomial-logit จะเหมาะสมสำหรับตัวแปรเด็ดขาด) แพคเกจ flexmixสำหรับ R ให้คำอธิบายรายละเอียดมากขึ้นและแน่นอนวิธีที่ค่อนข้างง่ายและขยายการดำเนินการวิธีการนี้

อีกวิธีหนึ่งในการตั้งค่าการเลือกปฏิบัติเราสามารถลองรวมการมอบหมายคลัสเตอร์ (แข็งหรืออ่อน) เป็นคุณลักษณะสำหรับการฝึกอบรมอัลกอริทึมการจำแนกประเภทของทางเลือก (เช่น NB, ANN, SVM, RF ฯลฯ )


0

ถ้ากลุ่มของคุณดีจริงๆตัวแยกประเภทของคุณจะไร้สาระ เพราะพวกเขามีข้อมูลการฝึกอบรมไม่เพียงพอ

สมมติว่ากลุ่มของคุณสมบูรณ์แบบเช่นบริสุทธิ์ คุณไม่สามารถฝึกลักษณนามที่เหมาะสมได้อีกต่อไป ตัวแยกประเภทต้องการตัวอย่างที่เป็นบวกและลบ!

ป่าสุ่มนั้นประสบความสำเร็จอย่างมากในการทำสิ่งที่ตรงกันข้าม พวกเขาสุ่มตัวอย่างข้อมูลสุ่มฝึกลักษณนามว่าแล้วใช้ลักษณนามที่ผ่านการฝึกอบรมทั้งหมด

สิ่งที่อาจใช้งานได้คือการใช้การทำคลัสเตอร์แล้วฝึกลักษณนามในทุก ๆคู่ของกลุ่มอย่างน้อยถ้าพวกเขาไม่เห็นด้วยพอ (ถ้าแบ่งเป็นสองกลุ่มคุณยังคงไม่สามารถฝึกตัวจําแนกได้!)


จุดประสงค์ของการจัดกลุ่มนั้นไม่ใช่การค้นหากลุ่ม "บริสุทธิ์" เช่นกลุ่มที่ยอดเยี่ยมในการแยกแยะตัวแปรเป้าหมายของฉัน วัตถุประสงค์ของการจัดกลุ่มคือการค้นหากลุ่มที่เป็นเนื้อเดียวกันในพื้นที่ "อื่น ๆ " เพื่อยกตัวอย่าง: ฉันคิดว่าในการปั่นมีลูกค้า "คุณภาพเท่านั้น" และลูกค้า "เพิ่มประสิทธิภาพค่าใช้จ่าย" ฉันไม่คิดว่าฉันควรถือว่าคุณสมบัติที่เกี่ยวข้องสำหรับการจัดหมวดหมู่เหมือนกันในทั้งสองกลุ่มดังนั้นฉันต้องการสร้างแบบจำลองแยกต่างหากสำหรับแต่ละกลุ่ม แน่นอนว่าฉันไม่มีกลุ่ม "คุณภาพ" และ "ค่าใช้จ่าย" ที่ชัดเจนดังนั้นแนวคิดสำหรับการทำคลัสเตอร์เพื่อให้ได้กลุ่มดังกล่าวมาจากข้อมูลเป็นอันดับแรก
Ziel

ความไม่สมดุลและความสัมพันธ์พิเศษใด ๆ ในข้อมูลอาจเป็นอันตรายได้ ดูลักษณนามอาจต้องการ "คุณภาพเท่านั้น" และ "การเพิ่มประสิทธิภาพต้นทุน" หากเขาได้รับเพียงกลุ่มเดียวเขาจะไม่สามารถใช้ความแตกต่างนี้ได้
จบการทำงาน - Anony-Mousse

1
แต่ถ้าคุณใช้วิธีการสองระดับก่อนอื่นให้จำแนกโดยกลุ่มจากนั้นประเมินตัวจําแนกคลัสเตอร์ ไม่เช่นนั้นตัวจําแนกคงที่ก็ไม่มีประโยชน์ ถ้าอย่างนั้นคุณก็ต้องแบกภาระทั้งหมดไปที่การรวมกลุ่ม
มี QUIT - Anony-Mousse

1
นั่นคือวิธีที่ฉันเข้าใจ OP
cbeleites ไม่มีความสุขกับ SX

1
แน่นอนว่าคุณสามารถทำสิ่งนี้ได้ แต่มีโอกาสที่กลุ่มของคุณจะไม่ดีและคุณจะดีขึ้นเมื่อมีกลุ่มของตัวแยกประเภท "ทับซ้อน" ที่เหมาะสม เช่นเดียวกับการสุ่มของป่า
จบการทำงาน - Anony-Mousse
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.