การทำคลัสเตอร์เป็นวิธีการแยกข้อมูลสำหรับการถดถอยโลจิสติก


11

ฉันพยายามที่จะทำนายความสำเร็จหรือความล้มเหลวของนักเรียนตามคุณลักษณะบางอย่างที่มีรูปแบบการถดถอยโลจิสติก เพื่อปรับปรุงประสิทธิภาพของแบบจำลองฉันได้คิดถึงการแบ่งนักเรียนออกเป็นกลุ่มต่าง ๆ โดยพิจารณาจากความแตกต่างที่ชัดเจนและการสร้างแบบจำลองแยกกันสำหรับแต่ละกลุ่ม แต่ฉันคิดว่ามันอาจเป็นเรื่องยากที่จะระบุกลุ่มเหล่านี้โดยการสอบดังนั้นฉันจึงคิดว่าจะแยกนักเรียนออกเป็นกลุ่มโดยการรวมกลุ่มกับคุณลักษณะของพวกเขา นี่เป็นวิธีปฏิบัติทั่วไปในการสร้างแบบจำลองดังกล่าวหรือไม่? คุณจะแนะนำให้ฉันแบ่งมันออกเป็นกลุ่มชัดเจน (ตัวอย่างเช่นนักเรียนภาคเรียนแรกกับนักเรียนที่กลับมา) จากนั้นทำการจัดกลุ่มในกลุ่มเหล่านั้นหรือกลุ่มจากจุดเริ่มต้น

หากต้องการพยายามชี้แจง:

สิ่งที่ฉันหมายถึงคือฉันกำลังพิจารณาใช้อัลกอริทึมการจัดกลุ่มเพื่อแยกชุดฝึกอบรมสำหรับการถดถอยโลจิสติกออกเป็นกลุ่ม จากนั้นฉันจะทำการแยกการถดถอยแบบโลจิสติกส์สำหรับแต่ละกลุ่มเหล่านั้น จากนั้นเมื่อใช้การถดถอยโลจิสติกในการทำนายผลลัพธ์สำหรับนักเรียนฉันจะเลือกรูปแบบที่จะใช้ขึ้นอยู่กับกลุ่มที่พวกเขาเหมาะสมที่สุด

บางทีฉันอาจทำสิ่งเดียวกันโดยรวมตัวระบุกลุ่มตัวอย่างเช่น 1 ถ้านักเรียนกลับมาและเป็น 0 ถ้าไม่ใช่

ตอนนี้คุณมีฉันคิดว่ามันอาจจะเป็นประโยชน์ในการจัดกลุ่มชุดข้อมูลการฝึกอบรมและการใช้ป้ายชื่อกลุ่มของพวกเขาเป็นคุณสมบัติในการถดถอยโลจิสติกมากกว่าการสร้างแบบจำลองการถดถอยโลจิสติกแยกสำหรับแต่ละประชากร

หากมีประโยชน์ที่จะรวมตัวระบุกลุ่มสำหรับผู้ที่ส่งคืนนักเรียนกับนักเรียนใหม่อาจเป็นประโยชน์หรือไม่ที่จะขยายรายการกลุ่ม การจัดกลุ่มดูเหมือนเป็นวิธีธรรมชาติในการทำเช่นนี้

ฉันหวังว่าชัดเจน ...


ฉันคิดว่าฉันไม่เข้าใจว่า "การจัดกลุ่ม" และตัวแบบการถดถอยโลจิสติกส์จะโต้ตอบหรือส่งผลกระทบต่อกันและกันอย่างไร คุณสามารถอธิบายความแตกต่างระหว่าง "การจัดกลุ่ม" ในบริบทนี้และรวมถึงตัวระบุกลุ่มเป็นตัวแปรอธิบายในการถดถอยได้หรือไม่
whuber

คำตอบ:


4

ฉันเชื่อว่าหากคุณมีความแตกต่างอย่างมีนัยสำคัญในตัวแปรตามของคุณระหว่างกลุ่มของคุณวิธีการของการจัดกลุ่มก่อนจะเป็นประโยชน์แน่นอน โดยไม่คำนึงถึงอัลกอริทึมการเรียนรู้ที่คุณเลือก

ฉันคิดว่าการใช้อัลกอริทึม Learnign บนฐานทั้งหมดสามารถครอบคลุมความแตกต่างที่มีความหมายในระดับที่ต่ำกว่าของการรวม

ใครก็ตามที่ได้ยินเรื่องความขัดแย้งของซิมป์สันมันเป็นเรื่องยากสำหรับปัญหาที่ลึกกว่าซึ่งคุณมีสหสัมพันธ์ที่แตกต่างกันในกลุ่มต่าง ๆ ที่ถูกปกคลุมด้วยเสียงตัวอย่างขนาดใหญ่


คุณอาจจะพูดถูก แต่ฉันไม่ทำตามการโต้แย้งของคุณ คุณสนับสนุนหรือไม่ว่า OP ดำเนินการ LR แยกในกลุ่มที่พบเพิ่มดัชนีคลัสเตอร์นอกเหนือจาก covariates หรือแทนที่จะเป็น covariates เป็นความจริงอย่างแน่นอนที่ว่าเพื่อนร่วมพันธุ์สามารถสับสนกับตัวแปรที่ไม่ได้ระบุไว้ในการวิจัยเชิงสังเกตการณ์ แต่คุณกำลังบอกว่า CA สามารถสร้างข้อมูลที่ไม่ได้อยู่ในตัวแปรที่ใช้ สำหรับบุคคลที่ผิดธรรมดาของซิมป์สันจะมีการกล่าวถึงประวัติย่อที่นี่หากคุณสนใจ
gung - Reinstate Monica

ฉันแนะนำว่าการวิเคราะห์ที่ไม่ได้รับอนุญาตจะดึงกลุ่มที่เป็นเนื้อเดียวกันออกมาพร้อมชุด IV (ตัวแปรอิสระ) ตามอำเภอใจ การติดตามสิ่งนี้คุณสามารถตัดสินใจด้วยตัวคุณเองหากคุณก้าวหน้าด้วยชุด varbs เดียวกันหรือชุดใหม่หรือชุดรวมสำหรับขั้นตอนต่อไปของการสร้างแบบจำลองของคุณด้วย LR วัตถุประสงค์คือเพื่อสร้างและปรับแต่ง 1 LR ต่อคลัสเตอร์ (เนื่องจากคลัสเตอร์มีค่า DV หรือความถี่ที่แตกต่างกันอย่างมีนัยสำคัญ)
แคลนซี

จริง ๆ แล้วฉันได้ดำเนินการนี้ด้วยตนเองในบริบทของรูปแบบการขายข้ามสำหรับผลิตภัณฑ์ประกันชีวิตและพบการคาดการณ์ที่ดีขึ้นใน 2 ของกลุ่มที่ถูกทำให้เจือจางโดยกลุ่มที่ 3
แคลนซี

ฉันสงสัยว่าตัวแบบอาจจำเป็นต้องใช้คำว่าอิสระหรือไม่ คุณสามารถรวมการจำลองข้อมูลบางส่วนแบบพื้นฐาน CA และตัวบ่งชี้พอดีกับ w / คลัสเตอร์ขั้นสุดท้าย ฉันสนใจที่จะเห็นสิ่งนี้และเล่นกับมันเล็กน้อยเพื่อทำความเข้าใจกับสิ่งที่เกิดขึ้น
gung - Reinstate Monica

สวัสดี Gung ฉันชอบ แต่หาเวลาไม่ได้ ฉันลงทุนกับครอบครัวมากทำงานและพัฒนาทักษะการสร้างแบบจำลองของฉันฉันเพิ่งเริ่มทำงานกับแบบจำลอง MARS และไม่แน่ใจว่าสิ่งนี้จะตอบสนองผลลัพธ์ที่ต้องการเช่นเดียวกับชุดคลัสเตอร์ + LR ที่อธิบายไว้
แคลนซี

8

วิธีการทั่วไปที่เสนอของคุณ - การใช้พาร์ติชันแฝงเพื่อกำหนดจุดข้อมูลที่แตกต่างให้กับตัวแยกประเภทฐานที่แตกต่างกัน - เป็นวิธีการวิจัยที่ดีในการจำแนกประเภท

เหตุผลที่วิธีการเหล่านี้ไม่ได้ใช้กันอย่างแพร่หลายอาจเป็นเพราะพวกเขาค่อนข้างซับซ้อนและมีเวลาทำงานนานกว่าการถดถอยโลจิสติกหรือ SVM ในหลายกรณีดูเหมือนว่าพวกเขาสามารถนำไปสู่ประสิทธิภาพการจำแนกประเภทที่ดีขึ้น

นี่คือการอ้างอิงบางส่วน:

  • Shahbaba, B. และ Neal, R. "โมเดลไม่เชิงเส้นโดยใช้ส่วนผสมของกระบวนการ Dirichlet"

  • Zhu, J. และ Chen, N. and Xing, EP "Infinite Latent SVM สำหรับการจำแนกและการเรียนรู้แบบหลายงาน"

  • Rasmussen, CE และ Ghahramani, Z. "การผสมที่ไม่มีที่สิ้นสุดของผู้เชี่ยวชาญด้านกระบวนการ Gaussian"

  • Meeds, E. และ Osindero, S. "ส่วนผสมที่ไม่มีที่สิ้นสุดทางเลือกของผู้เชี่ยวชาญด้านกระบวนการแบบเกาส์เซียน"


1

ฉันต้องการรับทราบตั้งแต่ต้นที่ฉันรู้เพียงเล็กน้อยเกี่ยวกับการทำคลัสเตอร์ อย่างไรก็ตามฉันไม่เห็นจุดของขั้นตอนที่คุณอธิบาย ตัวอย่างเช่นถ้าคุณคิดว่าคำแรกเทียบกับการคืนนักเรียนอาจแตกต่างกันทำไมไม่รวมค่าโควาเรียตที่ดัชนีนั้น ในทำนองเดียวกันหากคุณคิดว่าคุณลักษณะอื่นของนักเรียนนั้นมีความเกี่ยวข้องคุณสามารถรวมสิ่งนั้นได้เช่นกัน หากคุณกังวลว่าความสัมพันธ์ระหว่างผู้ทำนายหลักของคุณกับอัตราความสำเร็จอาจแตกต่างกันคุณอาจรวมถึงการโต้ตอบระหว่างผู้ทำนายนั้นกับคำแรกกับการกลับมาเป็นต้นการถดถอยโลจิสติกส์พร้อมตอบคำถามเหล่านี้ผ่านทาง เงื่อนไขในรูปแบบ

ในทางกลับกันตราบใดที่คุณรวมกลุ่มกับคุณสมบัติเหล่านี้และทำก่อน (โดยไม่ดูคำตอบ) ฉันไม่เห็นปัญหาใด ๆ ที่เกิดขึ้น ฉันสงสัยว่าวิธีการนี้จะไม่มีประสิทธิภาพโดยแต่ละรุ่นมีพลังงานต่ำกว่าเพราะมันพอดีกับชุดย่อยของข้อมูลเท่านั้น แต่ฉันไม่คิดว่ามันจะทำให้มีอคติต่อพารามิเตอร์หรือทำให้การทดสอบเป็นโมฆะ ดังนั้นฉันคิดว่าคุณสามารถลองสิ่งนี้หากคุณต้องการ

ปรับปรุง:

ฉันเดาว่ามันจะดีที่สุด (กล่าวคือมีประสิทธิภาพมากที่สุด) เพื่อให้พอดีกับรุ่นเดียวกับข้อมูลทั้งหมด คุณสามารถรวม covariates เพิ่มเติมบางอย่าง (เช่นกลับเทียบกับไม่ได้) นอกเหนือจากความสนใจหลักของคุณและตัวบ่งชี้การจัดกลุ่มที่คุณค้นพบผ่านการเรียกใช้การวิเคราะห์คลัสเตอร์ล่วงหน้า อย่างไรก็ตามหากโควาเรียที่เข้าสู่การวิเคราะห์กลุ่มยังมีให้สำหรับโมเดลการถดถอยโลจิสติกด้วยฉันไม่แน่ใจว่าฉันจะเห็นสิ่งที่จะได้รับมากกว่าเพียงแค่รวม covariates ทั้งหมดในโมเดล LR โดยไม่ต้องตัวบ่งชี้คลัสเตอร์ อาจมีข้อได้เปรียบสำหรับเรื่องนี้ที่ฉันไม่คุ้นเคยเนื่องจากฉันไม่เชี่ยวชาญในการวิเคราะห์กลุ่ม แต่ฉันไม่รู้ว่ามันจะเป็นอะไร สำหรับฉันแล้วดูเหมือนว่า CA จะไม่สร้างข้อมูลเพิ่มเติมที่ยังไม่ได้มีอยู่ในรัฐโควาเรียทและจะไม่เพิ่มอะไรในรุ่น LR คุณสามารถลอง; บางทีฉันผิด แต่ฉันเดาว่าคุณจะเผาอิสรภาพเพิ่มอีกสองสามองศา

วิธีการที่แตกต่างกันก็คือการป้อนตัวบ่งชี้คลัสเตอร์ลงในโมเดล LR แทนที่จะเป็นตัวแปรร่วมที่มันเป็นพื้นฐาน ฉันสงสัยว่านี่จะเป็นประโยชน์ CA จะไม่สมบูรณ์แบบเกินกว่าการวิเคราะห์อื่น ๆ ที่เคยมีมาดังนั้นการย้ายจากโควาเรียดั้งเดิมไปยังตัวบ่งชี้คลัสเตอร์ที่ได้รับนั้นมีแนวโน้มที่จะทำให้เกิดการสูญเสียข้อมูลจำนวนหนึ่ง (อีกครั้งฉันไม่รู้ว่า แต่ฉันสงสัยอย่างยิ่งว่ามันเป็นเรื่องจริง) อีกครั้งคุณสามารถลองได้ทั้งสองวิธีและเปรียบเทียบในแบบฝึกหัดเชิงวิชาการแม้ว่าจะลองทำอะไรหลาย ๆ อย่าง หากคุณต้องการที่จะนำผลลัพธ์ของคุณอย่างจริงจัง

ฉันไม่ต้องการเพียงแค่ปลาคาร์พในการวิเคราะห์กลุ่ม โดยทั่วไปอาจมีประโยชน์มากมายและอาจมีประโยชน์สำหรับพวกเขาที่นี่ อย่างไรก็ตามในขณะที่ฉันเข้าใจสถานการณ์ของคุณฉันคิดว่าเพียงแค่สร้างแบบจำลอง LR กับเพื่อนร่วมทุนที่คุณคิดว่าอาจมีความเกี่ยวข้องเป็นวิธีที่จะไป


1

หากคุณไม่ได้เชื่อมโยงกับการถดถอยโลจิสติกฉันขอแนะนำให้คุณใช้ตัวจําแนกแบบฟอเรสต์แบบสุ่มเนื่องจากมีการจัดกลุ่มในตัว แนวคิดนี้คือการใช้เมทริกซ์ความใกล้เคียงเพื่อจัดกลุ่ม เมทริกซ์ความใกล้ชิดคือเมทริกซ์ N_Obs โดย N_Obs สำหรับเศษส่วนของต้นไม้ออกจากถุงที่การสังเกตที่อยู่ในโหนดขั้วเดียวกัน จากนั้นคุณสามารถรวมสิ่งนี้ลงในระดับสถานที่โดยเมทริกซ์ระดับคุณลักษณะที่องค์ประกอบนั้นเป็นค่าเฉลี่ยของเศษส่วนในเมทริกซ์ความใกล้ชิด จากนั้นคุณจะรวมกลุ่มทุกระดับเข้าด้วยกันเมื่อพวกเขาผ่านเกณฑ์และดูว่าสิ่งนี้ช่วยปรับปรุงการทำนายของคุณหรือไม่ เป็นการดีที่สุดที่จะใช้วิธีวนซ้ำอย่างชาญฉลาดเพื่อค้นหาการจัดกลุ่มที่เหมาะสม แต่คุณสามารถเลือกเกณฑ์ในวิธีอื่น เมื่อการทำคลัสเตอร์นี้เสร็จสิ้นคุณสามารถแทนที่คุณลักษณะด้วยเลเบลคลัสเตอร์หรือเพิ่มเลเบลคลัสเตอร์เป็นคุณสมบัติใหม่ ฉันคิดว่า ณ จุดนี้คุณสามารถเปลี่ยนกลับไปใช้การถดถอยแบบโลจิสติกได้ถ้าคุณต้องการจริงๆ


0

เมื่อสร้างแบบจำลองหลายส่วนฉันคิดว่าวิธีที่ดีที่สุดคือการสร้างกลุ่มที่พูดถึงความแตกต่างที่แท้จริงในการแจกแจงพื้นฐาน นักเรียนระยะแรกเทียบกับนักเรียนที่กลับมาเป็นตัวอย่างที่ดีเนื่องจากการแจกแจงการทำนายจะแตกต่างกันมากสำหรับประชากรสองคนนี้ ที่สำคัญกว่านั้นความแตกต่างเหล่านี้มีคำอธิบายที่เข้าใจง่าย


ฉันได้รับคุณค่าของคำอธิบายที่เข้าใจง่าย - มันช่วยให้คุณตีความแบบจำลองของคุณ แต่ไม่มีเหตุผลที่จะคิดว่าถ้าคุณจัดกลุ่มคนเป็นกลุ่มโดยยึดตามความคล้ายคลึงกันของพวกเขาในแง่ของคุณสมบัติที่คุณมีอยู่คุณจะได้รับประโยชน์ที่คล้ายกันแม้ว่าจะไม่ได้มีการตีความเหมือนกันหรือไม่ ผมคิดว่าความคิดที่อยู่เบื้องหลังการใช้งานของการจัดกลุ่มก็คือว่าเมื่อมันมาถึงการระบุกลุ่มซึ่งไม่ตรงกับหมวดหมู่อย่างเป็นระเบียบที่เราใช้ในชีวิตประจำวัน, เครื่องดีกว่ามนุษย์ ...
dave

และนอกจากนี้หากคุณฝึกรูปแบบการถดถอยในชุดของนักเรียนที่คล้ายกันรูปแบบนั้นจะแม่นยำมากขึ้นในการทำนายความสำเร็จของนักเรียนเหล่านั้นมากกว่าแบบจำลองที่ผ่านการฝึกอบรมโดยใช้ชุดนักเรียนที่กว้างขึ้น
dave
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.