ปัญหาที่คุณจะอธิบายสามารถแก้ไขได้โดยการถดถอยระดับแฝงหรือถดถอยคลัสเตอร์ฉลาดหรือนามสกุลส่วนผสมของทั่วไปเส้นตรงรุ่นที่มีสมาชิกทั้งหมดของครอบครัวกว้างของรุ่นส่วนผสม จำกัดหรือรุ่นกลุ่มแฝง
มันไม่ใช่การจำแนกประเภท (การเรียนรู้แบบมีผู้สอน) และการถดถอยต่อแต่เป็นการรวมกลุ่ม (การเรียนรู้แบบไม่ดูแล) และการถดถอย วิธีการพื้นฐานสามารถขยายได้เพื่อให้คุณคาดการณ์ความเป็นสมาชิกของคลาสโดยใช้ตัวแปรที่สอดคล้องกันสิ่งที่ทำให้มันใกล้เคียงกับสิ่งที่คุณกำลังมองหา ในความเป็นจริงการใช้แบบจำลองชั้นแฝงสำหรับการจำแนกประเภทอธิบายโดย Vermunt และ Magidson (2003) ซึ่งแนะนำให้ใช้กับเทเช่น
การถดถอยระดับแฝง
วิธีการนี้โดยทั่วไปจะเป็นแบบจำกัด (หรือการวิเคราะห์ระดับแฝง ) ในรูปแบบ
f(y∣x,ψ)=∑k=1Kπkfk(y∣x,ϑk)
ที่เป็นเวกเตอร์ของพารามิเตอร์และเป็นส่วนประกอบผสม parametrized โดยและแต่ละองค์ประกอบจะปรากฏขึ้นกับสัดส่วนแฝง\ดังนั้นความคิดที่ว่าการกระจายของข้อมูลของคุณเป็นส่วนผสมของส่วนประกอบแต่ละเครื่องที่สามารถอธิบายได้ด้วยรูปแบบการถดถอยปรากฏตัวพร้อมกับความน่าจะเป็น\แบบจำลองไฟไนต์เอลิเมนต์มีความยืดหยุ่นอย่างมากในการเลือกส่วนประกอบและสามารถขยายไปยังรูปแบบอื่นและการผสมของคลาสที่แตกต่างกันของแบบจำลอง (เช่นการผสมของตัววิเคราะห์ปัจจัย)ψ=(π,ϑ)fkϑkπkKfkπkfk
การทำนายความน่าจะเป็นของการเป็นสมาชิกของกลุ่มขึ้นอยู่กับตัวแปรที่เข้ากัน
โมเดลการถดถอยคลาสแฝงแบบง่ายสามารถขยายได้เพื่อรวมตัวแปรเข้าด้วยกันที่ทำนายการเป็นสมาชิกของคลาส (Dayton และ Macready, 1998; ดูเพิ่มเติมที่: Linzer and Lewis, 2011; Grun and Leisch, 2008; McCutcheon, 1987; Hagenaars and McCutcheon, 2009) ในกรณีเช่นนี้รูปแบบจะกลายเป็น
f(y∣x,w,ψ)=∑k=1Kπk(w,α)fk(y∣x,ϑk)
โดยที่อีกครั้งเป็นเวกเตอร์ของพารามิเตอร์ทั้งหมด แต่เรารวมถึงตัวแปรที่เกี่ยวข้องกันและฟังก์ชั่น (เช่นโลจิสติก) ที่ใช้ในการทำนายสัดส่วนที่แฝงอยู่บนพื้นฐานของตัวแปรที่เกี่ยวข้อง ดังนั้นก่อนอื่นคุณสามารถทำนายความน่าจะเป็นของการเป็นสมาชิกของคลาสและประเมินการถดถอยแบบคลัสเตอร์ภายในโมเดลเดียวψwπk(w,α)
ข้อดีและข้อเสีย
สิ่งที่ดีเกี่ยวกับมันคือมันเป็นเทคนิคการจัดกลุ่มแบบจำลองสิ่งที่คุณพอดีกับแบบจำลองข้อมูลของคุณและแบบจำลองดังกล่าวสามารถเปรียบเทียบโดยใช้วิธีการที่แตกต่างกันสำหรับการเปรียบเทียบแบบจำลอง (การทดสอบอัตราส่วนความน่าจะเป็น BIC, AIC เป็นต้น) ) ดังนั้นตัวเลือกของแบบจำลองขั้นสุดท้ายไม่ได้เป็นแบบอัตนัยเช่นเดียวกับการวิเคราะห์กลุ่มโดยทั่วไป การแบ่งปัญหาออกเป็นสองปัญหาอิสระของการทำคลัสเตอร์แล้วนำการถดถอยมาใช้อาจนำไปสู่ผลลัพธ์ที่มีอคติและการประเมินทุกอย่างในแบบจำลองเดียวช่วยให้คุณสามารถใช้ข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น
ข้อเสียคือคุณต้องตั้งสมมติฐานเกี่ยวกับแบบจำลองของคุณและมีความคิดบางอย่างเกี่ยวกับเรื่องนี้ดังนั้นจึงไม่ใช่วิธีกล่องดำที่จะใช้ข้อมูลและส่งคืนผลลัพธ์บางอย่างโดยไม่รบกวนคุณ ด้วยข้อมูลที่มีเสียงดังและตัวแบบที่ซับซ้อนคุณสามารถมีปัญหาในการระบุตัวแบบ นอกจากนี้เนื่องจากโมเดลดังกล่าวไม่ได้รับความนิยมจึงไม่ได้มีการใช้งานอย่างกว้างขวาง (คุณสามารถตรวจสอบแพ็คเกจ R ที่ยอดเยี่ยมflexmix
และpoLCA
เท่าที่ฉันทราบว่ามีการใช้งานใน SAS และ Mplus ในระดับหนึ่ง) สิ่งที่ทำให้คุณขึ้นอยู่กับซอฟต์แวร์
ตัวอย่าง
ด้านล่างนี้คุณสามารถดูตัวอย่างของรุ่นดังกล่าวจากflexmix
ห้องสมุด (Leisch 2004; Grun และ Leisch 2008) บทความสั้นกระชับส่วนผสมของสองรุ่นถดถอยข้อมูลทำขึ้น
library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
##
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
##
## prior size post>0 ratio
## Comp.1 0.506 100 141 0.709
## Comp.2 0.494 100 145 0.690
##
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09 BIC: 1332.775
parameters(m1, component = 1)
## Comp.1
## coef.(Intercept) 14.7171662
## coef.x 9.8458171
## coef.I(x^2) -0.9682602
## sigma 3.4808332
parameters(m1, component = 2)
## Comp.2
## coef.(Intercept) -0.20910955
## coef.x 4.81646040
## coef.I(x^2) 0.03629501
## sigma 3.47505076
มันเป็นภาพในแปลงต่อไปนี้ (รูปร่างจุดเป็นชั้นเรียนจริงสีเป็นประเภท)
การอ้างอิงและแหล่งข้อมูลเพิ่มเติม
สำหรับรายละเอียดเพิ่มเติมคุณสามารถตรวจสอบหนังสือและเอกสารต่อไปนี้:
Wedel, M. และ DeSarbo, WS (1995) แนวทางความเป็นไปได้ในการผสมสำหรับโมเดลเชิงเส้นทั่วไป วารสารการจำแนก, 12 , 21–55
Wedel, M. และ Kamakura, WA (2001) การแบ่งส่วนตลาด - พื้นฐานแนวคิดและระเบียบวิธี สำนักพิมพ์วิชาการ Kluwer
Leisch, F. (2004) Flexmix: กรอบทั่วไปสำหรับตัวแบบ จำกัด และการถดถอยกระจกแฝงใน R. Journal of Statistics Software, 11 (8) , 1-18
Grun, B. และ Leisch, F. (2008) FlexMix เวอร์ชั่น 2: การผสม จำกัด ด้วยตัวแปรที่เกี่ยวข้องและพารามิเตอร์ที่แตกต่างกัน
วารสารซอฟต์แวร์เชิงสถิติ, 28 (1) , 1-35
McLachlan, G. และ Peel, D. (2000) โมเดลผสม จำกัด John Wiley & Sons
Dayton, CM และ Macready, GB (1988) โมเดล Latent-Class ที่ผันแปรได้พร้อมกัน วารสารสมาคมสถิติอเมริกัน, 83 (401), 173-178
Linzer, DA และ Lewis, JB (2011) poLCA: แพ็คเกจ R สำหรับการวิเคราะห์คลาสตัวแปรแฝง วารสารซอฟต์แวร์เชิงสถิติ, 42 (10), 1-29
McCutcheon, AL (1987) การวิเคราะห์ระดับแฝง ปราชญ์.
Hagenaars JA และ McCutcheon, AL (2009) การวิเคราะห์ชั้นแฝงประยุกต์ สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
Vermunt, JK และ Magidson, J. (2003) แบบจำลองชั้นแฝงสำหรับการจำแนกประเภท สถิติการคำนวณและการวิเคราะห์ข้อมูล, 41 (3), 531-537
Grün, B. และ Leisch, F. (2007) การประยุกต์การ จำกัด การผสมของตัวแบบการถดถอย บทความแพคเกจ flexmix
Grün, B. , & Leisch, F. (2007) การผสมแบบ จำกัด ที่เหมาะสมของการถดถอยเชิงเส้นทั่วไปใน R.สถิติการคำนวณและการวิเคราะห์ข้อมูล, 51 (11), 5247-5252