มีอัลกอริทึมใดบ้างที่รวมการจำแนกและการถดถอย


25

ฉันสงสัยว่ามีอัลกอริทึมใดที่สามารถจำแนกและถดถอยได้ในเวลาเดียวกัน ตัวอย่างเช่นฉันต้องการให้อัลกอริทึมเรียนรู้ลักษณนามและในเวลาเดียวกันภายในแต่ละเลเบลมันก็เรียนรู้เป้าหมายอย่างต่อเนื่อง ดังนั้นสำหรับตัวอย่างการฝึกอบรมแต่ละรายการจะมีป้ายกำกับหมวดหมู่และค่าต่อเนื่อง

ฉันสามารถฝึกลักษณนามก่อนแล้วจึงฝึก regressor ภายในแต่ละ label แต่ฉันแค่คิดว่าถ้ามีอัลกอริทึมที่สามารถทำทั้งสองอย่างได้มันจะวิเศษมาก


มาดูการแบ่งพาร์ติ
ชั่นแบบไม่เอนเอียง

@Tim [finite-fixture-model] (แท็กที่คุณใช้ที่นี่) ไม่มีข้อความที่ตัดตอนมา สนใจที่จะให้หรือไม่
อะมีบาพูดว่า Reinstate Monica

Shudong คุณหมายถึง "Classification" หรือคุณหมายถึง "clustering" คุณถามเกี่ยวกับการจำแนกประเภท แต่จากนั้นยอมรับคำตอบของ Tim ซึ่งเกี่ยวกับการจัดกลุ่ม
อะมีบาพูดว่า Reinstate Monica

@ amoeba ทำมันไม่ได้สมบูรณ์แบบอาจจะมีใครสักคนสักวันหนึ่งจะปรับปรุงข้อความที่ตัดตอนมา
ทิม

@ amoeba ฉันหมายถึงการจำแนก คำตอบ Tims เป็นสิ่งที่ใกล้ ไม่มีคำตอบอื่น ๆ บางทีฉันควรรอสักครู่
Shudong

คำตอบ:


35

ปัญหาที่คุณจะอธิบายสามารถแก้ไขได้โดยการถดถอยระดับแฝงหรือถดถอยคลัสเตอร์ฉลาดหรือนามสกุลส่วนผสมของทั่วไปเส้นตรงรุ่นที่มีสมาชิกทั้งหมดของครอบครัวกว้างของรุ่นส่วนผสม จำกัดหรือรุ่นกลุ่มแฝง

มันไม่ใช่การจำแนกประเภท (การเรียนรู้แบบมีผู้สอน) และการถดถอยต่อแต่เป็นการรวมกลุ่ม (การเรียนรู้แบบไม่ดูแล) และการถดถอย วิธีการพื้นฐานสามารถขยายได้เพื่อให้คุณคาดการณ์ความเป็นสมาชิกของคลาสโดยใช้ตัวแปรที่สอดคล้องกันสิ่งที่ทำให้มันใกล้เคียงกับสิ่งที่คุณกำลังมองหา ในความเป็นจริงการใช้แบบจำลองชั้นแฝงสำหรับการจำแนกประเภทอธิบายโดย Vermunt และ Magidson (2003) ซึ่งแนะนำให้ใช้กับเทเช่น

การถดถอยระดับแฝง

วิธีการนี้โดยทั่วไปจะเป็นแบบจำกัด (หรือการวิเคราะห์ระดับแฝง ) ในรูปแบบ

f(yx,ψ)=k=1Kπkfk(yx,ϑk)

ที่เป็นเวกเตอร์ของพารามิเตอร์และเป็นส่วนประกอบผสม parametrized โดยและแต่ละองค์ประกอบจะปรากฏขึ้นกับสัดส่วนแฝง\ดังนั้นความคิดที่ว่าการกระจายของข้อมูลของคุณเป็นส่วนผสมของส่วนประกอบแต่ละเครื่องที่สามารถอธิบายได้ด้วยรูปแบบการถดถอยปรากฏตัวพร้อมกับความน่าจะเป็น\แบบจำลองไฟไนต์เอลิเมนต์มีความยืดหยุ่นอย่างมากในการเลือกส่วนประกอบและสามารถขยายไปยังรูปแบบอื่นและการผสมของคลาสที่แตกต่างกันของแบบจำลอง (เช่นการผสมของตัววิเคราะห์ปัจจัย)ψ=(π,ϑ)fkϑkπkKfkπkfk

การทำนายความน่าจะเป็นของการเป็นสมาชิกของกลุ่มขึ้นอยู่กับตัวแปรที่เข้ากัน

โมเดลการถดถอยคลาสแฝงแบบง่ายสามารถขยายได้เพื่อรวมตัวแปรเข้าด้วยกันที่ทำนายการเป็นสมาชิกของคลาส (Dayton และ Macready, 1998; ดูเพิ่มเติมที่: Linzer and Lewis, 2011; Grun and Leisch, 2008; McCutcheon, 1987; Hagenaars and McCutcheon, 2009) ในกรณีเช่นนี้รูปแบบจะกลายเป็น

f(yx,w,ψ)=k=1Kπk(w,α)fk(yx,ϑk)

โดยที่อีกครั้งเป็นเวกเตอร์ของพารามิเตอร์ทั้งหมด แต่เรารวมถึงตัวแปรที่เกี่ยวข้องกันและฟังก์ชั่น (เช่นโลจิสติก) ที่ใช้ในการทำนายสัดส่วนที่แฝงอยู่บนพื้นฐานของตัวแปรที่เกี่ยวข้อง ดังนั้นก่อนอื่นคุณสามารถทำนายความน่าจะเป็นของการเป็นสมาชิกของคลาสและประเมินการถดถอยแบบคลัสเตอร์ภายในโมเดลเดียวψwπk(w,α)

ข้อดีและข้อเสีย

สิ่งที่ดีเกี่ยวกับมันคือมันเป็นเทคนิคการจัดกลุ่มแบบจำลองสิ่งที่คุณพอดีกับแบบจำลองข้อมูลของคุณและแบบจำลองดังกล่าวสามารถเปรียบเทียบโดยใช้วิธีการที่แตกต่างกันสำหรับการเปรียบเทียบแบบจำลอง (การทดสอบอัตราส่วนความน่าจะเป็น BIC, AIC เป็นต้น) ) ดังนั้นตัวเลือกของแบบจำลองขั้นสุดท้ายไม่ได้เป็นแบบอัตนัยเช่นเดียวกับการวิเคราะห์กลุ่มโดยทั่วไป การแบ่งปัญหาออกเป็นสองปัญหาอิสระของการทำคลัสเตอร์แล้วนำการถดถอยมาใช้อาจนำไปสู่ผลลัพธ์ที่มีอคติและการประเมินทุกอย่างในแบบจำลองเดียวช่วยให้คุณสามารถใช้ข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น

ข้อเสียคือคุณต้องตั้งสมมติฐานเกี่ยวกับแบบจำลองของคุณและมีความคิดบางอย่างเกี่ยวกับเรื่องนี้ดังนั้นจึงไม่ใช่วิธีกล่องดำที่จะใช้ข้อมูลและส่งคืนผลลัพธ์บางอย่างโดยไม่รบกวนคุณ ด้วยข้อมูลที่มีเสียงดังและตัวแบบที่ซับซ้อนคุณสามารถมีปัญหาในการระบุตัวแบบ นอกจากนี้เนื่องจากโมเดลดังกล่าวไม่ได้รับความนิยมจึงไม่ได้มีการใช้งานอย่างกว้างขวาง (คุณสามารถตรวจสอบแพ็คเกจ R ที่ยอดเยี่ยมflexmixและpoLCAเท่าที่ฉันทราบว่ามีการใช้งานใน SAS และ Mplus ในระดับหนึ่ง) สิ่งที่ทำให้คุณขึ้นอยู่กับซอฟต์แวร์

ตัวอย่าง

ด้านล่างนี้คุณสามารถดูตัวอย่างของรุ่นดังกล่าวจากflexmixห้องสมุด (Leisch 2004; Grun และ Leisch 2008) บทความสั้นกระชับส่วนผสมของสองรุ่นถดถอยข้อมูลทำขึ้น

library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
## 
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
## 
##        prior size post>0 ratio
## Comp.1 0.506  100    141 0.709
## Comp.2 0.494  100    145 0.690
## 
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09   BIC: 1332.775 
parameters(m1, component = 1)
##                      Comp.1
## coef.(Intercept) 14.7171662
## coef.x            9.8458171
## coef.I(x^2)      -0.9682602
## sigma             3.4808332
parameters(m1, component = 2)
##                       Comp.2
## coef.(Intercept) -0.20910955
## coef.x            4.81646040
## coef.I(x^2)       0.03629501
## sigma             3.47505076

มันเป็นภาพในแปลงต่อไปนี้ (รูปร่างจุดเป็นชั้นเรียนจริงสีเป็นประเภท)

ตัวอย่างการถดถอยคลาสแฝง

การอ้างอิงและแหล่งข้อมูลเพิ่มเติม

สำหรับรายละเอียดเพิ่มเติมคุณสามารถตรวจสอบหนังสือและเอกสารต่อไปนี้:

Wedel, M. และ DeSarbo, WS (1995) แนวทางความเป็นไปได้ในการผสมสำหรับโมเดลเชิงเส้นทั่วไป วารสารการจำแนก, 12 , 21–55

Wedel, M. และ Kamakura, WA (2001) การแบ่งส่วนตลาด - พื้นฐานแนวคิดและระเบียบวิธี สำนักพิมพ์วิชาการ Kluwer

Leisch, F. (2004) Flexmix: กรอบทั่วไปสำหรับตัวแบบ จำกัด และการถดถอยกระจกแฝงใน R. Journal of Statistics Software, 11 (8) , 1-18

Grun, B. และ Leisch, F. (2008) FlexMix เวอร์ชั่น 2: การผสม จำกัด ด้วยตัวแปรที่เกี่ยวข้องและพารามิเตอร์ที่แตกต่างกัน วารสารซอฟต์แวร์เชิงสถิติ, 28 (1) , 1-35

McLachlan, G. และ Peel, D. (2000) โมเดลผสม จำกัด John Wiley & Sons

Dayton, CM และ Macready, GB (1988) โมเดล Latent-Class ที่ผันแปรได้พร้อมกัน วารสารสมาคมสถิติอเมริกัน, 83 (401), 173-178

Linzer, DA และ Lewis, JB (2011) poLCA: แพ็คเกจ R สำหรับการวิเคราะห์คลาสตัวแปรแฝง วารสารซอฟต์แวร์เชิงสถิติ, 42 (10), 1-29

McCutcheon, AL (1987) การวิเคราะห์ระดับแฝง ปราชญ์.

Hagenaars JA และ McCutcheon, AL (2009) การวิเคราะห์ชั้นแฝงประยุกต์ สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

Vermunt, JK และ Magidson, J. (2003) แบบจำลองชั้นแฝงสำหรับการจำแนกประเภท สถิติการคำนวณและการวิเคราะห์ข้อมูล, 41 (3), 531-537

Grün, B. และ Leisch, F. (2007) การประยุกต์การ จำกัด การผสมของตัวแบบการถดถอย บทความแพคเกจ flexmix

Grün, B. , & Leisch, F. (2007) การผสมแบบ จำกัด ที่เหมาะสมของการถดถอยเชิงเส้นทั่วไปใน R.สถิติการคำนวณและการวิเคราะห์ข้อมูล, 51 (11), 5247-5252

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.