วิธีการเรียนรู้เครื่องหลายตัวแปร (การทำนายตัวแปรตามหลายตัว)


9

ฉันต้องการทำนายกลุ่มของรายการที่บางคนจะซื้อ ... นั่นคือฉันมีตัวแปรที่ขึ้นอยู่กับหลายสี

แทนที่จะสร้างแบบจำลองอิสระ 7 แบบหรือมากกว่านั้นเพื่อคาดการณ์ความน่าจะเป็นของคนที่ซื้อแต่ละรายการจาก 7 รายการแล้วรวมผลลัพธ์ฉันควรพิจารณาวิธีใดเพื่อให้มีแบบจำลองหนึ่งแบบที่อธิบายความสัมพันธ์ระหว่างตัวแปรที่สัมพันธ์กันซึ่งขึ้นอยู่กับ 7 สิ่งที่พวกเขาสามารถซื้อได้)

ฉันใช้ R เป็นภาษาการเขียนโปรแกรมดังนั้นคำแนะนำเฉพาะของ R จึงเป็นที่ชื่นชม

คำตอบ:


7

จากคำอธิบายของคุณดูเหมือนว่าการถดถอยโลจิสติกพหุนามมีความเหมาะสม สมมติว่าผลลัพธ์ของคุณเป็นปัจจัยที่มี 7 ระดับ (หนึ่งใน 7 ตัวเลือกการซื้อ) จากนั้นคุณสามารถทำนายการเป็นสมาชิกได้อย่างรวดเร็วโดยใช้โมเดลการถดถอยโลจิสติกหลายตัวแปร (ดู?multinomในnnetแพ็คเกจใน R) หากผลลัพธ์ของคุณไม่สามารถรวมกันเป็นปัจจัยที่มี 7 ระดับการวิเคราะห์กลุ่มจะต้องมีการจัดกลุ่มรายการด้วยกันก่อนที่จะเหมาะสมกับการถดถอยโลจิสติก multinomial


มันไม่ได้เป็นถดถอยพหุนาม ฉันมี 7 ผลิตภัณฑ์ที่แตกต่างกันแต่ละผลิตภัณฑ์มี 4 ปัจจัย .... มีสตรอเบอร์รี่และประเภทสตรอเบอร์รี่จากนั้นนมและนมประเภทต่าง ๆ และแอปเปิ้ลและแอปเปิ้ลประเภทต่างๆและฉันต้องคาดเดาความถูกต้อง ตะกร้าช้อปปิ้ง ... แอปเปิ้ลเขียวชอุ่มด้วยสตรอเบอร์รี่ทำไร่นม 2% เป็นต้น
blast00

1
ฉันมีทางออกของคุณ! ฉันขอแนะนำการวิเคราะห์คลาสแฝงของโพลีโทมัสซึ่งผลลัพธ์คือชุดของปัจจัยที่คาดว่าจะจัดกลุ่มในคลาสที่ซ่อนเร้นอย่างน้อยหนึ่งคลาส การเป็นสมาชิกในคลาสเหล่านี้คาดการณ์จากการถดถอยโลจิสติกพหุนาม ดู?poLCAใน R สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการปรับรุ่นนี้ให้เหมาะสม
statsRus

ฉันกำลังอ่านสิ่งนี้ - ขอบคุณ statsRus ต้องมีวิธีอื่นด้วย
blast00

โดยเฉพาะอย่างยิ่งวิธีการเรียนรู้ของเครื่องเนื่องจากฉันไม่จำเป็นต้องมีการแจกแจงความน่าจะเป็น / ตกลงกับรูปแบบกล่องดำ
blast00

โปรดจำไว้ว่าแบบจำลองทางสถิติมีอยู่จริงในความเป็นจริงแล้วโมเดลการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแล - แต่คุณพูดถูกเรามักจะสนใจอินพุตกับโมเดลเหล่านี้ สำหรับการเรียนรู้ของเครื่องจักรภายใต้การดูแลด้วยอินพุตและผลลัพธ์จำนวนมาก (และคุณภาพกล่องดำ) ฉันขอแนะนำเครือข่ายประสาท ( ?nnetใน R)
statsRus

5

คุณสามารถสร้างป่าสุ่มซึ่งแต่ละชั้นเรียนของคุณเป็นกลุ่มของรายการ (เช่น "แอปเปิ้ลเขียวกับสตรอเบอร์รี่ทำไร่ไถนาพร้อมนม 2%") จากนั้นขึ้นอยู่กับลักษณะของนักช้อปหรือสิ่งที่คุณคาดการณ์คุณจะสามารถคาดการณ์ความน่าจะเป็นสำหรับการซื้อสินค้าแต่ละกลุ่ม ฉันจะใช้แพ็คเกจ randomForest ของ R ( https://cran.r-project.org/web/packages/randomForest/index.html ) เพื่อทำสิ่งนี้


3

ทางเลือกหนึ่งคือรับความถี่ของการรวมกันทั้งหมดของการซื้อผลิตภัณฑ์ เลือกชุดค่าผสมที่พบบ่อยที่สุดไม่กี่ชุด จากนั้นสร้างแบบจำลองการถดถอยเพื่อทำนายชุดค่าผสมที่เลือกของแต่ละบุคคล เช่นด้วยการถดถอยโลจิสติกแบบไบนารีคุณสามารถทำนายการซื้อ a) ไวน์ขาว Brie สตรอเบอร์รี่และองุ่นเทียบกับ b) ไวน์แดง Cheddar และ Gouda ด้วยชุดค่าผสมดังกล่าวมากกว่า 2 ชุดหรือหากคุณต้องการรวมหมวดหมู่ของ "ไม่มีข้อใดข้างต้น" การถดถอยโลจิสติกพหุนามอาจเป็นวิธีการเลือก

โปรดทราบว่าการรวมคอมโบทั่วไปนั้นหมายความว่าคุณจะมีจำนวนที่สามารถใช้งานได้ของแต่ละคนมากขึ้น แต่คุณจะต้องยกเว้นคนอื่น ๆ อย่างน้อยจากขั้นตอนนี้ ฉันสามารถจินตนาการถึง 7 รายการที่สร้างคอมโบนับสิบที่เลือกโดยคนอย่างน้อยสองสามคน นี่อาจเป็นหมวดหมู่มากเกินไปสำหรับขนาดตัวอย่างของคุณ ยิ่งกว่านั้นถ้าคอมโบถูกเลือกโดยคนเพียงไม่กี่คนโมเดลของคุณจะมีข้อมูลน้อยมากที่จะทำงานด้วย

อีกทางเลือกหนึ่งคือการใช้การวิเคราะห์กลุ่มเพื่อมาถึงรายการบางอย่างที่มีแนวโน้มที่จะซื้อพร้อมกัน ด้วย 7 รายการคุณอาจท้ายด้วยน้อยกว่า 4 กลุ่มซึ่งอาจทำให้งานของคุณง่ายขึ้น หากคุณลองวิเคราะห์กลุ่มและค้นหาผลลัพธ์ที่ไม่สามารถใช้งานได้ไม่มีเหตุผลที่คุณต้องใช้พวกเขา: เพียงกลับไปที่วิธีการตามความถี่ที่อธิบายไว้ข้างต้น ในกรณีนี้ถ้าฉันอ่านคุณถูกต้องคุณกำลังมองหาหมวดหมู่ที่มีความหมายและน่าสนใจที่สุดและในการสร้างสิ่งนั้นคุณไม่จำเป็นต้องกังวลเกี่ยวกับองศาอิสระหรือการเปรียบเทียบหลายครั้งหรือข้อกังวลใด ๆ ที่อาจนำไปใช้ หากคุณลองใช้วิธีการหลายวิธีในการทดสอบแบบอนุมาน


ขอบคุณสำหรับคำแนะนำนี้ ต้องมีวิธีการเรียนรู้ด้วยเครื่องหลายตัวแปร Simliar ถึงวิธีที่คุณอาจมีตัวแปรตาม 2 ตัวในรูปแบบการถดถอย "ง่ายขึ้น" และคุณก็ทำ lm (y + z ~ ... ) .. ฉันคิด ..
blast00

0

ฉันสมมติว่าคุณต้องการวิเคราะห์สถานการณ์ที่คล้ายกันดังต่อไปนี้

Yi = f (X) โดยที่ f () เป็นลิงก์ที่ไม่ใช่เชิงเส้นและ X เป็นเวกเตอร์ของ covariates และ Yi เป็นตัวแปรตาม i-th ซึ่งเป็นลำดับในธรรมชาติ (ถ้าเป็นหมวดหมู่ Yi ไม่สามารถมีมากกว่าสอง หมวดหมู่) และพูดในแบบจำลองของคุณ i = 1, 2, ... 5 และ Yi s แต่ละตัวมีความสัมพันธ์กัน ... ถ้าใช่คุณสามารถใช้ Multivariate Probit ได้ R, Mplus และ SAS สามารถประมาณ MVP

ในทางตรงกันข้ามคุณมี Y = f (X) และ Y (สังเกตเห็นว่ามีเพียงหนึ่ง Y) เป็นหมวดหมู่และตัวอย่างเช่นมีหมวดหมู่ N เพื่อให้ตัวเลือกที่ทำขึ้นในหมวด N เป็นเอกสิทธิ์และครบถ้วนสมบูรณ์; คุณต้องใส่โมเดล Multinomial Logit มีบางอย่างที่เรียกว่า multinomial probit เหมือนกันคือ simialr to multinomial Logit

หวังว่านี่จะช่วยได้ ขอบคุณ Sanjoy

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.