ข้ามเอฟเฟกต์แบบสุ่มและข้อมูลที่ไม่สมดุล


10

ฉันกำลังสร้างแบบจำลองข้อมูลบางอย่างที่ฉันคิดว่าฉันมีผลกระทบแบบสุ่มข้ามสอง แต่ชุดข้อมูลไม่สมดุลและฉันไม่แน่ใจว่าต้องทำอะไรเพื่อบัญชี

ข้อมูลของฉันคือชุดของเหตุการณ์ เหตุการณ์เกิดขึ้นเมื่อลูกค้าพบกับผู้ให้บริการเพื่อดำเนินงานซึ่งประสบความสำเร็จหรือไม่ มีลูกค้าและผู้ให้บริการหลายพันรายและลูกค้าและผู้ให้บริการแต่ละรายมีส่วนร่วมในกิจกรรมที่แตกต่างกันจำนวน (ประมาณ 5 ถึง 500) ลูกค้าและผู้ให้บริการแต่ละรายมีระดับทักษะและโอกาสที่งานจะประสบความสำเร็จคือหน้าที่ของทักษะของผู้เข้าร่วมทั้งสอง ไม่มีการทับซ้อนระหว่างไคลเอนต์และผู้ให้บริการ

ฉันสนใจความแปรปรวนของประชากรของลูกค้าและผู้ให้บริการที่เกี่ยวข้องดังนั้นเราจึงสามารถทราบได้ว่าแหล่งข้อมูลใดมีผลต่ออัตราความสำเร็จมากขึ้น ฉันต้องการทราบค่าเฉพาะของทักษะระหว่างลูกค้าและผู้ให้บริการที่เรามีข้อมูลเพื่อระบุลูกค้าหรือผู้ให้บริการที่ดีที่สุด / แย่ที่สุด

ตอนแรกฉันต้องการสมมติว่าความน่าจะเป็นของความสำเร็จนั้นเกิดจากระดับทักษะรวมของลูกค้าและผู้ให้บริการโดยไม่มีผลกระทบคงที่อื่น ๆ ดังนั้นสมมติว่า x เป็นปัจจัยสำหรับลูกค้าและ y เป็นปัจจัยสำหรับผู้ให้บริการจากนั้นใน R (โดยใช้แพ็คเกจ lme4) ฉันมีรูปแบบที่ระบุเป็น:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

ปัญหาหนึ่งคือลูกค้าไม่ได้กระจายอย่างเท่าเทียมกันทั่วทั้งผู้ให้บริการ ลูกค้าที่มีทักษะสูงจะมีโอกาสที่จะจับคู่กับผู้ให้บริการที่มีทักษะสูงกว่า ความเข้าใจของฉันคือผลกระทบแบบสุ่มจะต้องไม่เกี่ยวข้องกับตัวทำนายอื่น ๆ ในโมเดล แต่ฉันไม่แน่ใจว่าจะอธิบายได้อย่างไร

นอกจากนี้ลูกค้าและผู้ให้บริการบางรายมีกิจกรรมน้อยมาก (น้อยกว่า 10) ในขณะที่ลูกค้าอื่นมีจำนวนมาก (มากถึง 500) ดังนั้นจึงมีข้อมูลจำนวนมากที่เรามีในผู้เข้าร่วมแต่ละคน เป็นการดีที่จะสะท้อนให้เห็นใน "ช่วงความเชื่อมั่น" รอบประมาณการทักษะของอนุภาคแต่ละตัว (แม้ว่าฉันคิดว่าช่วงความเชื่อมั่นของคำไม่ถูกต้องที่นี่)

เอฟเฟกต์แบบสุ่มจะมีปัญหาเพราะข้อมูลไม่สมดุลหรือไม่ ถ้าเป็นเช่นนั้นฉันควรพิจารณาแนวทางอื่นอย่างไร

คำตอบ:


4

สำหรับข้อมูลที่ไม่สมดุล Glmer สามารถจัดการกับกลุ่มที่ไม่สมดุลนั่นคือจุดของการพัฒนาแบบจำลองแบบผสมเมื่อเทียบกับ ANOVAs แบบวัดซ้ำซึ่ง จำกัด การออกแบบที่สมดุล การรวมลูกค้าหรือผู้ให้บริการที่มีเหตุการณ์เพียงเล็กน้อย (แม้เพียงเหตุการณ์เดียว) ก็ยังดีกว่าการละไว้เนื่องจากจะปรับปรุงการประมาณค่าความแปรปรวนที่เหลือ (ดูMartin et al. 2011 )

หากคุณต้องการใช้ BLUP ( ranef(model)) เป็นพร็อกซีของทักษะคุณจะต้องประเมินความไม่แน่นอนเกี่ยวกับการทำนายจุดของคุณ สิ่งนี้สามารถทำได้ในกรอบบ่อยครั้งโดยใช้ranef(model, postVar=TRUE)หรือผ่านการกระจายหลังในกรอบ Bayesian อย่างไรก็ตามคุณไม่ควรใช้ BLUP เป็นตัวแปรตอบกลับในตัวแบบการถดถอยเพิ่มเติม: ดูHadfield และคณะ (2010)สำหรับตัวอย่างการใช้ BLUP ในทางที่ผิดและวิธีการที่แตกต่างกันเพื่อพิจารณาความไม่แน่นอนของพวกเขาอย่างเพียงพอ

สำหรับความสัมพันธ์ของทักษะระหว่างลูกค้าและผู้ให้บริการความไม่สมดุลนี้อาจเป็นปัญหาได้หากมีความแข็งแกร่งมากเพราะจะช่วยป้องกันการประเมินความแปรปรวนอย่างถูกต้องเนื่องจากแต่ละเอฟเฟกต์แบบสุ่ม ดูเหมือนจะไม่มีกรอบการทำงานแบบผสมที่สามารถจัดการความสัมพันธ์ระหว่างการสกัดแบบสุ่ม (ดูที่นี่สำหรับการแสดงออกอย่างเป็นทางการของปัญหาของคุณ) คุณอาจจะแม่นยำว่าความสำเร็จโดยเฉลี่ยของลูกค้าและผู้ให้บริการมีความสัมพันธ์กันอย่างไร


ขอบคุณมากสำหรับการแก้ปัญหาคำถามเก่าของฉัน คำตอบนั้นยังเกี่ยวข้องและคำแนะนำและการอ้างอิงได้รับการชื่นชม ขออภัยมันใช้เวลานานมากสำหรับฉันที่จะสังเกตเห็นว่ามันอยู่ที่นั่น! ฉันทำเครื่องหมายว่าแก้ไขแล้ว
Colonel.triq
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.