ฉันกำลังสร้างแบบจำลองข้อมูลบางอย่างที่ฉันคิดว่าฉันมีผลกระทบแบบสุ่มข้ามสอง แต่ชุดข้อมูลไม่สมดุลและฉันไม่แน่ใจว่าต้องทำอะไรเพื่อบัญชี
ข้อมูลของฉันคือชุดของเหตุการณ์ เหตุการณ์เกิดขึ้นเมื่อลูกค้าพบกับผู้ให้บริการเพื่อดำเนินงานซึ่งประสบความสำเร็จหรือไม่ มีลูกค้าและผู้ให้บริการหลายพันรายและลูกค้าและผู้ให้บริการแต่ละรายมีส่วนร่วมในกิจกรรมที่แตกต่างกันจำนวน (ประมาณ 5 ถึง 500) ลูกค้าและผู้ให้บริการแต่ละรายมีระดับทักษะและโอกาสที่งานจะประสบความสำเร็จคือหน้าที่ของทักษะของผู้เข้าร่วมทั้งสอง ไม่มีการทับซ้อนระหว่างไคลเอนต์และผู้ให้บริการ
ฉันสนใจความแปรปรวนของประชากรของลูกค้าและผู้ให้บริการที่เกี่ยวข้องดังนั้นเราจึงสามารถทราบได้ว่าแหล่งข้อมูลใดมีผลต่ออัตราความสำเร็จมากขึ้น ฉันต้องการทราบค่าเฉพาะของทักษะระหว่างลูกค้าและผู้ให้บริการที่เรามีข้อมูลเพื่อระบุลูกค้าหรือผู้ให้บริการที่ดีที่สุด / แย่ที่สุด
ตอนแรกฉันต้องการสมมติว่าความน่าจะเป็นของความสำเร็จนั้นเกิดจากระดับทักษะรวมของลูกค้าและผู้ให้บริการโดยไม่มีผลกระทบคงที่อื่น ๆ ดังนั้นสมมติว่า x เป็นปัจจัยสำหรับลูกค้าและ y เป็นปัจจัยสำหรับผู้ให้บริการจากนั้นใน R (โดยใช้แพ็คเกจ lme4) ฉันมีรูปแบบที่ระบุเป็น:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
ปัญหาหนึ่งคือลูกค้าไม่ได้กระจายอย่างเท่าเทียมกันทั่วทั้งผู้ให้บริการ ลูกค้าที่มีทักษะสูงจะมีโอกาสที่จะจับคู่กับผู้ให้บริการที่มีทักษะสูงกว่า ความเข้าใจของฉันคือผลกระทบแบบสุ่มจะต้องไม่เกี่ยวข้องกับตัวทำนายอื่น ๆ ในโมเดล แต่ฉันไม่แน่ใจว่าจะอธิบายได้อย่างไร
นอกจากนี้ลูกค้าและผู้ให้บริการบางรายมีกิจกรรมน้อยมาก (น้อยกว่า 10) ในขณะที่ลูกค้าอื่นมีจำนวนมาก (มากถึง 500) ดังนั้นจึงมีข้อมูลจำนวนมากที่เรามีในผู้เข้าร่วมแต่ละคน เป็นการดีที่จะสะท้อนให้เห็นใน "ช่วงความเชื่อมั่น" รอบประมาณการทักษะของอนุภาคแต่ละตัว (แม้ว่าฉันคิดว่าช่วงความเชื่อมั่นของคำไม่ถูกต้องที่นี่)
เอฟเฟกต์แบบสุ่มจะมีปัญหาเพราะข้อมูลไม่สมดุลหรือไม่ ถ้าเป็นเช่นนั้นฉันควรพิจารณาแนวทางอื่นอย่างไร