วิธีการหนึ่งที่ควรจัดการกับข้อมูลโดยนัยในการแนะนำ


10

ระบบการแนะนำจะเก็บบันทึกการแนะนำที่ทำไว้กับผู้ใช้เฉพาะและผู้ใช้นั้นยอมรับการแนะนำนั้นหรือไม่ มันเหมือนกับ

user_id item_id result
1       4       1
1       7       -1
5       19      1
5       80      1

โดยที่ 1 หมายถึงผู้ใช้ยอมรับคำแนะนำในขณะที่ -1 หมายถึงผู้ใช้ไม่ตอบสนองต่อข้อเสนอแนะ

คำถาม:หากฉันจะให้คำแนะนำกับกลุ่มผู้ใช้ตามประเภทของบันทึกที่อธิบายไว้ข้างต้นและฉันต้องการเพิ่มคะแนน MAP @ 3 ให้มากที่สุดฉันจะจัดการกับข้อมูลโดยนัยได้อย่างไร (1 หรือ -1)

ความคิดของฉันคือปฏิบัติต่อการจัดอันดับ 1 และ -1 และทำนายการจัดอันดับโดยใช้อัลกอริธึมชนิดเครื่องแยกตัวประกอบ แต่สิ่งนี้ดูไม่ถูกต้องเนื่องจากความไม่สมดุลของข้อมูลโดยนัย (-1 ไม่ได้หมายความว่าผู้ใช้ไม่ชอบคำแนะนำ)

แก้ไข 1 ให้เราคิดในบริบทของวิธีการแยกตัวประกอบแบบเมทริกซ์ หากเราถือว่าการให้คะแนนเป็น 1 และ 1 จะมีปัญหาบางอย่าง ตัวอย่างเช่นผู้ใช้ 1 คนชอบภาพยนตร์ A ซึ่งมีคะแนนสูงในปัจจัยเดียว (เช่นมีเพลงพื้นหลังอันรุ่งโรจน์) ในพื้นที่ปัจจัยแฝง ระบบแนะนำให้ภาพยนตร์ B ซึ่งมีคะแนนสูงใน "เพลงพื้นหลังอันรุ่งโรจน์" แต่ด้วยเหตุผลบางอย่างที่ผู้ใช้ 1 ไม่ว่างที่จะตรวจสอบคำแนะนำและเรามีภาพยนตร์ที่มีเรตติ้ง -1 ถ้าเราปฏิบัติต่อ 1 หรือ -1 อย่างเท่าเทียมกัน จากนั้นระบบอาจถูกแนะนำให้แนะนำภาพยนตร์ที่มี BGM อันทรงเกียรติแก่ผู้ใช้ 1 ในขณะที่ผู้ใช้ 1 ยังคงรักภาพยนตร์ที่มี BGM อันรุ่งโรจน์ ฉันคิดว่าสถานการณ์นี้ควรหลีกเลี่ยง


ไม่มีปัญหาที่ -1 ไม่ได้หมายความว่าไม่ชอบ มันเป็นวิธีการแยกความแตกต่างที่ใครบางคนเห็นรายการ ในแง่นั้นมันมีข้อมูลมากกว่าค่าที่หายไป มันอาจเพิ่มความแม่นยำของคำแนะนำของคุณ ขึ้นอยู่กับการวัดระยะทางของคุณในการแนะนำคุณอาจพิจารณาเปลี่ยนจาก -1 เป็นค่าตัวชี้วัดเล็กน้อยดังนั้นมันจะไม่ส่งผลต่อระยะทางมากนัก
cwharland

1
กระดาษที่ยอมรับสำหรับความคิดเห็นโดยปริยายคือHu, โคเรนและ Volinsky มีคำแนะนำที่ดีมากมายรวมถึงการประเมินความเชื่อมั่นของคุณซึ่ง -1 หมายถึงไม่ชอบหรือเพียงแค่ "ไม่เห็น"
แต้ม

คำตอบ:


6

ระบบของคุณไม่ได้รับการฝึกฝนในรายการที่แนะนำใช่ไหม? ถ้าเป็นเช่นนั้นคุณมีข้อเสนอแนะขนาดใหญ่วนที่นี่ คุณต้องการเรียนรู้จากการคลิก / มุมมองทั้งหมดฉันหวังว่า

คุณแนะนำว่าการไม่ดูรายการนั้นเป็นสัญญาณลบ ฉันขอแนะนำให้คุณอย่าปฏิบัติอย่างนั้น การไม่โต้ตอบกับบางสิ่งนั้นถือว่าเป็นข้อมูลที่ดีที่สุดเสมอ หากคุณมีสัญญาณชัดเจนที่บ่งบอกว่าไม่ชอบเช่นลงคะแนน (หรืออาจดูวิดีโอ 10 วินาทีและหยุด) อาจเป็นไปได้

ฉันจะไม่ตีความอินพุตนี้เป็นข้อมูลที่คล้ายเรตติ้ง (แม้ว่าในกรณีของคุณคุณอาจหนีไปได้) แทนที่จะคิดว่ามันเป็นน้ำหนักซึ่งเป็นการรักษาในกระดาษ Hu Koren Volinsky บน ALS ที่ @Trey กล่าวถึงในความคิดเห็น สิ่งนี้ช่วยให้คุณสามารถบันทึกความสัมพันธ์เชิงบวกของการโต้ตอบแบบบวก / ลบ

ในที่สุดฉันจะทราบว่าบทความนี้ในขณะที่มีแนวโน้มที่จะเป็นสิ่งที่คุณกำลังมองหาไม่ได้ให้น้ำหนักเชิงลบ มันง่ายที่จะขยายในลักษณะนี้ ถ้าคุณได้รับที่ไกลฉันจะชี้ให้คุณนามสกุลง่ายซึ่งมีอยู่แล้วในสองการใช้งานที่ฉันรู้ในการจุดประกายและOryx


2
ฉันคิดว่าการใส่ค่าลบเล็กน้อยสำหรับรายการที่เคยเห็นมาหลายครั้ง แต่ไม่เคยเลือกนั้นสมเหตุสมผล OP ไม่ได้ระบุว่าพวกเขาสามารถเข้าถึงข้อมูลที่มีคุณสมบัติเป็นลบได้ ขนาดที่เหมาะสมของค่าลบสามารถพิจารณาได้จากข้อมูล ฉันมีกำไรเล็กน้อยจากการทำเช่นนี้ในสถานการณ์จำลอง ในกรณีใด ๆ ... คุณจะแนะนำวิธีอื่นในการแยกแยะความแตกต่างระหว่างไอเท็มที่เห็นเพียงครั้งเดียวและไม่ได้ถูกเลือกเทียบกับการเห็น N ครั้งและไม่เคยเลือกนอกเหนือจากการลบเชิงลบ?
cwharland
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.