ความน่าจะเป็นที่ใครบางคนจะชอบภาพ


11

ฉันมีปัญหาต่อไปนี้:
- เราได้ตั้งค่าของคน N
- เรามีชุดของภาพ K
- แต่ละคนให้คะแนนภาพจำนวนหนึ่ง บุคคลอาจจะชอบหรือไม่ชอบภาพ (สิ่งเหล่านี้เป็นเพียงสมบัติสองอย่าง) - ปัญหาคือวิธีการคำนวณความน่าจะเป็นที่บางคนชอบภาพที่เฉพาะเจาะจง

ฉันจะยกตัวอย่างนำเสนอสัญชาตญาณของฉัน
N = 4
K = 5
+ หมายความว่าบุคคลนั้นชอบภาพ
- หมายความว่าบุคคลนั้นไม่ชอบรูปภาพ
0 หมายความว่าบุคคลนั้นไม่ได้ถูกถามเกี่ยวกับภาพและควรคาดการณ์ค่านั้น

x 1 2 3 4 5    
1 + - 0 0 +   
2 + - + 0 +  
3 - - + + 0  
4 - 0 - - -

คนที่ 1 อาจจะชอบภาพที่ 3 เพราะคนที่ 2 มีการตั้งค่าที่คล้ายกันและคนที่ 2 ชอบภาพที่ 3
คนที่ 4 อาจจะไม่ชอบภาพที่ 2 เพราะไม่มีใครชอบมันและอีกคนที่ 4 ไม่ชอบภาพส่วนใหญ่

มีวิธีใดที่รู้จักกันดีซึ่งสามารถใช้ในการคำนวณความน่าจะเป็นได้หรือไม่?


ด้วยประสบการณ์ที่ จำกัด ของฉันฉันไม่สามารถให้คำตอบที่แน่นอน อย่างไรก็ตามฉันเชื่อว่าคุณสามารถใช้ข้อมูลพาเนล (เนื่องจากคุณพิจารณาในรูปแบบตัวอย่างของคุณภายในบุคคลและระหว่างบุคคล) ด้วย logit บางทีคนอื่น ๆ สามารถอธิบายรายละเอียดเกี่ยวกับเรื่องนี้ ...
teucer

ตัวอย่างเล็ก ๆ ของคุณมีประโยชน์มาก แต่ฉันคิดว่าชุดข้อมูลจริงของคุณใหญ่กว่า มีขนาดใหญ่ขึ้นเท่าใด (คร่าวๆ) Nและk ที่แท้จริงของคุณมีขนาดเท่าใด
onestop

N และ k อาจมีขนาดใหญ่ แต่พลังการคำนวณไม่เป็นปัญหา
Tomek Tarczynski

คำตอบ:


6

ผมเชื่อว่านี่เป็นปัญหามาตรฐานของความร่วมมือการกรอง การค้นหา google ให้ผลลัพธ์นับพันรายการ


1
หรือจักรยานเสือภูเขา (+1)
chl

6

ดูเหมือนว่าเป็นปัญหาที่ดีสำหรับการเรียนรู้ของเครื่องดังนั้นฉันจะมีสมาธิกับวิธีการกลุ่มนี้

สิ่งแรกและแนวคิดที่ชัดเจนที่สุดคืออัลกอริทึม kNN ที่นั่นคุณคำนวณความคล้ายคลึงกันในหมู่ผู้ชมก่อนแล้วจึงคาดคะเนคะแนนที่ขาดหายไปด้วยคะแนนเฉลี่ยของภาพนี้จากผู้ใช้ที่คล้ายกัน สำหรับรายละเอียดดูวิกิพีเดีย

แนวคิดอื่นคือการปลูกป่าแบบสุ่มที่ไม่ได้รับการดูแลบนข้อมูลนี้ (ไม่ว่าจะด้วยวิธีใดด้วยคุณลักษณะในภาพหรือผู้คนสิ่งที่ดีกว่า) และใส่ข้อมูลที่ขาดหายไปตามโครงสร้างของป่า วิธีการทั้งหมดจะดำเนินการและอธิบายไว้ในrandomForestแพคเกจR มองหาrfImputeฟังก์ชั่น

ในที่สุดคุณสามารถปรับโครงสร้างปัญหาให้เป็นงานการจำแนกประเภทธรรมดาทำวัตถุของแต่ละศูนย์ในเมทริกซ์และลองคิดถึงตัวอธิบายที่สมเหตุสมผล (เช่นการโหวตจากผู้ชมโดยเฉลี่ยการโหวตภาพโดยเฉลี่ยการโหวตมากที่สุดอันดับสอง . วิวเวอร์ที่คล้ายกัน, เหมือนกันกับรูปภาพ, อาจเป็นข้อมูลภายนอก (ค่าสีของภาพ, อายุของผู้ออกเสียงลงคะแนน, ฯลฯ ) จากนั้นลองใช้ตัวแยกประเภทต่าง ๆ ของข้อมูลนี้ (SVM, RF, NB, ... )

นอกจากนี้ยังมีความเป็นไปได้ที่ซับซ้อนบางอย่าง สำหรับภาพรวมคุณสามารถค้นหาคำตอบรางวัลของ Netflix (ซึ่งเป็นปัญหาที่คล้ายกัน)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.